このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20241015となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# パラフレーズタイプのプロンプト工学能力
Paraphrase Types Elicit Prompt Engineering Capabilities ( http://arxiv.org/abs/2406.19898v2 ) ライセンス: Link先を確認 | Jan Philip Wahle, Terry Ruas, Yang Xu, Bela Gipp, | (参考訳) 現代の言語モデルの成功の多くは、モデルを指示する適切なプロンプトを見つけることに依存している。
これまで、プロンプトの言語表現の変化がこれらのモデルにどのように影響するかはほとんど分かっていなかった。
本研究は,言語的特徴がパラフレーズ型,すなわち特定の位置における異なる言語的変化を通してモデルにどのような影響を及ぼすかを系統的および実証的に評価する。
120のタスクにまたがる5つのモデルと6つのパラフレーズ(形態学、構文、語彙、語彙、構文、談話など)に対する行動変化を測定する。
また、他のプロンプトエンジニアリング要因(例えば、プロンプトの長さ、語彙の多様性、トレーニングデータに近い)も制御します。
その結果,特定のパラフレーズ型(Mixtral 8x7Bでは6.7%,LLaMA 3 8Bでは5.5%)にプロンプトを適用した場合,言語モデルがタスクを改善する可能性が示唆された。
特に、形態学と語彙の変化、すなわち語彙はプロンプトの改善に有望であった。
これらの知見は、言語表現の多様性を扱うことのできる、より堅牢な言語モデルの開発に寄与する。
Much of the success of modern language models depends on finding a suitable prompt to instruct the model. Until now, it has been largely unknown how variations in the linguistic expression of prompts affect these models. This study systematically and empirically evaluates which linguistic features influence models through paraphrase types, i.e., different linguistic changes at particular positions. We measure behavioral changes for five models across 120 tasks and six families of paraphrases (i.e., morphology, syntax, lexicon, lexico-syntax, discourse, and others). We also control for other prompt engineering factors (e.g., prompt length, lexical diversity, and proximity to training data). Our results show a potential for language models to improve tasks when their prompts are adapted in specific paraphrase types (e.g., 6.7% median gain in Mixtral 8x7B; 5.5% in LLaMA 3 8B). In particular, changes in morphology and lexicon, i.e., the vocabulary used, showed promise in improving prompts. These findings contribute to developing more robust language models capable of handling variability in linguistic expression. | 翻訳日:2024-11-09 00:59:29 公開日:2024-10-15 |
# 大規模言語モデルは戦略的意思決定者か? : 2プレイヤーノンゼロサムゲームのパフォーマンスとバイアスに関する研究
Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games ( http://arxiv.org/abs/2407.04467v3 ) ライセンス: Link先を確認 | Nathan Herr, Fernando Acero, Roberta Raileanu, María Pérez-Ortiz, Zhibin Li, | (参考訳) 大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
LLMの可能性を十分に享受するためには、複雑な社会的シナリオで機能する能力を理解することが不可欠である。
ゲーム理論は、既に現実世界の相互作用を理解するために使われており、これらの能力を評価するための優れたフレームワークを提供する。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化された評価は, これらのゲームにおいて決定を下すと, 位置バイアス, ペイオフバイアス, 行動バイアスの少なくとも1つに影響されることを示した。
これは、LSMがこれらの戦略的決定を行う際に論理的推論に完全に依存していないことを示している。
その結果,ゲーム構成が影響バイアスと一致していない場合,LLMの性能は低下することがわかった。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bはそれぞれ、Stag Huntでは32\%, 25\%, 34\%, 29\%, Prisoner's Dilemmaでは28\%, 16\%, 34\%, 24\%であった。
意外なことに、GPT-4o(標準ベンチマークで最高のパフォーマンスのLCM)は、最も大きなパフォーマンス低下を被っており、新しいモデルではこれらの問題に対処していないことを示唆している。
GPT-3.5, GPT-4o, および Llama-3-8B のバイアスを減少させるが, GPT-4-Turbo のバイアスの影響を増大させることで, CoT だけではこの問題に対する堅牢な解決策として機能できないことを示す。
我々はさらにいくつかの実験を行い、観察された行動についてさらなる知見を提供する。
Large Language Models (LLMs) have been increasingly used in real-world settings, yet their strategic decision-making abilities remain largely unexplored. To fully benefit from the potential of LLMs, it's essential to understand their ability to function in complex social scenarios. Game theory, which is already used to understand real-world interactions, provides a good framework for assessing these abilities. This work investigates the performance and merits of LLMs in canonical game-theoretic two-player non-zero-sum games, Stag Hunt and Prisoner Dilemma. Our structured evaluation of GPT-3.5, GPT-4-Turbo, GPT-4o, and Llama-3-8B shows that these models, when making decisions in these games, are affected by at least one of the following systematic biases: positional bias, payoff bias, or behavioural bias. This indicates that LLMs do not fully rely on logical reasoning when making these strategic decisions. As a result, it was found that the LLMs' performance drops when the game configuration is misaligned with the affecting biases. When misaligned, GPT-3.5, GPT-4-Turbo, GPT-4o, and Llama-3-8B show an average performance drop of 32\%, 25\%, 34\%, and 29\% respectively in Stag Hunt, and 28\%, 16\%, 34\%, and 24\% respectively in Prisoner's Dilemma. Surprisingly, GPT-4o (a top-performing LLM across standard benchmarks) suffers the most substantial performance drop, suggesting that newer models are not addressing these issues. Interestingly, we found that a commonly used method of improving the reasoning capabilities of LLMs, chain-of-thought (CoT) prompting, reduces the biases in GPT-3.5, GPT-4o, and Llama-3-8B but increases the effect of the bias in GPT-4-Turbo, indicating that CoT alone cannot fully serve as a robust solution to this problem. We perform several additional experiments, which provide further insight into these observed behaviours. | 翻訳日:2024-11-08 23:46:45 公開日:2024-10-15 |
# 神経の異質性と神経調節シグナルによるスパイキングニューラルネットワークの学習の促進
Enhancing learning in spiking neural networks through neuronal heterogeneity and neuromodulatory signaling ( http://arxiv.org/abs/2407.04525v3 ) ライセンス: Link先を確認 | Alejandro Rodriguez-Garcia, Jie Mei, Srikanth Ramaswamy, | (参考訳) 人工知能(AI)の最近の進歩は、神経科学の知見、特に人工ニューラルネットワーク(ANN)の開発によってもたらされている。
これにより、視覚や自然言語処理といった複雑な認知タスクの複製が大幅に向上した。
これらの進歩にもかかわらず、ANNは継続的な学習、適応可能な知識伝達、堅牢性、リソース効率に苦慮している。
特に、ANNは脳の機能的および形態的多様性を見落とし、計算能力を妨げていることが多い。
さらに、神経細胞の不均一性を伴うANNに細胞型特異的神経調節効果を組み込むことで、神経レベルでのスパイク行動と回路レベルでのシナプス可塑性の2つの空間スケールでの学習が可能となり、それによって学習能力が向上する可能性がある。
本稿では、最近のバイオインスパイアされたモデル、学習ルール、アーキテクチャを要約し、ANNの強化のための生物学的インフォームド・フレームワークを提案する。
提案手法は, 種々のスパイキング挙動をエミュレートするスパイキングニューラルネットワーク(SNN)や, 神経計算の形態的, 機能的多様性をシミュレートする樹状体コンパートメントの可能性を明らかにするものである。
最後に、提案手法が脳にインスパイアされたコンパートメントモデルとタスク駆動SNNを統合し、バイオインスピレーションと複雑性のバランスをとり、継続的な学習、適応性、堅牢性、リソース効率といったAI課題に対処するためのスケーラブルなソリューションを提供する方法について概説する。
Recent progress in artificial intelligence (AI) has been driven by insights from neuroscience, particularly with the development of artificial neural networks (ANNs). This has significantly enhanced the replication of complex cognitive tasks such as vision and natural language processing. Despite these advances, ANNs struggle with continual learning, adaptable knowledge transfer, robustness, and resource efficiency - capabilities that biological systems handle seamlessly. Specifically, ANNs often overlook the functional and morphological diversity of the brain, hindering their computational capabilities. Furthermore, incorporating cell-type specific neuromodulatory effects into ANNs with neuronal heterogeneity could enable learning at two spatial scales: spiking behavior at the neuronal level, and synaptic plasticity at the circuit level, thereby potentially enhancing their learning abilities. In this article, we summarize recent bio-inspired models, learning rules and architectures and propose a biologically-informed framework for enhancing ANNs. Our proposed dual-framework approach highlights the potential of spiking neural networks (SNNs) for emulating diverse spiking behaviors and dendritic compartments to simulate morphological and functional diversity of neuronal computations. Finally, we outline how the proposed approach integrates brain-inspired compartmental models and task-driven SNNs, balances bioinspiration and complexity, and provides scalable solutions for pressing AI challenges, such as continual learning, adaptability, robustness, and resource-efficiency. | 翻訳日:2024-11-08 23:46:45 公開日:2024-10-15 |
# EVAスコア:抽出と検証によるインフォーマルネスのロングフォーム要約の評価
EVA-Score: Evaluation of Long-form Summarization on Informativeness through Extraction and Validation ( http://arxiv.org/abs/2407.04969v2 ) ライセンス: Link先を確認 | Yuchen Fan, Xin Zhong, Yazhe Wan, Chengsi Wang, Haonan Cheng, Gaoche Wu, Ning Ding, Bowen Zhou, | (参考訳) LLMが出現して以来、より長い入力シーケンスがより多くの情報を含むことを示す抽象的な長文要約により多くの注意が払われている。
しかし、このような要約の自動評価はいまだに未定である。
長期的な要約のための現在の評価指標は、ROUGEやBERTScoreのような類似性ベースのメトリクスを使うか、適切なプロンプトまたは事前定義されたスキーマを使用してLCMベースのメトリクスを使用する。
前者は類似性にのみ依存しており、後者は情報豊かさの定量的分析が欠如しており、より主観的で説明が難しい。
現在の評価基準はROUGEやBERTScoreのような従来のメトリクスを使用するが、これは表面レベルの類似性に依存し、情報性を考慮するのに失敗する。
本稿では、与えられた要約から全ての情報を抽出し、参照に基づいて重なり合った情報を識別し、情報スコアを算出するEVAスコアと呼ばれる新しい評価指標を提案する。
いくつかのデータセットでEVA-Scoreを検証したところ、EVA-Scoreは人間との相関が最も高いことがわかった。
また,LLMの長文要約性能を情報の観点から再評価する。
以上の結果から, LLMの応答は人間による回答と相容れないことが示唆された。
さらに、EVAスコアの有効性を詳細に分析し、抽象的な長文要約を自動的に評価する将来の方法を予測した。
Since LLMs emerged, more attention has been paid to abstractive long-form summarization, where longer input sequences indicate more information contained. Nevertheless, the automatic evaluation of such summaries remains underexplored. The current evaluation metrics for long-form summarization either use similarity-based metrics like ROUGE and BERTScore or LLM-based metrics using appropriate prompts or pre-defined schema. We argue that the former only relies on similarity and fails to consider informativeness while the latter lacks quantitative analysis of informative richness, and is rather subjective and hard to explain. Current evaluation metrics either use traditional metrics like ROUGE and BERTScore, which rely on surface-level similarity and fail to consider informativeness, or simple LLM-based metrics, which are not robust and easily overwhelmed by the long contexts. In this paper, we propose a new evaluation metric called EVA-Score to extract all information from the given summaries, identify overlapped information based on reference, and calculate the information score. We test EVA-Score on several datasets and the experimental results reveal that EVA-Score shows the highest correlation with humans. We also re-evaluate the performance of LLMs on long-form summarization from the information perspective. The results indicate that responses of LLMs still have a gap with the human-written answers. Moreover, we provide a detailed analysis of the effectiveness of EVA-Score, forecasting future ways to automatically evaluate abstractive long-form summarization. | 翻訳日:2024-11-08 23:35:45 公開日:2024-10-15 |
# EVAスコア:抽出と検証によるインフォームネスの抽象的ロングフォーム要約の評価
EVA-Score: Evaluating Abstractive Long-form Summarization on Informativeness through Extraction and Validation ( http://arxiv.org/abs/2407.04969v3 ) ライセンス: Link先を確認 | Yuchen Fan, Xin Zhong, Yazhe Wan, Chengsi Wang, Haonan Cheng, Gaoche Wu, Ning Ding, Bowen Zhou, | (参考訳) LLMが出現して以来、より長い入力シーケンスがより多くの情報を含むことを示す抽象的な長文要約により多くの注意が払われている。
しかし、このような要約の自動評価はいまだに未定である。
長期的な要約のための現在の評価指標は、ROUGEやBERTScoreのような類似性ベースのメトリクスを使うか、適切なプロンプトまたは事前定義されたスキーマを使用してLCMベースのメトリクスを使用する。
前者は類似性にのみ依存しており、後者は情報豊かさの定量的分析が欠如しており、より主観的で説明が難しい。
現在の評価基準はROUGEやBERTScoreのような従来のメトリクスを使用するが、これは表面レベルの類似性に依存し、情報性を考慮するのに失敗する。
本稿では、与えられた要約から全ての情報を抽出し、参照に基づいて重なり合った情報を識別し、情報スコアを算出するEVAスコアと呼ばれる新しい評価指標を提案する。
いくつかのデータセットでEVA-Scoreを検証したところ、EVA-Scoreは人間との相関が最も高いことがわかった。
また,LLMの長文要約性能を情報の観点から再評価する。
以上の結果から, LLMの応答は人間による回答と相容れないことが示唆された。
さらに、EVAスコアの有効性を詳細に分析し、抽象的な長文要約を自動的に評価する将来の方法を予測した。
Since LLMs emerged, more attention has been paid to abstractive long-form summarization, where longer input sequences indicate more information contained. Nevertheless, the automatic evaluation of such summaries remains underexplored. The current evaluation metrics for long-form summarization either use similarity-based metrics like ROUGE and BERTScore or LLM-based metrics using appropriate prompts or pre-defined schema. We argue that the former only relies on similarity and fails to consider informativeness while the latter lacks quantitative analysis of informative richness, and is rather subjective and hard to explain. Current evaluation metrics either use traditional metrics like ROUGE and BERTScore, which rely on surface-level similarity and fail to consider informativeness, or simple LLM-based metrics, which are not robust and easily overwhelmed by the long contexts. In this paper, we propose a new evaluation metric called EVA-Score to extract all information from the given summaries, identify overlapped information based on reference, and calculate the information score. We test EVA-Score on several datasets and the experimental results reveal that EVA-Score shows the highest correlation with humans. We also re-evaluate the performance of LLMs on long-form summarization from the information perspective. The results indicate that responses of LLMs still have a gap with the human-written answers. Moreover, we provide a detailed analysis of the effectiveness of EVA-Score, forecasting future ways to automatically evaluate abstractive long-form summarization. | 翻訳日:2024-11-08 23:35:45 公開日:2024-10-15 |
# ニューラルネットワーク制御系の到達可能性問題
The Reachability Problem for Neural-Network Control Systems ( http://arxiv.org/abs/2407.04988v2 ) ライセンス: Link先を確認 | Christian Schilling, Martin Zimmermann, | (参考訳) 制御システムは、プラントコンポーネントと、プラントの制御入力を周期的に計算するコントローラとから構成される。
本稿では、ReLUアクティベーションを備えたフィードフォワードニューラルネットワークによってコントローラが実装されるシステムについて考察する。
到達可能性問題は、一連の初期状態が与えられた場合、一連の目標状態に到達できるかどうかを問う。
3つの入力と出力を持つ自明な植物や固定深度ニューラルネットワークでさえ、この問題は決定不可能であることを示す。
また、植物と入力およびターゲットセットが無限語上のオートマトンによって与えられると、その問題が半決定可能であることも示している。
A control system consists of a plant component and a controller which periodically computes a control input for the plant. We consider systems where the controller is implemented by a feedforward neural network with ReLU activations. The reachability problem asks, given a set of initial states, whether a set of target states can be reached. We show that this problem is undecidable even for trivial plants and fixed-depth neural networks with three inputs and outputs. We also show that the problem becomes semi-decidable when the plant as well as the input and target sets are given by automata over infinite words. | 翻訳日:2024-11-08 23:35:45 公開日:2024-10-15 |
# 頭部ポーズ推定のためのデータ拡張のパワーについて
On the power of data augmentation for head pose estimation ( http://arxiv.org/abs/2407.05357v3 ) ライセンス: Link先を確認 | Michael Welter, | (参考訳) 深層学習は、モノクラー画像から人間の頭部のポーズを予測することで、過去10年間、驚くべき成功を収めてきた。
しかし、インザワイルドインプットでは、研究コミュニティは、多くの代替品を伴わない半合成的な1つのトレーニングセットである300W-LPに依存している。
本稿では,さらなる拡張と合成戦略により達成可能な性能を探求するために,データの段階的拡張と改善に焦点を当てた。
不確実性推定を含む新しいマルチタスクヘッド/ロス設計を提案する。
全体として、得られたモデルは小さく、効率的で、フル6DoFのポーズ推定に適しており、非常に競争力のある精度を示す。
Deep learning has been impressively successful in the last decade in predicting human head poses from monocular images. However, for in-the-wild inputs the research community relies predominantly on a single training set, 300W-LP, of semisynthetic nature without many alternatives. This paper focuses on gradual extension and improvement of the data to explore the performance achievable with augmentation and synthesis strategies further. Modeling-wise a novel multitask head/loss design which includes uncertainty estimation is proposed. Overall, the thus obtained models are small, efficient, suitable for full 6 DoF pose estimation, and exhibit very competitive accuracy. | 翻訳日:2024-11-08 23:24:33 公開日:2024-10-15 |
# Majorana Tensor Decomposition: フェルミオンハミルトニアンをユニタリの線形結合に分解するための統一フレームワーク
Majorana Tensor Decomposition: A unifying framework for decompositions of fermionic Hamiltonians to Linear Combination of Unitaries ( http://arxiv.org/abs/2407.06571v3 ) ライセンス: Link先を確認 | Ignacio Loaiza, Aritra Sankar Brahmachari, Artur F. Izmaylov, | (参考訳) ユニタリ(LCU)分解の線形結合は、量子コンピュータ上の演算子を符号化する主要なツールの1つとして現れ、任意の演算子の効率的な実装を可能にしている。
特に、LCUアプローチは、電子構造ハミルトニアンから量子回路に情報を符号化する方法を示す。
過去数年間、電子構造ハミルトニアンに多くの異なる分解技術が出現してきた。
ここでは,既存のLCUを統一するフレームワークであるMajorana Tensor Decomposition(MTD)について述べる。
Linear combination of unitaries (LCU) decompositions have appeared as one of the main tools for encoding operators on quantum computers, allowing efficient implementations of arbitrary operators. In particular, LCU approaches present a way of encoding information from the electronic structure Hamiltonian into a quantum circuit. Over the past years, many different decomposition techniques have appeared for the electronic structure Hamiltonian. Here we present the Majorana Tensor Decomposition (MTD), a framework that unifies existing LCUs and offers novel decomposition methods by using popular low-rank tensor factorizations. | 翻訳日:2024-11-08 23:02:19 公開日:2024-10-15 |
# 対物的手法による一貫性のある文書レベル関係抽出
Consistent Document-Level Relation Extraction via Counterfactuals ( http://arxiv.org/abs/2407.06699v2 ) ライセンス: Link先を確認 | Ali Modarressi, Abdullatif Köksal, Hinrich Schütze, | (参考訳) 多くのデータセットがドキュメントレベルの関係抽出(RE)モデルを訓練し、評価するために開発されている。
これらの多くは実世界のデータを使って構築されている。
実世界のデータに基づいてトレーニングされたREモデルは、事実バイアスに悩まされていることが示されている。
この問題を評価し,対処するために,エンティティ置換を用いた文書レベルの関係抽出データセットに対する対実データ生成手法であるCovEReDを提案する。
事実データから正確に三重項を抽出する一方で、反事実修正後に同じ三重項を抽出することができない。
この矛盾は、実データに基づいてトレーニングされたモデルは、入力コンテキスト$\unicode{x2013}$ではなく、特定のエンティティや外部知識$\unicode{x2013}$のような刺激的な信号に頼っていることを示唆している。
我々は,CovEReDを用いて文書レベルの反事実データを生成し,その上でトレーニングモデルを作成することにより,RE性能に最小限の影響を伴って整合性を維持することを示す。
CovEReDパイプラインと反ファクトのREドキュメントのデータセットであるRe-DocRED-CFをリリースし、ドキュメントレベルのREにおける一貫性の評価と対処を支援します。
Many datasets have been developed to train and evaluate document-level relation extraction (RE) models. Most of these are constructed using real-world data. It has been shown that RE models trained on real-world data suffer from factual biases. To evaluate and address this issue, we present CovEReD, a counterfactual data generation approach for document-level relation extraction datasets using entity replacement. We first demonstrate that models trained on factual data exhibit inconsistent behavior: while they accurately extract triples from factual data, they fail to extract the same triples after counterfactual modification. This inconsistency suggests that models trained on factual data rely on spurious signals such as specific entities and external knowledge $\unicode{x2013}$ rather than on the input context $\unicode{x2013}$ to extract triples. We show that by generating document-level counterfactual data with CovEReD and training models on them, consistency is maintained with minimal impact on RE performance. We release our CovEReD pipeline as well as Re-DocRED-CF, a dataset of counterfactual RE documents, to assist in evaluating and addressing inconsistency in document-level RE. | 翻訳日:2024-11-08 23:02:19 公開日:2024-10-15 |
# ECGのための基礎モデル:高度心疾患診断のためのハイブリッド自己監督学習の活用
Foundation Models for ECG: Leveraging Hybrid Self-Supervised Learning for Advanced Cardiac Diagnostics ( http://arxiv.org/abs/2407.07110v2 ) ライセンス: Link先を確認 | Junho Song, Jong-Hwan Jang, Byeong Tak Lee, DongGyun Hong, Joon-myoung Kwon, Yong-Yeon Jo, | (参考訳) 自己教師付き学習(SSL)法で強化された基礎モデルを用いて心電図(ECG)解析に革新的なアプローチを示す。
本研究は,約130万のECGサンプルからなる膨大なデータセット上で,生成学習やコントラスト学習を含むSSL手法を活用することにより,ECGの基礎モデルを包括的に評価する。
これらの手法を心電図の特徴を考慮に入れて統合することにより,心臓診断の精度と信頼性を向上させる基礎モデルのためのハイブリッドラーニング(HL)を開発した。
HLベースのファンデーションモデルは、ECGの複雑な詳細を十分に捉え、診断能力を向上する。
この結果は、SSLの強化された基礎モデルが臨床現場で有望な可能性を浮き彫りにし、幅広い医学的診断分野にまたがるスケーラブルな応用について、将来の研究の舞台となる。
本研究はECG分野における新しい標準を定め,データ駆動型モデルトレーニングが医療診断の有効性と精度に与える影響を強調した。
Using foundation models enhanced by self-supervised learning (SSL) methods presents an innovative approach to electrocardiogram (ECG) analysis, which is crucial for cardiac health monitoring and diagnosis. This study comprehensively evaluates foundation models for ECGs, leveraging SSL methods, including generative and contrastive learning, on a vast dataset comprising approximately 1.3 million ECG samples. By integrating these methods with consideration of the unique characteristics of ECGs, we developed a Hybrid Learning (HL) for foundation models that improve the precision and reliability of cardiac diagnostics. The HL-based foundation model adeptly captures the intricate details of ECGs, enhancing diagnostic capability. The results underscore the considerable potential of SSL-enhanced foundation models in clinical settings, setting the stage for future research into their scalable applications across a broader range of medical diagnostics. This work sets a new standard in the ECG field, emphasizing the transformative influence of tailored, data-driven model training on the effectiveness and accuracy of medical diagnostics. | 翻訳日:2024-11-08 22:51:19 公開日:2024-10-15 |
# グラフニューラルネットワークプログラミングのための$μ\mathcal{G}$言語
The $μ\mathcal{G}$ Language for Programming Graph Neural Networks ( http://arxiv.org/abs/2407.09441v3 ) ライセンス: Link先を確認 | Matteo Belenchia, Flavio Corradini, Michela Quadrini, Michele Loreti, | (参考訳) グラフニューラルネットワークは、グラフ構造化データを扱うように設計されたディープラーニングアーキテクチャのクラスを形成する。
そのため、深層学習の本質的な限界と問題、特に説明可能性と信頼性の問題を共有している。
我々は,これらの問題を克服することを目的とした,グラフニューラルネットワーク仕様のためのドメイン固有言語である$\mu\mathcal{G}$を提案する。
言語の構文は導入され、その意味は意味論的意味論によって厳密に定義される。
操作意味論の形での等価な特徴付けも提供され、型システムとともに$\mu\mathcal{G}$の型音性を証明するために使用される。
我々は、$\mu\mathcal{G}$プログラムが、よりユーザフレンドリーなグラフィカルな視覚化でどのように表現できるかを示し、最も人気のあるグラフニューラルネットワークモデルを定義したり、カスタムなグラフ処理アプリケーションを開発するためにどのように使用できるかを示す。
Graph neural networks form a class of deep learning architectures specifically designed to work with graph-structured data. As such, they share the inherent limitations and problems of deep learning, especially regarding the issues of explainability and trustworthiness. We propose $\mu\mathcal{G}$, an original domain-specific language for the specification of graph neural networks that aims to overcome these issues. The language's syntax is introduced, and its meaning is rigorously defined by a denotational semantics. An equivalent characterization in the form of an operational semantics is also provided and, together with a type system, is used to prove the type soundness of $\mu\mathcal{G}$. We show how $\mu\mathcal{G}$ programs can be represented in a more user-friendly graphical visualization, and provide examples of its generality by showing how it can be used to define some of the most popular graph neural network models, or to develop any custom graph processing application. | 翻訳日:2024-11-08 22:06:29 公開日:2024-10-15 |
# グラフニューラルネットワークプログラミングのための$μ\mathcal{G}$言語
The $μ\mathcal{G}$ Language for Programming Graph Neural Networks ( http://arxiv.org/abs/2407.09441v4 ) ライセンス: Link先を確認 | Matteo Belenchia, Flavio Corradini, Michela Quadrini, Michele Loreti, | (参考訳) グラフニューラルネットワークは、グラフ構造化データを扱うように設計されたディープラーニングアーキテクチャのクラスを形成する。
そのため、深層学習の本質的な限界と問題、特に説明可能性と信頼性の問題を共有している。
我々は,これらの問題を克服することを目的とした,グラフニューラルネットワーク仕様のためのドメイン固有言語である$\mu\mathcal{G}$を提案する。
言語の構文は導入され、その意味は意味論的意味論によって厳密に定義される。
操作意味論の形での等価な特徴付けも提供され、型システムとともに$\mu\mathcal{G}$の型音性を証明するために使用される。
我々は、$\mu\mathcal{G}$プログラムが、よりユーザフレンドリーなグラフィカルな視覚化でどのように表現できるかを示し、最も人気のあるグラフニューラルネットワークモデルを定義したり、カスタムなグラフ処理アプリケーションを開発するためにどのように使用できるかを示す。
Graph neural networks form a class of deep learning architectures specifically designed to work with graph-structured data. As such, they share the inherent limitations and problems of deep learning, especially regarding the issues of explainability and trustworthiness. We propose $\mu\mathcal{G}$, an original domain-specific language for the specification of graph neural networks that aims to overcome these issues. The language's syntax is introduced, and its meaning is rigorously defined by a denotational semantics. An equivalent characterization in the form of an operational semantics is also provided and, together with a type system, is used to prove the type soundness of $\mu\mathcal{G}$. We show how $\mu\mathcal{G}$ programs can be represented in a more user-friendly graphical visualization, and provide examples of its generality by showing how it can be used to define some of the most popular graph neural network models, or to develop any custom graph processing application. | 翻訳日:2024-11-08 22:06:29 公開日:2024-10-15 |
# 長方形誘電体導波路のカシミール・リフシッツ公式
The Casimir-Lifshitz formula for rectangular dielectric waveguide ( http://arxiv.org/abs/2407.09729v2 ) ライセンス: Link先を確認 | E. Arias, G. O. Heymans, N. F. Svaiter, | (参考訳) 2つの異なる誘電体材料からなる長方形導波路の存在下での電磁場に付随するカシミール・リフシッツ効果を$(3+1)$次元時空で解析する。
この特異幾何に対して一般化されたリーフシッツ公式を導出するために、曲面モード法を用いる。
我々の定式化は導波管を構成する材料の独特な誘電特性を説明し、カシミール・リフシッツエネルギーの正確な計算に繋がる。
漸近的限界では, 完全反射境界に対する古典的な表現が復元される。
この研究は、より複雑な系へのリフシッツの公式の適用性を拡張し、電磁カシミール効果に対する誘電体の影響に関する貴重な洞察を提供する。
We analyze the Casimir-Lifshitz effect associated with the electromagnetic field in the presence of a rectangular waveguide consisting of two distinct dielectric materials in a $(3+1)$-dimensional spacetime. We employ the surface mode technique to derive a generalized Lifshitz formula for this specific geometry. Our formulation accounts for the unique dielectric properties of the materials composing the waveguide, leading to a precise calculation of the Casimir-Lifshitz energy. In the asymptotic limit, our results recover the classical expressions for perfect reflecting boundaries. This work extends the applicability of the Lifshitz formula to more complex systems and provides valuable insights into the influence of dielectric materials on the electromagnetic Casimir effect. | 翻訳日:2024-11-08 21:54:45 公開日:2024-10-15 |
# LongLaMP: パーソナライズされた長文生成のためのベンチマーク
LongLaMP: A Benchmark for Personalized Long-form Text Generation ( http://arxiv.org/abs/2407.11016v2 ) ライセンス: Link先を確認 | Ishita Kumar, Snigdha Viswanathan, Sushrita Yerra, Alireza Salemi, Ryan A. Rossi, Franck Dernoncourt, Hanieh Deilamsalehy, Xiang Chen, Ruiyi Zhang, Shubham Agarwal, Nedim Lipka, Chein Van Nguyen, Thien Huu Nguyen, Hamed Zamani, | (参考訳) 長文生成は、電子メールの生成やレビューの執筆など、大規模な言語モデルの現実世界のアプリケーションで広く使われているように思われる。
多くの実用アプリケーションにおいて、長文生成の基本的な重要性と普及にもかかわらず、パーソナライズされた生成に関する既存の研究は、非常に短いテキストの生成に焦点を当てている。
これらの制約を克服するために、特定のユーザ向けにパーソナライズされた長文を生成すること、そして、自然に長文の生成を必要とする現実世界のアプリケーションの大部分に実用的に有用である、という、パーソナライズされた長文生成の問題について検討する。
本研究では,長文生成タスクにおけるユーザ固有のパーソナライズの重要性を明らかにし,Long-text Language Model Personalization (LongLaMP)ベンチマークを開発する。
LongLaMPはパーソナライズされた長文生成のための包括的で多様な評価フレームワークを提供する。
ゼロショットおよび微調整言語タスクに対するLongLaMPの広範な実験は、提案したベンチマークの有効性と、多種多様な長文生成タスクを対象としたパーソナライズされた長文生成技術の開発と評価に有用であることを示す。
その結果、多種多様な長文生成タスクにおけるパーソナライズの重要性が浮き彫りになった。
最後に、この重要な問題に他の人が使うためのベンチマークをリリースします。
Long-text generation is seemingly ubiquitous in real-world applications of large language models such as generating an email or writing a review. Despite the fundamental importance and prevalence of long-text generation in many practical applications, existing work on personalized generation has focused on the generation of very short text. To overcome these limitations, we study the problem of personalized long-text generation, that is, generating long-text that is personalized for a specific user while being practically useful for the vast majority of real-world applications that naturally require the generation of longer text. In this work, we demonstrate the importance of user-specific personalization for long-text generation tasks and develop the Long-text Language Model Personalization (LongLaMP) Benchmark. LongLaMP provides a comprehensive and diverse evaluation framework for personalized long-text generation. Extensive experiments on LongLaMP for zero-shot and fine-tuned language tasks demonstrate the effectiveness of the proposed benchmark and its utility for developing and evaluating techniques for personalized long-text generation across a wide variety of long-text generation tasks. The results highlight the importance of personalization across a wide variety of long-text generation tasks. Finally, we release the benchmark for others to use for this important problem. | 翻訳日:2024-11-08 21:21:36 公開日:2024-10-15 |
# LongLaMP: パーソナライズされた長文生成のためのベンチマーク
LongLaMP: A Benchmark for Personalized Long-form Text Generation ( http://arxiv.org/abs/2407.11016v3 ) ライセンス: Link先を確認 | Ishita Kumar, Snigdha Viswanathan, Sushrita Yerra, Alireza Salemi, Ryan A. Rossi, Franck Dernoncourt, Hanieh Deilamsalehy, Xiang Chen, Ruiyi Zhang, Shubham Agarwal, Nedim Lipka, Chien Van Nguyen, Thien Huu Nguyen, Hamed Zamani, | (参考訳) 長文生成は、電子メールの生成やレビューの執筆など、大規模な言語モデルの現実世界のアプリケーションで広く使われているように思われる。
多くの実用アプリケーションにおいて、長文生成の基本的な重要性と普及にもかかわらず、パーソナライズされた生成に関する既存の研究は、非常に短いテキストの生成に焦点を当てている。
これらの制約を克服するために、特定のユーザ向けにパーソナライズされた長文を生成すること、そして、自然に長文の生成を必要とする現実世界のアプリケーションの大部分に実用的に有用である、という、パーソナライズされた長文生成の問題について検討する。
本研究では,長文生成タスクにおけるユーザ固有のパーソナライズの重要性を明らかにし,Long-text Language Model Personalization (LongLaMP)ベンチマークを開発する。
LongLaMPはパーソナライズされた長文生成のための包括的で多様な評価フレームワークを提供する。
ゼロショットおよび微調整言語タスクに対するLongLaMPの広範な実験は、提案したベンチマークの有効性と、多種多様な長文生成タスクを対象としたパーソナライズされた長文生成技術の開発と評価に有用であることを示す。
その結果、多種多様な長文生成タスクにおけるパーソナライズの重要性が浮き彫りになった。
最後に、この重要な問題に他の人が使うためのベンチマークをリリースします。
Long-text generation is seemingly ubiquitous in real-world applications of large language models such as generating an email or writing a review. Despite the fundamental importance and prevalence of long-text generation in many practical applications, existing work on personalized generation has focused on the generation of very short text. To overcome these limitations, we study the problem of personalized long-text generation, that is, generating long-text that is personalized for a specific user while being practically useful for the vast majority of real-world applications that naturally require the generation of longer text. In this work, we demonstrate the importance of user-specific personalization for long-text generation tasks and develop the Long-text Language Model Personalization (LongLaMP) Benchmark. LongLaMP provides a comprehensive and diverse evaluation framework for personalized long-text generation. Extensive experiments on LongLaMP for zero-shot and fine-tuned language tasks demonstrate the effectiveness of the proposed benchmark and its utility for developing and evaluating techniques for personalized long-text generation across a wide variety of long-text generation tasks. The results highlight the importance of personalization across a wide variety of long-text generation tasks. Finally, we release the benchmark for others to use for this important problem. | 翻訳日:2024-11-08 21:21:36 公開日:2024-10-15 |
# マルチタスク学習によるディエンタング表現
Disentangling Representations through Multi-task Learning ( http://arxiv.org/abs/2407.11249v2 ) ライセンス: Link先を確認 | Pantelis Vafidis, Aman Bhargava, Antonio Rangel, | (参考訳) 知的な知覚と世界との相互作用は、その根底にある構造を捉えた内部表現("disentangled" または "abstract" 表現)に依存している。
切り離された表現は世界モデルとして機能し、直交方向に沿って世界の変動の潜在因子を分離し、特徴に基づく一般化を容易にする。
認知神経科学の文献において、マルチタスクのエビデンス・アグリゲーション・アグリゲーション・タスクを最適に解決するエージェントにおいて、不整合表現の出現を保証する実験的および理論的結果を提供する。
鍵となる概念的発見は、正確なマルチタスク分類推定を生成することにより、システムは、受信したデータの下層の潜伏状態の非絡み合った表現を指定する一連の座標を暗黙的に表現することである。
この理論は、ノイズ、タスク数、エビデンス集約時間という観点でこれらの表現が出現する条件を提供する。
マルチタスク分類に基づいて訓練されたRNNにおいて,これらの予測を実験により検証した。これは連続的なアトラクタの形で不整合表現を学習し,潜在因子の予測におけるゼロショットアウト・オブ・ディストリビューション(OOD)の一般化につながる。
自己回帰型アーキテクチャ、決定境界測地、および分類信頼度推定を必要とするタスクにおいて、我々のフレームワークの堅牢性を示す。
私たちは、トランスフォーマーが特に、そのユニークな世界理解能力を説明するような、無関係な表現に向いていることに気付きました。
全体として、我々のフレームワークは、生物と人工の双方で世界の構造を捉えた認知マップの形成の一般的な原則として並列処理を定めており、ANNがしばしば人間に解釈可能な概念に到達する理由、そして両者が例外的なゼロショットの一般化能力をいかに獲得するかを説明するのに役立っている。
Intelligent perception and interaction with the world hinges on internal representations that capture its underlying structure ("disentangled" or "abstract" representations). Disentangled representations serve as world models, isolating latent factors of variation in the world along orthogonal directions, thus facilitating feature-based generalization. We provide experimental and theoretical results guaranteeing the emergence of disentangled representations in agents that optimally solve multi-task evidence aggregation classification tasks, canonical in the cognitive neuroscience literature. The key conceptual finding is that, by producing accurate multi-task classification estimates, a system implicitly represents a set of coordinates specifying a disentangled representation of the underlying latent state of the data it receives. The theory provides conditions for the emergence of these representations in terms of noise, number of tasks, and evidence aggregation time. We experimentally validate these predictions in RNNs trained on multi-task classification, which learn disentangled representations in the form of continuous attractors, leading to zero-shot out-of-distribution (OOD) generalization in predicting latent factors. We demonstrate the robustness of our framework across autoregressive architectures, decision boundary geometries and in tasks requiring classification confidence estimation. We find that transformers are particularly suited for disentangling representations, which might explain their unique world understanding abilities. Overall, our framework puts forth parallel processing as a general principle for the formation of cognitive maps that capture the structure of the world in both biological and artificial systems, and helps explain why ANNs often arrive at human-interpretable concepts, and how they both may acquire exceptional zero-shot generalization capabilities. | 翻訳日:2024-11-08 21:10:26 公開日:2024-10-15 |
# 構造認識コントラスト学習を用いた知識グラフ補完のための言語モデルのサブグラフ認識学習
Subgraph-Aware Training of Language Models for Knowledge Graph Completion Using Structure-Aware Contrastive Learning ( http://arxiv.org/abs/2407.12703v4 ) ライセンス: Link先を確認 | Youmin Ko, Hyemin Yang, Taeuk Kim, Hyunjoon Kim, | (参考訳) 微調整事前学習言語モデル(PLM)は、最近知識グラフ補完(KGC)を改善する可能性を示している。
しかし PLM に基づくほとんどの手法は、知識グラフの長い尾の性質や、その様々なトポロジ構造(例えば、部分グラフ、最短経路、等)を無視して、テキスト情報の符号化にのみ焦点をあてている。
KGCにおけるPLMの高精度化には,これが大きな障害である,と我々は主張する。
そこで本研究では,KGC(SATKGC)のためのサブグラフ・アウェア・トレーニング・フレームワークを提案する。
一 練習中の実体発生頻度の不均衡を緩和し、強硬な陰性サンプリングを促進するための小バッチ
(II) 知識グラフの構造的特性の観点から, より厳密な内負三重項と強正三重項に焦点をあてる新たな対照的な学習。
私たちの知識を最大限に活用するために、知識グラフの構造的帰納バイアスを微調整 PLM に包括的に組み込んだ最初の研究である。
3つのKGCベンチマークの大規模な実験はSATKGCの優位性を示している。
私たちのコードは利用可能です。
Fine-tuning pre-trained language models (PLMs) has recently shown a potential to improve knowledge graph completion (KGC). However, most PLM-based methods focus solely on encoding textual information, neglecting the long-tailed nature of knowledge graphs and their various topological structures, e.g., subgraphs, shortest paths, and degrees. We claim that this is a major obstacle to achieving higher accuracy of PLMs for KGC. To this end, we propose a Subgraph-Aware Training framework for KGC (SATKGC) with two ideas: (i) subgraph-aware mini-batching to encourage hard negative sampling and to mitigate an imbalance in the frequency of entity occurrences during training, and (ii) new contrastive learning to focus more on harder in-batch negative triples and harder positive triples in terms of the structural properties of the knowledge graph. To the best of our knowledge, this is the first study to comprehensively incorporate the structural inductive bias of the knowledge graph into fine-tuning PLMs. Extensive experiments on three KGC benchmarks demonstrate the superiority of SATKGC. Our code is available. | 翻訳日:2024-11-08 20:36:48 公開日:2024-10-15 |
# LLMには一貫性のある価値はあるか?
Do LLMs have Consistent Values? ( http://arxiv.org/abs/2407.12878v3 ) ライセンス: Link先を確認 | Naama Rozen, Liat Bezalel, Gal Elidan, Amir Globerson, Ella Daniel, | (参考訳) 大規模言語モデル(LLM)技術は、人間のような対話に向けて常に改善されている。
価値は人間の行動の基礎となる基本的な推進力であるが、LLMによって生成されたテキストで表される価値を研究するための研究はほとんど行われていない。
ここでは、心理学における価値構造に関する豊富な文献に目を向けることで、この問題を研究する。
我々は,LLMが,値のランク付けや値の相関など,人間で実証されたのと同じ値構造を示すかどうかを問う。
この分析の結果は, LLMの推進方法に依拠し, 特定の促進戦略(「バリューアンチョリング」と呼ぶ)の下では, 人間のデータとの合意が極めて説得力があることが示唆された。
この結果は,LLMにおける値の理解の向上と,LLM応答の一貫性を評価する新しい手法の導入に寄与する。
Large Language Models (LLM) technology is constantly improving towards human-like dialogue. Values are a basic driving force underlying human behavior, but little research has been done to study the values exhibited in text generated by LLMs. Here we study this question by turning to the rich literature on value structure in psychology. We ask whether LLMs exhibit the same value structure that has been demonstrated in humans, including the ranking of values, and correlation between values. We show that the results of this analysis depend on how the LLM is prompted, and that under a particular prompting strategy (referred to as "Value Anchoring") the agreement with human data is quite compelling. Our results serve both to improve our understanding of values in LLMs, as well as introduce novel methods for assessing consistency in LLM responses. | 翻訳日:2024-11-08 20:25:29 公開日:2024-10-15 |
# 大規模視覚言語モデルも良い分類法である:インテクストマルチモーダルフェイクニュース検出の検討
Large Visual-Language Models Are Also Good Classifiers: A Study of In-Context Multimodal Fake News Detection ( http://arxiv.org/abs/2407.12879v3 ) ライセンス: Link先を確認 | Ye Jiang, Yimin Wang, | (参考訳) 大規模視覚言語モデル(LVLM)は、多種多様なクロスモーダルベンチマークにおいて、視覚言語推論において例外的な性能を示す。
これらの進歩にもかかわらず、最近の研究は、GPT-3.5-turboのような大規模言語モデル(LLM)が、Fake News Detection (FND)においてBERTのようなよく訓練された小型モデルと比較され、FNDタスクにおけるLVLMsの有効性を問うことが示唆されている。
微調整のLVLMにより性能は向上するが、かなりのパラメータと必要な事前訓練の重み付けにより、FNDアプリケーションのためのリソース重み付けの取り組みとなった。
本稿は,CLIPモデルと比較し,まず2つの有名なLVLM(CagVLMとGPT4V)のFND能力を評価する。
以上の結果から,LVLMは小型モデルと競合する性能が得られることが示された。
次に,標準文脈学習(ICL)をLVLMと統合し,FND性能の向上に言及する。
この問題に対処するため、我々は、よく訓練された小さなモデルからの予測と対応する確率で、文脈内例とテストインプットを豊かにすることで、textbf{I}n-context \textbf{M}ultimodal \textbf{F}ake \textbf{N}ews \textbf{D}etection (IMFND) フレームワークを導入する。
この戦略的統合により、LVLMは高い確率に関連するニュースセグメントに焦点を向け、分析精度を向上させることができる。
実験結果から,IMFNDフレームワークはLVLMのFND効率を大幅に向上し,3つのFNDデータセットの標準ICLアプローチよりも精度が向上したことが示唆された。
Large visual-language models (LVLMs) exhibit exceptional performance in visual-language reasoning across diverse cross-modal benchmarks. Despite these advances, recent research indicates that Large Language Models (LLMs), like GPT-3.5-turbo, underachieve compared to well-trained smaller models, such as BERT, in Fake News Detection (FND), prompting inquiries into LVLMs' efficacy in FND tasks. Although performance could improve through fine-tuning LVLMs, the substantial parameters and requisite pre-trained weights render it a resource-heavy endeavor for FND applications. This paper initially assesses the FND capabilities of two notable LVLMs, CogVLM and GPT4V, in comparison to a smaller yet adeptly trained CLIP model in a zero-shot context. The findings demonstrate that LVLMs can attain performance competitive with that of the smaller model. Next, we integrate standard in-context learning (ICL) with LVLMs, noting improvements in FND performance, though limited in scope and consistency. To address this, we introduce the \textbf{I}n-context \textbf{M}ultimodal \textbf{F}ake \textbf{N}ews \textbf{D}etection (IMFND) framework, enriching in-context examples and test inputs with predictions and corresponding probabilities from a well-trained smaller model. This strategic integration directs the LVLMs' focus towards news segments associated with higher probabilities, thereby improving their analytical accuracy. The experimental results suggest that the IMFND framework significantly boosts the FND efficiency of LVLMs, achieving enhanced accuracy over the standard ICL approach across three publicly available FND datasets. | 翻訳日:2024-11-08 20:25:29 公開日:2024-10-15 |
# 多ボソンハミルトニアンの体系的な入力スキームと2次元$φ^4$理論への応用
Systematic input scheme of many-boson Hamiltonians with applications to the two-dimensional $φ^4$ theory ( http://arxiv.org/abs/2407.13672v2 ) ライセンス: Link先を確認 | Weijie Du, James P. Vary, | (参考訳) 我々は、量子コンピューティングによる光フロントハミルトン形式論における場の理論問題を解くために、多くのボソンハミルトン多様体に対して、新しい体系的な入力方式を開発する。
この入力スキームの議論は、2次元の$\phi ^4$理論の光フロントハミルトニアンに基づく。
入力方式では、各レジスタは異なるボソンモードの占有をバイナリとしてエンコードする量子レジスタの集合を用いる。
各モードのボソン作用素を圧縮し、圧縮されたボソン作用素のユニークな組み合わせの観点からハミルトン作用素を提示する。
これらのユニークな組み合わせのための回路モジュールを設計する。
これらの回路モジュールに基づいて、量子ウォークというアイデアを用いて、多くのボソンハミルトニアンを符号化する。
実演目的のために,我々の入力方式に基づくハイブリッド量子-古典対称性適応量子クリロフ部分空間対角化アルゴリズムを用いて,ハミルトニアンのスペクトル計算を行い,そこで量子計算をIBM Qiskit量子シミュレータを用いて行う。
ハイブリッド計算の結果は正確な結果と一致する。
We develop a novel, systematic input scheme for many-boson Hamiltonians in order to solve field theory problems within the light-front Hamiltonian formalism via quantum computing. We present our discussion of this input scheme based on the light-front Hamiltonian of the two-dimensional $\phi ^4$ theory. In our input scheme, we employ a set of quantum registers, where each register encodes the occupation of a distinct boson mode as binaries. We squeeze the boson operators of each mode and present the Hamiltonian in terms of unique combinations of the squeezed boson operators. We design the circuit modules for these unique combinations. Based on these circuit modules, we block encode the many-boson Hamiltonian utilizing the idea of quantum walk. For demonstration purposes, we present the spectral calculations of the Hamiltonian utilizing the hybrid quantum-classical symmetry-adapted quantum Krylov subspace diagonalization algorithm based on our input scheme, where the quantum computations are performed with the IBM Qiskit quantum simulator. The results of the hybrid calculations agree with exact results. | 翻訳日:2024-11-08 20:14:30 公開日:2024-10-15 |
# 保護者によるクロスアテンションの差別的プライバシ
Differential Privacy of Cross-Attention with Provable Guarantee ( http://arxiv.org/abs/2407.14717v2 ) ライセンス: Link先を確認 | Yingyu Liang, Zhenmei Shi, Zhao Song, Yufa Zhou, | (参考訳) クロスアテンションは、近年、検索強化生成(RAG)、システムプロンプト、ガイド付き安定拡散など、多くの重要な人工知能アプリケーションにおいて、基本的なモジュールとなっている。
キーおよびバリューマトリックスには、モデルプロバイダとそのユーザに関する機密情報が含まれている可能性があるため、クロスアテンションプライバシの確保は不可欠かつ緊急に必要である。
本研究では,クロスアテンションのプライバシセキュリティに理論的保証を与えるために,新たな差分プライバシ(DP)データ構造を設計する。
詳細は、$n$をシステムプロンプト/RAGデータの入力トークン長、$d$を機能次元、$0 < \alpha \le 1$を相対誤差パラメータ、$R$をクエリとキー行列の最大値、$R_w$を値行列の最大値、$r,s,\epsilon_s$を多項式カーネルメソッドのパラメータとする。
次に、我々のデータ構造は、$\widetilde{O}(ndr^2)$メモリ消費、$\widetilde{O}(nr^2)$初期化時間複雑性、$\widetilde{O}(\alpha^{-1} r^2)$クエリ時間複雑さを必要とする。
さらに、我々のデータ構造は、ユーザクエリに応答するプロセスが$(\epsilon, \delta)$-DPと$\widetilde{O}(n^{-1} \epsilon^{-1} \alpha^{-1/2} R^{2s} R_w r^2)$加法誤差と$n^{-1} (\alpha + \epsilon_s)$相対誤差を満たすことを保証できる。
さらに,ユーザが意図的にクロスアテンションシステムに攻撃できる適応型クエリに頑健である。
我々の知る限り、これはDPをクロスアテンションに提供するための最初の取り組みであり、大規模な生成モデル(LGM)において、より多くのプライバシーアルゴリズム設計を促すことを約束しています。
Cross-attention has become a fundamental module nowadays in many important artificial intelligence applications, e.g., retrieval-augmented generation (RAG), system prompt, guided stable diffusion, and many more. Ensuring cross-attention privacy is crucial and urgently needed because its key and value matrices may contain sensitive information about model providers and their users. In this work, we design a novel differential privacy (DP) data structure to address the privacy security of cross-attention with a theoretical guarantee. In detail, let $n$ be the input token length of system prompt/RAG data, $d$ be the feature dimension, $0 < \alpha \le 1$ be the relative error parameter, $R$ be the maximum value of the query and key matrices, $R_w$ be the maximum value of the value matrix, and $r,s,\epsilon_s$ be parameters of polynomial kernel methods. Then, our data structure requires $\widetilde{O}(ndr^2)$ memory consumption with $\widetilde{O}(nr^2)$ initialization time complexity and $\widetilde{O}(\alpha^{-1} r^2)$ query time complexity for a single token query. In addition, our data structure can guarantee that the process of answering user query satisfies $(\epsilon, \delta)$-DP with $\widetilde{O}(n^{-1} \epsilon^{-1} \alpha^{-1/2} R^{2s} R_w r^2)$ additive error and $n^{-1} (\alpha + \epsilon_s)$ relative error between our output and the true answer. Furthermore, our result is robust to adaptive queries in which users can intentionally attack the cross-attention system. To our knowledge, this is the first work to provide DP for cross-attention and is promising to inspire more privacy algorithm design in large generative models (LGMs). | 翻訳日:2024-11-08 19:27:32 公開日:2024-10-15 |
# イジングと量子アニーリングマシンを用いたセンサ配置最適化のための相互情報の定式化
Quadratic Formulation of Mutual Information for Sensor Placement Optimization using Ising and Quantum Annealing Machines ( http://arxiv.org/abs/2407.14747v2 ) ライセンス: Link先を確認 | Yuta Nakano, Shigeyasu Uno, | (参考訳) 我々は,複数の候補位置から予め定義されたセンサ数の配置を決定するための組合せ最適化問題に対処し,最小限のセンサ数で情報取得を最大化することを目的とした。
センサ配置候補のデータが多変量正規分布に従うことを前提として、選択されたセンサ位置のデータと他者のデータとの相互情報(MI)を目的関数として定義し、提案手法を用いて擬似非拘束バイナリ最適化(QUBO)問題で定式化した。
例として,3つのセンサ配置候補に対する目的関数の最適解を量子アニールマシンを用いて計算し,得られた結果が妥当であることを確認した。
提案した定式化法は任意のセンサに適用可能であり,センサ数の増加に伴って量子アニールの利点が出現することが期待される。
We address a combinatorial optimization problem to determine the placement of a predefined number of sensors from multiple candidate positions, aiming to maximize information acquisition with the minimum number of sensors. Assuming that the data from predefined candidates of sensor placements follow a multivariate normal distribution, we defined mutual information (MI) between the data from selected sensor positions and the data from the others as an objective function, and formulated it in a Quadratic Unconstrainted Binary Optimization (QUBO) problem by using a method we proposed. As an example, we calculated optimal solutions of the objective functions for 3 candidates of sensor placements using a quantum annealing machine, and confirmed that the results obtained were reasonable. The formulation method we proposed can be applied to any number of sensors, and it is expected that the advantage of quantum annealing emerges as the number of sensors increases. | 翻訳日:2024-11-08 19:27:32 公開日:2024-10-15 |
# TADA:時系列データに対する時間的逆データ拡張
TADA: Temporal Adversarial Data Augmentation for Time Series Data ( http://arxiv.org/abs/2407.15174v2 ) ライセンス: Link先を確認 | Byeong Tak Lee, Joon-myoung Kwon, Yong-Yeon Jo, | (参考訳) ドメインの一般化は、分布の見当たらないサンプルと外部のサンプルを効果的に実行するモデルを訓練することを目的としている。
Adversarial Data Augmentation (ADA) はドメインの一般化において広く使われている手法である。
これは、潜在的に見えないシナリオをトレーニングデータセットにシミュレートするために設計された合成サンプルを含めることで、モデルの堅牢性を高める。
しかし、時系列データでは、従来のADAアプローチは時間的特性に関連する分布シフトに対処できないことが多い。
この制限に対処するため,時系列データに対するTADA(Temporal Adversarial Data Augmentation)を提案する。
時間のワープは本質的に微分不可能であるが、ADAはバックプロパゲーションによるサンプルの生成に依存している。
我々は、周波数領域における位相シフトと時間領域における時間シフトの双対性を利用してこの問題を解決する。
各種時系列データセットを用いて評価した結果,TADは既存の領域一般化手法よりも優れていることがわかった。
さらに,分布可視化を用いて,TADによる分布変化とADAによる分布変化とが明らかに異なることを確認し,実世界の分布変化を効果的にシミュレートした。
Domain generalization aim to train models to effectively perform on samples that are unseen and outside of the distribution. Adversarial data augmentation (ADA) is a widely used technique in domain generalization. It enhances the model robustness by including synthetic samples designed to simulate potential unseen scenarios into the training datasets, which is then used to train the model. However, in time series data, traditional ADA approaches often fail to address distribution shifts related to temporal characteristics. To address this limitation, we propose Temporal Adversarial Data Augmentation (TADA) for time series data, which incorporate time warping into ADA. Although time warping is inherently non-differentiable, ADA relies on generating samples through backpropagation. We resolve this issue by leveraging the duality between phase shifts in the frequency domain and time shifts in the time domain, thereby making the process differentiable. Our evaluations across various time series datasets demonstrate that TADA outperforms existing methods for domain generalization. In addition, using distribution visualization, we confirmed that the distribution shifts induced by TADA are clearly different from those induced by ADA, and together, they effectively simulate real-world distribution shifts. | 翻訳日:2024-11-08 15:56:37 公開日:2024-10-15 |
# オフライン選好学習における逆流融合の探索と対応
Exploring and Addressing Reward Confusion in Offline Preference Learning ( http://arxiv.org/abs/2407.16025v2 ) ライセンス: Link先を確認 | Xin Chen, Sam Toyer, Florian Shkurti, | (参考訳) 報酬モデルのトレーニングデータには、人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)が望ましい目標を特定し、望ましくない行動を引き起こすのを防いでいる。
本稿では、特にオフラインデータに急激な相関が存在する場合、オフラインRLHFは、混乱に報いる可能性があることを示す。
そこで我々は,この問題を調査するためのベンチマークを作成し,積極的学習を伴うグローバルな選好連鎖を構築しながら,選好の推移性を活用することによって,報酬の混乱を著しく低減する手法を提案する。
Spurious correlations in a reward model's training data can prevent Reinforcement Learning from Human Feedback (RLHF) from identifying the desired goal and induce unwanted behaviors. This paper shows that offline RLHF is susceptible to reward confusion, especially in the presence of spurious correlations in offline data. We create a benchmark to study this problem and propose a method that can significantly reduce reward confusion by leveraging transitivity of preferences while building a global preference chain with active learning. | 翻訳日:2024-11-08 15:45:25 公開日:2024-10-15 |
# 世界ダイナミクスモデリングによるエージェント学習の強化
Enhancing Agent Learning through World Dynamics Modeling ( http://arxiv.org/abs/2407.17695v2 ) ライセンス: Link先を確認 | Zhiyuan Sun, Haochen Shi, Marc-Alexandre Côté, Glen Berseth, Xingdi Yuan, Bang Liu, | (参考訳) 大きな言語モデル(LLM)は、言語理解と対話的な意思決定のタスクにますます適用されてきている。
しかし、この知識の深さと幅はドメインによって異なる。
既存の多くのアプローチでは、LLMは環境を包括的に理解しており、しばしば現実の世界力学の把握における潜在的なギャップを見落としていると仮定している。
少数のデモから世界ダイナミクスを発見し、これらのダイナミクスの精度を検証し、現在の状況に合わせて新しい高度なダイナミクスを進化させるフレームワークであるDiscover, Verify, and Evolve(DiVE)を紹介する。
広範囲な評価を通じて、各コンポーネントが性能に与える影響を評価し、DiVEが生成するダイナミクスと人間のアノテーションによるダイナミクスを比較した。
以上の結果から,DiVE が指導する LLM は,クラフト環境における人間プレイヤーに匹敵する報奨を達成し,MiniHack 環境におけるタスク固有の事前訓練を必要とする手法を超越した,より情報的な決定を下すことが示唆された。
Large language models (LLMs) have been increasingly applied to tasks in language understanding and interactive decision-making, with their impressive performance largely attributed to the extensive domain knowledge embedded within them. However, the depth and breadth of this knowledge can vary across domains. Many existing approaches assume that LLMs possess a comprehensive understanding of their environment, often overlooking potential gaps in their grasp of actual world dynamics. To address this, we introduce Discover, Verify, and Evolve (DiVE), a framework that discovers world dynamics from a small number of demonstrations, verifies the accuracy of these dynamics, and evolves new, advanced dynamics tailored to the current situation. Through extensive evaluations, we assess the impact of each component on performance and compare the dynamics generated by DiVE to human-annotated dynamics. Our results show that LLMs guided by DiVE make more informed decisions, achieving rewards comparable to human players in the Crafter environment and surpassing methods that require prior task-specific training in the MiniHack environment. | 翻訳日:2024-11-08 15:12:19 公開日:2024-10-15 |
# LoRA-Pro: 低ランクアダプタは適切に最適化されているか?
LoRA-Pro: Are Low-Rank Adapters Properly Optimized? ( http://arxiv.org/abs/2407.18242v2 ) ライセンス: Link先を確認 | Zhengbo Wang, Jian Liang, Ran He, Zilei Wang, Tieniu Tan, | (参考訳) LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
本稿では,LoRAの最適化プロセスと完全微調整の基本的な関係を明らかにする。最適化にLoRAを用いることは,パラメータ更新に低ランク勾配を用いる完全微調整と数学的に等価である。
そして、この低ランク勾配は、LoRAの2つの低ランク行列の勾配で表すことができる。
この知見を活かしたLoRA-Proは,これらの低ランク行列の勾配を戦略的に調整することで,LoRAの性能を向上させる手法である。
この調整により、ローランク勾配はフル微調整勾配をより正確に近似することができ、これによりLoRAとフル微調整の間の性能ギャップを狭めることができる。
さらに,LoRA-Proの微調整時に,低ランク行列の勾配を調整する最適解を理論的に導出する。
我々は、自然言語理解、対話生成、数学的推論、コード生成、画像分類タスクなどにわたる広範な実験を行い、LoRA-ProがLoRAの性能を大幅に改善し、完全な微調整によるギャップを効果的に狭めることを示した。
コードは \url{https://github.com/mrflogs/LoRA-Pro} で公開されている。
Low-rank adaptation, also known as LoRA, has emerged as a prominent method for parameter-efficient fine-tuning of foundation models. Despite its computational efficiency, LoRA still yields inferior performance compared to full fine-tuning. In this paper, we first uncover a fundamental connection between the optimization processes of LoRA and full fine-tuning: using LoRA for optimization is mathematically equivalent to full fine-tuning using a low-rank gradient for parameter updates. And this low-rank gradient can be expressed in terms of the gradients of the two low-rank matrices in LoRA. Leveraging this insight, we introduce LoRA-Pro, a method that enhances LoRA's performance by strategically adjusting the gradients of these low-rank matrices. This adjustment allows the low-rank gradient to more accurately approximate the full fine-tuning gradient, thereby narrowing the performance gap between LoRA and full fine-tuning. Furthermore, we theoretically derive the optimal solutions for adjusting the gradients of the low-rank matrices, applying them during fine-tuning in LoRA-Pro. We conduct extensive experiments across natural language understanding, dialogue generation, mathematical reasoning, code generation, and image classification tasks, demonstrating that LoRA-Pro substantially improves LoRA's performance, effectively narrowing the gap with full fine-tuning. Code is publicly available at \url{https://github.com/mrflogs/LoRA-Pro}. | 翻訳日:2024-11-08 15:01:09 公開日:2024-10-15 |
# 基礎モデルによる技能教育の自律的改善
Autonomous Improvement of Instruction Following Skills via Foundation Models ( http://arxiv.org/abs/2407.20635v2 ) ライセンス: Link先を確認 | Zhiyuan Zhou, Pranav Atreya, Abraham Lee, Homer Walke, Oier Mees, Sergey Levine, | (参考訳) 自律的に収集された経験から改善できるインテリジェントな命令追従ロボットは、ロボット学習を変革する可能性がある。高価な遠隔操作型デモデータを集める代わりに、大規模なロボット群を配置することで、大規模な自律的データを迅速に収集し、そのパフォーマンスを総合的に改善することができる。
しかし、自律的な改善には2つの重要な問題を解決する必要がある。
一 多様な意味論的に意味のあるロボットデータを収集できるスケーラブルなデータ収集手順を完全自動化すること。
(ii)人間のアノテーションのない最適でない自律的なデータから学ぶこと。
そこで本研究では,これらの課題に対処する新たなアプローチを提案する。
我々のフレームワークは視覚言語モデルを活用して,新しい環境における意味的な経験を収集・評価し,次に,タスクに続く命令を(意味のない)言語条件の画像生成と(意味のない)ゴール到達に分解することで,人間のアノテーションを使わずに,この自律的に収集したデータから改善することが極めて現実的である。
実世界において、我々のアプローチの有効性を実証する広範な実験を行い、目に見えない環境のスイートにおいて、自律的に収集されたデータを用いてロボットポリシーを2倍に改善できることを見出した。
セマンティックな自律的改善パイプラインのコードと、5つのテーブルトップ環境で収集された30.5Kトラジェクトリの自律的データセットをオープンソースにしています。
Intelligent instruction-following robots capable of improving from autonomously collected experience have the potential to transform robot learning: instead of collecting costly teleoperated demonstration data, large-scale deployment of fleets of robots can quickly collect larger quantities of autonomous data that can collectively improve their performance. However, autonomous improvement requires solving two key problems: (i) fully automating a scalable data collection procedure that can collect diverse and semantically meaningful robot data and (ii) learning from non-optimal, autonomous data with no human annotations. To this end, we propose a novel approach that addresses these challenges, allowing instruction-following policies to improve from autonomously collected data without human supervision. Our framework leverages vision-language models to collect and evaluate semantically meaningful experiences in new environments, and then utilizes a decomposition of instruction following tasks into (semantic) language-conditioned image generation and (non-semantic) goal reaching, which makes it significantly more practical to improve from this autonomously collected data without any human annotations. We carry out extensive experiments in the real world to demonstrate the effectiveness of our approach, and find that in a suite of unseen environments, the robot policy can be improved 2x with autonomously collected data. We open-source the code for our semantic autonomous improvement pipeline, as well as our autonomous dataset of 30.5K trajectories collected across five tabletop environments. | 翻訳日:2024-11-08 14:05:01 公開日:2024-10-15 |
# NeuroSEM: PINNとスペクトル要素の結合による多物理問題シミュレーションのためのハイブリッドフレームワーク
NeuroSEM: A hybrid framework for simulating multiphysics problems by coupling PINNs and spectral elements ( http://arxiv.org/abs/2407.21217v2 ) ライセンス: Link先を確認 | Khemraj Shukla, Zongren Zou, Chi Hin Chan, Additi Pandey, Zhicheng Wang, George Em Karniadakis, | (参考訳) 流体力学、熱伝達、構造力学、電磁学の複雑な相互作用を特徴とする多物理問題は、その結合の性質から本質的に困難である。
特定の状態変数に関する実験データは利用可能であるが、これらのデータを数値解法と統合することは依然として重要な課題である。
物理インフォームドニューラルネットワーク(PINN)は様々な工学分野、特に雑音データ処理や偏微分方程式(PDE)の逆問題解決において有望な結果を示している。
しかし、多物理系における非線形現象の予測における効果、特に乱流を含む効果は、まだ完全には確立されていない。
本研究では、PINNと高忠実度スペクトル要素法(SEM)を融合したハイブリッドフレームワークであるNeuroSEMを紹介した。
NeuroSEMはPINNとSEMの両方の強度を活用し、多物理問題に対する堅牢な解決策を提供する。
PINNは、特定のサブドメインでデータと物理現象を同化するように訓練され、Nektar++ソルバに統合される。
キャビティフローおよびシリンダーを過ぎる流れにおける熱対流に対するNeuroSEMの有効性と精度を実証した。
我々はRayleigh-B\enard対流系にNeuroSEMを適用し、熱境界条件やノイズデータセットの欠如、および実粒子画像速度測定(PIV)データを用いて、馬靴の渦構造を特徴とする流れパターンを捉えた。
このフレームワークのプラグ・アンド・プレイの性質は、他のマルチ物理問題やマルチスケール問題への拡張を促進する。
さらに、NeuroSEMは、新興のGPU-CPUアーキテクチャ上での効率的な実行に最適化されている。
このハイブリッドアプローチはシミュレーションの精度と効率を高め、様々な科学領域で複雑なエンジニアリング課題に取り組むための強力なツールとなる。
Multiphysics problems that are characterized by complex interactions among fluid dynamics, heat transfer, structural mechanics, and electromagnetics, are inherently challenging due to their coupled nature. While experimental data on certain state variables may be available, integrating these data with numerical solvers remains a significant challenge. Physics-informed neural networks (PINNs) have shown promising results in various engineering disciplines, particularly in handling noisy data and solving inverse problems in partial differential equations (PDEs). However, their effectiveness in forecasting nonlinear phenomena in multiphysics regimes, particularly involving turbulence, is yet to be fully established. This study introduces NeuroSEM, a hybrid framework integrating PINNs with the high-fidelity Spectral Element Method (SEM) solver, Nektar++. NeuroSEM leverages the strengths of both PINNs and SEM, providing robust solutions for multiphysics problems. PINNs are trained to assimilate data and model physical phenomena in specific subdomains, which are then integrated into the Nektar++ solver. We demonstrate the efficiency and accuracy of NeuroSEM for thermal convection in cavity flow and flow past a cylinder. We applied NeuroSEM to the Rayleigh-B\'enard convection system, including cases with missing thermal boundary conditions and noisy datasets, and to real particle image velocimetry (PIV) data to capture flow patterns characterized by horseshoe vortical structures. The framework's plug-and-play nature facilitates its extension to other multiphysics or multiscale problems. Furthermore, NeuroSEM is optimized for efficient execution on emerging integrated GPU-CPU architectures. This hybrid approach enhances the accuracy and efficiency of simulations, making it a powerful tool for tackling complex engineering challenges in various scientific domains. | 翻訳日:2024-11-08 13:51:33 公開日:2024-10-15 |
# Tora:ビデオ生成のための軌道指向拡散変換器
Tora: Trajectory-oriented Diffusion Transformer for Video Generation ( http://arxiv.org/abs/2407.21705v3 ) ライセンス: Link先を確認 | Zhenghao Zhang, Junchao Liao, Menghao Li, Zuozhuo Dai, Bingxue Qiu, Siyu Zhu, Long Qin, Weizhi Wang, | (参考訳) 拡散変換器(DiT)の最近の進歩は,高品質な映像コンテンツの製作に顕著な熟練性を示している。
それでも、制御可能なモーションで映像を効果的に生成するトランスフォーマーベースの拡散モデルの可能性は、探索の限られた領域に留まっている。
本稿では,テキスト・ビジュアル・トラジェクティブ・コンディションを同時に統合した最初のトラジェクトリ指向型DiTフレームワークであるToraを紹介する。
具体的には、トラジェクティブ・エクストラクタ(TE)、空間的テンポラル・DiT、モーションガイダンス・フーザー(MGF)から構成される。
TEは、任意の軌道を階層的な時空運動パッチに3Dビデオ圧縮ネットワークで符号化する。
MGFはモーションパッチをDiTブロックに統合し、指定された軌跡を正確に追従する一貫したビデオを生成する。
我々の設計はDiTのスケーラビリティとシームレスに一致し、様々な期間、アスペクト比、解像度で映像コンテンツのダイナミクスを正確に制御できる。
広範囲にわたる実験は、Toraが高い運動の忠実さを達成するのに優れており、物理的世界の複雑な動きを巧みにシミュレートしていることを示している。
コードは、https://github.com/alibaba/Tora.comで入手できる。
Recent advancements in Diffusion Transformer (DiT) have demonstrated remarkable proficiency in producing high-quality video content. Nonetheless, the potential of transformer-based diffusion models for effectively generating videos with controllable motion remains an area of limited exploration. This paper introduces Tora, the first trajectory-oriented DiT framework that concurrently integrates textual, visual, and trajectory conditions, thereby enabling scalable video generation with effective motion guidance. Specifically, Tora consists of a Trajectory Extractor(TE), a Spatial-Temporal DiT, and a Motion-guidance Fuser(MGF). The TE encodes arbitrary trajectories into hierarchical spacetime motion patches with a 3D video compression network. The MGF integrates the motion patches into the DiT blocks to generate consistent videos that accurately follow designated trajectories. Our design aligns seamlessly with DiT's scalability, allowing precise control of video content's dynamics with diverse durations, aspect ratios, and resolutions. Extensive experiments demonstrate Tora's excellence in achieving high motion fidelity, while also meticulously simulating the intricate movement of the physical world. Code is available at: https://github.com/alibaba/Tora. | 翻訳日:2024-11-08 13:40:32 公開日:2024-10-15 |
# 現代教育におけるAIの必要性 : 説明可能なAI(xAI)の視点から
Need of AI in Modern Education: in the Eyes of Explainable AI (xAI) ( http://arxiv.org/abs/2408.00025v2 ) ライセンス: Link先を確認 | Supriya Manna, Niladri Sett, | (参考訳) 現代教育はAIなしでは「textit{Modern}」ではない。
しかし、AIの複雑な性質は、問題の理解と修正を困難にしている。
世界中の研究によると、親の収入は子どもの教育に大きく影響している。
これにより、AI、特に複雑なモデルが、Explainable AIツールを使用して重要な決定を行う方法を探ることができた。
我々の研究は、親の収入に関連する多くの複雑さを発見し、これらの決定について合理的な説明を提供した。
しかし、教育におけるAIからの要望に反するAIのバイアスも見つかりました。
これらのバイアスは、家族や子供の教育に影響を与え、全員に公正な機会を提供するより良いAIソリューションの必要性を強調します。
この章は、AIの操作方法、特にバイアスに関する複雑な方法を明かそうとしている。
これらは、より信頼性があり、説明責任があり、すべての関係者にとって有益な方法でAIを使用することを含む、より良い教育政策に向けた基本的なステップである。
Modern Education is not \textit{Modern} without AI. However, AI's complex nature makes understanding and fixing problems challenging. Research worldwide shows that a parent's income greatly influences a child's education. This led us to explore how AI, especially complex models, makes important decisions using Explainable AI tools. Our research uncovered many complexities linked to parental income and offered reasonable explanations for these decisions. However, we also found biases in AI that go against what we want from AI in education: clear transparency and equal access for everyone. These biases can impact families and children's schooling, highlighting the need for better AI solutions that offer fair opportunities to all. This chapter tries to shed light on the complex ways AI operates, especially concerning biases. These are the foundational steps towards better educational policies, which include using AI in ways that are more reliable, accountable, and beneficial for everyone involved. | 翻訳日:2024-11-08 13:40:32 公開日:2024-10-15 |
# ギブスサンプリングはO(1)-局所ハミルトニアンによる一定温度での量子アドバンテージを与える
Gibbs Sampling gives Quantum Advantage at Constant Temperatures with O(1)-Local Hamiltonians ( http://arxiv.org/abs/2408.01516v3 ) ライセンス: Link先を確認 | Joel Rajakumar, James D. Watson, | (参考訳) ギブス状態(熱平衡状態に対応する状態)からのサンプリングは、量子コンピュータが古典的コンピュータと比較して超ポリノミカルなスピードアップを達成することを期待するタスクであることが最近示されている(Bergamaschi et al , arXiv: 2404.14639)。
これらの結果を拡張し、量子コンピュータを用いて古典的な硬さを示すことによって、O(1)-局所相互作用を持つハミルトニアンのギブス状態に対して、この量子優位性が依然として生じていることを示す。
特に、3次元格子上の5-局所ハミルトニアンに対しても、サンプリングの硬さが維持されることを示す。
さらに,不完全な測定しかできない場合,サンプリングの硬さは堅牢であることを示す。
Sampling from Gibbs states -- states corresponding to system in thermal equilibrium -- has recently been shown to be a task for which quantum computers are expected to achieve super-polynomial speed-up compared to classical computers, provided the locality of the Hamiltonian increases with the system size (Bergamaschi et al., arXiv: 2404.14639). We extend these results to show that this quantum advantage still occurs for Gibbs states of Hamiltonians with O(1)-local interactions at constant temperature by showing classical hardness-of-sampling and demonstrating such Gibbs states can be prepared efficiently using a quantum computer. In particular, we show hardness-of-sampling is maintained even for 5-local Hamiltonians on a 3D lattice. We additionally show that the hardness-of-sampling is robust when we are only able to make imperfect measurements. | 翻訳日:2024-11-08 13:18:17 公開日:2024-10-15 |
# LNGSにおけるゲータを用いたパウリ排他原理違反の探索
Search for Pauli Exclusion Principle Violations with Gator at LNGS ( http://arxiv.org/abs/2408.02500v2 ) ライセンス: Link先を確認 | L. Baudis, R. Biondi, A. Bismark, A. Clozza, C. Curceanu, M. Galloway, F. Napolitano, F. Piastra, K. Piscicchia, A. Porcelli, D. Ramírez García, | (参考訳) パウリ排他原理(英: Pauli Exclusion Principle、PEP)は、量子論の基本的な対称性から現れるが、その物理的起源はまだ理解されていない。
小型のPEP違反に対する高精度な実験的探索により、高感度で標準モデルの重要な仮定をテストすることができる。
グラナナリ・デル・グラン・サッソ研究所で運用されている低背景高純度ゲルマニウム検出器であるゲーターによる専用の測定について報告する。
実験手法は、直接電流を通して既存の電子系に電子を導入することによって新しい対称性状態を形成することに依存し、メシア・グリーンバーグ超選択則の条件を満たす。
PEP違反は観測されておらず、PEP違反確率の上限は$\beta^2/2 <4.8 \cdot 10^{-29}$ (90% CL)である。
これにより、以前の制約を同等の測定値から1桁以上改善する。
The Pauli Exclusion Principle (PEP) appears from fundamental symmetries in quantum field theories, but its physical origin is still to be understood. High-precision experimental searches for small PEP violations permit testing key assumptions of the Standard Model with high sensitivity. We report on a dedicated measurement with Gator, a low-background, high-purity germanium detector operated at the Laboratori Nazionali del Gran Sasso, aimed at testing PEP-violating atomic transitions in lead. The experimental technique, relying on forming a new symmetry state by introducing electrons into the pre-existing electron system through a direct current, satisfies the conditions of the Messiah-Greenberg superselection rule. No PEP violation has been observed, and an upper limit on the PEP violation probability of $\beta^2/2 < 4.8 \cdot 10^{-29}$ (90% CL) is set. This improves the previous constraint from a comparable measurement by more than one order of magnitude. | 翻訳日:2024-11-08 12:55:50 公開日:2024-10-15 |
# NatLan: 言語トリガーとドメイントリガーの保持を通じて,知識の解放を促進するネイティブ言語プロンプト
NatLan: Native Language Prompting Facilitates Knowledge Elicitation Through Language Trigger Provision and Domain Trigger Retention ( http://arxiv.org/abs/2408.03544v3 ) ライセンス: Link先を確認 | Baixuan Li, Yunlong Fan, Tianyi Ma, Zhiqiang Gao, | (参考訳) MLLM(Multilingual Large Language Model)は、支配言語で行うような、支配言語以外の言語での質問に答える際には、あまり機能しない。
既存の翻訳解答法ではこの問題が緩和されているが、その効果のメカニズムはいまだ不明である。
本研究では,MLLMの主流言語を人間の母国語に類似させ,言語トリガー (LT) とドメイントリガー (DT) の2つの認知的特徴を用いて,翻訳答答法の背後にあるメカニズムを解釈する。
このことから,これらの方法によって十分なLTが提供される一方で,DT保持に不足があることが判明した。
この問題を軽減するために,複数MLLM協調戦略を採用したNative Language Prompting (NatLan)を提案する。
5つの言語QAベンチマークで、NatLanは31.28%の精度向上を実現している。
私たちのコードはhttps://github.com/AnonyNLP/NatLan.comで公開されています。
Multilingual large language models (MLLMs) do not perform as well when answering questions in non-dominant languages as they do in their dominant languages. Although existing translate-then-answer methods alleviate this issue, the mechanisms behind their effectiveness remain unclear. In this study, we analogize the dominant language of MLLMs to the native language of humans and use two human cognitive features: the Language Trigger (LT) and the Domain Trigger (DT), to interpret the mechanisms behind translate-then-answer methods. This reveals that while sufficient LTs are provided by these methods, there remains a deficiency in DT retention. To mitigate this issue, we propose Native Language Prompting (NatLan), employing a Multi-MLLM collaboration strategy and introducing an additional role-enhanced domain-specific MLLM with stronger multilingual understanding capabilities as the translator. Across five language QA benchmarks, NatLan achieves up to a 31.28% improvement in accuracy and, compared to existing state-of-the-art methods, provides comparable or greater retention of DTs in up to 87% of cases. Our code is available at https://github.com/AnonyNLP/NatLan. | 翻訳日:2024-11-08 12:33:46 公開日:2024-10-15 |
# 冷原子量子シミュレータにおける全位相変動の測定
Measurement of total phase fluctuation in cold-atomic quantum simulators ( http://arxiv.org/abs/2408.03736v2 ) ライセンス: Link先を確認 | Taufiq Murtadho, Federica Cataldini, Sebastian Erne, Marek Gluza, Mohammadamin Tajik, Jörg Schmiedmayer, Nelly H. Y. Ng, | (参考訳) 量子多体系の力学を研究することは、特に連続系において、関連する可観測性を求める際の制限によってしばしば制限される。
このようなシステムに関する情報を得るための強力な方法は、連続性方程式からの局所電流の再構成である。
ここでは, 隣り合うボースガスの総相ゆらぎを抽出するために, このアプローチを拡張した。
干渉により探る2つの1次元ボース気体の位相差から1次元量子場理論をシミュレートする選択実験からのデータを分析し,その有効性を数値的に検証し,その有効性を実証する。
本分析により, 相の総和モードの隠蔽領域が明らかとなり, 系の長期熱化と外平衡ダイナミクスの研究に重要であり, 冷原子量子シミュレータの範囲と能力の拡大が図られた。
Studying the dynamics of quantum many-body systems is often constrained by the limitations in probing relevant observables, especially in continuous systems. A powerful method to gain information about such systems is the reconstruction of local currents from the continuity equation. Here we extend this approach to extract the total phase fluctuation of adjacent Bose gases. We validate our technique numerically and demonstrate its effectiveness by analyzing data from selected experiments simulating 1D quantum field theories through the phase difference of two 1D Bose gases probed by interference. Our analysis reveals the previously hidden sector of the sum mode of the phase, which is important for studying long-time thermalization and out-of-equilibrium dynamics of the system, thereby expanding the scope and capabilities of cold-atomic quantum simulators. | 翻訳日:2024-11-08 12:22:45 公開日:2024-10-15 |
# 教師なし異常検出のための二重モデル分離蒸留法
Dual-Modeling Decouple Distillation for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2408.03888v2 ) ライセンス: Link先を確認 | Xinyue Liu, Jianyuan Wang, Biao Leng, Shuo Zhang, | (参考訳) 学生-教師ネットワークに基づく知識蒸留は、教師と学生のネットワークの表現能力の違いを利用して、異常な局所化を実装することによる、教師なしの異常検出タスクに挑戦する主要なソリューションパラダイムの1つである。
しかし、教師ネットワークへの学生ネットワークの過度な一般化は、異常の表現能力に無視できない違いをもたらし、検出の有効性に影響を及ぼす可能性がある。
既存の手法では, 生徒や教師を構造的視点から利用したり, コンテンツ的視点から蒸留情報を明示的に拡張することで, 生徒ネットワークの不適合の可能性が増大し, 異常中心やエッジにおける異常検出能力が低下する可能性がある。
本稿では,教師なし異常検出のためのDMDD(Dual-Modeling Deouple Distillation)を提案する。
DMDDでは、初等生の特徴を正規性と異常性の特徴に分離する2つの学生-教員ネットワークが提案されている。
さらに、異常画像の正常性特徴とそれに対応する正常画像の教師特徴とを適合させ、異常領域における異常特徴と教師特徴との距離を広げ、正常画像対に基づくデュアルモデル蒸留を導入する。
これら2つの蒸留のアイデアを合成し、異常の端と中心の両方に焦点をあてた異常検出を実現する。
最後に,マルチパーセプション・セグメンテーション・ネットワークを提案する。
MVTec AD実験の結果、DMDDは従来の知識蒸留法でSOTAのローカライゼーション性能を超え、ピクセルレベルのAUCでは98.85%、PROでは96.13%に達した。
Knowledge distillation based on student-teacher network is one of the mainstream solution paradigms for the challenging unsupervised Anomaly Detection task, utilizing the difference in representation capabilities of the teacher and student networks to implement anomaly localization. However, over-generalization of the student network to the teacher network may lead to negligible differences in representation capabilities of anomaly, thus affecting the detection effectiveness. Existing methods address the possible over-generalization by using differentiated students and teachers from the structural perspective or explicitly expanding distilled information from the content perspective, which inevitably result in an increased likelihood of underfitting of the student network and poor anomaly detection capabilities in anomaly center or edge. In this paper, we propose Dual-Modeling Decouple Distillation (DMDD) for the unsupervised anomaly detection. In DMDD, a Decouple Student-Teacher Network is proposed to decouple the initial student features into normality and abnormality features. We further introduce Dual-Modeling Distillation based on normal-anomaly image pairs, fitting normality features of anomalous image and the teacher features of the corresponding normal image, widening the distance between abnormality features and the teacher features in anomalous regions. Synthesizing these two distillation ideas, we achieve anomaly detection which focuses on both edge and center of anomaly. Finally, a Multi-perception Segmentation Network is proposed to achieve focused anomaly map fusion based on multiple attention. Experimental results on MVTec AD show that DMDD surpasses SOTA localization performance of previous knowledge distillation-based methods, reaching 98.85% on pixel-level AUC and 96.13% on PRO. | 翻訳日:2024-11-08 12:22:45 公開日:2024-10-15 |
# 医用グラフRAG:グラフ検索拡張生成による安全な医療用大言語モデルを目指して
Medical Graph RAG: Towards Safe Medical Large Language Model via Graph Retrieval-Augmented Generation ( http://arxiv.org/abs/2408.04187v2 ) ライセンス: Link先を確認 | Junde Wu, Jiayuan Zhu, Yunli Qi, Jingkun Chen, Min Xu, Filippo Menolascina, Vicente Grau, | (参考訳) 本稿では,医学領域に特化して設計された新規なグラフベース検索・拡張生成(RAG)フレームワークである「textbf{MedGraphRAG}」について紹介する。
グラフベースのRAG(GraphRAG)は、LLMを活用してRAGデータをグラフに整理する。
しかし、その標準実装は一般的には複雑であり、エビデンスベースの応答を生成する能力が欠如しており、医療分野での有効性を制限している。
医用領域にGraphRAGの機能を拡張するために、独自のトリプルグラフ構築法とU-Retrieval手法を提案する。
グラフ構築において、ユーザ文書を信頼できる医療ソースと制御語彙に接続するトリプルリンク構造を作成する。
検索プロセスでは,グローバルな文脈認識と正確なインデックス付けのバランスをとるために,トップダウンの精密検索とボトムアップ対応検索を組み合わせたU-Retrievalを提案する。
これらの取り組みは、ソース情報検索と包括的な応答生成の両方を可能にする。
提案手法は,9つの医療用Q&Aベンチマーク,2つの健康用ファクトチェックベンチマーク,および1つの収集データセットで検証した。
その結果、MedGraphRAGはすべてのベンチマークで最新モデルを一貫して上回り、応答には信頼できるソースドキュメンテーションや定義が含まれています。
私たちのコードは、https://github.com/MedicineToken/Medical-Graph-RAGでリリースされています。
We introduce a novel graph-based Retrieval-Augmented Generation (RAG) framework specifically designed for the medical domain, called \textbf{MedGraphRAG}, aimed at enhancing Large Language Model (LLM) capabilities for generating evidence-based medical responses, thereby improving safety and reliability when handling private medical data. Graph-based RAG (GraphRAG) leverages LLMs to organize RAG data into graphs, showing strong potential for gaining holistic insights from long-form documents. However, its standard implementation is overly complex for general use and lacks the ability to generate evidence-based responses, limiting its effectiveness in the medical field. To extend the capabilities of GraphRAG to the medical domain, we propose unique Triple Graph Construction and U-Retrieval techniques over it. In our graph construction, we create a triple-linked structure that connects user documents to credible medical sources and controlled vocabularies. In the retrieval process, we propose U-Retrieval which combines Top-down Precise Retrieval with Bottom-up Response Refinement to balance global context awareness with precise indexing. These effort enable both source information retrieval and comprehensive response generation. Our approach is validated on 9 medical Q\&A benchmarks, 2 health fact-checking benchmarks, and one collected dataset testing long-form generation. The results show that MedGraphRAG consistently outperforms state-of-the-art models across all benchmarks, while also ensuring that responses include credible source documentation and definitions. Our code is released at: https://github.com/MedicineToken/Medical-Graph-RAG. | 翻訳日:2024-11-08 12:22:45 公開日:2024-10-15 |
# RiskAwareBench: LLMをベースとした身体的エージェントの高レベル計画のための身体的リスク意識の評価に向けて
RiskAwareBench: Towards Evaluating Physical Risk Awareness for High-level Planning of LLM-based Embodied Agents ( http://arxiv.org/abs/2408.04449v2 ) ライセンス: Link先を確認 | Zihao Zhu, Bingzhe Wu, Zhengyou Zhang, Baoyuan Wu, | (参考訳) ロボット工学への大型言語モデル(LLM)の統合は、複雑な自然言語命令の理解と実行において、エンボディエージェントの能力を大幅に向上させる。
しかし, LLMをベースとした実環境への実施は, 財産被害や個人的損害などの潜在的な物理的リスクを生じさせる可能性がある。
LLMの既存のセキュリティベンチマークは、LLMをベースとしたエンボディエージェントのリスク意識を見落としている。
このギャップに対処するため,LLMをベースとしたエンボディエージェントの身体的リスク意識を評価するための自動フレームワークである RiskAwareBench を提案する。
RiskAwareBenchは、安全ヒント生成、リスクのあるシーン生成、計画生成、評価の4つのモジュールで構成されており、手動で最小限の介入で包括的なリスク評価を可能にする。
このフレームワークを利用することで、フィジカルリスクデータセットをコンパイルし、関連する安全ヒント、観察、指示を含むさまざまなシナリオを包含する。
広範囲にわたる実験の結果、ほとんどのLSMは身体的リスク認識が不十分であり、ベースラインのリスク軽減戦略は限定的な強化をもたらすことが判明した。
The integration of large language models (LLMs) into robotics significantly enhances the capabilities of embodied agents in understanding and executing complex natural language instructions. However, the unmitigated deployment of LLM-based embodied systems in real-world environments may pose potential physical risks, such as property damage and personal injury. Existing security benchmarks for LLMs overlook risk awareness for LLM-based embodied agents. To address this gap, we propose RiskAwareBench, an automated framework designed to assess physical risks awareness in LLM-based embodied agents. RiskAwareBench consists of four modules: safety tips generation, risky scene generation, plan generation, and evaluation, enabling comprehensive risk assessment with minimal manual intervention. Utilizing this framework, we compile the PhysicalRisk dataset, encompassing diverse scenarios with associated safety tips, observations, and instructions. Extensive experiments reveal that most LLMs exhibit insufficient physical risk awareness, and baseline risk mitigation strategies yield limited enhancement, which emphasizes the urgency and cruciality of improving risk awareness in LLM-based embodied agents in the future. | 翻訳日:2024-11-08 12:11:36 公開日:2024-10-15 |
# EAIRiskBench: 基礎モデルに基づく身体的AIエージェントのタスクプランニングにおける身体的リスク意識の評価
EAIRiskBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents ( http://arxiv.org/abs/2408.04449v3 ) ライセンス: Link先を確認 | Zihao Zhu, Bingzhe Wu, Zhengyou Zhang, Lei Han, Baoyuan Wu, | (参考訳) EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としての基盤モデルの出現は、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
例えば、十分なリスク認識を欠いたハウスキーピングロボットは、金属容器をマイクロ波に配置し、火災を引き起こす可能性がある。
これらの重要な安全上の懸念に対処するためには、総合的なデプロイ前のリスク評価が不可欠である。
EAIRiskBenchは、EAIシナリオにおける自動物理的リスクアセスメントのための新しいフレームワークである。
EAIRiskBenchは、様々な基礎モデルを利用して安全ガイドラインを作成し、リスクを発生させるシナリオを作成し、タスク計画を作成し、安全を体系的に評価するマルチエージェント協調システムを採用している。
このフレームワークを利用することで、さまざまなドメインにわたるさまざまなテストケースで構成され、テキストシナリオと視覚シナリオの両方を含むEAIRiskDatasetを構築します。
全てのモデルは高いタスクリスク率(TRR)を示し、すべての評価されたモデルの平均は95.75%である。
これらの課題に対処するため、我々はさらに2つのリスク軽減戦略を提案する。
これらの戦略はTRRを減らす効果を示すが、改善は限定的であり、依然としてかなりの安全性上の懸念を示している。
本研究は,EAIエージェントにおける身体的リスク意識の大規模評価を初めて行った。
本研究は,EAIシステムにおける安全対策の強化の必要性を浮き彫りにして,より安全な組込み人工知能システムを開発する上での今後の研究の方向性に価値ある洞察を提供するものである。
Embodied artificial intelligence (EAI) integrates advanced AI models into physical entities for real-world interaction. The emergence of foundation models as the "brain" of EAI agents for high-level task planning has shown promising results. However, the deployment of these agents in physical environments presents significant safety challenges. For instance, a housekeeping robot lacking sufficient risk awareness might place a metal container in a microwave, potentially causing a fire. To address these critical safety concerns, comprehensive pre-deployment risk assessments are imperative. This study introduces EAIRiskBench, a novel framework for automated physical risk assessment in EAI scenarios. EAIRiskBench employs a multi-agent cooperative system that leverages various foundation models to generate safety guidelines, create risk-prone scenarios, make task planning, and evaluate safety systematically. Utilizing this framework, we construct EAIRiskDataset, comprising diverse test cases across various domains, encompassing both textual and visual scenarios. Our comprehensive evaluation of state-of-the-art foundation models reveals alarming results: all models exhibit high task risk rates (TRR), with an average of 95.75% across all evaluated models. To address these challenges, we further propose two prompting-based risk mitigation strategies. While these strategies demonstrate some efficacy in reducing TRR, the improvements are limited, still indicating substantial safety concerns. This study provides the first large-scale assessment of physical risk awareness in EAI agents. Our findings underscore the critical need for enhanced safety measures in EAI systems and provide valuable insights for future research directions in developing safer embodied artificial intelligence system. | 翻訳日:2024-11-08 12:11:36 公開日:2024-10-15 |
# 商業・コンプライアンスにおけるLCMによるロバスト製品分類
LLM-Based Robust Product Classification in Commerce and Compliance ( http://arxiv.org/abs/2408.05874v2 ) ライセンス: Link先を確認 | Sina Gholamian, Gianfranco Romani, Bartosz Rudnikowicz, Stavroula Skylaki, | (参考訳) 商品分類は、コンプライアンス規則が検証され、製品カテゴリーに基づいて税や義務が適用されるため、国際貿易において重要な課題である。
製品の手動分類は時間がかかり、エラーが発生しやすいため、輸入・輸出された製品の膨大な量は手動の処理を不可能にしている。
その結果、国際貿易に関わる電子商取引プラットフォームや企業は、機械学習を用いた自動製品分類に移行した。
しかし、現在のアプローチでは、非常に簡潔で不完全な製品記述など、製品分類に関連する現実的な課題は考慮されていない。
さらに, 生成型大規模言語モデル (LLMs) の最近の進歩とその推論能力は, 製品分類や電子商取引にはほとんど及ばない。
本研究では,産業分類の現実的な課題について考察し,現実的なデータシミュレーションを可能にするデータ摂動を提案する。
さらに,不完全なデータが存在する場合の予測の堅牢性を向上させるため,LCMに基づく製品分類を採用する。
本研究は、文脈内学習を用いたLLMが、クリーンデータシナリオにおける教師ありアプローチよりも優れていることを示す。
さらに、データアタックが存在する場合、LLMは教師付きアプローチよりもはるかに堅牢であることを示す。
Product classification is a crucial task in international trade, as compliance regulations are verified and taxes and duties are applied based on product categories. Manual classification of products is time-consuming and error-prone, and the sheer volume of products imported and exported renders the manual process infeasible. Consequently, e-commerce platforms and enterprises involved in international trade have turned to automatic product classification using machine learning. However, current approaches do not consider the real-world challenges associated with product classification, such as very abbreviated and incomplete product descriptions. In addition, recent advancements in generative Large Language Models (LLMs) and their reasoning capabilities are mainly untapped in product classification and e-commerce. In this research, we explore the real-life challenges of industrial classification and we propose data perturbations that allow for realistic data simulation. Furthermore, we employ LLM-based product classification to improve the robustness of the prediction in presence of incomplete data. Our research shows that LLMs with in-context learning outperform the supervised approaches in the clean-data scenario. Additionally, we illustrate that LLMs are significantly more robust than the supervised approaches when data attacks are present. | 翻訳日:2024-11-08 11:49:24 公開日:2024-10-15 |
# GNN駆動型固有逆流による分散MARLの不均一なマルチエージェント協調の促進
Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards ( http://arxiv.org/abs/2408.06503v2 ) ライセンス: Link先を確認 | Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek Khan, | (参考訳) MARL(Multi-agent Reinforcement Learning)は、様々な意思決定や制御タスクの鍵となるフレームワークである。
シングルエージェントとは異なり、マルチエージェントシステムはエージェント間の協力を成功させる必要がある。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
これらの課題は、部分観測可能性やエージェントの不均一性に関する事前知識の欠如の下でより顕著になる。
特筆すべき研究は、報酬の空間性や分散された環境における協調に固有のモチベーション(IM)を用いるが、不均一性を扱う人は典型的には集中トレーニング、パラメータ共有、エージェントインデクシングを前提としている。
このような制約を克服するために,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用したCoHetアルゴリズムを提案する。
マルチエージェント粒子環境(MPE)およびベクトル化マルチエージェントシミュレータ(VMAS)ベンチマークにおけるCoHetの評価は,協調型マルチエージェントシナリオにおける最先端技術と比較して,優れた性能を示す。
本研究は,エージェント・ダイナミクス・モデルが内在的モチベーション・モジュールに与える影響,異なるCoHet変異体の性能に関する知見,および多種多種多様なエージェントに対するロバスト性について分析した。
Multi-agent Reinforcement Learning (MARL) is emerging as a key framework for various sequential decision-making and control tasks. Unlike their single-agent counterparts, multi-agent systems necessitate successful cooperation among the agents. The deployment of these systems in real-world scenarios often requires decentralized training, a diverse set of agents, and learning from infrequent environmental reward signals. These challenges become more pronounced under partial observability and the lack of prior knowledge about agent heterogeneity. While notable studies use intrinsic motivation (IM) to address reward sparsity or cooperation in decentralized settings, those dealing with heterogeneity typically assume centralized training, parameter sharing, and agent indexing. To overcome these limitations, we propose the CoHet algorithm, which utilizes a novel Graph Neural Network (GNN) based intrinsic motivation to facilitate the learning of heterogeneous agent policies in decentralized settings, under the challenges of partial observability and reward sparsity. Evaluation of CoHet in the Multi-agent Particle Environment (MPE) and Vectorized Multi-Agent Simulator (VMAS) benchmarks demonstrates superior performance compared to the state-of-the-art in a range of cooperative multi-agent scenarios. Our research is supplemented by an analysis of the impact of the agent dynamics model on the intrinsic motivation module, insights into the performance of different CoHet variants, and its robustness to an increasing number of heterogeneous agents. | 翻訳日:2024-11-08 11:26:46 公開日:2024-10-15 |
# すべてのコンパイルされた非局所ゲームにおける量子値上の有界性
A bound on the quantum value of all compiled nonlocal games ( http://arxiv.org/abs/2408.06711v2 ) ライセンス: Link先を確認 | Alexander Kulpe, Giulio Malavolta, Connor Paddock, Simon Schmidt, Michael Walter, | (参考訳) Kalai et al (STOC'23) によって導入された暗号コンパイラは、任意の非ローカルゲームから1つの計算境界証明器を持つ対話型プロトコルに変換する。
コンパイラは古典的プロバーの場合は音であることが知られており、量子の場合では完備である。
本研究では,コンパイルされた2人プレイヤの非ローカルゲームに対して,量子音響結果を確立する。
特に、基礎となる非局所ゲームにおける量子交換演算子値は、コンパイルされたゲームの量子値の上限であることを示す。
この結果、演算子から計算および暗号設定の手法を用いて、セキュリティパラメータの漸近的極限における情報理論オブジェクトを確立する。
さらに、独立した興味を持つかもしれない量子交換作用素相関のシーケンシャルな特徴づけに依存している。
A cryptographic compiler introduced by Kalai et al. (STOC'23) converts any nonlocal game into an interactive protocol with a single computationally bounded prover. Although the compiler is known to be sound in the case of classical provers and complete in the quantum case, quantum soundness has so far only been established for special classes of games. In this work, we establish a quantum soundness result for all compiled two-player nonlocal games. In particular, we prove that the quantum commuting operator value of the underlying nonlocal game is an upper bound on the quantum value of the compiled game. Our result employs techniques from operator algebras in a computational and cryptographic setting to establish information-theoretic objects in the asymptotic limit of the security parameter. It further relies on a sequential characterization of quantum commuting operator correlations which may be of independent interest. | 翻訳日:2024-11-08 11:26:46 公開日:2024-10-15 |
# AuToMATo: Out-Of-the-Box Persistence-Based Clusteringアルゴリズム
AuToMATo: An Out-Of-The-Box Persistence-Based Clustering Algorithm ( http://arxiv.org/abs/2408.06958v2 ) ライセンス: Link先を確認 | Marius Huber, Sara Kalisnik, Patrick Schnider, | (参考訳) 永続的ホモロジーに基づく新しいクラスタリングアルゴリズムAuToMAToを提案する。
AuToMAToは、それ自体はパラメータフリーではありませんが、パラメータに対してデフォルトの選択を提供し、ボード全体でよく機能するアウト・オブ・ザ・ボックスのクラスタリングアルゴリズムにします。
AuToMAToは既存のToMAToクラスタリングアルゴリズムとブートストラップ処理を組み合わせて、推定密度関数の有意なピークを重要でないものから分離する。
我々は、AuToMATo(デフォルト値に固定されたパラメータ)を、他の多くの最先端クラスタリングアルゴリズムと比較して徹底的に比較する。
AuToMAToがパラメータフリークラスタリングアルゴリズムと好意的に比較するだけでなく、多くのケースでは、他のアルゴリズムで最適なパラメータの選択よりもはるかに優れています。
AuToMAToは、トポロジカルデータ解析、特にMapperアルゴリズムのアプリケーションによって動機付けられており、パラメータのチューニングを必要としないクラスタリングアルゴリズムで作業することが望ましい。
実際、Mapperで使用する場合、AuToMAToがうまく機能することを示す証拠を提供する。
最後に、PythonでAuToMAToのオープンソース実装を提供し、標準のScikit-Lernアーキテクチャと完全に互換性がある。
We present AuToMATo, a novel clustering algorithm based on persistent homology. While AuToMATo is not parameter-free per se, we provide default choices for its parameters that make it into an out-of-the-box clustering algorithm that performs well across the board. AuToMATo combines the existing ToMATo clustering algorithm with a bootstrapping procedure in order to separate significant peaks of an estimated density function from non-significant ones. We perform a thorough comparison of AuToMATo (with its parameters fixed to their defaults) against many other state-of-the-art clustering algorithms. We find not only that AuToMATo compares favorably against parameter-free clustering algorithms, but in many instances also significantly outperforms even the best selection of parameters for other algorithms. AuToMATo is motivated by applications in topological data analysis, in particular the Mapper algorithm, where it is desirable to work with a clustering algorithm that does not need tuning of its parameters. Indeed, we provide evidence that AuToMATo performs well when used with Mapper. Finally, we provide an open-source implementation of AuToMATo in Python that is fully compatible with the standard scikit-learn architecture. | 翻訳日:2024-11-08 07:53:35 公開日:2024-10-15 |
# HAIR:Hypernetworksベースのオールインワン画像復元
HAIR: Hypernetworks-based All-in-One Image Restoration ( http://arxiv.org/abs/2408.08091v3 ) ライセンス: Link先を確認 | Jin Cao, Yi Cao, Li Pang, Deyu Meng, Xiangyong Cao, | (参考訳) 画像復元は、劣化した画像から高品質なクリーンなイメージを復元することを目的としている。
画像復元の最近の進歩は、様々な未知の劣化に同時に対処するオールインワン画像復元モデルの有効性を示した。
しかし、これらの既存手法は一般的に同じパラメータを使って、異なるタイプの劣化を伴う画像に対処し、モデルに異なるタスク間のパフォーマンスのバランスをとらせ、各タスクのパフォーマンスを制限させる。
この問題を軽減するために,ハイパーネットワークスをベースとしたオールインワン画像復元プラグアンドプレイ方式であるHAIRを提案する。
具体的には、HAIRは2つの主要コンポーネント、すなわち、分類器とHyper Selecting Net(HSN)から構成される。
分類器は、入力画像の劣化情報を含むGIV(Global Information Vector)を生成するための単純な画像分類網であり、HSNはGIVを受け取り、対応するモジュールのパラメータを出力する単純な完全接続ニューラルネットワークである。
大規模な実験により、HAIRは、単一タスクとオールインワンの設定の両方において、既存の画像復元モデルの性能をプラグアンドプレイで大幅に改善できることが示された。
特に,HAIRをよく知られたRestormerに統合したモデルであるRes-HAIRは,現在の最先端手法と比較して,優れた,あるいは同等のパフォーマンスが得られる。
さらに,提案したHAIRは,与えられた誤差を十分小さくするために,主流の埋め込み方式であるAll-in-One法と対照的に,パラメータが少ないことを理論的に証明する。
コードはhttps://github.com/toummHus/HAIR.orgで公開されている。
Image restoration aims to recover a high-quality clean image from its degraded version. Recent progress in image restoration has demonstrated the effectiveness of All-in-One image restoration models in addressing various unknown degradations simultaneously. However, these existing methods typically utilize the same parameters to tackle images with different types of degradation, forcing the model to balance the performance between different tasks and limiting its performance on each task. To alleviate this issue, we propose HAIR, a Hypernetworks-based All-in-One Image Restoration plug-and-play method that generates parameters based on the input image and thus makes the model to adapt to specific degradation dynamically. Specifically, HAIR consists of two main components, i.e., Classifier and Hyper Selecting Net (HSN). The Classifier is a simple image classification network used to generate a Global Information Vector (GIV) that contains the degradation information of the input image, and the HSN is a simple fully-connected neural network that receives the GIV and outputs parameters for the corresponding modules. Extensive experiments demonstrate that HAIR can significantly improve the performance of existing image restoration models in a plug-and-play manner, both in single-task and All-in-One settings. Notably, our proposed model Res-HAIR, which integrates HAIR into the well-known Restormer, can obtain superior or comparable performance compared with current state-of-the-art methods. Moreover, we theoretically demonstrate that to achieve a given small enough error, our proposed HAIR requires fewer parameters in contrast to mainstream embedding-based All-in-One methods. The code is available at https://github.com/toummHus/HAIR. | 翻訳日:2024-11-08 07:29:14 公開日:2024-10-15 |
# MicroSSIM:顕微鏡データの比較における構造類似性の改善
MicroSSIM: Improved Structural Similarity for Comparing Microscopy Data ( http://arxiv.org/abs/2408.08747v2 ) ライセンス: Link先を確認 | Ashesh Ashesh, Joran Deschamps, Florian Jug, | (参考訳) 顕微鏡は、生物の興味ある構造を画像化するために日常的に用いられる。
画像の制約のため、取得した画像はマイクログラフとも呼ばれ、通常は低SNRでノイズを含む。
ここ数年、教師なしの denoising や splitting のような回帰ベースのタスクは、このようなノイズの多いマイクログラフを扱うのに有用であることがわかった。
評価において、SSIM(Structure similarity)はこの分野で最もよく使われる尺度の一つである。
このような課題に対して、顕微鏡から直接低SNRノイズ像とそれに対応する高SNRクリーン像を得る場合が最もよい評価となる。
しかし、以下の3つの顕微鏡データの特徴から、SSIMはこのデータ構造に適していないことが分かる。
(a)高SNRマイクログラフは低SNRマイクログラフに比べて高強度画素を有する。
(b)高SNRマイクログラフは、自然画像、SSIMが開発された画像、及び、より高強度の画素を有する。
c)SSIM値に影響を与える顕微鏡内に存在する検出器によってデジタル構成可能なオフセットを付加する。
我々は,低SNR入力から発生する予測を対応する高SNRデータと比較した場合,SSIM成分が予期せず振る舞うことを示す。
本稿では,SSIM成分が画像間の相似性に敏感になるような飽和現象を導入することで,これを説明できる。
本稿では,観測されたSSIMの挙動を説明するための直観的手法を提案する。
SSIMの派生版であるMicroSSIMを導入し、上記の問題を克服する。
理論的および経験的議論を用いてMicroSSIMの音質と有用性を正当化し, 教師なし復調と教師なし復調を伴う共同画像分割という2つの課題におけるMicroSSIMの有用性を示す。
我々の定式化は、SSIMに基づく幅広い尺度に応用できるので、顕微鏡特有のMS-SSIMの変種であるMicroMS3IMも導入する。
Microscopy is routinely used to image biological structures of interest. Due to imaging constraints, acquired images, also called as micrographs, are typically low-SNR and contain noise. Over the last few years, regression-based tasks like unsupervised denoising and splitting have found utility in working with such noisy micrographs. For evaluation, Structural Similarity (SSIM) is one of the most popular measures used in the field. For such tasks, the best evaluation would be when both low-SNR noisy images and corresponding high-SNR clean images are obtained directly from a microscope. However, due to the following three peculiar properties of the microscopy data, we observe that SSIM is not well suited to this data regime: (a) high-SNR micrographs have higher intensity pixels as compared to low-SNR micrographs, (b) high-SNR micrographs have higher intensity pixels than found in natural images, images for which SSIM was developed, and (c) a digitally configurable offset is added by the detector present inside the microscope which affects the SSIM value. We show that SSIM components behave unexpectedly when the prediction generated from low-SNR input is compared with the corresponding high-SNR data. We explain this by introducing the phenomenon of saturation, where SSIM components become less sensitive to (dis)similarity between the images. We propose an intuitive way to quantify this, which explains the observed SSIM behavior. We introduce MicroSSIM, a variant of SSIM, which overcomes the above-discussed issues. We justify the soundness and utility of MicroSSIM using theoretical and empirical arguments and show the utility of MicroSSIM on two tasks: unsupervised denoising and joint image splitting with unsupervised denoising. Since our formulation can be applied to a broad family of SSIM-based measures, we also introduce MicroMS3IM, a microscopy-specific variation of MS-SSIM. | 翻訳日:2024-11-08 07:18:07 公開日:2024-10-15 |
# MicroSSIM:顕微鏡データの比較における構造類似性の改善
MicroSSIM: Improved Structural Similarity for Comparing Microscopy Data ( http://arxiv.org/abs/2408.08747v3 ) ライセンス: Link先を確認 | Ashesh Ashesh, Joran Deschamps, Florian Jug, | (参考訳) 顕微鏡は、生物の興味ある構造を画像化するために日常的に用いられる。
画像の制約のため、取得した画像はマイクログラフとも呼ばれ、通常は低SNRでノイズを含む。
ここ数年、教師なしの denoising や splitting のような回帰ベースのタスクは、このようなノイズの多いマイクログラフを扱うのに有用であることがわかった。
評価において、SSIM(Structure similarity)はこの分野で最もよく使われる尺度の一つである。
このような課題に対して、顕微鏡から直接低SNRノイズ像とそれに対応する高SNRクリーン像を得る場合が最もよい評価となる。
しかし、以下の3つの顕微鏡データの特徴から、SSIMはこのデータ構造に適していないことが分かる。
(a)高SNRマイクログラフは低SNRマイクログラフに比べて高強度画素を有する。
(b)高SNRマイクログラフは、自然画像、SSIMが開発された画像、及び、より高強度の画素を有する。
c)SSIM値に影響を与える顕微鏡内に存在する検出器によってデジタル構成可能なオフセットを付加する。
我々は,低SNR入力から発生する予測を対応する高SNRデータと比較した場合,SSIM成分が予期せず振る舞うことを示す。
本稿では,SSIM成分が画像間の相似性に敏感になるような飽和現象を導入することで,これを説明できる。
本稿では,観測されたSSIMの挙動を説明するための直観的手法を提案する。
SSIMの派生版であるMicroSSIMを導入し、上記の問題を克服する。
理論的および経験的議論を用いてMicroSSIMの音質と有用性を正当化し, 教師なし復調と教師なし復調を伴う共同画像分割という2つの課題におけるMicroSSIMの有用性を示す。
我々の定式化は、SSIMに基づく幅広い尺度に応用できるので、顕微鏡特有のMS-SSIMの変種であるMicroMS3IMも導入する。
Microscopy is routinely used to image biological structures of interest. Due to imaging constraints, acquired images, also called as micrographs, are typically low-SNR and contain noise. Over the last few years, regression-based tasks like unsupervised denoising and splitting have found utility in working with such noisy micrographs. For evaluation, Structural Similarity (SSIM) is one of the most popular measures used in the field. For such tasks, the best evaluation would be when both low-SNR noisy images and corresponding high-SNR clean images are obtained directly from a microscope. However, due to the following three peculiar properties of the microscopy data, we observe that SSIM is not well suited to this data regime: (a) high-SNR micrographs have higher intensity pixels as compared to low-SNR micrographs, (b) high-SNR micrographs have higher intensity pixels than found in natural images, images for which SSIM was developed, and (c) a digitally configurable offset is added by the detector present inside the microscope which affects the SSIM value. We show that SSIM components behave unexpectedly when the prediction generated from low-SNR input is compared with the corresponding high-SNR data. We explain this by introducing the phenomenon of saturation, where SSIM components become less sensitive to (dis)similarity between the images. We propose an intuitive way to quantify this, which explains the observed SSIM behavior. We introduce MicroSSIM, a variant of SSIM, which overcomes the above-discussed issues. We justify the soundness and utility of MicroSSIM using theoretical and empirical arguments and show the utility of MicroSSIM on two tasks: unsupervised denoising and joint image splitting with unsupervised denoising. Since our formulation can be applied to a broad family of SSIM-based measures, we also introduce MicroMS3IM, a microscopy-specific variation of MS-SSIM. | 翻訳日:2024-11-08 07:18:07 公開日:2024-10-15 |
# U-MedSAM:医療画像セグメンテーションのための不確かさを意識したMedSAM
U-MedSAM: Uncertainty-aware MedSAM for Medical Image Segmentation ( http://arxiv.org/abs/2408.08881v2 ) ライセンス: Link先を確認 | Xin Wang, Xiaoyu Liu, Peng Huang, Pu Huang, Shu Hu, Hongtu Zhu, | (参考訳) Medical Image Foundation Modelsは、さまざまなデータセットにわたるマスク予測のための強力なツールであることが証明されている。
しかし、予測の不確かさを正確に評価することは依然として重要な課題である。
そこで本研究では,MedSAMモデルと不確実性認識損失関数,Sharpness-Aware Minimization (SharpMin)オプティマイザを統合した新しいモデルU-MedSAMを提案する。
不確実性認識損失関数は、自動的に領域ベース、分布ベース、画素ベースの損失設計を組み合わせることにより、セグメント化精度とロバスト性を高める。
SharpMinは、ロスランドスケープにフラットなミニマを見つけることで、一般化を改善し、オーバーフィッティングを減らす。
The CVPR24 MedSAM on Laptop Challengeでは,U-MedSAMが有望な性能を示した。
Medical Image Foundation Models have proven to be powerful tools for mask prediction across various datasets. However, accurately assessing the uncertainty of their predictions remains a significant challenge. To address this, we propose a new model, U-MedSAM, which integrates the MedSAM model with an uncertainty-aware loss function and the Sharpness-Aware Minimization (SharpMin) optimizer. The uncertainty-aware loss function automatically combines region-based, distribution-based, and pixel-based loss designs to enhance segmentation accuracy and robustness. SharpMin improves generalization by finding flat minima in the loss landscape, thereby reducing overfitting. Our method was evaluated in the CVPR24 MedSAM on Laptop challenge, where U-MedSAM demonstrated promising performance. | 翻訳日:2024-11-08 07:07:05 公開日:2024-10-15 |
# 多モードモデルにおける凝集度バイアスの測定
Measuring Agreeableness Bias in Multimodal Models ( http://arxiv.org/abs/2408.09111v2 ) ライセンス: Link先を確認 | Jaehyuk Lim, Bruce W. Lee, | (参考訳) 本稿では,複数モーダル言語モデルにおける画像に対する事前マーク付きオプションがモデル応答に大きな影響を及ぼす現象について検討する。
本研究は,まず,複数の選択質問の画像を含むモデルを提示し,まず最初に正解し,そのモデルを予めマークされた選択肢のあるバージョンに公開する。
この結果から,中立条件下での回答に矛盾する場合でも,事前マーク付きオプションに対するモデルの反応が著しく変化していることが判明した。
包括的評価は、この一致性バイアスが、様々なモデルアーキテクチャ全体にわたって一貫した、定量的な振る舞いであることを証明している。
これらの結果は、事前にマークされたオプションで画像を処理する際に、これらのモデルの信頼性に潜在的に制限があることを示し、そのような視覚的手がかりが存在する可能性のある重要な意思決定コンテキストにおいて、それらの応用について重要な疑問を提起する。
This paper examines a phenomenon in multimodal language models where pre-marked options in question images can significantly influence model responses. Our study employs a systematic methodology to investigate this effect: we present models with images of multiple-choice questions, which they initially answer correctly, then expose the same model to versions with pre-marked options. Our findings reveal a significant shift in the models' responses towards the pre-marked option, even when it contradicts their answers in the neutral settings. Comprehensive evaluations demonstrate that this agreeableness bias is a consistent and quantifiable behavior across various model architectures. These results show potential limitations in the reliability of these models when processing images with pre-marked options, raising important questions about their application in critical decision-making contexts where such visual cues might be present. | 翻訳日:2024-11-08 07:07:05 公開日:2024-10-15 |
# 斜め決定木用バニラグラディエント染料
Vanilla Gradient Descent for Oblique Decision Trees ( http://arxiv.org/abs/2408.09135v3 ) ライセンス: Link先を確認 | Subrat Prasad Panda, Blaise Genest, Arvind Easwaran, Ponnuthurai Nagaratnam Suganthan, | (参考訳) 決定木(Decision Trees, DT)は、グラフデータ上での効率向上のために、値付けされた、重要でないAIモデルの1つである。
しかし、正確なDTを学習することは、特に斜めDTでは複雑であり、かなりのトレーニング時間を要する。
さらに、DTは、例えば回帰タスクにおいて「一般化しない」というような過度な適合に苦しむ。
最近、いくつかの研究がDTを(斜めに)差別化する方法を提案している。
これにより、DTの学習に高効率な勾配偏光アルゴリズムが使用できる。
また、木の上の決定と同時に木の葉で回帰器を学習することで、一般化機能を可能にする。
DTを微分可能とする以前のアプローチは、木の内部ノード(ソフトDT)の確率近似や、内部ノード(量子化勾配勾配)の勾配計算の近似に依存する。
本研究では、標準的なバニラ勾配勾配を用いた(ハード、斜め)DTをニューラルネットワーク(NN)として意味論的に等価かつ可逆的に符号化するDTSemNetを提案する。
DTSemNetを用いて学習した斜めDTは、最先端技術を用いて学習した同様の大きさの斜めDTよりも正確であることを示す。
さらに、DT訓練時間を著しく短縮する。
また, DTSemNetは, 物理入力による強化学習(RL)設定において, NNポリシーと同じくらい効率的にDTポリシーを学習できることを実験的に実証した(次元$\leq32$)。
コードはhttps://github.com/CPS-research-group/dtsemnet.comで公開されている。
Decision Trees (DTs) constitute one of the major highly non-linear AI models, valued, e.g., for their efficiency on tabular data. Learning accurate DTs is, however, complicated, especially for oblique DTs, and does take a significant training time. Further, DTs suffer from overfitting, e.g., they proverbially "do not generalize" in regression tasks. Recently, some works proposed ways to make (oblique) DTs differentiable. This enables highly efficient gradient-descent algorithms to be used to learn DTs. It also enables generalizing capabilities by learning regressors at the leaves simultaneously with the decisions in the tree. Prior approaches to making DTs differentiable rely either on probabilistic approximations at the tree's internal nodes (soft DTs) or on approximations in gradient computation at the internal node (quantized gradient descent). In this work, we propose DTSemNet, a novel semantically equivalent and invertible encoding for (hard, oblique) DTs as Neural Networks (NNs), that uses standard vanilla gradient descent. Experiments across various classification and regression benchmarks show that oblique DTs learned using DTSemNet are more accurate than oblique DTs of similar size learned using state-of-the-art techniques. Further, DT training time is significantly reduced. We also experimentally demonstrate that DTSemNet can learn DT policies as efficiently as NN policies in the Reinforcement Learning (RL) setup with physical inputs (dimensions $\leq32$). The code is available at https://github.com/CPS-research-group/dtsemnet. | 翻訳日:2024-11-08 07:07:05 公開日:2024-10-15 |
# NICOを用いた大規模言語モデルにおける自然な会話の育成:自然対話型会話データセット
Fostering Natural Conversation in Large Language Models with NICO: a Natural Interactive COnversation dataset ( http://arxiv.org/abs/2408.09330v2 ) ライセンス: Link先を確認 | Renliang Sun, Mengyuan Liu, Shiping Yang, Rui Wang, Junqing He, Jiaxing Zhang, | (参考訳) 多様な命令データセットから恩恵を受け、現代のLarge Language Models(LLM)は、人間との共同作業においてAIアシスタントとして効果的に機能する。
しかし、LLMはチャットボットや心理学的なカウンセリングなど、より人間的な対話を必要とする現実世界のアプリケーションにおいて、自然な、口語的な応答を生成するのに依然として苦労している。
これらの制限に対処するため、中国語でNatural Interactive ConversationデータセットであるNICOを紹介した。
まず,GPT-4-turboを用いて対話草案を作成し,20の日常生活トピックと5種類のソーシャルインタラクションをカバーさせる。
そして、これらの対話を改訂するために労働者を雇い、文法的誤りや不自然な発話のないことを保証します。
不自然な文を識別・書き直しする2つの対話レベル自然な会話タスクと2つの文レベルタスクを定義する。
複数のオープンソースおよびクローズドソース LLM がテストされ、詳細に分析されている。
実験の結果はタスクの課題を浮き彫りにし、NICOがLLMの自然な対話能力をいかに育むかを示した。
データセットはリリースされます。
Benefiting from diverse instruction datasets, contemporary Large Language Models (LLMs) perform effectively as AI assistants in collaborating with humans. However, LLMs still struggle to generate natural and colloquial responses in real-world applications such as chatbots and psychological counseling that require more human-like interactions. To address these limitations, we introduce NICO, a Natural Interactive COnversation dataset in Chinese. We first use GPT-4-turbo to generate dialogue drafts and make them cover 20 daily-life topics and 5 types of social interactions. Then, we hire workers to revise these dialogues to ensure that they are free of grammatical errors and unnatural utterances. We define two dialogue-level natural conversation tasks and two sentence-level tasks for identifying and rewriting unnatural sentences. Multiple open-source and closed-source LLMs are tested and analyzed in detail. The experimental results highlight the challenge of the tasks and demonstrate how NICO can help foster the natural dialogue capabilities of LLMs. The dataset will be released. | 翻訳日:2024-11-08 07:07:05 公開日:2024-10-15 |
# Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework ( http://arxiv.org/abs/2408.11312v2 ) ライセンス: Link先を確認 | Xiao Han, Chen Zhu, Xiangyu Zhao, Hengshu Zhu, | (参考訳) ビジュアルジオローカライゼーションは、画像と現実世界の地理的位置を正確に関連付けるために、詳細な知識と高度な推論スキルを必要とする。
一般に、データマッチングに基づく従来の手法は、グローバルランドマークの適切な視覚的記録を保存するという非現実性によって妨げられている。
近年、LVLM (Large Vision-Language Models) は、視覚質問応答 (VQA) による地理的局所化の能力を実証し、外部のジオタグ付き画像記録を必要としないソリューションを実現している。
しかし、1つのLVLMの性能は、その固有の知識と推論能力によって制限されている。
このような課題に対処するために,複数のインターネット対応LVLMエージェントをエージェントベースアーキテクチャ内で動作させる新しいビジュアルジオローカライズフレームワークであるSmithGeoを紹介した。
smileGeoは、エージェント間のコミュニケーションを容易にすることによって、これらのエージェントの固有の知識を付加的な検索情報に統合し、画像を効果的にローカライズする能力を高める。
さらに,エージェント間の通信を最適化し,冗長なインタラクションを最小化し,システム全体の効率を向上する動的学習戦略を採用している。
提案手法の有効性を検証するため,提案手法は3つの異なるデータセットを用いて実験を行った。
ソースコードはhttps://anonymous.4open.science/r/ViusalGeoLocalization-F8F5で公開されている。
Visual geo-localization demands in-depth knowledge and advanced reasoning skills to associate images with real-world geographic locations precisely. In general, traditional methods based on data-matching are hindered by the impracticality of storing adequate visual records of global landmarks. Recently, Large Vision-Language Models (LVLMs) have demonstrated the capability of geo-localization through Visual Question Answering (VQA), enabling a solution that does not require external geo-tagged image records. However, the performance of a single LVLM is still limited by its intrinsic knowledge and reasoning capabilities. To address these challenges, we introduce smileGeo, a novel visual geo-localization framework that leverages multiple Internet-enabled LVLM agents operating within an agent-based architecture. By facilitating inter-agent communication, smileGeo integrates the inherent knowledge of these agents with additional retrieved information, enhancing the ability to effectively localize images. Additionally, our framework employs a dynamic learning strategy that optimizes communication among agents, minimizing redundant interactions and improving overall system efficiency. To validate the effectiveness of the proposed framework, we conducted experiments on three different datasets, and the results show that our approach significantly outperforms current state-of-the-art methods. The source code is available at https://anonymous.4open.science/r/ViusalGeoLocalization-F8F5. | 翻訳日:2024-11-08 06:22:37 公開日:2024-10-15 |
# Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework ( http://arxiv.org/abs/2408.11312v3 ) ライセンス: Link先を確認 | Xiao Han, Chen Zhu, Xiangyu Zhao, Hengshu Zhu, | (参考訳) ビジュアルジオローカライゼーションは、画像と正確な現実世界の地理的位置を関連付けるために、詳細な知識と高度な推論スキルを必要とする。
既存の画像データベース検索手法は、グローバルランドマークの十分な視覚的記録を格納する非現実性によって制限される。
近年、LVLM (Large Vision-Language Models) は、視覚質問応答 (VQA) による地理的局所化の能力を実証し、外部のジオタグ付き画像記録を必要としないソリューションを実現している。
しかし、1つのLVLMの性能は、その固有の知識と推論能力によって制限されている。
このような課題に対処するために,複数のインターネット対応LVLMエージェントをエージェントベースアーキテクチャ内で動作させる新しいビジュアルジオローカライズフレームワークであるSmithGeoを紹介した。
smileGeoは、エージェント間のコミュニケーションを容易にすることによって、これらのエージェントの固有の知識を付加的な検索情報に統合し、画像を効果的にローカライズする能力を高める。
さらに,エージェント通信を最適化し,冗長なインタラクションを低減し,システム全体の効率を向上する動的学習戦略も導入している。
提案手法の有効性を検証するため,提案手法は3つの異なるデータセットを用いて実験を行った。
ソースコードはhttps://anonymous.4open.science/r/ViusalGeoLocalization-F8F5で公開されている。
Visual geo-localization demands in-depth knowledge and advanced reasoning skills to associate images with precise real-world geographic locations. Existing image database retrieval methods are limited by the impracticality of storing sufficient visual records of global landmarks. Recently, Large Vision-Language Models (LVLMs) have demonstrated the capability of geo-localization through Visual Question Answering (VQA), enabling a solution that does not require external geo-tagged image records. However, the performance of a single LVLM is still limited by its intrinsic knowledge and reasoning capabilities. To address these challenges, we introduce smileGeo, a novel visual geo-localization framework that leverages multiple Internet-enabled LVLM agents operating within an agent-based architecture. By facilitating inter-agent communication, smileGeo integrates the inherent knowledge of these agents with additional retrieved information, enhancing the ability to effectively localize images. Furthermore, our framework incorporates a dynamic learning strategy that optimizes agent communication, reducing redundant interactions and enhancing overall system efficiency. To validate the effectiveness of the proposed framework, we conducted experiments on three different datasets, and the results show that our approach significantly outperforms current state-of-the-art methods. The source code is available at https://anonymous.4open.science/r/ViusalGeoLocalization-F8F5. | 翻訳日:2024-11-08 06:22:37 公開日:2024-10-15 |
# ほぼ線形時間で近似できる多層変圧器
Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time ( http://arxiv.org/abs/2408.13233v2 ) ライセンス: Link先を確認 | Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, Yufa Zhou, | (参考訳) 一般的なトランスフォーマーアーキテクチャにおける自己注意機構の計算複雑性は、トレーニングと推論に重大な課題をもたらし、長い入力のボトルネックとなる。
多層変圧器モデルにおける勾配計算の2次時間的複雑性を著しく低減することは可能か?
本稿では,新しい高速近似法がほぼ線形時間$n^{1+o(1)}$において,入力シーケンス長が$n$であり,多項式的に小さな近似誤差が1/\mathrm{poly}(n)$であることを示す。
我々の理論は、一般的な損失関数であり、多重層トランスモデルには、残差接続、カジュアルマスク、マルチヘッドアテンションなど、多くの実用的なサブモジュールが含まれている。
勾配計算の効率を向上させることにより、この研究により、我々の理論的結果に基づいて、より効果的な長文言語モデルの訓練と展開が促進されることを期待する。
The computational complexity of the self-attention mechanism in popular transformer architectures poses significant challenges for training and inference, and becomes the bottleneck for long inputs. Is it possible to significantly reduce the quadratic time complexity of computing the gradients in multi-layer transformer models? This paper proves that a novel fast approximation method can calculate the gradients in almost linear time $n^{1+o(1)}$ where $n$ is the input sequence length, while it maintains a polynomially small approximation error $1 / \mathrm{poly}(n)$ across the entire model. Our theory holds for general loss functions and when the multi-layer transformer model contains many practical sub-modules, such as residual connection, casual mask, and multi-head attention. By improving the efficiency of gradient computation, we hope that this work will facilitate more effective training and deployment of long-context language models based on our theoretical results. | 翻訳日:2024-11-08 05:26:28 公開日:2024-10-15 |
# ランダム対称性量子回路によるユニタリ設計
Unitary Designs from Random Symmetric Quantum Circuits ( http://arxiv.org/abs/2408.14463v2 ) ライセンス: Link先を確認 | Hanqing Liu, Austin Hulse, Iman Marvian, | (参考訳) 本研究では,対称反射ゲートのみを含むランダム量子回路によって生成されるユニタリの分布について検討する。
すべての対称性群に適用可能な統一的なアプローチを開発し、そのような分布の正確な設計特性を決定する方程式を得る。
近年、ゲートの局所性は実現可能なユニタリに様々な制約を課すことが示されており、これは一般に、検討中の対称性に大きく依存する。
これらの制約は通常、対称性の同値な既約表現を持つセクター間の相対位相に関する制限を含む。
対称ゲートの集合を半ユニバーサルと呼び、それらが対称性を尊重するすべてのユニタリをそのような制限まで実現している。
例えば、2-立方体ゲートは qubit 系における $\mathbb{Z}_2$, U(1), SU(2) 対称性の半ユニバーサルであるが、$d\ge 3$ の SU(d) 対称性は半ユニバーサルに対して 3-立方体ゲートを必要とする。
半ユニバーサリティの失敗は、ランダム回路が生成した分布が対称性を無視するユニタリ上のハール分布の2-設計でさえも妨げない。
一方、半ユニバーシティが穏やかな条件下で U(1) と SU(2) によって満たされるとき、分布は、門の局所性によって決定される四重項の数と多項式的に成長する $t$ に対して $t$-design となる。
より一般に、回路によって生成されるユニタリの均一分布がすべての$t\leq t_{\max}$に対して$t$-designとなるような最大整数 $t_{\max}$ を決定する単純な線型方程式を示す。
特に、U(1), SU(2) および巡回群に対して、各ゲートの量子ビット数と局所性の関数として $t_{\max}$ の正確な値を決定し、SU(d) に対して、最大4$量子ゲートに対して $t_{\max}$ の正確な値を決定する。
In this work, we study distributions of unitaries generated by random quantum circuits containing only symmetry-respecting gates. We develop a unified approach applicable to all symmetry groups and obtain an equation that determines the exact design properties of such distributions. It has been recently shown that the locality of gates imposes various constraints on realizable unitaries, which in general, significantly depend on the symmetry under consideration. These constraints typically include restrictions on the relative phases between sectors with inequivalent irreducible representations of the symmetry. We call a set of symmetric gates semi-universal if they realize all unitaries that respect the symmetry, up to such restrictions. For instance, while 2-qubit gates are semi-universal for $\mathbb{Z}_2$, U(1), and SU(2) symmetries in qubit systems, SU(d) symmetry with $d\ge 3$ requires 3-qudit gates for semi-universality. Failure of semi-universality precludes the distribution generated by the random circuits from being even a 2-design for the Haar distribution over symmetry-respecting unitaries. On the other hand, when semi-universality holds, under mild conditions, satisfied by U(1) and SU(2) for example, the distribution becomes a $t$-design for $t$ growing polynomially with the number of qudits, where the degree is determined by the locality of gates. More generally, we present a simple linear equation that determines the maximum integer $t_{\max}$ for which the uniform distribution of unitaries generated by the circuits is a $t$-design for all $t\leq t_{\max}$. Notably, for U(1), SU(2) and cyclic groups, we determine the exact value of $t_{\max}$ as a function of the number of qubits and locality of the gates, and for SU(d), we determine the exact value of $t_{\max}$ for up to $4$-qudit gates. | 翻訳日:2024-11-08 05:04:12 公開日:2024-10-15 |
# MABのペイオフとしての遅延
Delay as Payoff in MAB ( http://arxiv.org/abs/2408.15158v2 ) ライセンス: Link先を確認 | Ofir Schlisselberg, Ido Cohen, Tal Lancewicki, Yishay Mansour, | (参考訳) 本稿では,従来の確率的マルチアームバンド問題 (MAB) の変種について検討し,エージェント(コストや報酬)の支払いが遅れており,遅延の程度と直接対応している。
この設定は、ルートを選択するのにデータパケットがネットワークを横断するのに要する時間(遅延がエージェントのコストとなる場所)や、コンテンツを選択するのにウェブページで費やす時間(遅延がエージェントの報酬となる場所)など、多くの現実のシナリオを忠実にモデル化する。
当社の主なコントリビューションは、コストと報酬の設定の両方に関して、上と下の境界の厳格さです。
ここでは、$T$はステップの最大数、$\Delta_i$はサブ最適ギャップ、$d^*$は腕の最小遅延である。
遅延が報酬となる場合、$\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + \bar{d}$ の最適後悔を示す。
これは、一般的な遅延依存のペイオフ設定における後悔よりも改善され、$\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + D$にスケールする。
私たちの後悔は、コストシナリオと報酬シナリオの違いを強調し、コストシナリオの改善が報酬よりも重要であることを示すことです。
最後に,実験的な評価とともに理論的結果に付随する。
In this paper, we investigate a variant of the classical stochastic Multi-armed Bandit (MAB) problem, where the payoff received by an agent (either cost or reward) is both delayed, and directly corresponds to the magnitude of the delay. This setting models faithfully many real world scenarios such as the time it takes for a data packet to traverse a network given a choice of route (where delay serves as the agent's cost); or a user's time spent on a web page given a choice of content (where delay serves as the agent's reward). Our main contributions are tight upper and lower bounds for both the cost and reward settings. For the case that delays serve as costs, which we are the first to consider, we prove optimal regret that scales as $\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + d^*$, where $T$ is the maximal number of steps, $\Delta_i$ are the sub-optimality gaps and $d^*$ is the minimal expected delay amongst arms. For the case that delays serves as rewards, we show optimal regret of $\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + \bar{d}$, where $\bar d$ is the second maximal expected delay. These improve over the regret in the general delay-dependent payoff setting, which scales as $\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + D$, where $D$ is the maximum possible delay. Our regret bounds highlight the difference between the cost and reward scenarios, showing that the improvement in the cost scenario is more significant than for the reward. Finally, we accompany our theoretical results with an empirical evaluation. | 翻訳日:2024-11-08 04:41:58 公開日:2024-10-15 |
# 時空間交通予測のための変動モード駆動グラフ畳み込みネットワーク
Variational Mode-Driven Graph Convolutional Network for Spatiotemporal Traffic Forecasting ( http://arxiv.org/abs/2408.16191v2 ) ライセンス: Link先を確認 | Osama Ahmad, Zubair Khalid, | (参考訳) 本稿では,グラフニューラルネットワークを用いた時空間(ST)トラフィック予測について述べる。
STデータは非定常かつ複雑な時間イベントで構成されているため、そのような傾向の解釈と予測は比較的複雑である。
モードにおけるSTデータの表現は,動作を推測し,騒音が予測アプリケーションに与える影響を評価するのに役立つ。
本稿では,STデータを変分モード分解(VMD)法を用いてモードに分解するフレームワークを提案する。
このハイブリッドアプローチは、変分モードグラフ畳み込みネットワーク(VMGCN)として知られている。
モード数を徹底的に検索する代わりに、リアルタイムアプリケーションデータからの復元損失を用いて決定する。
また,交通流データにおける各モードの重要性と帯域幅制約の影響についても検討した。
本稿では,LargeSTデータセット上で提案したネットワークの性能を,短期および長期の予測において評価する。
我々のフレームワークは最先端の手法よりも優れた結果をもたらす。
This paper focuses on spatiotemporal (ST) traffic prediction using graph neural networks. Given that ST data consists of non-stationary and complex time events, interpreting and predicting such trends is comparatively complicated. Representation of ST data in modes helps us to infer behavior and assess the impact of noise on prediction applications. We propose a framework that decomposes ST data into modes using the variational mode decomposition (VMD) method, which is then fed into the neural network for forecasting future states. This hybrid approach is known as a variational mode graph convolutional network (VMGCN). Instead of exhaustively searching for the number of modes, they are determined using the reconstruction loss from the real-time application data. We also study the significance of each mode and the impact of bandwidth constraints on different horizon predictions in traffic flow data. We evaluate the performance of our proposed network on the LargeST dataset for both short and long-term predictions. Our framework yields better results compared to state-of-the-art methods. | 翻訳日:2024-11-08 04:19:50 公開日:2024-10-15 |
# 可塑性レンズによる大規模言語モデルのデータ値のフレーミング
Reframing Data Value for Large Language Models Through the Lens of Plausibility ( http://arxiv.org/abs/2409.00284v2 ) ライセンス: Link先を確認 | Mohamad Rida Rammal, Ruida Zhou, Suhas Diggavi, | (参考訳) データバリュエーション(Data valuation)は,“このデータの価値はどの程度か?
既存のデータアセスメント手法は主に差別モデルに焦点を当てており、主に訓練においてそのユーティリティーのレンズを通してデータの価値を調べる。
しかし、より広い言語モデルの推進により、トレーニングを必要とする評価手法に依存するようになり、特定の技術に依存している。
本稿では,その妥当性を中心に,言語モデルにおけるデータ値問題に対する別の視点を提案する。
モデル自体が合理的に生成可能な場合、データはより少ない値を保持すると仮定する。
価値データの概念に沿う直感的な基準から、計算可能で、証明可能な性質を持つ第一原理から導出される新しい値関数を開発する。
価値関数を理論的に分析し、複数のシナリオやデータセットで評価する。
Data valuation seeks to answer the important question, "How much is this data worth?" Existing data valuation methods have largely focused on discriminative models, primarily examining data value through the lens of its utility in training. However, with the push for ever-larger language models, relying on valuation methods that require training becomes increasingly expensive and dependent on specific techniques. We propose an alternative perspective on the data value problem for language models, centering around the plausibility of the data. We posit that data holds lesser value if it can be plausibly generated by the model itself. Starting from some intuitive criteria that align with our notions of valuable data, we develop a novel value function that is computationally tractable and derived from first principles with provable properties. We conduct a theoretical analysis of our value function and evaluate it across multiple scenarios and datasets. | 翻訳日:2024-11-08 03:46:25 公開日:2024-10-15 |
# ブラックボックス・ビジョン・ランゲージ・モデルの優先画像分布の決定法
How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model? ( http://arxiv.org/abs/2409.02253v3 ) ライセンス: Link先を確認 | Saeid Asgari Taghanaki, Joseph Lambourne, Alana Mongkhounsavath, | (参考訳) 大規模な基盤モデルはこの分野に革命をもたらしたが、専門的な視覚タスクのためのマルチモーダルモデルの最適化には依然として課題が残っている。
本稿では,様々な入力プロンプト間で出力の整合性を測定することによって,ブラックボックスビジョンランゲージモデル(VLM)の優先画像分布を同定する,新しい一般化可能な手法を提案する。
これを異なる3Dオブジェクトのレンダリングタイプに適用することにより、コンピュータ支援設計(CAD)を模範分野として、複雑な構造を正確に解釈する必要のある様々な領域で有効性を示す。
我々は、人間のフィードバックで文脈内学習を用いてVLM出力をさらに洗練し、説明品質を著しく向上させる。
特殊なドメインにおけるベンチマークの欠如を解決するために,CAD関連視覚質問応答タスク上でVLMを評価するための新しいデータセットであるCAD-VQAを導入する。
CAD-VQA 上での最先端 VLM の評価は,様々な分野にわたる複雑な視覚的推論タスクにおける VLM 機能向上のための基盤となる性能レベルを確立する。
データセットと評価コードは \url{https://github.com/asgsaeid/cad_vqa} で公開しています。
Large foundation models have revolutionized the field, yet challenges remain in optimizing multi-modal models for specialized visual tasks. We propose a novel, generalizable methodology to identify preferred image distributions for black-box Vision-Language Models (VLMs) by measuring output consistency across varied input prompts. Applying this to different rendering types of 3D objects, we demonstrate its efficacy across various domains requiring precise interpretation of complex structures, with a focus on Computer-Aided Design (CAD) as an exemplar field. We further refine VLM outputs using in-context learning with human feedback, significantly enhancing explanation quality. To address the lack of benchmarks in specialized domains, we introduce CAD-VQA, a new dataset for evaluating VLMs on CAD-related visual question answering tasks. Our evaluation of state-of-the-art VLMs on CAD-VQA establishes baseline performance levels, providing a framework for advancing VLM capabilities in complex visual reasoning tasks across various fields requiring expert-level visual interpretation. We release the dataset and evaluation codes at \url{https://github.com/asgsaeid/cad_vqa}. | 翻訳日:2024-11-07 23:56:04 公開日:2024-10-15 |
# MMLU-Pro+:LLMにおける高次推論とショートカット学習の評価
MMLU-Pro+: Evaluating Higher-Order Reasoning and Shortcut Learning in LLMs ( http://arxiv.org/abs/2409.02257v3 ) ライセンス: Link先を確認 | Saeid Asgari Taghanaki, Aliasgahr Khani, Amir Khasahmadi, | (参考訳) 大規模言語モデル(LLM)の既存のベンチマークは、パフォーマンスの高いモデル間の差別化にますます苦労しており、より困難な評価フレームワークの必要性を強調している。
LLMにおけるショートカット学習と高次推論を評価するために,MMLU-Proをベースとした拡張ベンチマークであるMMLU-Pro+を導入する。
MMLU-Pro+は、様々な領域にまたがる複数の正解の質問を組み込むことで、複雑な推論にLLMの能力をテストし、単純化された問題解決戦略に抵抗する。
以上の結果から,MMLU-Pro+はMMLU-Proの難易度を維持しつつ,モデル判別の厳密な検証を行ない,特に複数の正解シナリオにおいて行うことが示唆された。
ショートカット選択比や正しいペア識別比といった新しい指標を導入し、モデルの振る舞いとバイアスのアンカーについてより深い洞察を提供する。
最先端の6つのLCMの評価は、推論能力とバイアス感受性のばらつきを顕著に示し、大きなパフォーマンスギャップを浮き彫りにした。
データセットと評価コードは \url{https://github.com/asgsaeid/mmlu-pro-plus} で公開しています。
Existing benchmarks for large language models (LLMs) increasingly struggle to differentiate between top-performing models, underscoring the need for more challenging evaluation frameworks. We introduce MMLU-Pro+, an enhanced benchmark building upon MMLU-Pro to assess shortcut learning and higher-order reasoning in LLMs. By incorporating questions with multiple correct answers across diverse domains, MMLU-Pro+ tests LLMs' ability to engage in complex reasoning and resist simplistic problem-solving strategies. Our results show that MMLU-Pro+ maintains MMLU-Pro's difficulty while providing a more rigorous test of model discrimination, particularly in multi-correct answer scenarios. We introduce novel metrics like shortcut selection ratio and correct pair identification ratio, offering deeper insights into model behavior and anchoring bias. Evaluations of six state-of-the-art LLMs reveal significant performance gaps, highlighting variations in reasoning abilities and bias susceptibility. We release the dataset and evaluation codes at \url{https://github.com/asgsaeid/mmlu-pro-plus}. | 翻訳日:2024-11-07 23:56:04 公開日:2024-10-15 |
# WaterSeeker: 大規模文書におけるウォーターマーク付きセグメントの効率的な検出
WaterSeeker: Pioneering Efficient Detection of Watermarked Segments in Large Documents ( http://arxiv.org/abs/2409.05112v3 ) ライセンス: Link先を確認 | Leyi Pan, Aiwei Liu, Yijian Lu, Zitian Gao, Yichen Di, Lijie Wen, Irwin King, Philip S. Yu, | (参考訳) 大規模言語モデル(LLM)のための透かしアルゴリズムは,LLM生成テキストの検出において高い精度を実現している。
しかし、既存の手法では、LLMが大きな文書の小さな部分しか生成しない現実のシナリオを見越して、完全にウォーターマークされたテキストと非ウォーターマークされたテキストを区別することに重点を置いている。
このシナリオでは、時間の複雑さと検出パフォーマンスのバランスが大きな課題となる。
本稿では,自然文中の透かしを効率的に検出し,発見するための新しい手法であるWaterSeekerを提案する。
まず,疑わしい透かし領域を予め特定するために,効率的な異常抽出法を適用した。
その後、局所的なトラバーサルを行い、より正確な検証のためにフルテキスト検出を行う。
理論的解析と実験結果から,WaterSeekerは検出精度と計算効率のバランスが優れていることが示された。
さらに、WaterSeekerのローカライズ機能は、解釈可能なAI検出システムの開発をサポートする。
当社のコードはhttps://github.com/THU-BPM/WaterSeekerで公開されている。
Watermarking algorithms for large language models (LLMs) have attained high accuracy in detecting LLM-generated text. However, existing methods primarily focus on distinguishing fully watermarked text from non-watermarked text, overlooking real-world scenarios where LLMs generate only small sections within large documents. In this scenario, balancing time complexity and detection performance poses significant challenges. This paper presents WaterSeeker, a novel approach to efficiently detect and locate watermarked segments amid extensive natural text. It first applies an efficient anomaly extraction method to preliminarily locate suspicious watermarked regions. Following this, it conducts a local traversal and performs full-text detection for more precise verification. Theoretical analysis and experimental results demonstrate that WaterSeeker achieves a superior balance between detection accuracy and computational efficiency. Moreover, WaterSeeker's localization ability supports the development of interpretable AI detection systems. This work pioneers a new direction in watermarked segment detection, facilitating more reliable AI-generated content identification.Our code is available at https://github.com/THU-BPM/WaterSeeker. | 翻訳日:2024-11-07 22:49:49 公開日:2024-10-15 |
# ミスコンプレッションの分類法--ニューラルコンプレッションのための画像鑑定の作成
A Taxonomy of Miscompressions: Preparing Image Forensics for Neural Compression ( http://arxiv.org/abs/2409.05490v2 ) ライセンス: Link先を確認 | Nora Hofer, Rainer Böhme, | (参考訳) ニューラル圧縮は、損失のある画像圧縮に革命をもたらす可能性がある。
生成モデルに基づいて、近年のスキームは、高い知覚的品質で前例のない圧縮率を達成するが、意味的忠実性を損なう。
圧縮された画像の詳細は光学的に不完全に見えるが、オリジナルと意味的に異なるため、圧縮エラーを検出できないか、あるいは検出できない。
問題空間を探索し, ミスプレッションの暫定分類法を提案する。
3種類の「何が起こるか」を定義し、シンボルを変更するミス圧縮を示すバイナリの「高影響」フラグを持つ。
本稿では,リスクコミュニケーションの促進と緩和研究について論じる。
Neural compression has the potential to revolutionize lossy image compression. Based on generative models, recent schemes achieve unprecedented compression rates at high perceptual quality but compromise semantic fidelity. Details of decompressed images may appear optically flawless but semantically different from the originals, making compression errors difficult or impossible to detect. We explore the problem space and propose a provisional taxonomy of miscompressions. It defines three types of 'what happens' and has a binary 'high impact' flag indicating miscompressions that alter symbols. We discuss how the taxonomy can facilitate risk communication and research into mitigations. | 翻訳日:2024-11-07 22:27:40 公開日:2024-10-15 |
# 非エルミート時間結晶の量子回路実現における雑音の影響
Effect of noise on quantum circuit realization of non-Hermitian time crystals ( http://arxiv.org/abs/2409.06113v3 ) ライセンス: Link先を確認 | Weihua Xie, Michael Kolodrubetz, Vadim Oganesyan, | (参考訳) 非エルミート量子力学は、ユニタリハミルトニアン力学とトレース保存非単位量子系力学の中間状態にある。
ユニタリ力学と非ユニタリ力学の耐雑音性の違いを考えると、ノイジー量子コンピュータにおける非エルミート力学の実装を考えることは興味深い。
本稿では,多体ダイナミクスが時間結晶性の形式である持続時間振動を生じさせる非エルミートイジング・フロケモデルについて述べる。
最も単純な2つの量子ビットの場合、ある微調整点において無限に長寿命の周期定常状態が存在する。
これらの振動は、理想的非エルミート力学のパラメータや、現代の量子デバイスで期待されるノイズや不完全性のレベルに対して、合理的に長寿命である。
一般化されたフロッケ解析を用いて、一般的な雑音の任意の弱値に対して無限長の振動が一般に失われ、それに対応する減衰率が計算されることを示す。
我々は,IBMのQiskitプラットフォームを用いてシミュレーションを行い,実験結果を確認した。
Non-Hermitian quantum dynamics lie in an intermediate regime between unitary Hamiltonian dynamics and trace-preserving non-unitary open quantum system dynamics. Given differences in the noise tolerance of unitary and non-unitary dynamics, it is interesting to consider implementing non-Hermitian dynamics on a noisy quantum computer. In this paper, we do so for a non-Hermitian Ising Floquet model whose many-body dynamics gives rise to persistent temporal oscillations, a form of time crystallinity. In the simplest two qubit case that we consider, there is an infinitely long-lived periodic steady state at certain fine-tuned points. These oscillations remain reasonably long-lived over a range of parameters in the ideal non-Hermitean dynamics and for the levels of noise and imperfection expected of modern day quantum devices. Using a generalized Floquet analysis, we show that infinitely long-lived oscillations are generically lost for arbitrarily weak values of common types of noise and compute corresponding damping rate. We perform simulations using IBM's Qiskit platform to confirm our findings; however, experiments on a real device (ibmq-lima) do not show remnants of these oscillations. | 翻訳日:2024-11-07 22:16:23 公開日:2024-10-15 |
# 遅延拡散を用いたマルチソース音楽生成
Multi-Source Music Generation with Latent Diffusion ( http://arxiv.org/abs/2409.06190v3 ) ライセンス: Link先を確認 | Zhongweiyang Xu, Debottam Dutta, Yu-Lin Wei, Romit Roy Choudhury, | (参考訳) ほとんどの音楽生成モデルは、直接1つの音楽ミックスを生成する。
より柔軟で制御しやすい生成を可能にするため、マルチソース拡散モデル (MSDM) は複数の楽器源(例えばピアノ、ドラム、ベース、ギター)の混合として音楽をモデル化するために提案されている。
その目標は、1つの拡散モデルを使って相互に整合した音楽ソースを生成し、それを混合して音楽を形成することである。
その能力にもかかわらず、MSDMは豊かな旋律で音楽を生成することができず、しばしば空の音を生成する。
その波形拡散アプローチは、オーディオ品質を損なうガウス的なノイズアーティファクトも導入している。
そこで我々は,変分オートエンコーダ(VAE)を用いて,各楽器の音源を別個の潜時表現に符号化するマルチソース潜時拡散モデル(MSLDM)を提案する。
全ての音楽ソースでVAEを訓練することにより、各ソースの特徴を「ソース潜在」で効率的に捉えることができる。
ソースラテントは連結され、我々の拡散モデルは、このジョイントラテント空間を学習する。
このアプローチは、VAEの潜在圧縮とノイズロス性を活用することにより、音楽の総生成と部分生成を著しく向上させる。
圧縮されたソース潜水剤は、より効率的な生成を容易にする。
主観的聴力テストとFrechet Audio Distance(FAD)スコアは、我々のモデルがMSDMより優れており、音楽生成システムにおける実用的で拡張された適用性を示している。
また,音源のモデリングは直接のミックス・モデリングよりも効果的であることも強調した。
コードとモデルはhttps://github.com/XZWY/MSLDM.comで公開されている。
デモはhttps://xzwy.github.io/MSLDMDemo/で公開されている。
Most music generation models directly generate a single music mixture. To allow for more flexible and controllable generation, the Multi-Source Diffusion Model (MSDM) has been proposed to model music as a mixture of multiple instrumental sources (e.g. piano, drums, bass, and guitar). Its goal is to use one single diffusion model to generate mutually-coherent music sources, that are then mixed to form the music. Despite its capabilities, MSDM is unable to generate music with rich melodies and often generates empty sounds. Its waveform diffusion approach also introduces significant Gaussian noise artifacts that compromise audio quality. In response, we introduce a Multi-Source Latent Diffusion Model (MSLDM) that employs Variational Autoencoders (VAEs) to encode each instrumental source into a distinct latent representation. By training a VAE on all music sources, we efficiently capture each source's unique characteristics in a "source latent." The source latents are concatenated and our diffusion model learns this joint latent space. This approach significantly enhances the total and partial generation of music by leveraging the VAE's latent compression and noise-robustness. The compressed source latent also facilitates more efficient generation. Subjective listening tests and Frechet Audio Distance (FAD) scores confirm that our model outperforms MSDM, showcasing its practical and enhanced applicability in music generation systems. We also emphasize that modeling sources is more effective than direct music mixture modeling. Codes and models are available at https://github.com/XZWY/MSLDM. Demos are available at https://xzwy.github.io/MSLDMDemo/. | 翻訳日:2024-11-07 22:16:23 公開日:2024-10-15 |
# マルチタイプ選好学習:平等選好による選好に基づく強化学習の活用
Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences ( http://arxiv.org/abs/2409.07268v2 ) ライセンス: Link先を確認 | Ziang Liu, Junjie Xu, Xingjiao Wu, Jing Yang, Liang He, | (参考訳) 嗜好に基づく強化学習(PBRL)は、厳密に設計された報酬関数を必要とせず、エージェント行動に関する人間の教師の嗜好から直接学習する。
しかし、既存のPBRL法は主に明示的な選好から学習し、教師が平等な選好を選択する可能性を無視している。
この無視は、教師のタスクパースペクティブに対するエージェントの理解を妨げ、重要な情報が失われる可能性がある。
この問題に対処するために、ニューラルネットワークを最適化するEqual Preference Learning Taskを導入する。
そこで本研究では,PBRL手法であるMulti-Type Preference Learning (MTPL)を提案する。
提案手法の有効性を検証するため,DeepMind Control Suiteの10の移動作業およびロボット操作作業において,MTPLを既存の4つのベースラインに適用する実験を設計した。
その結果,PBRL法は教師からのフィードバックをより包括的に理解し,フィードバック効率を向上させることができることがわかった。
プロジェクトページ: \url{https://github.com/FeiCuiLengMMbb/paper_MTPL}
Preference-Based reinforcement learning (PBRL) learns directly from the preferences of human teachers regarding agent behaviors without needing meticulously designed reward functions. However, existing PBRL methods often learn primarily from explicit preferences, neglecting the possibility that teachers may choose equal preferences. This neglect may hinder the understanding of the agent regarding the task perspective of the teacher, leading to the loss of important information. To address this issue, we introduce the Equal Preference Learning Task, which optimizes the neural network by promoting similar reward predictions when the behaviors of two agents are labeled as equal preferences. Building on this task, we propose a novel PBRL method, Multi-Type Preference Learning (MTPL), which allows simultaneous learning from equal preferences while leveraging existing methods for learning from explicit preferences. To validate our approach, we design experiments applying MTPL to four existing state-of-the-art baselines across ten locomotion and robotic manipulation tasks in the DeepMind Control Suite. The experimental results indicate that simultaneous learning from both equal and explicit preferences enables the PBRL method to more comprehensively understand the feedback from teachers, thereby enhancing feedback efficiency. Project page: \url{https://github.com/FeiCuiLengMMbb/paper_MTPL} | 翻訳日:2024-11-07 21:53:46 公開日:2024-10-15 |
# コンピュータビジョンを用いた自然界における数値性と非数値的視等級の分布の推定
Estimating the distribution of numerosity and non-numerical visual magnitudes in natural scenes using computer vision ( http://arxiv.org/abs/2409.11028v2 ) ライセンス: Link先を確認 | Kuinan Hou, Marco Zorzi, Alberto Testolin, | (参考訳) 人間は多くの動物種と共有しており、視覚的なシーンにおける物体の数を知覚し、概ね表す能力を持っている。
この能力は幼少期を通じて改善され、学習と開発が私たちの数感覚を形成する上で重要な役割を担っていることを示唆している。
この仮説は、深層学習に基づく計算的な研究によってさらに支持されており、様々な項目で画像の統計構造を学習するニューラルネットワークにおいて、数奇性知覚が自然に現れることが示されている。
しかし、ニューラルネットワークモデルは通常、自然環境の統計的構造を忠実に反映しない合成データセットを用いて訓練され、人間の数奇性知覚を研究するために、より生態学的視覚刺激を使うことへの関心が高まっている。
本研究では、コンピュータビジョンアルゴリズムの最近の進歩を利用して、日常の状況においてオブジェクトを描写した何千もの実画像を含む大規模データセットにおいて、特異度と非数値等級の分布を推定できる独自のパイプラインを設計、実装している。
自然の視覚的な場面では、異なる数列の出現頻度は、電力法分布に従うことを示す。
さらに,数奇性や連続等級の相関構造は,データセットやシーンタイプ(均質な対異質なオブジェクト集合)間で安定であることを示す。
このような共分散の「生態的」パターンを考慮することは、非数値的な視覚的手がかりが数奇性判断に与える影響を理解する上で重要であることを示唆する。
Humans share with many animal species the ability to perceive and approximately represent the number of objects in visual scenes. This ability improves throughout childhood, suggesting that learning and development play a key role in shaping our number sense. This hypothesis is further supported by computational investigations based on deep learning, which have shown that numerosity perception can spontaneously emerge in neural networks that learn the statistical structure of images with a varying number of items. However, neural network models are usually trained using synthetic datasets that might not faithfully reflect the statistical structure of natural environments, and there is also growing interest in using more ecological visual stimuli to investigate numerosity perception in humans. In this work, we exploit recent advances in computer vision algorithms to design and implement an original pipeline that can be used to estimate the distribution of numerosity and non-numerical magnitudes in large-scale datasets containing thousands of real images depicting objects in daily life situations. We show that in natural visual scenes the frequency of appearance of different numerosities follows a power law distribution. Moreover, we show that the correlational structure for numerosity and continuous magnitudes is stable across datasets and scene types (homogeneous vs. heterogeneous object sets). We suggest that considering such "ecological" pattern of covariance is important to understand the influence of non-numerical visual cues on numerosity judgements. | 翻訳日:2024-11-07 20:13:03 公開日:2024-10-15 |
# THaMES:大規模言語モデルにおける幻覚の緩和と評価のためのエンドツーエンドツール
THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models ( http://arxiv.org/abs/2409.11353v2 ) ライセンス: Link先を確認 | Mengfei Liang, Archish Arun, Zekun Wu, Cristian Munoz, Jonathan Lutch, Emre Kazim, Adriano Koshiyama, Philip Treleaven, | (参考訳) 事実的不正確なコンテンツの生成である幻覚は、Large Language Models (LLMs)における課題の増大である。
既存の検出と緩和方法は、しばしば分離され、標準化されたパイプラインが欠如している、ドメイン固有のニーズに対して不十分である。
本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMES(Tool for Hallucination Mitigations and Evaluations)を紹介する。
THaMESは、LLMにおける幻覚の評価と緩和のためのエンドツーエンドソリューションを提供し、自動テストセット生成、マルチフェイスベンチマーク、適応可能な緩和戦略を備えている。
あらゆるコーパスからテストセットの作成を自動化し、バッチ処理、重み付けサンプリング、偽物検証といったテクニックを通じて、高いデータ品質、多様性、コスト効率を確保する。
THaMESは、テキスト生成やバイナリ分類など、さまざまなタスクにおける幻覚の検出と低減、インコンテキスト学習(ICL)、検索拡張生成(RAG)、パラメータ効率のよい微調整(PEFT)といった最適な緩和戦略の適用など、モデルの能力を評価する。
学術論文、政治ニュース、ウィキペディアの知識ベースを用いた最先端のLCMの評価では、GPT-4oのような商用モデルはICLよりもRAGの方が利益があり、Llama-3.1-8B-InstructやMistral-NemoのようなオープンウェイトモデルはICLより利益がある。
さらに、PEFTは両方の評価タスクにおいてLlama-3.1-8B-Instructの性能を大幅に向上させる。
Hallucination, the generation of factually incorrect content, is a growing challenge in Large Language Models (LLMs). Existing detection and mitigation methods are often isolated and insufficient for domain-specific needs, lacking a standardized pipeline. This paper introduces THaMES (Tool for Hallucination Mitigations and EvaluationS), an integrated framework and library addressing this gap. THaMES offers an end-to-end solution for evaluating and mitigating hallucinations in LLMs, featuring automated test set generation, multifaceted benchmarking, and adaptable mitigation strategies. It automates test set creation from any corpus, ensuring high data quality, diversity, and cost-efficiency through techniques like batch processing, weighted sampling, and counterfactual validation. THaMES assesses a model's ability to detect and reduce hallucinations across various tasks, including text generation and binary classification, applying optimal mitigation strategies like In-Context Learning (ICL), Retrieval Augmented Generation (RAG), and Parameter-Efficient Fine-tuning (PEFT). Evaluations of state-of-the-art LLMs using a knowledge base of academic papers, political news, and Wikipedia reveal that commercial models like GPT-4o benefit more from RAG than ICL, while open-weight models like Llama-3.1-8B-Instruct and Mistral-Nemo gain more from ICL. Additionally, PEFT significantly enhances the performance of Llama-3.1-8B-Instruct in both evaluation tasks. | 翻訳日:2024-11-07 20:01:55 公開日:2024-10-15 |
# 主観的真実を見つける:総合的ゲン・AIモデル評価のための200万票の収集
Finding the Subjective Truth: Collecting 2 Million Votes for Comprehensive Gen-AI Model Evaluation ( http://arxiv.org/abs/2409.11904v2 ) ライセンス: Link先を確認 | Dimitrios Christodoulou, Mads Kuhlmann-Jørgensen, | (参考訳) テキスト・ツー・イメージ・モデルの性能を効果的に評価することは、本質的に主観的判断と人間の嗜好を必要とするため困難であり、異なるモデルを比較して最先端の状態を定量化することは困難である。
Rapidataの技術を活用することで、多様なグローバルなアノテータプールから人間のフィードバックを発信する効率的なアノテーションフレームワークを提供する。
我々は4,512枚の画像に200万以上のアノテーションを収集し、スタイルの好み、コヒーレンス、テキスト・ツー・イメージのアライメントについて、DALL-E, Flux.1, MidJourney, Stable Diffusionの4つの顕著なモデル(DALL-E, Flux.1, Staable Diffusion)を評価した。
提案手法は,膨大なアノテータのプールに基づいて画像生成モデルを包括的にランク付けし,多彩なアノテータ人口層が世界人口を反映し,バイアスのリスクを大幅に減少させることを示す。
Efficiently evaluating the performance of text-to-image models is difficult as it inherently requires subjective judgment and human preference, making it hard to compare different models and quantify the state of the art. Leveraging Rapidata's technology, we present an efficient annotation framework that sources human feedback from a diverse, global pool of annotators. Our study collected over 2 million annotations across 4,512 images, evaluating four prominent models (DALL-E 3, Flux.1, MidJourney, and Stable Diffusion) on style preference, coherence, and text-to-image alignment. We demonstrate that our approach makes it feasible to comprehensively rank image generation models based on a vast pool of annotators and show that the diverse annotator demographics reflect the world population, significantly decreasing the risk of biases. | 翻訳日:2024-11-07 19:26:16 公開日:2024-10-15 |
# LLMラッパー:表現理解参照のための視覚言語モデルのブラックボックス意味認識適応
LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension ( http://arxiv.org/abs/2409.11919v2 ) ライセンス: Link先を確認 | Amaia Cardiel, Eloi Zablocki, Elias Ramzi, Oriane Siméoni, Matthieu Cord, | (参考訳) 視覚言語モデル(VLM)は、様々なオープン語彙タスクにおいて顕著な能力を示したが、特にReferring Expression Comprehension(REC)のような複雑なタスクでは、タスク固有の微調整モデルに遅れてゼロショットのパフォーマンスが遅れている。
ファインチューニングは通常、モデルのアーキテクチャと重みへの"ホワイトボックス"アクセスを必要とするが、プロプライエタリやプライバシの懸念のため、必ずしも実現不可能である。
本稿では,Large Language Models (LLMs) を用いたRECタスクに対する VLM の 'black-box' 適応法である LLM-wrapper を提案する。
LLM-ラッパーは、ゼロショットブラックボックスVLMによって生成される候補から、参照表現にマッチする最も関連性の高いバウンディングボックスを選択するために、軽微調整により改良されたLCMの推論能力に乗じる。
提案手法は,内部動作を必要とせずにクローズドソースモデルの適応が可能であり,任意のVLMで動作するため,新しいVLMへの変換が可能であり,VLMのアンサンブルの適応を可能にする。
異なるVLMとLLMを用いて複数のデータセット上でLLMラッパーを評価し,性能向上と本手法の汎用性を強調した。
LLM-ラッパーは標準的なホワイトボックスの微調整と直接競合するものではないが、ブラックボックスのVLM適応に対して実用的で効果的な代替手段を提供する。
コードはオープンソース化される。
Vision Language Models (VLMs) have demonstrated remarkable capabilities in various open-vocabulary tasks, yet their zero-shot performance lags behind task-specific finetuned models, particularly in complex tasks like Referring Expression Comprehension (REC). Fine-tuning usually requires 'white-box' access to the model's architecture and weights, which is not always feasible due to proprietary or privacy concerns. In this work, we propose LLM-wrapper, a method for 'black-box' adaptation of VLMs for the REC task using Large Language Models (LLMs). LLM-wrapper capitalizes on the reasoning abilities of LLMs, improved with a light fine-tuning, to select the most relevant bounding box matching the referring expression, from candidates generated by a zero-shot black-box VLM. Our approach offers several advantages: it enables the adaptation of closed-source models without needing access to their internal workings, it is versatile as it works with any VLM, it transfers to new VLMs, and it allows for the adaptation of an ensemble of VLMs. We evaluate LLM-wrapper on multiple datasets using different VLMs and LLMs, demonstrating significant performance improvements and highlighting the versatility of our method. While LLM-wrapper is not meant to directly compete with standard white-box fine-tuning, it offers a practical and effective alternative for black-box VLM adaptation. The code will be open-sourced. | 翻訳日:2024-11-07 19:26:16 公開日:2024-10-15 |
# 任意特徴をもつ線形時間差学習のほぼ確実な収束
Almost Sure Convergence of Linear Temporal Difference Learning with Arbitrary Features ( http://arxiv.org/abs/2409.12135v2 ) ライセンス: Link先を確認 | Jiuqi Wang, Shangtong Zhang, | (参考訳) 線形関数近似を用いた時間差分学習(TD)は、強化学習における古典的で強力な予測アルゴリズムである。
線型TDがほぼ確実に一意点に収束することはよく理解されているが、この収束は伝統的に近似器で使われる特徴が線型独立であるという仮定を必要とする。
しかし、この線形独立仮定は多くの現実的なシナリオでは成立しない。
この研究は、線形独立な特徴を必要とせず、線形TDのほぼ確実に収束を確立する最初のものである。
実際、私たちはその機能について何の仮定もしていません。
近似値関数が一意点に収束し、重みが集合に収束することを証明する。
また、重みの局所安定性の概念も確立する。
重要なことに、他の仮定を導入する必要はなく、線形TDアルゴリズムを変更する必要もない。
解析の鍵となるのは、線形TDの平均ODEの有界不変集合の新たな特徴付けである。
Temporal difference (TD) learning with linear function approximation, abbreviated as linear TD, is a classic and powerful prediction algorithm in reinforcement learning. While it is well understood that linear TD converges almost surely to a unique point, this convergence traditionally requires the assumption that the features used by the approximator are linearly independent. However, this linear independence assumption does not hold in many practical scenarios. This work is the first to establish the almost sure convergence of linear TD without requiring linearly independent features. In fact, we do not make any assumptions on the features. We prove that the approximated value function converges to a unique point and the weight iterates converge to a set. We also establish a notion of local stability of the weight iterates. Importantly, we do not need to introduce any other additional assumptions and do not need to make any modification to the linear TD algorithm. Key to our analysis is a novel characterization of bounded invariant sets of the mean ODE of linear TD. | 翻訳日:2024-11-07 19:26:16 公開日:2024-10-15 |
# Nteasee: アフリカ諸国におけるAI導入に関する専門家と一般住民の視点の混合手法に関する研究
Nteasee: A mixed methods study of expert and general population perspectives on deploying AI for health in African countries ( http://arxiv.org/abs/2409.12197v1 ) ライセンス: Link先を確認 | Mercy Nyamewaa Asiedu, Iskandar Haykel, Awa Dieng, Kerrie Kauer, Tousif Ahmed, Florence Ofori, Charisma Chan, Stephen Pfohl, Negar Rostamzadeh, Katherine Heller, | (参考訳) 健康のための人工知能(AI)は、医療を大きく変え改善する可能性がある。
しかし、ほとんどのアフリカ諸国では、これらのソリューションを展開するための文化的、文脈的に直感的なアプローチがよく理解されていない。
このギャップを埋めるために、アフリカの国々でAIを医療に展開する際のベストプラクティス、公正度指標、潜在的なバイアスについて質的研究を行い、人工知能が健康にポジティブな影響を与える機会を探る。
詳細なインタビュー(IDI)と調査を組み合わせた混合手法を用いた。
我々は、健康、政策、AIの専門家50名による1.5~2時間のIDIを行い、帰納的アプローチを通じて、専門家のIDI反応に関する質的なセマンティック分析を行う。
アフリカ5か国672人の一般住民を対象に、盲目の30分間の調査を行い、定量的尺度による回答を分析し、国別、年齢別、性別別、AIとの親しみ度を統計的に比較した。
調査からのオープンエンドの回答を数学的に要約する。
以上の結果から, アフリカにおけるAI活用に対する一般住民の関心度は, 概して肯定的な態度, 高い信頼度, 適度な関心度が認められた。
これは専門家の反応とは対照的で、信頼/不信、倫理的懸念、統合に対するシステム的障壁などを中心に主要なテーマが展開されている。
この研究は、アルゴリズム的公正な角度からアフリカにおける健康のためのAIの可能性について、専門家と一般大衆の両方から見地からの最初の質的研究である。
この研究が政策立案者をガイドし、さらなる研究の必要性と、AI利用に関する意思決定における一般大衆の視点を含めることを願っている。
Artificial Intelligence (AI) for health has the potential to significantly change and improve healthcare. However in most African countries, identifying culturally and contextually attuned approaches for deploying these solutions is not well understood. To bridge this gap, we conduct a qualitative study to investigate the best practices, fairness indicators, and potential biases to mitigate when deploying AI for health in African countries, as well as explore opportunities where artificial intelligence could make a positive impact in health. We used a mixed methods approach combining in-depth interviews (IDIs) and surveys. We conduct 1.5-2 hour long IDIs with 50 experts in health, policy, and AI across 17 countries, and through an inductive approach we conduct a qualitative thematic analysis on expert IDI responses. We administer a blinded 30-minute survey with case studies to 672 general population participants across 5 countries in Africa and analyze responses on quantitative scales, statistically comparing responses by country, age, gender, and level of familiarity with AI. We thematically summarize open-ended responses from surveys. Our results find generally positive attitudes, high levels of trust, accompanied by moderate levels of concern among general population participants for AI usage for health in Africa. This contrasts with expert responses, where major themes revolved around trust/mistrust, ethical concerns, and systemic barriers to integration, among others. This work presents the first-of-its-kind qualitative research study of the potential of AI for health in Africa from an algorithmic fairness angle, with perspectives from both experts and the general population. We hope that this work guides policymakers and drives home the need for further research and the inclusion of general population perspectives in decision-making around AI usage. | 翻訳日:2024-11-07 19:26:16 公開日:2024-10-15 |
# Nteasee: アフリカ諸国におけるAI導入に関する専門家と一般住民の視点の混合手法に関する研究
Nteasee: A mixed methods study of expert and general population perspectives on deploying AI for health in African countries ( http://arxiv.org/abs/2409.12197v2 ) ライセンス: Link先を確認 | Mercy Nyamewaa Asiedu, Iskandar Haykel, Awa Dieng, Kerrie Kauer, Tousif Ahmed, Florence Ofori, Charisma Chan, Stephen Pfohl, Negar Rostamzadeh, Katherine Heller, | (参考訳) 健康のための人工知能(AI)は、医療を大きく変え改善する可能性がある。
しかし、ほとんどのアフリカ諸国では、これらのソリューションを展開するための文化的、文脈的に直感的なアプローチがよく理解されていない。
このギャップを埋めるために、アフリカの国々でAIを医療に展開する際のベストプラクティス、公正度指標、潜在的なバイアスについて質的研究を行い、人工知能が健康にポジティブな影響を与える機会を探る。
詳細なインタビュー(IDI)と調査を組み合わせた混合手法を用いた。
我々は、健康、政策、AIの専門家50名による1.5~2時間のIDIを行い、帰納的アプローチを通じて、専門家のIDI反応に関する質的なセマンティック分析を行う。
アフリカ5か国672人の一般住民を対象に、盲目の30分間の調査を行い、定量的尺度による回答を分析し、国別、年齢別、性別別、AIとの親しみ度を統計的に比較した。
調査からのオープンエンドの回答を数学的に要約する。
以上の結果から, アフリカにおけるAI活用に対する一般住民の関心度は, 概して肯定的な態度, 高い信頼度, 適度な関心度が認められた。
これは専門家の反応とは対照的で、信頼/不信、倫理的懸念、統合に対するシステム的障壁などを中心に主要なテーマが展開されている。
この研究は、アルゴリズム的公正な角度からアフリカにおける健康のためのAIの可能性について、専門家と一般大衆の両方から見地からの最初の質的研究である。
この研究が政策立案者をガイドし、さらなる研究の必要性と、AI利用に関する意思決定における一般大衆の視点を含めることを願っている。
Artificial Intelligence (AI) for health has the potential to significantly change and improve healthcare. However in most African countries, identifying culturally and contextually attuned approaches for deploying these solutions is not well understood. To bridge this gap, we conduct a qualitative study to investigate the best practices, fairness indicators, and potential biases to mitigate when deploying AI for health in African countries, as well as explore opportunities where artificial intelligence could make a positive impact in health. We used a mixed methods approach combining in-depth interviews (IDIs) and surveys. We conduct 1.5-2 hour long IDIs with 50 experts in health, policy, and AI across 17 countries, and through an inductive approach we conduct a qualitative thematic analysis on expert IDI responses. We administer a blinded 30-minute survey with case studies to 672 general population participants across 5 countries in Africa and analyze responses on quantitative scales, statistically comparing responses by country, age, gender, and level of familiarity with AI. We thematically summarize open-ended responses from surveys. Our results find generally positive attitudes, high levels of trust, accompanied by moderate levels of concern among general population participants for AI usage for health in Africa. This contrasts with expert responses, where major themes revolved around trust/mistrust, ethical concerns, and systemic barriers to integration, among others. This work presents the first-of-its-kind qualitative research study of the potential of AI for health in Africa from an algorithmic fairness angle, with perspectives from both experts and the general population. We hope that this work guides policymakers and drives home the need for further research and the inclusion of general population perspectives in decision-making around AI usage. | 翻訳日:2024-11-07 19:26:16 公開日:2024-10-15 |
# Spectral-GS: スペクトルエントロピーを用いた3次元ガウス平滑化
Spectral-GS: Taming 3D Gaussian Splatting with Spectral Entropy ( http://arxiv.org/abs/2409.12771v1 ) ライセンス: Link先を確認 | Letian Huang, Jie Guo, Jialin Dan, Ruoyu Fu, Shujie Wang, Yuanqi Li, Yanwen Guo, | (参考訳) 近年,3次元ガウススプラッティング(3D-GS)は,高い忠実度と効率性を示す新規なビュー合成において,印象的な成果を上げている。
しかし、特にサンプリング率を上げると針状のアーティファクトが容易に現れる。
Mip-Splattingはこれらのアーティファクトを、周波数制約のための3次元平滑化フィルタと近似スーパーサンプリングのための2次元Mipフィルタで除去しようとする。
残念なことに、過度に青みがかった結果をもたらす傾向があり、針のようなガウシアンもまだ残っていることがある。
最適化と密度化における共分散行列のスペクトル分析により,現在の3D-GSでは形状認識が欠如していることが判明した。
結果として、小さな位置勾配と低いスペクトルエントロピーを持つ針状ガウスが分割できず、高周波の詳細をオーバーフィットする。
さらに、3D-GS と Mip-Splatting で使用されるフィルタはどちらもスペクトルエントロピーを低減し、ズームイン中に条件数を増やして新しいビューを合成し、ビューの不整合とより顕著なアーティファクトを引き起こす。
スペクトル分析に基づくスペクトルGSでは、3次元形状認識分割と2次元ビュー一貫性フィルタリング戦略を導入し、これらの問題を効果的に解決し、3D-GSの高頻度細部表現能力を向上させるとともに、高画質な光写実性レンダリングを実現している。
Recently, 3D Gaussian Splatting (3D-GS) has achieved impressive results in novel view synthesis, demonstrating high fidelity and efficiency. However, it easily exhibits needle-like artifacts, especially when increasing the sampling rate. Mip-Splatting tries to remove these artifacts with a 3D smoothing filter for frequency constraints and a 2D Mip filter for approximated supersampling. Unfortunately, it tends to produce over-blurred results, and sometimes needle-like Gaussians still persist. Our spectral analysis of the covariance matrix during optimization and densification reveals that current 3D-GS lacks shape awareness, relying instead on spectral radius and view positional gradients to determine splitting. As a result, needle-like Gaussians with small positional gradients and low spectral entropy fail to split and overfit high-frequency details. Furthermore, both the filters used in 3D-GS and Mip-Splatting reduce the spectral entropy and increase the condition number during zooming in to synthesize novel view, causing view inconsistencies and more pronounced artifacts. Our Spectral-GS, based on spectral analysis, introduces 3D shape-aware splitting and 2D view-consistent filtering strategies, effectively addressing these issues, enhancing 3D-GS's capability to represent high-frequency details without noticeable artifacts, and achieving high-quality photorealistic rendering. | 翻訳日:2024-11-07 13:34:43 公開日:2024-10-15 |
# Spectral-GS: スペクトルエントロピーを用いた3次元ガウス平滑化
Spectral-GS: Taming 3D Gaussian Splatting with Spectral Entropy ( http://arxiv.org/abs/2409.12771v2 ) ライセンス: Link先を確認 | Letian Huang, Jie Guo, Jialin Dan, Ruoyu Fu, Shujie Wang, Yuanqi Li, Yanwen Guo, | (参考訳) 近年,3次元ガウススプラッティング(3D-GS)は,高い忠実度と効率性を示す新規なビュー合成において,印象的な成果を上げている。
しかし、特にサンプリング率を上げると針状のアーティファクトが容易に現れる。
Mip-Splattingはこれらのアーティファクトを、周波数制約のための3次元平滑化フィルタと近似スーパーサンプリングのための2次元Mipフィルタで除去しようとする。
残念なことに、過度に青みがかった結果をもたらす傾向があり、針のようなガウシアンもまだ残っていることがある。
最適化と密度化における共分散行列のスペクトル分析により,現在の3D-GSでは形状認識が欠如していることが判明した。
結果として、小さな位置勾配と低いスペクトルエントロピーを持つ針状ガウスが分割できず、高周波の詳細をオーバーフィットする。
さらに、3D-GS と Mip-Splatting で使用されるフィルタはどちらもスペクトルエントロピーを低減し、ズームイン中に条件数を増やして新しいビューを合成し、ビューの不整合とより顕著なアーティファクトを引き起こす。
スペクトル分析に基づくスペクトルGSでは、3次元形状認識分割と2次元ビュー一貫性フィルタリング戦略を導入し、これらの問題を効果的に解決し、3D-GSの高頻度細部表現能力を向上させるとともに、高画質な光写実性レンダリングを実現している。
Recently, 3D Gaussian Splatting (3D-GS) has achieved impressive results in novel view synthesis, demonstrating high fidelity and efficiency. However, it easily exhibits needle-like artifacts, especially when increasing the sampling rate. Mip-Splatting tries to remove these artifacts with a 3D smoothing filter for frequency constraints and a 2D Mip filter for approximated supersampling. Unfortunately, it tends to produce over-blurred results, and sometimes needle-like Gaussians still persist. Our spectral analysis of the covariance matrix during optimization and densification reveals that current 3D-GS lacks shape awareness, relying instead on spectral radius and view positional gradients to determine splitting. As a result, needle-like Gaussians with small positional gradients and low spectral entropy fail to split and overfit high-frequency details. Furthermore, both the filters used in 3D-GS and Mip-Splatting reduce the spectral entropy and increase the condition number during zooming in to synthesize novel view, causing view inconsistencies and more pronounced artifacts. Our Spectral-GS, based on spectral analysis, introduces 3D shape-aware splitting and 2D view-consistent filtering strategies, effectively addressing these issues, enhancing 3D-GS's capability to represent high-frequency details without noticeable artifacts, and achieving high-quality photorealistic rendering. | 翻訳日:2024-11-07 13:34:43 公開日:2024-10-15 |
# 質問応答によるテキスト・ツー・イメージ生成における画像幻覚の評価
Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering ( http://arxiv.org/abs/2409.12784v3 ) ライセンス: Link先を確認 | Youngsun Lim, Hojun Choi, Pin-Yu Chen, Hyunjung Shim, | (参考訳) TTI(text-to-image)生成モデルの成功にもかかわらず、既存の研究では、これらのモデルが事実情報を正確に伝達するかどうかという問題を見逃している。
本稿では,生成モデルが生成した画像が事実を忠実に表現できない画像幻覚の問題に焦点をあてる。
そこで我々は,視覚的質問応答(VQA)を用いて生成した画像の事実を計測する新しい自動評価指標であるI-HallA(Image Hallucination Evaluation with Question Answering)を紹介する。
また、この目的でキュレートされたベンチマークデータセットであるI-HallA v1.0についても紹介する。
このプロセスの一環として,複数のGPT-4 Omniエージェントを用いて高品質な質問応答対を生成するパイプラインを開発した。
評価プロトコルは,既存のテキスト・ツー・イメージモデルから得られた画像がこれらの疑問に正しく答えられるかどうかをテストすることで,画像の幻覚を測定する。
I-HallA v1.0データセットは、9つのカテゴリにまたがる1.2Kの多様な画像テキストペアで構成され、1,000の厳密なキュレートされた質問が様々な構成上の課題をカバーしている。
我々はI-HallAを用いて5つのテキスト・ツー・イメージモデルを評価し、これらの最先端モデルが事実情報を正確に伝達できない場合が多いことを明らかにした。
さらに,人間の判断と強いスピアマン相関(rho=0.95)を示すことによって,指標の信頼性を検証する。
われわれのベンチマークデータセットとメトリクスは、事実的精度の高いテキスト・画像生成モデルを開発する基盤となると信じている。
Despite the impressive success of text-to-image (TTI) generation models, existing studies overlook the issue of whether these models accurately convey factual information. In this paper, we focus on the problem of image hallucination, where images created by generation models fail to faithfully depict factual content. To address this, we introduce I-HallA (Image Hallucination evaluation with Question Answering), a novel automated evaluation metric that measures the factuality of generated images through visual question answering (VQA). We also introduce I-HallA v1.0, a curated benchmark dataset for this purpose. As part of this process, we develop a pipeline that generates high-quality question-answer pairs using multiple GPT-4 Omni-based agents, with human judgments to ensure accuracy. Our evaluation protocols measure image hallucination by testing if images from existing text-to-image models can correctly respond to these questions. The I-HallA v1.0 dataset comprises 1.2K diverse image-text pairs across nine categories with 1,000 rigorously curated questions covering various compositional challenges. We evaluate five text-to-image models using I-HallA and reveal that these state-of-the-art models often fail to accurately convey factual information. Moreover, we validate the reliability of our metric by demonstrating a strong Spearman correlation (rho=0.95) with human judgments. We believe our benchmark dataset and metric can serve as a foundation for developing factually accurate text-to-image generation models. | 翻訳日:2024-11-07 13:34:43 公開日:2024-10-15 |
# 質問応答によるテキスト・ツー・イメージ生成における画像幻覚の評価
Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering ( http://arxiv.org/abs/2409.12784v1 ) ライセンス: Link先を確認 | Youngsun Lim, Hojun Choi, Hyunjung Shim, | (参考訳) TTI(text-to-image)生成モデルの成功にもかかわらず、既存の研究では、これらのモデルが事実情報を正確に伝達するかどうかという問題を見逃している。
本稿では,生成モデルが生成した画像が事実を忠実に表現できない画像幻覚の問題に焦点をあてる。
そこで我々は,視覚的質問応答(VQA)を用いて生成した画像の事実を計測する新しい自動評価指標であるI-HallA(Image Hallucination Evaluation with Question Answering)を紹介する。
また、この目的でキュレートされたベンチマークデータセットであるI-HallA v1.0についても紹介する。
このプロセスの一環として,複数のGPT-4 Omniエージェントを用いて高品質な質問応答対を生成するパイプラインを開発した。
評価プロトコルは,既存のテキスト・ツー・イメージモデルから得られた画像がこれらの疑問に正しく答えられるかどうかをテストすることで,画像の幻覚を測定する。
I-HallA v1.0データセットは、9つのカテゴリにまたがる1.2Kの多様な画像テキストペアで構成され、1,000の厳密なキュレートされた質問が様々な構成上の課題をカバーしている。
我々はI-HallAを用いて5つのテキスト・ツー・イメージモデルを評価し、これらの最先端モデルが事実情報を正確に伝達できない場合が多いことを明らかにした。
さらに,人間の判断と強いスピアマン相関(rho=0.95)を示すことによって,指標の信頼性を検証する。
われわれのベンチマークデータセットとメトリクスは、事実的精度の高いテキスト・画像生成モデルを開発する基盤となると信じている。
Despite the impressive success of text-to-image (TTI) generation models, existing studies overlook the issue of whether these models accurately convey factual information. In this paper, we focus on the problem of image hallucination, where images created by generation models fail to faithfully depict factual content. To address this, we introduce I-HallA (Image Hallucination evaluation with Question Answering), a novel automated evaluation metric that measures the factuality of generated images through visual question answering (VQA). We also introduce I-HallA v1.0, a curated benchmark dataset for this purpose. As part of this process, we develop a pipeline that generates high-quality question-answer pairs using multiple GPT-4 Omni-based agents, with human judgments to ensure accuracy. Our evaluation protocols measure image hallucination by testing if images from existing text-to-image models can correctly respond to these questions. The I-HallA v1.0 dataset comprises 1.2K diverse image-text pairs across nine categories with 1,000 rigorously curated questions covering various compositional challenges. We evaluate five text-to-image models using I-HallA and reveal that these state-of-the-art models often fail to accurately convey factual information. Moreover, we validate the reliability of our metric by demonstrating a strong Spearman correlation (rho=0.95) with human judgments. We believe our benchmark dataset and metric can serve as a foundation for developing factually accurate text-to-image generation models. | 翻訳日:2024-11-07 13:23:33 公開日:2024-10-15 |
# 質問応答によるテキスト・ツー・イメージ生成における画像幻覚の評価
Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering ( http://arxiv.org/abs/2409.12784v2 ) ライセンス: Link先を確認 | Youngsun Lim, Hojun Choi, Pin-Yu Chen, Hyunjung Shim, | (参考訳) TTI(text-to-image)生成モデルの成功にもかかわらず、既存の研究では、これらのモデルが事実情報を正確に伝達するかどうかという問題を見逃している。
本稿では,生成モデルが生成した画像が事実を忠実に表現できない画像幻覚の問題に焦点をあてる。
そこで我々は,視覚的質問応答(VQA)を用いて生成した画像の事実を計測する新しい自動評価指標であるI-HallA(Image Hallucination Evaluation with Question Answering)を紹介する。
また、この目的でキュレートされたベンチマークデータセットであるI-HallA v1.0についても紹介する。
このプロセスの一環として,複数のGPT-4 Omniエージェントを用いて高品質な質問応答対を生成するパイプラインを開発した。
評価プロトコルは,既存のテキスト・ツー・イメージモデルから得られた画像がこれらの疑問に正しく答えられるかどうかをテストすることで,画像の幻覚を測定する。
I-HallA v1.0データセットは、9つのカテゴリにまたがる1.2Kの多様な画像テキストペアで構成され、1,000の厳密なキュレートされた質問が様々な構成上の課題をカバーしている。
我々はI-HallAを用いて5つのテキスト・ツー・イメージモデルを評価し、これらの最先端モデルが事実情報を正確に伝達できない場合が多いことを明らかにした。
さらに,人間の判断と強いスピアマン相関(rho=0.95)を示すことによって,指標の信頼性を検証する。
われわれのベンチマークデータセットとメトリクスは、事実的精度の高いテキスト・画像生成モデルを開発する基盤となると信じている。
Despite the impressive success of text-to-image (TTI) generation models, existing studies overlook the issue of whether these models accurately convey factual information. In this paper, we focus on the problem of image hallucination, where images created by generation models fail to faithfully depict factual content. To address this, we introduce I-HallA (Image Hallucination evaluation with Question Answering), a novel automated evaluation metric that measures the factuality of generated images through visual question answering (VQA). We also introduce I-HallA v1.0, a curated benchmark dataset for this purpose. As part of this process, we develop a pipeline that generates high-quality question-answer pairs using multiple GPT-4 Omni-based agents, with human judgments to ensure accuracy. Our evaluation protocols measure image hallucination by testing if images from existing text-to-image models can correctly respond to these questions. The I-HallA v1.0 dataset comprises 1.2K diverse image-text pairs across nine categories with 1,000 rigorously curated questions covering various compositional challenges. We evaluate five text-to-image models using I-HallA and reveal that these state-of-the-art models often fail to accurately convey factual information. Moreover, we validate the reliability of our metric by demonstrating a strong Spearman correlation (rho=0.95) with human judgments. We believe our benchmark dataset and metric can serve as a foundation for developing factually accurate text-to-image generation models. | 翻訳日:2024-11-07 13:23:33 公開日:2024-10-15 |
# 質問応答によるテキスト・ツー・イメージ生成における画像幻覚の評価
Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering ( http://arxiv.org/abs/2409.12784v4 ) ライセンス: Link先を確認 | Youngsun Lim, Hojun Choi, Hyunjung Shim, | (参考訳) TTI(text-to-image)生成モデルの成功にもかかわらず、既存の研究では、これらのモデルが事実情報を正確に伝達するかどうかという問題を見逃している。
本稿では,生成モデルが生成した画像が事実を忠実に表現できない画像幻覚の問題に焦点をあてる。
そこで我々は,視覚的質問応答(VQA)を用いて生成した画像の事実を計測する新しい自動評価指標であるI-HallA(Image Hallucination Evaluation with Question Answering)を紹介する。
また、この目的でキュレートされたベンチマークデータセットであるI-HallA v1.0についても紹介する。
このプロセスの一環として,複数のGPT-4 Omniエージェントを用いて高品質な質問応答対を生成するパイプラインを開発した。
評価プロトコルは,既存のテキスト・ツー・イメージモデルから得られた画像がこれらの疑問に正しく答えられるかどうかをテストすることで,画像の幻覚を測定する。
I-HallA v1.0データセットは、9つのカテゴリにまたがる1.2Kの多様な画像テキストペアで構成され、1,000の厳密なキュレートされた質問が様々な構成上の課題をカバーしている。
我々はI-HallAを用いて5つのテキスト・ツー・イメージモデルを評価し、これらの最先端モデルが事実情報を正確に伝達できない場合が多いことを明らかにした。
さらに,人間の判断と強いスピアマン相関(rho=0.95)を示すことによって,指標の信頼性を検証する。
われわれのベンチマークデータセットとメトリクスは、事実的精度の高いテキスト・画像生成モデルを開発する基盤となると信じている。
Despite the impressive success of text-to-image (TTI) generation models, existing studies overlook the issue of whether these models accurately convey factual information. In this paper, we focus on the problem of image hallucination, where images created by generation models fail to faithfully depict factual content. To address this, we introduce I-HallA (Image Hallucination evaluation with Question Answering), a novel automated evaluation metric that measures the factuality of generated images through visual question answering (VQA). We also introduce I-HallA v1.0, a curated benchmark dataset for this purpose. As part of this process, we develop a pipeline that generates high-quality question-answer pairs using multiple GPT-4 Omni-based agents, with human judgments to ensure accuracy. Our evaluation protocols measure image hallucination by testing if images from existing text-to-image models can correctly respond to these questions. The I-HallA v1.0 dataset comprises 1.2K diverse image-text pairs across nine categories with 1,000 rigorously curated questions covering various compositional challenges. We evaluate five text-to-image models using I-HallA and reveal that these state-of-the-art models often fail to accurately convey factual information. Moreover, we validate the reliability of our metric by demonstrating a strong Spearman correlation (rho=0.95) with human judgments. We believe our benchmark dataset and metric can serve as a foundation for developing factually accurate text-to-image generation models. | 翻訳日:2024-11-07 13:23:33 公開日:2024-10-15 |
# マルチパーティ会話におけるメモリモデリングのためのマルチモーダルデータセットMeMoの導入
Introducing MeMo: A Multimodal Dataset for Memory Modelling in Multiparty Conversations ( http://arxiv.org/abs/2409.13715v1 ) ライセンス: Link先を確認 | Maria Tsfasman, Bernd Dudzik, Kristian Fenech, Andras Lorincz, Catholijn M. Jonker, Catharine Oertel, | (参考訳) 人間の社会関係の質は、人間の記憶過程と複雑に結びついており、記憶が社会結合の創出の基礎となっている。
人間の記憶は選択的であるため、グループ内の同じ出来事の異なる記憶は、グループ内の共通基盤と見なされる誤解や不一致につながる可能性がある。
しかし、グループ間相互作用の質向上を目的とした会話ファシリテーションシステムは、通常、個々のセッション内でユーザーの状態を追跡することに集中し、インタラクション後の各参加者の記憶に残されているものを無視する。
会話記憶とは、人間が会話から言語的、非言語的、文脈的な情報をエンコードし、保持し、取り出す過程である。
会話記憶を理解することは、グループ内の社会的つながりの長期的な発展に関する情報の源として利用することができる。
本稿では,人間の会話記憶の計算モデリングを容易にすることを目的とした,参加者の記憶保持レポートに注釈を付けた最初の会話データセットであるMeMoコーパスを紹介する。
MeMoのコーパスには、Covid-19のトピックに関する31時間の小さなグループディスカッションが含まれており、2週間にわたって繰り返されている。
検証された行動計測と知覚計測を統合し、音声、ビデオ、マルチモーダルアノテーションが含まれており、会話記憶とグループダイナミクスを研究しモデル化するための貴重なリソースを提供する。
本稿では,MeMoコーパスを導入し,その妥当性を分析し,今後の研究に役立つことを示すことにより,知的システム開発のための対話型メモリモデリングにおける今後の研究の道を開くことを目的とする。
The quality of human social relationships is intricately linked to human memory processes, with memory serving as the foundation for the creation of social bonds. Since human memory is selective, differing recollections of the same events within a group can lead to misunderstandings and misalignments in what is perceived to be common ground in the group. Yet, conversational facilitation systems, aimed at advancing the quality of group interactions, usually focus on tracking users' states within an individual session, ignoring what remains in each participant's memory after the interaction. Conversational memory is the process by which humans encode, retain and retrieve verbal, non-verbal and contextual information from a conversation. Understanding conversational memory can be used as a source of information on the long-term development of social connections within a group. This paper introduces the MeMo corpus, the first conversational dataset annotated with participants' memory retention reports, aimed at facilitating computational modelling of human conversational memory. The MeMo corpus includes 31 hours of small-group discussions on the topic of Covid-19, repeated over the term of 2 weeks. It integrates validated behavioural and perceptual measures, and includes audio, video, and multimodal annotations, offering a valuable resource for studying and modelling conversational memory and group dynamics. By introducing the MeMo corpus, presenting an analysis of its validity, and demonstrating its usefulness for future research, this paper aims to pave the way for future research in conversational memory modelling for intelligent system development. | 翻訳日:2024-11-07 05:46:28 公開日:2024-10-15 |
# マルチパーティ会話におけるメモリモデリングのためのマルチモーダルデータセットMeMoの導入
Introducing MeMo: A Multimodal Dataset for Memory Modelling in Multiparty Conversations ( http://arxiv.org/abs/2409.13715v2 ) ライセンス: Link先を確認 | Maria Tsfasman, Bernd Dudzik, Kristian Fenech, Andras Lorincz, Catholijn M. Jonker, Catharine Oertel, | (参考訳) 会話記憶とは、人間が会話から言語的、非言語的、文脈的な情報をエンコードし、保持し、取り出す過程である。
人間の記憶は選択的であるため、同じ出来事の異なる記憶は、グループ内の誤解や誤認識を引き起こす可能性がある。
しかし、グループ間相互作用の質向上を目的とした会話ファシリテーションシステムは、通常、個々のセッション内でユーザーの状態を追跡することに集中し、インタラクション後の各参加者の記憶に残されているものを無視する。
会話記憶を理解することは、グループ内の社会的つながりの長期的な発展に関する情報の源として利用することができる。
本稿では,人間の会話記憶の計算モデリングを容易にすることを目的とした,参加者の記憶保持レポートに注釈を付けた最初の会話データセットであるMeMoコーパスを紹介する。
MeMoのコーパスには、Covid-19に関する31時間の小グループディスカッションが含まれており、2週間にわたって3回繰り返している。
検証された行動と知覚の計測、オーディオ、ビデオ、マルチモーダルアノテーションを統合し、会話記憶とグループダイナミクスを研究しモデル化するための貴重なリソースを提供する。
本稿では,MeMoコーパスを導入し,その妥当性を分析し,今後の研究に役立つことを示すことにより,知的システム開発のための対話型メモリモデリングにおける今後の研究の道を開くことを目的とする。
Conversational memory is the process by which humans encode, retain and retrieve verbal, non-verbal and contextual information from a conversation. Since human memory is selective, differing recollections of the same events can lead to misunderstandings and misalignments within a group. Yet, conversational facilitation systems, aimed at advancing the quality of group interactions, usually focus on tracking users' states within an individual session, ignoring what remains in each participant's memory after the interaction. Understanding conversational memory can be used as a source of information on the long-term development of social connections within a group. This paper introduces the MeMo corpus, the first conversational dataset annotated with participants' memory retention reports, aimed at facilitating computational modelling of human conversational memory. The MeMo corpus includes 31 hours of small-group discussions on Covid-19, repeated 3 times over the term of 2 weeks. It integrates validated behavioural and perceptual measures, audio, video, and multimodal annotations, offering a valuable resource for studying and modelling conversational memory and group dynamics. By introducing the MeMo corpus, analysing its validity, and demonstrating its usefulness for future research, this paper aims to pave the way for future research in conversational memory modelling for intelligent system development. | 翻訳日:2024-11-07 05:46:28 公開日:2024-10-15 |
# 量子後暗号システムにおける格子型脆弱性
Lattice-Based Vulnerabilities in Lee Metric Post-Quantum Cryptosystems ( http://arxiv.org/abs/2409.16018v2 ) ライセンス: Link先を確認 | Anna-Lena Horlemann, Karan Khathuria, Marc Newman, Amin Sakzad, Carlos Vela Cabello, | (参考訳) 量子コンピューティングに直面したセキュアな暗号システムの必要性から、量子後暗号は注目されている。
コードベースと格子ベースの暗号は2つの重要なアプローチであり、どちらもNIST標準化プロジェクトの中で大きく研究されている。
コードベースの暗号(McEliece暗号システムで最も顕著に例示されている)は、ランダムな線形エラー訂正符号を復号することの難しさに基づいている。
数十年にわたってMcEliece暗号は解読されていないが、大きな鍵サイズに悩まされ、リー測度のようなハミング測度よりもメトリクスを使った変種を探索した。
この代替指標はキーサイズを小さくすることができるが、格子ベースの攻撃手法の潜在的な脆弱性についてさらなる分析を必要とする。
本稿では,ジェネリックリー計量に基づくMcEliece型暗号システムについて検討し,格子攻撃に対するセキュリティ評価を行う。
Post-quantum cryptography has gained attention due to the need for secure cryptographic systems in the face of quantum computing. Code-based and lattice-based cryptography are two prominent approaches, both heavily studied within the NIST standardization project. Code-based cryptography -- most prominently exemplified by the McEliece cryptosystem -- is based on the hardness of decoding random linear error-correcting codes. Despite the McEliece cryptosystem having been unbroken for several decades, it suffers from large key sizes, which has led to exploring variants using metrics than the Hamming metric, such as the Lee metric. This alternative metric may allow for smaller key sizes, but requires further analysis for potential vulnerabilities to lattice-based attack techniques. In this paper, we consider a generic Lee metric based McEliece type cryptosystem and evaluate its security against lattice-based attacks. | 翻訳日:2024-11-06 18:04:33 公開日:2024-10-15 |
# イベントベースの不規則時系列自動符号化
EMIT- Event-Based Masked Auto Encoding for Irregular Time Series ( http://arxiv.org/abs/2409.16554v2 ) ライセンス: Link先を確認 | Hrishikesh Patel, Ruihong Qiu, Adam Irwin, Shazia Sadiq, Sen Wang, | (参考訳) データポイントが不均一な間隔で記録される不規則な時系列は、救急病棟など、様々な時間でバイタルサインや検査結果が取得される医療現場で一般的である。
この変動は、患者の健康の重大な変動を反映し、情報的臨床的意思決定に不可欠である。
既存の不規則時系列に関する自己教師付き学習研究は、しばしば予測のような一般的な前提課題に依存し、不規則時系列によって提供される信号を完全に活用しない。
特にデータ可用性に制限のあるシナリオにおいて、モデル性能とロバスト性を高めるために不規則な時系列の特徴のために設計された特別なプレテキストタスクが必要である。
本稿では,不規則な時系列に対するイベントベースのマスキングである,新しい事前学習フレームワーク EMIT を提案する。
EMITは、潜在空間におけるマスキングに基づく再構築に焦点を当て、データの変化率に基づいてマスキングポイントを選択する。
本手法は,本質的な情報を失うことなく不規則区間の処理能力を高めながら,自然変動と測定のタイミングを保存する。
MIMIC-IIIとPhystoNet Challengeデータセットの大規模な実験は、私たちのイベントベースのマスキング戦略の優れたパフォーマンスを示している。
コードはhttps://github.com/hrishi-ds/EMITでリリースされた。
Irregular time series, where data points are recorded at uneven intervals, are prevalent in healthcare settings, such as emergency wards where vital signs and laboratory results are captured at varying times. This variability, which reflects critical fluctuations in patient health, is essential for informed clinical decision-making. Existing self-supervised learning research on irregular time series often relies on generic pretext tasks like forecasting, which may not fully utilise the signal provided by irregular time series. There is a significant need for specialised pretext tasks designed for the characteristics of irregular time series to enhance model performance and robustness, especially in scenarios with limited data availability. This paper proposes a novel pretraining framework, EMIT, an event-based masking for irregular time series. EMIT focuses on masking-based reconstruction in the latent space, selecting masking points based on the rate of change in the data. This method preserves the natural variability and timing of measurements while enhancing the model's ability to process irregular intervals without losing essential information. Extensive experiments on the MIMIC-III and PhysioNet Challenge datasets demonstrate the superior performance of our event-based masking strategy. The code has been released at https://github.com/hrishi-ds/EMIT. | 翻訳日:2024-11-06 17:30:16 公開日:2024-10-15 |
# イマジネーションによるキャラクター中心の創造的ストーリー生成
A Character-Centric Creative Story Generation via Imagination ( http://arxiv.org/abs/2409.16667v2 ) ライセンス: Link先を確認 | Kyeongman Park, Minbeom Kim, Kyomin Jung, | (参考訳) 創造的なストーリー生成は、長い間NLP研究の目標でした。
既存の方法論は、長く一貫性のある物語を生み出すことを目的としているが、多様性とキャラクターの深さの点で、人間の能力にはかなり劣っている。
そこで我々はCCI(Character-centric Creative Story Generation via Imagination)と呼ばれる新しいストーリー生成フレームワークを紹介した。
CCIはクリエイティブなストーリー生成のための2つのモジュール、IG(Image-Guided Imagination)とMW(Multi-Writer model)を備えている。
IGモジュールでは,文字や背景,メインプロットといった重要なストーリー要素の視覚的表現を,テキストのみのアプローチよりも斬新で具体的手法で生成する。
MWモジュールはこれらのストーリー要素を使用して複数のペルソナ記述候補を生成し、ストーリーに挿入する最適なストーリーを選択することにより、物語の豊かさと深さを高める。
我々は,CCIとベースラインモデルによって生成された物語を,統計解析および人間とLLMの評価によって比較した。
その結果,IGモジュールとMWモジュールはストーリーの創造性を著しく改善した。
さらに,ユーザとの対話型マルチモーダルストーリー生成を実現することで,文化開発における人間-LLM統合の新たな可能性を開く。
プロジェクトページ:https://www.2024cci.p-e.kr/
Creative story generation has long been a goal of NLP research. While existing methodologies have aimed to generate long and coherent stories, they fall significantly short of human capabilities in terms of diversity and character depth. To address this, we introduce a novel story generation framework called CCI (Character-centric Creative story generation via Imagination). CCI features two modules for creative story generation: IG (Image-Guided Imagination) and MW (Multi-Writer model). In the IG module, we utilize a text-to-image model to create visual representations of key story elements, such as characters, backgrounds, and main plots, in a more novel and concrete manner than text-only approaches. The MW module uses these story elements to generate multiple persona-description candidates and selects the best one to insert into the story, thereby enhancing the richness and depth of the narrative. We compared the stories generated by CCI and baseline models through statistical analysis, as well as human and LLM evaluations. The results showed that the IG and MW modules significantly improve various aspects of the stories' creativity. Furthermore, our framework enables interactive multi-modal story generation with users, opening up new possibilities for human-LLM integration in cultural development. Project page : https://www.2024cci.p-e.kr/ | 翻訳日:2024-11-06 17:20:02 公開日:2024-10-15 |
# 三点マスキング
Triple Point Masking ( http://arxiv.org/abs/2409.17547v2 ) ライセンス: Link先を確認 | Jiaming Liu, Linghe Kong, Yue Wu, Maoguo Gong, Hao Li, Qiguang Miao, Wenping Ma, Can Qin, | (参考訳) 既存の3Dマスク学習手法では,データ制限下での性能ボトルネックに遭遇し,その限界を克服することが目的である。
本稿では,3次元点雲のマルチマスク学習を実現するために,マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして,TPMという3点マスキング方式を提案する。
具体的には,2つのマスク選択(中型マスクと低型マスク)でベースラインを増強する。
従来のハイマスキング方式は、グローバルな表現を捉えることに重点を置いていたが、微細な回復能力が欠如しているため、生成された事前学習重量は微調整プロセスにおいて限られた役割を果たす傾向にある。
提案したTPMのサポートにより、利用可能なメソッドはより柔軟で正確な補完能力を示し、事前学習段階における潜在的なオートエンコーダが単一の3Dオブジェクトの複数の表現を考慮できる。
さらに、SVM誘導重み選択モジュールは、微調整段階において、ダウンストリームネットワークのエンコーダパラメータを最適な重みで満たし、線形精度を最大化し、新しいオブジェクトの複雑な表現の取得を容易にする。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
私たちのコードとモデルはhttps://github.com/liujia99/TPMで公開されています。
Existing 3D mask learning methods encounter performance bottlenecks under limited data, and our objective is to overcome this limitation. In this paper, we introduce a triple point masking scheme, named TPM, which serves as a scalable framework for pre-training of masked autoencoders to achieve multi-mask learning for 3D point clouds. Specifically, we augment the baselines with two additional mask choices (i.e., medium mask and low mask) as our core insight is that the recovery process of an object can manifest in diverse ways. Previous high-masking schemes focus on capturing the global representation but lack the fine-grained recovery capability, so that the generated pre-trained weights tend to play a limited role in the fine-tuning process. With the support of the proposed TPM, available methods can exhibit more flexible and accurate completion capabilities, enabling the potential autoencoder in the pre-training stage to consider multiple representations of a single 3D object. In addition, an SVM-guided weight selection module is proposed to fill the encoder parameters for downstream networks with the optimal weight during the fine-tuning stage, maximizing linear accuracy and facilitating the acquisition of intricate representations for new objects. Extensive experiments show that the four baselines equipped with the proposed TPM achieve comprehensive performance improvements on various downstream tasks. Our code and models are available at https://github.com/liujia99/TPM. | 翻訳日:2024-11-06 16:20:44 公開日:2024-10-15 |
# ホークスプロセスにおける共役ベイズ2段階変化点検出
Conjugate Bayesian Two-step Change Point Detection for Hawkes Process ( http://arxiv.org/abs/2409.17591v2 ) ライセンス: Link先を確認 | Zeyue Zhang, Xiaoling Lu, Feng Zhou, | (参考訳) ベイズ的2段階変化点検出法は,その単純さと直感性から,ホークス法で人気がある。
しかし、点過程の確率と先行との非共役性は、非共役推論法に依存するために既存のベイズ的2段階変化点検出方法のほとんどを必要とする。
これらの手法は解析的表現を欠き、計算効率の低下と時間的変化点検出の妨げとなる。
この問題に対処するために、この研究はデータ拡張を用いて、より正確かつ効率的なホークスプロセスのための共役ベイズ的2段階変化点検出法を提案する。
合成データと実データの両方に対する大規模な実験により,本手法の有効性と有効性を示した。
さらに,種々のハイパーパラメータに関する手法の頑健性を探るため,アブレーション研究を実施している。
私たちのコードはhttps://github.com/Aurora2050/CoBay-CPD.comで公開されています。
The Bayesian two-step change point detection method is popular for the Hawkes process due to its simplicity and intuitiveness. However, the non-conjugacy between the point process likelihood and the prior requires most existing Bayesian two-step change point detection methods to rely on non-conjugate inference methods. These methods lack analytical expressions, leading to low computational efficiency and impeding timely change point detection. To address this issue, this work employs data augmentation to propose a conjugate Bayesian two-step change point detection method for the Hawkes process, which proves to be more accurate and efficient. Extensive experiments on both synthetic and real data demonstrate the superior effectiveness and efficiency of our method compared to baseline methods. Additionally, we conduct ablation studies to explore the robustness of our method concerning various hyperparameters. Our code is publicly available at https://github.com/Aurora2050/CoBay-CPD. | 翻訳日:2024-11-06 16:10:55 公開日:2024-10-15 |
# ホークスプロセスにおける共役ベイズ2段階変化点検出
Conjugate Bayesian Two-step Change Point Detection for Hawkes Process ( http://arxiv.org/abs/2409.17591v3 ) ライセンス: Link先を確認 | Zeyue Zhang, Xiaoling Lu, Feng Zhou, | (参考訳) ベイズ的2段階変化点検出法は,その単純さと直感性から,ホークス法で人気がある。
しかし、点過程の確率と先行との非共役性は、非共役推論法に依存するために既存のベイズ的2段階変化点検出方法のほとんどを必要とする。
これらの手法は解析的表現を欠き、計算効率の低下と時間的変化点検出の妨げとなる。
この問題に対処するために、この研究はデータ拡張を用いて、より正確かつ効率的なホークスプロセスのための共役ベイズ的2段階変化点検出法を提案する。
合成データと実データの両方に対する大規模な実験により,本手法の有効性と有効性を示した。
さらに,種々のハイパーパラメータに関する手法の頑健性を探るため,アブレーション研究を実施している。
私たちのコードはhttps://github.com/Aurora2050/CoBay-CPD.comで公開されています。
The Bayesian two-step change point detection method is popular for the Hawkes process due to its simplicity and intuitiveness. However, the non-conjugacy between the point process likelihood and the prior requires most existing Bayesian two-step change point detection methods to rely on non-conjugate inference methods. These methods lack analytical expressions, leading to low computational efficiency and impeding timely change point detection. To address this issue, this work employs data augmentation to propose a conjugate Bayesian two-step change point detection method for the Hawkes process, which proves to be more accurate and efficient. Extensive experiments on both synthetic and real data demonstrate the superior effectiveness and efficiency of our method compared to baseline methods. Additionally, we conduct ablation studies to explore the robustness of our method concerning various hyperparameters. Our code is publicly available at https://github.com/Aurora2050/CoBay-CPD. | 翻訳日:2024-11-06 16:10:55 公開日:2024-10-15 |
# ホークスプロセスにおける共役ベイズ2段階変化点検出
Conjugate Bayesian Two-step Change Point Detection for Hawkes Process ( http://arxiv.org/abs/2409.17591v4 ) ライセンス: Link先を確認 | Zeyue Zhang, Xiaoling Lu, Feng Zhou, | (参考訳) ベイズ的2段階変化点検出法は,その単純さと直感性から,ホークス法で人気がある。
しかし、点過程の確率と先行との非共役性は、非共役推論法に依存するために既存のベイズ的2段階変化点検出方法のほとんどを必要とする。
これらの手法は解析的表現を欠き、計算効率の低下と時間的変化点検出の妨げとなる。
この問題に対処するために、この研究はデータ拡張を用いて、より正確かつ効率的なホークスプロセスのための共役ベイズ的2段階変化点検出法を提案する。
合成データと実データの両方に対する大規模な実験により,本手法の有効性と有効性を示した。
さらに,種々のハイパーパラメータに関する手法の頑健性を探るため,アブレーション研究を実施している。
私たちのコードはhttps://github.com/Aurora2050/CoBay-CPD.comで公開されています。
The Bayesian two-step change point detection method is popular for the Hawkes process due to its simplicity and intuitiveness. However, the non-conjugacy between the point process likelihood and the prior requires most existing Bayesian two-step change point detection methods to rely on non-conjugate inference methods. These methods lack analytical expressions, leading to low computational efficiency and impeding timely change point detection. To address this issue, this work employs data augmentation to propose a conjugate Bayesian two-step change point detection method for the Hawkes process, which proves to be more accurate and efficient. Extensive experiments on both synthetic and real data demonstrate the superior effectiveness and efficiency of our method compared to baseline methods. Additionally, we conduct ablation studies to explore the robustness of our method concerning various hyperparameters. Our code is publicly available at https://github.com/Aurora2050/CoBay-CPD. | 翻訳日:2024-11-06 16:10:55 公開日:2024-10-15 |
# CycleNet: 周期パターンのモデリングによる時系列予測の強化
CycleNet: Enhancing Time Series Forecasting through Modeling Periodic Patterns ( http://arxiv.org/abs/2409.18479v1 ) ライセンス: Link先を確認 | Shengsheng Lin, Weiwei Lin, Xinyi Hu, Wentai Wu, Ruichao Mo, Haocheng Zhong, | (参考訳) 時系列データに存在する安定した周期パターンは、長期の予測を行う基盤となる。
本稿では,長期連続予測(LTSF)タスクにおけるモデルの性能を高めるために,この周期性を明示的にモデル化することの先駆者となる。
具体的にはResidual Cycle Forecasting(RCF)技術を導入し、学習可能な繰り返しサイクルを用いてシーケンス内の固有周期パターンをモデル化し、モデル化されたサイクルの残留成分の予測を行う。
RCF を線形層や浅層 MLP と組み合わせることで,CycleNet と呼ばれる単純かつ強力な手法が提案される。
CycleNetは、電気、天気、エネルギーを含む複数の領域で最先端の予測精度を実現し、必要なパラメータ量の90%以上を削減し、大幅な効率性を提供する。
さらに、新しいプラグアンドプレイ技術として、RCFはPatchTSTやiTransformerといった既存のモデルの予測精度を大幅に向上させることができる。
ソースコードは、https://github.com/ACAT-SCUT/CycleNet.comで入手できる。
The stable periodic patterns present in time series data serve as the foundation for conducting long-horizon forecasts. In this paper, we pioneer the exploration of explicitly modeling this periodicity to enhance the performance of models in long-term time series forecasting (LTSF) tasks. Specifically, we introduce the Residual Cycle Forecasting (RCF) technique, which utilizes learnable recurrent cycles to model the inherent periodic patterns within sequences, and then performs predictions on the residual components of the modeled cycles. Combining RCF with a Linear layer or a shallow MLP forms the simple yet powerful method proposed in this paper, called CycleNet. CycleNet achieves state-of-the-art prediction accuracy in multiple domains including electricity, weather, and energy, while offering significant efficiency advantages by reducing over 90% of the required parameter quantity. Furthermore, as a novel plug-and-play technique, the RCF can also significantly improve the prediction accuracy of existing models, including PatchTST and iTransformer. The source code is available at: https://github.com/ACAT-SCUT/CycleNet. | 翻訳日:2024-11-06 06:02:07 公開日:2024-10-15 |
# CycleNet: 周期パターンのモデリングによる時系列予測の強化
CycleNet: Enhancing Time Series Forecasting through Modeling Periodic Patterns ( http://arxiv.org/abs/2409.18479v2 ) ライセンス: Link先を確認 | Shengsheng Lin, Weiwei Lin, Xinyi Hu, Wentai Wu, Ruichao Mo, Haocheng Zhong, | (参考訳) 時系列データに存在する安定した周期パターンは、長期の予測を行う基盤となる。
本稿では,長期連続予測(LTSF)タスクにおけるモデルの性能を高めるために,この周期性を明示的にモデル化することの先駆者となる。
具体的にはResidual Cycle Forecasting(RCF)技術を導入し、学習可能な繰り返しサイクルを用いてシーケンス内の固有周期パターンをモデル化し、モデル化されたサイクルの残留成分の予測を行う。
RCF を線形層や浅層 MLP と組み合わせることで,CycleNet と呼ばれる単純かつ強力な手法が提案される。
CycleNetは、電気、天気、エネルギーを含む複数の領域で最先端の予測精度を実現し、必要なパラメータ量の90%以上を削減し、大幅な効率性を提供する。
さらに、新しいプラグアンドプレイ技術として、RCFはPatchTSTやiTransformerといった既存のモデルの予測精度を大幅に向上させることができる。
ソースコードは、https://github.com/ACAT-SCUT/CycleNet.comで入手できる。
The stable periodic patterns present in time series data serve as the foundation for conducting long-horizon forecasts. In this paper, we pioneer the exploration of explicitly modeling this periodicity to enhance the performance of models in long-term time series forecasting (LTSF) tasks. Specifically, we introduce the Residual Cycle Forecasting (RCF) technique, which utilizes learnable recurrent cycles to model the inherent periodic patterns within sequences, and then performs predictions on the residual components of the modeled cycles. Combining RCF with a Linear layer or a shallow MLP forms the simple yet powerful method proposed in this paper, called CycleNet. CycleNet achieves state-of-the-art prediction accuracy in multiple domains including electricity, weather, and energy, while offering significant efficiency advantages by reducing over 90% of the required parameter quantity. Furthermore, as a novel plug-and-play technique, the RCF can also significantly improve the prediction accuracy of existing models, including PatchTST and iTransformer. The source code is available at: https://github.com/ACAT-SCUT/CycleNet. | 翻訳日:2024-11-06 06:02:07 公開日:2024-10-15 |
# オープンエンド学習エージェントの普遍的・解釈可能な世界モデルに向けて
Toward Universal and Interpretable World Models for Open-ended Learning Agents ( http://arxiv.org/abs/2409.18676v2 ) ライセンス: Link先を確認 | Lancelot Da Costa, | (参考訳) オープンエンド学習エージェントをサポートするジェネリック,コンポジション,解釈可能な生成世界モデルについて紹介する。
これは、幅広い確率過程を近似できるベイズネットワークのスパースクラスであり、エージェントは解釈可能かつ計算にスケーラブルな方法で世界モデルを学ぶことができる。
このアプローチはベイズ構造学習と本質的な動機付け(モデルに基づく)計画を統合することで、エージェントが積極的に世界モデルを開発し、洗練することができ、それによって発達学習とより堅牢で適応的な行動につながる可能性がある。
We introduce a generic, compositional and interpretable class of generative world models that supports open-ended learning agents. This is a sparse class of Bayesian networks capable of approximating a broad range of stochastic processes, which provide agents with the ability to learn world models in a manner that may be both interpretable and computationally scalable. This approach integrating Bayesian structure learning and intrinsically motivated (model-based) planning enables agents to actively develop and refine their world models, which may lead to developmental learning and more robust, adaptive behavior. | 翻訳日:2024-11-06 05:42:34 公開日:2024-10-15 |
# DiaSynth - 合成対話生成フレームワーク
DiaSynth -- Synthetic Dialogue Generation Framework ( http://arxiv.org/abs/2409.19020v1 ) ライセンス: Link先を確認 | Sathya Krishnan Suresh, Wu Mengjun, Tushar Pranav, Eng Siong Chng, | (参考訳) 学術的な話題から日常的な会話に至るまで、ドメイン固有の対話データセットの不足は、様々なアプリケーションのための対話システムの開発を制限する。
既存の研究は、あまりにも一般的すぎる対話データセットや、スケールが対話システムの訓練に必要なスケールに合わないニッチなドメイン対話データセットによって制約されることが多い。
このギャップに対処するために、DiaSynthは、様々な領域にわたる高品質で文脈的にリッチな対話を生成することができる合成対話生成フレームワークである。
提案手法は従来のフレームワークと異なり,シミュレーションされたペルソナ,サブトピック,多様な会話特性を取り入れた対話を動的に生成し,思考の連鎖(CoT)推論を用いたLarge Language Model(LLM)を用いて,人間との対話を密接に模倣するコンテキスト的にリッチなドメイン固有対話を生成する。
DiaSynthは、リアルな会話をエミュレートするカスタマイズされた対話を生成する。
我々は,異なるLLMを用いて合成データを生成し,DialogSum とSAMSum を例に挙げて実験を行った。
事前訓練された言語モデルは、合成データに基づいて微調整され、ベースモデルは16.47%向上する一方、ドメイン内データと合成データに基づいて微調整されたモデルの比較は、合成データがドメイン内データの分布の90.48%を捉えることができることを示している。
生成されたデータの品質は、LLMのサイズとともにスケールする。
これらの結果はDiaSynthの従来のデータ収集手法の強力な代替としての可能性を検証する。
The scarcity of domain specific dialogue datasets across various domains, from academic topics to everyday conversations, limits the development of dialogue systems for various applications. Existing research is often constrained either by dialogue datasets that are too general or by niche domain dialogue datasets whose scale does not match the required scale for training dialogue systems. To address this gap, we introduce DiaSynth - a synthetic dialogue generation framework capable of generating high quality, contextually rich dialogues across a wide range of domains. Our approach differs from existing frameworks by dynamically generating dialogues that incorporate simulated personas, subtopics, and diverse conversational characteristics, using a Large Language Model (LLM) with Chain of Thought (CoT) reasoning to create contextually rich, domain-specific dialogues that closely mimic natural human interactions. DiaSynth produces tailored dialogues that emulate realistic conversations. We perform our experiments by generating synthetic data using different LLMs and few-shot examples from DialogSum and SAMSum. The pretrained language models fine-tuned on the synthetic data outperform the base models by 16.47%, while the comparison between models fine-tuned on in-domain data and synthetic data shows that the synthetic data is able to capture 90.48% of the distribution of the in-domain data. The quality of the data generated also scales with the size of LLMs. These results validate DiaSynth's potential as a robust alternative to traditional data collection methods. | 翻訳日:2024-11-06 04:50:50 公開日:2024-10-15 |
# DiaSynth:低リソース対話アプリケーションのための合成対話生成フレームワーク
DiaSynth: Synthetic Dialogue Generation Framework for Low Resource Dialogue Applications ( http://arxiv.org/abs/2409.19020v2 ) ライセンス: Link先を確認 | Sathya Krishnan Suresh, Wu Mengjun, Tushar Pranav, Eng Siong Chng, | (参考訳) ドメイン固有の対話データセットの不足により、アプリケーション間の対話システムの開発が制限される。
既存の研究は、対話システムの訓練に十分なスケールが欠けている一般またはニッチなデータセットによって制約されている。
このギャップに対処するために、DiaSynthは、様々な領域にわたる高品質で文脈的にリッチな対話を生成することができる合成対話生成フレームワークである。
既存のフレームワークとは異なり、DiaSynthはLarge Language Models(LLM)とChain of Thought(CoT)の推論を使用して、シミュレーションされたペルソナと多様な会話機能を備えた動的でドメイン固有の対話を生成する。
我々は,異なるLLMを用いて合成データを生成し,DialogSum とSAMSum を例に挙げて実験を行った。
事前訓練された言語モデルは、対話要約において、ベースモデルよりも16.47%優れ、一方、ドメイン内データと合成データに基づいて微調整されたモデルの比較は、対話要約に基づいて、ドメイン内データのパフォーマンス分布の90.48%を捉えることができることを示している。
また, LLMのサイズが3Bから8Bに大きくなるにつれて, 生成データの品質も向上した。
これらの結果はDiaSynthの従来のデータ収集手法の強力な代替としての可能性を検証する。
将来の研究のために生成されたコードとデータをオープンソースにしています。
The scarcity of domain-specific dialogue datasets limits the development of dialogue systems across applications. Existing research is constrained by general or niche datasets that lack sufficient scale for training dialogue systems. To address this gap, we introduce DiaSynth - a synthetic dialogue generation framework capable of generating high-quality, contextually rich dialogues across a wide range of domains. Unlike existing frameworks, DiaSynth uses Large Language Models (LLMs) and Chain of Thought (CoT) reasoning to generate dynamic, domain-specific dialogues with simulated personas and diverse conversational features. We perform our experiments by generating synthetic data using different LLMs and few-shot examples from DialogSum and SAMSum. The pretrained language models fine-tuned on the synthetic data outperform the base models by 16.47% on dialogue summarization, while the comparison between models fine-tuned on in-domain data and synthetic data shows that the synthetic data is able to capture 90.48% of the performance distribution of the in-domain data on dialogue summarization. The quality of the data generated also increases as we increase the size of LLM from 3B to 8B. These results validate DiaSynth's potential as a robust alternative to traditional data collection methods. We open source the code and data generated for future research. | 翻訳日:2024-11-06 04:50:50 公開日:2024-10-15 |
# 超流動の分子的性質:実軌道上の量子確率分子動力学シミュレーションによるヘリウムの粘性
The molecular nature of superfluidity: Viscosity of helium from quantum stochastic molecular dynamics simulations over real trajectories ( http://arxiv.org/abs/2409.19036v1 ) ライセンス: Link先を確認 | Phil Attard, | (参考訳) 相互作用するボソンの運動方程式を用いて、レナード・ジョーンズヘリウム4に対して量子モータを用いた確率分子動力学シミュレーションを行う。
量子液体の粘度は古典液体の粘度よりも著しく小さく、最も低い温度でほぼ5倍小さい。
古典と量子の液体はボース=アインシュタイン凝縮を除いて同一であり、超流動性の分子機構を示唆している。
結果は確率的だが実際の粒子軌道の存在に依存しており、量子力学の解釈に影響を及ぼす。
Using quantum equations of motion for interacting bosons, stochastic molecular dynamics simulations with quantized momenta are performed for Lennard-Jones helium-4. The viscosity of the quantum liquid is significantly less than that of the classical liquid, being almost 5 times smaller at the lowest temperature studied. The classical and quantum liquids are identical except for Bose-Einstein condensation, which pinpoints the molecular mechanism for superfluidity. The results rely on the existence of stochastic but real particle trajectories, which has implications for the interpretation of quantum mechanics. | 翻訳日:2024-11-06 04:40:55 公開日:2024-10-15 |
# 超流動の分子的性質:実軌道上の量子確率分子動力学シミュレーションによるヘリウムの粘性
The molecular nature of superfluidity: Viscosity of helium from quantum stochastic molecular dynamics simulations over real trajectories ( http://arxiv.org/abs/2409.19036v2 ) ライセンス: Link先を確認 | Phil Attard, | (参考訳) 相互作用するボソンの運動方程式を用いて、レナード・ジョーンズヘリウム4に対して量子モータを用いた確率分子動力学シミュレーションを行う。
量子液体の粘度は古典液体の粘度よりも著しく小さく、最も低い温度でほぼ5倍小さい。
古典と量子の液体はボース=アインシュタイン凝縮を除いて同一であり、超流動性の分子機構を示唆している。
結果は確率的だが実際の粒子軌道の存在に依存しており、量子力学の解釈に影響を及ぼす。
Using quantum equations of motion for interacting bosons, stochastic molecular dynamics simulations with quantized momenta are performed for Lennard-Jones helium-4. The viscosity of the quantum liquid is significantly less than that of the classical liquid, being almost 5 times smaller at the lowest temperature studied. The classical and quantum liquids are identical except for Bose-Einstein condensation, which pinpoints the molecular mechanism for superfluidity. The results rely on the existence of stochastic but real particle trajectories, which has implications for the interpretation of quantum mechanics. | 翻訳日:2024-11-06 04:40:55 公開日:2024-10-15 |
# SciDoc2Diagrammer-MAF:マルチアスペクトフィードバックリファインメントによる文書からの科学的ダイアグラムの生成に向けて
SciDoc2Diagrammer-MAF: Towards Generation of Scientific Diagrams from Documents guided by Multi-Aspect Feedback Refinement ( http://arxiv.org/abs/2409.19242v1 ) ライセンス: Link先を確認 | Ishani Mondal, Zongxia Li, Yufang Hou, Anandhavelu Natarajan, Aparna Garimella, Jordan Boyd-Graber, | (参考訳) 学術論文から科学図を作成することを自動化することは、チュートリアル、プレゼンテーション、ポスターの開発を大幅に効率化し、時間を節約し、プロセスを加速させることができる。
現在のテキスト・ツー・イメージモデルは、長いコンテキスト入力から正確で視覚的に魅力的な図を生成するのに苦労している。
本稿では,SciDoc2Diagramを提案する。SciDoc2DiagramBenchとともに,学術論文から関連情報を抽出し,図を生成するタスクである。
中間コード生成を用いたユーザ意図に基づいたダイアグラムを生成するマルチステップパイプラインSciDoc2Diagrammerを開発した。
我々は,初期図の草案が情報源に不完全あるいは不完全であることから,事実の正しさと視覚的魅力を著しく向上し,既存モデルを自動判断と人的判断の両方で優れる改良戦略であるSciDoc2Diagrammer-Multi-Aspect-Feedback(MAF)を開発した。
Automating the creation of scientific diagrams from academic papers can significantly streamline the development of tutorials, presentations, and posters, thereby saving time and accelerating the process. Current text-to-image models struggle with generating accurate and visually appealing diagrams from long-context inputs. We propose SciDoc2Diagram, a task that extracts relevant information from scientific papers and generates diagrams, along with a benchmarking dataset, SciDoc2DiagramBench. We develop a multi-step pipeline SciDoc2Diagrammer that generates diagrams based on user intentions using intermediate code generation. We observed that initial diagram drafts were often incomplete or unfaithful to the source, leading us to develop SciDoc2Diagrammer-Multi-Aspect-Feedback (MAF), a refinement strategy that significantly enhances factual correctness and visual appeal and outperforms existing models on both automatic and human judgement. | 翻訳日:2024-11-06 00:18:22 公開日:2024-10-15 |
# SciDoc2Diagrammer-MAF:マルチアスペクトフィードバックリファインメントによる文書からの科学的ダイアグラムの生成に向けて
SciDoc2Diagrammer-MAF: Towards Generation of Scientific Diagrams from Documents guided by Multi-Aspect Feedback Refinement ( http://arxiv.org/abs/2409.19242v2 ) ライセンス: Link先を確認 | Ishani Mondal, Zongxia Li, Yufang Hou, Anandhavelu Natarajan, Aparna Garimella, Jordan Boyd-Graber, | (参考訳) 学術論文から科学図を作成することを自動化することは、チュートリアル、プレゼンテーション、ポスターの開発を大幅に効率化し、時間を節約し、プロセスを加速させることができる。
現在のテキスト・ツー・イメージモデルは、長いコンテキスト入力から正確で視覚的に魅力的な図を生成するのに苦労している。
本稿では,SciDoc2Diagramを提案する。SciDoc2DiagramBenchとともに,学術論文から関連情報を抽出し,図を生成するタスクである。
中間コード生成を用いたユーザ意図に基づいたダイアグラムを生成するマルチステップパイプラインSciDoc2Diagrammerを開発した。
我々は,初期図の草案が情報源に不完全あるいは不完全であることから,事実の正しさと視覚的魅力を著しく向上し,既存モデルを自動判断と人的判断の両方で優れる改良戦略であるSciDoc2Diagrammer-Multi-Aspect-Feedback(MAF)を開発した。
Automating the creation of scientific diagrams from academic papers can significantly streamline the development of tutorials, presentations, and posters, thereby saving time and accelerating the process. Current text-to-image models struggle with generating accurate and visually appealing diagrams from long-context inputs. We propose SciDoc2Diagram, a task that extracts relevant information from scientific papers and generates diagrams, along with a benchmarking dataset, SciDoc2DiagramBench. We develop a multi-step pipeline SciDoc2Diagrammer that generates diagrams based on user intentions using intermediate code generation. We observed that initial diagram drafts were often incomplete or unfaithful to the source, leading us to develop SciDoc2Diagrammer-Multi-Aspect-Feedback (MAF), a refinement strategy that significantly enhances factual correctness and visual appeal and outperforms existing models on both automatic and human judgement. | 翻訳日:2024-11-06 00:18:22 公開日:2024-10-15 |
# 暗黙の映像表現のための高速符号化と復号化
Fast Encoding and Decoding for Implicit Video Representation ( http://arxiv.org/abs/2409.19429v1 ) ライセンス: Link先を確認 | Hao Chen, Saining Xie, Ser-Nam Lim, Abhinav Shrivastava, | (参考訳) ビデオデータの可用性とコンテンツ豊かさにもかかわらず、その高次元性はビデオ研究の課題となっている。
最近の進歩は、ニューラルネットワークを用いたビデオの暗黙の表現を探求し、ビデオ圧縮やエンハンスメントのようなアプリケーションで強力なパフォーマンスを示している。
しかし、エンコーディング時間が長くなることは、ビデオインプリシットニューラル表現(INR)にとって永続的な課題である。
本稿では,暗黙的表現におけるビデオ符号化と復号化の高速化に焦点をあてる。
高速エンコーディングのためのトランスフォーマーベースのハイパーネットワークであるNeRV-Encと、効率的なビデオローディングのための並列デコーダであるNeRV-Decの2つの重要なコンポーネントを紹介する。
NeRV-Encは勾配に基づく最適化をなくし、$\mathbf{10^4\times}$という驚くべきスピードアップを達成する。
一方、NeRV-Decはビデオデコーディングを単純化し、ロード速度$\mathbf{11\times}$より高速で従来のコーデックを上回り、プリデコードされたビデオ$\mathbf{2.5\times}$より高速で、$\mathbf{65\times}$より小さいサイズでRAMローディングを上回ります。
Despite the abundant availability and content richness for video data, its high-dimensionality poses challenges for video research. Recent advancements have explored the implicit representation for videos using neural networks, demonstrating strong performance in applications such as video compression and enhancement. However, the prolonged encoding time remains a persistent challenge for video Implicit Neural Representations (INRs). In this paper, we focus on improving the speed of video encoding and decoding within implicit representations. We introduce two key components: NeRV-Enc, a transformer-based hyper-network for fast encoding; and NeRV-Dec, a parallel decoder for efficient video loading. NeRV-Enc achieves an impressive speed-up of $\mathbf{10^4\times}$ by eliminating gradient-based optimization. Meanwhile, NeRV-Dec simplifies video decoding, outperforming conventional codecs with a loading speed $\mathbf{11\times}$ faster, and surpassing RAM loading with pre-decoded videos ($\mathbf{2.5\times}$ faster while being $\mathbf{65\times}$ smaller in size). | 翻訳日:2024-11-05 23:29:10 公開日:2024-10-15 |
# 暗黙の映像表現のための高速符号化と復号化
Fast Encoding and Decoding for Implicit Video Representation ( http://arxiv.org/abs/2409.19429v2 ) ライセンス: Link先を確認 | Hao Chen, Saining Xie, Ser-Nam Lim, Abhinav Shrivastava, | (参考訳) ビデオデータの可用性とコンテンツ豊かさにもかかわらず、その高次元性はビデオ研究の課題となっている。
最近の進歩は、ニューラルネットワークを用いたビデオの暗黙の表現を探求し、ビデオ圧縮やエンハンスメントのようなアプリケーションで強力なパフォーマンスを示している。
しかし、エンコーディング時間が長くなることは、ビデオインプリシットニューラル表現(INR)にとって永続的な課題である。
本稿では,暗黙的表現におけるビデオ符号化と復号化の高速化に焦点をあてる。
高速エンコーディングのためのトランスフォーマーベースのハイパーネットワークであるNeRV-Encと、効率的なビデオローディングのための並列デコーダであるNeRV-Decの2つの重要なコンポーネントを紹介する。
NeRV-Encは勾配に基づく最適化をなくし、$\mathbf{10^4\times}$という驚くべきスピードアップを達成する。
一方、NeRV-Decはビデオデコーディングを単純化し、ロード速度$\mathbf{11\times}$より高速で従来のコーデックを上回り、プリデコードされたビデオ$\mathbf{2.5\times}$より高速で、$\mathbf{65\times}$より小さいサイズでRAMローディングを上回ります。
Despite the abundant availability and content richness for video data, its high-dimensionality poses challenges for video research. Recent advancements have explored the implicit representation for videos using neural networks, demonstrating strong performance in applications such as video compression and enhancement. However, the prolonged encoding time remains a persistent challenge for video Implicit Neural Representations (INRs). In this paper, we focus on improving the speed of video encoding and decoding within implicit representations. We introduce two key components: NeRV-Enc, a transformer-based hyper-network for fast encoding; and NeRV-Dec, a parallel decoder for efficient video loading. NeRV-Enc achieves an impressive speed-up of $\mathbf{10^4\times}$ by eliminating gradient-based optimization. Meanwhile, NeRV-Dec simplifies video decoding, outperforming conventional codecs with a loading speed $\mathbf{11\times}$ faster, and surpassing RAM loading with pre-decoded videos ($\mathbf{2.5\times}$ faster while being $\mathbf{65\times}$ smaller in size). | 翻訳日:2024-11-05 23:29:10 公開日:2024-10-15 |
# 十分で必要な説明(そしてその中間にあるもの)
Sufficient and Necessary Explanations (and What Lies in Between) ( http://arxiv.org/abs/2409.20427v2 ) ライセンス: Link先を確認 | Beepul Bharti, Paul Yi, Jeremias Sulam, | (参考訳) 複雑な機械学習モデルは、高い意思決定シナリオにおけるアプリケーションを見つけ続けるため、これらの予測を説明し、理解することが不可欠である。
ポストホックな説明法は、入力 $\mathbf{x}$ の重要な特徴をモデル出力 $f(\mathbf{x})$ に関して識別することで有用な洞察を提供する。
本研究では,汎用機械学習モデルにおける特徴重要度という2つの正確な概念を定式化し,研究する。
これらの2つのタイプの説明(直感的かつ単純ではあるが)は、モデルが重要とみなす特徴の完全なイメージを提供するのに不足する可能性があることを実証する。
そこで本研究では,必要十分軸に沿って連続体を探索することによって,これらの制約を回避することの重要性の統一概念を提案する。
私たちの統一概念は、条件付き独立やShapley値のようなゲーム理論量に基づくものなど、他の一般的な機能の重要性の定義と強く結びついています。
重要なことは、統合された視点が、以前のアプローチだけで見逃される可能性のある重要な特徴をどうやって検出できるかを実証する。
As complex machine learning models continue to find applications in high-stakes decision-making scenarios, it is crucial that we can explain and understand their predictions. Post-hoc explanation methods provide useful insights by identifying important features in an input $\mathbf{x}$ with respect to the model output $f(\mathbf{x})$. In this work, we formalize and study two precise notions of feature importance for general machine learning models: sufficiency and necessity. We demonstrate how these two types of explanations, albeit intuitive and simple, can fall short in providing a complete picture of which features a model finds important. To this end, we propose a unified notion of importance that circumvents these limitations by exploring a continuum along a necessity-sufficiency axis. Our unified notion, we show, has strong ties to other popular definitions of feature importance, like those based on conditional independence and game-theoretic quantities like Shapley values. Crucially, we demonstrate how a unified perspective allows us to detect important features that could be missed by either of the previous approaches alone. | 翻訳日:2024-11-05 15:48:47 公開日:2024-10-15 |
# STGformer: トラフィック予測のための効率的な時空間グラフ変換器
STGformer: Efficient Spatiotemporal Graph Transformer for Traffic Forecasting ( http://arxiv.org/abs/2410.00385v1 ) ライセンス: Link先を確認 | Hongjun Wang, Jiyuan Chen, Tong Pan, Zheng Dong, Lingyu Zhang, Renhe Jiang, Xuan Song, | (参考訳) 交通予測はスマートシティマネジメントの基盤であり、効率的な資源配分と交通計画を可能にしている。
深層学習は、時空間(ST)データで複雑な非線形パターンをキャプチャする能力を持ち、交通予測の強力なツールとして登場した。
グラフニューラルネットワーク(GCN)とトランスフォーマーベースのモデルは将来性を示しているが、その計算要求はしばしば現実の道路ネットワーク、特に大規模な時空間相互作用を持つものへの応用を妨げる。
これらの課題に対処するために,新しい時空間グラフ変換器(STGformer)アーキテクチャを提案する。
STGformerはGCNとTransformerの強度を効果的にバランスさせ、管理可能な計算フットプリントを維持しながら、グローバルとローカルの両方のトラフィックパターンの効率的なモデリングを可能にする。
複数の注意層を必要とする従来のアプローチとは異なり、STGアテンションブロックは1層の高次時空間相互作用を捕捉し、計算コストを大幅に削減する。
特にSTGformerは、カリフォルニアの道路グラフ上の8600のセンサーによるバッチ推論において、STAEformerと比較して、100倍のスピードアップと99.8倍のGPUメモリ使用率の削減を実現している。
我々は,STGformerをLargeSTベンチマーク上で評価し,既存の手法の計算およびメモリ制限を克服し,STGformerがトラヒック予測に革命をもたらす可能性を示すPDFormerやSTAEformerのような最先端のTransformerベースの手法よりも優れていることを示す。
Traffic forecasting is a cornerstone of smart city management, enabling efficient resource allocation and transportation planning. Deep learning, with its ability to capture complex nonlinear patterns in spatiotemporal (ST) data, has emerged as a powerful tool for traffic forecasting. While graph neural networks (GCNs) and transformer-based models have shown promise, their computational demands often hinder their application to real-world road networks, particularly those with large-scale spatiotemporal interactions. To address these challenges, we propose a novel spatiotemporal graph transformer (STGformer) architecture. STGformer effectively balances the strengths of GCNs and Transformers, enabling efficient modeling of both global and local traffic patterns while maintaining a manageable computational footprint. Unlike traditional approaches that require multiple attention layers, STG attention block captures high-order spatiotemporal interactions in a single layer, significantly reducing computational cost. In particular, STGformer achieves a 100x speedup and a 99.8\% reduction in GPU memory usage compared to STAEformer during batch inference on a California road graph with 8,600 sensors. We evaluate STGformer on the LargeST benchmark and demonstrate its superiority over state-of-the-art Transformer-based methods such as PDFormer and STAEformer, which underline STGformer's potential to revolutionize traffic forecasting by overcoming the computational and memory limitations of existing approaches, making it a promising foundation for future spatiotemporal modeling tasks. | 翻訳日:2024-11-05 05:56:31 公開日:2024-10-15 |
# STGformer: トラフィック予測のための効率的な時空間グラフ変換器
STGformer: Efficient Spatiotemporal Graph Transformer for Traffic Forecasting ( http://arxiv.org/abs/2410.00385v2 ) ライセンス: Link先を確認 | Hongjun Wang, Jiyuan Chen, Tong Pan, Zheng Dong, Lingyu Zhang, Renhe Jiang, Xuan Song, | (参考訳) 交通予測はスマートシティマネジメントの基盤であり、効率的な資源配分と交通計画を可能にしている。
深層学習は、時空間(ST)データで複雑な非線形パターンをキャプチャする能力を持ち、交通予測の強力なツールとして登場した。
グラフニューラルネットワーク(GCN)とトランスフォーマーベースのモデルは将来性を示しているが、その計算要求はしばしば現実の道路ネットワーク、特に大規模な時空間相互作用を持つものへの応用を妨げる。
これらの課題に対処するために,新しい時空間グラフ変換器(STGformer)アーキテクチャを提案する。
STGformerはGCNとTransformerの強度を効果的にバランスさせ、管理可能な計算フットプリントを維持しながら、グローバルとローカルの両方のトラフィックパターンの効率的なモデリングを可能にする。
複数の注意層を必要とする従来のアプローチとは異なり、STGアテンションブロックは1層の高次時空間相互作用を捕捉し、計算コストを大幅に削減する。
特にSTGformerは、カリフォルニアの道路グラフ上の8600のセンサーによるバッチ推論において、STAEformerと比較して、100倍のスピードアップと99.8倍のGPUメモリ使用率の削減を実現している。
我々は,STGformerをLargeSTベンチマーク上で評価し,既存の手法の計算およびメモリ制限を克服し,STGformerがトラヒック予測に革命をもたらす可能性を示すPDFormerやSTAEformerのような最先端のTransformerベースの手法よりも優れていることを示す。
Traffic forecasting is a cornerstone of smart city management, enabling efficient resource allocation and transportation planning. Deep learning, with its ability to capture complex nonlinear patterns in spatiotemporal (ST) data, has emerged as a powerful tool for traffic forecasting. While graph neural networks (GCNs) and transformer-based models have shown promise, their computational demands often hinder their application to real-world road networks, particularly those with large-scale spatiotemporal interactions. To address these challenges, we propose a novel spatiotemporal graph transformer (STGformer) architecture. STGformer effectively balances the strengths of GCNs and Transformers, enabling efficient modeling of both global and local traffic patterns while maintaining a manageable computational footprint. Unlike traditional approaches that require multiple attention layers, STG attention block captures high-order spatiotemporal interactions in a single layer, significantly reducing computational cost. In particular, STGformer achieves a 100x speedup and a 99.8\% reduction in GPU memory usage compared to STAEformer during batch inference on a California road graph with 8,600 sensors. We evaluate STGformer on the LargeST benchmark and demonstrate its superiority over state-of-the-art Transformer-based methods such as PDFormer and STAEformer, which underline STGformer's potential to revolutionize traffic forecasting by overcoming the computational and memory limitations of existing approaches, making it a promising foundation for future spatiotemporal modeling tasks. | 翻訳日:2024-11-05 05:56:31 公開日:2024-10-15 |
# 統計的テイラー展開
Statistical Taylor Expansion ( http://arxiv.org/abs/2410.01223v1 ) ライセンス: Link先を確認 | Chengpu Wang, | (参考訳) 統計的テイラー展開は、従来のテイラー展開における入力された正確な変数を、既知平均と偏差を持つ確率変数に置き換え、結果平均と偏差を計算する。
それぞれの入力変数は、それぞれの不確かさが互いに独立であるように、十分な統計的精度で独立に測定される。
統計的テイラー展開は、中間解析式はもはや互いに独立とはみなされず、解析式の結果は経路独立であるべきだと再考する。
この結論は、結果の最良の実行経路を見つけるための応用数学における従来の一般的なアプローチと根本的に異なる。
本稿では、分散算術と呼ばれる統計テイラー展開の実装と分散算術に関する試験について述べる。
Statistical Taylor expansion replaces the input precise variables in a conventional Taylor expansion with random variables each with known mean and deviation, to calculate the result mean and deviation. It is based on the uncorrelated uncertainty assumption: Each input variable is measured independently with fine enough statistical precision, so that their uncertainties are independent of each other. Statistical Taylor expansion reviews that the intermediate analytic expressions can no longer be regarded as independent of each other, and the result of analytic expression should be path independent. This conclusion differs fundamentally from the conventional common approach in applied mathematics to find the best execution path for a result. This paper also presents an implementation of statistical Taylor expansion called variance arithmetic, and the tests on variance arithmetic. | 翻訳日:2024-11-04 22:28:32 公開日:2024-10-15 |
# 統計的テイラー展開
Statistical Taylor Expansion ( http://arxiv.org/abs/2410.01223v2 ) ライセンス: Link先を確認 | Chengpu Wang, | (参考訳) 統計的テイラー展開は、従来のテイラー展開における入力された正確な変数を、既知の分布を持つ確率変数に置き換え、結果平均と偏差を計算する。
それぞれの入力変数は、それぞれの不確かさが互いに独立であるように、十分な統計的精度で独立に測定される。
統計的テイラー展開は、中間解析式はもはや互いに独立とはみなされず、解析式の結果は経路独立であるべきだと再考する。
この結論は、結果の最良の実行経路を見つけるための応用数学における従来の一般的なアプローチと根本的に異なる。
本稿では、分散算術と呼ばれる統計テイラー展開の実装と分散算術に関する試験について述べる。
Statistical Taylor expansion replaces the input precise variables in a conventional Taylor expansion with random variables each with known distribution, to calculate the result mean and deviation. It is based on the uncorrelated uncertainty assumption: Each input variable is measured independently with fine enough statistical precision, so that their uncertainties are independent of each other. Statistical Taylor expansion reviews that the intermediate analytic expressions can no longer be regarded as independent of each other, and the result of analytic expression should be path independent. This conclusion differs fundamentally from the conventional common approach in applied mathematics to find the best execution path for a result. This paper also presents an implementation of statistical Taylor expansion called variance arithmetic, and the tests on variance arithmetic. | 翻訳日:2024-11-04 22:28:32 公開日:2024-10-15 |
# 統計的テイラー展開
Statistical Taylor Expansion ( http://arxiv.org/abs/2410.01223v3 ) ライセンス: Link先を確認 | Chengpu Wang, | (参考訳) 統計的テイラー展開は、従来のテイラー展開における入力された正確な変数を、既知の分布を持つ確率変数に置き換え、結果平均と偏差を計算する。
それぞれの入力変数は、それぞれの不確かさが互いに独立であるように、十分な統計的精度で独立に測定される。
統計的テイラー展開は、中間解析式はもはや互いに独立とはみなされず、解析式の結果は経路独立であるべきだと再考する。
この結論は、結果の最良の実行経路を見つけるための応用数学における従来の一般的なアプローチと根本的に異なる。
本稿では、分散算術と呼ばれる統計テイラー展開の実装と分散算術に関する試験について述べる。
Statistical Taylor expansion replaces the input precise variables in a conventional Taylor expansion with random variables each with known distribution, to calculate the result mean and deviation. It is based on the uncorrelated uncertainty assumption: Each input variable is measured independently with fine enough statistical precision, so that their uncertainties are independent of each other. Statistical Taylor expansion reviews that the intermediate analytic expressions can no longer be regarded as independent of each other, and the result of analytic expression should be path independent. This conclusion differs fundamentally from the conventional common approach in applied mathematics to find the best execution path for a result. This paper also presents an implementation of statistical Taylor expansion called variance arithmetic, and the tests on variance arithmetic. | 翻訳日:2024-11-04 22:28:32 公開日:2024-10-15 |
# ImageFolder: 折りたたみトークンを使った自動回帰画像生成
ImageFolder: Autoregressive Image Generation with Folded Tokens ( http://arxiv.org/abs/2410.01756v1 ) ライセンス: Link先を確認 | Xiang Li, Hao Chen, Kai Qiu, Jason Kuen, Jiuxiang Gu, Bhiksha Raj, Zhe Lin, | (参考訳) 画像トークン化器は、例えば拡散モデル(DM)や自己回帰モデル(AR)といった視覚的生成モデルにおいて重要であり、モデリングのための潜在表現を構築する。
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
しかし、トークン長が長いトークン化器は、より優れた生成品質を実現するために保証されていない。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,トークン長が画像再構成と生成の両方に与える影響について検討し,トレードオフに対する柔軟な解決策を提供する。
我々は,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンーであるImageFolderを提案し,生成効率と品質を両立させる。
トークン長を増大させることなく代表能力を向上させるため、両ブランチ積の量子化を活用して画像の異なるコンテキストをキャプチャする。
具体的には、あるブランチでセマンティックレギュレーションを導入して、コンパクト化されたセマンティック情報を促進する一方で、残りのピクセルレベルの詳細をキャプチャするために別のブランチが設計されている。
大規模な実験では、ImageFolderトークン化器による画像生成の優れた品質とトークン長の短縮が示されている。
Image tokenizers are crucial for visual generative models, e.g., diffusion models (DMs) and autoregressive (AR) models, as they construct the latent representation for modeling. Increasing token length is a common approach to improve the image reconstruction quality. However, tokenizers with longer token lengths are not guaranteed to achieve better generation quality. There exists a trade-off between reconstruction and generation quality regarding token length. In this paper, we investigate the impact of token length on both image reconstruction and generation and provide a flexible solution to the tradeoff. We propose ImageFolder, a semantic tokenizer that provides spatially aligned image tokens that can be folded during autoregressive modeling to improve both generation efficiency and quality. To enhance the representative capability without increasing token length, we leverage dual-branch product quantization to capture different contexts of images. Specifically, semantic regularization is introduced in one branch to encourage compacted semantic information while another branch is designed to capture the remaining pixel-level details. Extensive experiments demonstrate the superior quality of image generation and shorter token length with ImageFolder tokenizer. | 翻訳日:2024-11-04 15:34:04 公開日:2024-10-15 |
# ImageFolder: 折りたたみトークンを使った自動回帰画像生成
ImageFolder: Autoregressive Image Generation with Folded Tokens ( http://arxiv.org/abs/2410.01756v2 ) ライセンス: Link先を確認 | Xiang Li, Kai Qiu, Hao Chen, Jason Kuen, Jiuxiang Gu, Bhiksha Raj, Zhe Lin, | (参考訳) 画像トークン化器は、例えば拡散モデル(DM)や自己回帰モデル(AR)といった視覚的生成モデルにおいて重要であり、モデリングのための潜在表現を構築する。
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
しかし、トークン長が長いトークン化器は、より優れた生成品質を実現するために保証されていない。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,トークン長が画像再構成と生成の両方に与える影響について検討し,トレードオフに対する柔軟な解決策を提供する。
我々は,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンーであるImageFolderを提案し,生成効率と品質を両立させる。
トークン長を増大させることなく代表能力を向上させるため、両ブランチ積の量子化を活用して画像の異なるコンテキストをキャプチャする。
具体的には、あるブランチでセマンティックレギュレーションを導入して、コンパクト化されたセマンティック情報を促進する一方で、残りのピクセルレベルの詳細をキャプチャするために別のブランチが設計されている。
大規模な実験では、ImageFolderトークン化器による画像生成の優れた品質とトークン長の短縮が示されている。
Image tokenizers are crucial for visual generative models, e.g., diffusion models (DMs) and autoregressive (AR) models, as they construct the latent representation for modeling. Increasing token length is a common approach to improve the image reconstruction quality. However, tokenizers with longer token lengths are not guaranteed to achieve better generation quality. There exists a trade-off between reconstruction and generation quality regarding token length. In this paper, we investigate the impact of token length on both image reconstruction and generation and provide a flexible solution to the tradeoff. We propose ImageFolder, a semantic tokenizer that provides spatially aligned image tokens that can be folded during autoregressive modeling to improve both generation efficiency and quality. To enhance the representative capability without increasing token length, we leverage dual-branch product quantization to capture different contexts of images. Specifically, semantic regularization is introduced in one branch to encourage compacted semantic information while another branch is designed to capture the remaining pixel-level details. Extensive experiments demonstrate the superior quality of image generation and shorter token length with ImageFolder tokenizer. | 翻訳日:2024-11-04 15:34:04 公開日:2024-10-15 |
# Generate then Refine:Zero-shot Intent Detectionのためのデータ拡張
Generate then Refine: Data Augmentation for Zero-shot Intent Detection ( http://arxiv.org/abs/2410.01953v1 ) ライセンス: Link先を確認 | I-Fan Lin, Faegheh Hasibi, Suzan Verberne, | (参考訳) 本稿では,ゼロリソース領域におけるインテント検出のためのデータ拡張手法を提案する。
既存のデータ拡張方法は、インテントカテゴリごとにラベル付けされた例がほとんどないため、多くのインテントが考えられる設定でコストがかかる可能性がある。
まず、ゼロショット設定でオープンソースの大言語モデルを使用してインテントラベルの発話を生成する。
第2に、生成された発話を改善するために、より小さなシーケンス・ツー・シーケンス・モデル(Refiner)を開発する。
Refinerは目に見えないドメインに微調整され、見知らぬドメインに適用される。
提案手法は、生成したデータに対して意図分類器を訓練し、実際の(人間)データ上で評価することで評価する。
その結果、Refinerは、目に見えないドメインや一般的なベースラインアプローチに対するゼロショットLCMベースラインよりも、データユーティリティと多様性を著しく改善することがわかった。
その結果、ゼロショット設定におけるジェネレーションLLMの2段階的アプローチと、より小さなシーケンス・ツー・シーケンス・モデルにより、インテント検出のための高品質なデータを提供することが可能であることが示唆された。
In this short paper we propose a data augmentation method for intent detection in zero-resource domains. Existing data augmentation methods rely on few labelled examples for each intent category, which can be expensive in settings with many possible intents. We use a two-stage approach: First, we generate utterances for intent labels using an open-source large language model in a zero-shot setting. Second, we develop a smaller sequence-to-sequence model (the Refiner), to improve the generated utterances. The Refiner is fine-tuned on seen domains and then applied to unseen domains. We evaluate our method by training an intent classifier on the generated data, and evaluating it on real (human) data. We find that the Refiner significantly improves the data utility and diversity over the zero-shot LLM baseline for unseen domains and over common baseline approaches. Our results indicate that a two-step approach of a generative LLM in zero-shot setting and a smaller sequence-to-sequence model can provide high-quality data for intent detection. | 翻訳日:2024-11-04 09:44:42 公開日:2024-10-15 |
# Generate then Refine:Zero-shot Intent Detectionのためのデータ拡張
Generate then Refine: Data Augmentation for Zero-shot Intent Detection ( http://arxiv.org/abs/2410.01953v2 ) ライセンス: Link先を確認 | I-Fan Lin, Faegheh Hasibi, Suzan Verberne, | (参考訳) 本稿では,ゼロリソース領域におけるインテント検出のためのデータ拡張手法を提案する。
既存のデータ拡張方法は、インテントカテゴリごとにラベル付けされた例がほとんどないため、多くのインテントが考えられる設定でコストがかかる可能性がある。
まず、ゼロショット設定でオープンソースの大言語モデルを使用してインテントラベルの発話を生成する。
第2に、生成された発話を改善するために、より小さなシーケンス・ツー・シーケンス・モデル(Refiner)を開発する。
Refinerは目に見えないドメインに微調整され、見知らぬドメインに適用される。
提案手法は、生成したデータに対して意図分類器を訓練し、実際の(人間)データ上で評価することで評価する。
その結果、Refinerは、目に見えないドメインや一般的なベースラインアプローチに対するゼロショットLCMベースラインよりも、データユーティリティと多様性を著しく改善することがわかった。
その結果、ゼロショット設定におけるジェネレーションLLMの2段階的アプローチと、より小さなシーケンス・ツー・シーケンス・モデルにより、インテント検出のための高品質なデータを提供することが可能であることが示唆された。
In this short paper we propose a data augmentation method for intent detection in zero-resource domains. Existing data augmentation methods rely on few labelled examples for each intent category, which can be expensive in settings with many possible intents. We use a two-stage approach: First, we generate utterances for intent labels using an open-source large language model in a zero-shot setting. Second, we develop a smaller sequence-to-sequence model (the Refiner), to improve the generated utterances. The Refiner is fine-tuned on seen domains and then applied to unseen domains. We evaluate our method by training an intent classifier on the generated data, and evaluating it on real (human) data. We find that the Refiner significantly improves the data utility and diversity over the zero-shot LLM baseline for unseen domains and over common baseline approaches. Our results indicate that a two-step approach of a generative LLM in zero-shot setting and a smaller sequence-to-sequence model can provide high-quality data for intent detection. | 翻訳日:2024-11-04 09:44:42 公開日:2024-10-15 |
# 合成編集シーケンスに基づく学習言語モデルによるコード合成の改善
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis ( http://arxiv.org/abs/2410.02749v1 ) ライセンス: Link先を確認 | Ulyana Piterbarg, Lerrel Pinto, Rob Fergus, | (参考訳) ソフトウェアエンジニアは主に既存のプログラムを編集してコードを書く。
対照的に、大きな言語モデル(LLM)はプログラムを単一のパスで自動回帰的に合成する。
これの1つの説明は、オープンソースの編集データの不足である。
コード合成のための高品質な命令データがすでに不足している一方で、高品質な編集データが不足している。
このギャップを埋めるため,LintSeqという合成データ生成アルゴリズムを開発した。
このアルゴリズムは、プログラムを逐次書き込むのに使えるエラーのない挿入を手続き的にサンプリングするために、linterを使用して既存のコードを一連のコード編集にリファクタリングする。
連続するプログラム差分からなるテキスト文字列として編集シーケンスを出力する。
LintSeqをテストするために、命令+プログラムペアのデータセットをインストラクション+プログラム-差分シーケンスタプルにリファクタリングする。
次に、このデータセットのリファクタリング版とオリジナル版の両方で2.6Bから14Bパラメータの小さなLCMをファインチューンに指示し、コード合成ベンチマークのゼロショット性能を比較した。
繰り返しサンプリングを行った結果,編集シーケンスを微調整したモデルでは,ベースラインよりも多様なプログラムが生成されることがわかった。
これにより、ベンチマークカバレッジをサンプルの関数として、つまり"k"試行によって解決される問題"pass@k"のごく一部として、より優れた推論時間スケーリングが実現される。
例えば、HumanEval pass@50では、合成編集シーケンスに微調整された小さなLLMがGPT-4と競合し、ベースラインデータセットに+20%(+/-3%)の精度で微調整される。
最後に、コード理解のために独自の小さなLMを事前訓練します。
合成符号の微調整により,デバイス上でのモデルクラスに対する最先端のコード合成が可能となることを示す。
私たちの1億5000万のパラメータ編集シーケンス LMは、CodexやAlphaCodeなど、繰り返しサンプリングされるパラメータの2倍のパラメータで、コードモデルにマッチしたり、性能を上回ります。
Software engineers mainly write code by editing existing programs. In contrast, large language models (LLMs) autoregressively synthesize programs in a single pass. One explanation for this is the scarcity of open-sourced edit data. While high-quality instruction data for code synthesis is already scarce, high-quality edit data is even scarcer. To fill this gap, we develop a synthetic data generation algorithm called LintSeq. This algorithm refactors existing code into a sequence of code edits by using a linter to procedurally sample across the error-free insertions that can be used to sequentially write programs. It outputs edit sequences as text strings consisting of consecutive program diffs. To test LintSeq, we use it to refactor a dataset of instruction + program pairs into instruction + program-diff-sequence tuples. Then, we instruction finetune a series of smaller LLMs ranging from 2.6B to 14B parameters on both the re-factored and original versions of this dataset, comparing zero-shot performance on code synthesis benchmarks. We show that during repeated sampling, edit sequence finetuned models produce more diverse programs than baselines. This results in better inference-time scaling for benchmark coverage as a function of samples, i.e. the fraction of problems "pass@k" solved by any attempt given "k" tries. For example, on HumanEval pass@50, small LLMs finetuned on synthetic edit sequences are competitive with GPT-4 and outperform models finetuned on the baseline dataset by +20% (+/-3%) in absolute score. Finally, we also pretrain our own tiny LMs for code understanding. We show that finetuning tiny models on synthetic code edits results in state-of-the-art code synthesis for the on-device model class. Our 150M parameter edit sequence LM matches or outperforms code models with twice as many parameters, both with and without repeated sampling, including Codex and AlphaCode. | 翻訳日:2024-11-04 01:03:22 公開日:2024-10-15 |
# 合成編集シーケンスに基づく学習言語モデルによるコード合成の改善
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis ( http://arxiv.org/abs/2410.02749v2 ) ライセンス: Link先を確認 | Ulyana Piterbarg, Lerrel Pinto, Rob Fergus, | (参考訳) ソフトウェアエンジニアは主に既存のプログラムを編集してコードを書く。
対照的に、大きな言語モデル(LLM)はプログラムを単一のパスで自動回帰的に合成する。
これの1つの説明は、オープンソースの編集データの不足である。
コード合成のための高品質な命令データがすでに不足している一方で、高品質な編集データが不足している。
このギャップを埋めるため,LintSeqという合成データ生成アルゴリズムを開発した。
このアルゴリズムは、プログラムを逐次書き込むのに使えるエラーのない挿入を手続き的にサンプリングするために、linterを使用して既存のコードを一連のコード編集にリファクタリングする。
連続するプログラム差分からなるテキスト文字列として編集シーケンスを出力する。
LintSeqをテストするために、命令+プログラムペアのデータセットをインストラクション+プログラム-差分シーケンスタプルにリファクタリングする。
次に、このデータセットのリファクタリング版とオリジナル版の両方で2.6Bから14Bパラメータの小さなLCMをファインチューンに指示し、コード合成ベンチマークのゼロショット性能を比較した。
繰り返しサンプリングを行った結果,編集シーケンスを微調整したモデルでは,ベースラインよりも多様なプログラムが生成されることがわかった。
これにより、ベンチマークカバレッジをサンプルの関数として、つまり"k"試行によって解決される問題"pass@k"のごく一部として、より優れた推論時間スケーリングが実現される。
例えば、HumanEval pass@50では、合成編集シーケンスに微調整された小さなLLMがGPT-4と競合し、ベースラインデータセットに+20%(+/-3%)の精度で微調整される。
最後に、コード理解のために独自の小さなLMを事前訓練します。
合成符号の微調整により,デバイス上でのモデルクラスに対する最先端のコード合成が可能となることを示す。
私たちの1億5000万のパラメータ編集シーケンス LMは、CodexやAlphaCodeなど、繰り返しサンプリングされるパラメータの2倍のパラメータで、コードモデルにマッチしたり、性能を上回ります。
Software engineers mainly write code by editing existing programs. In contrast, large language models (LLMs) autoregressively synthesize programs in a single pass. One explanation for this is the scarcity of open-sourced edit data. While high-quality instruction data for code synthesis is already scarce, high-quality edit data is even scarcer. To fill this gap, we develop a synthetic data generation algorithm called LintSeq. This algorithm refactors existing code into a sequence of code edits by using a linter to procedurally sample across the error-free insertions that can be used to sequentially write programs. It outputs edit sequences as text strings consisting of consecutive program diffs. To test LintSeq, we use it to refactor a dataset of instruction + program pairs into instruction + program-diff-sequence tuples. Then, we instruction finetune a series of smaller LLMs ranging from 2.6B to 14B parameters on both the re-factored and original versions of this dataset, comparing zero-shot performance on code synthesis benchmarks. We show that during repeated sampling, edit sequence finetuned models produce more diverse programs than baselines. This results in better inference-time scaling for benchmark coverage as a function of samples, i.e. the fraction of problems "pass@k" solved by any attempt given "k" tries. For example, on HumanEval pass@50, small LLMs finetuned on synthetic edit sequences are competitive with GPT-4 and outperform models finetuned on the baseline dataset by +20% (+/-3%) in absolute score. Finally, we also pretrain our own tiny LMs for code understanding. We show that finetuning tiny models on synthetic code edits results in state-of-the-art code synthesis for the on-device model class. Our 150M parameter edit sequence LM matches or outperforms code models with twice as many parameters, both with and without repeated sampling, including Codex and AlphaCode. | 翻訳日:2024-11-04 01:03:22 公開日:2024-10-15 |
# 認知的刺激を伴う言語モデルにおける構造化思考の解錠
Unlocking Structured Thinking in Language Models with Cognitive prompting ( http://arxiv.org/abs/2410.02953v1 ) ライセンス: Link先を確認 | Oliver Kramer, Jill Baumann, | (参考訳) 本研究では,大規模言語モデル(LLM)において,目標の明確化,分解,フィルタリング,抽象化,パターン認識などの人間的な認知操作を通じて,問題解決を導く新しい手法として認知プロンプトを提案する。
体系的でステップバイステップの推論を用いることで、認知的プロンプトにより、LLMは複雑なマルチステップタスクに効率的に取り組むことができる。
GSM8Kデータセットとコモンセンス推論ベンチマークを用いて,メタのLLaMAモデルにおける認知的プロンプトの有効性を評価し,算術的推論タスクの性能を比較した。
我々の分析では、認知的プロンプトのないモデル、静的な認知的操作を含むモデル、反射的認知的プロンプトを用いたモデルの比較を行い、LLMは認知的操作のシーケンスを動的に選択する。
その結果,LLaMA3.170Bのような大規模モデルの性能は認知的プロンプトによって著しく向上し,多段階推論タスクの処理能力が向上した。
このアプローチはまた、解釈可能性と柔軟性を改善し、認知的プロンプトを汎用AI推論の有望な戦略として強調する。
We propose cognitive prompting as a novel approach to guide problem-solving in large language models (LLMs) through structured, human-like cognitive operations such as goal clarification, decomposition, filtering, abstraction, and pattern recognition. By employing systematic, step-by-step reasoning, cognitive prompting enables LLMs to efficiently tackle complex, multi-step tasks. We evaluate the effectiveness of cognitive prompting on Meta's LLaMA models, comparing performance on arithmetic reasoning tasks using the GSM8K dataset and on commonsense reasoning benchmarks. Our analysis includes comparisons between models without cognitive prompting, models with a static sequence of cognitive operations, and models using reflective cognitive prompting, where the LLM dynamically self-selects the sequence of cognitive operations. The results show that cognitive prompting, particularly when dynamically adapted, significantly improves the performance of larger models, such as LLaMA3.1 70B, and enhances their ability to handle multi-step reasoning tasks. This approach also improves interpretability and flexibility, highlighting cognitive prompting as a promising strategy for general-purpose AI reasoning. | 翻訳日:2024-11-03 04:45:27 公開日:2024-10-15 |
# 認知的プロンプトを用いた言語モデルにおける構造化思考の解錠
Unlocking Structured Thinking in Language Models with Cognitive Prompting ( http://arxiv.org/abs/2410.02953v2 ) ライセンス: Link先を確認 | Oliver Kramer, Jill Baumann, | (参考訳) 本研究では,大規模言語モデル(LLM)において,目標の明確化,分解,フィルタリング,抽象化,パターン認識などの人間的な認知操作を通じて,問題解決を導く新しい手法として認知プロンプトを提案する。
体系的でステップバイステップの推論を用いることで、認知的プロンプトにより、LLMは複雑なマルチステップタスクに効率的に取り組むことができる。
GSM8Kデータセットとコモンセンス推論ベンチマークを用いて,メタのLLaMAモデルにおける認知的プロンプトの有効性を評価し,算術的推論タスクの性能を比較した。
我々の分析では、認知的プロンプトのないモデル、静的な認知的操作を含むモデル、反射的認知的プロンプトを用いたモデルの比較を行い、LLMは認知的操作のシーケンスを動的に選択する。
その結果,LLaMA3.170Bのような大規模モデルの性能は認知的プロンプトによって著しく向上し,多段階推論タスクの処理能力が向上した。
このアプローチはまた、解釈可能性と柔軟性を改善し、認知的プロンプトを汎用AI推論の有望な戦略として強調する。
We propose cognitive prompting as a novel approach to guide problem-solving in large language models (LLMs) through structured, human-like cognitive operations such as goal clarification, decomposition, filtering, abstraction, and pattern recognition. By employing systematic, step-by-step reasoning, cognitive prompting enables LLMs to efficiently tackle complex, multi-step tasks. We evaluate the effectiveness of cognitive prompting on Meta's LLaMA models, comparing performance on arithmetic reasoning tasks using the GSM8K dataset and on commonsense reasoning benchmarks. Our analysis includes comparisons between models without cognitive prompting, models with a static sequence of cognitive operations, and models using reflective cognitive prompting, where the LLM dynamically self-selects the sequence of cognitive operations. The results show that cognitive prompting, particularly when dynamically adapted, significantly improves the performance of larger models, such as LLaMA3.1 70B, and enhances their ability to handle multi-step reasoning tasks. This approach also improves interpretability and flexibility, highlighting cognitive prompting as a promising strategy for general-purpose AI reasoning. | 翻訳日:2024-11-03 04:45:27 公開日:2024-10-15 |
# グラフランダム特徴を持つ線形変圧器トポロジカルマスキング
Linear Transformer Topological Masking with Graph Random Features ( http://arxiv.org/abs/2410.03462v1 ) ライセンス: Link先を確認 | Isaac Reid, Kumar Avinava Dubey, Deepali Jain, Will Whitney, Amr Ahmed, Joshua Ainslie, Alex Bewley, Mithun Jacob, Aranyak Mehta, David Rendleman, Connor Schenck, Richard E. Turner, René Wagner, Adrian Weller, Krzysztof Choromanski, | (参考訳) グラフ構造化データ上でトランスフォーマーをトレーニングする場合、基礎となるトポロジに関する情報を組み込むことは、優れたパフォーマンスに不可欠である。
相対的な位置符号化の一種であるトポロジマスキングは、グラフ内のクエリとキーの関係に応じて、重み付けや重み付けによってこれを達成している。
本稿では,トポロジカルマスクを重み付き隣接行列の学習可能な関数としてパラメータ化することを提案する。
このマスクをグラフランダムな特徴(これは最初の既知の濃度境界を証明している)で近似することにより、入力トークンの数に関して、$\mathcal{O}(N)$時間と空間の複雑さを保ちながら、このマスクが線形注意と完全に整合できることを示す。
以前の最速の代替案は$\mathcal{O}(N \log N)$で、特定のグラフにのみ適していた。
我々の効率的なマスキングアルゴリズムは、$30$kのノードを含む画像およびポイントクラウドデータのタスクに対して、強力なパフォーマンス向上を提供します。
When training transformers on graph-structured data, incorporating information about the underlying topology is crucial for good performance. Topological masking, a type of relative position encoding, achieves this by upweighting or downweighting attention depending on the relationship between the query and keys in a graph. In this paper, we propose to parameterise topological masks as a learnable function of a weighted adjacency matrix -- a novel, flexible approach which incorporates a strong structural inductive bias. By approximating this mask with graph random features (for which we prove the first known concentration bounds), we show how this can be made fully compatible with linear attention, preserving $\mathcal{O}(N)$ time and space complexity with respect to the number of input tokens. The fastest previous alternative was $\mathcal{O}(N \log N)$ and only suitable for specific graphs. Our efficient masking algorithms provide strong performance gains for tasks on image and point cloud data, including with $>30$k nodes. | 翻訳日:2024-11-02 22:09:37 公開日:2024-10-15 |
# グラフランダム特徴を持つ線形変圧器トポロジカルマスキング
Linear Transformer Topological Masking with Graph Random Features ( http://arxiv.org/abs/2410.03462v2 ) ライセンス: Link先を確認 | Isaac Reid, Kumar Avinava Dubey, Deepali Jain, Will Whitney, Amr Ahmed, Joshua Ainslie, Alex Bewley, Mithun Jacob, Aranyak Mehta, David Rendleman, Connor Schenck, Richard E. Turner, René Wagner, Adrian Weller, Krzysztof Choromanski, | (参考訳) グラフ構造化データ上でトランスフォーマーをトレーニングする場合、基礎となるトポロジに関する情報を組み込むことは、優れたパフォーマンスに不可欠である。
相対的な位置符号化の一種であるトポロジマスキングは、グラフ内のクエリとキーの関係に応じて、重み付けや重み付けによってこれを達成している。
本稿では,トポロジカルマスクを重み付き隣接行列の学習可能な関数としてパラメータ化することを提案する。
このマスクをグラフランダムな特徴(これは最初の既知の濃度境界を証明している)で近似することにより、入力トークンの数に関して、$\mathcal{O}(N)$時間と空間の複雑さを保ちながら、このマスクが線形注意と完全に整合できることを示す。
以前の最速の代替案は$\mathcal{O}(N \log N)$で、特定のグラフにのみ適していた。
我々の効率的なマスキングアルゴリズムは、$30$kのノードを含む画像およびポイントクラウドデータのタスクに対して、強力なパフォーマンス向上を提供します。
When training transformers on graph-structured data, incorporating information about the underlying topology is crucial for good performance. Topological masking, a type of relative position encoding, achieves this by upweighting or downweighting attention depending on the relationship between the query and keys in a graph. In this paper, we propose to parameterise topological masks as a learnable function of a weighted adjacency matrix -- a novel, flexible approach which incorporates a strong structural inductive bias. By approximating this mask with graph random features (for which we prove the first known concentration bounds), we show how this can be made fully compatible with linear attention, preserving $\mathcal{O}(N)$ time and space complexity with respect to the number of input tokens. The fastest previous alternative was $\mathcal{O}(N \log N)$ and only suitable for specific graphs. Our efficient masking algorithms provide strong performance gains for tasks on image and point cloud data, including with $>30$k nodes. | 翻訳日:2024-11-02 22:09:37 公開日:2024-10-15 |
# Progress Report: toward European LLMs (英語)
Progress Report: Towards European LLMs ( http://arxiv.org/abs/2410.03730v1 ) ライセンス: Link先を確認 | Mehdi Ali, Michael Fromm, Klaudia Thellmann, Jan Ebert, Alexander Arno Weber, Richard Rutmann, Charvi Jain, Max Lübbering, Daniel Steinigen, Johannes Leveling, Katrin Klug, Jasper Schulze Buschhoff, Lena Jurkschat, Hammam Abdelwahab, Benny Jörg Stein, Karl-Heinz Sylla, Pavel Denisov, Nicolo Brandizzi, Qasid Saleem, Bhowmick Anirban, Chelsea John, Pedro Ortiz Suarez, Malte Ostendorff, Alex Jude, Lalith Manjunath, Samuel Weinbach, Carolin Penke, Shima Asaadi, Fabio Barth, Rafet Sifa, Fabian Küch, René Jäkel, Georg Rehm, Stefan Kesselheim, Joachim Köhler, Nicolas Flores-Herr, | (参考訳) プロジェクトOpenGPT-Xの事前結果を報告する。
このプロジェクトは現在、欧州連合の24の公用語すべてをサポートすることで、ヨーロッパの言語多様性を受け入れるように設計された2つの多言語LLMを開発している。
我々のモデルは、約60%の非英語データとカスタム多言語トークン化器を用いて訓練されたデータセットに基づいて、主に英語やいくつかの高リソース言語に焦点を当てた既存のLLMの制限に対処する。
モデルの開発原則、データ処理技術、トークン化ツールの最適化、トレーニング方法論について詳述する。
これらのモデルは、ARC、HellaSwag、MMLU、TruthfulQAのヨーロッパ版でのパフォーマンスで証明されているように、多言語ベンチマーク間での競合性能を示している。
We present preliminary results of the project OpenGPT-X. At present, the project has developed two multilingual LLMs designed to embrace Europe's linguistic diversity by supporting all 24 official languages of the European Union. Trained on a dataset comprising around 60% non-English data and utilizing a custom multilingual tokenizer, our models address the limitations of existing LLMs that predominantly focus on English or a few high-resource languages. We detail the models' development principles, data processing techniques, tokenizer optimization, and training methodologies. The models demonstrate competitive performance across multilingual benchmarks, as evidenced by its performance on European versions of ARC, HellaSwag, MMLU, and TruthfulQA. | 翻訳日:2024-11-02 20:28:28 公開日:2024-10-15 |
# Teuken-7B-Base & Teuken-7B-Instruct: towards European LLMs
Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs ( http://arxiv.org/abs/2410.03730v2 ) ライセンス: Link先を確認 | Mehdi Ali, Michael Fromm, Klaudia Thellmann, Jan Ebert, Alexander Arno Weber, Richard Rutmann, Charvi Jain, Max Lübbering, Daniel Steinigen, Johannes Leveling, Katrin Klug, Jasper Schulze Buschhoff, Lena Jurkschat, Hammam Abdelwahab, Benny Jörg Stein, Karl-Heinz Sylla, Pavel Denisov, Nicolo' Brandizzi, Qasid Saleem, Anirban Bhowmick, Lennard Helmer, Chelsea John, Pedro Ortiz Suarez, Malte Ostendorff, Alex Jude, Lalith Manjunath, Samuel Weinbach, Carolin Penke, Oleg Filatov, Shima Asaadi, Fabio Barth, Rafet Sifa, Fabian Küch, Andreas Herten, René Jäkel, Georg Rehm, Stefan Kesselheim, Joachim Köhler, Nicolas Flores-Herr, | (参考訳) 我々は、欧州連合の24の公用語すべてをサポートすることで、ヨーロッパの言語多様性を受け入れるように設計された2つの多言語LLMを提示する。
我々のモデルは、約60%の非英語データとカスタム多言語トークン化器を用いて訓練されたデータセットに基づいて、主に英語やいくつかの高リソース言語に焦点を当てた既存のLLMの制限に対処する。
モデルの開発原則、すなわちデータ構成、トークン化最適化、トレーニング方法論について詳述する。
これらのモデルは、ARC、HellaSwag、MMLU、TruthfulQAのヨーロッパ版でのパフォーマンスが証明されているように、多言語ベンチマーク間での競合性能を示している。
We present two multilingual LLMs designed to embrace Europe's linguistic diversity by supporting all 24 official languages of the European Union. Trained on a dataset comprising around 60% non-English data and utilizing a custom multilingual tokenizer, our models address the limitations of existing LLMs that predominantly focus on English or a few high-resource languages. We detail the models' development principles, i.e., data composition, tokenizer optimization, and training methodologies. The models demonstrate competitive performance across multilingual benchmarks, as evidenced by their performance on European versions of ARC, HellaSwag, MMLU, and TruthfulQA. | 翻訳日:2024-11-02 20:28:28 公開日:2024-10-15 |
# ビデオ再生のための整合因果履歴モデルの学習
Learning Truncated Causal History Model for Video Restoration ( http://arxiv.org/abs/2410.03936v1 ) ライセンス: Link先を確認 | Amirhosein Ghasemabadi, Muhammad Kamran Janjua, Mohammad Salameh, Di Niu, | (参考訳) ビデオ復元における重要な課題の1つは、モーションによって支配されるビデオフレームの遷移ダイナミクスをモデル化することである。
そこで本研究では,ビデオ修復の効率化と高性能化のために,絡み合った因果履歴モデルを学習するためのTURTLEを提案する。
様々なコンテキストフレームを並列に処理する従来の方法とは異なり、TURTLEは入力フレームラテント表現の切り詰められた履歴を記憶し、要約することで効率を向上させる。
これは、フレーム間の動きとアライメントを暗黙的に説明する洗練された類似性に基づく検索メカニズムによって達成される。
TURTLEの因果的設計は、状態記憶された歴史的特徴を通じて推論を繰り返すことを可能にし、トランクされたビデオクリップをサンプリングすることで並列トレーニングを可能にする。
本報告では,ビデオデナッシング,夜間ビデオデアライニング,降雨雨滴除去,ビデオスーパーレゾリューション,実世界および合成ビデオデブロアリング,ブラインドビデオデノイングなど,多数のビデオ修復作業に関する最新の結果について報告する。
One key challenge to video restoration is to model the transition dynamics of video frames governed by motion. In this work, we propose TURTLE to learn the truncated causal history model for efficient and high-performing video restoration. Unlike traditional methods that process a range of contextual frames in parallel, TURTLE enhances efficiency by storing and summarizing a truncated history of the input frame latent representation into an evolving historical state. This is achieved through a sophisticated similarity-based retrieval mechanism that implicitly accounts for inter-frame motion and alignment. The causal design in TURTLE enables recurrence in inference through state-memorized historical features while allowing parallel training by sampling truncated video clips. We report new state-of-the-art results on a multitude of video restoration benchmark tasks, including video desnowing, nighttime video deraining, video raindrops and rain streak removal, video super-resolution, real-world and synthetic video deblurring, and blind video denoising while reducing the computational cost compared to existing best contextual methods on all these tasks. | 翻訳日:2024-11-02 15:21:16 公開日:2024-10-15 |
# ビデオ再生のための整合因果履歴モデルの学習
Learning Truncated Causal History Model for Video Restoration ( http://arxiv.org/abs/2410.03936v2 ) ライセンス: Link先を確認 | Amirhosein Ghasemabadi, Muhammad Kamran Janjua, Mohammad Salameh, Di Niu, | (参考訳) ビデオ復元における重要な課題の1つは、モーションによって支配されるビデオフレームの遷移ダイナミクスをモデル化することである。
そこで本研究では,ビデオ修復の効率化と高性能化のために,絡み合った因果履歴モデルを学習するためのTURTLEを提案する。
様々なコンテキストフレームを並列に処理する従来の方法とは異なり、TURTLEは入力フレームラテント表現の切り詰められた履歴を記憶し、要約することで効率を向上させる。
これは、フレーム間の動きとアライメントを暗黙的に説明する洗練された類似性に基づく検索メカニズムによって達成される。
TURTLEの因果的設計は、状態記憶された歴史的特徴を通じて推論を繰り返すことを可能にし、トランクされたビデオクリップをサンプリングすることで並列トレーニングを可能にする。
本報告では,ビデオデナッシング,夜間ビデオデアライニング,降雨雨滴除去,ビデオスーパーレゾリューション,実世界および合成ビデオデブロアリング,ブラインドビデオデノイングなど,多数のビデオ修復作業に関する最新の結果について報告する。
One key challenge to video restoration is to model the transition dynamics of video frames governed by motion. In this work, we propose TURTLE to learn the truncated causal history model for efficient and high-performing video restoration. Unlike traditional methods that process a range of contextual frames in parallel, TURTLE enhances efficiency by storing and summarizing a truncated history of the input frame latent representation into an evolving historical state. This is achieved through a sophisticated similarity-based retrieval mechanism that implicitly accounts for inter-frame motion and alignment. The causal design in TURTLE enables recurrence in inference through state-memorized historical features while allowing parallel training by sampling truncated video clips. We report new state-of-the-art results on a multitude of video restoration benchmark tasks, including video desnowing, nighttime video deraining, video raindrops and rain streak removal, video super-resolution, real-world and synthetic video deblurring, and blind video denoising while reducing the computational cost compared to existing best contextual methods on all these tasks. | 翻訳日:2024-11-02 15:21:16 公開日:2024-10-15 |
# LoRTA: 大規模言語モデルの低ランクテンソル適応
LoRTA: Low Rank Tensor Adaptation of Large Language Models ( http://arxiv.org/abs/2410.04060v1 ) ライセンス: Link先を確認 | Ignacio Hounie, Charilaos Kanatsoulis, Arnuv Tandon, Alejandro Ribeiro, | (参考訳) ローランク適応(ローランク適応、LoRA)は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT(パラメータ効率の良い微調整)手法である。
LoRAは各レイヤで低ランク行列を使用してモデルの更新をパラメータ化し、トレーニング可能なパラメータの数を著しく削減する。
しかし、低ランク行列モデルを用いることにより、トレーニング可能なパラメータの数に対する低い境界は高いままである。
本稿では,モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案した低階テンソルモデルは、トレーニング可能なパラメータの数を著しく削減し、アダプタサイズをきめ細かな制御を可能にする。
自然言語理解, 命令チューニング, 参照最適化, タンパク質フォールディングのベンチマーク実験により, 提案手法は大規模言語モデルの微調整に有効であり, 比較性能を維持しつつ, パラメータ数の大幅な削減を実現していることが示された。
Low Rank Adaptation (LoRA) is a popular Parameter Efficient Fine Tuning (PEFT) method that effectively adapts large pre-trained models for downstream tasks. LoRA parameterizes model updates using low-rank matrices at each layer, significantly reducing the number of trainable parameters and, consequently, resource requirements during fine-tuning. However, the lower bound on the number of trainable parameters remains high due to the use of the low-rank matrix model. In this paper, we address this limitation by proposing a novel approach that employs a low rank tensor parametrization for model updates. The proposed low rank tensor model can significantly reduce the number of trainable parameters, while also allowing for finer-grained control over adapter size. Our experiments on Natural Language Understanding, Instruction Tuning, Preference Optimization and Protein Folding benchmarks demonstrate that our method is both efficient and effective for fine-tuning large language models, achieving a substantial reduction in the number of parameters while maintaining comparable performance. | 翻訳日:2024-11-02 14:30:41 公開日:2024-10-15 |
# LoRTA: 大規模言語モデルの低ランクテンソル適応
LoRTA: Low Rank Tensor Adaptation of Large Language Models ( http://arxiv.org/abs/2410.04060v2 ) ライセンス: Link先を確認 | Ignacio Hounie, Charilaos Kanatsoulis, Arnuv Tandon, Alejandro Ribeiro, | (参考訳) ローランク適応(ローランク適応、LoRA)は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT(パラメータ効率の良い微調整)手法である。
LoRAは各レイヤで低ランク行列を使用してモデルの更新をパラメータ化し、トレーニング可能なパラメータの数を著しく削減する。
しかし、低ランク行列モデルを用いることにより、トレーニング可能なパラメータの数に対する低い境界は高いままである。
本稿では,モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案した低階テンソルモデルは、トレーニング可能なパラメータの数を著しく削減し、アダプタサイズをきめ細かな制御を可能にする。
自然言語理解, 命令チューニング, 参照最適化, タンパク質フォールディングのベンチマーク実験により, 提案手法は大規模言語モデルの微調整に有効であり, 比較性能を維持しつつ, パラメータ数の大幅な削減を実現していることが示された。
Low Rank Adaptation (LoRA) is a popular Parameter Efficient Fine Tuning (PEFT) method that effectively adapts large pre-trained models for downstream tasks. LoRA parameterizes model updates using low-rank matrices at each layer, significantly reducing the number of trainable parameters and, consequently, resource requirements during fine-tuning. However, the lower bound on the number of trainable parameters remains high due to the use of the low-rank matrix model. In this paper, we address this limitation by proposing a novel approach that employs a low rank tensor parametrization for model updates. The proposed low rank tensor model can significantly reduce the number of trainable parameters, while also allowing for finer-grained control over adapter size. Our experiments on Natural Language Understanding, Instruction Tuning, Preference Optimization and Protein Folding benchmarks demonstrate that our method is both efficient and effective for fine-tuning large language models, achieving a substantial reduction in the number of parameters while maintaining comparable performance. | 翻訳日:2024-11-02 14:20:57 公開日:2024-10-15 |
# LoRAの学習:大規模微調整モデルのための低ランク重み空間のGL同変処理
Learning on LoRAs: GL-Equivariant Processing of Low-Rank Weight Spaces for Large Finetuned Models ( http://arxiv.org/abs/2410.04207v1 ) ライセンス: Link先を確認 | Theo, Putterman, Derek Lim, Yoav Gelberg, Stefanie Jegelka, Haggai Maron, | (参考訳) 低ランク適応(LoRA)は、大きな基礎モデルの微調整に革命をもたらし、限られた計算資源でも効率的な適応を可能にした。
結果として発生したLoRAの増殖は、これらの低ランクウェイトを入力として利用する機械学習技術を適用するエキサイティングな機会を示します。
本稿では,LoRA重みが機械学習モデルへの入力として機能するパラダイムであるLoRA(Learning on LoRAs)の可能性を検討する。
例えば、入力としてLoRA重みを取り入れたLoLモデルは、下流タスクで微調整されたモデルのパフォーマンスを予測したり、潜在的に有害な微調整を検出したり、あるいは従来の訓練方法なしで新しいモデル編集を生成することもできる。
まず、標準ニューラルネットワークのパラメータ対称性とは大きく異なる重みの低階分解のパラメータ対称性を同定する。
LoRA重みを効率的に処理するために、正準化、不変化、等変層といったツールを用いて、いくつかの対称性対応不変または同変LoLモデルを開発する。
何千ものテキストから画像への拡散モデルと言語モデルを精査し、LoRAのデータセットを収集します。
これらのデータセットの数値実験において、我々のLoLアーキテクチャは、CLIPスコアの予測、データ属性の微調整、データメンバシップの微調整、下流タスクの精度向上のために、低ランクの重み分解を処理できることが示されている。
Low-rank adaptations (LoRAs) have revolutionized the finetuning of large foundation models, enabling efficient adaptation even with limited computational resources. The resulting proliferation of LoRAs presents exciting opportunities for applying machine learning techniques that take these low-rank weights themselves as inputs. In this paper, we investigate the potential of Learning on LoRAs (LoL), a paradigm where LoRA weights serve as input to machine learning models. For instance, an LoL model that takes in LoRA weights as inputs could predict the performance of the finetuned model on downstream tasks, detect potentially harmful finetunes, or even generate novel model edits without traditional training methods. We first identify the inherent parameter symmetries of low rank decompositions of weights, which differ significantly from the parameter symmetries of standard neural networks. To efficiently process LoRA weights, we develop several symmetry-aware invariant or equivariant LoL models, using tools such as canonicalization, invariant featurization, and equivariant layers. We finetune thousands of text-to-image diffusion models and language models to collect datasets of LoRAs. In numerical experiments on these datasets, we show that our LoL architectures are capable of processing low rank weight decompositions to predict CLIP score, finetuning data attributes, finetuning data membership, and accuracy on downstream tasks. | 翻訳日:2024-11-02 13:31:47 公開日:2024-10-15 |
# LoRAの学習:大規模微調整モデルのための低ランク重み空間のGL同変処理
Learning on LoRAs: GL-Equivariant Processing of Low-Rank Weight Spaces for Large Finetuned Models ( http://arxiv.org/abs/2410.04207v2 ) ライセンス: Link先を確認 | Theo Putterman, Derek Lim, Yoav Gelberg, Stefanie Jegelka, Haggai Maron, | (参考訳) 低ランク適応(LoRA)は、大きな基礎モデルの微調整に革命をもたらし、限られた計算資源でも効率的な適応を可能にした。
結果として発生したLoRAの増殖は、これらの低ランクウェイトを入力として利用する機械学習技術を適用するエキサイティングな機会を示します。
本稿では,LoRA重みが機械学習モデルへの入力として機能するパラダイムであるLoRA(Learning on LoRAs)の可能性を検討する。
例えば、入力としてLoRA重みを取り入れたLoLモデルは、下流タスクで微調整されたモデルのパフォーマンスを予測したり、潜在的に有害な微調整を検出したり、あるいは従来の訓練方法なしで新しいモデル編集を生成することもできる。
まず、標準ニューラルネットワークのパラメータ対称性とは大きく異なる重みの低階分解のパラメータ対称性を同定する。
LoRA重みを効率的に処理するために、正準化、不変化、等変層といったツールを用いて、いくつかの対称性対応不変または同変LoLモデルを開発する。
何千ものテキストから画像への拡散モデルと言語モデルを精査し、LoRAのデータセットを収集します。
これらのデータセットの数値実験において、我々のLoLアーキテクチャは、CLIPスコアの予測、データ属性の微調整、データメンバシップの微調整、下流タスクの精度向上のために、低ランクの重み分解を処理できることが示されている。
Low-rank adaptations (LoRAs) have revolutionized the finetuning of large foundation models, enabling efficient adaptation even with limited computational resources. The resulting proliferation of LoRAs presents exciting opportunities for applying machine learning techniques that take these low-rank weights themselves as inputs. In this paper, we investigate the potential of Learning on LoRAs (LoL), a paradigm where LoRA weights serve as input to machine learning models. For instance, an LoL model that takes in LoRA weights as inputs could predict the performance of the finetuned model on downstream tasks, detect potentially harmful finetunes, or even generate novel model edits without traditional training methods. We first identify the inherent parameter symmetries of low rank decompositions of weights, which differ significantly from the parameter symmetries of standard neural networks. To efficiently process LoRA weights, we develop several symmetry-aware invariant or equivariant LoL models, using tools such as canonicalization, invariant featurization, and equivariant layers. We finetune thousands of text-to-image diffusion models and language models to collect datasets of LoRAs. In numerical experiments on these datasets, we show that our LoL architectures are capable of processing low rank weight decompositions to predict CLIP score, finetuning data attributes, finetuning data membership, and accuracy on downstream tasks. | 翻訳日:2024-11-02 13:31:47 公開日:2024-10-15 |
# テスト時間適応の相反するリスクについて--実時間テストデータポジショニングの検討-
On the Adversarial Risk of Test Time Adaptation: An Investigation into Realistic Test-Time Data Poisoning ( http://arxiv.org/abs/2410.04682v1 ) ライセンス: Link先を確認 | Yongyi Su, Yushu Li, Nanqing Liu, Kui Jia, Xulei Yang, Chuan-Sheng Foo, Xun Xu, | (参考訳) テスト時間適応(TTA)は、テストデータを使用して推論段階でモデルの重みを更新し、一般化を強化する。
しかし、この慣行はTTAを敵のリスクにさらしている。
既存の研究では、TTAが逆行性検体(テスト時間有毒データとしても知られる)で更新されると、良性検体の性能が低下することが示されている。
それでも、過度に強い仮定の下で有毒なデータが生成されると、認識された敵のリスクは過大評価される可能性がある。
本研究では、まず、ホワイトボックスとグレイボックスの攻撃、良質なデータへのアクセス、攻撃予算など、テスト時のデータ中毒に関する現実的な仮定をレビューする。
そこで本研究では, 良性試料へのアクセスを必要とせず, 有効かつ現実的な攻撃方法を提案する。
また、TTA対応攻撃目標を2つ設計する。
既存の攻撃手法のベンチマークから,TTA手法は従来考えられていたよりも堅牢であることが明らかとなった。
さらに,対戦型堅牢なTTA手法の開発を支援するための効果的な防衛戦略も分析した。
Test-time adaptation (TTA) updates the model weights during the inference stage using testing data to enhance generalization. However, this practice exposes TTA to adversarial risks. Existing studies have shown that when TTA is updated with crafted adversarial test samples, also known as test-time poisoned data, the performance on benign samples can deteriorate. Nonetheless, the perceived adversarial risk may be overstated if the poisoned data is generated under overly strong assumptions. In this work, we first review realistic assumptions for test-time data poisoning, including white-box versus grey-box attacks, access to benign data, attack budget, and more. We then propose an effective and realistic attack method that better produces poisoned samples without access to benign samples, and derive an effective in-distribution attack objective. We also design two TTA-aware attack objectives. Our benchmarks of existing attack methods reveal that the TTA methods are more robust than previously believed. In addition, we analyze effective defense strategies to help develop adversarially robust TTA methods. | 翻訳日:2024-11-02 02:37:51 公開日:2024-10-15 |
# テスト時間適応の相反するリスクについて--実時間テストデータポジショニングの検討-
On the Adversarial Risk of Test Time Adaptation: An Investigation into Realistic Test-Time Data Poisoning ( http://arxiv.org/abs/2410.04682v2 ) ライセンス: Link先を確認 | Yongyi Su, Yushu Li, Nanqing Liu, Kui Jia, Xulei Yang, Chuan-Sheng Foo, Xun Xu, | (参考訳) テスト時間適応(TTA)は、テストデータを使用して推論段階でモデルの重みを更新し、一般化を強化する。
しかし、この慣行はTTAを敵のリスクにさらしている。
既存の研究では、TTAが逆行性検体(テスト時間有毒データとしても知られる)で更新されると、良性検体の性能が低下することが示されている。
それでも、過度に強い仮定の下で有毒なデータが生成されると、認識された敵のリスクは過大評価される可能性がある。
本研究では、まず、ホワイトボックスとグレイボックスの攻撃、良質なデータへのアクセス、攻撃予算など、テスト時のデータ中毒に関する現実的な仮定をレビューする。
そこで本研究では, 良性試料へのアクセスを必要とせず, 有効かつ現実的な攻撃方法を提案する。
また、TTA対応攻撃目標を2つ設計する。
既存の攻撃手法のベンチマークから,TTA手法は従来考えられていたよりも堅牢であることが明らかとなった。
さらに,対戦型堅牢なTTA手法の開発を支援するための効果的な防衛戦略も分析した。
Test-time adaptation (TTA) updates the model weights during the inference stage using testing data to enhance generalization. However, this practice exposes TTA to adversarial risks. Existing studies have shown that when TTA is updated with crafted adversarial test samples, also known as test-time poisoned data, the performance on benign samples can deteriorate. Nonetheless, the perceived adversarial risk may be overstated if the poisoned data is generated under overly strong assumptions. In this work, we first review realistic assumptions for test-time data poisoning, including white-box versus grey-box attacks, access to benign data, attack budget, and more. We then propose an effective and realistic attack method that better produces poisoned samples without access to benign samples, and derive an effective in-distribution attack objective. We also design two TTA-aware attack objectives. Our benchmarks of existing attack methods reveal that the TTA methods are more robust than previously believed. In addition, we analyze effective defense strategies to help develop adversarially robust TTA methods. | 翻訳日:2024-11-02 02:37:51 公開日:2024-10-15 |
# 3次元視覚における拡散モデル:サーベイ
Diffusion Models in 3D Vision: A Survey ( http://arxiv.org/abs/2410.04738v1 ) ライセンス: Link先を確認 | Zhen Wang, Dongyuan Li, Renhe Jiang, | (参考訳) 近年、3Dビジョンはコンピュータビジョンにおいて重要な分野となり、自律運転、ロボット工学、拡張現実(AR)、医療画像などの幅広い応用に力を入れている。
この分野は、画像やビデオのような2Dデータソースからの3Dシーンの正確な認識、理解、再構築に依存している。
拡散モデルは、もともと2D生成タスク用に設計されたもので、より柔軟で確率的なアプローチの可能性を提供し、現実世界の3Dデータに存在する変動性と不確実性をよりよく捉えることができる。
しかし、従来の手法は効率とスケーラビリティに悩まされることが多い。
本稿では,3次元オブジェクト生成,形状完備化,点雲再構成,シーン理解など,3次元視覚タスクの拡散モデルを活用する最先端のアプローチを概観する。
拡散モデルの基礎となる数学的原理について深く議論し、それらの前方および逆プロセスの概要と、これらのモデルが3Dデータセットで動作できるようにする様々なアーキテクチャの進歩について概説する。
また、オクルージョンの処理や点密度の変化、高次元データの計算要求など、3次元視覚に拡散モデルを適用する際の重要な課題についても論じる。
最後に、計算効率の向上、マルチモーダル融合の強化、大規模事前学習による3次元タスクの一般化の促進など、潜在的な解決策について議論する。
本論文は, この急速に発展する分野における今後の探査・開発の基礎となる。
In recent years, 3D vision has become a crucial field within computer vision, powering a wide range of applications such as autonomous driving, robotics, augmented reality (AR), and medical imaging. This field relies on the accurate perception, understanding, and reconstruction of 3D scenes from 2D data sources like images and videos. Diffusion models, originally designed for 2D generative tasks, offer the potential for more flexible, probabilistic approaches that can better capture the variability and uncertainty present in real-world 3D data. However, traditional methods often struggle with efficiency and scalability. In this paper, we review the state-of-the-art approaches that leverage diffusion models for 3D visual tasks, including but not limited to 3D object generation, shape completion, point cloud reconstruction, and scene understanding. We provide an in-depth discussion of the underlying mathematical principles of diffusion models, outlining their forward and reverse processes, as well as the various architectural advancements that enable these models to work with 3D datasets. We also discuss the key challenges in applying diffusion models to 3D vision, such as handling occlusions and varying point densities, and the computational demands of high-dimensional data. Finally, we discuss potential solutions, including improving computational efficiency, enhancing multimodal fusion, and exploring the use of large-scale pretraining for better generalization across 3D tasks. This paper serves as a foundation for future exploration and development in this rapidly evolving field. | 翻訳日:2024-11-02 02:17:53 公開日:2024-10-15 |
# 3次元視覚における拡散モデル:サーベイ
Diffusion Models in 3D Vision: A Survey ( http://arxiv.org/abs/2410.04738v2 ) ライセンス: Link先を確認 | Zhen Wang, Dongyuan Li, Renhe Jiang, | (参考訳) 近年、3Dビジョンはコンピュータビジョンにおいて重要な分野となり、自律運転、ロボット工学、拡張現実(AR)、医療画像などの幅広い応用に力を入れている。
この分野は、画像やビデオのような2Dデータソースからの3Dシーンの正確な認識、理解、再構築に依存している。
拡散モデルは、もともと2D生成タスク用に設計されたもので、より柔軟で確率的なアプローチの可能性を提供し、現実世界の3Dデータに存在する変動性と不確実性をよりよく捉えることができる。
しかし、従来の手法は効率とスケーラビリティに悩まされることが多い。
本稿では,3次元オブジェクト生成,形状完備化,点雲再構成,シーン理解など,3次元視覚タスクの拡散モデルを活用する最先端のアプローチを概観する。
拡散モデルの基礎となる数学的原理について深く議論し、それらの前方および逆プロセスの概要と、これらのモデルが3Dデータセットで動作できるようにする様々なアーキテクチャの進歩について概説する。
また、オクルージョンの処理や点密度の変化、高次元データの計算要求など、3次元視覚に拡散モデルを適用する際の重要な課題についても論じる。
最後に、計算効率の向上、マルチモーダル融合の強化、大規模事前学習による3次元タスクの一般化の促進など、潜在的な解決策について議論する。
本論文は, この急速に発展する分野における今後の探査・開発の基礎となる。
In recent years, 3D vision has become a crucial field within computer vision, powering a wide range of applications such as autonomous driving, robotics, augmented reality (AR), and medical imaging. This field relies on the accurate perception, understanding, and reconstruction of 3D scenes from 2D data sources like images and videos. Diffusion models, originally designed for 2D generative tasks, offer the potential for more flexible, probabilistic approaches that can better capture the variability and uncertainty present in real-world 3D data. However, traditional methods often struggle with efficiency and scalability. In this paper, we review the state-of-the-art approaches that leverage diffusion models for 3D visual tasks, including but not limited to 3D object generation, shape completion, point cloud reconstruction, and scene understanding. We provide an in-depth discussion of the underlying mathematical principles of diffusion models, outlining their forward and reverse processes, as well as the various architectural advancements that enable these models to work with 3D datasets. We also discuss the key challenges in applying diffusion models to 3D vision, such as handling occlusions and varying point densities, and the computational demands of high-dimensional data. Finally, we discuss potential solutions, including improving computational efficiency, enhancing multimodal fusion, and exploring the use of large-scale pretraining for better generalization across 3D tasks. This paper serves as a foundation for future exploration and development in this rapidly evolving field. | 翻訳日:2024-11-02 02:17:53 公開日:2024-10-15 |
# リワードモデルの評価を再考する: ワームツリーを損なうのか?
Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree? ( http://arxiv.org/abs/2410.05584v1 ) ライセンス: Link先を確認 | Xueru Wen, Jie Lou, Yaojie Lu, Hongyu Lin, Xing Yu, Xinyu Lu, Ben He, Xianpei Han, Debing Zhang, Le Sun, | (参考訳) リワードモデル(RM)は、言語モデルと人間の嗜好の整合に不可欠である。
現在、RMの評価は、手動で注釈付けされた好みデータの検証セットに対する精度の測定に依存する。
この手法は単純で広く採用されているが、RM精度と下流政策性能の関係は未解明のままである。
本研究では, RMの精度差が, 最適化された政策性能のギャップにどのように変換されるかを検討するために, 合成環境で実験を行う。
以上の結果から, 精度と下流性能との間には正の相関が弱いが, 類似した精度でRMに最適化されたポリシーは, 全く異なる性能を示すことが示唆された。
さらに,精度の測定方法が最終的な政策性能を予測する能力に大きく影響していることが判明した。
回帰グッドハート効果のレンズを通して、精度によって測定されたRM品質と政策モデル能力の関係に影響を及ぼす外因性変数の存在を同定する。
このことは、政策最適化への影響を反映する正確性のみに依存する不適切さを浮き彫りにする。
Reward Models (RMs) are crucial for aligning language models with human preferences. Currently, the evaluation of RMs depends on measuring accuracy against a validation set of manually annotated preference data. Although this method is straightforward and widely adopted, the relationship between RM accuracy and downstream policy performance remains under-explored. In this work, we conduct experiments in a synthetic setting to investigate how differences in RM measured by accuracy translate into gaps in optimized policy performance. Our findings reveal that while there is a weak positive correlation between accuracy and downstream performance, policies optimized towards RMs with similar accuracy can exhibit quite different performance. Moreover, we discover that the way of measuring accuracy significantly impacts its ability to predict the final policy performance. Through the lens of Regressional Goodhart's effect, we identify the existence of exogenous variables impacting the relationship between RM quality measured by accuracy and policy model capability. This underscores the inadequacy of relying solely on accuracy to reflect their impact on policy optimization. | 翻訳日:2024-11-01 17:48:36 公開日:2024-10-15 |
# リワードモデルの評価を再考する: ワームツリーを損なうのか?
Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree? ( http://arxiv.org/abs/2410.05584v2 ) ライセンス: Link先を確認 | Xueru Wen, Jie Lou, Yaojie Lu, Hongyu Lin, Xing Yu, Xinyu Lu, Ben He, Xianpei Han, Debing Zhang, Le Sun, | (参考訳) リワードモデル(RM)は、言語モデルと人間の嗜好の整合に不可欠である。
現在、RMの評価は、手動で注釈付けされた好みデータの検証セットに対する精度の測定に依存する。
この手法は単純で広く採用されているが、RM精度と下流政策性能の関係は未解明のままである。
本研究では, RMの精度差が, 最適化された政策性能のギャップにどのように変換されるかを検討するために, 合成環境で実験を行う。
以上の結果から, 精度と下流性能との間には正の相関が弱いが, 類似した精度でRMに最適化されたポリシーは, 全く異なる性能を示すことが示唆された。
さらに,精度の測定方法が最終的な政策性能を予測する能力に大きく影響していることが判明した。
回帰グッドハート効果のレンズを通して、精度によって測定されたRM品質と政策モデル能力の関係に影響を及ぼす外因性変数の存在を同定する。
このことは、政策最適化への影響を反映する正確性のみに依存する不適切さを浮き彫りにする。
Reward Models (RMs) are crucial for aligning language models with human preferences. Currently, the evaluation of RMs depends on measuring accuracy against a validation set of manually annotated preference data. Although this method is straightforward and widely adopted, the relationship between RM accuracy and downstream policy performance remains under-explored. In this work, we conduct experiments in a synthetic setting to investigate how differences in RM measured by accuracy translate into gaps in optimized policy performance. Our findings reveal that while there is a weak positive correlation between accuracy and downstream performance, policies optimized towards RMs with similar accuracy can exhibit quite different performance. Moreover, we discover that the way of measuring accuracy significantly impacts its ability to predict the final policy performance. Through the lens of Regressional Goodhart's effect, we identify the existence of exogenous variables impacting the relationship between RM quality measured by accuracy and policy model capability. This underscores the inadequacy of relying solely on accuracy to reflect their impact on policy optimization. | 翻訳日:2024-11-01 17:48:36 公開日:2024-10-15 |
# 道路レーンマッピングの進歩:空中画像を用いた深層学習に基づくセマンティックセグメンテーション法の比較微調整解析
Advancements in Road Lane Mapping: Comparative Fine-Tuning Analysis of Deep Learning-based Semantic Segmentation Methods Using Aerial Imagery ( http://arxiv.org/abs/2410.05717v1 ) ライセンス: Link先を確認 | Xuanchen, Liu, Shuxin Qiao, Kyle Gao, Hongjie He, Michael A. Chapman, Linlin Xu, Jonathan Li, | (参考訳) 本研究は,航空画像から得られた道路路面情報に着目し,自律走行車(AV)のHDマップの必要性に対処するものである。
地球観測データは地図作成に有用な資源を提供するが、道路線抽出の専門モデルはまだリモートセンシングでは未開発である。
本研究では,高精細度リモートセンシング画像から道路路面マーキング抽出のための基礎的深層学習に基づくセマンティックセマンティックセマンティックセマンティクスモデル12件の比較を行い,その性能を部分的にラベル付きデータセットを用いて評価した。
これらのモデルは、部分的にラベル付けされたWaterloo Urban Sceneデータセットに基づいて微調整され、SkyScapesデータセットで事前トレーニングされた。
微調整性能と全体的な性能を観察,評価した。
IoUスコアは33.56%から76.11%、リコールは66.0%から98.96%だった。
トランスフォーマーベースのモデルは畳み込みニューラルネットワークより優れており、AVナビゲーションのためのHDマップ開発を強化する上で、モデル事前トレーニングと微調整の重要性を強調している。
This research addresses the need for high-definition (HD) maps for autonomous vehicles (AVs), focusing on road lane information derived from aerial imagery. While Earth observation data offers valuable resources for map creation, specialized models for road lane extraction are still underdeveloped in remote sensing. In this study, we perform an extensive comparison of twelve foundational deep learning-based semantic segmentation models for road lane marking extraction from high-definition remote sensing images, assessing their performance under transfer learning with partially labeled datasets. These models were fine-tuned on the partially labeled Waterloo Urban Scene dataset, and pre-trained on the SkyScapes dataset, simulating a likely scenario of real-life model deployment under partial labeling. We observed and assessed the fine-tuning performance and overall performance. Models showed significant performance improvements after fine-tuning, with mean IoU scores ranging from 33.56% to 76.11%, and recall ranging from 66.0% to 98.96%. Transformer-based models outperformed convolutional neural networks, emphasizing the importance of model pre-training and fine-tuning in enhancing HD map development for AV navigation. | 翻訳日:2024-11-01 13:19:50 公開日:2024-10-15 |
# 道路レーンマッピングの進歩:空中画像を用いた深層学習に基づくセマンティックセグメンテーション法の比較微調整解析
Advancements in Road Lane Mapping: Comparative Fine-Tuning Analysis of Deep Learning-based Semantic Segmentation Methods Using Aerial Imagery ( http://arxiv.org/abs/2410.05717v2 ) ライセンス: Link先を確認 | Willow Liu, Shuxin Qiao, Kyle Gao, Hongjie He, Michael A. Chapman, Linlin Xu, Jonathan Li, | (参考訳) 本研究は,航空画像から得られた道路路面情報に着目し,自律走行車(AV)のHDマップの必要性に対処するものである。
地球観測データは地図作成に有用な資源を提供するが、道路線抽出の専門モデルはまだリモートセンシングでは未開発である。
本研究では,高精細度リモートセンシング画像から道路路面マーキング抽出のための基礎的深層学習に基づくセマンティックセマンティックセマンティックセマンティクスモデル12件の比較を行い,その性能を部分的にラベル付きデータセットを用いて評価した。
これらのモデルは、部分的にラベル付けされたWaterloo Urban Sceneデータセットに基づいて微調整され、SkyScapesデータセットで事前トレーニングされた。
微調整性能と全体的な性能を観察,評価した。
IoUスコアは33.56%から76.11%、リコールは66.0%から98.96%だった。
トランスフォーマーベースのモデルは畳み込みニューラルネットワークより優れており、AVナビゲーションのためのHDマップ開発を強化する上で、モデル事前トレーニングと微調整の重要性を強調している。
This research addresses the need for high-definition (HD) maps for autonomous vehicles (AVs), focusing on road lane information derived from aerial imagery. While Earth observation data offers valuable resources for map creation, specialized models for road lane extraction are still underdeveloped in remote sensing. In this study, we perform an extensive comparison of twelve foundational deep learning-based semantic segmentation models for road lane marking extraction from high-definition remote sensing images, assessing their performance under transfer learning with partially labeled datasets. These models were fine-tuned on the partially labeled Waterloo Urban Scene dataset, and pre-trained on the SkyScapes dataset, simulating a likely scenario of real-life model deployment under partial labeling. We observed and assessed the fine-tuning performance and overall performance. Models showed significant performance improvements after fine-tuning, with mean IoU scores ranging from 33.56% to 76.11%, and recall ranging from 66.0% to 98.96%. Transformer-based models outperformed convolutional neural networks, emphasizing the importance of model pre-training and fine-tuning in enhancing HD map development for AV navigation. | 翻訳日:2024-11-01 13:19:50 公開日:2024-10-15 |
# ActionAtlas: ドメイン特化アクション認識のためのビデオQAベンチマーク
ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition ( http://arxiv.org/abs/2410.05774v1 ) ライセンス: Link先を確認 | Mohammadreza Salehi, Jae Sung Park, Tanush Yadav, Aditya Kusupati, Ranjay Krishna, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi, | (参考訳) 私たちの世界はさまざまな行動に満ちており、私たちは人間として、識別と理解を試みている特別な領域を横断しています。
単一のドメイン内では、アクションはよく似たように見えるため、ディープモデルがそれらを正確に区別することは困難である。
このような行動の認識を支援するためのマルチモーダル基盤モデルの有効性を評価するために,各種スポーツのショートビデオを特徴とするマルチチョイスビデオ質問応答ベンチマークであるActionAtlas v1.0を提案する。
データセット内の各ビデオには、質問と4、5の選択肢がペアリングされる。
この質問は特定の個人をピンポイントし、どの選択が「ベスト」であるかを尋ねる。
このデータセットには、56のスポーツで580のユニークなアクションを示す934の動画が含まれており、合計1896のアクションが選択できる。
単純なアクションのみをカバーする既存のビデオ質問応答ベンチマークとは異なり、ActionAtlasは複雑な動きに焦点を当て、各ドメイン内で類似している動き間の微妙な違いを識別するモデルの能力を厳格にテストする。
我々は、このベンチマークでオープンでプロプライエタリな基礎モデルを評価し、最高のモデルであるGPT-4oが45.52%の精度を達成することを発見した。
一方、各選択に対するアクション記述が提供される非熟練の群衆労働者は、61.64%の精度でランダムな確率は約21%である。
その結果,Geminiのような主要なプロプライエタリなビデオモデルではデフォルト設定に含まれない機能であるActionAtlasのアクションを正確に認識するには,フレームサンプリング率が高いことが示唆された。
Our world is full of varied actions and moves across specialized domains that we, as humans, strive to identify and understand. Within any single domain, actions can often appear quite similar, making it challenging for deep models to distinguish them accurately. To evaluate the effectiveness of multimodal foundation models in helping us recognize such actions, we present ActionAtlas v1.0, a multiple-choice video question answering benchmark featuring short videos across various sports. Each video in the dataset is paired with a question and four or five choices. The question pinpoints specific individuals, asking which choice "best" describes their action within a certain temporal context. Overall, the dataset includes 934 videos showcasing 580 unique actions across 56 sports, with a total of 1896 actions within choices. Unlike most existing video question answering benchmarks that only cover simplistic actions, often identifiable from a single frame, ActionAtlas focuses on intricate movements and rigorously tests the model's capability to discern subtle differences between moves that look similar within each domain. We evaluate open and proprietary foundation models on this benchmark, finding that the best model, GPT-4o, achieves a maximum accuracy of 45.52%. Meanwhile, Non-expert crowd workers, provided with action description for each choice, achieve 61.64% accuracy, where random chance is approximately 21%. Our findings with state-of-the-art models indicate that having a high frame sampling rate is important for accurately recognizing actions in ActionAtlas, a feature that some leading proprietary video models, such as Gemini, do not include in their default configuration. | 翻訳日:2024-11-01 12:59:37 公開日:2024-10-15 |
# ActionAtlas: ドメイン特化アクション認識のためのビデオQAベンチマーク
ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition ( http://arxiv.org/abs/2410.05774v2 ) ライセンス: Link先を確認 | Mohammadreza Salehi, Jae Sung Park, Tanush Yadav, Aditya Kusupati, Ranjay Krishna, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi, | (参考訳) 私たちの世界はさまざまな行動に満ちており、私たちは人間として、識別と理解を試みている特別な領域を横断しています。
単一のドメイン内では、アクションはよく似たように見えるため、ディープモデルがそれらを正確に区別することは困難である。
このような行動の認識を支援するためのマルチモーダル基盤モデルの有効性を評価するために,各種スポーツのショートビデオを特徴とするマルチチョイスビデオ質問応答ベンチマークであるActionAtlas v1.0を提案する。
データセット内の各ビデオには、質問と4、5の選択肢がペアリングされる。
この質問は特定の個人をピンポイントし、どの選択が「ベスト」であるかを尋ねる。
このデータセットには、56のスポーツで580のユニークなアクションを示す934の動画が含まれており、合計1896のアクションが選択できる。
単純なアクションのみをカバーする既存のビデオ質問応答ベンチマークとは異なり、ActionAtlasは複雑な動きに焦点を当て、各ドメイン内で類似している動き間の微妙な違いを識別するモデルの能力を厳格にテストする。
我々は、このベンチマークでオープンでプロプライエタリな基礎モデルを評価し、最高のモデルであるGPT-4oが45.52%の精度を達成することを発見した。
一方、各選択に対するアクション記述が提供される非熟練の群衆労働者は、61.64%の精度でランダムな確率は約21%である。
その結果,Geminiのような主要なプロプライエタリなビデオモデルではデフォルト設定に含まれない機能であるActionAtlasのアクションを正確に認識するには,フレームサンプリング率が高いことが示唆された。
Our world is full of varied actions and moves across specialized domains that we, as humans, strive to identify and understand. Within any single domain, actions can often appear quite similar, making it challenging for deep models to distinguish them accurately. To evaluate the effectiveness of multimodal foundation models in helping us recognize such actions, we present ActionAtlas v1.0, a multiple-choice video question answering benchmark featuring short videos across various sports. Each video in the dataset is paired with a question and four or five choices. The question pinpoints specific individuals, asking which choice "best" describes their action within a certain temporal context. Overall, the dataset includes 934 videos showcasing 580 unique actions across 56 sports, with a total of 1896 actions within choices. Unlike most existing video question answering benchmarks that only cover simplistic actions, often identifiable from a single frame, ActionAtlas focuses on intricate movements and rigorously tests the model's capability to discern subtle differences between moves that look similar within each domain. We evaluate open and proprietary foundation models on this benchmark, finding that the best model, GPT-4o, achieves a maximum accuracy of 45.52%. Meanwhile, Non-expert crowd workers, provided with action description for each choice, achieve 61.64% accuracy, where random chance is approximately 21%. Our findings with state-of-the-art models indicate that having a high frame sampling rate is important for accurately recognizing actions in ActionAtlas, a feature that some leading proprietary video models, such as Gemini, do not include in their default configuration. | 翻訳日:2024-11-01 12:59:37 公開日:2024-10-15 |
# ActionAtlas: ドメイン特化アクション認識のためのビデオQAベンチマーク
ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition ( http://arxiv.org/abs/2410.05774v3 ) ライセンス: Link先を確認 | Mohammadreza Salehi, Jae Sung Park, Tanush Yadav, Aditya Kusupati, Ranjay Krishna, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi, | (参考訳) 私たちの世界はさまざまな行動に満ちており、私たちは人間として、識別と理解を試みている特別な領域を横断しています。
単一のドメイン内では、アクションはよく似たように見えるため、ディープモデルがそれらを正確に区別することは困難である。
このような行動の認識を支援するためのマルチモーダル基盤モデルの有効性を評価するために,各種スポーツのショートビデオを特徴とするマルチチョイスビデオ質問応答ベンチマークであるActionAtlas v1.0を提案する。
データセット内の各ビデオには、質問と4、5の選択肢がペアリングされる。
この質問は特定の個人をピンポイントし、どの選択が「ベスト」であるかを尋ねる。
このデータセットには、56のスポーツで580のユニークなアクションを示す934の動画が含まれており、合計1896のアクションが選択できる。
単純なアクションのみをカバーする既存のビデオ質問応答ベンチマークとは異なり、ActionAtlasは複雑な動きに焦点を当て、各ドメイン内で類似している動き間の微妙な違いを識別するモデルの能力を厳格にテストする。
我々は、このベンチマークでオープンでプロプライエタリな基礎モデルを評価し、最高のモデルであるGPT-4oが45.52%の精度を達成することを発見した。
一方、各選択に対するアクション記述が提供される非熟練の群衆労働者は、61.64%の精度でランダムな確率は約21%である。
その結果,Geminiのような主要なプロプライエタリなビデオモデルではデフォルト設定に含まれない機能であるActionAtlasのアクションを正確に認識するには,フレームサンプリング率が高いことが示唆された。
Our world is full of varied actions and moves across specialized domains that we, as humans, strive to identify and understand. Within any single domain, actions can often appear quite similar, making it challenging for deep models to distinguish them accurately. To evaluate the effectiveness of multimodal foundation models in helping us recognize such actions, we present ActionAtlas v1.0, a multiple-choice video question answering benchmark featuring short videos across various sports. Each video in the dataset is paired with a question and four or five choices. The question pinpoints specific individuals, asking which choice "best" describes their action within a certain temporal context. Overall, the dataset includes 934 videos showcasing 580 unique actions across 56 sports, with a total of 1896 actions within choices. Unlike most existing video question answering benchmarks that only cover simplistic actions, often identifiable from a single frame, ActionAtlas focuses on intricate movements and rigorously tests the model's capability to discern subtle differences between moves that look similar within each domain. We evaluate open and proprietary foundation models on this benchmark, finding that the best model, GPT-4o, achieves a maximum accuracy of 45.52%. Meanwhile, Non-expert crowd workers, provided with action description for each choice, achieve 61.64% accuracy, where random chance is approximately 21%. Our findings with state-of-the-art models indicate that having a high frame sampling rate is important for accurately recognizing actions in ActionAtlas, a feature that some leading proprietary video models, such as Gemini, do not include in their default configuration. | 翻訳日:2024-11-01 12:59:37 公開日:2024-10-15 |
# HumVI:人道支援に影響を及ぼす暴力行為を検知する多言語データセット
HumVI: A Multilingual Dataset for Detecting Violent Incidents Impacting Humanitarian Aid ( http://arxiv.org/abs/2410.06370v1 ) ライセンス: Link先を確認 | Hemank Lamba, Anton Abilov, Ke Zhang, Elizabeth M. Olson, Henry k. Dambanemuya, João c. Bárcia, David S. Batista, Christina Wille, Aoife Cahill, Joel Tetreault, Alex Jaimes, | (参考訳) 人道的な組織は、トレンドを発見するためにデータを分析し、集約された洞察を集め、セキュリティリスクを管理し、意思決定をサポートし、擁護と資金提供の提案を通知することで、その効果を高めることができる。
しかし、人道支援活動の直接的な影響と関連性を伴う暴力事件に関するデータは、すぐには入手できない。
人道的な視点に沿った自動データ収集とNLP支援の分類フレームワークは、このギャップを埋めるのに役立つ。
本稿では,HumVIという3つの言語(英語,フランス語,アラビア語)のニュース記事からなるデータセットについて紹介する。
信頼性の高いラベルは、データ支援の人道組織であるInsecurity Insightと提携して取得された。
データセットに複数のベンチマークを提供し、データ拡張やマスク損失など、さまざまなディープラーニングアーキテクチャとテクニックを活用して、ドメイン拡張など、さまざまなタスク関連の課題に対処しています。
データセットはhttps://github.com/dataminr-ai/humvi-datasetで公開されている。
Humanitarian organizations can enhance their effectiveness by analyzing data to discover trends, gather aggregated insights, manage their security risks, support decision-making, and inform advocacy and funding proposals. However, data about violent incidents with direct impact and relevance for humanitarian aid operations is not readily available. An automatic data collection and NLP-backed classification framework aligned with humanitarian perspectives can help bridge this gap. In this paper, we present HumVI - a dataset comprising news articles in three languages (English, French, Arabic) containing instances of different types of violent incidents categorized by the humanitarian sector they impact, e.g., aid security, education, food security, health, and protection. Reliable labels were obtained for the dataset by partnering with a data-backed humanitarian organization, Insecurity Insight. We provide multiple benchmarks for the dataset, employing various deep learning architectures and techniques, including data augmentation and mask loss, to address different task-related challenges, e.g., domain expansion. The dataset is publicly available at https://github.com/dataminr-ai/humvi-dataset. | 翻訳日:2024-11-01 06:09:19 公開日:2024-10-15 |
# HumVI:人道支援に影響を及ぼす暴力行為を検知する多言語データセット
HumVI: A Multilingual Dataset for Detecting Violent Incidents Impacting Humanitarian Aid ( http://arxiv.org/abs/2410.06370v2 ) ライセンス: Link先を確認 | Hemank Lamba, Anton Abilov, Ke Zhang, Elizabeth M. Olson, Henry k. Dambanemuya, João c. Bárcia, David S. Batista, Christina Wille, Aoife Cahill, Joel Tetreault, Alex Jaimes, | (参考訳) 人道的な組織は、トレンドを発見するためにデータを分析し、集約された洞察を集め、セキュリティリスクを管理し、意思決定をサポートし、擁護と資金提供の提案を通知することで、その効果を高めることができる。
しかし、人道支援活動の直接的な影響と関連性を伴う暴力事件に関するデータは、すぐには入手できない。
人道的な視点に沿った自動データ収集とNLP支援の分類フレームワークは、このギャップを埋めるのに役立つ。
本稿では,HumVIという3つの言語(英語,フランス語,アラビア語)のニュース記事からなるデータセットについて紹介する。
信頼性の高いラベルは、データ支援の人道組織であるInsecurity Insightと提携して取得された。
データセットに複数のベンチマークを提供し、データ拡張やマスク損失など、さまざまなディープラーニングアーキテクチャとテクニックを活用して、ドメイン拡張など、さまざまなタスク関連の課題に対処しています。
データセットはhttps://github.com/dataminr-ai/humvi-datasetで公開されている。
Humanitarian organizations can enhance their effectiveness by analyzing data to discover trends, gather aggregated insights, manage their security risks, support decision-making, and inform advocacy and funding proposals. However, data about violent incidents with direct impact and relevance for humanitarian aid operations is not readily available. An automatic data collection and NLP-backed classification framework aligned with humanitarian perspectives can help bridge this gap. In this paper, we present HumVI - a dataset comprising news articles in three languages (English, French, Arabic) containing instances of different types of violent incidents categorized by the humanitarian sector they impact, e.g., aid security, education, food security, health, and protection. Reliable labels were obtained for the dataset by partnering with a data-backed humanitarian organization, Insecurity Insight. We provide multiple benchmarks for the dataset, employing various deep learning architectures and techniques, including data augmentation and mask loss, to address different task-related challenges, e.g., domain expansion. The dataset is publicly available at https://github.com/dataminr-ai/humvi-dataset. | 翻訳日:2024-11-01 06:09:19 公開日:2024-10-15 |
# 大規模言語モデルにおける微調整アンラーニングの解法
Dissecting Fine-Tuning Unlearning in Large Language Models ( http://arxiv.org/abs/2410.06606v1 ) ライセンス: Link先を確認 | Yihuai Hong, Yuelin Zou, Lijie Hu, Ziqian Zeng, Di Wang, Haiqin Yang, | (参考訳) 微調整に基づくアンラーニング手法は、全体的な能力を保ちながら、大きな言語モデル内で標的となる有害、機密、または著作権情報を防ぐのに有効である。
しかし、これらの手法の真の有効性は明らかでない。
本稿では、アクティベーションパッチやパラメータ復元実験を通じて、微調整に基づく未学習の限界を掘り下げる。
その結果,これらの手法がモデルパラメータに埋め込まれた問題知識を真に消去するのではなく,モデルの知識検索プロセスを変化させることが判明した。
さらに、行動テストは、学習されていないメカニズムがモデルのグローバルな振る舞いに必然的に影響を与え、無関係な知識や能力に影響を与えることを示した。
我々の研究は、真に知識を根絶するためのより回復力のある未学習技術の開発を提唱している。
私たちのコードはhttps://github.com/yihuaihong/Dissecting-FT-Unlearning.comで公開されています。
Fine-tuning-based unlearning methods prevail for preventing targeted harmful, sensitive, or copyrighted information within large language models while preserving overall capabilities. However, the true effectiveness of these methods is unclear. In this paper, we delve into the limitations of fine-tuning-based unlearning through activation patching and parameter restoration experiments. Our findings reveal that these methods alter the model's knowledge retrieval process, rather than genuinely erasing the problematic knowledge embedded in the model parameters. Furthermore, behavioral tests demonstrate that the unlearning mechanisms inevitably impact the global behavior of the models, affecting unrelated knowledge or capabilities. Our work advocates the development of more resilient unlearning techniques for truly erasing knowledge. Our code is released at https://github.com/yihuaihong/Dissecting-FT-Unlearning. | 翻訳日:2024-11-01 04:49:21 公開日:2024-10-15 |
# 大規模言語モデルにおける微調整アンラーニングの解法
Dissecting Fine-Tuning Unlearning in Large Language Models ( http://arxiv.org/abs/2410.06606v2 ) ライセンス: Link先を確認 | Yihuai Hong, Yuelin Zou, Lijie Hu, Ziqian Zeng, Di Wang, Haiqin Yang, | (参考訳) 微調整に基づくアンラーニング手法は、全体的な能力を保ちながら、大きな言語モデル内で標的となる有害、機密、または著作権情報を防ぐのに有効である。
しかし、これらの手法の真の有効性は明らかでない。
本研究では、アクティベーションパッチやパラメータ復元実験を通じて、微調整に基づく未学習の限界を掘り下げる。
以上の結果から,これらの手法がモデルの知識検索プロセスを変化させることが明らかとなり,モデルパラメータに埋め込まれた問題知識を真に消去することができないことが示唆された。
その代わり、モデルの最終層のMLPコンポーネントによって生成される係数は、一見正の未学習効果に対する主要な貢献者であり、モデルの振る舞いを制御する上で重要な役割を果たす。
さらに、振る舞いテストは、この非学習メカニズムがモデルのグローバルな振る舞いに必然的に影響を与え、無関係な知識や能力に影響を与えることを示した。
コードはhttps://github.com/yihuaihong/Dissecting-FT-Unlearningで公開されている。
Fine-tuning-based unlearning methods prevail for preventing targeted harmful, sensitive, or copyrighted information within large language models while preserving overall capabilities. However, the true effectiveness of these methods is unclear. In this work, we delve into the limitations of fine-tuning-based unlearning through activation patching and parameter restoration experiments. Our findings reveal that these methods alter the model's knowledge retrieval process, providing further evidence that they do not genuinely erase the problematic knowledge embedded in the model parameters. Instead, the coefficients generated by the MLP components in the model's final layer are the primary contributors to these seemingly positive unlearning effects, playing a crucial role in controlling the model's behaviors. Furthermore, behavioral tests demonstrate that this unlearning mechanism inevitably impacts the global behavior of the models, affecting unrelated knowledge or capabilities. The code is released at https://github.com/yihuaihong/Dissecting-FT-Unlearning. | 翻訳日:2024-11-01 04:49:21 公開日:2024-10-15 |
# 大規模言語モデルのための学習ツール
Learning Evolving Tools for Large Language Models ( http://arxiv.org/abs/2410.06617v1 ) ライセンス: Link先を確認 | Guoxin Chen, Zhong Zhang, Xin Cong, Fangda Guo, Yesai Wu, Yankai Lin, Wenzheng Feng, Yasheng Wang, | (参考訳) ツール学習により、大きな言語モデル(LLM)が外部のツールやAPIと対話し、LLMのアプリケーションスコープを大幅に拡張できる。
しかし、外部環境の動的な性質のため、これらのツールやAPIは時間が経つにつれて時代遅れになり、LSMが正しくツールを呼び出すのを防ぐことができる。
既存の研究は主に静的環境に焦点を当てており、現実のアプリケーションにおけるLLMの適応性を制限することでこの問題を見落としている。
本稿では,ツール変数に対するLLMの適応性と反射性を向上する新しいフレームワークであるToolEVOを提案する。
Monte Carlo Tree Searchを活用することで、ToolEVOは動的環境内のLLMの積極的な探索と相互作用を促進し、環境フィードバックに基づいた自動自己回帰とツール使用の自己更新を可能にする。
さらに、ツール変数の影響を評価するために特別に設計されたベンチマークであるToolQA-Dを紹介する。
本手法の有効性と安定性を実証し,ツール学習におけるツールの多様性への適応性の重要性を強調した。
Tool learning enables large language models (LLMs) to interact with external tools and APIs, greatly expanding the application scope of LLMs. However, due to the dynamic nature of external environments, these tools and APIs may become outdated over time, preventing LLMs from correctly invoking tools. Existing research primarily focuses on static environments and overlooks this issue, limiting the adaptability of LLMs in real-world applications. In this paper, we propose ToolEVO, a novel framework designed to enhance the adaptive and reflective capabilities of LLMs against tool variability. By leveraging Monte Carlo Tree Search, ToolEVO facilitates active exploration and interaction of LLMs within dynamic environments, allowing for autonomous self-reflection and self-updating of tool usage based on environmental feedback. Additionally, we introduce ToolQA-D, a benchmark specifically designed to evaluate the impact of tool variability. Extensive experiments demonstrate the effectiveness and stability of our approach, highlighting the importance of adaptability to tool variability for effective tool learning. | 翻訳日:2024-11-01 04:39:35 公開日:2024-10-15 |
# 大規模言語モデルのための学習ツール
Learning Evolving Tools for Large Language Models ( http://arxiv.org/abs/2410.06617v2 ) ライセンス: Link先を確認 | Guoxin Chen, Zhong Zhang, Xin Cong, Fangda Guo, Yesai Wu, Yankai Lin, Wenzheng Feng, Yasheng Wang, | (参考訳) ツール学習により、大きな言語モデル(LLM)が外部のツールやAPIと対話し、LLMのアプリケーションスコープを大幅に拡張できる。
しかし、外部環境の動的な性質のため、これらのツールやAPIは時間が経つにつれて時代遅れになり、LSMが正しくツールを呼び出すのを防ぐことができる。
既存の研究は主に静的環境に焦点を当てており、現実のアプリケーションにおけるLLMの適応性を制限することでこの問題を見落としている。
本稿では,ツール変数に対するLLMの適応性と反射性を向上する新しいフレームワークであるToolEVOを提案する。
Monte Carlo Tree Searchを活用することで、ToolEVOは動的環境内のLLMの積極的な探索と相互作用を促進し、環境フィードバックに基づいた自動自己回帰とツール使用の自己更新を可能にする。
さらに、ツール変数の影響を評価するために特別に設計されたベンチマークであるToolQA-Dを紹介する。
本手法の有効性と安定性を実証し,ツール学習におけるツールの多様性への適応性の重要性を強調した。
Tool learning enables large language models (LLMs) to interact with external tools and APIs, greatly expanding the application scope of LLMs. However, due to the dynamic nature of external environments, these tools and APIs may become outdated over time, preventing LLMs from correctly invoking tools. Existing research primarily focuses on static environments and overlooks this issue, limiting the adaptability of LLMs in real-world applications. In this paper, we propose ToolEVO, a novel framework designed to enhance the adaptive and reflective capabilities of LLMs against tool variability. By leveraging Monte Carlo Tree Search, ToolEVO facilitates active exploration and interaction of LLMs within dynamic environments, allowing for autonomous self-reflection and self-updating of tool usage based on environmental feedback. Additionally, we introduce ToolQA-D, a benchmark specifically designed to evaluate the impact of tool variability. Extensive experiments demonstrate the effectiveness and stability of our approach, highlighting the importance of adaptability to tool variability for effective tool learning. | 翻訳日:2024-11-01 04:39:35 公開日:2024-10-15 |
# M${}^{3}$Bench:3次元シーンにおける移動操作のための全身運動生成のベンチマーク
M${}^{3}$Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes ( http://arxiv.org/abs/2410.06678v1 ) ライセンス: Link先を確認 | Zeyu Zhang, Sixu Yan, Muzhi Han, Zaijin Wang, Xinggang Wang, Song-Chun Zhu, Hangxin Liu, | (参考訳) モバイル操作タスクのための全身動作生成のための新しいベンチマークであるM^3Benchを提案する。
3Dシーンのコンテキストを前提として、M^3Benchは、その構成、環境制約、タスク目標を理解し、オブジェクト再構成タスクのための調整された全身運動軌跡を生成するために、エボダイドエージェントを必要とする。
M^3Benchは119の多様なシーンにまたがって30k個のオブジェクトアレンジメントタスクを特徴とし、新たに開発したM^3BenchMakerによって生成された専門家によるデモンストレーションを提供する。
この自動データ生成ツールは、基本的なシーンとロボット情報のみを必要とする高レベルなタスク命令から、調整された全身運動軌跡を生成する。
本ベンチマークでは,様々なタスク分割を取り入れ,様々な次元にわたる一般化の評価を行い,実際の物理シミュレーションを用いて軌道評価を行う。
広範にわたる実験的分析により、現状のモデルは、環境コンテキストやタスク固有の制約に固執しながら、制御されたベースアームの動きに苦しむことが明らかとなり、このギャップに対処する新しいモデルを開発する必要性が浮き彫りになった。
我々は,M^3Benchを通じて,多様な実環境において,より適応的で有能な移動操作を実現するためのロボット研究を促進することを目的とする。
We propose M^3Bench, a new benchmark for whole-body motion generation for mobile manipulation tasks. Given a 3D scene context, M^3Bench requires an embodied agent to understand its configuration, environmental constraints and task objectives, then generate coordinated whole-body motion trajectories for object rearrangement tasks. M^3Bench features 30k object rearrangement tasks across 119 diverse scenes, providing expert demonstrations generated by our newly developed M^3BenchMaker. This automatic data generation tool produces coordinated whole-body motion trajectories from high-level task instructions, requiring only basic scene and robot information. Our benchmark incorporates various task splits to assess generalization across different dimensions and leverages realistic physics simulation for trajectory evaluation. Through extensive experimental analyses, we reveal that state-of-the-art models still struggle with coordinated base-arm motion while adhering to environment-context and task-specific constraints, highlighting the need to develop new models that address this gap. Through M^3Bench, we aim to facilitate future robotics research towards more adaptive and capable mobile manipulation in diverse, real-world environments. | 翻訳日:2024-11-01 04:19:50 公開日:2024-10-15 |
# M3Bench:3次元シーンにおける移動操作のための全身運動生成のベンチマーク
M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes ( http://arxiv.org/abs/2410.06678v2 ) ライセンス: Link先を確認 | Zeyu Zhang, Sixu Yan, Muzhi Han, Zaijin Wang, Xinggang Wang, Song-Chun Zhu, Hangxin Liu, | (参考訳) モバイル操作タスクのための全身動作生成のベンチマークであるM^3Benchを提案する。
3Dシーンのコンテキストを前提として、M^3Benchは、その構成、環境制約、タスク目標を理解し、オブジェクト再構成タスクのための調整された全身運動軌跡を生成するために、エボダイドエージェントを必要とする。
M^3Benchは119の多様なシーンにまたがって30k個のオブジェクトアレンジメントタスクを特徴とし、新たに開発したM^3BenchMakerによって生成された専門家によるデモンストレーションを提供する。
この自動データ生成ツールは、基本的なシーンとロボット情報のみを必要とする高レベルなタスク命令から、調整された全身運動軌跡を生成する。
本ベンチマークでは,様々なタスク分割を取り入れ,様々な次元にわたる一般化の評価を行い,実際の物理シミュレーションを用いて軌道評価を行う。
広範にわたる実験的分析により、現状のモデルは、環境コンテキストやタスク固有の制約に固執しながら、制御されたベースアームの動きに苦しむことが明らかとなり、このギャップに対処する新しいモデルを開発する必要性が浮き彫りになった。
我々は,M^3Benchを通じて,多様な実環境において,より適応的で有能な移動操作を実現するためのロボット研究を促進することを目的とする。
We propose M^3Bench, a new benchmark of whole-body motion generation for mobile manipulation tasks. Given a 3D scene context, M^3Bench requires an embodied agent to understand its configuration, environmental constraints and task objectives, then generate coordinated whole-body motion trajectories for object rearrangement tasks. M^3Bench features 30k object rearrangement tasks across 119 diverse scenes, providing expert demonstrations generated by our newly developed M^3BenchMaker. This automatic data generation tool produces coordinated whole-body motion trajectories from high-level task instructions, requiring only basic scene and robot information. Our benchmark incorporates various task splits to assess generalization across different dimensions and leverages realistic physics simulation for trajectory evaluation. Through extensive experimental analyses, we reveal that state-of-the-art models still struggle with coordinated base-arm motion while adhering to environment-context and task-specific constraints, highlighting the need to develop new models that address this gap. Through M^3Bench, we aim to facilitate future robotics research towards more adaptive and capable mobile manipulation in diverse, real-world environments. | 翻訳日:2024-11-01 04:19:50 公開日:2024-10-15 |
# MimicTalk:パーソナライズされた表現力のある3D顔を数分で話す
MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes ( http://arxiv.org/abs/2410.06734v1 ) ライセンス: Link先を確認 | Zhenhui Ye, Tianyun Zhong, Yi Ren, Ziyue Jiang, Jiawei Huang, Rongjie Huang, Jinglin Liu, Jinzheng He, Chen Zhang, Zehan Wang, Xize Chen, Xiang Yin, Zhou Zhao, | (参考訳) トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
パーソナライズされたTFGは、(外観や話し方の観点から)合成された結果の知覚的同一性(perceptual identity similarity)を強調する変種である。
従来の研究は、個々の神経放射場(NeRF)を学習して静的および動的情報を暗黙的に記憶することでこの問題を解くのが一般的であったが、個人毎のトレーニングフレームワークと限られたトレーニングデータにより、非効率的で一般化されていないことが判明した。
この目的のために,NRFに基づく個人非依存ジェネリックモデルから豊富な知識を活用して,パーソナライズされたTFGの効率性と堅牢性を向上させる試みであるMimicTalkを提案する。
具体的には,(1)まず,基本モデルとして個人非依存の3D TFGモデルを考え出し,特定の同一性に適応すること,(2)モデルがパーソナライズされた静的な外観や顔の動的特徴を学習するための静的な動的・ハイブリッド適応パイプラインを提案すること,(3)パーソナライズされた発話スタイルの顔の動きを生成するために,参照ビデオで提供される暗黙的な発話スタイルを明示的なスタイル表現で模倣する,コンテキスト内スタイリングされた音声-モーションモデルを提案する。
未確認のアイデンティティへの適応処理は15分で行うことができ、これは従来の個人依存の手法よりも47倍高速である。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
ソースコードとビデオサンプルはhttps://mimictalk.github.io.comで公開されている。
Talking face generation (TFG) aims to animate a target identity's face to create realistic talking videos. Personalized TFG is a variant that emphasizes the perceptual identity similarity of the synthesized result (from the perspective of appearance and talking style). While previous works typically solve this problem by learning an individual neural radiance field (NeRF) for each identity to implicitly store its static and dynamic information, we find it inefficient and non-generalized due to the per-identity-per-training framework and the limited training data. To this end, we propose MimicTalk, the first attempt that exploits the rich knowledge from a NeRF-based person-agnostic generic model for improving the efficiency and robustness of personalized TFG. To be specific, (1) we first come up with a person-agnostic 3D TFG model as the base model and propose to adapt it into a specific identity; (2) we propose a static-dynamic-hybrid adaptation pipeline to help the model learn the personalized static appearance and facial dynamic features; (3) To generate the facial motion of the personalized talking style, we propose an in-context stylized audio-to-motion model that mimics the implicit talking style provided in the reference video without information loss by an explicit style representation. The adaptation process to an unseen identity can be performed in 15 minutes, which is 47 times faster than previous person-dependent methods. Experiments show that our MimicTalk surpasses previous baselines regarding video quality, efficiency, and expressiveness. Source code and video samples are available at https://mimictalk.github.io . | 翻訳日:2024-11-01 03:50:25 公開日:2024-10-15 |
# MimicTalk:パーソナライズされた表現力のある3D顔を数分で話す
MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes ( http://arxiv.org/abs/2410.06734v2 ) ライセンス: Link先を確認 | Zhenhui Ye, Tianyun Zhong, Yi Ren, Ziyue Jiang, Jiawei Huang, Rongjie Huang, Jinglin Liu, Jinzheng He, Chen Zhang, Zehan Wang, Xize Chen, Xiang Yin, Zhou Zhao, | (参考訳) トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
パーソナライズされたTFGは、(外観や話し方の観点から)合成された結果の知覚的同一性(perceptual identity similarity)を強調する変種である。
従来の研究は、個々の神経放射場(NeRF)を学習して静的および動的情報を暗黙的に記憶することでこの問題を解くのが一般的であったが、個人毎のトレーニングフレームワークと限られたトレーニングデータにより、非効率的で一般化されていないことが判明した。
この目的のために,NRFに基づく個人非依存ジェネリックモデルから豊富な知識を活用して,パーソナライズされたTFGの効率性と堅牢性を向上させる試みであるMimicTalkを提案する。
具体的には,(1)まず,基本モデルとして個人非依存の3D TFGモデルを考え出し,特定の同一性に適応すること,(2)モデルがパーソナライズされた静的な外観や顔の動的特徴を学習するための静的な動的・ハイブリッド適応パイプラインを提案すること,(3)パーソナライズされた発話スタイルの顔の動きを生成するために,参照ビデオで提供される暗黙的な発話スタイルを明示的なスタイル表現で模倣する,コンテキスト内スタイリングされた音声-モーションモデルを提案する。
未確認のアイデンティティへの適応処理は15分で行うことができ、これは従来の個人依存の手法よりも47倍高速である。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
ソースコードとビデオサンプルはhttps://mimictalk.github.io.comで公開されている。
Talking face generation (TFG) aims to animate a target identity's face to create realistic talking videos. Personalized TFG is a variant that emphasizes the perceptual identity similarity of the synthesized result (from the perspective of appearance and talking style). While previous works typically solve this problem by learning an individual neural radiance field (NeRF) for each identity to implicitly store its static and dynamic information, we find it inefficient and non-generalized due to the per-identity-per-training framework and the limited training data. To this end, we propose MimicTalk, the first attempt that exploits the rich knowledge from a NeRF-based person-agnostic generic model for improving the efficiency and robustness of personalized TFG. To be specific, (1) we first come up with a person-agnostic 3D TFG model as the base model and propose to adapt it into a specific identity; (2) we propose a static-dynamic-hybrid adaptation pipeline to help the model learn the personalized static appearance and facial dynamic features; (3) To generate the facial motion of the personalized talking style, we propose an in-context stylized audio-to-motion model that mimics the implicit talking style provided in the reference video without information loss by an explicit style representation. The adaptation process to an unseen identity can be performed in 15 minutes, which is 47 times faster than previous person-dependent methods. Experiments show that our MimicTalk surpasses previous baselines regarding video quality, efficiency, and expressiveness. Source code and video samples are available at https://mimictalk.github.io . | 翻訳日:2024-11-01 03:50:25 公開日:2024-10-15 |
# ReinDiffuse: 強化拡散モデルによる物理的に可塑性な運動の創成
ReinDiffuse: Crafting Physically Plausible Motions with Reinforced Diffusion Model ( http://arxiv.org/abs/2410.07296v1 ) ライセンス: Link先を確認 | Gaoge Han, Mingjiang Liang, Jinglei Tang, Yongkang Cheng, Wei Liu, Shaoli Huang, | (参考訳) 文章の記述から人間の動きを生成することは難しい課題である。
既存の方法は物理的信頼性に苦しむか、物理シミュレーションの複雑さによって制限される。
本稿では、強化学習と運動拡散モデルを組み合わせることで、テキスト記述と整合した物理的に信頼できる人間の動作を生成する「emph{ReinDiffuse}」を提案する。
動作拡散モデルを用いてパラメータ化された動作分布を出力し、強化学習パラダイムに適合させる。
我々は,身体的忠実度に対する運動生成を最適化するために,身体的可算報酬の最大化を目的とした強化学習を採用する。
提案手法は,HumanML3DとKIT-MLの2つの主要なデータセットにおける既存の最先端モデルよりも優れており,身体的妥当性と運動品質の大幅な向上を実現している。
プロジェクト: \url{https://reindiffuse.github.io/}
Generating human motion from textual descriptions is a challenging task. Existing methods either struggle with physical credibility or are limited by the complexities of physics simulations. In this paper, we present \emph{ReinDiffuse} that combines reinforcement learning with motion diffusion model to generate physically credible human motions that align with textual descriptions. Our method adapts Motion Diffusion Model to output a parameterized distribution of actions, making them compatible with reinforcement learning paradigms. We employ reinforcement learning with the objective of maximizing physically plausible rewards to optimize motion generation for physical fidelity. Our approach outperforms existing state-of-the-art models on two major datasets, HumanML3D and KIT-ML, achieving significant improvements in physical plausibility and motion quality. Project: \url{https://reindiffuse.github.io/} | 翻訳日:2024-10-31 21:06:44 公開日:2024-10-15 |
# ReinDiffuse: 強化拡散モデルによる物理的に可塑性な運動の創成
ReinDiffuse: Crafting Physically Plausible Motions with Reinforced Diffusion Model ( http://arxiv.org/abs/2410.07296v2 ) ライセンス: Link先を確認 | Gaoge Han, Mingjiang Liang, Jinglei Tang, Yongkang Cheng, Wei Liu, Shaoli Huang, | (参考訳) 文章の記述から人間の動きを生成することは難しい課題である。
既存の方法は物理的信頼性に苦しむか、物理シミュレーションの複雑さによって制限される。
本稿では、強化学習と運動拡散モデルを組み合わせることで、テキスト記述と整合した物理的に信頼できる人間の動作を生成する「emph{ReinDiffuse}」を提案する。
動作拡散モデルを用いてパラメータ化された動作分布を出力し、強化学習パラダイムに適合させる。
我々は,身体的忠実度に対する運動生成を最適化するために,身体的可算報酬の最大化を目的とした強化学習を採用する。
提案手法は,HumanML3DとKIT-MLの2つの主要なデータセットにおける既存の最先端モデルよりも優れており,身体的妥当性と運動品質の大幅な向上を実現している。
プロジェクト:https://reindiffuse.github.io/
Generating human motion from textual descriptions is a challenging task. Existing methods either struggle with physical credibility or are limited by the complexities of physics simulations. In this paper, we present \emph{ReinDiffuse} that combines reinforcement learning with motion diffusion model to generate physically credible human motions that align with textual descriptions. Our method adapts Motion Diffusion Model to output a parameterized distribution of actions, making them compatible with reinforcement learning paradigms. We employ reinforcement learning with the objective of maximizing physically plausible rewards to optimize motion generation for physical fidelity. Our approach outperforms existing state-of-the-art models on two major datasets, HumanML3D and KIT-ML, achieving significant improvements in physical plausibility and motion quality. Project: https://reindiffuse.github.io/ | 翻訳日:2024-10-31 21:06:44 公開日:2024-10-15 |
# I-Max: 投射流を伴う予修整流変圧器の分解能の最大化
I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow ( http://arxiv.org/abs/2410.07536v1 ) ライセンス: Link先を確認 | Ruoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao, | (参考訳) Rectified Flow Transformer (RFT) は優れたトレーニングと推論効率を提供し、拡散モデルをスケールアップするための最も有効な方向である可能性が高い。
しかし、データ品質とトレーニングコストのため、生成解像度の進歩は比較的遅い。
チューニングフリー分解能外挿法は代替となるが、現在の方法はしばしば生成安定性を低下させ、実用的な応用を制限する。
本稿では,既存の分解能外挿法を概観し,テキスト対画像RFTの分解能を最大化するためのI-Maxフレームワークを提案する。
I-Max の機能
一 安定な外挿のための新規な投射流戦略
(II)モデル知識を高分解能に一般化するための高度な推論ツールキット。
Lumina-Next-2K と Flux.1-dev による実験では、I-Max は分解能外挿の安定性を向上し、画像詳細の創発とアーチファクトの補正を実現し、チューニング不要分解能外挿の実用的価値を確認することができることを示した。
Rectified Flow Transformers (RFTs) offer superior training and inference efficiency, making them likely the most viable direction for scaling up diffusion models. However, progress in generation resolution has been relatively slow due to data quality and training costs. Tuning-free resolution extrapolation presents an alternative, but current methods often reduce generative stability, limiting practical application. In this paper, we review existing resolution extrapolation methods and introduce the I-Max framework to maximize the resolution potential of Text-to-Image RFTs. I-Max features: (i) a novel Projected Flow strategy for stable extrapolation and (ii) an advanced inference toolkit for generalizing model knowledge to higher resolutions. Experiments with Lumina-Next-2K and Flux.1-dev demonstrate I-Max's ability to enhance stability in resolution extrapolation and show that it can bring image detail emergence and artifact correction, confirming the practical value of tuning-free resolution extrapolation. | 翻訳日:2024-10-31 16:26:23 公開日:2024-10-15 |
# I-Max: 投射流を伴う予修整流変圧器の分解能の最大化
I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow ( http://arxiv.org/abs/2410.07536v2 ) ライセンス: Link先を確認 | Ruoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao, | (参考訳) Rectified Flow Transformer (RFT) は優れたトレーニングと推論効率を提供し、拡散モデルをスケールアップするための最も有効な方向である可能性が高い。
しかし、データ品質とトレーニングコストのため、生成解像度の進歩は比較的遅い。
チューニングフリー分解能外挿法は代替となるが、現在の方法はしばしば生成安定性を低下させ、実用的な応用を制限する。
本稿では,既存の分解能外挿法を概観し,テキスト対画像RFTの分解能を最大化するためのI-Maxフレームワークを提案する。
I-Max の機能
一 安定な外挿のための新規な投射流戦略
(II)モデル知識を高分解能に一般化するための高度な推論ツールキット。
Lumina-Next-2K と Flux.1-dev による実験では、I-Max は分解能外挿の安定性を向上し、画像詳細の創発とアーチファクトの補正を実現し、チューニング不要分解能外挿の実用的価値を確認することができることを示した。
Rectified Flow Transformers (RFTs) offer superior training and inference efficiency, making them likely the most viable direction for scaling up diffusion models. However, progress in generation resolution has been relatively slow due to data quality and training costs. Tuning-free resolution extrapolation presents an alternative, but current methods often reduce generative stability, limiting practical application. In this paper, we review existing resolution extrapolation methods and introduce the I-Max framework to maximize the resolution potential of Text-to-Image RFTs. I-Max features: (i) a novel Projected Flow strategy for stable extrapolation and (ii) an advanced inference toolkit for generalizing model knowledge to higher resolutions. Experiments with Lumina-Next-2K and Flux.1-dev demonstrate I-Max's ability to enhance stability in resolution extrapolation and show that it can bring image detail emergence and artifact correction, confirming the practical value of tuning-free resolution extrapolation. | 翻訳日:2024-10-31 16:26:23 公開日:2024-10-15 |
# メカニスティックな不変性:レイヤ間のマッチング機能
Mechanistic Permutability: Match Features Across Layers ( http://arxiv.org/abs/2410.07656v1 ) ライセンス: Link先を確認 | Nikita Balagansky, Ian Maksimov, Daniil Gavrilov, | (参考訳) ディープニューラルネットワークの層にまたがって機能がどのように進化するかを理解することは、特に多意味性や特徴重畳による機械的解釈の根本的な課題である。
Sparse Autoencoders (SAEs) は個々のレイヤから解釈可能な機能を抽出するために使われてきたが、これらの機能をレイヤ間で整列させることは、未解決の問題のままである。
本稿では,ニューラルネットワークの異なる層にまたがってSAE特徴を整列させる新しいデータフリー手法であるSAE Matchを紹介する。
SAEの折りたたみパラメータ間の平均2乗誤差を最小化することで,特徴量の差を考慮に入れたエンコーダとデコーダの重みにアクティベーションしきい値を組み込む手法を提案する。
Gemma 2言語モデルに関する広範な実験を通じて,提案手法が階層間の機能進化を効果的に捉え,特徴マッチングの品質を向上させることを実証した。
また、複数の層にまたがる機能や、階層にまたがる隠れた状態を近似できるアプローチも示しています。
我々の研究は、ニューラルネットワークにおける特徴力学の理解を深め、機械論的解釈可能性研究のための新しいツールを提供する。
Understanding how features evolve across layers in deep neural networks is a fundamental challenge in mechanistic interpretability, particularly due to polysemanticity and feature superposition. While Sparse Autoencoders (SAEs) have been used to extract interpretable features from individual layers, aligning these features across layers has remained an open problem. In this paper, we introduce SAE Match, a novel, data-free method for aligning SAE features across different layers of a neural network. Our approach involves matching features by minimizing the mean squared error between the folded parameters of SAEs, a technique that incorporates activation thresholds into the encoder and decoder weights to account for differences in feature scales. Through extensive experiments on the Gemma 2 language model, we demonstrate that our method effectively captures feature evolution across layers, improving feature matching quality. We also show that features persist over several layers and that our approach can approximate hidden states across layers. Our work advances the understanding of feature dynamics in neural networks and provides a new tool for mechanistic interpretability studies. | 翻訳日:2024-10-31 15:46:26 公開日:2024-10-15 |
# メカニスティックな不変性:レイヤ間のマッチング機能
Mechanistic Permutability: Match Features Across Layers ( http://arxiv.org/abs/2410.07656v2 ) ライセンス: Link先を確認 | Nikita Balagansky, Ian Maksimov, Daniil Gavrilov, | (参考訳) ディープニューラルネットワークの層にまたがって機能がどのように進化するかを理解することは、特に多意味性や特徴重畳による機械的解釈の根本的な課題である。
Sparse Autoencoders (SAEs) は個々のレイヤから解釈可能な機能を抽出するために使われてきたが、これらの機能をレイヤ間で整列させることは、未解決の問題のままである。
本稿では,ニューラルネットワークの異なる層にまたがってSAE特徴を整列させる新しいデータフリー手法であるSAE Matchを紹介する。
SAEの折りたたみパラメータ間の平均2乗誤差を最小化することで,特徴量の差を考慮に入れたエンコーダとデコーダの重みにアクティベーションしきい値を組み込む手法を提案する。
Gemma 2言語モデルに関する広範な実験を通じて,提案手法が階層間の機能進化を効果的に捉え,特徴マッチングの品質を向上させることを実証した。
また、複数の層にまたがる機能や、階層にまたがる隠れた状態を近似できるアプローチも示しています。
我々の研究は、ニューラルネットワークにおける特徴力学の理解を深め、機械論的解釈可能性研究のための新しいツールを提供する。
Understanding how features evolve across layers in deep neural networks is a fundamental challenge in mechanistic interpretability, particularly due to polysemanticity and feature superposition. While Sparse Autoencoders (SAEs) have been used to extract interpretable features from individual layers, aligning these features across layers has remained an open problem. In this paper, we introduce SAE Match, a novel, data-free method for aligning SAE features across different layers of a neural network. Our approach involves matching features by minimizing the mean squared error between the folded parameters of SAEs, a technique that incorporates activation thresholds into the encoder and decoder weights to account for differences in feature scales. Through extensive experiments on the Gemma 2 language model, we demonstrate that our method effectively captures feature evolution across layers, improving feature matching quality. We also show that features persist over several layers and that our approach can approximate hidden states across layers. Our work advances the understanding of feature dynamics in neural networks and provides a new tool for mechanistic interpretability studies. | 翻訳日:2024-10-31 15:46:26 公開日:2024-10-15 |
# 階層型不整形認知診断フレームワークdisCO
DISCO: A Hierarchical Disentangled Cognitive Diagnosis Framework for Interpretable Job Recommendation ( http://arxiv.org/abs/2410.07671v1 ) ライセンス: Link先を確認 | Xiaoshan Yu, Chuan Qin, Qi Zhang, Chen Zhu, Haiping Ma, Xingyi Zhang, Hengshu Zhu, | (参考訳) オンライン採用プラットフォームの急速な発展は、求職者にとって前例のない機会を生み出しつつ、彼らのスキルや好みに合わせて、迅速かつ正確に位置を特定できるという重要な課題を同時に提起している。
ジョブレコメンデーションシステムは、クリックやアプリケーションなどのユーザエンゲージメントの指標を最適化することで、求職者の検索負担を大幅に軽減し、顕著な成功を収めている。
近年,テキストマッチングと行動モデリングに基づく手法を中心に,効果的な求人モデルの開発に多大な研究が注がれている。
これらのアプローチは印象的な成果を上げたが、採用勧告の説明可能性に関する研究はいまだに明らかにされていない点に注意が必要である。
そこで本稿では,階層型ディスタングルに基づく認知診断フレームワークであるdisCOを提案し,その基盤となる表現学習モデルを柔軟に調整し,効果的かつ解釈可能なジョブレコメンデーションを提案する。
具体的には、まず、求職者や求職者の隠された表現に暗示される階層的スキル関連要因を明示的にマイニングするために、階層的表現分離モジュールを設計する。
次に、情報通信と、レベル間の知識影響モジュールとレベルワイドのコントラスト学習からなる、階層間および階層内両方の堅牢な表現学習を強化するためのレベルアウェア・アソシエーション・モデリングを提案する。
最後に,求職者と求職者間の多段階採用インタラクションプロセスを効果的にモデル化する神経診断機能を備えたインタラクション診断モジュールを提案し,認知計測理論を導入する。
The rapid development of online recruitment platforms has created unprecedented opportunities for job seekers while concurrently posing the significant challenge of quickly and accurately pinpointing positions that align with their skills and preferences. Job recommendation systems have significantly alleviated the extensive search burden for job seekers by optimizing user engagement metrics, such as clicks and applications, thus achieving notable success. In recent years, a substantial amount of research has been devoted to developing effective job recommendation models, primarily focusing on text-matching based and behavior modeling based methods. While these approaches have realized impressive outcomes, it is imperative to note that research on the explainability of recruitment recommendations remains profoundly unexplored. To this end, in this paper, we propose DISCO, a hierarchical Disentanglement based Cognitive diagnosis framework, aimed at flexibly accommodating the underlying representation learning model for effective and interpretable job recommendations. Specifically, we first design a hierarchical representation disentangling module to explicitly mine the hierarchical skill-related factors implied in hidden representations of job seekers and jobs. Subsequently, we propose level-aware association modeling to enhance information communication and robust representation learning both inter- and intra-level, which consists of the interlevel knowledge influence module and the level-wise contrastive learning. Finally, we devise an interaction diagnosis module incorporating a neural diagnosis function for effectively modeling the multi-level recruitment interaction process between job seekers and jobs, which introduces the cognitive measurement theory. | 翻訳日:2024-10-31 15:36:27 公開日:2024-10-15 |
# 階層型不整形認知診断フレームワークdisCO
DISCO: A Hierarchical Disentangled Cognitive Diagnosis Framework for Interpretable Job Recommendation ( http://arxiv.org/abs/2410.07671v2 ) ライセンス: Link先を確認 | Xiaoshan Yu, Chuan Qin, Qi Zhang, Chen Zhu, Haiping Ma, Xingyi Zhang, Hengshu Zhu, | (参考訳) オンライン採用プラットフォームの急速な発展は、求職者にとって前例のない機会を生み出しつつ、彼らのスキルや好みに合わせて、迅速かつ正確に位置を特定できるという重要な課題を同時に提起している。
ジョブレコメンデーションシステムは、クリックやアプリケーションなどのユーザエンゲージメントの指標を最適化することで、求職者の検索負担を大幅に軽減し、顕著な成功を収めている。
近年,テキストマッチングと行動モデリングに基づく手法を中心に,効果的な求人モデルの開発に多大な研究が注がれている。
これらのアプローチは印象的な成果を上げたが、採用勧告の説明可能性に関する研究はいまだに明らかにされていない点に注意が必要である。
そこで本稿では,階層型ディスタングルに基づく認知診断フレームワークであるdisCOを提案し,その基盤となる表現学習モデルを柔軟に調整し,効果的かつ解釈可能なジョブレコメンデーションを提案する。
具体的には、まず、求職者や求職者の隠された表現に暗示される階層的スキル関連要因を明示的にマイニングするために、階層的表現分離モジュールを設計する。
次に、情報通信と、レベル間の知識影響モジュールとレベルワイドのコントラスト学習からなる、階層間および階層内両方の堅牢な表現学習を強化するためのレベルアウェア・アソシエーション・モデリングを提案する。
最後に,求職者と求職者間の多段階採用インタラクションプロセスを効果的にモデル化する神経診断機能を備えたインタラクション診断モジュールを提案し,認知計測理論を導入する。
The rapid development of online recruitment platforms has created unprecedented opportunities for job seekers while concurrently posing the significant challenge of quickly and accurately pinpointing positions that align with their skills and preferences. Job recommendation systems have significantly alleviated the extensive search burden for job seekers by optimizing user engagement metrics, such as clicks and applications, thus achieving notable success. In recent years, a substantial amount of research has been devoted to developing effective job recommendation models, primarily focusing on text-matching based and behavior modeling based methods. While these approaches have realized impressive outcomes, it is imperative to note that research on the explainability of recruitment recommendations remains profoundly unexplored. To this end, in this paper, we propose DISCO, a hierarchical Disentanglement based Cognitive diagnosis framework, aimed at flexibly accommodating the underlying representation learning model for effective and interpretable job recommendations. Specifically, we first design a hierarchical representation disentangling module to explicitly mine the hierarchical skill-related factors implied in hidden representations of job seekers and jobs. Subsequently, we propose level-aware association modeling to enhance information communication and robust representation learning both inter- and intra-level, which consists of the interlevel knowledge influence module and the level-wise contrastive learning. Finally, we devise an interaction diagnosis module incorporating a neural diagnosis function for effectively modeling the multi-level recruitment interaction process between job seekers and jobs, which introduces the cognitive measurement theory. | 翻訳日:2024-10-31 15:36:27 公開日:2024-10-15 |
# スコアニューラル演算子:複数の確率分布の学習と一般化のための生成モデル
Score Neural Operator: A Generative Model for Learning and Generalizing Across Multiple Probability Distributions ( http://arxiv.org/abs/2410.08549v1 ) ライセンス: Link先を確認 | Xinyu Liao, Aoyang Qin, Jacob Seidman, Junqi Wang, Wei Wang, Paris Perdikaris, | (参考訳) 既存の生成モデルはトレーニングデータから単一の確率分布を学習することに限定されており、未知のデータに対して新しい分布に一般化することはできない。
トレーニングされたデータセットと目に見えない確率分布からサンプルを生成するアーキテクチャは、大きなブレークスルーとなるだろう。
近年、スコアベースの生成モデルは、確率分布を対応するスコア関数にマッピングする演算子を効果的に学習するため、網羅的なモードカバレッジと高品質な画像合成において大きな注目を集めている。
本稿では,複数の確率分布からスコア関数へのマッピングを統一されたフレームワーク内で学習する$\emph{Score Neural Operator}$を紹介する。
我々は、原画像の画素空間に過度に適合する傾向にあるスコアマッチングの訓練を容易にするために、潜時空間技術を用いて、サンプル生成品質を向上させる。
訓練されたスコアニューラル演算子は、トレーニング空間を超えて確率測度のスコア関数を予測する能力を示し、2次元ガウス混合モデルと1024次元MNIST二重桁データセットの両方において強力な一般化性能を示す。
重要な点として,本手法は,新しい分布からの1つのイメージを活用して,その分布から複数の異なる画像を生成する,数ショット学習アプリケーションに有意な可能性を秘めている。
Most existing generative models are limited to learning a single probability distribution from the training data and cannot generalize to novel distributions for unseen data. An architecture that can generate samples from both trained datasets and unseen probability distributions would mark a significant breakthrough. Recently, score-based generative models have gained considerable attention for their comprehensive mode coverage and high-quality image synthesis, as they effectively learn an operator that maps a probability distribution to its corresponding score function. In this work, we introduce the $\emph{Score Neural Operator}$, which learns the mapping from multiple probability distributions to their score functions within a unified framework. We employ latent space techniques to facilitate the training of score matching, which tends to over-fit in the original image pixel space, thereby enhancing sample generation quality. Our trained Score Neural Operator demonstrates the ability to predict score functions of probability measures beyond the training space and exhibits strong generalization performance in both 2-dimensional Gaussian Mixture Models and 1024-dimensional MNIST double-digit datasets. Importantly, our approach offers significant potential for few-shot learning applications, where a single image from a new distribution can be leveraged to generate multiple distinct images from that distribution. | 翻訳日:2024-10-30 23:14:57 公開日:2024-10-15 |
# スコアニューラル演算子:複数の確率分布の学習と一般化のための生成モデル
Score Neural Operator: A Generative Model for Learning and Generalizing Across Multiple Probability Distributions ( http://arxiv.org/abs/2410.08549v2 ) ライセンス: Link先を確認 | Xinyu Liao, Aoyang Qin, Jacob Seidman, Junqi Wang, Wei Wang, Paris Perdikaris, | (参考訳) 既存の生成モデルはトレーニングデータから単一の確率分布を学習することに限定されており、未知のデータに対して新しい分布に一般化することはできない。
トレーニングされたデータセットと目に見えない確率分布からサンプルを生成するアーキテクチャは、大きなブレークスルーとなるだろう。
近年、スコアベースの生成モデルは、確率分布を対応するスコア関数にマッピングする演算子を効果的に学習するため、網羅的なモードカバレッジと高品質な画像合成において大きな注目を集めている。
本稿では,複数の確率分布からスコア関数へのマッピングを統一されたフレームワーク内で学習する$\emph{Score Neural Operator}$を紹介する。
我々は、原画像の画素空間に過度に適合する傾向にあるスコアマッチングの訓練を容易にするために、潜時空間技術を用いて、サンプル生成品質を向上させる。
訓練されたスコアニューラル演算子は、トレーニング空間を超えて確率測度のスコア関数を予測する能力を示し、2次元ガウス混合モデルと1024次元MNIST二重桁データセットの両方において強力な一般化性能を示す。
重要な点として,本手法は,新しい分布からの1つのイメージを活用して,その分布から複数の異なる画像を生成する,数ショット学習アプリケーションに有意な可能性を秘めている。
Most existing generative models are limited to learning a single probability distribution from the training data and cannot generalize to novel distributions for unseen data. An architecture that can generate samples from both trained datasets and unseen probability distributions would mark a significant breakthrough. Recently, score-based generative models have gained considerable attention for their comprehensive mode coverage and high-quality image synthesis, as they effectively learn an operator that maps a probability distribution to its corresponding score function. In this work, we introduce the $\emph{Score Neural Operator}$, which learns the mapping from multiple probability distributions to their score functions within a unified framework. We employ latent space techniques to facilitate the training of score matching, which tends to over-fit in the original image pixel space, thereby enhancing sample generation quality. Our trained Score Neural Operator demonstrates the ability to predict score functions of probability measures beyond the training space and exhibits strong generalization performance in both 2-dimensional Gaussian Mixture Models and 1024-dimensional MNIST double-digit datasets. Importantly, our approach offers significant potential for few-shot learning applications, where a single image from a new distribution can be leveraged to generate multiple distinct images from that distribution. | 翻訳日:2024-10-30 23:14:57 公開日:2024-10-15 |
# 車両内ネットワーク侵入検出をトランスフォーミングする - VAEベースの知識蒸留と説明可能なAI
Transforming In-Vehicle Network Intrusion Detection: VAE-based Knowledge Distillation Meets Explainable AI ( http://arxiv.org/abs/2410.09043v1 ) ライセンス: Link先を確認 | Muhammet Anil Yagiz, Pedram MohajerAnsari, Mert D. Pese, Polat Goktas, | (参考訳) 自動運転車の進化する状況では、堅牢な車載ネットワーク(IVN)のセキュリティが最重要である。
本稿では,変分オートエンコーダ(VAE)に基づく知識蒸留手法を用いて,性能と効率の両立を図る,KD-XVAE(Advanced Intrusion Detection System)を提案する。
本モデルでは,1669個のパラメータのみを演算し,バッチ毎に0.3msの推論時間を実現することにより,資源制約のある自動車環境に極めて適している。
HCRL Car-Hackingデータセットの評価では、DoS、Fuzzing、Gear Spoofing、RPM Spoofingを含む複数の攻撃タイプで完全なスコア(リコール、精度、F1スコア100%、FNR0%)を達成するという、例外的な機能を示している。
CICIoV2024データセットの比較分析は、従来の機械学習モデルよりもその優位性を強調し、完全な検出基準を達成する。
さらに、モデル決定における透明性を確保するために、説明可能なAI(XAI)技術を統合する。
VAEはオリジナルの特徴空間を潜在空間に圧縮し、蒸留されたモデルを訓練する。
SHAP(SHapley Additive exPlanations)値は、各潜伏次元の重要性に関する洞察を提供する。
本稿は、最先端技術を統合することにより、自動運転車への効率的で信頼性の高いIDSの展開における重要な課題に対処し、新たなサイバー脅威に対する保護の強化を図っている。
In the evolving landscape of autonomous vehicles, ensuring robust in-vehicle network (IVN) security is paramount. This paper introduces an advanced intrusion detection system (IDS) called KD-XVAE that uses a Variational Autoencoder (VAE)-based knowledge distillation approach to enhance both performance and efficiency. Our model significantly reduces complexity, operating with just 1669 parameters and achieving an inference time of 0.3 ms per batch, making it highly suitable for resource-constrained automotive environments. Evaluations in the HCRL Car-Hacking dataset demonstrate exceptional capabilities, attaining perfect scores (Recall, Precision, F1 Score of 100%, and FNR of 0%) under multiple attack types, including DoS, Fuzzing, Gear Spoofing, and RPM Spoofing. Comparative analysis on the CICIoV2024 dataset further underscores its superiority over traditional machine learning models, achieving perfect detection metrics. We furthermore integrate Explainable AI (XAI) techniques to ensure transparency in the model's decisions. The VAE compresses the original feature space into a latent space, on which the distilled model is trained. SHAP(SHapley Additive exPlanations) values provide insights into the importance of each latent dimension, mapped back to original features for intuitive understanding. Our paper advances the field by integrating state-of-the-art techniques, addressing critical challenges in the deployment of efficient, trustworthy, and reliable IDSes for autonomous vehicles, ensuring enhanced protection against emerging cyber threats. | 翻訳日:2024-10-30 20:26:51 公開日:2024-10-15 |
# 車両内ネットワーク侵入検出をトランスフォーミングする - VAEベースの知識蒸留と説明可能なAI
Transforming In-Vehicle Network Intrusion Detection: VAE-based Knowledge Distillation Meets Explainable AI ( http://arxiv.org/abs/2410.09043v2 ) ライセンス: Link先を確認 | Muhammet Anil Yagiz, Pedram MohajerAnsari, Mert D. Pese, Polat Goktas, | (参考訳) 自動運転車の進化する状況では、堅牢な車載ネットワーク(IVN)のセキュリティが最重要である。
本稿では,変分オートエンコーダ(VAE)に基づく知識蒸留手法を用いて,性能と効率の両立を図る,KD-XVAE(Advanced Intrusion Detection System)を提案する。
本モデルでは,1669個のパラメータのみを演算し,バッチ毎に0.3msの推論時間を実現することにより,資源制約のある自動車環境に極めて適している。
HCRL Car-Hackingデータセットの評価では、DoS、Fuzzing、Gear Spoofing、RPM Spoofingを含む複数の攻撃タイプで完全なスコア(リコール、精度、F1スコア100%、FNR0%)を達成するという、例外的な機能を示している。
CICIoV2024データセットの比較分析は、従来の機械学習モデルよりもその優位性を強調し、完全な検出基準を達成する。
さらに、モデル決定における透明性を確保するために、説明可能なAI(XAI)技術を統合する。
VAEはオリジナルの特徴空間を潜在空間に圧縮し、蒸留されたモデルを訓練する。
SHAP(SHapley Additive exPlanations)値は、各潜伏次元の重要性に関する洞察を提供する。
本稿は、最先端技術を統合することにより、自動運転車への効率的で信頼性の高いIDSの展開における重要な課題に対処し、新たなサイバー脅威に対する保護の強化を図っている。
In the evolving landscape of autonomous vehicles, ensuring robust in-vehicle network (IVN) security is paramount. This paper introduces an advanced intrusion detection system (IDS) called KD-XVAE that uses a Variational Autoencoder (VAE)-based knowledge distillation approach to enhance both performance and efficiency. Our model significantly reduces complexity, operating with just 1669 parameters and achieving an inference time of 0.3 ms per batch, making it highly suitable for resource-constrained automotive environments. Evaluations in the HCRL Car-Hacking dataset demonstrate exceptional capabilities, attaining perfect scores (Recall, Precision, F1 Score of 100%, and FNR of 0%) under multiple attack types, including DoS, Fuzzing, Gear Spoofing, and RPM Spoofing. Comparative analysis on the CICIoV2024 dataset further underscores its superiority over traditional machine learning models, achieving perfect detection metrics. We furthermore integrate Explainable AI (XAI) techniques to ensure transparency in the model's decisions. The VAE compresses the original feature space into a latent space, on which the distilled model is trained. SHAP(SHapley Additive exPlanations) values provide insights into the importance of each latent dimension, mapped back to original features for intuitive understanding. Our paper advances the field by integrating state-of-the-art techniques, addressing critical challenges in the deployment of efficient, trustworthy, and reliable IDSes for autonomous vehicles, ensuring enhanced protection against emerging cyber threats. | 翻訳日:2024-10-30 16:58:09 公開日:2024-10-15 |
# 脳チューニングによる言語モデルにおける意味理解の改善
Improving semantic understanding in speech language models via brain-tuning ( http://arxiv.org/abs/2410.09230v1 ) ライセンス: Link先を確認 | Omer Moussa, Dietrich Klakow, Mariya Toneva, | (参考訳) 言語モデルは、自然言語に対する人間の脳反応と驚くほど一致している。
しかし、現在のモデルは低レベルの音声機能に大きく依存しており、脳関連セマンティクスが欠如していることを示し、脳内のセマンティクス処理のモデルとしての有用性を制限している。
本研究では、自然の物語を聴く人々のfMRI記録を微調整することで、脳関連バイアスをモデルに誘導することで、この制限に対処する。
3つの異なる事前訓練されたバックボーンでテストした後、脳チューニングはセマンティック言語領域における新しい脳記録との整合性を改善し、低レベルの音声特徴への依存を低減する。
特に脳のチューニングは
1)ダウンストリームタスクにおけるパフォーマンスの整合性向上
2)意味的嗜好が増大した表現空間。
本研究は,脳波を言語モデルの訓練に組み込むことで,意味的理解が向上することを示す最初の証拠である。
Speech-language models align impressively with human brain responses to natural language. However, current models rely heavily on low-level speech features, indicating they lack brain-relevant semantics, limiting their utility as models of semantic processing in the brain. In this work, we address this limitation by inducing brain-relevant bias into the models via fine-tuning with fMRI recordings of people listening to natural stories, a process we call brain-tuning. After testing it on three different pretrained backbones, we show that brain-tuning improves alignment with new brain recordings in semantic language regions and reduces reliance on low-level speech features. Notably, brain-tuning leads to 1) consistent improvements in performance across various downstream tasks and 2) a representational space with increased semantic preference. Our results provide the first evidence that incorporating brain signals into the training of language models improves their semantic understanding. | 翻訳日:2024-10-30 15:43:17 公開日:2024-10-15 |
# 脳チューニングによる言語モデルにおける意味理解の改善
Improving semantic understanding in speech language models via brain-tuning ( http://arxiv.org/abs/2410.09230v2 ) ライセンス: Link先を確認 | Omer Moussa, Dietrich Klakow, Mariya Toneva, | (参考訳) 言語モデルは、人間の脳の自然言語に対する反応と驚くほど一致している。
しかし、現在のモデルは低レベルの音声特徴に大きく依存しており、脳における意味処理のモデル生物としての有用性を制限する脳関連意味論が欠如していることを示している。
本研究は,脳関連バイアスを直接モデルに誘導し,自然の物語を聴く人々のfMRI記録を微調整することで,この限界に対処する。
3種類の事前訓練されたモデルファミリーでテストした後、脳チューニングは意味言語領域における新しい脳記録との全体的な整合性を向上するだけでなく、この整合性に対する低レベル音声特徴への依存を低減させる。
興味深いことに、私たちはさらに脳のチューニングが原因であることを示しています。
1)下流タスクと連続的な性能改善
2)意味的嗜好が増大した表現空間。
この結果から,脳波を言語モデルの訓練に組み込むことで,モデルの意味的理解が向上するという確固たる証拠が得られた。
Speech language models align with human brain responses to natural language to an impressive degree. However, current models rely heavily on low-level speech features, indicating they lack brain-relevant semantics which limits their utility as model organisms of semantic processing in the brain. In this work, we address this limitation by inducing brain-relevant bias directly into the models via fine-tuning with fMRI recordings of people listening to natural stories, a process we name brain-tuning. After testing it on 3 different pretrained model families, we show that brain-tuning not only improves overall alignment with new brain recordings in semantic language regions, but also reduces the reliance on low-level speech features for this alignment. Excitingly, we further show that brain-tuning leads to 1) consistent improvements in performance on a range of downstream tasks and 2) a representational space with increased semantic preference. Our results provide converging evidence, for the first time, that incorporating brain signals into the training of language models improves the models' semantic understanding. | 翻訳日:2024-10-30 15:33:30 公開日:2024-10-15 |
# 看護:モデルコラボレーションによる推論時間アライメント
Nudging: Inference-time Alignment via Model Collaboration ( http://arxiv.org/abs/2410.09300v1 ) ライセンス: Link先を確認 | Yu Fei, Yasaman Razeghi, Sameer Singh, | (参考訳) 大規模言語モデル(LLM)は、ユーザーの指示を効果的かつ安全に追従するために、命令チューニングや人間のフィードバックからの強化学習のようなアライメントを必要とする。
このプロセスは、各モデルファミリのモデルサイズごとに、トレーニングの整列バージョンを必要とするため、計算オーバーヘッドが大幅に増加する。
本研究では,小さなアライメントモデルを用いて,任意のベースモデルを推論時に整列させる,シンプルな,プラグアンドプレイ,トレーニングフリーなアルゴリズムであるヌードグを提案する。
ナッジの動機は、最近の発見により、アライメントは、主に"Sure"や"Thank"のような、スタイリスティックなトークンの小さなサブセットでモデルの振る舞いを変える。
これらのトークンを生成する際、ベースモデルは著しく不確実であることがわかった。
この観察を生かして、ヌージングは小さな整列モデルを用いて、ベースモデルの不確実性が高い場合には、大きなベースモデルの出力を所望の方向に向けて操るためにヌージングトークンを生成する。
3つのモデルファミリーと13のタスクにまたがるヌードの有効性を評価し、推論、一般的な知識、指示追従、安全性ベンチマークについて検討した。
追加のトレーニングがなければ、大きなベースモデルを7倍から14倍の小さなアライメントモデルでヌードすることは、大きなアライメントモデルと比較し、時には上回るゼロショットのパフォーマンスを達成する。
例えば、OLMo-1b-インストラクタでOLMo-7bをヌードすると、トークンの9%未満が影響を受け、OLMo-7b-インストラクタよりもGSM8Kが10%絶対的に改善される。
従来の推論時チューニング方法とは異なり、ヌーディングはモデルファミリ間のオフザシェルフ協調を可能にする。
例えば、Llama-2-7b-chatでGemma-2-27bをヌードすると、様々なタスクでLlama-2-70b-chatより優れる。
全体として、この作業はトークンレベルのモデルコラボレーションに対するシンプルだが強力なアプローチを導入し、LLMアライメントに対するモジュラーソリューションを提供します。
プロジェクトのWebサイト: https://fywalter.github.io/nudging/。
Large language models (LLMs) require alignment, such as instruction-tuning or reinforcement learning from human feedback, to effectively and safely follow user instructions. This process necessitates training aligned versions for every model size in each model family, resulting in significant computational overhead. In this work, we propose nudging, a simple, plug-and-play, and training-free algorithm that aligns any base model at inference time using a small aligned model. Nudging is motivated by recent findings that alignment primarily alters the model's behavior on a small subset of stylistic tokens, such as "Sure" or "Thank". We find that base models are significantly more uncertain when generating these tokens. Leveraging this observation, nudging employs a small aligned model to generate nudging tokens to steer the large base model's output toward desired directions when the base model's uncertainty is high. We evaluate the effectiveness of nudging across 3 model families and 13 tasks, covering reasoning, general knowledge, instruction following, and safety benchmarks. Without any additional training, nudging a large base model with a 7x - 14x smaller aligned model achieves zero-shot performance comparable to, and sometimes surpassing, that of large aligned models. For example, nudging OLMo-7b with OLMo-1b-instruct, affecting less than 9% of tokens, achieves a 10% absolute improvement on GSM8K over OLMo-7b-instruct. Unlike prior inference-time tuning methods, nudging enables off-the-shelf collaboration between model families. For instance, nudging Gemma-2-27b with Llama-2-7b-chat outperforms Llama-2-70b-chat on various tasks. Overall, this work introduces a simple yet powerful approach to token-level model collaboration, offering a modular solution to LLM alignment. Our project website: https://fywalter.github.io/nudging/ . | 翻訳日:2024-10-30 15:13:33 公開日:2024-10-15 |
# 看護:モデルコラボレーションによる推論時間アライメント
Nudging: Inference-time Alignment via Model Collaboration ( http://arxiv.org/abs/2410.09300v2 ) ライセンス: Link先を確認 | Yu Fei, Yasaman Razeghi, Sameer Singh, | (参考訳) 大規模言語モデル(LLM)は、ユーザーの指示を効果的かつ安全に追従するために、命令チューニングや人間のフィードバックからの強化学習のようなアライメントを必要とする。
このプロセスは、各モデルファミリのモデルサイズごとに、トレーニングの整列バージョンを必要とするため、計算オーバーヘッドが大幅に増加する。
本研究では,小さなアライメントモデルを用いて,任意のベースモデルを推論時に整列させる,シンプルな,プラグアンドプレイ,トレーニングフリーなアルゴリズムであるヌードグを提案する。
ナッジの動機は、最近の発見により、アライメントは、主に"Sure"や"Thank"のような、スタイリスティックなトークンの小さなサブセットでモデルの振る舞いを変える。
これらのトークンを生成する際、ベースモデルは著しく不確実であることがわかった。
この観察を生かして、ヌージングは小さな整列モデルを用いて、ベースモデルの不確実性が高い場合には、大きなベースモデルの出力を所望の方向に向けて操るためにヌージングトークンを生成する。
3つのモデルファミリーと13のタスクにまたがるヌードの有効性を評価し、推論、一般的な知識、指示追従、安全性ベンチマークについて検討した。
追加のトレーニングがなければ、大きなベースモデルを7倍から14倍の小さなアライメントモデルでヌードすることは、大きなアライメントモデルと比較し、時には上回るゼロショットのパフォーマンスを達成する。
例えば、OLMo-1b-インストラクタでOLMo-7bをヌードすると、トークンの9%未満が影響を受け、OLMo-7b-インストラクタよりもGSM8Kが10%絶対的に改善される。
従来の推論時チューニング方法とは異なり、ヌーディングはモデルファミリ間のオフザシェルフ協調を可能にする。
例えば、Llama-2-7b-chatでGemma-2-27bをヌードすると、様々なタスクでLlama-2-70b-chatより優れる。
全体として、この作業はトークンレベルのモデルコラボレーションに対するシンプルだが強力なアプローチを導入し、LLMアライメントに対するモジュラーソリューションを提供します。
プロジェクトのWebサイト: https://fywalter.github.io/nudging/。
Large language models (LLMs) require alignment, such as instruction-tuning or reinforcement learning from human feedback, to effectively and safely follow user instructions. This process necessitates training aligned versions for every model size in each model family, resulting in significant computational overhead. In this work, we propose nudging, a simple, plug-and-play, and training-free algorithm that aligns any base model at inference time using a small aligned model. Nudging is motivated by recent findings that alignment primarily alters the model's behavior on a small subset of stylistic tokens, such as "Sure" or "Thank". We find that base models are significantly more uncertain when generating these tokens. Leveraging this observation, nudging employs a small aligned model to generate nudging tokens to steer the large base model's output toward desired directions when the base model's uncertainty is high. We evaluate the effectiveness of nudging across 3 model families and 13 tasks, covering reasoning, general knowledge, instruction following, and safety benchmarks. Without any additional training, nudging a large base model with a 7x - 14x smaller aligned model achieves zero-shot performance comparable to, and sometimes surpassing, that of large aligned models. For example, nudging OLMo-7b with OLMo-1b-instruct, affecting less than 9% of tokens, achieves a 10% absolute improvement on GSM8K over OLMo-7b-instruct. Unlike prior inference-time tuning methods, nudging enables off-the-shelf collaboration between model families. For instance, nudging Gemma-2-27b with Llama-2-7b-chat outperforms Llama-2-70b-chat on various tasks. Overall, this work introduces a simple yet powerful approach to token-level model collaboration, offering a modular solution to LLM alignment. Our project website: https://fywalter.github.io/nudging/ . | 翻訳日:2024-10-30 15:13:33 公開日:2024-10-15 |
# 逆摂動による導入計画課題におけるLLM支援加熱の障害
Impeding LLM-assisted Cheating in Introductory Programming Assignments via Adversarial Perturbations ( http://arxiv.org/abs/2410.09318v1 ) ライセンス: Link先を確認 | Saiful Islam Salim, Rubin Yuchan Yang, Alexander Cooper, Suryashree Ray, Saumya Debray, Sazzadur Rahaman, | (参考訳) CoPilotやChatGPTのようなLLM(Large Language Model)ベースのプログラミングアシスタントは、プロのソフトウェア開発者の生産性を向上させるのに役立ちます。
本稿では, インストラクタが産業力モデルに対して限定的な制御を行うと仮定し, 導入プログラミング問題の収集に広く用いられている5つのLCMのベースライン性能について検討し, 性能を劣化させるために, 対角摂動を検証し, 導入プログラミング課題の実際のコード生成を阻害する上で, そのような摂動の有効性を理解することを目的としたユーザスタディの結果について述べる。
ユーザー調査は
一 摂動により平均正当性スコアが77%低下したこと。
二 これらの摂動による正当性の低下は、その検出可能性により影響される。
While Large language model (LLM)-based programming assistants such as CoPilot and ChatGPT can help improve the productivity of professional software developers, they can also facilitate cheating in introductory computer programming courses. Assuming instructors have limited control over the industrial-strength models, this paper investigates the baseline performance of 5 widely used LLMs on a collection of introductory programming problems, examines adversarial perturbations to degrade their performance, and describes the results of a user study aimed at understanding the efficacy of such perturbations in hindering actual code generation for introductory programming assignments. The user study suggests that i) perturbations combinedly reduced the average correctness score by 77%, ii) the drop in correctness caused by these perturbations was affected based on their detectability. | 翻訳日:2024-10-30 15:13:33 公開日:2024-10-15 |
# 逆摂動による導入計画課題におけるLLM支援加熱の障害
Impeding LLM-assisted Cheating in Introductory Programming Assignments via Adversarial Perturbation ( http://arxiv.org/abs/2410.09318v2 ) ライセンス: Link先を確認 | Saiful Islam Salim, Rubin Yuchan Yang, Alexander Cooper, Suryashree Ray, Saumya Debray, Sazzadur Rahaman, | (参考訳) CoPilotやChatGPTのようなLLM(Large Language Model)ベースのプログラミングアシスタントは、プロのソフトウェア開発者の生産性を向上させるのに役立ちます。
本稿では, インストラクタが産業力モデルに対して限定的な制御を行うと仮定し, 導入プログラミング問題の収集に広く用いられている5つのLCMのベースライン性能について検討し, 性能を劣化させるために, 対角摂動を検証し, 導入プログラミング課題の実際のコード生成を阻害する上で, そのような摂動の有効性を理解することを目的としたユーザスタディの結果について述べる。
ユーザー調査は
一 摂動により平均正当性スコアが77%低下したこと。
二 これらの摂動による正当性の低下は、その検出可能性により影響される。
While Large language model (LLM)-based programming assistants such as CoPilot and ChatGPT can help improve the productivity of professional software developers, they can also facilitate cheating in introductory computer programming courses. Assuming instructors have limited control over the industrial-strength models, this paper investigates the baseline performance of 5 widely used LLMs on a collection of introductory programming problems, examines adversarial perturbations to degrade their performance, and describes the results of a user study aimed at understanding the efficacy of such perturbations in hindering actual code generation for introductory programming assignments. The user study suggests that i) perturbations combinedly reduced the average correctness score by 77%, ii) the drop in correctness caused by these perturbations was affected based on their detectability. | 翻訳日:2024-10-30 15:13:33 公開日:2024-10-15 |
# 非平滑問題におけるアンダーソン加速度:アクティブマニフォールド同定による局所収束
Anderson Acceleration in Nonsmooth Problems: Local Convergence via Active Manifold Identification ( http://arxiv.org/abs/2410.09420v1 ) ライセンス: Link先を確認 | Kexin Li, Luwei Bai, Xiao Wang, Hao Wang, | (参考訳) アンダーソン加速度は固定点反復の効率を高める効果的な手法であるが、非滑らかな設定での収束を分析することは重要な課題である。
本稿では,アクティブな多様体識別特性を特徴とする非滑らかな最適化アルゴリズムのクラスについて検討する。
このクラスは、近点法、近勾配法、近直線法、近座標降下法、ダグラス・ラフフォード分割法(あるいは乗算器の交互方向法)、反復的に重み付けされた$\ell_1$法などの様々な方法を含む。
最適化問題が定常点に活性多様体を持つという仮定の下で、アンダーソン加速アルゴリズムの局所 R-線型収束速度を確立する。
我々の広範な数値実験は、提案したアンダーソン加速法の頑健な性能をさらに強調した。
Anderson acceleration is an effective technique for enhancing the efficiency of fixed-point iterations; however, analyzing its convergence in nonsmooth settings presents significant challenges. In this paper, we investigate a class of nonsmooth optimization algorithms characterized by the active manifold identification property. This class includes a diverse array of methods such as the proximal point method, proximal gradient method, proximal linear method, proximal coordinate descent method, Douglas-Rachford splitting (or the alternating direction method of multipliers), and the iteratively reweighted $\ell_1$ method, among others. Under the assumption that the optimization problem possesses an active manifold at a stationary point, we establish a local R-linear convergence rate for the Anderson-accelerated algorithm. Our extensive numerical experiments further highlight the robust performance of the proposed Anderson-accelerated methods. | 翻訳日:2024-10-30 14:24:23 公開日:2024-10-15 |
# 非平滑問題におけるアンダーソン加速度:アクティブマニフォールド同定による局所収束
Anderson Acceleration in Nonsmooth Problems: Local Convergence via Active Manifold Identification ( http://arxiv.org/abs/2410.09420v2 ) ライセンス: Link先を確認 | Kexin Li, Luwei Bai, Xiao Wang, Hao Wang, | (参考訳) アンダーソン加速度は固定点反復の効率を高める効果的な手法であるが、非滑らかな設定での収束を分析することは重要な課題である。
本稿では,アクティブな多様体識別特性を特徴とする非滑らかな最適化アルゴリズムのクラスについて検討する。
このクラスは、近点法、近勾配法、近直線法、近座標降下法、ダグラス・ラフフォード分割法(あるいは乗算器の交互方向法)、反復的に重み付けされた$\ell_1$法などの様々な方法を含む。
最適化問題が定常点に活性多様体を持つという仮定の下で、アンダーソン加速アルゴリズムの局所 R-線型収束速度を確立する。
我々の広範な数値実験は、提案したアンダーソン加速法の頑健な性能をさらに強調した。
Anderson acceleration is an effective technique for enhancing the efficiency of fixed-point iterations; however, analyzing its convergence in nonsmooth settings presents significant challenges. In this paper, we investigate a class of nonsmooth optimization algorithms characterized by the active manifold identification property. This class includes a diverse array of methods such as the proximal point method, proximal gradient method, proximal linear method, proximal coordinate descent method, Douglas-Rachford splitting (or the alternating direction method of multipliers), and the iteratively reweighted $\ell_1$ method, among others. Under the assumption that the optimization problem possesses an active manifold at a stationary point, we establish a local R-linear convergence rate for the Anderson-accelerated algorithm. Our extensive numerical experiments further highlight the robust performance of the proposed Anderson-accelerated methods. | 翻訳日:2024-10-30 14:24:23 公開日:2024-10-15 |
# MTL-LoRA:マルチタスク学習のための低ランク適応
MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning ( http://arxiv.org/abs/2410.09437v1 ) ライセンス: Link先を確認 | Yaming Yang, Dilixat Muhtar, Yelong Shen, Yuefeng Zhan, Jianfeng Liu, Yujing Wang, Hao Sun, Denvy Deng, Feng Sun, Qi Zhang, Weizhu Chen, Yunhai Tong, | (参考訳) パラメータ効率のよい微調整(PEFT)はドメイン適応に広く使われており、LoRAはその単純さと有効性から最も顕著な手法の1つである。
しかし、マルチタスク学習(MTL)のシナリオでは、LoRAは異なるタスクから細かな高次元特徴を同じ密度の低次元固有空間に投影することで、タスク間の区別を曖昧にする傾向がある。
これにより、LoRAとその変種に対するタスク干渉とサブ最適性能がもたらされる。
この課題に対処するため,マルチタスク学習能力を大幅に向上させつつ,低ランク適応の利点を保ちながらMLL-LoRAを提案する。
MTL-LoRAは、タスク固有の情報を識別し、低次元空間内の様々なタスク間で共有知識を効果的に取得するタスク適応パラメータを追加することで、LoRAを強化する。
このアプローチにより、汎用コーパス上で事前訓練された大規模言語モデル(LLM)が、限られた数のトレーニング可能なパラメータで異なるターゲットタスクドメインに適応できる。
自然言語理解、コモンセンス推論、画像テキスト理解のための公開学術ベンチマークの評価、実世界の産業用テキスト 広告関連データセットなどの総合的な実験結果により、MTL-LoRAはLORAとその様々な変種を、マルチタスク学習において同等またはより少ない学習可能なパラメータで上回ることを示した。
Parameter-efficient fine-tuning (PEFT) has been widely employed for domain adaptation, with LoRA being one of the most prominent methods due to its simplicity and effectiveness. However, in multi-task learning (MTL) scenarios, LoRA tends to obscure the distinction between tasks by projecting sparse high-dimensional features from different tasks into the same dense low-dimensional intrinsic space. This leads to task interference and suboptimal performance for LoRA and its variants. To tackle this challenge, we propose MTL-LoRA, which retains the advantages of low-rank adaptation while significantly enhancing multi-task learning capabilities. MTL-LoRA augments LoRA by incorporating additional task-adaptive parameters that differentiate task-specific information and effectively capture shared knowledge across various tasks within low-dimensional spaces. This approach enables large language models (LLMs) pre-trained on general corpus to adapt to different target task domains with a limited number of trainable parameters. Comprehensive experimental results, including evaluations on public academic benchmarks for natural language understanding, commonsense reasoning, and image-text understanding, as well as real-world industrial text Ads relevance datasets, demonstrate that MTL-LoRA outperforms LoRA and its various variants with comparable or even fewer learnable parameters in multitask learning. | 翻訳日:2024-10-30 14:24:23 公開日:2024-10-15 |
# MTL-LoRA:マルチタスク学習のための低ランク適応
MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning ( http://arxiv.org/abs/2410.09437v2 ) ライセンス: Link先を確認 | Yaming Yang, Dilxat Muhtar, Yelong Shen, Yuefeng Zhan, Jianfeng Liu, Yujing Wang, Hao Sun, Denvy Deng, Feng Sun, Qi Zhang, Weizhu Chen, Yunhai Tong, | (参考訳) パラメータ効率のよい微調整(PEFT)はドメイン適応に広く使われており、LoRAはその単純さと有効性から最も顕著な手法の1つである。
しかし、マルチタスク学習(MTL)のシナリオでは、LoRAは異なるタスクから細かな高次元特徴を同じ密度の低次元固有空間に投影することで、タスク間の区別を曖昧にする傾向がある。
これにより、LoRAとその変種に対するタスク干渉とサブ最適性能がもたらされる。
この課題に対処するため,マルチタスク学習能力を大幅に向上させつつ,低ランク適応の利点を保ちながらMLL-LoRAを提案する。
MTL-LoRAは、タスク固有の情報を識別し、低次元空間内の様々なタスク間で共有知識を効果的に取得するタスク適応パラメータを追加することで、LoRAを強化する。
このアプローチにより、汎用コーパス上で事前訓練された大規模言語モデル(LLM)が、限られた数のトレーニング可能なパラメータで異なるターゲットタスクドメインに適応できる。
自然言語理解、コモンセンス推論、画像テキスト理解のための公開学術ベンチマークの評価、実世界の産業用テキスト 広告関連データセットなどの総合的な実験結果により、MTL-LoRAはLORAとその様々な変種を、マルチタスク学習において同等またはより少ない学習可能なパラメータで上回ることを示した。
Parameter-efficient fine-tuning (PEFT) has been widely employed for domain adaptation, with LoRA being one of the most prominent methods due to its simplicity and effectiveness. However, in multi-task learning (MTL) scenarios, LoRA tends to obscure the distinction between tasks by projecting sparse high-dimensional features from different tasks into the same dense low-dimensional intrinsic space. This leads to task interference and suboptimal performance for LoRA and its variants. To tackle this challenge, we propose MTL-LoRA, which retains the advantages of low-rank adaptation while significantly enhancing multi-task learning capabilities. MTL-LoRA augments LoRA by incorporating additional task-adaptive parameters that differentiate task-specific information and effectively capture shared knowledge across various tasks within low-dimensional spaces. This approach enables large language models (LLMs) pre-trained on general corpus to adapt to different target task domains with a limited number of trainable parameters. Comprehensive experimental results, including evaluations on public academic benchmarks for natural language understanding, commonsense reasoning, and image-text understanding, as well as real-world industrial text Ads relevance datasets, demonstrate that MTL-LoRA outperforms LoRA and its various variants with comparable or even fewer learnable parameters in multitask learning. | 翻訳日:2024-10-30 14:24:23 公開日:2024-10-15 |
# POPoS: 並列最適位置探索による効率とロバストな顔のランドマーク検出の改善
POPoS: Improving Efficient and Robust Facial Landmark Detection with Parallel Optimal Position Search ( http://arxiv.org/abs/2410.09583v1 ) ライセンス: Link先を確認 | Chong-Yang Xiang, Jun-Yan He, Zhi-Qi Cheng, Xiao Wu, Xian-Sheng Hua, | (参考訳) 精度と効率のバランスをとることは、顔のランドマーク検出(FLD)において重要な課題である。
本稿では,従来のFLD法の基本的制約に対処する高精度符号化・復号化フレームワークであるParallel Optimal Position Search (POPoS)を紹介する。
Pseudo-range multilateration はヒートマップ誤差の修正に利用され、ランドマークの局所化の精度が向上する。
複数のアンカーポイントを統合することで、このアプローチは個々のヒートマップ不正確な影響を最小限に抑え、全体的な位置決めが堅牢になる。
2) 選択したアンカー点の擬似距離精度を改善するために, マルチレイタレーションアンカー損失と呼ばれる新たな損失関数を提案する。
この損失関数は、距離マップの精度を効果的に向上し、局所最適のリスクを軽減し、最適解を保証する。
(3)単一ステップ並列計算アルゴリズムを導入し,計算効率を大幅に向上し,処理時間を短縮した。
5つのベンチマークデータセットの総合的な評価は、POPoSが既存の手法を一貫して上回り、特に計算オーバーヘッドを最小限に抑えた低解像度シナリオで優れていることを示している。
これらの機能は、現実世界のシナリオで広く適用可能な、FLDの高効率で正確なツールとしてPOPoSを確立する。
コードはhttps://github.com/teslatasy/PoPoSで公開されている。
Achieving a balance between accuracy and efficiency is a critical challenge in facial landmark detection (FLD). This paper introduces the Parallel Optimal Position Search (POPoS), a high-precision encoding-decoding framework designed to address the fundamental limitations of traditional FLD methods. POPoS employs three key innovations: (1) Pseudo-range multilateration is utilized to correct heatmap errors, enhancing the precision of landmark localization. By integrating multiple anchor points, this approach minimizes the impact of individual heatmap inaccuracies, leading to robust overall positioning. (2) To improve the pseudo-range accuracy of selected anchor points, a new loss function, named multilateration anchor loss, is proposed. This loss function effectively enhances the accuracy of the distance map, mitigates the risk of local optima, and ensures optimal solutions. (3) A single-step parallel computation algorithm is introduced, significantly enhancing computational efficiency and reducing processing time. Comprehensive evaluations across five benchmark datasets demonstrate that POPoS consistently outperforms existing methods, particularly excelling in low-resolution scenarios with minimal computational overhead. These features establish POPoS as a highly efficient and accurate tool for FLD, with broad applicability in real-world scenarios. The code is available at https://github.com/teslatasy/PoPoS | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-15 |
# POPoS: 並列最適位置探索による効率とロバストな顔のランドマーク検出の改善
POPoS: Improving Efficient and Robust Facial Landmark Detection with Parallel Optimal Position Search ( http://arxiv.org/abs/2410.09583v2 ) ライセンス: Link先を確認 | Chong-Yang Xiang, Jun-Yan He, Zhi-Qi Cheng, Xiao Wu, Xian-Sheng Hua, | (参考訳) 精度と効率のバランスをとることは、顔のランドマーク検出(FLD)において重要な課題である。
本稿では,従来のFLD法の基本的制約に対処する高精度符号化・復号化フレームワークであるParallel Optimal Position Search (POPoS)を紹介する。
Pseudo-range multilateration はヒートマップ誤差の修正に利用され、ランドマークの局所化の精度が向上する。
複数のアンカーポイントを統合することで、このアプローチは個々のヒートマップ不正確な影響を最小限に抑え、全体的な位置決めが堅牢になる。
2) 選択したアンカー点の擬似距離精度を改善するために, マルチレイタレーションアンカー損失と呼ばれる新たな損失関数を提案する。
この損失関数は、距離マップの精度を効果的に向上し、局所最適のリスクを軽減し、最適解を保証する。
(3)単一ステップ並列計算アルゴリズムを導入し,計算効率を大幅に向上し,処理時間を短縮した。
5つのベンチマークデータセットの総合的な評価は、POPoSが既存の手法を一貫して上回り、特に計算オーバーヘッドを最小限に抑えた低解像度シナリオで優れていることを示している。
これらの機能は、現実世界のシナリオで広く適用可能な、FLDの高効率で正確なツールとしてPOPoSを確立する。
コードはhttps://github.com/teslatasy/PoPoSで公開されている。
Achieving a balance between accuracy and efficiency is a critical challenge in facial landmark detection (FLD). This paper introduces the Parallel Optimal Position Search (POPoS), a high-precision encoding-decoding framework designed to address the fundamental limitations of traditional FLD methods. POPoS employs three key innovations: (1) Pseudo-range multilateration is utilized to correct heatmap errors, enhancing the precision of landmark localization. By integrating multiple anchor points, this approach minimizes the impact of individual heatmap inaccuracies, leading to robust overall positioning. (2) To improve the pseudo-range accuracy of selected anchor points, a new loss function, named multilateration anchor loss, is proposed. This loss function effectively enhances the accuracy of the distance map, mitigates the risk of local optima, and ensures optimal solutions. (3) A single-step parallel computation algorithm is introduced, significantly enhancing computational efficiency and reducing processing time. Comprehensive evaluations across five benchmark datasets demonstrate that POPoS consistently outperforms existing methods, particularly excelling in low-resolution scenarios with minimal computational overhead. These features establish POPoS as a highly efficient and accurate tool for FLD, with broad applicability in real-world scenarios. The code is available at https://github.com/teslatasy/PoPoS | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-15 |
# フェアネスの脆弱性:フェア機械学習における因果感度分析
The Fragility of Fairness: Causal Sensitivity Analysis for Fair Machine Learning ( http://arxiv.org/abs/2410.09600v1 ) ライセンス: Link先を確認 | Jake Fawkes, Nic Fishman, Mel Andrews, Zachary C. Lipton, | (参考訳) 公正度メトリクスは、公正な機械学習文献(FairML)の中核的なツールであり、MLモデルが何らかの意味で ``fair'' であるかどうかを判断するために使用される。
しかし、実世界のデータは、様々な測定バイアスやその他の違反した仮定に悩まされ、公平性の評価を無意味にすることができる。
因果感度分析からFairMLの文脈へツールを適応させ,(1)'oblivious set ''で表される公平度基準とバイアスの組み合わせを効果的に許容する,(2)バイアスの組み合わせを研究者が調査できる,(3)ドメイン固有の制約や仮定の柔軟なエンコーディングを可能にする,汎用的なフレームワークを提供する。
この枠組みを用いることで、14の正準公正データセットにまたがる3種類の分類器の下で、最も一般的なパリティ指標の感度を分析する。
我々の分析では、フェアネスアセスメントの顕著な脆弱さが、小さなデータセットのバイアスにも表れている。
本研究では,因果感度分析が,パリティ計量評価の有意性を測る上で,強力かつ必要なツールキットを提供することを示す。
私たちのリポジトリはこちらで利用可能です。
Fairness metrics are a core tool in the fair machine learning literature (FairML), used to determine that ML models are, in some sense, ``fair ''.Real-world data, however, are typically plagued by various measurement biases and other violated assumptions, which can render fairness assessments meaningless. We adapt tools from causal sensitivity analysis to the FairML context, providing a general framework which (1) accommodates effectively any combination of fairness metric and bias that can be posed in the ``oblivious setting ''; (2) allows researchers to investigate combinations of biases, resulting in non-linear sensitivity; and (3) enables flexible encoding of domain-specific constraints and assumptions. Employing this framework, we analyze the sensitivity of the most common parity metrics under 3 varieties of classifier across 14 canonical fairness datasets. Our analysis reveals the striking fragility of fairness assessments to even minor dataset biases. We show that causal sensitivity analysis provides a powerful and necessary toolkit for gauging the informativeness of parity metric evaluations. Our repository is available here: https://github.com/Jakefawkes/fragile_fair. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-15 |
# フェアネスの脆弱性:フェア機械学習における因果感度分析
The Fragility of Fairness: Causal Sensitivity Analysis for Fair Machine Learning ( http://arxiv.org/abs/2410.09600v2 ) ライセンス: Link先を確認 | Jake Fawkes, Nic Fishman, Mel Andrews, Zachary C. Lipton, | (参考訳) 公正度メトリクスは、公正機械学習文学(FairML)の中核的なツールであり、ある意味では、MLモデルが"フェア"であると判断するために使用される。
しかし、実世界のデータは、様々な測定バイアスやその他の違反した仮定に悩まされ、公平性の評価を無意味にすることができる。
因果感度分析からFairMLの文脈へツールを適応させ,(1)「公的な設定」で提示される公平度基準と偏見の組み合わせを効果的に許容する一般的な枠組み,(2)バイアスの組み合わせを研究者が調査し,非線型感度を実現し,(3)ドメイン固有の制約や仮定を柔軟に符号化するフレームワークを提供する。
このフレームワークを用いて、14の標準フェアネスデータセットの3種類の分類器の下で、最も一般的なパリティ指標の感度を分析する。
我々の分析では、フェアネスアセスメントの顕著な脆弱さが、小さなデータセットのバイアスにも表れている。
本研究では,因果感度分析が,パリティ計量評価の有意性を測る上で,強力かつ必要なツールキットを提供することを示す。
私たちのリポジトリはこちらで利用可能です。
Fairness metrics are a core tool in the fair machine learning literature (FairML), used to determine that ML models are, in some sense, "fair". Real-world data, however, are typically plagued by various measurement biases and other violated assumptions, which can render fairness assessments meaningless. We adapt tools from causal sensitivity analysis to the FairML context, providing a general framework which (1) accommodates effectively any combination of fairness metric and bias that can be posed in the "oblivious setting"; (2) allows researchers to investigate combinations of biases, resulting in non-linear sensitivity; and (3) enables flexible encoding of domain-specific constraints and assumptions. Employing this framework, we analyze the sensitivity of the most common parity metrics under 3 varieties of classifier across 14 canonical fairness datasets. Our analysis reveals the striking fragility of fairness assessments to even minor dataset biases. We show that causal sensitivity analysis provides a powerful and necessary toolkit for gauging the informativeness of parity metric evaluations. Our repository is available here: https://github.com/Jakefawkes/fragile_fair. | 翻訳日:2024-10-30 13:35:29 公開日:2024-10-15 |
# 連続体における境界状態を持つポテンシャルの構成に関する一般理論
General theory of constructing potential with bound states in the continuum ( http://arxiv.org/abs/2410.09647v1 ) ライセンス: Link先を確認 | Mao Kurino, Kazuo Takayanagi, | (参考訳) 正のエネルギー(連続体における有界状態)における有界状態を支持するポテンシャルの一般理論を示す。
理論面では、$V(r,r')$ という形の非局所ポテンシャルによって記述される系では、正のエネルギーにおける有界状態は負のエネルギーで表されるものと同様に一般的であり、同時に、$V(r)$ という形の局所ポテンシャルが正のエネルギー境界状態をサポートすることは稀であることを示す。
実用面では、任意の正のエネルギーで任意の正規化可能な状態をサポートする(自然に非局所的な)ポテンシャルを構築する方法を示す。
運動量と座標空間の両方において、非局所ポテンシャルが果たす重要な役割を強調する数値的な例で、我々の理論を実証する。
最後に、正エネルギーにおける有界状態の観測方法と、それをサポートする可能性のある非局所ポテンシャルの探索方法について議論する。
We present a general theory of potentials that support bound states at positive energies (bound states in the continuum). On the theoretical side, we prove that, for systems described by nonlocal potentials of the form $V(r,r')$, bound states at positive energies are as common as those at negative energies.At the same time, we show that a local potential of the form $V(r)$ rarely supports a positive energy bound state. On the practical side, we show how to construct a (naturally nonlocal) potential which supports an arbitrary normalizable state at an arbitrary positive energy. We demonstrate our theory with numerical examples both in momentum and coordinate spaces with emphasis on the important role played by nonlocal potentials. Finally, we discuss how to observe bound states at positive energies, and where to search for nonlocal potentials which may support them. | 翻訳日:2024-10-30 08:56:21 公開日:2024-10-15 |
# 連続体における境界状態を持つポテンシャルの構成に関する一般理論
General theory of constructing potential with bound states in the continuum ( http://arxiv.org/abs/2410.09647v2 ) ライセンス: Link先を確認 | Mao Kurino, Kazuo Takayanagi, | (参考訳) 正のエネルギー(連続体における有界状態)における有界状態を支持するポテンシャルの一般理論を示す。
理論面では、$V(r,r')$ という形の非局所ポテンシャルによって記述される系に対して、正のエネルギーにおける有界状態は負のエネルギーにおけるものと同様に一般的であることを示す。
同時に、$V(r)$という形の局所ポテンシャルが正のエネルギー束縛状態をサポートすることは滅多にないことを示す。
実用面では、任意の正のエネルギーで任意の正規化可能な状態をサポートする(自然に非局所的な)ポテンシャルを構築する方法を示す。
運動量と座標空間の両方において、非局所ポテンシャルが果たす重要な役割を強調する数値的な例で、我々の理論を実証する。
最後に、正エネルギーにおける有界状態の観測方法と、それをサポートする可能性のある非局所ポテンシャルの探索方法について議論する。
We present a general theory of potentials that support bound states at positive energies (bound states in the continuum). On the theoretical side, we prove that, for systems described by nonlocal potentials of the form $V(r,r')$, bound states at positive energies are as common as those at negative energies. At the same time, we show that a local potential of the form $V(r)$ rarely supports a positive energy bound state. On the practical side, we show how to construct a (naturally nonlocal) potential which supports an arbitrary normalizable state at an arbitrary positive energy. We demonstrate our theory with numerical examples both in momentum and coordinate spaces with emphasis on the important role played by nonlocal potentials. Finally, we discuss how to observe bound states at positive energies, and where to search for nonlocal potentials which may support them. | 翻訳日:2024-10-30 08:56:21 公開日:2024-10-15 |
# LoRD: 差別化可能なドライビングポリシを分散シフトに適用する
LoRD: Adapting Differentiable Driving Policies to Distribution Shifts ( http://arxiv.org/abs/2410.09681v1 ) ライセンス: Link先を確認 | Christopher Diehl, Peter Karkus, Shushant Veer, Marco Pavone, Torsten Bertram, | (参考訳) 運用領域間の分散シフトは、自動運転車(SDV)における学習モデルの性能に重大な影響を与える可能性がある。
これはよく確立された問題であるが、先行研究は主に、運動予測タスクに焦点をあてた微調整などの単純解を探求してきた。
本研究では,予測,計画,制御からなる微分可能な自律スタックに対する新しい適応戦略について検討し,閉ループでの評価を行い,大惨な忘れ込みをしばしば見落としている問題について検討する。
具体的には,低ランク残差復号器 (LoRD) とマルチタスクファインチューニング (Multi-task fine-tuning) の2つの簡単な手法を紹介する。
2つの実世界の自律走行データセット(nuPlan, exiD)で実施した3つのモデルを対象とした実験を通じて,本手法の有効性を実証し,従来手法におけるオープンループとクローズループ評価の大幅な性能ギャップを明らかにする。
提案手法では, 通常の微調整に比べて最大23.33%, 閉ループOOD駆動スコア8.83%の精度向上を実現している。
Distribution shifts between operational domains can severely affect the performance of learned models in self-driving vehicles (SDVs). While this is a well-established problem, prior work has mostly explored naive solutions such as fine-tuning, focusing on the motion prediction task. In this work, we explore novel adaptation strategies for differentiable autonomy stacks consisting of prediction, planning, and control, perform evaluation in closed-loop, and investigate the often-overlooked issue of catastrophic forgetting. Specifically, we introduce two simple yet effective techniques: a low-rank residual decoder (LoRD) and multi-task fine-tuning. Through experiments across three models conducted on two real-world autonomous driving datasets (nuPlan, exiD), we demonstrate the effectiveness of our methods and highlight a significant performance gap between open-loop and closed-loop evaluation in prior approaches. Our approach improves forgetting by up to 23.33% and the closed-loop OOD driving score by 8.83% in comparison to standard fine-tuning. | 翻訳日:2024-10-30 08:46:35 公開日:2024-10-15 |
# LoRD: 差別化可能なドライビングポリシを分散シフトに適用する
LoRD: Adapting Differentiable Driving Policies to Distribution Shifts ( http://arxiv.org/abs/2410.09681v2 ) ライセンス: Link先を確認 | Christopher Diehl, Peter Karkus, Sushant Veer, Marco Pavone, Torsten Bertram, | (参考訳) 運用領域間の分散シフトは、自動運転車(SDV)における学習モデルの性能に重大な影響を与える可能性がある。
これはよく確立された問題であるが、先行研究は主に、運動予測タスクに焦点をあてた微調整などの単純解を探求してきた。
本研究では,予測,計画,制御からなる微分可能な自律スタックに対する新しい適応戦略について検討し,閉ループでの評価を行い,大惨な忘れ込みをしばしば見落としている問題について検討する。
具体的には,低ランク残差復号器 (LoRD) とマルチタスクファインチューニング (Multi-task fine-tuning) の2つの簡単な手法を紹介する。
2つの実世界の自律走行データセット(nuPlan, exiD)で実施した3つのモデルを対象とした実験を通じて,本手法の有効性を実証し,従来手法におけるオープンループとクローズループ評価の大幅な性能ギャップを明らかにする。
提案手法では, 通常の微調整に比べて最大23.33%, 閉ループOOD駆動スコア8.83%の精度向上を実現している。
Distribution shifts between operational domains can severely affect the performance of learned models in self-driving vehicles (SDVs). While this is a well-established problem, prior work has mostly explored naive solutions such as fine-tuning, focusing on the motion prediction task. In this work, we explore novel adaptation strategies for differentiable autonomy stacks consisting of prediction, planning, and control, perform evaluation in closed-loop, and investigate the often-overlooked issue of catastrophic forgetting. Specifically, we introduce two simple yet effective techniques: a low-rank residual decoder (LoRD) and multi-task fine-tuning. Through experiments across three models conducted on two real-world autonomous driving datasets (nuPlan, exiD), we demonstrate the effectiveness of our methods and highlight a significant performance gap between open-loop and closed-loop evaluation in prior approaches. Our approach improves forgetting by up to 23.33% and the closed-loop OOD driving score by 8.83% in comparison to standard fine-tuning. | 翻訳日:2024-10-30 08:46:35 公開日:2024-10-15 |
# AI生成コンテンツのための効率的で拡張可能なファイルフォーマットの定義に向けて
Toward Defining an Efficient and Expandable File Format for AI-Generated Contents ( http://arxiv.org/abs/2410.09834v1 ) ライセンス: Link先を確認 | Yixin Gao, Runsen Feng, Xin Li, Weiping Li, Zhibo Chen, | (参考訳) 近年、AIGC(AI-Generated Content)はその強力な作成能力のために大きな注目を集めている。
しかし、大量の高品質なAIGC画像の保存と送信は、必然的に最近のファイルフォーマットに新しい課題をもたらす。
そこで我々は,AIGC画像の超低ビットレート符号化を可能にするAIGIFという,AIGC画像の新しいファイルフォーマットを定義した。
既存のファイルフォーマットとしてピクセル単位の空間で直感的にAIGC画像を圧縮するのとは異なり、AIGIFは生成構文を圧縮する。
どの生成構文要素、例えば、テキストプロンプト、デバイス構成など、圧縮/送信に必要か?
この質問に答えるために、プラットフォーム、生成モデル、データ構成という3つの重要な要素の効果を体系的に調査する。
以上の3つの要素を組み込んだよく設計された構成可能なビットストリーム構造は,高い忠実性を確保しつつ,最大1/10,000の圧縮比を達成できることを実験的に確認した。
また、AIGIFに拡張可能な構文を導入し、将来開発される最も先進的な世代モデルの拡張をサポートする。
Recently, AI-generated content (AIGC) has gained significant traction due to its powerful creation capability. However, the storage and transmission of large amounts of high-quality AIGC images inevitably pose new challenges for recent file formats. To overcome this, we define a new file format for AIGC images, named AIGIF, enabling ultra-low bitrate coding of AIGC images. Unlike compressing AIGC images intuitively with pixel-wise space as existing file formats, AIGIF instead compresses the generation syntax. This raises a crucial question: Which generation syntax elements, e.g., text prompt, device configuration, etc, are necessary for compression/transmission? To answer this question, we systematically investigate the effects of three essential factors: platform, generative model, and data configuration. We experimentally find that a well-designed composable bitstream structure incorporating the above three factors can achieve an impressive compression ratio of even up to 1/10,000 while still ensuring high fidelity. We also introduce an expandable syntax in AIGIF to support the extension of the most advanced generation models to be developed in the future. | 翻訳日:2024-10-30 04:42:49 公開日:2024-10-15 |
# AI生成コンテンツのための効率的で拡張可能なファイルフォーマットの定義に向けて
Towards Defining an Efficient and Expandable File Format for AI-Generated Contents ( http://arxiv.org/abs/2410.09834v2 ) ライセンス: Link先を確認 | Yixin Gao, Runsen Feng, Xin Li, Weiping Li, Zhibo Chen, | (参考訳) 近年、AIGC(AI-Generated Content)はその強力な作成能力のために大きな注目を集めている。
しかし、大量の高品質なAIGC画像の保存と送信は、必然的に最近のファイルフォーマットに新しい課題をもたらす。
そこで我々は,AIGC画像の超低ビットレート符号化を可能にするAIGIFという,AIGC画像の新しいファイルフォーマットを定義した。
既存のファイルフォーマットとしてピクセル単位の空間で直感的にAIGC画像を圧縮するのとは異なり、AIGIFは生成構文を圧縮する。
どの生成構文要素、例えば、テキストプロンプト、デバイス構成など、圧縮/送信に必要か?
この質問に答えるために、プラットフォーム、生成モデル、データ構成という3つの重要な要素の効果を体系的に調査する。
以上の3つの要素を組み込んだよく設計された構成可能なビットストリーム構造は,高い忠実性を確保しつつ,最大1/10,000の圧縮比を達成できることを実験的に確認した。
また、AIGIFに拡張可能な構文を導入し、将来開発される最も先進的な世代モデルの拡張をサポートする。
Recently, AI-generated content (AIGC) has gained significant traction due to its powerful creation capability. However, the storage and transmission of large amounts of high-quality AIGC images inevitably pose new challenges for recent file formats. To overcome this, we define a new file format for AIGC images, named AIGIF, enabling ultra-low bitrate coding of AIGC images. Unlike compressing AIGC images intuitively with pixel-wise space as existing file formats, AIGIF instead compresses the generation syntax. This raises a crucial question: Which generation syntax elements, e.g., text prompt, device configuration, etc, are necessary for compression/transmission? To answer this question, we systematically investigate the effects of three essential factors: platform, generative model, and data configuration. We experimentally find that a well-designed composable bitstream structure incorporating the above three factors can achieve an impressive compression ratio of even up to 1/10,000 while still ensuring high fidelity. We also introduce an expandable syntax in AIGIF to support the extension of the most advanced generation models to be developed in the future. | 翻訳日:2024-10-30 04:42:48 公開日:2024-10-15 |
# MisinfoEval: 代替ファクトの時代における生成AI
MisinfoEval: Generative AI in the Era of "Alternative Facts" ( http://arxiv.org/abs/2410.09949v1 ) ライセンス: Link先を確認 | Saadia Gabriel, Liang Lyu, James Siderius, Marzyeh Ghassemi, Jacob Andreas, Asu Ozdaglar, | (参考訳) ソーシャルメディアプラットフォームにおける誤報の拡散は、民主的なプロセスを脅かし、大きな経済的損失をもたらし、公衆衛生を脅かす。
誤情報に対処するための多くの取り組みは、知識不足モデルに注目し、事実へのアクセスを通じてユーザの批判的思考を改善するための介入を提案する。
このような取り組みは、スケーラビリティに関する課題や、プラットフォームのユーザの個人的な偏見によって、しばしば妨げられます。
生成AIの出現は、イデオロギー的障壁を越えて大規模に誤情報に対処する有望な機会を提示する。
本稿では,大規模言語モデル(LLM)に基づく誤情報介入の生成と評価を行うフレームワーク(MisinfoEval)を提案する。
本研究では,(1)誤情報介入の効果を測定するためのシミュレーションソーシャルメディア環境を用いた実験,(2)既存の価値観に訴えて誤情報に対処する目的で,利用者の人口動態や信念に合わせたパーソナライズされた説明を用いた第2の実験について述べる。
以上の結果から,LCMによる介入はユーザ行動の修正に極めて有効であることが確認された(信頼性ラベルの精度を最大41.72%向上させる)。
さらに、ニュースの信頼性に関する判断を行う際には、よりパーソナライズされた介入が好まれており、また、パーソナライズされた介入が誤情報を識別する際の精度が著しく高いことが判明した。
The spread of misinformation on social media platforms threatens democratic processes, contributes to massive economic losses, and endangers public health. Many efforts to address misinformation focus on a knowledge deficit model and propose interventions for improving users' critical thinking through access to facts. Such efforts are often hampered by challenges with scalability, and by platform users' personal biases. The emergence of generative AI presents promising opportunities for countering misinformation at scale across ideological barriers. In this paper, we introduce a framework (MisinfoEval) for generating and comprehensively evaluating large language model (LLM) based misinformation interventions. We present (1) an experiment with a simulated social media environment to measure effectiveness of misinformation interventions, and (2) a second experiment with personalized explanations tailored to the demographics and beliefs of users with the goal of countering misinformation by appealing to their pre-existing values. Our findings confirm that LLM-based interventions are highly effective at correcting user behavior (improving overall user accuracy at reliability labeling by up to 41.72%). Furthermore, we find that users favor more personalized interventions when making decisions about news reliability and users shown personalized interventions have significantly higher accuracy at identifying misinformation. | 翻訳日:2024-10-30 04:03:30 公開日:2024-10-15 |
# MisinfoEval: 代替ファクトの時代における生成AI
MisinfoEval: Generative AI in the Era of "Alternative Facts" ( http://arxiv.org/abs/2410.09949v2 ) ライセンス: Link先を確認 | Saadia Gabriel, Liang Lyu, James Siderius, Marzyeh Ghassemi, Jacob Andreas, Asu Ozdaglar, | (参考訳) ソーシャルメディアプラットフォームにおける誤報の拡散は、民主的なプロセスを脅かし、大きな経済的損失をもたらし、公衆衛生を脅かす。
誤情報に対処するための多くの取り組みは、知識不足モデルに注目し、事実へのアクセスを通じてユーザの批判的思考を改善するための介入を提案する。
このような取り組みは、スケーラビリティに関する課題や、プラットフォームのユーザの個人的な偏見によって、しばしば妨げられます。
生成AIの出現は、イデオロギー的障壁を越えて大規模に誤情報に対処する有望な機会を提示する。
本稿では,大規模言語モデル(LLM)に基づく誤情報介入の生成と評価を行うフレームワーク(MisinfoEval)を提案する。
本研究では,(1)誤情報介入の効果を測定するためのシミュレーションソーシャルメディア環境を用いた実験,(2)既存の価値観に訴えて誤情報に対処する目的で,利用者の人口動態や信念に合わせたパーソナライズされた説明を用いた第2の実験について述べる。
以上の結果から,LCMによる介入はユーザ行動の修正に極めて有効であることが確認された(信頼性ラベルの精度を最大41.72%向上させる)。
さらに、ニュースの信頼性に関する判断を行う際には、よりパーソナライズされた介入が好まれており、また、パーソナライズされた介入が誤情報を識別する際の精度が著しく高いことが判明した。
The spread of misinformation on social media platforms threatens democratic processes, contributes to massive economic losses, and endangers public health. Many efforts to address misinformation focus on a knowledge deficit model and propose interventions for improving users' critical thinking through access to facts. Such efforts are often hampered by challenges with scalability, and by platform users' personal biases. The emergence of generative AI presents promising opportunities for countering misinformation at scale across ideological barriers. In this paper, we introduce a framework (MisinfoEval) for generating and comprehensively evaluating large language model (LLM) based misinformation interventions. We present (1) an experiment with a simulated social media environment to measure effectiveness of misinformation interventions, and (2) a second experiment with personalized explanations tailored to the demographics and beliefs of users with the goal of countering misinformation by appealing to their pre-existing values. Our findings confirm that LLM-based interventions are highly effective at correcting user behavior (improving overall user accuracy at reliability labeling by up to 41.72%). Furthermore, we find that users favor more personalized interventions when making decisions about news reliability and users shown personalized interventions have significantly higher accuracy at identifying misinformation. | 翻訳日:2024-10-30 04:03:30 公開日:2024-10-15 |
# LongHalQA:マルチモーダル大言語モデルに対する長期幻覚評価
LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models ( http://arxiv.org/abs/2410.09962v1 ) ライセンス: Link先を確認 | Han Qiu, Jiaxing Huang, Peng Gao, Qin Qi, Xiaoqin Zhang, Ling Shao, Shijian Lu, | (参考訳) マルチモーダルな大言語モデル~(MLLM)が画像に適合しないテキスト応答を生成する現象である幻覚は、MLLM関連の様々な応用において大きなハードルとなっている。
MLLMの幻覚レベルを測定するために、オブジェクトの存在に関する差別的な疑問を提起するか、MLLMから生成されたテキストをスコアするためにLSM評価器を導入するか、いくつかのベンチマークが作成されている。
しかし、識別データは、実世界のテキストと一致しない単純な質問を主に含み、生成データは、その固有のランダム性のために計算集約的で不安定なLCM評価器を含む。
我々は,LongHalQAを提案する。LongHalQAは,LongHalQAという,長さ6Kの複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V 生成した幻覚データによって特徴付けられ、オブジェクト/イメージ記述や14/130 ワードと189 ワードのマルチラウンド会話など、現実のシナリオによく適合している。
幻覚の識別と幻覚の完成という2つの新しいタスクを導入し、識別的および生成的評価を1つの多重選択形式で統一し、LCM評価装置を必要とせずにより信頼性と効率的な評価を実現する。
さらに,長期にわたる複雑な質問や記述を伴う将来の幻覚ベンチマークの構築を大いに促進する,高度なパイプラインを提案する。
複数の最近のMLLMに対する大規模な実験は、長い複雑なテキストデータで幻覚を扱う際に、様々な新しい課題を明らかにしている。
データセットと評価コードはhttps://github.com/hanqiu-hq/LongHalQA.comで公開されている。
Hallucination, a phenomenon where multimodal large language models~(MLLMs) tend to generate textual responses that are plausible but unaligned with the image, has become one major hurdle in various MLLM-related applications. Several benchmarks have been created to gauge the hallucination levels of MLLMs, by either raising discriminative questions about the existence of objects or introducing LLM evaluators to score the generated text from MLLMs. However, the discriminative data largely involve simple questions that are not aligned with real-world text, while the generative data involve LLM evaluators that are computationally intensive and unstable due to their inherent randomness. We propose LongHalQA, an LLM-free hallucination benchmark that comprises 6K long and complex hallucination text. LongHalQA is featured by GPT4V-generated hallucinatory data that are well aligned with real-world scenarios, including object/image descriptions and multi-round conversations with 14/130 words and 189 words, respectively, on average. It introduces two new tasks, hallucination discrimination and hallucination completion, unifying both discriminative and generative evaluations in a single multiple-choice-question form and leading to more reliable and efficient evaluations without the need for LLM evaluators. Further, we propose an advanced pipeline that greatly facilitates the construction of future hallucination benchmarks with long and complex questions and descriptions. Extensive experiments over multiple recent MLLMs reveal various new challenges when they are handling hallucinations with long and complex textual data. Dataset and evaluation code are available at https://github.com/hanqiu-hq/LongHalQA. | 翻訳日:2024-10-30 04:03:30 公開日:2024-10-15 |
# LongHalQA:マルチモーダル大言語モデルに対する長期幻覚評価
LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models ( http://arxiv.org/abs/2410.09962v2 ) ライセンス: Link先を確認 | Han Qiu, Jiaxing Huang, Peng Gao, Qin Qi, Xiaoqin Zhang, Ling Shao, Shijian Lu, | (参考訳) マルチモーダルな大言語モデル~(MLLM)が画像に適合しないテキスト応答を生成する現象である幻覚は、MLLM関連の様々な応用において大きなハードルとなっている。
MLLMの幻覚レベルを測定するために、オブジェクトの存在に関する差別的な疑問を提起するか、MLLMから生成されたテキストをスコアするためにLSM評価器を導入するか、いくつかのベンチマークが作成されている。
しかし、識別データは、実世界のテキストと一致しない単純な質問を主に含み、生成データは、その固有のランダム性のために計算集約的で不安定なLCM評価器を含む。
我々は,LongHalQAを提案する。LongHalQAは,LongHalQAという,長さ6Kの複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V 生成した幻覚データによって特徴付けられ、オブジェクト/イメージ記述や14/130 ワードと189 ワードのマルチラウンド会話など、現実のシナリオによく適合している。
幻覚の識別と幻覚の完成という2つの新しいタスクを導入し、識別的および生成的評価を1つの多重選択形式で統一し、LCM評価装置を必要とせずにより信頼性と効率的な評価を実現する。
さらに,長期にわたる複雑な質問や記述を伴う将来の幻覚ベンチマークの構築を大いに促進する,高度なパイプラインを提案する。
複数の最近のMLLMに対する大規模な実験は、長い複雑なテキストデータで幻覚を扱う際に、様々な新しい課題を明らかにしている。
データセットと評価コードはhttps://github.com/hanqiu-hq/LongHalQA.comで公開されている。
Hallucination, a phenomenon where multimodal large language models~(MLLMs) tend to generate textual responses that are plausible but unaligned with the image, has become one major hurdle in various MLLM-related applications. Several benchmarks have been created to gauge the hallucination levels of MLLMs, by either raising discriminative questions about the existence of objects or introducing LLM evaluators to score the generated text from MLLMs. However, the discriminative data largely involve simple questions that are not aligned with real-world text, while the generative data involve LLM evaluators that are computationally intensive and unstable due to their inherent randomness. We propose LongHalQA, an LLM-free hallucination benchmark that comprises 6K long and complex hallucination text. LongHalQA is featured by GPT4V-generated hallucinatory data that are well aligned with real-world scenarios, including object/image descriptions and multi-round conversations with 14/130 words and 189 words, respectively, on average. It introduces two new tasks, hallucination discrimination and hallucination completion, unifying both discriminative and generative evaluations in a single multiple-choice-question form and leading to more reliable and efficient evaluations without the need for LLM evaluators. Further, we propose an advanced pipeline that greatly facilitates the construction of future hallucination benchmarks with long and complex questions and descriptions. Extensive experiments over multiple recent MLLMs reveal various new challenges when they are handling hallucinations with long and complex textual data. Dataset and evaluation code are available at https://github.com/hanqiu-hq/LongHalQA. | 翻訳日:2024-10-30 04:03:30 公開日:2024-10-15 |
# ごみ分類のための高度物体検出による廃棄物処理の最適化
Optimizing Waste Management with Advanced Object Detection for Garbage Classification ( http://arxiv.org/abs/2410.09975v1 ) ライセンス: Link先を確認 | Everest Z. Kuang, Kushal Raj Bhandari, Jianxi Gao, | (参考訳) ごみ生産とごみ処理は、環境問題に重大な影響を及ぼす世界的な問題である。
収集・選別による廃棄物処理は大規模に行われているが, 既存の手法は依然として効率が悪く, リサイクルや廃棄が不十分である。
したがって、AIベースの先進的なシステムを開発することは、成長する廃棄物問題により効果的に取り組むための労働集約的なアプローチである。
これらのモデルは、ソートシステムや、将来生産されるかもしれないゴミ収集ロボットに適用することができる。
オブジェクト検出によるオブジェクトの識別において、AIモデルは著しく成長している。この記事では、オブジェクト検出によるゴミの分類のためのAIモデルの実装についてレビューする。特に、トレーニングとテストにYOLO V5を使用することに焦点を当てる。
本研究は, YOLO V5が<textit{plastic}, \textit{paper}, \textit{glass}, \textit{metal}, \textit{cardboard}, \textit{biodegradables}} などの廃棄物を効果的に識別する方法を示した。
Garbage production and littering are persistent global issues that pose significant environmental challenges. Despite large-scale efforts to manage waste through collection and sorting, existing approaches remain inefficient, leading to inadequate recycling and disposal. Therefore, developing advanced AI-based systems is less labor intensive approach for addressing the growing waste problem more effectively. These models can be applied to sorting systems or possibly waste collection robots that may produced in the future. AI models have grown significantly at identifying objects through object detection.This paper reviews the implementation of AI models for classifying trash through object detection, specifically focusing on the use of YOLO V5 for training and testing. The study demonstrates how YOLO V5 can effectively identify various types of waste, including \textit{plastic}, \textit{paper}, \textit{glass}, \textit{metal}, \textit{cardboard}, and \textit{biodegradables}}. | 翻訳日:2024-10-30 03:53:37 公開日:2024-10-15 |
# ごみ分類のための高度物体検出による廃棄物処理の最適化
Optimizing Waste Management with Advanced Object Detection for Garbage Classification ( http://arxiv.org/abs/2410.09975v2 ) ライセンス: Link先を確認 | Everest Z. Kuang, Kushal Raj Bhandari, Jianxi Gao, | (参考訳) ごみ生産とごみ処理は、環境問題に重大な影響を及ぼす世界的な問題である。
収集・選別による廃棄物処理は大規模に行われているが, 既存の手法は依然として効率が悪く, リサイクルや廃棄が不十分である。
したがって、AIベースの先進的なシステムを開発することは、成長する廃棄物問題により効果的に取り組むための労働集約的なアプローチである。
これらのモデルは、ソートシステムや、将来生産されるかもしれないゴミ収集ロボットに適用することができる。
AIモデルは、オブジェクト検出を通じてオブジェクトを識別する点で大きく成長している。
本稿では,オブジェクト検出によるゴミの分類のためのAIモデルの実装について概説する。
この研究は、YOLO V5がプラスチック、紙、ガラス、金属、段ボール、生分解性物質など、様々な種類の廃棄物を効果的に識別する方法を実証している。
Garbage production and littering are persistent global issues that pose significant environmental challenges. Despite large-scale efforts to manage waste through collection and sorting, existing approaches remain inefficient, leading to inadequate recycling and disposal. Therefore, developing advanced AI-based systems is less labor intensive approach for addressing the growing waste problem more effectively. These models can be applied to sorting systems or possibly waste collection robots that may produced in the future. AI models have grown significantly at identifying objects through object detection. This paper reviews the implementation of AI models for classifying trash through object detection, specifically focusing on using YOLO V5 for training and testing. The study demonstrates how YOLO V5 can effectively identify various types of waste, including plastic, paper, glass, metal, cardboard, and biodegradables. | 翻訳日:2024-10-30 03:53:37 公開日:2024-10-15 |
# 量子線形時間変換不変系:共役シンプレクティック構造、不確かさ境界、トモグラフィー
Quantum Linear Time-Translation-Invariant Systems: Conjugate Symplectic Structure, Uncertainty Bounds, and Tomography ( http://arxiv.org/abs/2410.09976v1 ) ライセンス: Link先を確認 | Jacques Ding, Hudson A. Loughlin, Vivishek Sudhir, | (参考訳) 線形時間変換不変(LTI)モデルは、複雑な古典力学系の単純かつ強力で抽象的な概念を提供する。
このようなモデルの量子バージョンは、これまでマルコバニティの仮定や内部状態空間の記述に依存してきた。
我々は, 基本量子ノイズを明らかにし, 非マルコフ的シナリオに適用でき, 内部記述の知識を必要としない, 閉系への拡張が共役シンプレクティック群の要素によって特徴づけられるオープン量子LTIシステムの一般化量子化スキームを開発する。
リー群法を用いて,周波数依存型干渉計とシャーサを用いて,このような系を合成可能であることを示す。
我々は、任意のLTIシステムの究極の性能を制約するハイゼンベルクの不確実性境界を導出し、その出力ノイズ共分散行列の不変表現を得る。
この周波数依存性の量子資源はホモダインやヘテロダイン検出に隠蔽することができ、より一般的な「シンプレクトン」検出でしか明らかにできない。
これらの結果は、任意の量子LTI系の解析、合成、測定のための完全かつ体系的な枠組みを確立する。
Linear time-translation-invariant (LTI) models offer simple, yet powerful, abstractions of complex classical dynamical systems. Quantum versions of such models have so far relied on assumptions of Markovanity or an internal state-space description. We develop a general quantization scheme for multimode classical LTI systems that reveals their fundamental quantum noise, is applicable to non-Markovian scenarios, and does not require knowledge of an internal description.The resulting model is that of an open quantum LTI system whose dilation to a closed system is characterized by elements of the conjugate symplectic group. Using Lie group techniques, we show that such systems can be synthesized using frequency-dependent interferometers and squeezers. We derive tighter Heisenberg uncertainty bounds which constrain the ultimate performance of any LTI system, and obtain an invariant representation of their output noise covariance matrix that reveals the ubiquity of "complex squeezing" in lossy systems. This frequency-dependent quantum resource can be hidden to homodyne and heterodyne detection and can only be revealed with more general "symplectodyne" detection. These results establish a complete and systematic framework for the analysis, synthesis, and measurement of arbitrary quantum LTI systems. | 翻訳日:2024-10-30 03:53:37 公開日:2024-10-15 |
# 量子線形時間変換不変系:共役シンプレクティック構造、不確かさ境界、トモグラフィー
Quantum Linear Time-Translation-Invariant Systems: Conjugate Symplectic Structure, Uncertainty Bounds, and Tomography ( http://arxiv.org/abs/2410.09976v2 ) ライセンス: Link先を確認 | Jacques Ding, Hudson A. Loughlin, Vivishek Sudhir, | (参考訳) 線形時間変換不変(LTI)モデルは、複雑な古典力学系の単純かつ強力で抽象的な概念を提供する。
このようなモデルの量子バージョンは、これまでマルコビアン性や内部状態空間の記述の仮定に依存してきた。
我々は、基本量子ノイズを明らかにし、マルコフ的でないシナリオに適用でき、内部記述の知識を必要としない、マルチモード古典LTIシステムの一般化量子化スキームを開発する。
結果として得られるモデルは、閉系への拡張が共役シンプレクティック群の要素によって特徴づけられる開量子LTI系のものである。
リー群法を用いて,周波数依存型干渉計とシャーサを用いて,このような系を合成可能であることを示す。
我々は、任意のLTIシステムの究極の性能を制約するハイゼンベルクの不確実性境界を導出し、その出力ノイズ共分散行列の不変表現を得る。
この周波数依存性の量子資源はホモダインやヘテロダイン検出に隠蔽することができ、より一般的な「シンプレクトン」検出でしか明らかにできない。
これらの結果は、任意の量子LTI系の解析、合成、測定のための完全かつ体系的な枠組みを確立する。
Linear time-translation-invariant (LTI) models offer simple, yet powerful, abstractions of complex classical dynamical systems. Quantum versions of such models have so far relied on assumptions of Markovianity or an internal state-space description. We develop a general quantization scheme for multimode classical LTI systems that reveals their fundamental quantum noise, is applicable to non-Markovian scenarios, and does not require knowledge of an internal description. The resulting model is that of an open quantum LTI system whose dilation to a closed system is characterized by elements of the conjugate symplectic group. Using Lie group techniques, we show that such systems can be synthesized using frequency-dependent interferometers and squeezers. We derive tighter Heisenberg uncertainty bounds, which constrain the ultimate performance of any LTI system, and obtain an invariant representation of their output noise covariance matrix that reveals the ubiquity of "complex squeezing" in lossy systems. This frequency-dependent quantum resource can be hidden to homodyne and heterodyne detection and can only be revealed with more general "symplectodyne" detection. These results establish a complete and systematic framework for the analysis, synthesis, and measurement of arbitrary quantum LTI systems. | 翻訳日:2024-10-30 03:53:37 公開日:2024-10-15 |
# 大規模言語モデルにおける品質回復のための自己データ蒸留法
Self-Data Distillation for Recovering Quality in Pruned Large Language Models ( http://arxiv.org/abs/2410.09982v1 ) ライセンス: Link先を確認 | Vithursan Thangarasa, Ganesh Venkatesh, Nish Sinnadurai, Sean Lie, | (参考訳) 大規模言語モデルは自然言語処理に大きな進歩をもたらしたが、その展開には相当な計算資源とメモリ資源が必要である。
モデルがスケールするにつれて、モデル品質と計算効率のバランスをとるために圧縮技術が不可欠になる。
構造的プルーニング(Structured pruning)は、モデルの重要でないコンポーネントを排除し、複雑さを減らすための有望な戦略である。
しかし、特に多段階の推論を必要とするタスクにおいて、ワンショットプルーニングはしばしば大幅な品質劣化をもたらす。
損失品質を回復するために、教師付き微調整(SFT)が一般的に適用されるが、モデルの学習したデータ分布をシフトさせることで破滅的な忘れを招きかねない。
したがって、プルーニングとSFTの両方の劣化に対処することは、元のモデルの品質を維持するために不可欠である。
本研究では,これらの課題に対処するために,自己データ蒸留ファインチューニングを提案する。
提案手法では, 基本モデルの知識との整合性を維持することにより, 意味的豊かさを保ち, 破滅的な忘れを緩和する蒸留データセットを生成する。
実験により,HuggingFace OpenLLM Leaderboard v1では,自己データ蒸留が標準SFTより一貫して優れており,平均精度が最大8%向上していることが示された。
具体的には、Llama3.1-8Bインストラクタ(32から24層、モデルサイズ8.03Bから6.72Bパラメータ)上の6個のデコーダブロックをプルーニングする場合、本手法は、実世界のFLOPを16.30%削減しつつ、SFTと比較して元のモデルの精度の91.2%を維持している。
さらに、データセットのサイズが大きくなるにつれて品質が向上し、我々のアプローチはデータセット間で効果的にスケールする。
Large language models have driven significant progress in natural language processing, but their deployment requires substantial compute and memory resources. As models scale, compression techniques become essential for balancing model quality with computational efficiency. Structured pruning, which removes less critical components of the model, is a promising strategy for reducing complexity. However, one-shot pruning often results in significant quality degradation, particularly in tasks requiring multi-step reasoning. To recover lost quality, supervised fine-tuning (SFT) is commonly applied, but it can lead to catastrophic forgetting by shifting the model's learned data distribution. Therefore, addressing the degradation from both pruning and SFT is essential to preserve the original model's quality. In this work, we propose self-data distilled fine-tuning to address these challenges. Our approach leverages the original, unpruned model to generate a distilled dataset that preserves semantic richness and mitigates catastrophic forgetting by maintaining alignment with the base model's knowledge. Empirically, we demonstrate that self-data distillation consistently outperforms standard SFT, improving average accuracy by up to 8% on the HuggingFace OpenLLM Leaderboard v1. Specifically, when pruning 6 decoder blocks on Llama3.1-8B Instruct (i.e., 32 to 24 layers, reducing the model size from 8.03B to 6.72B parameters), our method retains 91.2% of the original model's accuracy compared to 81.7% with SFT, while reducing real-world FLOPs by 16.30%. Furthermore, our approach scales effectively across datasets, with the quality improving as the dataset size increases. | 翻訳日:2024-10-30 03:53:37 公開日:2024-10-15 |
# 大規模言語モデルにおける品質回復のための自己データ蒸留法
Self-Data Distillation for Recovering Quality in Pruned Large Language Models ( http://arxiv.org/abs/2410.09982v2 ) ライセンス: Link先を確認 | Vithursan Thangarasa, Ganesh Venkatesh, Nish Sinnadurai, Sean Lie, | (参考訳) 大規模言語モデルは自然言語処理に大きな進歩をもたらしたが、その展開には相当な計算資源とメモリ資源が必要である。
モデルがスケールするにつれて、モデル品質と計算効率のバランスをとるために圧縮技術が不可欠になる。
構造的プルーニング(Structured pruning)は、モデルの重要でないコンポーネントを排除し、複雑さを減らすための有望な戦略である。
しかし、特に多段階の推論を必要とするタスクにおいて、ワンショットプルーニングはしばしば大幅な品質劣化をもたらす。
損失品質を回復するために、教師付き微調整(SFT)が一般的に適用されるが、モデルの学習したデータ分布をシフトさせることで破滅的な忘れを招きかねない。
したがって、プルーニングとSFTの両方の劣化に対処することは、元のモデルの品質を維持するために不可欠である。
本研究では,これらの課題に対処するために,自己データ蒸留ファインチューニングを提案する。
提案手法では, 基本モデルの知識との整合性を維持することにより, 意味的豊かさを保ち, 破滅的な忘れを緩和する蒸留データセットを生成する。
実験により,HuggingFace OpenLLM Leaderboard v1では,自己データ蒸留が標準SFTより一貫して優れており,平均精度が最大8%向上していることが示された。
具体的には、Llama3.1-8Bインストラクタ(32から26層、モデルサイズ8.03Bから6.72Bパラメータ)上の6個のデコーダブロックをプルーニングする場合、本手法は実世界のFLOPを16.30%削減しつつ、SFTと比較して元のモデルの精度の91.2%を維持している。
さらに、データセットのサイズが大きくなるにつれて品質が向上し、我々のアプローチはデータセット間で効果的にスケールする。
Large language models have driven significant progress in natural language processing, but their deployment requires substantial compute and memory resources. As models scale, compression techniques become essential for balancing model quality with computational efficiency. Structured pruning, which removes less critical components of the model, is a promising strategy for reducing complexity. However, one-shot pruning often results in significant quality degradation, particularly in tasks requiring multi-step reasoning. To recover lost quality, supervised fine-tuning (SFT) is commonly applied, but it can lead to catastrophic forgetting by shifting the model's learned data distribution. Therefore, addressing the degradation from both pruning and SFT is essential to preserve the original model's quality. In this work, we propose self-data distilled fine-tuning to address these challenges. Our approach leverages the original, unpruned model to generate a distilled dataset that preserves semantic richness and mitigates catastrophic forgetting by maintaining alignment with the base model's knowledge. Empirically, we demonstrate that self-data distillation consistently outperforms standard SFT, improving average accuracy by up to 8% on the HuggingFace OpenLLM Leaderboard v1. Specifically, when pruning 6 decoder blocks on Llama3.1-8B Instruct (i.e., 32 to 26 layers, reducing the model size from 8.03B to 6.72B parameters), our method retains 91.2% of the original model's accuracy compared to 81.7% with SFT, while reducing real-world FLOPs by 16.30%. Furthermore, our approach scales effectively across datasets, with the quality improving as the dataset size increases. | 翻訳日:2024-10-30 03:53:37 公開日:2024-10-15 |
# ChangeMinds: リモートセンシングの変更の検出と記述のためのマルチタスクフレームワーク
ChangeMinds: Multi-task Framework for Detecting and Describing Changes in Remote Sensing ( http://arxiv.org/abs/2410.10047v1 ) ライセンス: Link先を確認 | Yuduo Wang, Weikang Yu, Michael Kopp, Pedram Ghamisi, | (参考訳) 近年のリモートセンシング(RS)による変化検出(CD)と変化キャプション(CC)の進歩は,ディープラーニング技術の導入によって大きな成功を収めている。
これらの進歩にもかかわらず、既存の手法はCDとCCのタスクを独立に扱うことが多く、相乗的処理が欠如していることから効率が低下する。
本稿では,CDとCCのプロセスを1つのエンドツーエンドモデルで同時に最適化する,新しい統合マルチタスクフレームワークであるChangeMindsを提案する。
本稿では,両時間深部特徴量から複雑な時空間ダイナミクスを効果的に捉え,CCタスクとCDタスクの両方に効果的に機能する汎用的な変化認識表現の生成を可能にする,変化認識長短期記憶モジュール(ChangeLSTM)を提案する。
さらに,画像特徴とテキスト特徴の相互作用を強化するクロスアテンション機構を備えたマルチタスク予測器を導入し,両タスクの効率的な同時学習と処理を促進する。
LEVIR-MCIデータセットの大規模な評価は、他の標準ベンチマークとともに、ChangeMindsがマルチタスクの学習設定で既存のメソッドを超え、個々のCDやCCタスクのパフォーマンスが著しく向上していることを示している。
コードと事前訓練されたモデルはオンラインで利用できる。
Recent advancements in Remote Sensing (RS) for Change Detection (CD) and Change Captioning (CC) have seen substantial success by adopting deep learning techniques. Despite these advances, existing methods often handle CD and CC tasks independently, leading to inefficiencies from the absence of synergistic processing. In this paper, we present ChangeMinds, a novel unified multi-task framework that concurrently optimizes CD and CC processes within a single, end-to-end model. We propose the change-aware long short-term memory module (ChangeLSTM) to effectively capture complex spatiotemporal dynamics from extracted bi-temporal deep features, enabling the generation of universal change-aware representations that effectively serve both CC and CD tasks. Furthermore, we introduce a multi-task predictor with a cross-attention mechanism that enhances the interaction between image and text features, promoting efficient simultaneous learning and processing for both tasks. Extensive evaluations on the LEVIR-MCI dataset, alongside other standard benchmarks, show that ChangeMinds surpasses existing methods in multi-task learning settings and markedly improves performance in individual CD and CC tasks. Codes and pre-trained models will be available online. | 翻訳日:2024-10-30 03:23:50 公開日:2024-10-15 |
# ChangeMinds: リモートセンシングの変更の検出と記述のためのマルチタスクフレームワーク
ChangeMinds: Multi-task Framework for Detecting and Describing Changes in Remote Sensing ( http://arxiv.org/abs/2410.10047v2 ) ライセンス: Link先を確認 | Yuduo Wang, Weikang Yu, Michael Kopp, Pedram Ghamisi, | (参考訳) 近年のリモートセンシング(RS)による変化検出(CD)と変化キャプション(CC)の進歩は,ディープラーニング技術の導入によって大きな成功を収めている。
これらの進歩にもかかわらず、既存の手法はCDとCCのタスクを独立に扱うことが多く、相乗的処理が欠如していることから効率が低下する。
本稿では,CDとCCのプロセスを1つのエンドツーエンドモデルで同時に最適化する,新しい統合マルチタスクフレームワークであるChangeMindsを提案する。
本稿では,両時間深部特徴量から複雑な時空間ダイナミクスを効果的に捉え,CCタスクとCDタスクの両方に効果的に機能する汎用的な変化認識表現の生成を可能にする,変化認識長短期記憶モジュール(ChangeLSTM)を提案する。
さらに,画像特徴とテキスト特徴の相互作用を強化するクロスアテンション機構を備えたマルチタスク予測器を導入し,両タスクの効率的な同時学習と処理を促進する。
LEVIR-MCIデータセットの大規模な評価は、他の標準ベンチマークとともに、ChangeMindsがマルチタスクの学習設定で既存のメソッドを超え、個々のCDやCCタスクのパフォーマンスが著しく向上していることを示している。
コードと事前訓練されたモデルはオンラインで利用できる。
Recent advancements in Remote Sensing (RS) for Change Detection (CD) and Change Captioning (CC) have seen substantial success by adopting deep learning techniques. Despite these advances, existing methods often handle CD and CC tasks independently, leading to inefficiencies from the absence of synergistic processing. In this paper, we present ChangeMinds, a novel unified multi-task framework that concurrently optimizes CD and CC processes within a single, end-to-end model. We propose the change-aware long short-term memory module (ChangeLSTM) to effectively capture complex spatiotemporal dynamics from extracted bi-temporal deep features, enabling the generation of universal change-aware representations that effectively serve both CC and CD tasks. Furthermore, we introduce a multi-task predictor with a cross-attention mechanism that enhances the interaction between image and text features, promoting efficient simultaneous learning and processing for both tasks. Extensive evaluations on the LEVIR-MCI dataset, alongside other standard benchmarks, show that ChangeMinds surpasses existing methods in multi-task learning settings and markedly improves performance in individual CD and CC tasks. Codes and pre-trained models will be available online. | 翻訳日:2024-10-30 03:23:50 公開日:2024-10-15 |
# RoCoFT:Row-Columnアップデートによる大規模言語モデルの効率的な微調整
RoCoFT: Efficient Finetuning of Large Language Models with Row-Column Updates ( http://arxiv.org/abs/2410.10075v1 ) ライセンス: Link先を確認 | Md Kowsher, Tara Esmaeilbeig, Chun-Nam Yu, Mojtaba Soltanalian, Niloofar Yousefi, | (参考訳) 変圧器の重み行列の行数列と列数のみを更新した大規模言語モデル(LM)のパラメータ効率の良い微調整法であるRoCoFTを提案する。
BERTやRoBERTaといった中規模のLMや,Bloom-7B,Llama2-7B,Llama2-13Bといった大規模LMによる広範な実験により,我々の手法は,最先端PEFT法と同等あるいは優れた精度を示しながら,メモリと計算効率も向上することを示した。
また,ニューラルネットワークカーネル理論のツールを用いて,本手法の有効性について検討した。
列パラメータと列パラメータの制限されたセットを用いて構築されたカーネルが、数値的に全パラメータカーネルに近接していることを実証的に実証し、同等の分類性能を与える。
本研究では,行と列の選択戦略や,提案手法を効果的に実装するための最適なランクなど,アルゴリズム選択の影響について検討する。
We propose RoCoFT, a parameter-efficient fine-tuning method for large-scale language models (LMs) based on updating only a few rows and columns of the weight matrices in transformers. Through extensive experiments with medium-size LMs like BERT and RoBERTa, and larger LMs like Bloom-7B, Llama2-7B, and Llama2-13B, we show that our method gives comparable or better accuracies than state-of-art PEFT methods while also being more memory and computation-efficient. We also study the reason behind the effectiveness of our method with tools from neural tangent kernel theory. We empirically demonstrate that our kernel, constructed using a restricted set of row and column parameters, are numerically close to the full-parameter kernel and gives comparable classification performance. Ablation studies are conducted to investigate the impact of different algorithmic choices, including the selection strategy for rows and columns as well as the optimal rank for effective implementation of our method. | 翻訳日:2024-10-30 03:14:03 公開日:2024-10-15 |
# RoCoFT:Row-Columnアップデートによる大規模言語モデルの効率的な微調整
RoCoFT: Efficient Finetuning of Large Language Models with Row-Column Updates ( http://arxiv.org/abs/2410.10075v2 ) ライセンス: Link先を確認 | Md Kowsher, Tara Esmaeilbeig, Chun-Nam Yu, Mojtaba Soltanalian, Niloofar Yousefi, | (参考訳) 変圧器の重み行列の行数列と列数のみを更新した大規模言語モデル(LM)のパラメータ効率の良い微調整法であるRoCoFTを提案する。
BERTやRoBERTaといった中規模のLMや,Bloom-7B,Llama2-7B,Llama2-13Bといった大規模LMによる広範な実験により,我々の手法は,最先端PEFT法と同等あるいは優れた精度を示しながら,メモリと計算効率も向上することを示した。
また,ニューラルネットワークカーネル理論のツールを用いて,本手法の有効性について検討した。
列パラメータと列パラメータの制限されたセットを用いて構築されたカーネルが、数値的に全パラメータカーネルに近接していることを実証的に実証し、同等の分類性能を与える。
本研究では,行と列の選択戦略や,提案手法を効果的に実装するための最適なランクなど,アルゴリズム選択の影響について検討する。
We propose RoCoFT, a parameter-efficient fine-tuning method for large-scale language models (LMs) based on updating only a few rows and columns of the weight matrices in transformers. Through extensive experiments with medium-size LMs like BERT and RoBERTa, and larger LMs like Bloom-7B, Llama2-7B, and Llama2-13B, we show that our method gives comparable or better accuracies than state-of-art PEFT methods while also being more memory and computation-efficient. We also study the reason behind the effectiveness of our method with tools from neural tangent kernel theory. We empirically demonstrate that our kernel, constructed using a restricted set of row and column parameters, are numerically close to the full-parameter kernel and gives comparable classification performance. Ablation studies are conducted to investigate the impact of different algorithmic choices, including the selection strategy for rows and columns as well as the optimal rank for effective implementation of our method. | 翻訳日:2024-10-30 03:14:03 公開日:2024-10-15 |
# VideoAgent: 自己改善型ビデオ生成
VideoAgent: Self-Improving Video Generation ( http://arxiv.org/abs/2410.10076v1 ) ライセンス: Link先を確認 | Achint Soni, Sreyas Venkataraman, Abhranil Chandra, Sebastian Fischmeister, Percy Liang, Bo Dai, Sherry Yang, | (参考訳) ビデオ生成は、ロボットシステムを制御する視覚的な計画を生成するために使われてきた。
画像観察と言語指導が与えられた後、以前の研究でビデオプランが作成され、ロボット制御に変換されて実行される。
しかし、ビデオ生成を制御に活用する際の大きなボトルネックは、しばしば幻覚的内容や非現実的な物理に悩まされる、生成されたビデオから制御アクションが抽出された場合のタスク成功率の低下にある。
データセットとモデルサイズをスケールアップすることは、部分的なソリューションを提供する一方で、外部からのフィードバックを統合することは、現実の世界におけるビデオ生成の基盤として自然かつ不可欠である。
本研究では,外部からのフィードバックに基づいて生成した映像プランを自己改善するためのVideoAgentを提案する。
生成したビデオプランを直接実行する代わりに、VLM(Venture-Language Model)からのフィードバックを利用して、自己条件整合性(self-conditioning consistency)と呼ばれる新しい手順を用いて、生成したビデオプランを改良する。
改良されたビデオプランが実行されているため、VideoAgentは環境から追加のデータを収集し、ビデオプランの生成をさらに改善する。
MetaWorldとiTHORによるロボット操作のシミュレーション実験は、VideoAgentが幻覚を劇的に減らし、下流での操作タスクの成功率を高めることを示した。
さらに、VideoAgentはリアルロボットのビデオを効果的に洗練することができ、ロボット工学が物理的な世界におけるビデオ生成の効果的なツールであることを示す早期の指標を提供する。
Video generation has been used to generate visual plans for controlling robotic systems. Given an image observation and a language instruction, previous work has generated video plans which are then converted to robot controls to be executed. However, a major bottleneck in leveraging video generation for control lies in the quality of the generated videos, which often suffer from hallucinatory content and unrealistic physics, resulting in low task success when control actions are extracted from the generated videos. While scaling up dataset and model size provides a partial solution, integrating external feedback is both natural and essential for grounding video generation in the real world. With this observation, we propose VideoAgent for self-improving generated video plans based on external feedback. Instead of directly executing the generated video plan, VideoAgent first refines the generated video plans using a novel procedure which we call self-conditioning consistency, utilizing feedback from a pretrained vision-language model (VLM). As the refined video plan is being executed, VideoAgent collects additional data from the environment to further improve video plan generation. Experiments in simulated robotic manipulation from MetaWorld and iTHOR show that VideoAgent drastically reduces hallucination, thereby boosting success rate of downstream manipulation tasks. We further illustrate that VideoAgent can effectively refine real-robot videos, providing an early indicator that robotics can be an effective tool in grounding video generation in the physical world. | 翻訳日:2024-10-30 03:14:03 公開日:2024-10-15 |
# VideoAgent: 自己改善型ビデオ生成
VideoAgent: Self-Improving Video Generation ( http://arxiv.org/abs/2410.10076v2 ) ライセンス: Link先を確認 | Achint Soni, Sreyas Venkataraman, Abhranil Chandra, Sebastian Fischmeister, Percy Liang, Bo Dai, Sherry Yang, | (参考訳) ビデオ生成は、ロボットシステムを制御する視覚的な計画を生成するために使われてきた。
画像観察と言語指導が与えられた後、以前の研究でビデオプランが作成され、ロボット制御に変換されて実行される。
しかし、ビデオ生成を制御に活用する際の大きなボトルネックは、しばしば幻覚的内容や非現実的な物理に悩まされる、生成されたビデオから制御アクションが抽出された場合のタスク成功率の低下にある。
データセットとモデルサイズをスケールアップすることは、部分的なソリューションを提供する一方で、外部からのフィードバックを統合することは、現実の世界におけるビデオ生成の基盤として自然かつ不可欠である。
本研究では,外部からのフィードバックに基づいて生成した映像プランを自己改善するためのVideoAgentを提案する。
生成したビデオプランを直接実行する代わりに、VLM(Venture-Language Model)からのフィードバックを利用して、自己条件整合性(self-conditioning consistency)と呼ばれる新しい手順を用いて、生成したビデオプランを改良する。
改良されたビデオプランが実行されているため、VideoAgentは環境から追加のデータを収集し、ビデオプランの生成をさらに改善する。
MetaWorldとiTHORによるロボット操作のシミュレーション実験は、VideoAgentが幻覚を劇的に減らし、下流での操作タスクの成功率を高めることを示した。
さらに、VideoAgentはリアルロボットのビデオを効果的に洗練することができ、ロボット工学が物理的な世界におけるビデオ生成の効果的なツールであることを示す早期の指標を提供する。
Video generation has been used to generate visual plans for controlling robotic systems. Given an image observation and a language instruction, previous work has generated video plans which are then converted to robot controls to be executed. However, a major bottleneck in leveraging video generation for control lies in the quality of the generated videos, which often suffer from hallucinatory content and unrealistic physics, resulting in low task success when control actions are extracted from the generated videos. While scaling up dataset and model size provides a partial solution, integrating external feedback is both natural and essential for grounding video generation in the real world. With this observation, we propose VideoAgent for self-improving generated video plans based on external feedback. Instead of directly executing the generated video plan, VideoAgent first refines the generated video plans using a novel procedure which we call self-conditioning consistency, utilizing feedback from a pretrained vision-language model (VLM). As the refined video plan is being executed, VideoAgent collects additional data from the environment to further improve video plan generation. Experiments in simulated robotic manipulation from MetaWorld and iTHOR show that VideoAgent drastically reduces hallucination, thereby boosting success rate of downstream manipulation tasks. We further illustrate that VideoAgent can effectively refine real-robot videos, providing an early indicator that robotics can be an effective tool in grounding video generation in the physical world. | 翻訳日:2024-10-30 03:14:03 公開日:2024-10-15 |
# エッジ・アンラーニングは「エッジ」ではない! リソース制約デバイス上での適応的エクササイズ・アンラーニングシステム
Edge Unlearning is Not "on Edge"! An Adaptive Exact Unlearning System on Resource-Constrained Devices ( http://arxiv.org/abs/2410.10128v1 ) ライセンス: Link先を確認 | Xiaoyu Xia, Ziqi Wang, Ruoxi Sun, Bowen Liu, Ibrahim Khalil, Minhui Xue, | (参考訳) 忘れられる権利は、機械学習モデルがデータ所有者のデータと訓練されたモデルからの情報の消去を可能にすることを義務付ける。
機械学習モデルはトレーニングデータから情報を記憶し、ユーザに対する潜在的なプライバシーリスクを増大させることができるため、データセットからデータを取り除くことは不十分である。
これを解決するために、複数の機械学習技術が開発され、デプロイされている。
その中で、近似アンラーニングは一般的な解であるが、最近の研究では、そのアンラーニングの有効性が完全に保証されていないと報告されている。
別のアプローチは、正確なアンラーニングであり、データを捨ててモデルをスクラッチから再トレーニングすることでこの問題に対処するが、かなりの計算とメモリリソースを犠牲にしている。
しかし、すべてのデバイスがそのような再トレーニングを行う能力を持っているわけではない。
エッジデバイス、IoT(Internet-of-Things)、モバイルデバイス、衛星などの多くの機械学習アプリケーションでは、リソースは制約されており、既存の正確な未学習メソッドをデプロイする上での課題を提起している。
本研究では,ネットワークエッジ(CAUSE)における制約を意識した適応的非学習システムを提案する。
リソース制約されたデバイスにサブモデルを格納することで、再トレーニングオーバーヘッドを最小限に抑えるため、CAUSEは、Fibonacciベースの代替戦略を革新的に適用し、ユーザベースのデータパーティションプロセスにおいて、シャードの数を適応的に更新する。
メモリ使用効率をさらに向上するために、CAUSEはモデルプルーニングの利点を活用して、最小限の精度でメモリを圧縮して保存する。
実験の結果、CAUSEは、リソース制約されたデバイス上での正確な未学習を9.23%-80.86%、66.21%-83.46%、および5.26%-194.13%と、非学習速度、エネルギー消費、正確性において、他の代表的なシステムよりも大幅に優れていた。
The right to be forgotten mandates that machine learning models enable the erasure of a data owner's data and information from a trained model. Removing data from the dataset alone is inadequate, as machine learning models can memorize information from the training data, increasing the potential privacy risk to users. To address this, multiple machine unlearning techniques have been developed and deployed. Among them, approximate unlearning is a popular solution, but recent studies report that its unlearning effectiveness is not fully guaranteed. Another approach, exact unlearning, tackles this issue by discarding the data and retraining the model from scratch, but at the cost of considerable computational and memory resources. However, not all devices have the capability to perform such retraining. In numerous machine learning applications, such as edge devices, Internet-of-Things (IoT), mobile devices, and satellites, resources are constrained, posing challenges for deploying existing exact unlearning methods. In this study, we propose a Constraint-aware Adaptive Exact Unlearning System at the network Edge (CAUSE), an approach to enabling exact unlearning on resource-constrained devices. Aiming to minimize the retrain overhead by storing sub-models on the resource-constrained device, CAUSE innovatively applies a Fibonacci-based replacement strategy and updates the number of shards adaptively in the user-based data partition process. To further improve the effectiveness of memory usage, CAUSE leverages the advantage of model pruning to save memory via compression with minimal accuracy sacrifice. The experimental results demonstrate that CAUSE significantly outperforms other representative systems in realizing exact unlearning on the resource-constrained device by 9.23%-80.86%, 66.21%-83.46%, and 5.26%-194.13% in terms of unlearning speed, energy consumption, and accuracy. | 翻訳日:2024-10-30 02:54:14 公開日:2024-10-15 |
# エッジ・アンラーニングは「エッジ」ではない! リソース制約デバイス上での適応的エクササイズ・アンラーニングシステム
Edge Unlearning is Not "on Edge"! An Adaptive Exact Unlearning System on Resource-Constrained Devices ( http://arxiv.org/abs/2410.10128v2 ) ライセンス: Link先を確認 | Xiaoyu Xia, Ziqi Wang, Ruoxi Sun, Bowen Liu, Ibrahim Khalil, Minhui Xue, | (参考訳) 忘れられる権利は、機械学習モデルがデータ所有者のデータと訓練されたモデルからの情報の消去を可能にすることを義務付ける。
機械学習モデルはトレーニングデータから情報を記憶し、ユーザに対する潜在的なプライバシーリスクを増大させることができるため、データセットからデータを取り除くことは不十分である。
これを解決するために、複数の機械学習技術が開発され、デプロイされている。
その中で、近似アンラーニングは一般的な解であるが、最近の研究では、そのアンラーニングの有効性が完全に保証されていないと報告されている。
別のアプローチは、正確なアンラーニングであり、データを捨ててモデルをスクラッチから再トレーニングすることでこの問題に対処するが、かなりの計算とメモリリソースを犠牲にしている。
しかし、すべてのデバイスがそのような再トレーニングを行う能力を持っているわけではない。
エッジデバイス、IoT(Internet-of-Things)、モバイルデバイス、衛星などの多くの機械学習アプリケーションでは、リソースは制約されており、既存の正確な未学習メソッドをデプロイする上での課題を提起している。
本研究では,ネットワークエッジ(CAUSE)における制約を意識した適応的非学習システムを提案する。
リソース制約されたデバイスにサブモデルを格納することで、再トレーニングオーバーヘッドを最小限に抑えるため、CAUSEは、Fibonacciベースの代替戦略を革新的に適用し、ユーザベースのデータパーティションプロセスにおいて、シャードの数を適応的に更新する。
メモリ使用効率をさらに向上するために、CAUSEはモデルプルーニングの利点を活用して、最小限の精度でメモリを圧縮して保存する。
実験の結果、CAUSEは、リソース制約されたデバイス上での正確な未学習を9.23%-80.86%、66.21%-83.46%、および5.26%-194.13%と、非学習速度、エネルギー消費、正確性において、他の代表的なシステムよりも大幅に優れていた。
The right to be forgotten mandates that machine learning models enable the erasure of a data owner's data and information from a trained model. Removing data from the dataset alone is inadequate, as machine learning models can memorize information from the training data, increasing the potential privacy risk to users. To address this, multiple machine unlearning techniques have been developed and deployed. Among them, approximate unlearning is a popular solution, but recent studies report that its unlearning effectiveness is not fully guaranteed. Another approach, exact unlearning, tackles this issue by discarding the data and retraining the model from scratch, but at the cost of considerable computational and memory resources. However, not all devices have the capability to perform such retraining. In numerous machine learning applications, such as edge devices, Internet-of-Things (IoT), mobile devices, and satellites, resources are constrained, posing challenges for deploying existing exact unlearning methods. In this study, we propose a Constraint-aware Adaptive Exact Unlearning System at the network Edge (CAUSE), an approach to enabling exact unlearning on resource-constrained devices. Aiming to minimize the retrain overhead by storing sub-models on the resource-constrained device, CAUSE innovatively applies a Fibonacci-based replacement strategy and updates the number of shards adaptively in the user-based data partition process. To further improve the effectiveness of memory usage, CAUSE leverages the advantage of model pruning to save memory via compression with minimal accuracy sacrifice. The experimental results demonstrate that CAUSE significantly outperforms other representative systems in realizing exact unlearning on the resource-constrained device by 9.23%-80.86%, 66.21%-83.46%, and 5.26%-194.13% in terms of unlearning speed, energy consumption, and accuracy. | 翻訳日:2024-10-30 02:54:14 公開日:2024-10-15 |
# 平衡ニューラルODE:非線形モデル秩序の低減とクープマン作用素近似
Balanced Neural ODEs: nonlinear model order reduction and Koopman operator approxmations ( http://arxiv.org/abs/2410.10174v1 ) ライセンス: Link先を確認 | Julius Aka, Johannes Brunnemann, Jörg Eiden, Arne Speerforck, Lars Mikelsons, | (参考訳) 変分オートエンコーダ(VAE)はコンパクトな潜在表現を学習するための強力なフレームワークである。
この研究は両者の強みを組み合わせることで、高速な代理モデルと調整可能な複雑さを生み出す。
提案手法は,非階層的事前手法を用いて,VAEの次元性低減を活用し,確率的雑音を適応的に割り当て,既知のニューラルドトレーニングの強化を自然に補完し,確率的時系列モデリングを可能にする。
標準ラテントODEは時変入力を持つシステムにおいて次元還元に苦しむことを示す。
提案手法は,時間的変化パラメータを連続的に伝播し,潜時空間に固定情報チャネルを確立することによってこれを緩和する。
これにより、フレキシブルでロバストな方法で、例えばディープニューラルネットワークや線形行列など、さまざまなシステムの複雑さを学習することができる。
これにより、その次元を事前に定義することなく、クープマン作用素の効率的な近似が可能になる。
本手法は,次元の低減と復元の精度のバランスをとるため,B-NODE ( Balanced Neural ODE) と呼ぶ。
本研究では,本手法の有効性を学術試験事例に適用し,実例を熱発電プラントに適用する。
Variational Autoencoders (VAEs) are a powerful framework for learning compact latent representations, while NeuralODEs excel in learning transient system dynamics. This work combines the strengths of both to create fast surrogate models with adjustable complexity. By leveraging the VAE's dimensionality reduction using a non-hierarchical prior, our method adaptively assigns stochastic noise, naturally complementing known NeuralODE training enhancements and enabling probabilistic time series modeling. We show that standard Latent ODEs struggle with dimensionality reduction in systems with time-varying inputs. Our approach mitigates this by continuously propagating variational parameters through time, establishing fixed information channels in latent space. This results in a flexible and robust method that can learn different system complexities, e.g. deep neural networks or linear matrices. Hereby, it enables efficient approximation of the Koopman operator without the need for predefining its dimensionality. As our method balances dimensionality reduction and reconstruction accuracy, we call it Balanced Neural ODE (B-NODE). We demonstrate the effectiveness of this method on academic test cases and apply it to a real-world example of a thermal power plant. | 翻訳日:2024-10-30 02:34:41 公開日:2024-10-15 |
# 平衡ニューラルネットワーク:非線形モデル秩序の低減とクープマン作用素近似
Balanced Neural ODEs: nonlinear model order reduction and Koopman operator approximations ( http://arxiv.org/abs/2410.10174v2 ) ライセンス: Link先を確認 | Julius Aka, Johannes Brunnemann, Jörg Eiden, Arne Speerforck, Lars Mikelsons, | (参考訳) 変分オートエンコーダ(VAE)はコンパクトな潜在表現を学習するための強力なフレームワークである。
この研究は両者の強みを組み合わせることで、高速な代理モデルと調整可能な複雑さを生み出す。
提案手法は,非階層的事前手法を用いて,VAEの次元性低減を活用し,確率的雑音を適応的に割り当て,既知のニューラルドトレーニングの強化を自然に補完し,確率的時系列モデリングを可能にする。
標準ラテントODEは時変入力を持つシステムにおいて次元還元に苦しむことを示す。
提案手法は,時間的変化パラメータを連続的に伝播し,潜時空間に固定情報チャネルを確立することによってこれを緩和する。
これにより、フレキシブルでロバストな方法で、例えばディープニューラルネットワークや線形行列など、さまざまなシステムの複雑さを学習することができる。
これにより、その次元を事前に定義することなく、クープマン作用素の効率的な近似が可能になる。
本手法は,次元の低減と復元の精度のバランスをとるため,B-NODE ( Balanced Neural ODE) と呼ぶ。
本研究では,本手法の有効性を学術試験事例に適用し,実例を熱発電プラントに適用する。
Variational Autoencoders (VAEs) are a powerful framework for learning compact latent representations, while NeuralODEs excel in learning transient system dynamics. This work combines the strengths of both to create fast surrogate models with adjustable complexity. By leveraging the VAE's dimensionality reduction using a non-hierarchical prior, our method adaptively assigns stochastic noise, naturally complementing known NeuralODE training enhancements and enabling probabilistic time series modeling. We show that standard Latent ODEs struggle with dimensionality reduction in systems with time-varying inputs. Our approach mitigates this by continuously propagating variational parameters through time, establishing fixed information channels in latent space. This results in a flexible and robust method that can learn different system complexities, e.g. deep neural networks or linear matrices. Hereby, it enables efficient approximation of the Koopman operator without the need for predefining its dimensionality. As our method balances dimensionality reduction and reconstruction accuracy, we call it Balanced Neural ODE (B-NODE). We demonstrate the effectiveness of this method on academic test cases and apply it to a real-world example of a thermal power plant. | 翻訳日:2024-10-30 02:34:41 公開日:2024-10-15 |
# 文字列からの予測:ベイズ最適化のための言語モデル埋め込み
Predicting from Strings: Language Model Embeddings for Bayesian Optimization ( http://arxiv.org/abs/2410.10190v1 ) ライセンス: Link先を確認 | Tung Nguyen, Qiuyi Zhang, Bangding Yang, Chansoo Lee, Jorg Bornschein, Yingjie Miao, Sagi Perel, Yutian Chen, Xingyou Song, | (参考訳) ベイズ最適化は、探索効率を改善するための実験設計とブラックボックス最適化の分野ではユビキタスであるが、伝統的に、固定された検索空間や表の入力機能にのみ適用可能な回帰モデルに限られてきた。
本研究では,事前学習した言語モデルの文字列埋め込み機能を用いて,文字列入力に対してコンテキスト内回帰を適用するためのパラダイムである Embed-then-Regress を提案する。
すべての入力を文字列として表現することにより、合成、組合せ、ハイパーパラメータ最適化を含む様々な領域に対してベイズ最適化の汎用回帰を行い、最先端のガウス過程に基づくアルゴリズムに匹敵する結果を得ることができる。
コードはgithub.com/google-research/optformer/embed_then_regressで見ることができる。
Bayesian Optimization is ubiquitous in the field of experimental design and blackbox optimization for improving search efficiency, but has been traditionally restricted to regression models which are only applicable to fixed search spaces and tabular input features. We propose Embed-then-Regress, a paradigm for applying in-context regression over string inputs, through the use of string embedding capabilities of pretrained language models. By expressing all inputs as strings, we are able to perform general-purpose regression for Bayesian Optimization over various domains including synthetic, combinatorial, and hyperparameter optimization, obtaining comparable results to state-of-the-art Gaussian Process-based algorithms. Code can be found at github.com/google-research/optformer/embed_then_regress. | 翻訳日:2024-10-30 02:24:44 公開日:2024-10-15 |
# 文字列からの予測:ベイズ最適化のための言語モデル埋め込み
Predicting from Strings: Language Model Embeddings for Bayesian Optimization ( http://arxiv.org/abs/2410.10190v2 ) ライセンス: Link先を確認 | Tung Nguyen, Qiuyi Zhang, Bangding Yang, Chansoo Lee, Jorg Bornschein, Yingjie Miao, Sagi Perel, Yutian Chen, Xingyou Song, | (参考訳) ベイズ最適化は、探索効率を改善するための実験設計とブラックボックス最適化の分野ではユビキタスであるが、伝統的に、固定された検索空間や表の入力機能にのみ適用可能な回帰モデルに限られてきた。
本研究では,事前学習した言語モデルの文字列埋め込み機能を用いて,文字列入力に対してコンテキスト内回帰を適用するためのパラダイムである Embed-then-Regress を提案する。
すべての入力を文字列として表現することにより、合成、組合せ、ハイパーパラメータ最適化を含む様々な領域に対してベイズ最適化の汎用回帰を行い、最先端のガウス過程に基づくアルゴリズムに匹敵する結果を得ることができる。
コードはhttps://github.com/google-research/optformer/tree/main/optformer/embed_then_regressで見ることができる。
Bayesian Optimization is ubiquitous in the field of experimental design and blackbox optimization for improving search efficiency, but has been traditionally restricted to regression models which are only applicable to fixed search spaces and tabular input features. We propose Embed-then-Regress, a paradigm for applying in-context regression over string inputs, through the use of string embedding capabilities of pretrained language models. By expressing all inputs as strings, we are able to perform general-purpose regression for Bayesian Optimization over various domains including synthetic, combinatorial, and hyperparameter optimization, obtaining comparable results to state-of-the-art Gaussian Process-based algorithms. Code can be found at https://github.com/google-research/optformer/tree/main/optformer/embed_then_regress. | 翻訳日:2024-10-30 02:24:44 公開日:2024-10-15 |
# 高品質データを鍵としてLLMの長期出力をアンロックする最小チューニング
Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key ( http://arxiv.org/abs/2410.10210v1 ) ライセンス: Link先を確認 | Yingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao, | (参考訳) 大きな言語モデルは、より長いコンテキストをサポートするために急速に進化するので、より大きな長さで出力を生成する能力に顕著な相違がある。
近年の研究では、この不均衡の主な原因は、アライメントトレーニング中に長時間のアウトプットを伴うデータの欠如にあることが示唆されている。
この観測から、基礎モデルをギャップを埋めるデータで再調整する試みが行われ、その結果、指示されたときに長大な出力を生成できるモデルが得られる。
本稿では,長期出力のモデルチューニングにおけるデータ品質の影響について検討し,人間対応モデル(インストラクションやチャット)の開始点からその可能性を検討する。
注意深いデータキュレーションにより、トレーニングされたデータインスタンスと計算のごく一部で、チューニングされたモデルで同様のパフォーマンス改善を実現することができることを示す。
さらに,複数のモデルに調律規則を適用することで,そのような手法の一般化可能性を評価する。
我々の研究結果によると、長い出力を生成する能力は様々なモデルによって異なるが、定性的な計算を用いて高品質なデータで調整するアプローチは、実験したすべてのモデルに対して一貫して顕著な改善をもたらす。
我々は、長書き能力のチューニング、モデルチューニングと評価の実装、そしてこれら全てをオープンにアクセス可能な細調整されたモデルのためのキュレートされたデータセットを公開しました。
As large language models rapidly evolve to support longer context, there is a notable disparity in their capability to generate output at greater lengths. Recent study suggests that the primary cause for this imbalance may arise from the lack of data with long-output during alignment training. In light of this observation, attempts are made to re-align foundation models with data that fills the gap, which result in models capable of generating lengthy output when instructed. In this paper, we explore the impact of data-quality in tuning a model for long output, and the possibility of doing so from the starting points of human-aligned (instruct or chat) models. With careful data curation, we show that it possible to achieve similar performance improvement in our tuned models, with only a small fraction of training data instances and compute. In addition, we assess the generalizability of such approaches by applying our tuning-recipes to several models. our findings suggest that, while capacities for generating long output vary across different models out-of-the-box, our approach to tune them with high-quality data using lite compute, consistently yields notable improvement across all models we experimented on. We have made public our curated dataset for tuning long-writing capability, the implementations of model tuning and evaluation, as well as the fine-tuned models, all of which can be openly-accessed. | 翻訳日:2024-10-30 02:24:44 公開日:2024-10-15 |
# 高品質データを鍵としてLLMの長期出力をアンロックする最小チューニング
Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key ( http://arxiv.org/abs/2410.10210v2 ) ライセンス: Link先を確認 | Yingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao, | (参考訳) 大きな言語モデルは、より長いコンテキストをサポートするために急速に進化するので、より大きな長さで出力を生成する能力に顕著な相違がある。
近年の研究では、この不均衡の主な原因は、アライメントトレーニング中に長時間のアウトプットを伴うデータの欠如にあることが示唆されている。
この観測から、基礎モデルをギャップを埋めるデータで再調整する試みが行われ、その結果、指示されたときに長大な出力を生成できるモデルが得られる。
本稿では,長期出力のモデルチューニングにおけるデータ品質の影響について検討し,人間対応モデル(インストラクションやチャット)の開始点からその可能性を検討する。
注意深いデータキュレーションにより、トレーニングされたデータインスタンスと計算のごく一部で、チューニングされたモデルで同様のパフォーマンス改善を実現することができることを示す。
さらに,複数のモデルに調律規則を適用することで,そのような手法の一般化可能性を評価する。
我々の研究結果によると、長い出力を生成する能力は様々なモデルによって異なるが、定性的な計算を用いて高品質なデータで調整するアプローチは、実験したすべてのモデルに対して一貫して顕著な改善をもたらす。
我々は、長書き能力のチューニング、モデルチューニングと評価の実装、そしてこれら全てをオープンにアクセス可能な細調整されたモデルのためのキュレートされたデータセットを公開しました。
As large language models rapidly evolve to support longer context, there is a notable disparity in their capability to generate output at greater lengths. Recent study suggests that the primary cause for this imbalance may arise from the lack of data with long-output during alignment training. In light of this observation, attempts are made to re-align foundation models with data that fills the gap, which result in models capable of generating lengthy output when instructed. In this paper, we explore the impact of data-quality in tuning a model for long output, and the possibility of doing so from the starting points of human-aligned (instruct or chat) models. With careful data curation, we show that it possible to achieve similar performance improvement in our tuned models, with only a small fraction of training data instances and compute. In addition, we assess the generalizability of such approaches by applying our tuning-recipes to several models. our findings suggest that, while capacities for generating long output vary across different models out-of-the-box, our approach to tune them with high-quality data using lite compute, consistently yields notable improvement across all models we experimented on. We have made public our curated dataset for tuning long-writing capability, the implementations of model tuning and evaluation, as well as the fine-tuned models, all of which can be openly-accessed. | 翻訳日:2024-10-30 02:24:44 公開日:2024-10-15 |
# ディープフェイク検出のためのプログレッシブディペンタングとブレンドIDの精製によるキャプチャーアーティファクト
Capture Artifacts via Progressive Disentangling and Purifying Blended Identities for Deepfake Detection ( http://arxiv.org/abs/2410.10244v1 ) ライセンス: Link先を確認 | Weijie Zhou, Xiaoqing Luo, Zhancheng Zhang, Jiachen He, Xiaojun Wu, | (参考訳) Deepfakeの技術は、プライバシー侵害や信頼問題に深刻な懸念を抱いている。
これらの課題に対処するため、ディープフェイク検出技術が登場した。
現在のメソッドは、アーティファクトに依存しない冗長な情報を含むグローバルな機能空間をオーバーレイに処理している。
その結果、既存のDeepfake検出技術では、未知のデータセットに遭遇するとパフォーマンスが低下する。
情報冗長性を低減するため、現在の手法では、偽の顔を大まかに切り離してアーティファクトとコンテンツ情報に分類する。
しかし、これらの手法には固い絡み合いの基礎がなく、絡み合いの過程の信頼性を保証できない。
これらの課題に対処するために, 進化的解離と混合IDの浄化に基づくディープフェイク検出手法を革新的に提案する。
アーティファクト生成機構に基づき、粗大な戦略と細粒度の戦略を組み合わせることにより、アンタングル化法の信頼性を確保する。
本手法は, 偽顔のアーチファクトの特徴をより正確に捉え, 分離することを目的としている。
具体的には、まず、偽の顔に粗い粗い不整合を行い、対象の顔と対象の顔とを区別するために追加のアノテーションを必要としない2つのブレンドIDを得る。
そして、各アイデンティティからのアーティファクト特徴を分離し、きめ細かなゆがみを実現する。
純粋なアイデンティティ情報とアーティファクトを得るため、情報ボトルネック理論に基づいてIACC(Identity-Artifact correlation Compression Module)を設計し、アイデンティティ情報とアーティファクト間の潜在的な相関を効果的に低減する。
さらに、Identity-Artifact Separation Contrast Lossは、識別後のアーティファクト機能の独立性を高めるように設計されている。
最後に、分類器は、一般化されたディープフェイク検出器を実現するために純粋なアーティファクト機能のみに焦点を当てる。
The Deepfake technology has raised serious concerns regarding privacy breaches and trust issues. To tackle these challenges, Deepfake detection technology has emerged. Current methods over-rely on the global feature space, which contains redundant information independent of the artifacts. As a result, existing Deepfake detection techniques suffer performance degradation when encountering unknown datasets. To reduce information redundancy, the current methods use disentanglement techniques to roughly separate the fake faces into artifacts and content information. However, these methods lack a solid disentanglement foundation and cannot guarantee the reliability of their disentangling process. To address these issues, a Deepfake detection method based on progressive disentangling and purifying blended identities is innovatively proposed in this paper. Based on the artifact generation mechanism, the coarse- and fine-grained strategies are combined to ensure the reliability of the disentanglement method. Our method aims to more accurately capture and separate artifact features in fake faces. Specifically, we first perform the coarse-grained disentangling on fake faces to obtain a pair of blended identities that require no additional annotation to distinguish between source face and target face. Then, the artifact features from each identity are separated to achieve fine-grained disentanglement. To obtain pure identity information and artifacts, an Identity-Artifact Correlation Compression module (IACC) is designed based on the information bottleneck theory, effectively reducing the potential correlation between identity information and artifacts. Additionally, an Identity-Artifact Separation Contrast Loss is designed to enhance the independence of artifact features post-disentangling. Finally, the classifier only focuses on pure artifact features to achieve a generalized Deepfake detector. | 翻訳日:2024-10-30 02:14:55 公開日:2024-10-15 |
# ディープフェイク検出のためのプログレッシブディペンタングとブレンドIDの精製によるキャプチャーアーティファクト
Capture Artifacts via Progressive Disentangling and Purifying Blended Identities for Deepfake Detection ( http://arxiv.org/abs/2410.10244v2 ) ライセンス: Link先を確認 | Weijie Zhou, Xiaoqing Luo, Zhancheng Zhang, Jiachen He, Xiaojun Wu, | (参考訳) Deepfakeの技術は、プライバシー侵害や信頼問題に深刻な懸念を抱いている。
これらの課題に対処するため、ディープフェイク検出技術が登場した。
現在のメソッドは、アーティファクトに依存しない冗長な情報を含むグローバルな機能空間をオーバーレイに処理している。
その結果、既存のDeepfake検出技術では、未知のデータセットに遭遇するとパフォーマンスが低下する。
情報冗長性を低減するため、現在の手法では、偽の顔を大まかに切り離してアーティファクトとコンテンツ情報に分類する。
しかし、これらの手法には固い絡み合いの基礎がなく、絡み合いの過程の信頼性を保証できない。
これらの課題に対処するために, 進化的解離と混合IDの浄化に基づくディープフェイク検出手法を革新的に提案する。
アーティファクト生成機構に基づき、粗大な戦略と細粒度の戦略を組み合わせることにより、アンタングル化法の信頼性を確保する。
本手法は, 偽顔のアーチファクトの特徴をより正確に捉え, 分離することを目的としている。
具体的には、まず、偽の顔に粗い粗い不整合を行い、対象の顔と対象の顔とを区別するために追加のアノテーションを必要としない2つのブレンドIDを得る。
そして、各アイデンティティからのアーティファクト特徴を分離し、きめ細かなゆがみを実現する。
純粋なアイデンティティ情報とアーティファクトを得るため、情報ボトルネック理論に基づいてIACC(Identity-Artifact correlation Compression Module)を設計し、アイデンティティ情報とアーティファクト間の潜在的な相関を効果的に低減する。
さらに、Identity-Artifact Separation Contrast Lossは、識別後のアーティファクト機能の独立性を高めるように設計されている。
最後に、分類器は、一般化されたディープフェイク検出器を実現するために純粋なアーティファクト機能のみに焦点を当てる。
The Deepfake technology has raised serious concerns regarding privacy breaches and trust issues. To tackle these challenges, Deepfake detection technology has emerged. Current methods over-rely on the global feature space, which contains redundant information independent of the artifacts. As a result, existing Deepfake detection techniques suffer performance degradation when encountering unknown datasets. To reduce information redundancy, the current methods use disentanglement techniques to roughly separate the fake faces into artifacts and content information. However, these methods lack a solid disentanglement foundation and cannot guarantee the reliability of their disentangling process. To address these issues, a Deepfake detection method based on progressive disentangling and purifying blended identities is innovatively proposed in this paper. Based on the artifact generation mechanism, the coarse- and fine-grained strategies are combined to ensure the reliability of the disentanglement method. Our method aims to more accurately capture and separate artifact features in fake faces. Specifically, we first perform the coarse-grained disentangling on fake faces to obtain a pair of blended identities that require no additional annotation to distinguish between source face and target face. Then, the artifact features from each identity are separated to achieve fine-grained disentanglement. To obtain pure identity information and artifacts, an Identity-Artifact Correlation Compression module (IACC) is designed based on the information bottleneck theory, effectively reducing the potential correlation between identity information and artifacts. Additionally, an Identity-Artifact Separation Contrast Loss is designed to enhance the independence of artifact features post-disentangling. Finally, the classifier only focuses on pure artifact features to achieve a generalized Deepfake detector. | 翻訳日:2024-10-30 02:14:55 公開日:2024-10-15 |
# EasyRAG: ネットワーク自動化操作のための効率的な検索拡張生成フレームワーク
EasyRAG: Efficient Retrieval-Augmented Generation Framework for Network Automated Operations ( http://arxiv.org/abs/2410.10315v1 ) ライセンス: Link先を確認 | Zhangchi Feng, Dongdong Kuang, Zhongyuan Wang, Zhijie Nie, Yaowei Zheng, Richong Zhang, | (参考訳) 本稿では,ネットワーク自動操作のためのシンプルで軽量で効率的な検索拡張生成フレームワークであるEasyRAGを提案する。
提案手法の利点は,(1) 特定のデータ処理ワークフローに基づく簡易なRAGスキームを設計し,(2) 粗いランク付けのための二重経路スパース検索 (3) LLMリランカ (4) LLM 回答の生成と最適化を行う。
このアプローチは、GLM4トラックの予選ラウンドで1位、準決勝で2位となった。
2.Simple Deployment:本手法は主にBM25検索とBGE-Rerankerリグレードから成り,最小限のVRAMを占有し,デプロイが容易で,高度にスケーラブルなモデルを微調整する必要がなく,さまざまな検索および生成戦略を備えたフレキシブルなコードライブラリを提供し,カスタムプロセスの実装を容易にする。
効率的な推論: 高い精度を維持しつつ、RAGの推論遅延を大幅に低減し、RAGプロセスの任意のコンポーネントに各アクセラレーションスキームをプラグイン・アンド・プレイし、RAGシステムの効率を一貫して向上する、粗いランク付け、再ランク付け、生成プロセス全体の効率的な推論促進スキームを設計した。
私たちのコードとデータはhttps://github.com/BUAADreamer/EasyRAG.comで公開されています。
This paper presents EasyRAG, a simple, lightweight, and efficient retrieval-augmented generation framework for network automated operations. The advantages of our solution are: 1.Accurate Question Answering: We designed a straightforward RAG scheme based on (1) a specific data processing workflow (2) dual-route sparse retrieval for coarse ranking (3) LLM Reranker for reranking (4) LLM answer generation and optimization. This approach achieved first place in the GLM4 track in the preliminary round and second place in the GLM4 track in the semifinals. 2.Simple Deployment: Our method primarily consists of BM25 retrieval and BGE-reranker reranking, requiring no fine-tuning of any models, occupying minimal VRAM, easy to deploy, and highly scalable; we provide a flexible code library with various search and generation strategies, facilitating custom process implementation. 3.Efficient Inference: We designed an efficient inference acceleration scheme for the entire coarse ranking, reranking, and generation process that significantly reduces the inference latency of RAG while maintaining a good level of accuracy; each acceleration scheme can be plug-and-play into any component of the RAG process, consistently enhancing the efficiency of the RAG system. Our code and data are released at https://github.com/BUAADreamer/EasyRAG. | 翻訳日:2024-10-29 22:24:32 公開日:2024-10-15 |
# EasyRAG: 自動ネットワーク操作のための効率的な検索拡張生成フレームワーク
EasyRAG: Efficient Retrieval-Augmented Generation Framework for Automated Network Operations ( http://arxiv.org/abs/2410.10315v2 ) ライセンス: Link先を確認 | Zhangchi Feng, Dongdong Kuang, Zhongyuan Wang, Zhijie Nie, Yaowei Zheng, Richong Zhang, | (参考訳) 本稿では,自動ネットワーク操作のためのシンプルで軽量で効率的な検索拡張生成フレームワークであるEasyRAGを提案する。
私たちのフレームワークには3つの利点があります。
1つ目は正確な質問応答である。
本研究では,(1)データ処理ワークフローに基づく単純なRAG方式を設計し,(2)粗いランク付けのための二重経路スパース検索 (3) LLM 応答生成と最適化のための再ランク付けのための LLM 再ランカを設計した。
このアプローチは、GLM4トラックの予選ラウンドで1位、準決勝で2位となった。
2つ目は、シンプルなデプロイメントです。
本手法は主にBM25検索とBGE-rerankerのリグレードで構成されており,最小限のVRAMを占有し,デプロイが容易で,高度にスケーラブルである。
最後の1つは効率的な推論である。
我々は,RAGプロセスの任意のコンポーネントに各アクセラレーションスキームをプラグアンドプレイ可能とし,RAGシステムの効率を一貫して向上させるとともに,高い精度を維持しつつ,RAGの推論遅延を大幅に低減する,粗いランク付け,再ランク付け,生成プロセス全体の効率的な推論アクセラレーションスキームを設計した。
我々のコードとデータは \url{https://github.com/BUAADreamer/EasyRAG} でリリースされます。
This paper presents EasyRAG, a simple, lightweight, and efficient retrieval-augmented generation framework for automated network operations. Our framework has three advantages. The first is accurate question answering. We designed a straightforward RAG scheme based on (1) a specific data processing workflow (2) dual-route sparse retrieval for coarse ranking (3) LLM Reranker for reranking (4) LLM answer generation and optimization. This approach achieved first place in the GLM4 track in the preliminary round and second place in the GLM4 track in the semifinals. The second is simple deployment. Our method primarily consists of BM25 retrieval and BGE-reranker reranking, requiring no fine-tuning of any models, occupying minimal VRAM, easy to deploy, and highly scalable; we provide a flexible code library with various search and generation strategies, facilitating custom process implementation. The last one is efficient inference. We designed an efficient inference acceleration scheme for the entire coarse ranking, reranking, and generation process that significantly reduces the inference latency of RAG while maintaining a good level of accuracy; each acceleration scheme can be plug-and-play into any component of the RAG process, consistently enhancing the efficiency of the RAG system. Our code and data are released at \url{https://github.com/BUAADreamer/EasyRAG}. | 翻訳日:2024-10-29 22:24:32 公開日:2024-10-15 |
# GraphCLIP: テキスト分散グラフのためのグラフ基盤モデルにおける転送性向上
GraphCLIP: Enhancing Transferability in Graph Foundation Models for Text-Attributed Graphs ( http://arxiv.org/abs/2410.10329v1 ) ライセンス: Link先を確認 | Yun Zhu, Haizhou Shi, Xiaotang Wang, Yongchao Liu, Yaoke Wang, Boci Peng, Chuntao Hong, Siliang Tang, | (参考訳) 近年,TAG(Text-Attributed Graphs)の研究が注目されているのは,リアルタイムアプリケーションにおける自由テキストノード機能の普及と,TAG手法を活性化するLarge Language Models(LLMs)の進歩である。
しかし、現在のTAGアプローチは2つの主要な課題に直面している。
一 ラベル情報及びラベル情報に大きく依存すること
(ii)クロスドメインゼロ/フェーショット転送可能性の制限。
これらの問題は、高い労働コストとスケーリング法則により、データとモデルサイズの両方のスケーリングを制限し、強力な転送可能性を持つグラフ基盤モデルの開発を複雑化する。
本研究では,この課題に対処するためのグラフCLIPフレームワークを提案する。
具体的には、LLMの助けを借りて大規模グラフ-土木ペアデータを生成し、キュレートし、不変学習と組み合わせてグラフ-土木予備訓練法を導入し、強力なクロスドメインゼロショット転送可能性を持つグラフ基盤モデルを強化する。
数ショットの学習において,大惨な忘れを軽減し,学習コストを最小限に抑えるために,事前学習目標に沿った新しいグラフプロンプトチューニング手法を提案する。
大規模な実験では、ゼロショットと少数ショットの両方の設定においてGraphCLIPの優位性を示す一方、さまざまな下流タスクに対する評価では、GraphCLIPの汎用性が確認されている。
私たちのコードは、https://github.com/ZhuYun97/GraphCLIPで利用可能です。
Recently, research on Text-Attributed Graphs (TAGs) has gained significant attention due to the prevalence of free-text node features in real-world applications and the advancements in Large Language Models (LLMs) that bolster TAG methodologies. However, current TAG approaches face two primary challenges: (i) Heavy reliance on label information and (ii) Limited cross-domain zero/few-shot transferability. These issues constrain the scaling of both data and model size, owing to high labor costs and scaling laws, complicating the development of graph foundation models with strong transferability. In this work, we propose the GraphCLIP framework to address these challenges by learning graph foundation models with strong cross-domain zero/few-shot transferability through a self-supervised contrastive graph-summary pretraining method. Specifically, we generate and curate large-scale graph-summary pair data with the assistance of LLMs, and introduce a novel graph-summary pretraining method, combined with invariant learning, to enhance graph foundation models with strong cross-domain zero-shot transferability. For few-shot learning, we propose a novel graph prompt tuning technique aligned with our pretraining objective to mitigate catastrophic forgetting and minimize learning costs. Extensive experiments show the superiority of GraphCLIP in both zero-shot and few-shot settings, while evaluations across various downstream tasks confirm the versatility of GraphCLIP. Our code is available at: https://github.com/ZhuYun97/GraphCLIP | 翻訳日:2024-10-29 22:14:39 公開日:2024-10-15 |
# GraphCLIP: テキスト分散グラフのためのグラフ基盤モデルにおける転送性向上
GraphCLIP: Enhancing Transferability in Graph Foundation Models for Text-Attributed Graphs ( http://arxiv.org/abs/2410.10329v2 ) ライセンス: Link先を確認 | Yun Zhu, Haizhou Shi, Xiaotang Wang, Yongchao Liu, Yaoke Wang, Boci Peng, Chuntao Hong, Siliang Tang, | (参考訳) 近年,TAG(Text-Attributed Graphs)の研究が注目されているのは,リアルタイムアプリケーションにおける自由テキストノード機能の普及と,TAG手法を活性化するLarge Language Models(LLMs)の進歩である。
しかし、現在のTAGアプローチは2つの主要な課題に直面している。
一 ラベル情報及びラベル情報に大きく依存すること
(ii)クロスドメインゼロ/フェーショット転送可能性の制限。
これらの問題は、高い労働コストとスケーリング法則により、データとモデルサイズの両方のスケーリングを制限し、強力な転送可能性を持つグラフ基盤モデルの開発を複雑化する。
本研究では,この課題に対処するためのグラフCLIPフレームワークを提案する。
具体的には、LLMの助けを借りて大規模グラフ-土木ペアデータを生成し、キュレートし、不変学習と組み合わせてグラフ-土木予備訓練法を導入し、強力なクロスドメインゼロショット転送可能性を持つグラフ基盤モデルを強化する。
数ショットの学習において,大惨な忘れを軽減し,学習コストを最小限に抑えるために,事前学習目標に沿った新しいグラフプロンプトチューニング手法を提案する。
大規模な実験では、ゼロショットと少数ショットの両方の設定においてGraphCLIPの優位性を示す一方、さまざまな下流タスクに対する評価では、GraphCLIPの汎用性が確認されている。
私たちのコードは、https://github.com/ZhuYun97/GraphCLIPで利用可能です。
Recently, research on Text-Attributed Graphs (TAGs) has gained significant attention due to the prevalence of free-text node features in real-world applications and the advancements in Large Language Models (LLMs) that bolster TAG methodologies. However, current TAG approaches face two primary challenges: (i) Heavy reliance on label information and (ii) Limited cross-domain zero/few-shot transferability. These issues constrain the scaling of both data and model size, owing to high labor costs and scaling laws, complicating the development of graph foundation models with strong transferability. In this work, we propose the GraphCLIP framework to address these challenges by learning graph foundation models with strong cross-domain zero/few-shot transferability through a self-supervised contrastive graph-summary pretraining method. Specifically, we generate and curate large-scale graph-summary pair data with the assistance of LLMs, and introduce a novel graph-summary pretraining method, combined with invariant learning, to enhance graph foundation models with strong cross-domain zero-shot transferability. For few-shot learning, we propose a novel graph prompt tuning technique aligned with our pretraining objective to mitigate catastrophic forgetting and minimize learning costs. Extensive experiments show the superiority of GraphCLIP in both zero-shot and few-shot settings, while evaluations across various downstream tasks confirm the versatility of GraphCLIP. Our code is available at: https://github.com/ZhuYun97/GraphCLIP | 翻訳日:2024-10-29 22:14:39 公開日:2024-10-15 |
# 深層学習における3次元回転の表現について
On Representation of 3D Rotation in the Context of Deep Learning ( http://arxiv.org/abs/2410.10350v1 ) ライセンス: Link先を確認 | Viktória Pravdová, Lukáš Gajdošech, Hassan Ali, Viktor Kocur, | (参考訳) 本稿では,深層ニューラルネットワークの学習過程における3次元回転の表現法とその影響について検討する。
合成データと実データの両方において,複数の回転表現と損失関数を用いた3次元回転推定のためのResNet18ネットワークの性能評価を行った。
実際のデータセットには工業用ビンの3Dスキャンが含まれ、合成データセットには、異なる回転の下でレンダリングされた単純な非対称物体のビューが含まれていた。
また, 合成データを用いて, トレーニングセットとテストセット内における異なる回転分布の影響と, 物体のテクスチャの影響についても検討した。
従来の研究では,連続した5Dおよび6D表現を用いたネットワークは,不連続なネットワークよりも優れていた。
This paper investigates various methods of representing 3D rotations and their impact on the learning process of deep neural networks. We evaluated the performance of ResNet18 networks for 3D rotation estimation using several rotation representations and loss functions on both synthetic and real data. The real datasets contained 3D scans of industrial bins, while the synthetic datasets included views of a simple asymmetric object rendered under different rotations. On synthetic data, we also assessed the effects of different rotation distributions within the training and test sets, as well as the impact of the object's texture. In line with previous research, we found that networks using the continuous 5D and 6D representations performed better than the discontinuous ones. | 翻訳日:2024-10-29 22:14:39 公開日:2024-10-15 |
# 深層学習における3次元回転の表現について
On Representation of 3D Rotation in the Context of Deep Learning ( http://arxiv.org/abs/2410.10350v2 ) ライセンス: Link先を確認 | Viktória Pravdová, Lukáš Gajdošech, Hassan Ali, Viktor Kocur, | (参考訳) 本稿では,深層ニューラルネットワークの学習過程における3次元回転の表現法とその影響について検討する。
合成データと実データの両方において,複数の回転表現と損失関数を用いた3次元回転推定のためのResNet18ネットワークの性能評価を行った。
実際のデータセットには工業用ビンの3Dスキャンが含まれ、合成データセットには、異なる回転の下でレンダリングされた単純な非対称物体のビューが含まれていた。
また, 合成データを用いて, トレーニングセットとテストセット内における異なる回転分布の影響と, 物体のテクスチャの影響についても検討した。
従来の研究では,連続した5Dおよび6D表現を用いたネットワークは,不連続なネットワークよりも優れていた。
This paper investigates various methods of representing 3D rotations and their impact on the learning process of deep neural networks. We evaluated the performance of ResNet18 networks for 3D rotation estimation using several rotation representations and loss functions on both synthetic and real data. The real datasets contained 3D scans of industrial bins, while the synthetic datasets included views of a simple asymmetric object rendered under different rotations. On synthetic data, we also assessed the effects of different rotation distributions within the training and test sets, as well as the impact of the object's texture. In line with previous research, we found that networks using the continuous 5D and 6D representations performed better than the discontinuous ones. | 翻訳日:2024-10-29 22:14:39 公開日:2024-10-15 |
# Biformer Attention Mechanism と Multipath Dilated Convolution を用いたPubic Symphysis-Fetal Head Segmentation Network
Pubic Symphysis-Fetal Head Segmentation Network Using BiFormer Attention Mechanism and Multipath Dilated Convolution ( http://arxiv.org/abs/2410.10352v1 ) ライセンス: Link先を確認 | Pengzhou Cai, Lu Jiang, Yanxin Li, Xiaojuan Liu, Libin Lan, | (参考訳) 経ペリン超音波画像における胎児の頭頂部偏位は,胎児の頭頂部偏位と進行を評価する上で重要な役割を担っている。
既存のトランスフォーマー \iffalse-based\fiセグメンテーション手法では,手作りの静的パターンを用いて,特定のデータセット上でのセグメンテーション性能において,大きな差が生じる。
この問題に対処するために,超音波画像セグメンテーションのための動的でクエリ対応のスパースアテンション機構を導入する。
具体的にはBRAU-Netと呼ばれる新しい手法を提案する。
U-Netライクなエンコーダ・デコーダアーキテクチャを採用し、双方向のルーティングアテンションと接続をスキップすることで、ローカル・グローバルなセマンティック情報を効果的に学習する。
さらに,情報損失を低減するために,逆ボトルネックパッチ拡張(IBPE)モジュールを提案する。
提案したBRAU-Netは、FH-PS-AoPおよびHC18データセットに基づいて評価される。
その結果,本手法は優れたセグメンテーション結果が得られることが示された。
コードはGitHubで入手できる。
Pubic symphysis-fetal head segmentation in transperineal ultrasound images plays a critical role for the assessment of fetal head descent and progression. Existing transformer \iffalse-based\fi segmentation methods based on sparse attention mechanism use handcrafted static patterns, which leads to great differences \iffalse in \fi in terms of segmentation performance on specific datasets. To address this issue, we introduce a dynamic, query-aware sparse attention mechanism for ultrasound image segmentation. Specifically, we propose a novel method, named BRAU-Net to solve the pubic symphysis-fetal head segmentation task in this paper. The method adopts a U-Net-like encoder-decoder architecture with bi-level routing attention and skip connections, which effectively learns local-global semantic information. In addition, we propose an inverted bottleneck patch expanding (IBPE) module to reduce information loss while performing up-sampling operations. The proposed BRAU-Net is evaluated on FH-PS-AoP and HC18 datasets. The results demonstrate that our method could achieve excellent segmentation results. The code is available on GitHub. | 翻訳日:2024-10-29 22:04:40 公開日:2024-10-15 |
# Biformer Attention Mechanism と Multipath Dilated Convolution を用いたPubic Symphysis-Fetal Head Segmentation Network
Pubic Symphysis-Fetal Head Segmentation Network Using BiFormer Attention Mechanism and Multipath Dilated Convolution ( http://arxiv.org/abs/2410.10352v2 ) ライセンス: Link先を確認 | Pengzhou Cai, Lu Jiang, Yanxin Li, Xiaojuan Liu, Libin Lan, | (参考訳) 経ペリン超音波画像における胎児の頭頂部偏位は,胎児の頭頂部偏位と進行を評価する上で重要な役割を担っている。
スパースアテンション機構に基づく既存のトランスフォーマーセグメンテーション手法では,手作りの静的パターンを用いることで,特定のデータセット上でのセグメンテーション性能に大きな違いが生じる。
この問題に対処するために,超音波画像セグメンテーションのための動的でクエリ対応のスパースアテンション機構を導入する。
具体的にはBRAU-Netと呼ばれる新しい手法を提案する。
U-Netライクなエンコーダ・デコーダアーキテクチャを採用し、双方向のルーティングアテンションと接続をスキップすることで、ローカル・グローバルなセマンティック情報を効果的に学習する。
さらに,情報損失を低減するために,逆ボトルネックパッチ拡張(IBPE)モジュールを提案する。
提案したBRAU-Netは、FH-PS-AoPおよびHC18データセットに基づいて評価される。
その結果,本手法は優れたセグメンテーション結果が得られることが示された。
コードはGitHubで入手できる。
Pubic symphysis-fetal head segmentation in transperineal ultrasound images plays a critical role for the assessment of fetal head descent and progression. Existing transformer segmentation methods based on sparse attention mechanism use handcrafted static patterns, which leads to great differences in terms of segmentation performance on specific datasets. To address this issue, we introduce a dynamic, query-aware sparse attention mechanism for ultrasound image segmentation. Specifically, we propose a novel method, named BRAU-Net to solve the pubic symphysis-fetal head segmentation task in this paper. The method adopts a U-Net-like encoder-decoder architecture with bi-level routing attention and skip connections, which effectively learns local-global semantic information. In addition, we propose an inverted bottleneck patch expanding (IBPE) module to reduce information loss while performing up-sampling operations. The proposed BRAU-Net is evaluated on FH-PS-AoP and HC18 datasets. The results demonstrate that our method could achieve excellent segmentation results. The code is available on GitHub. | 翻訳日:2024-10-29 22:04:40 公開日:2024-10-15 |
# スパースグラフ上の一般ランダムウォークグラフカーネルの最適時間複雑度アルゴリズム
Optimal Time Complexity Algorithms for Computing General Random Walk Graph Kernels on Sparse Graphs ( http://arxiv.org/abs/2410.10368v1 ) ライセンス: Link先を確認 | Krzysztof Choromanski, Isaac Reid, Arijit Sehanobish, Avinava Dubey, | (参考訳) スパースグラフに対する一般ランダムウォークカーネル(RWK)の無バイアス近似のための最初の線形時間複雑性ランダム化アルゴリズムを提案する。
これにはラベル付きインスタンスと非ラベル付きインスタンスの両方が含まれる。
これまでのRWKの最も高速な手法は3次時間複雑性であり、ラベル付きグラフには適用できない。
提案手法はランダムウォークを用いて$\mathbb{R}^d$ の新たなグラフ埋め込みを計算し,ドット積は期待値の真の RWK に等しい。
つまり、単一のマシンに格納できない巨大なデータセットにスケールできるのです。
指数集中束を導出し、我々の推定器がシャープであることを証明し、一般RWKを(単なる特殊な場合ではなく)近似できる能力が効率的な暗黙グラフカーネル学習を解き放つことを示す。
我々の手法は、大きなグラフ上の効率的な計算とグラフへのスケールのために、最大$\mathbf{27\times}$がそれよりも高速である。
We present the first linear time complexity randomized algorithms for unbiased approximation of the celebrated family of general random walk kernels (RWKs) for sparse graphs. This includes both labelled and unlabelled instances. The previous fastest methods for general RWKs were of cubic time complexity and not applicable to labelled graphs. Our method samples dependent random walks to compute novel graph embeddings in $\mathbb{R}^d$ whose dot product is equal to the true RWK in expectation. It does so without instantiating the direct product graph in memory, meaning we can scale to massive datasets that cannot be stored on a single machine. We derive exponential concentration bounds to prove that our estimator is sharp, and show that the ability to approximate general RWKs (rather than just special cases) unlocks efficient implicit graph kernel learning. Our method is up to $\mathbf{27\times}$ faster than its counterparts for efficient computation on large graphs and scales to graphs $\mathbf{128 \times}$ bigger than largest examples amenable to brute-force computation. | 翻訳日:2024-10-29 22:04:40 公開日:2024-10-15 |
# スパースグラフ上の一般ランダムウォークグラフカーネルの最適時間複雑度アルゴリズム
Optimal Time Complexity Algorithms for Computing General Random Walk Graph Kernels on Sparse Graphs ( http://arxiv.org/abs/2410.10368v2 ) ライセンス: Link先を確認 | Krzysztof Choromanski, Isaac Reid, Arijit Sehanobish, Avinava Dubey, | (参考訳) スパースグラフに対する一般ランダムウォークカーネル(RWK)の無バイアス近似のための最初の線形時間複雑性ランダム化アルゴリズムを提案する。
これにはラベル付きインスタンスと非ラベル付きインスタンスの両方が含まれる。
これまでのRWKの最も高速な手法は3次時間複雑性であり、ラベル付きグラフには適用できない。
提案手法はランダムウォークを用いて$\mathbb{R}^d$ の新たなグラフ埋め込みを計算し,ドット積は期待値の真の RWK に等しい。
つまり、単一のマシンに格納できない巨大なデータセットにスケールできるのです。
指数集中束を導出し、我々の推定器がシャープであることを証明し、一般RWKを(単なる特殊な場合ではなく)近似できる能力が効率的な暗黙グラフカーネル学習を解き放つことを示す。
我々の手法は、大きなグラフ上の効率的な計算とグラフへのスケールのために、最大$\mathbf{27\times}$がそれよりも高速である。
We present the first linear time complexity randomized algorithms for unbiased approximation of the celebrated family of general random walk kernels (RWKs) for sparse graphs. This includes both labelled and unlabelled instances. The previous fastest methods for general RWKs were of cubic time complexity and not applicable to labelled graphs. Our method samples dependent random walks to compute novel graph embeddings in $\mathbb{R}^d$ whose dot product is equal to the true RWK in expectation. It does so without instantiating the direct product graph in memory, meaning we can scale to massive datasets that cannot be stored on a single machine. We derive exponential concentration bounds to prove that our estimator is sharp, and show that the ability to approximate general RWKs (rather than just special cases) unlocks efficient implicit graph kernel learning. Our method is up to $\mathbf{27\times}$ faster than its counterparts for efficient computation on large graphs and scales to graphs $\mathbf{128 \times}$ bigger than largest examples amenable to brute-force computation. | 翻訳日:2024-10-29 22:04:40 公開日:2024-10-15 |
# ベイズニューラルネットワークの深さ推定精度の向上
Improved Depth Estimation of Bayesian Neural Networks ( http://arxiv.org/abs/2410.10395v1 ) ライセンス: Link先を確認 | Bart van Erp, Bert de Vries, | (参考訳) 本稿では,ベイズニューラルネットワークの深さを推定するために,Nazareth と Blei (2022) による以前の研究の改善を提案する。
本稿では,ネットワーク深度を離散的に切り離した正規分布を提案し,その平均と分散を独立に学習する。
後部分布は、モデルの複雑さと精度のバランスをとる変動自由エネルギーを最小化することによって推定される。
提案手法は, スパイラルデータセットにおける試験精度を改善し, 後方深度推定のばらつきを低減させる。
This paper proposes improvements over earlier work by Nazareth and Blei (2022) for estimating the depth of Bayesian neural networks. Here, we propose a discrete truncated normal distribution over the network depth to independently learn its mean and variance. Posterior distributions are inferred by minimizing the variational free energy, which balances the model complexity and accuracy. Our method improves test accuracy in the spiral data set and reduces the variance in posterior depth estimates. | 翻訳日:2024-10-29 21:54:49 公開日:2024-10-15 |
# ベイズニューラルネットワークの深さ推定精度の向上
Improved Depth Estimation of Bayesian Neural Networks ( http://arxiv.org/abs/2410.10395v2 ) ライセンス: Link先を確認 | Bart van Erp, Bert de Vries, | (参考訳) 本稿では,ベイズニューラルネットワークの深さを推定するために,Nazareth と Blei (2022) による以前の研究の改善を提案する。
本稿では,ネットワーク深度を離散的に切り離した正規分布を提案し,その平均と分散を独立に学習する。
後部分布は、モデルの複雑さと精度のバランスをとる変動自由エネルギーを最小化することによって推定される。
提案手法はスパイラルデータセットの試験精度を向上し, 後方深度推定のばらつきを低減させる。
This paper proposes improvements over earlier work by Nazareth and Blei (2022) for estimating the depth of Bayesian neural networks. Here, we propose a discrete truncated normal distribution over the network depth to independently learn its mean and variance. Posterior distributions are inferred by minimizing the variational free energy, which balances the model complexity and accuracy. Our method improves test accuracy on the spiral data set and reduces the variance in posterior depth estimates. | 翻訳日:2024-10-29 21:54:49 公開日:2024-10-15 |
# 3次元形状生成のための微分テンプレートを用いたパラメータ化構造
Parameterize Structure with Differentiable Template for 3D Shape Generation ( http://arxiv.org/abs/2410.10399v1 ) ライセンス: Link先を確認 | Changfeng Ma, Pengxiao Guo, Shuangyu Yang, Yinuo Chen, Jie Guo, Chongjun Wang, Yanwen Guo, Wenping Wang, | (参考訳) 構造表現は、部分意味論による編集可能な3D形状の再構成と生成に不可欠である。
最近の3D形状生成作業では、階層的なアノテーションに依存した複雑なネットワークや構造定義を採用しており、部品内部の詳細にはあまり注意を払わない。
本稿では,異なるテンプレートと対応する固定長パラメータを用いて,同じカテゴリの共有構造をパラメータ化する手法を提案する。
具体的な形状を示す立方体を計算するために、特定のパラメータをテンプレートに入力する。
我々は、各立方体の3次元図面の境界を利用して、内部の詳細をさらに記述する。
形状は立方体内のパラメータと3ビュー詳細で表され、そこからSDFを計算してオブジェクトを復元することができる。
固定長パラメータと3ビューの詳細から、再構成と生成のためのネットワークは簡単で、潜在空間を学習するのに有効です。
本手法は,複雑な細部で多種多様な形状を再構築あるいは生成し,円滑に補間することができる。
大規模評価は, 点雲, 生成, 補間からの再構成における本手法の優位性を示す。
Structural representation is crucial for reconstructing and generating editable 3D shapes with part semantics. Recent 3D shape generation works employ complicated networks and structure definitions relying on hierarchical annotations and pay less attention to the details inside parts. In this paper, we propose the method that parameterizes the shared structure in the same category using a differentiable template and corresponding fixed-length parameters. Specific parameters are fed into the template to calculate cuboids that indicate a concrete shape. We utilize the boundaries of three-view drawings of each cuboid to further describe the inside details. Shapes are represented with the parameters and three-view details inside cuboids, from which the SDF can be calculated to recover the object. Benefiting from our fixed-length parameters and three-view details, our networks for reconstruction and generation are simple and effective to learn the latent space. Our method can reconstruct or generate diverse shapes with complicated details, and interpolate them smoothly. Extensive evaluations demonstrate the superiority of our method on reconstruction from point cloud, generation, and interpolation. | 翻訳日:2024-10-29 21:44:49 公開日:2024-10-15 |
# 3次元形状生成のための微分テンプレートを用いたパラメータ化構造
Parameterize Structure with Differentiable Template for 3D Shape Generation ( http://arxiv.org/abs/2410.10399v2 ) ライセンス: Link先を確認 | Changfeng Ma, Pengxiao Guo, Shuangyu Yang, Yinuo Chen, Jie Guo, Chongjun Wang, Yanwen Guo, Wenping Wang, | (参考訳) 構造表現は、部分意味論による編集可能な3D形状の再構成と生成に不可欠である。
最近の3D形状生成作業では、階層的なアノテーションに依存した複雑なネットワークや構造定義を採用しており、部品内部の詳細にはあまり注意を払わない。
本稿では,異なるテンプレートと対応する固定長パラメータを用いて,同じカテゴリの共有構造をパラメータ化する手法を提案する。
具体的な形状を示す立方体を計算するために、特定のパラメータをテンプレートに入力する。
我々は、各立方体の3次元図面の境界を利用して、内部の詳細をさらに記述する。
形状は立方体内のパラメータと3ビュー詳細で表され、そこからSDFを計算してオブジェクトを復元することができる。
固定長パラメータと3ビューの詳細から、再構成と生成のためのネットワークは簡単で、潜在空間を学習するのに有効です。
本手法は,複雑な細部で多種多様な形状を再構築あるいは生成し,円滑に補間することができる。
大規模評価は, 点雲, 生成, 補間からの再構成における本手法の優位性を示す。
Structural representation is crucial for reconstructing and generating editable 3D shapes with part semantics. Recent 3D shape generation works employ complicated networks and structure definitions relying on hierarchical annotations and pay less attention to the details inside parts. In this paper, we propose the method that parameterizes the shared structure in the same category using a differentiable template and corresponding fixed-length parameters. Specific parameters are fed into the template to calculate cuboids that indicate a concrete shape. We utilize the boundaries of three-view drawings of each cuboid to further describe the inside details. Shapes are represented with the parameters and three-view details inside cuboids, from which the SDF can be calculated to recover the object. Benefiting from our fixed-length parameters and three-view details, our networks for reconstruction and generation are simple and effective to learn the latent space. Our method can reconstruct or generate diverse shapes with complicated details, and interpolate them smoothly. Extensive evaluations demonstrate the superiority of our method on reconstruction from point cloud, generation, and interpolation. | 翻訳日:2024-10-29 21:44:49 公開日:2024-10-15 |
# モビリティを意識したフェデレーションラーニング:Vehicular Networkにおけるマルチアーマッドバンドベース選択
Mobility-Aware Federated Learning: Multi-Armed Bandit Based Selection in Vehicular Network ( http://arxiv.org/abs/2410.10451v1 ) ライセンス: Link先を確認 | Haoyu Tu, Lin Chen, Zuguang Li, Xiaopei Chen, Wen Wu, | (参考訳) 本稿では,車両ネットワーク上でのフェデレーション学習(FL)における車両選択問題について検討する。
具体的には,自動車が道路セグメントを走行してFLを実行する,移動型車両統合学習(MAVFL)を設計する。
一部の車両は、トレーニングに失敗するセグメントから離脱する可能性があり、提案手法では、リアルタイムのトレーニング参加率を利用して車両選択を行う。
我々は、車両の移動が訓練損失に与える影響を示すために収束分析を行う。
さらに,トレーニングの損失と遅延を考慮した多腕バンディットに基づく車両選択アルゴリズムを提案する。
シミュレーションの結果,提案アルゴリズムはベースラインと比較して約28倍の精度でトレーニング性能を向上できることがわかった。
In this paper,we study a vehicle selection problem for federated learning (FL) over vehicular networks. Specifically, we design a mobility-aware vehicular federated learning (MAVFL) scheme in which vehicles drive through a road segment to perform FL. Some vehicles may drive out of the segment which leads to unsuccessful training.In the proposed scheme, the real-time successful training participation ratio is utilized to implement vehicle selection. We conduct the convergence analysis to indicate the influence of vehicle mobility on training loss. Furthermore, we propose a multi-armed bandit-based vehicle selection algorithm to minimize the utility function considering training loss and delay. The simulation results show that compared with baselines, the proposed algorithm can achieve better training performance with approximately 28\% faster convergence. | 翻訳日:2024-10-29 21:34:52 公開日:2024-10-15 |
# モビリティを意識したフェデレーションラーニング:Vehicular Networkにおけるマルチアーマッドバンドベース選択
Mobility-Aware Federated Learning: Multi-Armed Bandit Based Selection in Vehicular Network ( http://arxiv.org/abs/2410.10451v2 ) ライセンス: Link先を確認 | Haoyu Tu, Lin Chen, Zuguang Li, Xiaopei Chen, Wen Wu, | (参考訳) 本稿では,車両ネットワーク上でのフェデレーション学習(FL)における車両選択問題について検討する。
具体的には,自動車が道路セグメントを走行してFLを実行する,移動型車両統合学習(MAVFL)を設計する。
一部の車両はセグメントから外れてトレーニングが失敗する可能性がある。
提案手法では, 実時間トレーニング参加率を用いて車両選択を行う。
我々は、車両の移動が訓練損失に与える影響を示すために収束分析を行う。
さらに,トレーニングの損失と遅延を考慮した多腕バンディットに基づく車両選択アルゴリズムを提案する。
シミュレーションの結果,提案アルゴリズムはベースラインと比較して約28倍の精度でトレーニング性能を向上できることがわかった。
In this paper, we study a vehicle selection problem for federated learning (FL) over vehicular networks. Specifically, we design a mobility-aware vehicular federated learning (MAVFL) scheme in which vehicles drive through a road segment to perform FL. Some vehicles may drive out of the segment which leads to unsuccessful training. In the proposed scheme, the real-time successful training participation ratio is utilized to implement vehicle selection. We conduct the convergence analysis to indicate the influence of vehicle mobility on training loss. Furthermore, we propose a multi-armed bandit-based vehicle selection algorithm to minimize the utility function considering training loss and delay. The simulation results show that compared with baselines, the proposed algorithm can achieve better training performance with approximately 28\% faster convergence. | 翻訳日:2024-10-29 21:34:52 公開日:2024-10-15 |
# Ada-Kルーティング: MoE ベースの LLM の効率化
Ada-K Routing: Boosting the Efficiency of MoE-based LLMs ( http://arxiv.org/abs/2410.10456v1 ) ライセンス: Link先を確認 | Tongtian Yue, Longteng Guo, Jie Cheng, Xuange Gao, Jing Liu, | (参考訳) LLM(Large Language Models)の時代において、Mixture-of-Experts (MoE)アーキテクチャは、モデルパラメータをスケールアップしながら計算コストを管理するための有望なアプローチを提供する。
従来の MoE ベースの LLM では,静的な Top-K ルーティングが一般的である。
本稿では,トークンごとにアクティベートされた専門家の数を動的に調整し,計算効率とモデル性能のバランスを改善する新しいAda-Kルーティング戦略を提案する。
具体的には、トークンのコンテキストに応じたカスタマイズされた専門家リソース割り当てを決定する、学習可能で軽量なアロケータモジュールを組み込んでいます。
これらのアロケータは完全にプラグ可能なように設計されており、メインストリームのMoEベースのLLMに広く適用できる。
我々は、PPOアルゴリズムを利用して、この非微分不可能な意思決定フレームワークのエンドツーエンドの学習プロセスを容易にする。
Ada-Kルーティング法は従来のTop-Kルーティングよりも大幅に優れていることを示す。
提案手法はTop-Kと比較して, FLOPの25%以上を削減し, 20%以上の推論高速化を実現し, ベンチマーク性能も向上した。
また、Ada-Kの訓練は非常に効率的である。
140B以上のパラメータを持つMoEベースのLLMであるMixtral-8x22Bでも、トレーニング時間は8時間に制限される。
詳細な分析によると、難しいタスク、中間層、そしてコンテンツワードは、より多くの専門家を活性化させ、将来の適応型MoEシステム設計に価値ある洞察を与える傾向がある。
トレーニングコードとモデルチェックポイントの両方が公開されている。
In the era of Large Language Models (LLMs), Mixture-of-Experts (MoE) architectures offer a promising approach to managing computational costs while scaling up model parameters. Conventional MoE-based LLMs typically employ static Top-K routing, which activates a fixed and equal number of experts for each token regardless of their significance within the context. In this paper, we propose a novel Ada-K routing strategy that dynamically adjusts the number of activated experts for each token, thereby improving the balance between computational efficiency and model performance. Specifically, our strategy incorporates learnable and lightweight allocator modules that decide customized expert resource allocation tailored to the contextual needs for each token. These allocators are designed to be fully pluggable, making it broadly applicable across all mainstream MoE-based LLMs. We leverage the Proximal Policy Optimization (PPO) algorithm to facilitate an end-to-end learning process for this non-differentiable decision-making framework. Extensive evaluations on four popular baseline models demonstrate that our Ada-K routing method significantly outperforms conventional Top-K routing. Compared to Top-K, our method achieves over 25% reduction in FLOPs and more than 20% inference speedup while still improving performance across various benchmarks. Moreover, the training of Ada-K is highly efficient. Even for Mixtral-8x22B, a MoE-based LLM with more than 140B parameters, the training time is limited to 8 hours. Detailed analysis shows that harder tasks, middle layers, and content words tend to activate more experts, providing valuable insights for future adaptive MoE system designs. Both the training code and model checkpoints will be publicly available. | 翻訳日:2024-10-29 21:34:52 公開日:2024-10-15 |
# Ada-Kルーティング: MoE ベースの LLM の効率化
Ada-K Routing: Boosting the Efficiency of MoE-based LLMs ( http://arxiv.org/abs/2410.10456v2 ) ライセンス: Link先を確認 | Tongtian Yue, Longteng Guo, Jie Cheng, Xuange Gao, Jing Liu, | (参考訳) LLM(Large Language Models)の時代において、Mixture-of-Experts (MoE)アーキテクチャは、モデルパラメータをスケールアップしながら計算コストを管理するための有望なアプローチを提供する。
従来の MoE ベースの LLM では,静的な Top-K ルーティングが一般的である。
本稿では,トークンごとにアクティベートされた専門家の数を動的に調整し,計算効率とモデル性能のバランスを改善する新しいAda-Kルーティング戦略を提案する。
具体的には、トークンのコンテキストに応じたカスタマイズされた専門家リソース割り当てを決定する、学習可能で軽量なアロケータモジュールを組み込んでいます。
これらのアロケータは完全にプラグ可能なように設計されており、メインストリームのMoEベースのLLMに広く適用できる。
我々は、PPOアルゴリズムを利用して、この非微分不可能な意思決定フレームワークのエンドツーエンドの学習プロセスを容易にする。
Ada-Kルーティング法は従来のTop-Kルーティングよりも大幅に優れていることを示す。
提案手法はTop-Kと比較して, FLOPの25%以上を削減し, 20%以上の推論高速化を実現し, ベンチマーク性能も向上した。
また、Ada-Kの訓練は非常に効率的である。
140B以上のパラメータを持つMoEベースのLLMであるMixtral-8x22Bでも、トレーニング時間は8時間に制限される。
詳細な分析によると、難しいタスク、中間層、そしてコンテンツワードは、より多くの専門家を活性化させ、将来の適応型MoEシステム設計に価値ある洞察を与える傾向がある。
トレーニングコードとモデルチェックポイントの両方が公開されている。
In the era of Large Language Models (LLMs), Mixture-of-Experts (MoE) architectures offer a promising approach to managing computational costs while scaling up model parameters. Conventional MoE-based LLMs typically employ static Top-K routing, which activates a fixed and equal number of experts for each token regardless of their significance within the context. In this paper, we propose a novel Ada-K routing strategy that dynamically adjusts the number of activated experts for each token, thereby improving the balance between computational efficiency and model performance. Specifically, our strategy incorporates learnable and lightweight allocator modules that decide customized expert resource allocation tailored to the contextual needs for each token. These allocators are designed to be fully pluggable, making it broadly applicable across all mainstream MoE-based LLMs. We leverage the Proximal Policy Optimization (PPO) algorithm to facilitate an end-to-end learning process for this non-differentiable decision-making framework. Extensive evaluations on four popular baseline models demonstrate that our Ada-K routing method significantly outperforms conventional Top-K routing. Compared to Top-K, our method achieves over 25% reduction in FLOPs and more than 20% inference speedup while still improving performance across various benchmarks. Moreover, the training of Ada-K is highly efficient. Even for Mixtral-8x22B, a MoE-based LLM with more than 140B parameters, the training time is limited to 8 hours. Detailed analysis shows that harder tasks, middle layers, and content words tend to activate more experts, providing valuable insights for future adaptive MoE system designs. Both the training code and model checkpoints will be publicly available. | 翻訳日:2024-10-29 21:34:52 公開日:2024-10-15 |
# ディープグラフネットワークにおける情報伝達ダイナミクス
Information propagation dynamics in Deep Graph Networks ( http://arxiv.org/abs/2410.10464v1 ) ライセンス: Link先を確認 | Alessio Gravina, | (参考訳) グラフは、分子構造、ソーシャルネットワーク、トラフィックネットワークなど、エンティティとその関係をモデル化するための非常に表現力豊かな抽象化である。
ディープグラフネットワーク(DGN)は、そのような構造化された情報を効果的に処理し、学習できるディープラーニングモデルのファミリーとして登場した。
しかし、DGN内で効果的な情報伝達パターンを学ぶことは、静的ドメインと時間領域(機能やトポロジが進化する場所)の両方において、モデル機能に大きな影響を与える重要な課題である。
この課題を踏まえ、この論文は静的グラフと動的グラフのためのDGNの内部の情報伝達のダイナミクスを考察し、動的システムとしての設計に焦点をあてる。
本研究を通じて,ノード間の長期依存関係の伝播と保存,および不規則かつスパースにサンプリングされた動的グラフから複雑な時空間パターンの学習において,提案したアーキテクチャの有効性を示す理論的および実証的な証拠を提供する。
要約すると、この論文はグラフ、ディープラーニング、動的システム間の交点を包括的に探求し、グラフ表現学習の分野に対する洞察と進歩を提供し、より効果的で多目的なグラフベースの学習モデルへの道を開く。
Graphs are a highly expressive abstraction for modeling entities and their relations, such as molecular structures, social networks, and traffic networks. Deep Graph Networks (DGNs) have emerged as a family of deep learning models that can effectively process and learn such structured information. However, learning effective information propagation patterns within DGNs remains a critical challenge that heavily influences the model capabilities, both in the static domain and in the temporal domain (where features and/or topology evolve). Given this challenge, this thesis investigates the dynamics of information propagation within DGNs for static and dynamic graphs, focusing on their design as dynamical systems. Throughout this work, we provide theoretical and empirical evidence to demonstrate the effectiveness of our proposed architectures in propagating and preserving long-term dependencies between nodes, and in learning complex spatio-temporal patterns from irregular and sparsely sampled dynamic graphs. In summary, this thesis provides a comprehensive exploration of the intersection between graphs, deep learning, and dynamical systems, offering insights and advancements for the field of graph representation learning and paving the way for more effective and versatile graph-based learning models. | 翻訳日:2024-10-29 21:24:58 公開日:2024-10-15 |
# ディープグラフネットワークにおける情報伝達ダイナミクス
Information propagation dynamics in Deep Graph Networks ( http://arxiv.org/abs/2410.10464v2 ) ライセンス: Link先を確認 | Alessio Gravina, | (参考訳) グラフは、分子構造、ソーシャルネットワーク、トラフィックネットワークなど、エンティティとその関係をモデル化するための非常に表現力豊かな抽象化である。
ディープグラフネットワーク(DGN)は、そのような構造化された情報を効果的に処理し、学習できるディープラーニングモデルのファミリーとして登場した。
しかし、DGN内で効果的な情報伝達パターンを学ぶことは、静的ドメインと時間領域(機能やトポロジが進化する場所)の両方において、モデル機能に大きな影響を与える重要な課題である。
この課題を踏まえ、この論文は静的グラフと動的グラフのためのDGNの内部の情報伝達のダイナミクスを考察し、動的システムとしての設計に焦点をあてる。
本研究を通じて,ノード間の長期依存関係の伝播と保存,および不規則かつスパースにサンプリングされた動的グラフから複雑な時空間パターンの学習において,提案したアーキテクチャの有効性を示す理論的および実証的な証拠を提供する。
要約すると、この論文はグラフ、ディープラーニング、動的システム間の交点を包括的に探求し、グラフ表現学習の分野に対する洞察と進歩を提供し、より効果的で多目的なグラフベースの学習モデルへの道を開く。
Graphs are a highly expressive abstraction for modeling entities and their relations, such as molecular structures, social networks, and traffic networks. Deep Graph Networks (DGNs) have emerged as a family of deep learning models that can effectively process and learn such structured information. However, learning effective information propagation patterns within DGNs remains a critical challenge that heavily influences the model capabilities, both in the static domain and in the temporal domain (where features and/or topology evolve). Given this challenge, this thesis investigates the dynamics of information propagation within DGNs for static and dynamic graphs, focusing on their design as dynamical systems. Throughout this work, we provide theoretical and empirical evidence to demonstrate the effectiveness of our proposed architectures in propagating and preserving long-term dependencies between nodes, and in learning complex spatio-temporal patterns from irregular and sparsely sampled dynamic graphs. In summary, this thesis provides a comprehensive exploration of the intersection between graphs, deep learning, and dynamical systems, offering insights and advancements for the field of graph representation learning and paving the way for more effective and versatile graph-based learning models. | 翻訳日:2024-10-29 21:24:58 公開日:2024-10-15 |
# ビューアグリゲーションを用いた長尺CXR分類のためのConvNeXt V2とMaxViTのアンサンブル
Ensemble of ConvNeXt V2 and MaxViT for Long-Tailed CXR Classification with View-Based Aggregation ( http://arxiv.org/abs/2410.10710v1 ) ライセンス: Link先を確認 | Yosuke Yamagishi, SHouhei Hanaoka, | (参考訳) 本研究では,MICCAI 2024 CXR-LTの課題に対して,Subtask 2 で4位,Subtask 1 で5位となるソリューションを提案する。
胸部X線データセットを用いて事前訓練したConvNeXt V2およびMaxViTモデルのアンサンブルを用いて,胸部所見の長期分布に対処した。
提案手法は、最先端の画像分類手法、クラス不均衡を扱うための非対称な損失、および分類性能を高めるためにビューベース予測アグリゲーションを組み合わせる。
実験により,CXR実験における検出精度の向上と長期分布の取り扱いの両面において,本手法の利点を実証した。
コードは \url{https://github.com/yamagishi0824/cxrlt24-multiview-pp} で公開されている。
In this work, we present our solution for the MICCAI 2024 CXR-LT challenge, achieving 4th place in Subtask 2 and 5th in Subtask 1. We leveraged an ensemble of ConvNeXt V2 and MaxViT models, pretrained on an external chest X-ray dataset, to address the long-tailed distribution of chest findings. The proposed method combines state-of-the-art image classification techniques, asymmetric loss for handling class imbalance, and view-based prediction aggregation to enhance classification performance. Through experiments, we demonstrate the advantages of our approach in improving both detection accuracy and the handling of the long-tailed distribution in CXR findings. The code is available at \url{https://github.com/yamagishi0824/cxrlt24-multiview-pp}. | 翻訳日:2024-10-29 20:05:09 公開日:2024-10-15 |
# ビューアグリゲーションを用いた長尺CXR分類のためのConvNeXt V2とMaxViTのアンサンブル
Ensemble of ConvNeXt V2 and MaxViT for Long-Tailed CXR Classification with View-Based Aggregation ( http://arxiv.org/abs/2410.10710v2 ) ライセンス: Link先を確認 | Yosuke Yamagishi, Shouhei Hanaoka, | (参考訳) 本研究では,MICCAI 2024 CXR-LTの課題に対して,Subtask 2 で4位,Subtask 1 で5位となるソリューションを提案する。
胸部X線データセットを用いて事前訓練したConvNeXt V2およびMaxViTモデルのアンサンブルを用いて,胸部所見の長期分布に対処した。
提案手法は、最先端の画像分類手法、クラス不均衡を扱うための非対称な損失、および分類性能を高めるためにビューベース予測アグリゲーションを組み合わせる。
実験により,CXR実験における検出精度の向上と長期分布の取り扱いの両面において,本手法の利点を実証した。
コードはhttps://github.com/yamagishi0824/cxrlt24-multiview-ppで公開されている。
In this work, we present our solution for the MICCAI 2024 CXR-LT challenge, achieving 4th place in Subtask 2 and 5th in Subtask 1. We leveraged an ensemble of ConvNeXt V2 and MaxViT models, pretrained on an external chest X-ray dataset, to address the long-tailed distribution of chest findings. The proposed method combines state-of-the-art image classification techniques, asymmetric loss for handling class imbalance, and view-based prediction aggregation to enhance classification performance. Through experiments, we demonstrate the advantages of our approach in improving both detection accuracy and the handling of the long-tailed distribution in CXR findings. The code is available at https://github.com/yamagishi0824/cxrlt24-multiview-pp. | 翻訳日:2024-10-29 20:05:09 公開日:2024-10-15 |
# 4-LEGS: ガウススプラッティングを組み込んだ4D言語
4-LEGS: 4D Language Embedded Gaussian Splatting ( http://arxiv.org/abs/2410.10719v1 ) ライセンス: Link先を確認 | Gal Fiebelman, Tamir Cohen, Ayellet Morgenstern, Peter Hedman, Hadar Averbuch-Elor, | (参考訳) ニューラル表現の出現は、広範囲の3Dシーンをデジタルで見る手段に革命をもたらし、新しい視点から描画されたフォトリアリスティック画像の合成を可能にした。
近年,これらの低レベル表現をシーン内に具現化された高レベル意味論的理解と結びつける手法が提案されている。
これらの手法は2次元画像から3次元表現への豊かな意味理解を高め、高次元空間的特徴を3次元空間に蒸留する。
私たちの研究では、言語と世界の動的モデリングを結びつけることに興味があります。
時空間特徴を3次元ガウススプラッティングに基づく4次元表現へ持ち上げる方法について述べる。
%, \gal{ While は, 3次元空間における隣接した特徴の相互作用を可能にする特徴近接性アテンション機構を導入している。
これにより、ユーザはテキストプロンプトからビデオ内のイベントを時空間でローカライズすることができる。
我々は,人や動物が様々な行動を行う様子を公開3Dビデオデータセットで実演する。
The emergence of neural representations has revolutionized our means for digitally viewing a wide range of 3D scenes, enabling the synthesis of photorealistic images rendered from novel views. Recently, several techniques have been proposed for connecting these low-level representations with the high-level semantics understanding embodied within the scene. These methods elevate the rich semantic understanding from 2D imagery to 3D representations, distilling high-dimensional spatial features onto 3D space. In our work, we are interested in connecting language with a dynamic modeling of the world. We show how to lift spatio-temporal features to a 4D representation based on 3D Gaussian Splatting. %, \gal{while introducing a feature-proximity attention mechanism that allows for neighboring features in 3D space to interact}. This enables an interactive interface where the user can spatiotemporally localize events in the video from text prompts. We demonstrate our system on public 3D video datasets of people and animals performing various actions. | 翻訳日:2024-10-29 20:05:09 公開日:2024-10-15 |
# 4-LEGS: ガウススプラッティングを組み込んだ4D言語
4-LEGS: 4D Language Embedded Gaussian Splatting ( http://arxiv.org/abs/2410.10719v2 ) ライセンス: Link先を確認 | Gal Fiebelman, Tamir Cohen, Ayellet Morgenstern, Peter Hedman, Hadar Averbuch-Elor, | (参考訳) ニューラル表現の出現は、広範囲の3Dシーンをデジタルで見る手段に革命をもたらし、新しい視点から描画されたフォトリアリスティック画像の合成を可能にした。
近年,これらの低レベル表現をシーン内に具現化された高レベル意味論的理解と結びつける手法が提案されている。
これらの手法は2次元画像から3次元表現への豊かな意味理解を高め、高次元空間的特徴を3次元空間に蒸留する。
私たちの研究では、言語と世界の動的モデリングを結びつけることに興味があります。
時空間特徴を3次元ガウススプラッティングに基づく4次元表現へ持ち上げる方法について述べる。
これにより、ユーザはテキストプロンプトからビデオ内のイベントを時空間でローカライズすることができる。
我々は,人や動物が様々な行動を行う様子を公開3Dビデオデータセットで実演する。
The emergence of neural representations has revolutionized our means for digitally viewing a wide range of 3D scenes, enabling the synthesis of photorealistic images rendered from novel views. Recently, several techniques have been proposed for connecting these low-level representations with the high-level semantics understanding embodied within the scene. These methods elevate the rich semantic understanding from 2D imagery to 3D representations, distilling high-dimensional spatial features onto 3D space. In our work, we are interested in connecting language with a dynamic modeling of the world. We show how to lift spatio-temporal features to a 4D representation based on 3D Gaussian Splatting. This enables an interactive interface where the user can spatiotemporally localize events in the video from text prompts. We demonstrate our system on public 3D video datasets of people and animals performing various actions. | 翻訳日:2024-10-29 20:05:09 公開日:2024-10-15 |
# LiveXiv - Arxiv Papersコンテンツに基づくマルチモーダルライブベンチマーク
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content ( http://arxiv.org/abs/2410.10783v1 ) ライセンス: Link先を確認 | Nimrod Shabtay, Felipe Maia Polo, Sivan Doveh, Wei Lin, M. Jehanzeb Mirza, Leshem Chosen, Mikhail Yurochkin, Yuekai Sun, Assaf Arbelle, Leonid Karlinsky, Raja Giryes, | (参考訳) ウェブからスクラップされたデータに対するマルチモーダルモデルの大規模なトレーニングは、これらのモデルを複数の下流タスクで効果的に実行するために必要な世界知識に注入する際、優れた実用性を示している。
しかし、Webからデータを抽出する1つの欠点は、これらのモデルの能力がしばしば評価されるベンチマークの潜在的な犠牲になる可能性がある。
テストデータの汚染から保護し、これらの基礎モデルの能力を真にテストするために、LiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的質問応答ペア(VQA)を自動的に生成することを提案する。
これは、グラフ、チャート、テーブルなど、原稿のマルチモーダルコンテンツを使用して、ループ内で人間を使わずに行われる。
さらに,モデルのサブセットのみの評価を用いて,進化ベンチマーク上での全モデルの性能を推定する,効率的な評価手法を提案する。
これにより、全体的な評価コストが大幅に削減される。
ベンチマークの最初のバージョンでは、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルを真の能力として公開し、汚染を避ける。
最後に、高品質へのコミットメントとして、手動で検証されたサブセットを収集し、評価しました。
全体的な結果と自動アノテーションを比較することで、パフォーマンスのばらつきは確かに最小限 (2.5%) であることが分かりました。
私たちのデータセットはHuggingFaceでオンラインで公開されています。
The large-scale training of multi-modal models on data scraped from the web has shown outstanding utility in infusing these models with the required world knowledge to perform effectively on multiple downstream tasks. However, one downside of scraping data from the web can be the potential sacrifice of the benchmarks on which the abilities of these models are often evaluated. To safeguard against test data contamination and to truly test the abilities of these foundation models we propose LiveXiv: A scalable evolving live benchmark based on scientific ArXiv papers. LiveXiv accesses domain-specific manuscripts at any given timestamp and proposes to automatically generate visual question-answer pairs (VQA). This is done without any human-in-the-loop, using the multi-modal content in the manuscripts, like graphs, charts, and tables. Moreover, we introduce an efficient evaluation approach that estimates the performance of all models on the evolving benchmark using evaluations of only a subset of models. This significantly reduces the overall evaluation cost. We benchmark multiple open and proprietary Large Multi-modal Models (LMMs) on the first version of our benchmark, showing its challenging nature and exposing the models true abilities, avoiding contamination. Lastly, in our commitment to high quality, we have collected and evaluated a manually verified subset. By comparing its overall results to our automatic annotations, we have found that the performance variance is indeed minimal (<2.5%). Our dataset is available online on HuggingFace, and our code will be available here. | 翻訳日:2024-10-29 19:34:54 公開日:2024-10-15 |
# LiveXiv - Arxiv Papersコンテンツに基づくマルチモーダルライブベンチマーク
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content ( http://arxiv.org/abs/2410.10783v2 ) ライセンス: Link先を確認 | Nimrod Shabtay, Felipe Maia Polo, Sivan Doveh, Wei Lin, M. Jehanzeb Mirza, Leshem Chosen, Mikhail Yurochkin, Yuekai Sun, Assaf Arbelle, Leonid Karlinsky, Raja Giryes, | (参考訳) ウェブからスクラップされたデータに対するマルチモーダルモデルの大規模なトレーニングは、これらのモデルを複数の下流タスクで効果的に実行するために必要な世界知識に注入する際、優れた実用性を示している。
しかし、Webからデータを抽出する1つの欠点は、これらのモデルの能力がしばしば評価されるベンチマークの潜在的な犠牲になる可能性がある。
テストデータの汚染から保護し、これらの基礎モデルの能力を真にテストするために、LiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的質問応答ペア(VQA)を自動的に生成することを提案する。
これは、グラフ、チャート、テーブルなど、原稿のマルチモーダルコンテンツを使用して、ループ内で人間を使わずに行われる。
さらに,モデルのサブセットのみの評価を用いて,進化ベンチマーク上での全モデルの性能を推定する,効率的な評価手法を提案する。
これにより、全体的な評価コストが大幅に削減される。
ベンチマークの最初のバージョンでは、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルを真の能力として公開し、汚染を避ける。
最後に、高品質へのコミットメントとして、手動で検証されたサブセットを収集し、評価しました。
全体的な結果と自動アノテーションを比較することで、パフォーマンスのばらつきは確かに最小限 (2.5%) であることが分かりました。
私たちのデータセットはHuggingFaceでオンラインで公開されています。
The large-scale training of multi-modal models on data scraped from the web has shown outstanding utility in infusing these models with the required world knowledge to perform effectively on multiple downstream tasks. However, one downside of scraping data from the web can be the potential sacrifice of the benchmarks on which the abilities of these models are often evaluated. To safeguard against test data contamination and to truly test the abilities of these foundation models we propose LiveXiv: A scalable evolving live benchmark based on scientific ArXiv papers. LiveXiv accesses domain-specific manuscripts at any given timestamp and proposes to automatically generate visual question-answer pairs (VQA). This is done without any human-in-the-loop, using the multi-modal content in the manuscripts, like graphs, charts, and tables. Moreover, we introduce an efficient evaluation approach that estimates the performance of all models on the evolving benchmark using evaluations of only a subset of models. This significantly reduces the overall evaluation cost. We benchmark multiple open and proprietary Large Multi-modal Models (LMMs) on the first version of our benchmark, showing its challenging nature and exposing the models true abilities, avoiding contamination. Lastly, in our commitment to high quality, we have collected and evaluated a manually verified subset. By comparing its overall results to our automatic annotations, we have found that the performance variance is indeed minimal (<2.5%). Our dataset is available online on HuggingFace, and our code will be available here. | 翻訳日:2024-10-29 19:34:54 公開日:2024-10-15 |
# MMAR: 損失のないマルチモード自動回帰確率的モデリングを目指して
MMAR: Towards Lossless Multi-Modal Auto-Regressive Prababilistic Modeling ( http://arxiv.org/abs/2410.10798v1 ) ライセンス: Link先を確認 | Jian Yang, Dacheng Yin, Yizhou Zhou, Fengyun Rao, Wei Zhai, Yang Cao, Zheng-Jun Zha, | (参考訳) マルチモーダルな大言語モデルの最近の進歩は、画像理解と生成の両方が可能な連立確率モデルの開発を促している。
しかし,近年の手法では,画像の離散化や拡散復号化の過程が原因で,理解作業中に画像情報が失われることが必然的に懸念されている。
本稿では,MMAR(Multi-Modal Auto-Regressive, Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
拡散に基づくアプローチと異なり, 自己回帰画像パッチの埋め込みに軽量拡散ヘッドを用いることにより, 自己回帰バックボーンモデルから拡散過程を分離する。
このように、モデルが画像生成からテキスト生成を通して理解されるようになると、バックボーンモデルの隠された画像表現は最後の認知ステップに限らない。
また,本手法の学習に成功するために,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるためのトレーニング戦略を提案する。
18の画像理解ベンチマークの広範な評価により、MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示し、事前訓練されたCLIPビジョンエンコーダを用いた手法と一致し、同時に高品質な画像を生成することができる。
また,本手法は大規模データとモデルサイズで拡張可能であることを示した。
Recent advancements in multi-modal large language models have propelled the development of joint probabilistic models capable of both image understanding and generation. However, we have identifed that recent methods inevitably suffer from loss of image information during understanding task, due to either image discretization or diffusion denoising steps. To address this issue, we propose a novel Multi-Modal Auto-Regressive (MMAR) probabilistic modeling framework. Unlike discretization line of method, MMAR takes in continuous-valued image tokens to avoid information loss. Differing from diffusion-based approaches, we disentangle the diffusion process from auto-regressive backbone model by employing a light-weight diffusion head on top each auto-regressed image patch embedding. In this way, when the model transits from image generation to understanding through text generation, the backbone model's hidden representation of the image is not limited to the last denoising step. To successfully train our method, we also propose a theoretically proven technique that addresses the numerical stability issue and a training strategy that balances the generation and understanding task goals. Through extensive evaluations on 18 image understanding benchmarks, MMAR demonstrates much more superior performance than other joint multi-modal models, matching the method that employs pretrained CLIP vision encoder, meanwhile being able to generate high quality images at the same time. We also showed that our method is scalable with larger data and model size. | 翻訳日:2024-10-29 19:24:59 公開日:2024-10-15 |
# MMAR: 損失のないマルチモーダル自動回帰確率モデルを目指して
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling ( http://arxiv.org/abs/2410.10798v2 ) ライセンス: Link先を確認 | Jian Yang, Dacheng Yin, Yizhou Zhou, Fengyun Rao, Wei Zhai, Yang Cao, Zheng-Jun Zha, | (参考訳) マルチモーダルな大言語モデルの最近の進歩は、画像理解と生成の両方が可能な連立確率モデルの開発を促している。
しかし,近年の手法では,画像の識別や拡散認知の段階が原因で,理解作業中に画像情報が失われることが避けられないことが判明した。
本稿では,MMAR(Multi-Modal Auto-Regressive, Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
拡散に基づくアプローチと異なり, 自己回帰画像パッチの埋め込みに軽量拡散ヘッドを用いることにより, 自己回帰バックボーンモデルから拡散過程を分離する。
このように、モデルが画像生成からテキスト生成を通して理解されるようになると、バックボーンモデルの隠された画像表現は最後の認知ステップに限らない。
また,本手法の学習に成功するために,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるためのトレーニング戦略を提案する。
18の画像理解ベンチマークの広範な評価により、MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示し、事前訓練されたCLIPビジョンエンコーダを用いた手法と一致し、同時に高品質な画像を生成することができる。
また,本手法は大規模データとモデルサイズで拡張可能であることを示した。
Recent advancements in multi-modal large language models have propelled the development of joint probabilistic models capable of both image understanding and generation. However, we have identified that recent methods inevitably suffer from loss of image information during understanding task, due to either image discretization or diffusion denoising steps. To address this issue, we propose a novel Multi-Modal Auto-Regressive (MMAR) probabilistic modeling framework. Unlike discretization line of method, MMAR takes in continuous-valued image tokens to avoid information loss. Differing from diffusion-based approaches, we disentangle the diffusion process from auto-regressive backbone model by employing a light-weight diffusion head on top each auto-regressed image patch embedding. In this way, when the model transits from image generation to understanding through text generation, the backbone model's hidden representation of the image is not limited to the last denoising step. To successfully train our method, we also propose a theoretically proven technique that addresses the numerical stability issue and a training strategy that balances the generation and understanding task goals. Through extensive evaluations on 18 image understanding benchmarks, MMAR demonstrates much more superior performance than other joint multi-modal models, matching the method that employs pretrained CLIP vision encoder, meanwhile being able to generate high quality images at the same time. We also showed that our method is scalable with larger data and model size. | 翻訳日:2024-10-29 19:24:59 公開日:2024-10-15 |
# TemporalBench:マルチモーダルビデオモデルのための微粒な時間的理解のベンチマーク
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models ( http://arxiv.org/abs/2410.10818v1 ) ライセンス: Link先を確認 | Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Feng Yao, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang, | (参考訳) 微粒な時間的ダイナミクスを理解することは、マルチモーダルビデオの理解と生成に不可欠である。
詳細な時間的アノテーションがないため、既存のビデオベンチマークは主に静的画像ベンチマークに似ており、時間的理解のためのモデルを評価する能力がない。
本稿では,ビデオの微細な時間的理解を評価するためのベンチマークであるTemporalBenchを紹介する。
テンポラルベンチは、ビデオクリップの時間的ダイナミクスを詳述した高品質な人間のアノテーションから、約10Kのビデオ質問応答ペアで構成されている。
その結果,動作周波数,運動の大きさ,イベント順序などの時間的理解と推論能力を評価するためのユニークなテストベッドが得られた。
さらに、ビデオ質問応答とキャプションの双方、短いビデオ理解と長いビデオ理解、マルチモーダルビデオ埋め込みモデルやテキスト生成モデルといった様々なタスクの評価を可能にする。
GPT-4oのような最先端のモデルはテンポラルベンチで38.5%の解答精度しか達成せず、時間的理解において人間とAIの間に有意なギャップ(~30%)があることが示されている。
さらに,LLMが否定的キャプションの微妙な変化を検知し,その予測の手がかりとして集中的な記述を見出すことができるマルチチョイスQAの致命的な落とし穴に気づき,そのようなバイアスを正すためにMBA(Multiple Binary Accuracy)を提案する。
我々は、TemporalBenchがモデルの時間的推論能力を改善する研究を促進することを願っている。
データセットと評価コードの両方が利用可能になる。
Understanding fine-grained temporal dynamics is crucial for multimodal video comprehension and generation. Due to the lack of fine-grained temporal annotations, existing video benchmarks mostly resemble static image benchmarks and are incompetent at evaluating models for temporal understanding. In this paper, we introduce TemporalBench, a new benchmark dedicated to evaluating fine-grained temporal understanding in videos. TemporalBench consists of ~10K video question-answer pairs, derived from ~2K high-quality human annotations detailing the temporal dynamics in video clips. As a result, our benchmark provides a unique testbed for evaluating various temporal understanding and reasoning abilities such as action frequency, motion magnitude, event order, etc. Moreover, it enables evaluations on various tasks like both video question answering and captioning, both short and long video understanding, as well as different models such as multimodal video embedding models and text generation models. Results show that state-of-the-art models like GPT-4o achieve only 38.5% question answering accuracy on TemporalBench, demonstrating a significant gap (~30%) between humans and AI in temporal understanding. Furthermore, we notice a critical pitfall for multi-choice QA where LLMs can detect the subtle changes in negative captions and find a centralized description as a cue for its prediction, where we propose Multiple Binary Accuracy (MBA) to correct such bias. We hope that TemporalBench can foster research on improving models' temporal reasoning capabilities. Both dataset and evaluation code will be made available. | 翻訳日:2024-10-29 19:24:58 公開日:2024-10-15 |
# TemporalBench:マルチモーダルビデオモデルのための微粒な時間的理解のベンチマーク
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models ( http://arxiv.org/abs/2410.10818v2 ) ライセンス: Link先を確認 | Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Feng Yao, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang, | (参考訳) 微粒な時間的ダイナミクスを理解することは、マルチモーダルビデオの理解と生成に不可欠である。
詳細な時間的アノテーションがないため、既存のビデオベンチマークは主に静的画像ベンチマークに似ており、時間的理解のためのモデルを評価する能力がない。
本稿では,ビデオの微細な時間的理解を評価するためのベンチマークであるTemporalBenchを紹介する。
テンポラルベンチは、ビデオクリップの時間的ダイナミクスを詳述した高品質な人間のアノテーションから、約10Kのビデオ質問応答ペアで構成されている。
その結果,動作周波数,運動の大きさ,イベント順序などの時間的理解と推論能力を評価するためのユニークなテストベッドが得られた。
さらに、ビデオ質問応答とキャプションの双方、短いビデオ理解と長いビデオ理解、マルチモーダルビデオ埋め込みモデルやテキスト生成モデルといった様々なタスクの評価を可能にする。
GPT-4oのような最先端のモデルはテンポラルベンチで38.5%の解答精度しか達成せず、時間的理解において人間とAIの間に有意なギャップ(~30%)があることが示されている。
さらに,LLMが否定的キャプションの微妙な変化を検知し,その予測の手がかりとして集中的な記述を見出すことができるマルチチョイスQAの致命的な落とし穴に気づき,そのようなバイアスを正すためにMBA(Multiple Binary Accuracy)を提案する。
我々は、TemporalBenchがモデルの時間的推論能力を改善する研究を促進することを願っている。
データセットと評価コードの両方が利用可能になる。
Understanding fine-grained temporal dynamics is crucial for multimodal video comprehension and generation. Due to the lack of fine-grained temporal annotations, existing video benchmarks mostly resemble static image benchmarks and are incompetent at evaluating models for temporal understanding. In this paper, we introduce TemporalBench, a new benchmark dedicated to evaluating fine-grained temporal understanding in videos. TemporalBench consists of ~10K video question-answer pairs, derived from ~2K high-quality human annotations detailing the temporal dynamics in video clips. As a result, our benchmark provides a unique testbed for evaluating various temporal understanding and reasoning abilities such as action frequency, motion magnitude, event order, etc. Moreover, it enables evaluations on various tasks like both video question answering and captioning, both short and long video understanding, as well as different models such as multimodal video embedding models and text generation models. Results show that state-of-the-art models like GPT-4o achieve only 38.5% question answering accuracy on TemporalBench, demonstrating a significant gap (~30%) between humans and AI in temporal understanding. Furthermore, we notice a critical pitfall for multi-choice QA where LLMs can detect the subtle changes in negative captions and find a centralized description as a cue for its prediction, where we propose Multiple Binary Accuracy (MBA) to correct such bias. We hope that TemporalBench can foster research on improving models' temporal reasoning capabilities. Both dataset and evaluation code will be made available. | 翻訳日:2024-10-29 19:24:58 公開日:2024-10-15 |