Fugu-MT 論文翻訳(概要): Agent Skill Acquisition for Large Language Models via CycleQD

論文の概要: Agent Skill Acquisition for Large Language Models via CycleQD

arxiv url: http://arxiv.org/abs/2410.14735v2
Date: Wed, 27 Nov 2024 16:38:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:53.007184
Title: Agent Skill Acquisition for Large Language Models via CycleQD
Title（参考訳）: CycleQDによる大規模言語モデルのエージェントスキル獲得
Authors: So Kuroki, Taishi Nakamura, Takuya Akiba, Yujin Tang,
Abstract要約: CycleQDはアルゴリズムの循環的適応を通じて品質多様性フレームワークを活用する新しいアプローチである。各タスクのパフォーマンス指標は品質指標として交換され、他のタスクは行動特性として機能する。 CycleQD を LLAMA3-8B-INSTRUCT ベースのモデルに適用することで、コーディング、オペレーティングシステム、データベースタスクにおける従来の微調整手法を超越するだけでなく、GPT-3.5-TURBO と同等のパフォーマンスを達成できる。
参考スコア（独自算出の注目度）: 2.749898166276853
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training large language models to acquire specific skills remains a challenging endeavor. Conventional training approaches often struggle with data distribution imbalances and inadequacies in objective functions that do not align well with task-specific performance. To address these challenges, we introduce CycleQD, a novel approach that leverages the Quality Diversity framework through a cyclic adaptation of the algorithm, along with a model merging based crossover and an SVD-based mutation. In CycleQD, each task's performance metric is alternated as the quality measure while the others serve as the behavioral characteristics. This cyclic focus on individual tasks allows for concentrated effort on one task at a time, eliminating the need for data ratio tuning and simplifying the design of the objective function. Empirical results from AgentBench indicate that applying CycleQD to LLAMA3-8B-INSTRUCT based models not only enables them to surpass traditional fine-tuning methods in coding, operating systems, and database tasks, but also achieves performance on par with GPT-3.5-TURBO, which potentially contains much more parameters, across these domains. Crucially, this enhanced performance is achieved while retaining robust language capabilities, as evidenced by its performance on widely adopted language benchmark tasks. We highlight the key design choices in CycleQD, detailing how these contribute to its effectiveness. Furthermore, our method is general and can be applied to image segmentation models, highlighting its applicability across different domains.
Abstract（参考訳）: 特定のスキルを獲得するために、大きな言語モデルをトレーニングすることは、まだ難しい作業です。従来のトレーニングアプローチは、タスク固有のパフォーマンスとうまく一致しない客観的機能において、データ分散の不均衡と不整合に苦しむことが多い。これらの課題に対処するために,アルゴリズムの周期的適応を通じて品質多様性フレームワークを活用する新しいアプローチであるCycleQDと,モデルマージベースのクロスオーバーとSVDベースの突然変異を導入する。 CycleQDでは、各タスクのパフォーマンス測定基準を品質指標として交互に行い、他のタスクは行動特性として機能する。個々のタスクに周期的にフォーカスすることで、ひとつのタスクに一斉に集中し、データ比のチューニングを不要にし、目的関数の設計を単純化することができる。 AgentBenchによる実証的な結果は、CycleQDをLLAMA3-8B-INSTRUCTベースのモデルに適用することで、コーディング、オペレーティングシステム、データベースタスクにおける従来の微調整メソッドを超越できるだけでなく、これらのドメインにまたがる多くのパラメータを含むGPT-3.5-TURBOと同等のパフォーマンスを達成できることを示している。重要なことに、この強化されたパフォーマンスは、広く採用されている言語ベンチマークタスクのパフォーマンスから証明されているように、堅牢な言語能力を維持しながら達成される。我々はCycleQDにおける重要な設計選択を強調し、それらがその有効性にどのように貢献するかを詳述する。さらに,本手法は汎用的であり,画像分割モデルにも適用可能である。

関連論文リスト

Model Specific Task Similarity for Vision Language Model Selection via Layer Conductance [92.72779885657373]
本稿では,視覚エンコーダの内部関数力学におけるモデル選択の基盤となるフレームワークを提案する。提案手法は,各タスクをレイヤワイドコンダクタンスにより表現し,エントロピー正規化アライメントによる目標条件付きブロック重要度分布を導出する。そこで本研究では,DCD(Directional Conductance Divergence)という,ソースタスクが対象の機能ブロックをいかに効果的にカバーするかを定量化する非対称な指標を提案する。
論文参考訳（メタデータ） (2026-02-01T17:29:43Z)
Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models [28.20124264650572]
MLLM(Multimodal Large Language Models)はタスク間で印象的な機能を示す。特にVQA(Visual Question Answering)のようなタスクにおいて、タスク関連と無関係な信号の区別が難しい場合が多い。この脆弱性は、画像分類や純粋なテキスト質問応答など、モダリティ固有のタスクでより明確になる。本稿では,摂動と対向的摂動を併用した摂動に基づくデータ拡張を含む,MLLMを微調整する新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-05-26T07:31:32Z)
Improving Large Language Model Planning with Action Sequence Similarity [50.52049888490524]
本研究では,インコンテキスト学習(ICL)によるモデル計画能力の向上について検討する。 GRASE-DC は2段階のパイプラインで,まず高効率のAS例を再サンプリングし,選択した例をキュレートする。実験の結果,GRASE-DCは様々な計画タスクにおいて大幅な性能向上を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-02T05:16:17Z)
Large Language Model as Meta-Surrogate for Data-Driven Many-Task Optimization: A Proof-of-Principle Study [11.452011929848844]
本研究では,マルチタスク最適化を支援するメタサロゲートフレームワークを提案する。問題群に適合するメタデータを持つ普遍モデルを定義することにより、多タスクフィットネス予測のための統一的なフレームワークを定式化する。我々のフレームワークは、双対レベルの知識伝達 -- 代理レベルと個別レベルの両方 -- をサポートし、最適化の効率性と堅牢性を高めます。
論文参考訳（メタデータ） (2025-03-11T11:13:11Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
Revisiting Weight Averaging for Model Merging [16.503826062785773]
モデルマージは、個別に調整されたモデルのパラメータを追加のトレーニングなしで組み合わせることで、マルチタスク学習者を構築することを目的としている。ウェイト平均化は、ウェイト平均化自身を中心としたタスクベクトルを暗黙的に誘導する。これらの中心となるタスクベクトルに低ランク近似を適用することにより、マージ性能が大幅に向上する。
論文参考訳（メタデータ） (2024-12-11T06:29:20Z)
Benchmarking General-Purpose In-Context Learning [19.40952728849431]
In-context Learning (ICL) は、生成モデルに新しいタスクを効果的に、かつ効率的にオンザフライで対処する権限を与える。本稿では,より広い範囲の課題に対処するためのICLの拡張について検討する。 GPICLの機能のトレーニングと評価に特化して開発されたベンチマークを2つ導入する。
論文参考訳（メタデータ） (2024-05-27T14:50:42Z)
A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-15T00:03:16Z)
InterroGate: Learning to Share, Specialize, and Prune Representations for Multi-task Learning [17.66308231838553]
推論計算効率を最適化しつつ,タスク干渉を緩和する新しいマルチタスク学習(MTL)アーキテクチャを提案する。学習可能なゲーティング機構を用いて、すべてのタスクのパフォーマンスを保ちながら、共有表現とタスク固有の表現を自動的にバランスさせる。
論文参考訳（メタデータ） (2024-02-26T18:59:52Z)
Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。 TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文参考訳（メタデータ） (2023-11-23T15:46:54Z)
Exposing and Addressing Cross-Task Inconsistency in Unified Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文参考訳（メタデータ） (2023-03-28T16:57:12Z)
SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文参考訳（メタデータ） (2022-03-14T04:26:40Z)
Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文参考訳（メタデータ） (2020-05-02T09:39:36Z)
Task-Feature Collaborative Learning with Application to Personalized Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文参考訳（メタデータ） (2020-04-29T02:32:04Z)
CALM: Continuous Adaptive Learning for Language Modeling [18.72860206714457]
自然言語処理コミュニティでは,大規模言語表現モデルのトレーニングが標準となっている。これらの事前学習モデルが破滅的忘れという形で性能劣化を示すことを示す。言語モデリングのための継続的適応学習CALM:複数のドメインにまたがる知識を保持するモデルをレンダリングする手法を提案する。
論文参考訳（メタデータ） (2020-04-08T03:51:17Z)
Modelling Latent Skills for Multitask Language Generation [15.126163032403811]
マルチタスク条件言語生成のための生成モデルを提案する。我々の指導的仮説は、共通の潜在スキルの集合が、多くの異なる言語生成タスクの根底にあるというものである。このタスク埋め込み空間を潜在変数列列列モデルにおける潜在変数としてインスタンス化する。
論文参考訳（メタデータ） (2020-02-21T20:39:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。