Fugu-MT 論文翻訳(概要): AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning

論文の概要: AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning

arxiv url: http://arxiv.org/abs/2406.11200v3
Date: Thu, 31 Oct 2024 10:15:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.718147
Title: AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning
Title（参考訳）: AvaTaR:コントラスト推論によるツール使用のためのLLMエージェントの最適化
Authors: Shirley Wu, Shiyu Zhao, Qian Huang, Kexin Huang, Michihiro Yasunaga, Kaidi Cao, Vassilis N. Ioannidis, Karthik Subbian, Jure Leskovec, James Zou,
Abstract要約: 大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
参考スコア（独自算出の注目度）: 93.96463520716759
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language model (LLM) agents have demonstrated impressive capabilities in utilizing external tools and knowledge to boost accuracy and reduce hallucinations. However, developing prompting techniques that enable LLM agents to effectively use these tools and knowledge remains a heuristic and labor-intensive task. Here, we introduce AvaTaR, a novel and automated framework that optimizes an LLM agent to effectively leverage provided tools, improving performance on a given task. During optimization, we design a comparator module to iteratively deliver insightful and comprehensive prompts to the LLM agent by contrastively reasoning between positive and negative examples sampled from training data. We demonstrate AvaTaR on four complex multimodal retrieval datasets featuring textual, visual, and relational information, and three general question-answering (QA) datasets. We find AvaTaR consistently outperforms state-of-the-art approaches across all seven tasks, exhibiting strong generalization ability when applied to novel cases and achieving an average relative improvement of 14% on the Hit@1 metric for the retrieval datasets and 13% for the QA datasets. Code and dataset are available at https://github.com/zou-group/avatar.
Abstract（参考訳）: 大規模言語モデル(LLM)エージェントは、外部ツールと知識を活用して精度を高め、幻覚を減らすという印象的な能力を示した。しかし、LLMエージェントがこれらのツールや知識を効果的に活用できるようなプロンプト技術を開発することは、ヒューリスティックで労働集約的な課題である。本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。最適化中、トレーニングデータからサンプルした正と負の例を対照的に推算することにより、LLMエージェントにインサイトリーで包括的なプロンプトを反復的に提供するためのコンパレータモジュールを設計する。 AvaTaRは、テキスト、ビジュアル、リレーショナル情報を含む4つの複雑なマルチモーダル検索データセット、および3つの一般的な質問応答(QA)データセットで実証する。 AvaTaRは、7つのタスクにまたがる最先端のアプローチを一貫して上回り、新規事例に適用した場合の強力な一般化能力を示し、検索データセットのHit@1での平均相対的改善を14%、QAデータセットで13%達成している。コードとデータセットはhttps://github.com/zou-group/avatar.comから入手できる。

関連論文リスト

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文参考訳（メタデータ） (2026-01-22T12:02:45Z)
LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文参考訳（メタデータ） (2025-06-02T22:36:02Z)
LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。 In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文参考訳（メタデータ） (2025-04-21T11:11:07Z)
TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [46.20445033086643]
大規模言語モデル(LLM)は、外部環境と対話するツールを活用することで、目覚ましい進歩を遂げる。大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文参考訳（メタデータ） (2024-12-20T02:21:36Z)
Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [65.01625761120924]
我々は、貴重なサンプルはタスクを知らせ、非冗長であり、サンプル分布(つまり、外れ値ではない)を表すべきであると論じる。我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの100.8%を達成している。
論文参考訳（メタデータ） (2024-12-09T08:36:10Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models [28.67532617021655]
外部ツールやAPIと統合された大規模言語モデル(LLM)は、コンテキスト内学習や微調整によって複雑なタスクにうまく対応している。この進歩にもかかわらず、厳密な入力長制約のため、ツール検索の大規模化は依然として困難である。本稿では,大規模なツール検索(MTR)タスクとして,大規模リポジトリからの事前検索戦略を提案する。
論文参考訳（メタデータ） (2024-10-04T07:58:05Z)
Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文参考訳（メタデータ） (2024-07-29T17:04:34Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。 MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文参考訳（メタデータ） (2024-02-18T04:28:28Z)
SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。 SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文参考訳（メタデータ） (2023-10-01T17:59:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。