Fugu-MT 論文翻訳(概要): MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback

論文の概要: MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback

arxiv url: http://arxiv.org/abs/2309.10691v3
Date: Tue, 12 Mar 2024 15:53:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 01:44:46.668611
Title: MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback
Title（参考訳）: MINT: ツールと言語フィードバックとのマルチターンインタラクションにおけるLLMの評価
Authors: Xingyao Wang, Zihan Wang, Jiateng Liu, Yangyi Chen, Lifan Yuan, Hao Peng, Heng Ji
Abstract要約: 我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。 LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。 LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
参考スコア（独自算出の注目度）: 78.60644407028022
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To solve complex tasks, large language models (LLMs) often require multiple rounds of interactions with the user, sometimes assisted by external tools. However, current evaluation protocols often emphasize benchmark performance with single-turn exchanges, neglecting the nuanced interactions among the user, LLMs, and external tools, while also underestimating the importance of natural language feedback from users. These oversights contribute to discrepancies between research benchmark evaluations and real-world use cases. We introduce MINT, a benchmark that evaluates LLMs' ability to solve tasks with multi-turn interactions by (1) using tools and (2) leveraging natural language feedback. To ensure reproducibility, we provide an evaluation framework where LLMs can access tools by executing Python code and receive users' natural language feedback simulated by GPT-4. We repurpose a diverse set of established evaluation datasets focusing on reasoning, coding, and decision-making and carefully curate them into a compact subset for efficient evaluation. Our analysis of 20 open- and closed-source LLMs offers intriguing findings. (a) LLMs generally benefit from tools and language feedback, with performance gains (absolute, same below) of 1-8% for each turn of tool use and 2-17% with natural language feedback. (b) Better single-turn performance does not guarantee better multi-turn performance. (c) Surprisingly, on the LLMs evaluated, supervised instruction-finetuning (SIFT) and reinforcement learning from human feedback (RLHF) generally hurt multi-turn capabilities. We expect MINT can help measure progress and incentivize research in improving LLMs' capabilities in multi-turn interactions, especially for open-source communities where multi-turn human evaluation can be less accessible compared to commercial LLMs with a larger user base.
Abstract（参考訳）: 複雑なタスクを解決するために、大規模な言語モデル(llm)は、しばしばユーザとの対話の複数のラウンドを必要とする。しかしながら、現在の評価プロトコルは、ユーザ、LLM、外部ツール間のあいまいな相互作用を無視しながら、シングルターン交換によるベンチマーク性能を強調し、また、ユーザからの自然言語フィードバックの重要性を過小評価する。これらの監視は、研究ベンチマーク評価と実世界のユースケースの相違に寄与する。 MINTは,(1)ツールと(2)自然言語フィードバックの活用による多ターンインタラクションによるタスク解決能力の評価を行うベンチマークである。再現性を確保するため,LLMはPythonコードを実行し,GPT-4でシミュレートされたユーザの自然言語フィードバックを受け取ることで,ツールにアクセス可能な評価フレームワークを提供する。我々は、推論、コーディング、意思決定に焦点をあてた様々な確立された評価データセットを再利用し、効率的な評価のためにそれらをコンパクトなサブセットに注意深くキュレーションする。 20のオープンソースおよびクローズドソース LLM の解析は興味深い結果をもたらす。 (a) LLMは一般的に、ツールと言語からのフィードバックの恩恵を受けており、ツールの使用ごとにパフォーマンスが1～8%、自然言語によるフィードバックが2～17%向上しています。 (b)シングルターン性能の向上は、マルチターン性能の向上を保証しない。 (c)LLMの評価では、教師あり指導ファインタニング(SIFT)と人間フィードバックからの強化学習(RLHF)が多ターン能力に悪影響を及ぼすことが多かった。我々は、MINTが、マルチターンインタラクションにおけるLCMの能力向上の研究、特にマルチターンヒューマン評価がより少ないオープンソースコミュニティの進歩を計測し、インセンティブを高めることができると期待している。

関連論文リスト

IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback [33.532239489610056]
FB-Benchは、中国語の実際の使用シナリオ下での人間のフィードバックに対する大規模言語モデルの応答性を評価するために設計されたベンチマークである。我々は,多種多様なLLMを広範囲に評価し,異なる相互作用シナリオにおける性能の顕著な変動を明らかにした。我々の研究結果は、現在のモデルの強みと限界の両方を強調し、将来の研究に価値ある洞察と方向性を提供する。
論文参考訳（メタデータ） (2024-10-12T07:40:01Z)
Learning to Ask: When LLMs Meet Unclear Instruction [49.256630152684764]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文参考訳（メタデータ） (2024-04-23T08:24:43Z)
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
論文参考訳（メタデータ） (2024-01-30T07:03:32Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)
Parrot: Enhancing Multi-Turn Instruction Following for Large Language Models [79.32652077838046]
大規模言語モデル(LLM)のためのマルチターン命令の強化を目的としたソリューションであるParrotを紹介する。まず,アナフォラやエリプシスなどの人間的なクエリを特徴とするマルチターン命令を効率よく,効率的に収集する手法を提案する。第2に,マルチターンインタラクションにおける複雑なクエリに対するLLMをさらに強化する,コンテキスト対応の選好最適化手法を提案する。
論文参考訳（メタデータ） (2023-10-11T08:36:43Z)
Through the Lens of Core Competency: Survey on Evaluation of Large Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。 LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文参考訳（メタデータ） (2023-08-15T17:40:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。