Fugu-MT 論文翻訳(概要): Ranger: A Toolkit for Effect-Size Based Multi-Task Evaluation

論文の概要: Ranger: A Toolkit for Effect-Size Based Multi-Task Evaluation

arxiv url: http://arxiv.org/abs/2305.15048v1
Date: Wed, 24 May 2023 11:38:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 16:26:17.230037
Title: Ranger: A Toolkit for Effect-Size Based Multi-Task Evaluation
Title（参考訳）: Ranger:エフェクトサイズに基づくマルチタスク評価ツールキット
Authors: Mete Sertkan, Sophia Althammer and Sebastian Hofst\"atter
Abstract要約: Rangerは、NLPおよびIRにおけるマルチタスク評価のためのエフェクトサイズに基づくメタ分析の容易な利用を容易にするツールキットである。利用可能なRangeツールキットの目標は、ロバストでエフェクトをベースとした評価を促進し、コミュニティにおける評価基準を改善することです。
参考スコア（独自算出の注目度）: 0.8250374560598494
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce Ranger - a toolkit to facilitate the easy use of effect-size-based meta-analysis for multi-task evaluation in NLP and IR. We observed that our communities often face the challenge of aggregating results over incomparable metrics and scenarios, which makes conclusions and take-away messages less reliable. With Ranger, we aim to address this issue by providing a task-agnostic toolkit that combines the effect of a treatment on multiple tasks into one statistical evaluation, allowing for comparison of metrics and computation of an overall summary effect. Our toolkit produces publication-ready forest plots that enable clear communication of evaluation results over multiple tasks. Our goal with the ready-to-use Ranger toolkit is to promote robust, effect-size-based evaluation and improve evaluation standards in the community. We provide two case studies for common IR and NLP settings to highlight Ranger's benefits.
Abstract（参考訳）: 本稿では,nlpとirにおけるマルチタスク評価のための効果サイズに基づくメタアナリシスを簡易に利用するためのツールキット ranger を提案する。私たちはコミュニティがしばしば、比較不可能なメトリクスやシナリオよりも結果を集約するという課題に直面しているのを観察しました。 Rangerでは、複数のタスクに対する処理の効果を1つの統計的評価に組み合わせ、メトリクスの比較と全体的な要約効果の計算を可能にするタスク非依存ツールキットを提供することにより、この問題に対処することを目指している。本ツールキットは,複数のタスクに対する評価結果を明確化するための,公開可能な森林プロットを生成する。 ready-to-use ranger toolkitの目標は、堅牢で効果量ベースの評価を促進し、コミュニティにおける評価基準を改善することです。我々は、rangerの利点を強調するために、共通ir設定とnlp設定の2つのケーススタディを提供する。

関連論文リスト

CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios [30.20881816731553]
大規模な言語モデルが外部ツールを利用する能力により、ますます多様なタスクに対処できるようになった。タスクがより複雑で長期的になると、複雑なツール利用プロセスが様々な予期せぬエラーを引き起こす可能性がある。このようなエラーの特定、診断、回復など、効果的に対処する方法が、ツール学習を進める上で重要な研究方向として現れている。
論文参考訳（メタデータ） (2025-06-11T17:59:18Z)
Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文参考訳（メタデータ） (2025-04-21T05:40:05Z)
ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-04-16T21:45:32Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
Reducing Tool Hallucination via Reliability Alignment [31.761771794788462]
大きな言語モデル(LLM)は、言語生成を超えて、外部ツールと対話し、自動化と現実世界のアプリケーションを可能にする機能を拡張した。モデルが不適切なツールを選択するか、それらを誤用するツール幻覚は、誤ったタスクの実行、計算コストの増大、システムの信頼性の低下につながる重要な課題を引き起こす。 RelyToolBenchを導入し、特殊なテストケースと新しいメトリクスを統合し、幻覚を意識したタスクの成功と効率を評価する。最後に、信頼性アライメントフレームワークであるRelignを提案する。このフレームワークは、ツール使用のアクション空間を拡張して、不決定なアクションを含むようにし、LCMがツールの使用を遅らせたり、明確化を求めたり、ツールの選択を調整することを可能にする。
論文参考訳（メタデータ） (2024-12-05T13:10:54Z)
From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions [60.733557487886635]
本稿では,大規模言語モデルと外部ツールとの包括的ギャップを埋めることに焦点を当てる。ツール文書の動的精錬を目的とした新しいフレームワーク DRAFT を提案する。複数のデータセットに対する大規模な実験は、DRAFTの反復的なフィードバックベースの改善がドキュメントの品質を大幅に改善することを示している。
論文参考訳（メタデータ） (2024-10-10T17:58:44Z)
CITI: Enhancing Tool Utilizing Ability in Large Language Models without Sacrificing General Performance [17.723293304671877]
コンポーネントベースツール活用能力注入法(CITI)を提案する。異なるコンポーネントの勾配に基づく重要度スコアによると、CITIは微調整プロセスによって生じる能力衝突を軽減する。実験結果から,本手法は様々な評価指標において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-09-20T04:06:28Z)
ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities [30.030101957186595]
ToolSandboxは、大規模言語モデル(LLM)の評価フレームワークである。 ToolSandboxには、ステートフルなツール実行、ツール間の暗黙のステート依存性、オン・ポリケーションの会話評価をサポートする組み込みユーザシミュレータが含まれている。オープンソースとプロプライエタリなモデルには大きなパフォーマンスギャップがあることを示し、ToolSandboxで定義された状態依存、正準化、不十分な情報といった複雑なタスクは、最も有能なSOTA LLMでさえも挑戦している。
論文参考訳（メタデータ） (2024-08-08T05:45:42Z)
Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval [47.81307125613145]
Re-Invokeは、トレーニングなしで大規模ツールセットに効果的にスケールするために設計された教師なしツール検索手法である。我々は、クエリ毎に最も関連性の高いツールを特定するために、意図に基づいて、新しいマルチビュー類似度ランキング戦略を採用する。評価の結果、Re-Invokeはシングルツールとマルチツールの両方のシナリオにおいて、最先端の代替よりも大幅に優れていた。
論文参考訳（メタデータ） (2024-08-03T22:49:27Z)
T-Eval: Evaluating the Tool Utilization Capability of Large Language Models Step by Step [69.64348626180623]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。 LLMのツール活用能力の評価と分析方法はまだ未検討である。ツール利用能力を段階的に評価するためにT-Evalを導入する。
論文参考訳（メタデータ） (2023-12-21T17:02:06Z)
Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文参考訳（メタデータ） (2023-10-02T09:47:40Z)
MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。 LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。 LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文参考訳（メタデータ） (2023-09-19T15:25:42Z)
ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。 ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文参考訳（メタデータ） (2023-01-30T02:27:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。