論文の概要: Ranger: A Toolkit for Effect-Size Based Multi-Task Evaluation
- arxiv url: http://arxiv.org/abs/2305.15048v1
- Date: Wed, 24 May 2023 11:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-05-25 16:26:17.230037
- Title: Ranger: A Toolkit for Effect-Size Based Multi-Task Evaluation
- Title(参考訳): Ranger:エフェクトサイズに基づくマルチタスク評価ツールキット
- Authors: Mete Sertkan, Sophia Althammer and Sebastian Hofst\"atter
- Abstract要約: Rangerは、NLPおよびIRにおけるマルチタスク評価のためのエフェクトサイズに基づくメタ分析の容易な利用を容易にするツールキットである。
利用可能なRangeツールキットの目標は、ロバストでエフェクトをベースとした評価を促進し、コミュニティにおける評価基準を改善することです。
- 参考スコア(独自算出の注目度): 0.8250374560598494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Ranger - a toolkit to facilitate the easy use of
effect-size-based meta-analysis for multi-task evaluation in NLP and IR. We
observed that our communities often face the challenge of aggregating results
over incomparable metrics and scenarios, which makes conclusions and take-away
messages less reliable. With Ranger, we aim to address this issue by providing
a task-agnostic toolkit that combines the effect of a treatment on multiple
tasks into one statistical evaluation, allowing for comparison of metrics and
computation of an overall summary effect. Our toolkit produces
publication-ready forest plots that enable clear communication of evaluation
results over multiple tasks. Our goal with the ready-to-use Ranger toolkit is
to promote robust, effect-size-based evaluation and improve evaluation
standards in the community. We provide two case studies for common IR and NLP
settings to highlight Ranger's benefits.
- Abstract(参考訳): 本稿では,nlpとirにおけるマルチタスク評価のための効果サイズに基づくメタアナリシスを簡易に利用するためのツールキット ranger を提案する。
私たちはコミュニティがしばしば、比較不可能なメトリクスやシナリオよりも結果を集約するという課題に直面しているのを観察しました。
Rangerでは、複数のタスクに対する処理の効果を1つの統計的評価に組み合わせ、メトリクスの比較と全体的な要約効果の計算を可能にするタスク非依存ツールキットを提供することにより、この問題に対処することを目指している。
本ツールキットは,複数のタスクに対する評価結果を明確化するための,公開可能な森林プロットを生成する。
ready-to-use ranger toolkitの目標は、堅牢で効果量ベースの評価を促進し、コミュニティにおける評価基準を改善することです。
我々は、rangerの利点を強調するために、共通ir設定とnlp設定の2つのケーススタディを提供する。
関連論文リスト
- ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。
近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。
本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-04-16T21:45:32Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Reducing Tool Hallucination via Reliability Alignment [31.761771794788462]
大きな言語モデル(LLM)は、言語生成を超えて、外部ツールと対話し、自動化と現実世界のアプリケーションを可能にする機能を拡張した。
モデルが不適切なツールを選択するか、それらを誤用するツール幻覚は、誤ったタスクの実行、計算コストの増大、システムの信頼性の低下につながる重要な課題を引き起こす。
RelyToolBenchを導入し、特殊なテストケースと新しいメトリクスを統合し、幻覚を意識したタスクの成功と効率を評価する。
最後に、信頼性アライメントフレームワークであるRelignを提案する。このフレームワークは、ツール使用のアクション空間を拡張して、不決定なアクションを含むようにし、LCMがツールの使用を遅らせたり、明確化を求めたり、ツールの選択を調整することを可能にする。
論文 参考訳(メタデータ) (2024-12-05T13:10:54Z) - From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions [60.733557487886635]
本稿では,大規模言語モデルと外部ツールとの包括的ギャップを埋めることに焦点を当てる。
ツール文書の動的精錬を目的とした新しいフレームワーク DRAFT を提案する。
複数のデータセットに対する大規模な実験は、DRAFTの反復的なフィードバックベースの改善がドキュメントの品質を大幅に改善することを示している。
論文 参考訳(メタデータ) (2024-10-10T17:58:44Z) - CITI: Enhancing Tool Utilizing Ability in Large Language Models without Sacrificing General Performance [17.723293304671877]
コンポーネントベースツール活用能力注入法(CITI)を提案する。
異なるコンポーネントの勾配に基づく重要度スコアによると、CITIは微調整プロセスによって生じる能力衝突を軽減する。
実験結果から,本手法は様々な評価指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-20T04:06:28Z) - ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities [30.030101957186595]
ToolSandboxは、大規模言語モデル(LLM)の評価フレームワークである。
ToolSandboxには、ステートフルなツール実行、ツール間の暗黙のステート依存性、オン・ポリケーションの会話評価をサポートする組み込みユーザシミュレータが含まれている。
オープンソースとプロプライエタリなモデルには大きなパフォーマンスギャップがあることを示し、ToolSandboxで定義された状態依存、正準化、不十分な情報といった複雑なタスクは、最も有能なSOTA LLMでさえも挑戦している。
論文 参考訳(メタデータ) (2024-08-08T05:45:42Z) - Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval [47.81307125613145]
Re-Invokeは、トレーニングなしで大規模ツールセットに効果的にスケールするために設計された教師なしツール検索手法である。
我々は、クエリ毎に最も関連性の高いツールを特定するために、意図に基づいて、新しいマルチビュー類似度ランキング戦略を採用する。
評価の結果、Re-Invokeはシングルツールとマルチツールの両方のシナリオにおいて、最先端の代替よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-08-03T22:49:27Z) - T-Eval: Evaluating the Tool Utilization Capability of Large Language
Models Step by Step [69.64348626180623]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。
LLMのツール活用能力の評価と分析方法はまだ未検討である。
ツール利用能力を段階的に評価するためにT-Evalを導入する。
論文 参考訳(メタデータ) (2023-12-21T17:02:06Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。