論文の概要: Ranger: A Toolkit for Effect-Size Based Multi-Task Evaluation
- arxiv url: http://arxiv.org/abs/2305.15048v1
- Date: Wed, 24 May 2023 11:38:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:26:17.230037
- Title: Ranger: A Toolkit for Effect-Size Based Multi-Task Evaluation
- Title(参考訳): Ranger:エフェクトサイズに基づくマルチタスク評価ツールキット
- Authors: Mete Sertkan, Sophia Althammer and Sebastian Hofst\"atter
- Abstract要約: Rangerは、NLPおよびIRにおけるマルチタスク評価のためのエフェクトサイズに基づくメタ分析の容易な利用を容易にするツールキットである。
利用可能なRangeツールキットの目標は、ロバストでエフェクトをベースとした評価を促進し、コミュニティにおける評価基準を改善することです。
- 参考スコア(独自算出の注目度): 0.8250374560598494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Ranger - a toolkit to facilitate the easy use of
effect-size-based meta-analysis for multi-task evaluation in NLP and IR. We
observed that our communities often face the challenge of aggregating results
over incomparable metrics and scenarios, which makes conclusions and take-away
messages less reliable. With Ranger, we aim to address this issue by providing
a task-agnostic toolkit that combines the effect of a treatment on multiple
tasks into one statistical evaluation, allowing for comparison of metrics and
computation of an overall summary effect. Our toolkit produces
publication-ready forest plots that enable clear communication of evaluation
results over multiple tasks. Our goal with the ready-to-use Ranger toolkit is
to promote robust, effect-size-based evaluation and improve evaluation
standards in the community. We provide two case studies for common IR and NLP
settings to highlight Ranger's benefits.
- Abstract(参考訳): 本稿では,nlpとirにおけるマルチタスク評価のための効果サイズに基づくメタアナリシスを簡易に利用するためのツールキット ranger を提案する。
私たちはコミュニティがしばしば、比較不可能なメトリクスやシナリオよりも結果を集約するという課題に直面しているのを観察しました。
Rangerでは、複数のタスクに対する処理の効果を1つの統計的評価に組み合わせ、メトリクスの比較と全体的な要約効果の計算を可能にするタスク非依存ツールキットを提供することにより、この問題に対処することを目指している。
本ツールキットは,複数のタスクに対する評価結果を明確化するための,公開可能な森林プロットを生成する。
ready-to-use ranger toolkitの目標は、堅牢で効果量ベースの評価を促進し、コミュニティにおける評価基準を改善することです。
我々は、rangerの利点を強調するために、共通ir設定とnlp設定の2つのケーススタディを提供する。
関連論文リスト
- MARIO Eval: Evaluate Your Math LLM with your Math LLM--A mathematical dataset evaluation toolkit [4.957099360745168]
大規模言語モデル (LLM) は数学的問題の解法を含む様々な推論タスクにおいて研究されている。
我々は,ピソン型計算機代数システム(CAS)をその数値精度に活用するだけでなく,オプションのLCMも組み込んだ総合的な数学的評価ツールキットを提案する。
論文 参考訳(メタデータ) (2024-04-22T07:03:44Z) - Learning to Use Tools via Cooperative and Interactive Agents [61.662788490607475]
ツール学習は、大きな言語モデル(LLM)をエージェントとして、その能力を拡張するために外部ツールを使用する権限を与える。
既存の手法では、1つのLCMベースのエージェントを使用してツールを反復的に選択し実行し、その結果を次のアクション予測に組み込む。
本研究では,協調型対話型エージェントフレームワークであるConAgentsを提案し,ツール学習のワークフローをグラウンディング,実行,監視エージェントにモジュール化する。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - T-Eval: Evaluating the Tool Utilization Capability of Large Language
Models Step by Step [69.64348626180623]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。
LLMのツール活用能力の評価と分析方法はまだ未検討である。
ツール利用能力を段階的に評価するためにT-Evalを導入する。
論文 参考訳(メタデータ) (2023-12-21T17:02:06Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - GEAR: Augmenting Language Models with Generalizable and Efficient Tool
Resolution [18.633918831942434]
外部ツールを使用するために大きな言語モデル(LLM)を拡張することで、さまざまなタスクにおけるパフォーマンスが向上する。
本稿では,ツールの使用を必要とする様々なタスクに一般化可能なクエリツールグラウンドアルゴリズムであるGEARを紹介する。
論文 参考訳(メタデータ) (2023-07-17T18:42:05Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Composite Learning for Robust and Effective Dense Predictions [81.2055761433725]
マルチタスク学習は、目標タスクを補助タスクと協調的に最適化することで、より優れたモデル一般化を約束する。
自己監督型(補助的)タスクと密接な予測(目標)タスクを共同でトレーニングすることで、目標タスクの性能を継続的に向上し、補助タスクのラベル付けの必要性を排除できることが判明した。
論文 参考訳(メタデータ) (2022-10-13T17:59:16Z) - Value Function Decomposition for Iterative Design of Reinforcement
Learning Agents [0.0]
本稿では,値分解をアクター批判アルゴリズムの幅広いクラスに統合する方法を示す。
価値分解は報酬関数を異なるコンポーネントに分離し、それぞれの値の見積もりを学習する。
これらの価値見積は、エージェントの学習と意思決定プロセスに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-06-24T18:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。