Fugu-MT 論文翻訳(概要): ReFeR: Improving Evaluation and Reasoning through Hierarchy of Models

論文の概要: ReFeR: Improving Evaluation and Reasoning through Hierarchy of Models

arxiv url: http://arxiv.org/abs/2407.12877v2
Date: Wed, 9 Oct 2024 17:51:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 20:25:29.566666
Title: ReFeR: Improving Evaluation and Reasoning through Hierarchy of Models
Title（参考訳）: ReFeR: 階層モデルによる評価と推論の改善
Authors: Yaswanth Narsupalli, Abhranil Chandra, Sreevatsa Muppirala, Manish Gupta, Pawan Goyal,
Abstract要約: テキストと画像の両方を含む生成出力を評価するために設計されたReFeRというチューニング不要のフレームワークを導入する。フレームワークであるReFeRを4つの多様な評価タスクで厳格に評価します。 4つの推論タスクの実験は、フレームワークのより優れた集団推論能力を示す。
参考スコア（独自算出の注目度）: 12.035509884945789
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Assessing the quality of outputs generated by generative models, such as large language models and vision language models, presents notable challenges. Traditional methods for evaluation typically rely on either human assessments, which are resource-intensive, or automatic metrics that often show a low correlation with human judgment. Another common approach is to use deep learning systems, which not only consume a substantial amount of compute and time but also require extensive training data. In this study, we introduce a tuning-free framework called ReFeR, designed to evaluate generative outputs, including both text and images, by leveraging a 2-level hierarchy of LLMs and VLMs themselves. We rigorously evaluate our framework, ReFeR, across four diverse evaluation tasks. The framework not only improves the accuracy of these evaluations, surpassing previous benchmarks but also generates constructive feedback. Interestingly, the framework is also applicable to reasoning tasks. Experiments on four reasoning tasks demonstrate superior collective reasoning abilities of the framework. We present two variants of the framework: ReFeR-Turbo, optimized for accelerated performance, and ReFeR-Lite, offering a more cost-effective solution. ReFeR-Lite is $\sim7.7\times$ more efficient while being comparably accurate to ReFeR-Turbo. We make code, data and PIP package publicly available. See this PIP URL https://pypi.org/project/refer-agents/ and this Git URL https://github.com/yaswanth-iitkgp/ReFeR_Code .
Abstract（参考訳）: 大規模言語モデルや視覚言語モデルなどの生成モデルによって生成されたアウトプットの品質を評価することは、顕著な課題である。従来の評価手法は、典型的には、資源集約的な人的評価や、人間の判断と相関の低い自動測定に頼っている。もうひとつの一般的なアプローチは、大量の計算と時間を消費するだけでなく、広範なトレーニングデータを必要とするディープラーニングシステムを使用することだ。本研究では,LLMとVLMの2レベル階層を利用して,テキストと画像の両方を含む生成出力を評価するためのReFeRというチューニングフリーフレームワークを提案する。フレームワークであるReFeRを4つの多様な評価タスクで厳格に評価します。このフレームワークは、これらの評価の精度を向上し、以前のベンチマークを上回るだけでなく、建設的なフィードバックも生成する。興味深いことに、このフレームワークは推論タスクにも適用できる。 4つの推論タスクの実験は、フレームワークのより優れた集団推論能力を示す。性能向上のために最適化されたReFeR-Turboと、よりコスト効率の良いソリューションを提供するReFeR-Liteの2つのバリエーションを提示する。 ReFeR-Liteは$\sim7.7\times$より効率的であり、ReFeR-Turboと同等に正確である。コード、データ、PIPパッケージを公開しています。 PIP URL https://pypi.org/project/refer-agents/ と Git URL https://github.com/yaswanth-iitkgp/ReFeR_Code をご覧ください。

関連論文リスト

When Retriever Meets Generator: A Joint Model for Code Comment Generation [3.6781644685120924]
RAGSumは、単一のCodeT5バックボーンを使用して、ヒューズ検索と生成の上に構築されている。対照的な事前学習フェーズは、最寄りの探索のためのコード埋め込みを形作る。最終出力を研磨するために、軽量な自己精製ループが配置される。
論文参考訳（メタデータ） (2025-07-16T18:12:27Z)
Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文参考訳（メタデータ） (2025-05-30T15:42:19Z)
Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文参考訳（メタデータ） (2025-05-30T14:34:57Z)
From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文参考訳（メタデータ） (2025-05-10T16:52:40Z)
REINFORCE++: An Efficient RLHF Algorithm with Robustness to Both Prompt and Reward Models [8.587685197004097]
REINFORCE++は、バッチの正規化報酬をベースラインとして使用しながら、批判モデルを削除する新しいアプローチである。プロンプトセットのトランケーションを必要とせずに、様々な報酬モデルに対して堅牢なパフォーマンスを示す。既存のREINFORCE法と比較して、RLHFとロングチェーン設定の両方において優れた一般化を実現している。
論文参考訳（メタデータ） (2025-01-04T02:08:06Z)
SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。 SFR-RAG(SFR-RAG)について述べる。また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文参考訳（メタデータ） (2024-09-16T01:08:18Z)
MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models [34.39053202801489]
現実世界のRAGシステムでは、現在のクエリは会話コンテキストからの音声楕円とあいまいな参照を含むことが多い。本稿では,検索プロセスと生成結果の両方からマルチアスペクトフィードバックを統合することにより,RAG性能を向上させる新しいクエリ書き換え手法MaFeRwを提案する。 2つの対話型RAGデータセットの実験結果から、MaFeRwはベースラインよりも優れた生成指標と安定したトレーニングを達成できることが示された。
論文参考訳（メタデータ） (2024-08-30T07:57:30Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction [10.428174043080622]
大規模言語モデルは現実世界のアプリケーションで顕著に使われ、しばしば大量の文書を推論する。本稿では,標準テストの限界に対処する評価フレームワークであるSWiMを提案する。また,この効果を緩和する,単純かつ効果的なトレーニングフリーアプローチであるメドイド投票を提案する。
論文参考訳（メタデータ） (2024-07-04T05:46:20Z)
LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文参考訳（メタデータ） (2024-06-29T17:16:04Z)
RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文参考訳（メタデータ） (2024-05-23T11:00:19Z)
Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文参考訳（メタデータ） (2024-02-18T03:40:06Z)
Leveraging Reinforcement Learning and Large Language Models for Code Optimization [14.602997316032706]
本稿では,コード最適化の複雑さを低減するための新しいフレームワークを提案する。提案するフレームワークは,大規模言語モデル(LLM)と強化学習(RL)に基づく。我々は,新しい強化学習アルゴリズムであるCodeT5言語モデルとRRHFを用いて,PIEデータセット上でいくつかの実験を行った。
論文参考訳（メタデータ） (2023-12-09T19:50:23Z)
Learning to Retrieve In-Context Examples for Large Language Models [69.9707552694766]
大規模言語モデル(LLM)は、文脈内で学習する能力を示している。文脈内学習の有効性は、選択した例の品質に大きく依存する。高品質なインコンテキストの例を識別可能な高密度検索を反復的に学習する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-14T05:23:08Z)
Building an Efficient and Effective Retrieval-based Dialogue System via Mutual Learning [27.04857039060308]
検索システムを構築するために,両世界の長所を組み合わせることを提案する。従来の機能ベースの事前検索モデルを置き換えるために、高速なバイエンコーダを使用します。我々は、相互学習を通じて、事前検索モデルと再評価モデルとを同時に訓練する。
論文参考訳（メタデータ） (2021-10-01T01:32:33Z)
Learning from Context or Names? An Empirical Study on Neural Relation Extraction [112.06614505580501]
テキストにおける2つの主要な情報ソースの効果について検討する:テキストコンテキストとエンティティ参照(名前) 本稿では,関係抽出のための実体型コントラスト事前学習フレームワーク(RE)を提案する。我々のフレームワークは、異なるREシナリオにおけるニューラルモデルの有効性と堅牢性を改善することができる。
論文参考訳（メタデータ） (2020-10-05T11:21:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。