Fugu-MT 論文翻訳(概要): LLMCRIT: Teaching Large Language Models to Use Criteria

論文の概要: LLMCRIT: Teaching Large Language Models to Use Criteria

arxiv url: http://arxiv.org/abs/2403.01069v1
Date: Sat, 2 Mar 2024 02:25:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 15:29:34.469730
Title: LLMCRIT: Teaching Large Language Models to Use Criteria
Title（参考訳）: llmcrit: 大きな言語モデルに基準の使用を教える
Authors: Weizhe Yuan and Pengfei Liu and Matthias Gall\'e
Abstract要約: 本稿では,大規模言語モデル (LLM) がタスク実行に対する自然言語フィードバックの提供において,タスクの包括的基準を利用できるフレームワークを提案する。特に,各基準に対する異なる記述タスクのガイドラインとコンテクスト内デモの構成から,半自動で基準を導出するモデル・イン・ザ・ループ・フレームワークを提案する。その結果, 基準と実演を取り入れることによるきめ細かい効果を明らかにし, 基準をより効果的に活用するためのLLMの教え方に関する貴重な知見を提供することができた。
参考スコア（独自算出の注目度）: 43.52703984193145
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Humans follow criteria when they execute tasks, and these criteria are directly used to assess the quality of task completion. Therefore, having models learn to use criteria to provide feedback can help humans or models to perform tasks better. However, existing research in this field tends to consider only a limited set of criteria or quality assessment aspects. To fill this gap, we propose a general framework that enables large language models (LLMs) to use comprehensive criteria for a task in delivering natural language feedback on task execution. In particular, we present a model-in-the-loop framework that semi-automatically derives criteria from collected guidelines for different writing tasks and constructs in-context demonstrations for each criterion. We choose three tasks from real-world scenarios to operationalize this idea: paper introduction writing, Python code writing, and Reddit post writing, and evaluate our feedback generation framework using different LLMs. The results reveal the fine-grained effects of incorporating criteria and demonstrations and provide valuable insights on how to teach LLMs to use criteria more effectively.
Abstract（参考訳）: 人間はタスクの実行時に基準に従い、これらの基準はタスク完了の質を評価するために直接使用される。したがって、モデルにフィードバックを提供するための基準を学習させることは、人間やモデルがタスクをより良く実行するのに役立つ。しかしながら、この分野の既存の研究は、限られた基準や品質評価の側面のみを考慮しがちである。このギャップを埋めるために,大規模言語モデル (LLM) がタスク実行に対する自然言語フィードバックの提供において,タスクの包括的基準を利用できるような汎用フレームワークを提案する。特に,各基準に対する異なる記述タスクのガイドラインとコンテクスト内デモの構成から,半自動で基準を導出するモデル・イン・ザ・ループ・フレームワークを提案する。私たちは、実世界のシナリオから3つのタスクを選択して、このアイデアを運用します。ペーパー入門ライティング、pythonコードライティング、reddit投稿ライティングです。その結果, 基準と実演を取り入れることによるきめ細かい効果を明らかにし, 基準をより効果的に活用するためのLLMの教え方に関する貴重な知見を提供することができた。

関連論文リスト

MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
EvalAgent: Discovering Implicit Evaluation Criteria from the Web [82.82096383262068]
EvalAgentは、ニュアンスとタスク固有の基準を自動的に発見するように設計されたフレームワークである。 EvalAgentは、さまざまな長期評価基準を提案するために、専門家が作成したオンラインガイダンスをマイニングしている。我々の実験では、EvalAgentが生み出す基準は暗黙的だが具体的であることが示されている。
論文参考訳（メタデータ） (2025-04-21T16:43:50Z)
Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models [42.62148712511799]
視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて印象的な能力を示している。 VLMによって生成されたテキストの品質を評価するための既存のメトリクスは、通常、特定のタスクに対する全体的な評価に焦点を当てる。本稿では,ボトムアップ方式でスコアを生成するために,基準値のスコアを集約する総合評価指標であるHarmonicEvalを提案する。
論文参考訳（メタデータ） (2024-12-19T08:03:16Z)
Large Language Models Are Active Critics in NLG Evaluation [9.932334723464129]
Active-Criticは、大きな言語モデル(LLM)を「アクティブな批評家」に変換する新しい評価器である実験の結果,Active-Criticは文脈認識評価基準を生成できることがわかった。
論文参考訳（メタデータ） (2024-10-14T17:04:41Z)
Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。 InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。また,LLM支援型評価器であるInsEvalを提案する。
論文参考訳（メタデータ） (2024-10-01T09:10:00Z)
Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries [33.39343288446156]
本稿では,人間に解釈可能な,特定のスキルやトピックに対するモデル行動の自然言語要約であるレポートカードを提案する。本研究は,3つの基準に基づいてレポートカードの評価を行う枠組みを開発する。特異性(モデル区別能力),忠実性(モデル能力の正確な表現),解釈可能性(人間への明瞭さと妥当性)である。
論文参考訳（メタデータ） (2024-09-01T21:18:14Z)
TALEC: Teach Your LLM to Evaluate in Specific Domain with In-house Criteria by Criteria Division and Zero-shot Plus Few-shot [2.186726107112913]
本稿では,モデルに基づく評価手法 TALEC を提案する。ユーザは自分の評価基準を柔軟に設定でき、インコンテキストラーニング(ICL)を使って審査員にこれらの評価基準を教えることができる。 TALECは人間の嗜好を正確に反映する強力な能力を示し、人間の判断と80%以上の相関を達成している。
論文参考訳（メタデータ） (2024-06-25T10:02:42Z)
OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。 OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文参考訳（メタデータ） (2024-06-12T17:37:09Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences [11.23629471911503]
EvalGenは、評価基準の生成とアサーションの実装において、ユーザに自動アシストを提供する。質的研究は、EvalGenに対する全体的なサポートを見出すが、主観性と反復的なアライメントのプロセスを強調している。ユーザはアウトプットを格付けする基準が必要ですが、アウトプットのグレードは、ユーザが基準を定義するのに役立つのです。
論文参考訳（メタデータ） (2024-04-18T15:45:27Z)
Towards Generalist Prompting for Large Language Models by Mental Models [105.03747314550591]
大規模言語モデル(LLM)は多くのタスクにおいて素晴らしいパフォーマンスを示している。最適な性能を達成するには、特別に設計されたプロンプト法が必要である。本稿では,最適あるいは準最適性能を実現する設計原理に基づくジェネラリストプロンプトの概念を紹介する。
論文参考訳（メタデータ） (2024-02-28T11:29:09Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。 LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。