Fugu-MT 論文翻訳(概要): Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

論文の概要: Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

arxiv url: http://arxiv.org/abs/2504.21117v1
Date: Tue, 29 Apr 2025 18:56:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 23:39:24.671504
Title: Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts
Title（参考訳）: 1サイズ以上:高能率NLG評価用インバージョンラーニング
Authors: Hanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin,
Abstract要約: モデル出力から入力命令への効果的な逆写像を学習する逆学習法を提案する。本手法では,1つの評価サンプルしか必要とせず,時間を要する手動プロンプトエンジニアリングを不要にする。
参考スコア（独自算出の注目度）: 19.880087623382384
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Evaluating natural language generation (NLG) systems is challenging due to the diversity of valid outputs. While human evaluation is the gold standard, it suffers from inconsistencies, lack of standardisation, and demographic biases, limiting reproducibility. LLM-based evaluation offers a scalable alternative but is highly sensitive to prompt design, where small variations can lead to significant discrepancies. In this work, we propose an inversion learning method that learns effective reverse mappings from model outputs back to their input instructions, enabling the automatic generation of highly effective, model-specific evaluation prompts. Our method requires only a single evaluation sample and eliminates the need for time-consuming manual prompt engineering, thereby improving both efficiency and robustness. Our work contributes toward a new direction for more robust and efficient LLM-based evaluation.
Abstract（参考訳）: 自然言語生成システム(NLG)の評価は,有効出力の多様性のため困難である。人間の評価は金の基準であるが、不整合、標準化の欠如、人口統計バイアスに悩まされており、再現性が制限されている。 LLMに基づく評価は、スケーラブルな代替手段を提供するが、小さなバリエーションが大きな相違をもたらす可能性のある、迅速な設計に非常に敏感である。本研究では、モデル出力から入力命令への効果的な逆マッピングを学習し、高効率なモデル固有評価プロンプトの自動生成を可能にする逆学習手法を提案する。提案手法では,1つの評価サンプルのみが必要であり,時間を要する手動プロンプトエンジニアリングの必要性を排除し,効率と堅牢性を両立させる。我々の研究は、より堅牢で効率的なLCMに基づく評価のための新しい方向性に寄与する。

関連論文リスト

InFerActive: Towards Scalable Human Evaluation of Large Language Models through Interactive Inference [14.903507875179033]
InFerActiveは、スケーラブルな人体評価のための対話型推論システムである。 InFerActiveは評価効率を大幅に改善し、モデル行動のより包括的な評価を可能にすることを実証する。
論文参考訳（メタデータ） (2025-12-11T02:41:14Z)
The LLM Already Knows: Estimating LLM-Perceived Question Difficulty via Hidden Representations [33.65540900920885]
大規模言語モデル(LLM)によって知覚される入力質問の難しさを推定することは、正確な性能評価と適応推論に不可欠である。本稿では,LLMが生成する隠れ表現のみを利用する難易度推定手法を提案する。
論文参考訳（メタデータ） (2025-09-16T09:38:41Z)
Teach2Eval: An Indirect Evaluation Method for LLM by Judging How It Teaches [46.0474342507327]
Feynman Techniqueにインスパイアされた間接評価フレームワークであるTeach2Evalを紹介する。本手法は、より弱い学生モデルにタスクを効果的に実行させるためのモデルの複数の能力を評価する。
論文参考訳（メタデータ） (2025-05-18T06:51:10Z)
Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文参考訳（メタデータ） (2025-04-01T09:36:56Z)
Maximizing Signal in Human-Model Preference Alignment [0.0]
本稿では、エンドユーザーがMLモデルによる決定に同意する必要がある場合、モデルが好みを表すデータに基づいて訓練され、評価されるべきである、と論じる。評価手法のベストプラクティスに固執することで,ラベル付け不一致のノイズを最小限に抑えることができることを示す。
論文参考訳（メタデータ） (2025-03-06T19:10:57Z)
HPSS: Heuristic Prompting Strategy Search for LLM Evaluators [81.09765876000208]
我々はHuristic Prompting Strategy Search (HPSS)と呼ばれる新しい自動プロンプト戦略最適化手法を提案する。遺伝的アルゴリズムにインスパイアされ、HPSSは反復探索を行い、評価者に対する適切な手順を見つける。 4つの評価課題にわたる大規模な実験により,HPSSの有効性が示された。
論文参考訳（メタデータ） (2025-02-18T16:46:47Z)
Auto-Prompt Generation is Not Robust: Prompt Optimization Driven by Pseudo Gradient [50.15090865963094]
PertBenchは、幅広い入力摂動を含む包括的なベンチマークデータセットである。我々の分析は、既存の即時生成戦略における重大な脆弱性を明らかにしている。 PGOは、摂動型を擬似次数次信号として活用する、勾配のないプロンプト生成フレームワークである。
論文参考訳（メタデータ） (2024-12-24T06:05:08Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
Closing the Loop: Learning to Generate Writing Feedback via Language Model Simulated Student Revisions [6.216542656489173]
本稿では,LM シミュレーションによる学生のリビジョンの学習を通じてフィードバックを生成できる ProF を提案する。本稿では,PROFの有効性を実証的に検証し,本手法が学生の筆跡改善に有効であることを示す。
論文参考訳（メタデータ） (2024-10-10T15:52:48Z)
Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning [27.991291785091736]
本研究は、不要なデータの影響を取り除くことを目的として、大規模言語モデル(LLM)アンラーニングの問題を研究する。未学習の需要が増えているにもかかわらず、技術的に地平線を画した最適化フレームワークは欠如している。我々はSimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し、参照モデルへの依存をなくすことによる「単純さ」がアンラーニングの恩恵をもたらすことを示した。
論文参考訳（メタデータ） (2024-10-09T17:58:12Z)
Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文参考訳（メタデータ） (2024-08-20T09:42:26Z)
Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。 BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文参考訳（メタデータ） (2024-08-17T16:01:45Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [38.822535662755314]
大規模言語モデル(LLM)のためのサンプル効率のよい人的評価手法を提案する。提案手法は,LLM応答のペア間のセマンティックな差異を最大化する,コンパクトな入力命令セットを自動的に適応的に選択する。人間の評価者は、これらのペア化された反応に対して3つの代替的な選択を行い、エロ評価を用いてグローバルなランキングに集約される。
論文参考訳（メタデータ） (2024-04-10T01:26:24Z)
How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文参考訳（メタデータ） (2024-02-16T15:48:33Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-02T04:29:40Z)
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。本稿では,この新技術について概観する。
論文参考訳（メタデータ） (2023-08-06T18:38:52Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。