論文の概要: Through the Judge's Eyes: Inferred Thinking Traces Improve Reliability of LLM Raters
- arxiv url: http://arxiv.org/abs/2510.25860v1
- Date: Wed, 29 Oct 2025 18:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.528525
- Title: Through the Judge's Eyes: Inferred Thinking Traces Improve Reliability of LLM Raters
- Title(参考訳): 裁判官の目を通して: LLMレーダの信頼性を向上させる推論思考の痕跡
- Authors: Xingjian Zhang, Tianhong Gao, Suliang Jin, Tianhao Wang, Teng Ye, Eytan Adar, Qiaozhu Mei,
- Abstract要約: 思考の痕跡は非常に有意義ですが、収集とキュレートは困難です。
我々はラベルのみのアノテーションから思考トレースを推測する人間-LLM協調フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.692860590587184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used as raters for evaluation tasks. However, their reliability is often limited for subjective tasks, when human judgments involve subtle reasoning beyond annotation labels. Thinking traces, the reasoning behind a judgment, are highly informative but challenging to collect and curate. We present a human-LLM collaborative framework to infer thinking traces from label-only annotations. The proposed framework uses a simple and effective rejection sampling method to reconstruct these traces at scale. These inferred thinking traces are applied to two complementary tasks: (1) fine-tuning open LLM raters; and (2) synthesizing clearer annotation guidelines for proprietary LLM raters. Across multiple datasets, our methods lead to significantly improved LLM-human agreement. Additionally, the refined annotation guidelines increase agreement among different LLM models. These results suggest that LLMs can serve as practical proxies for otherwise unrevealed human thinking traces, enabling label-only corpora to be extended into thinking-trace-augmented resources that enhance the reliability of LLM raters.
- Abstract(参考訳): 大規模言語モデル (LLM) は、評価タスクのレーダとして使われることが多い。
しかしながら、人間の判断が注釈ラベルを超えた微妙な推論を伴う場合、その信頼性は主観的なタスクに限られることが多い。
判断の背後にある理由である思考の痕跡は、非常に有意義ですが、収集とキュレートは困難です。
我々はラベルのみのアノテーションから思考トレースを推測するための人間-LLM協調フレームワークを提案する。
提案フレームワークは,これらのトレースを大規模に再構成するために,単純かつ効果的な拒絶サンプリング手法を用いている。
これらの推論された思考トレースは,(1)オープンなLLMレーダの微調整,(2)プロプライエタリなLLMレーダのより明確なガイドラインの合成,という2つの補完的なタスクに適用される。
複数のデータセットにまたがって,本手法はLLMと人間との合意を著しく改善する。
さらに、改良されたアノテーションガイドラインは、異なるLLMモデル間の合意を増加させる。
以上の結果から, LLMは, ラベルのみのコーパスを, LLMレーダの信頼性を高めるため, 思考トレース強化資源に拡張できる可能性が示唆された。
関連論文リスト
- Just Put a Human in the Loop? Investigating LLM-Assisted Annotation for Subjective Tasks [18.695435335031355]
複数のもっともらしい回答を持つ主観的アノテーションタスクでは、LCM出力のレビューはラベルの分布を変えることができる。
410種類のアノテーションと7000以上のアノテーションを用いた事前登録実験を行った。
その結果, LLM によるアノテーション提案をクラウドワーカーに提示することは, より迅速ではなく, 自己報告によるタスクへの信頼感を向上させることができた。
論文 参考訳(メタデータ) (2025-07-21T17:29:21Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Reinforcing Thinking through Reasoning-Enhanced Reward Models [6.636512424910708]
大規模言語モデル(LLM)は、推論時思考による複雑な多段階推論において大きな可能性を秘めている。
LLMは、知識境界に対する自己認識が限られているため、いつ思考をやめるかを決めるのに苦労する。
この研究は、LLM自身の推論プロセスを合成行動データに蒸留することで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-12-31T04:50:15Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation [23.182787000804407]
セッションベースレコメンデーション(SBR)を強化するための有望なアプローチとして,大規模言語モデル(LLM)が登場している。
本稿では,SBRのための反射強化大言語モデル(Re2LLM)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:12:18Z) - An In-depth Evaluation of Large Language Models in Sentence Simplification with Error-based Human Assessment [9.156064716689833]
本研究は, 評価の信頼性を確保しつつ, LLMの性能に関する詳細な知見を提供する。
我々は、GPT-4、Qwen2.5-72B、Llama-3.2-3Bを含む、クローズドソースとオープンソースの両方のLLMを選択する。
その結果, LLM は従来と比べ, 誤った単純化出力が少ないことがわかった。
論文 参考訳(メタデータ) (2024-03-08T00:19:24Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。