論文の概要: Semantic Voting: A Self-Evaluation-Free Approach for Efficient LLM Self-Improvement on Unverifiable Open-ended Tasks
- arxiv url: http://arxiv.org/abs/2509.23067v1
- Date: Sat, 27 Sep 2025 02:44:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.017749
- Title: Semantic Voting: A Self-Evaluation-Free Approach for Efficient LLM Self-Improvement on Unverifiable Open-ended Tasks
- Title(参考訳): セマンティック投票: 検証不能なオープンエンドタスクにおけるLLM自己改善のための自己評価自由アプローチ
- Authors: Chunyang Jiang, Yonggang Zhang, Yiyang Cai, Chi-Min Chan, Yulong Liu, Mingming Chen, Wei Xue, Yike Guo,
- Abstract要約: 大規模言語モデル(LLM)の自己評価は高い計算オーバーヘッドをもたらし、本質的なバイアスによる過信問題を引き起こす。
本稿では、軽量で効果的な自己改善を目的とした、検証不能なタスクに対する新しい自己評価自由アプローチを提案する。
- 参考スコア(独自算出の注目度): 38.058215007885096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rising cost of acquiring supervised data has driven significant interest in self-improvement for large language models (LLMs). Straightforward unsupervised signals like majority voting have proven effective in generating pseudo-labels for verifiable tasks, while their applicability to unverifiable tasks (e.g., translation) is limited by the open-ended character of responses. As a result, self-evaluation mechanisms (e.g., self-judging and entropy minimization) are predominantly used to derive pseudo-labels. However, self-evaluation relying on LLMs typically incurs high computational overhead and introduces overconfidence issues due to intrinsic biases. To address these challenges, we propose a novel self-evaluation-free approach for unverifiable tasks, designed for lightweight yet effective self-improvement. Inspired by majority voting commonly employed in verifiable tasks, we propose semantic voting as a novel mechanism that relaxes the principle of hard matching (i.e., exact matching) toward soft matching (i.e., semantic similarity). Soft matching is achieved by leveraging a lightweight sentence embedding model to quantify semantic similarity, thereby mitigating excessive computational burden and intrinsic bias-associated limitations of self-evaluation. Comprehensive experiments demonstrate that our method achieves substantial gains in computational efficiency and overall better performance than self-evaluation methods across diverse model architectures and tasks.
- Abstract(参考訳): 教師付きデータを取得するコストの上昇は、大規模言語モデル(LLM)の自己改善に大きな関心を惹き付けている。
多数決投票のようなストレートフォワードな教師なし信号は、検証可能なタスクに対して擬似ラベルを生成するのに有効であることが証明され、検証できないタスク(例えば、翻訳)への適用性は、応答のオープンな性格によって制限されている。
その結果、自己評価機構(例えば、自己判断、エントロピー最小化)は、主に擬似ラベルの導出に使用される。
しかし、LLMに依存する自己評価は、通常高い計算オーバーヘッドを発生させ、本質的なバイアスによる過信問題を引き起こす。
これらの課題に対処するために、我々は、軽量で効果的な自己改善のために設計された、検証不能なタスクに対する新しい自己評価のないアプローチを提案する。
検証可能なタスクによく用いられる多数決に触発されたセマンティック投票は、ハードマッチング(すなわち正確なマッチング)の原理をソフトマッチング(すなわちセマンティック類似性)に緩和する新しいメカニズムとして提案される。
ソフトマッチングは、軽量な文埋め込みモデルを利用して意味的類似性を定量化し、過剰な計算負担と本質的なバイアス関連自己評価の限界を緩和する。
包括的実験により,本手法は多種多様なモデルアーキテクチャやタスクの自己評価手法よりも計算効率と全体的な性能が大幅に向上することを示した。
関連論文リスト
- Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - The LLM Already Knows: Estimating LLM-Perceived Question Difficulty via Hidden Representations [33.65540900920885]
大規模言語モデル(LLM)によって知覚される入力質問の難しさを推定することは、正確な性能評価と適応推論に不可欠である。
本稿では,LLMが生成する隠れ表現のみを利用する難易度推定手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T09:38:41Z) - Promoting Efficient Reasoning with Verifiable Stepwise Reward [7.385337642642193]
大規模推論モデル(LRM)は近年、強化学習によって支援された複雑な推論タスクにおいて大きな進歩を遂げている。
LRMは、単純な問題に対する過度な計算を過度に行い、効率を低下させることにしばしば悩まされる。
本稿では,中間状態の推論軌道における性能に基づいて報酬を割り当てる,ルールベースで検証可能なステップワイド報酬機構(VSRM)を提案する。
論文 参考訳(メタデータ) (2025-08-14T02:43:53Z) - Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Self Iterative Label Refinement via Robust Unlabeled Learning [9.936885864460896]
大規模言語モデル(LLM)の自己抑制手法は、しばしば固有のバイアスと過剰な自信に悩まされる。
本稿では,LLM生成した擬似ラベルの分類処理を改善するために,Unlabeled-Unlabeled学習フレームワークを用いた反復的改良パイプラインを提案する。
我々のアプローチは、初期擬似ラベルを反復的に軽視し、洗練することにより、内部バイアスの悪影響を最小限の人的監督で軽減する。
論文 参考訳(メタデータ) (2025-02-18T06:04:18Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised
Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。
近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。
本稿では, Pseudo Label Refinement フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T09:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。