論文の概要: GrowLoop: Self-Evolving Conversation Evaluation Seeded by Human
- arxiv url: http://arxiv.org/abs/2605.28882v1
- Date: Tue, 26 May 2026 16:53:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.950548
- Title: GrowLoop: Self-Evolving Conversation Evaluation Seeded by Human
- Title(参考訳): GrowLoop:人間による自己進化型会話評価
- Authors: Yihang Lin, Yunze Gao, Zeyang Lin, Dongbo Li, Kun Peng, Chenglong Song, Yue Liu,
- Abstract要約: モデルが進行し,シナリオがシフトするにつれて継続的に適応する自己進化型評価システムであるGrowLoopを提案する。
私たちの仕事は、パラダイムを手動の更新やスケーリングの難しさから、包括的な継続的自己進化へとシフトさせます。
- 参考スコア(独自算出の注目度): 7.998927393247182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of large language models, evaluating human-likeness in open-ended conversation has become increasingly important. However, human-likeness is a form of tacit knowledge that humans perceive intuitively, yet the underlying criteria resist explicit formulation. Human judgments vary widely, with strong agreement on some cases and legitimate disagreement on others. Meanwhile, the criteria behind human judgments remain implicit, leaving no clear basis for constructing cases. Further, what counts as human-like is not static, but evolving with model capability and human expectations. Despite progress in evaluation methods such as expert-authored benchmarks, Reward Models, and self-evolving benchmarks, none addresses all three challenges simultaneously. Therefore, we propose GrowLoop, a self-evolving conversation evaluation system that continuously adapts as models advance and scenarios shift. With minimal human seed annotations as the first mover, LLM agents iteratively extract and refine evaluation rubrics through Heuristic Learning. Human-AI agreement is required where annotators converge, while only plausibility is expected where they diverge. Moreover, the Rubric-Case co-evolution mechanism enables continuous evolution, expanded through new seeds when the evaluation target moves. Applied to human-likeness evaluation in open-ended conversation, the generated rubrics not only substantially outperform existing methods in alignment with human judgments, but also uncover issues that annotators overlook. The resulting benchmark effectively discriminates models across capability tiers and reveals where they fall short, while generalizing to new scenarios and adapting as models advance. Our work shifts the benchmarking paradigm from manual updates or difficulty scaling to comprehensive, continuous self-evolution.
- Abstract(参考訳): 大規模言語モデルの急速な進歩により、オープンエンド会話における人間的類似性の評価がますます重要になっている。
しかしながら、人間の類似性は、人間が直感的に知覚する暗黙の知識の一形態であるが、根底にある基準は明示的な定式化に抵抗する。
人間の判断は様々であり、いくつかのケースでは強い同意と、他のケースでは合法的な意見の相違がある。
一方、人間の判断の背景にある基準は暗黙的なままであり、ケースを構築するための明確な根拠は残っていない。
さらに、人間らしく数えられるものは静的ではなく、モデル能力と人間の期待によって進化している。
専門家が承認したベンチマークやリワードモデル、自己進化ベンチマークなどの評価手法が進歩しているにもかかわらず、同時に3つの課題に対処することはない。
そこで本研究では,モデルが進行し,シナリオが変化するにつれて連続的に適応する自己進化型会話評価システムであるGrowLoopを提案する。
最小限の人間のシードアノテーションを最初の移動体として、LLMエージェントはヒューリスティックラーニングを通して反復的に評価ルブリックを抽出し精製する。
アノテータが収束する場合は人間とAIの合意が必要であるが、分岐する場合は可視性のみが期待される。
さらに、Rubric-Case共進化機構は、評価対象の移動時に新しい種子を通じて拡張された連続的な進化を可能にする。
オープンエンド会話における人間の類似性評価に適用すると、生成されたルーリックは、人間の判断に沿う既存の方法よりも大幅に優れるだけでなく、注釈者が見落としている問題も明らかになる。
結果として得られたベンチマークは、機能レベルを横断したモデルを効果的に識別し、モデルが進むにつれて、新しいシナリオに一般化し、モデルを適応すると同時に、どこで失敗するかを明らかにします。
私たちの作業は、ベンチマークパラダイムを手動のアップデートやスケーリングの難しさから、包括的な継続的自己進化へとシフトさせています。
関連論文リスト
- HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.55730315685837]
HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。
私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。
次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
論文 参考訳(メタデータ) (2026-01-22T09:27:27Z) - Gesture Generation (Still) Needs Improved Human Evaluation Practices: Insights from a Community-Driven State-of-the-Art Benchmark [55.41250396114216]
音声認識による3Dジェスチャー生成における人的評価の実践について検討する。
本稿では,広範に使用されているBEAT2モーションキャプチャーデータセットの詳細な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-11-03T05:17:28Z) - Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond) [90.45301024940329]
言語モデル(LM)は、多様で人間らしい創造的コンテンツを生成するのに苦労することが多い。
Infinity-Chatは26万の多様な実世界のオープンエンドユーザクエリからなる大規模データセットである。
本研究では, LMのモード崩壊について大規模に検討し, 人工Hivemind効果が明らかとなった。
論文 参考訳(メタデータ) (2025-10-27T03:16:21Z) - HugAgent: Benchmarking LLMs for Simulation of Individualized Human Reasoning [27.80877165363182]
人間の推論シミュレーションを3次元で再考するHugAgentを紹介した。
このベンチマークはHugAgentとTraceYourThinkingとしてオープンソース化されている。
論文 参考訳(メタデータ) (2025-10-16T21:03:54Z) - Empirically evaluating commonsense intelligence in large language models with large-scale human judgments [4.212429064310439]
本稿では,人工知能における常識評価手法を提案する。
モデルの判断と人口の対応を計測する。
私たちのフレームワークは、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与します。
論文 参考訳(メタデータ) (2025-05-15T13:55:27Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。
効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。
私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文 参考訳(メタデータ) (2024-11-04T07:10:24Z) - It HAS to be Subjective: Human Annotator Simulation via Zero-shot
Density Estimation [15.8765167340819]
人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。
人間の評価中の人間の知覚と行動は、多様な認知過程と主観的解釈による固有の多様性を示す。
本稿では,HASをゼロショット密度推定問題として扱うメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T20:54:59Z) - Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。
シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T11:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。