論文の概要: AI-Powered Annotation Pipelines for Stabilizing Large Language Models: A Human-AI Synergy Approach
- arxiv url: http://arxiv.org/abs/2512.13714v1
- Date: Mon, 08 Dec 2025 02:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.387615
- Title: AI-Powered Annotation Pipelines for Stabilizing Large Language Models: A Human-AI Synergy Approach
- Title(参考訳): 大規模言語モデルの安定化のためのAIによるアノテーションパイプライン:人間とAIのシナジーアプローチ
- Authors: Gangesh Pathak, Prasanna Kumar,
- Abstract要約: 本稿では,LLM出力における不安定パターンの体系的識別,ラベル,修正を行うAIベースのパイプラインを提案する。
本フレームワークには, セマンティック一貫性, 事実整合性, および安定性特異的アノテーションの論理的コヒーレンスカテゴリが導入された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM implementations are failing in highly regulated industries owing to instability issues, inconsistent reasoning, hallucinations and performance variability, especially in workflows. These reliability issues restrict safe use of LLM in areas that need the precision of facts and consistent behavior (Aiyappa et al., 2023). The current methods of stabilization, such as, reinforcement learning with human feedback (RLHF) and supervised fine-tuning, offer quantifiable improvements but are expensive and based on the intensive annotation of humans, thus being not easily scaled in a sustainable way (Dong et al., 2023; Retzlaff et al., 2024). This paper presents an AI-based annotation pipeline that systematically identifies, labels, and fixes for instability patterns on LLM output. Our human-AI synergy method combines the models of automated weak supervision and confidence-based annotation with the target human validation to guarantee the reliability and moral uprightness of feedback information (Cabitza et al., 2023; Jiang et al., 2023). The semantic consistency, factual correctness, and logical coherence categories of stability-specific annotation are introduced into our framework, allowing the continuous calibration of models and the enhancement of their robustness based on the feedback loops (Honovich et al., 2021; Nan et al., 2021).
- Abstract(参考訳): LLMの実装は、不安定な問題、一貫性のない推論、幻覚、そして特にワークフローにおいて、高度に規制された業界で失敗している。
これらの信頼性問題は、事実の正確さと一貫した行動を必要とする領域におけるLLMの安全な使用を制限する(Aiyappa et al , 2023)。
人間のフィードバックによる強化学習(RLHF)や教師付き微調整などの現在の安定化手法は、定量的な改善を提供するが、高価であり、人間の集中的なアノテーションに基づいており、持続可能な方法で容易にスケールできない(Dong et al , 2023; Retzlaff et al , 2024)。
本稿では,LLM出力における不安定パターンの体系的識別,ラベル,修正を行うAIベースのアノテーションパイプラインを提案する。
我々の人間-AIのシナジー手法は、自動化された弱い監督と信頼に基づくアノテーションのモデルと、フィードバック情報の信頼性と道徳的正当性を保証するための人間の検証を組み合わせている(Cabitza et al , 2023; Jiang et al , 2023)。
本フレームワークでは,モデルの連続キャリブレーションと,フィードバックループに基づくロバスト性の強化を実現するため,セマンティック一貫性,事実的正当性,論理的コヒーレンスカテゴリが導入された(Honovich et al , 2021; Nan et al , 2021)。
関連論文リスト
- ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - Persistent Instability in LLM's Personality Measurements: Effects of Scale, Reasoning, and Conversation History [7.58175460763641]
400B+モデルでさえ、相当な応答変動を示す。
連鎖推論、詳細なペルソナ指導、会話履歴の含意など、行動の安定化を期待する介入は、パラドックス的に変動を増大させる。
予測可能な行動を必要とする安全クリティカルなアプリケーションに対しては,人格に基づくアライメント戦略が根本的に不十分である可能性が示唆された。
論文 参考訳(メタデータ) (2025-08-06T19:11:33Z) - Automated Safety Evaluations Across 20 Large Language Models: The Aymara LLM Risk and Responsibility Matrix [0.0]
Aymara AIは、カスタマイズされたポリシーに基づく安全評価の生成と管理のためのプログラムプラットフォームである。
自然言語の安全ポリシーを敵のプロンプトに変換し、人間の判断に対して検証されたAIベースのレーダを使用してモデル応答をスコアする。
論文 参考訳(メタデータ) (2025-07-19T18:49:16Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - EVALOOOP: A Self-Consistency-Centered Framework for Assessing Large Language Model Robustness in Programming [8.52533297070733]
EVALOOOPは自己整合性の観点から堅牢性を評価するアセスメントフレームワークである。
MBPP Plusベンチマークで96の人気のある大言語モデル(LLM)を評価した。
EVALOOOPは10ループでパス@1の精度を2.65%-47.62%低下させる。
論文 参考訳(メタデータ) (2025-05-18T01:02:33Z) - Statistical Runtime Verification for LLMs via Robustness Estimation [0.0]
ランタイムクリティカルなアプリケーションにLLM(Large Language Models)を安全にデプロイするためには、逆の堅牢性検証が不可欠である。
ブラックボックス配置環境におけるLCMのオンライン実行時ロバスト性モニタとしての可能性を評価するために,RoMA統計検証フレームワークを適応・拡張するケーススタディを提案する。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。