Fugu-MT 論文翻訳(概要): Refining and Reusing Annotation Guidelines for LLM Annotation

論文の概要: Refining and Reusing Annotation Guidelines for LLM Annotation

arxiv url: http://arxiv.org/abs/2605.20809v1
Date: Wed, 20 May 2026 07:03:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-21 19:19:56.541778
Title: Refining and Reusing Annotation Guidelines for LLM Annotation
Title（参考訳）: LLMアノテーションの精錬・再利用ガイドライン
Authors: Kon Woo Kim, Jin-Dong Kim, Akiko Aizawa,
Abstract要約: 大言語モデル(LLM)は、ゼロショットアノテーションタスクで顕著なパフォーマンスを示す。 LLMは金標準ベンチマークの特別な規則としばしば競合する。アノテーションプロジェクトの初期フェーズをシミュレートする反復的モデレーションフレームワークを提案する。
参考スコア（独自算出の注目度）: 17.04320576398815
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Large Language Models (LLMs) demonstrate remarkable performance on zero-shot annotation tasks, they often struggle with the specialized conventions of gold-standard benchmarks. We propose the systematic reuse and refinement of annotation guidelines as an alignment mechanism, introducing an iterative moderation framework that simulates the early phases of annotation projects. We evaluate three hypotheses: (1) the efficacy of guideline integration, (2) the advantage of reasoning optimized models, and (3) the viability of moderation under minimal supervision. Testing across biomedical NER tasks (NCBI Disease, BC5CDR, BioRED) with three LLM families (GPT, Gemini, DeepSeek), our results empirically confirm all three hypotheses. While the iterative moderation framework shows good potential in effectively refining guidelines, our analysis also reveals substantial room for improvement.
Abstract（参考訳）: LLM(Large Language Models)はゼロショットアノテーションタスクにおいて顕著な性能を示すが、ゴールドスタンダードベンチマークの特別な規則に苦しむことが多い。本稿では,アライメント機構としてのアノテーションガイドラインの体系的再利用と改良を提案し,アノテーションプロジェクトの初期段階をシミュレートする反復的モデレーションフレームワークを提案する。我々は,(1)ガイドライン統合の有効性,(2)推論最適化モデルの利点,(3)最小限の監督下でのモデレーションの実現可能性の3つの仮説を評価する。生医学的NERタスク(NCBI病, BC5CDR, BioRED)を3つのLLMファミリー(GPT, Gemini, DeepSeek)で比較検討し, 3つの仮説を実証的に検証した。反復的モデレーションフレームワークはガイドラインを効果的に精錬する可能性を示しているが、我々の分析は改善の余地も明らかにしている。

関連論文リスト

From Hallucination to Scheming: A Unified Taxonomy and Benchmark Analysis for LLM Deception [32.09232866919422]
本稿では,3つの相補的な次元に沿って整理された統合分類法を提案する。この分類を50の既存のベンチマークに適用すると、すべてのベンチマークが実用的歪み、帰属性、能力的自己認識を極端に過小評価されているまま、製造をテストしていることがわかる。
論文参考訳（メタデータ） (2026-04-06T15:57:47Z)
CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文参考訳（メタデータ） (2026-03-09T07:15:23Z)
HADSF: Aspect Aware Semantic Control for Explainable Recommendation [4.75127493865044]
大規模言語モデル(LLM)の最近の進歩は、推薦システムに対してより効果的な情報抽出を約束している。本稿では,適応選択によるコンパクトなコーパスレベルのアスペクトボキャブラリを誘導し,構造化アスペクトオピニオン三重項のボキャブラリ誘導,明示的に制約された抽出を行う2段階アプローチを提案する。 1.5B-70Bパラメータにまたがる約300万のレビューに関する実験では、標準評価予測器に統合された場合、HADSFは予測エラーを一貫して減少させる。
論文参考訳（メタデータ） (2025-10-30T20:49:33Z)
Generative Reasoning Recommendation via LLMs [48.45009951684554]
大規模言語モデル(LLM)は、生成的推論レコメンデーションモデル(GRRM)として機能する上で、根本的な課題に直面している。本研究は,レコメンデーションタスクに対する統一的な理解・推論・予測方法を実現する,事前学習されたLLMを適用してGRRMを構築する方法について検討する。本稿では,協調的セマンティックアライメント(Collaborative-Semantic Alignment),Reasoning Curriculum Activation(Reasoning Curriculum Activation),Sparse-Regularized Group Policy Optimization(Sparse-Regularized Group Policy Optimization)の3つのコンポーネントを統合するエンドツーエンドフレームワークであるGREAMを提案する。
論文参考訳（メタデータ） (2025-10-23T17:59:31Z)
The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文参考訳（メタデータ） (2025-01-20T06:35:01Z)
Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文参考訳（メタデータ） (2024-07-02T16:15:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。