論文の概要: Discourse-Role Labels as Presentation-Time Variables for Context Use in Language Models
- arxiv url: http://arxiv.org/abs/2606.04109v2
- Date: Mon, 08 Jun 2026 04:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:04.883553
- Title: Discourse-Role Labels as Presentation-Time Variables for Context Use in Language Models
- Title(参考訳): 言語モデルにおける文脈用時間変数としての談話ロールラベル
- Authors: Jianguo Zhu, Xiangmei Li, Wenjie Liu,
- Abstract要約: 本研究では,文脈拡張型言語モデルシステムが読者モデル行動に与える影響について検討する。
本稿では,500 MMLU-Pro 項目の固定コンテンツプローブについて紹介する。
各項目は、異なる談話ロールラベルの下で同じ誤解を招く答えを持つアサーションを受け取る。
GPT-5.5, DeepSeek V4 Pro, Llama-3-8B-Instruct, Qwen2.5-7B-Instruct, Misleading Adoption Rate shifts by 56-84%
- 参考スコア(独自算出の注目度): 3.376024929309146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context-augmented language model systems often wrap supplied content with labels such as Reference:, Evidence:, Instruction:, Note:, or Example:, but the effect of these labels on reader-model behavior remains underexplored. We introduce a paired fixed-content probe over 500 MMLU-Pro items: each item receives the same misleading answer-bearing assertion under different discourse-role labels, and adoption is measured by whether the model outputs the injected wrong option. Across GPT-5.5, DeepSeek V4 Pro, Llama-3-8B-Instruct, and Qwen2.5-7B-Instruct, Misleading Adoption Rate shifts by 56-84 percentage points. Binding or source-like labels such as Instruction: and Reference: produce high adoption, whereas Example: consistently suppresses it. Paired tests, bootstrap intervals, final-instruction ablations, and Qwen final-step log-probability probes support a label-conditioned candidate preference. Boundary probes show where the effect weakens or persists: arithmetic tasks reduce adoption, passage-shaped external context preserves smaller label gaps, short-answer evaluation rules out option-letter copying, and nested-label conflicts suggest that illustrative framing can delimit adoption scope. A 200-case single-author manual audit confirms that the short-answer contrasts are stable under conservative adjudication. The resulting claim is bounded but practical: context-utilization and reader-side RAG benchmarks should report and control wrapper labels, because presentation choices can change measured reliance on supplied context.
- Abstract(参考訳): 文脈拡張された言語モデルシステムは、しばしば供給されたコンテンツをReference:、Evidence:、Instruction:、Note:、または Example:などのラベルでラップするが、これらのラベルが読者モデル行動に与える影響は未解明のままである。
本稿では,500個のMMLU-Pro項目に対して,各項目が異なる談話ロールラベルの下で同一の誤解を招く回答を持つアサーションを受信し,モデルが誤選択を出力するか否かを判断する。
GPT-5.5, DeepSeek V4 Pro, Llama-3-8B-Instruct, Qwen2.5-7B-Instruct, Misleading Adoption Rate shifts by 56-84%
Instruction:やReference:のようなバインディングやソースライクなラベルは高い採用率をもたらす。
ペアテスト、ブートストラップ間隔、最終命令の短縮、Qwenの最終ステップのログ確率プローブは、ラベル条件の候補設定をサポートする。
計算タスクは採用を減らし、パス型の外部コンテキストはラベルのギャップを小さく保ち、短い回答評価ルールはオプションレターのコピーを除外し、ネストされたラベルの衝突は、イラストレーターのフレーミングが採用範囲を減らすことを示唆している。
200ケースの単一著者によるマニュアル監査では、短い回答のコントラストが保守的な判断の下で安定していることが確認されている。
コンテキスト利用とリーダ側RAGベンチマークはラッパーラベルを報告し、制御する必要がある。
関連論文リスト
- Metric-Dependent Annotation Saturation for Learning from Label Distributions [0.0]
我々は,ChaosNLIをサブサンプルとしたラベル分布のNLIモデルを微調整する。
3クラス NLI では、エントロピー相関は N 20-50 のアノテータを収束させる必要がある。
ソフトラベルは、ラベルの平滑化が再現できないアイテム固有の信号を運ぶ。
論文 参考訳(メタデータ) (2026-05-28T11:46:51Z) - Human Label Variation as Stable Signal: Learning Annotator-Specific Explanation Behavior via Cross-Annotator Preference Optimization [51.93456979139756]
自由文の説明は、ラベルの不一致を超えて人間のラベルのバリエーションを拡大する。
このようなアノテータ固有のラベル説明動作を,大規模言語モデルで学習し,再現できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-05-27T17:55:00Z) - RAPT: Retrieval-Augmented Post-hoc Thresholding for Multi-Label Classification [1.2599533416395765]
本稿では、RAPTという、デプロイメント指向の検索強化スコア閾値ラッパーを提案する。
RAPTは、類似性検索のための文書表現とラベルの信頼度スコアのモデルに依存しないラッパーである。
工業環境では、RAPTはメートル法学習者による最高の予測性能を達成し、0.87マクロF1に達した。
論文 参考訳(メタデータ) (2026-05-15T18:31:04Z) - SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation [0.0]
SpaceBench-UCは、ペアの空間関係を再現可能な小さなベンチマークである。
ベンチマークパッケージ、バージョン付きプロンプト、ピン付き構成、サンプルごとのチェッカー出力、レポートテーブルをリリースします。
安定拡散1.5, SD 1.5 BoxDiff, SD 1.4 GLIGENの3つのベースラインについて検討した。
論文 参考訳(メタデータ) (2026-01-19T23:37:10Z) - Humans Hallucinate Too: Language Models Identify and Correct Subjective Annotation Errors With Label-in-a-Haystack Prompts [41.162545164426085]
大規模言語モデル(LLM)を用いた文脈におけるラベル検証について検討する。
主観的ラベル補正のためのLiaHR(Label-in-a-Haystack Rectification)フレームワークを提案する。
このアプローチは、信号と雑音の比率を高めるために、アノテーションパイプラインに統合することができる。
論文 参考訳(メタデータ) (2025-05-22T18:55:22Z) - Mixed Blessing: Class-Wise Embedding guided Instance-Dependent Partial Label Learning [53.64180787439527]
部分ラベル学習(PLL)では、各サンプルは、基底トラスラベルと複数のノイズラベルからなる候補ラベルセットに関連付けられている。
初めて、各サンプルに対してクラスワイドな埋め込みを作成し、インスタンス依存のノイズラベルの関係を調査できるようにします。
ラベルの曖昧さを低減するため,グローバルな特徴情報を含むクラスプロトタイプのコンセプトを紹介した。
論文 参考訳(メタデータ) (2024-12-06T13:25:39Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Category-Adaptive Label Discovery and Noise Rejection for Multi-label
Image Recognition with Partial Positive Labels [78.88007892742438]
部分正ラベル(MLR-PPL)を用いたマルチラベルモデルの訓練が注目されている。
これまでの研究では、未知のラベルを負とみなし、従来のMLRアルゴリズムを採用した。
我々は,MLR-PPLタスクを容易にするために,異なる画像間の意味的相関について検討する。
論文 参考訳(メタデータ) (2022-11-15T02:11:20Z) - Semi-supervised Object Detection via Virtual Category Learning [68.26956850996976]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
具体的には、各混乱したサンプルに仮想圏(VC)が割り当てられる。
トレーニングサンプルと仮想カテゴリの間の埋め込み距離を指定することに起因する。
論文 参考訳(メタデータ) (2022-07-07T16:59:53Z) - Few-shot Slot Tagging with Collapsed Dependency Transfer and
Label-enhanced Task-adaptive Projection Network [61.94394163309688]
本稿では,現在最先端の少数ショット分類モデルであるTapNetに基づくラベル強化タスク適応プロジェクションネットワーク(L-TapNet)を提案する。
実験結果から,本モデルは1ショット設定で14.64点のF1スコアで最強の少ショット学習ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-06-10T07:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。