論文の概要: Aligning Large Language Model Behavior with Human Citation Preferences
- arxiv url: http://arxiv.org/abs/2602.05205v1
- Date: Thu, 05 Feb 2026 02:02:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.708451
- Title: Aligning Large Language Model Behavior with Human Citation Preferences
- Title(参考訳): ヒトのクエンテーション選好による大規模言語モデル行動の調整
- Authors: Kenichiro Ando, Tatsuya Harada,
- Abstract要約: 本研究では,人間の引用嗜好と大規模言語モデル(LLM)の行動との関係について検討する。
以上の結果から,ヒトは医療用テキストの引用を最も多く求めており,より強いモデルは同様の傾向を示した。
- 参考スコア(独自算出の注目度): 45.80355133880463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most services built on powerful large-scale language models (LLMs) add citations to their output to enhance credibility. Recent research has paid increasing attention to the question of what reference documents to link to outputs. However, how LLMs recognize cite-worthiness and how this process should be controlled remains underexplored. In this study, we focus on what kinds of content LLMs currently tend to cite and how well that behavior aligns with human preferences. We construct a dataset to characterize the relationship between human citation preferences and LLM behavior. Web-derived texts are categorized into eight citation-motivation types, and pairwise citation preferences are exhaustively evaluated across all type combinations to capture fine-grained contrasts. Our results show that humans most frequently seek citations for medical text, and stronger models display a similar tendency. We also find that current models are as much as $27\%$ more likely than humans to add citations to text that is explicitly marked as needing citations on sources such as Wikipedia, and this overemphasis reduces alignment accuracy. Conversely, models systematically underselect numeric sentences (by $-22.6\%$ relative to humans) and sentences containing personal names (by $-20.1\%$), categories for which humans typically demand citations. Furthermore, experiments with Direct Preference Optimization demonstrate that model behavior can be calibrated to better match human citation preferences. We expect this study to provide a foundation for more fine-grained investigations into LLM citation preferences.
- Abstract(参考訳): 強力な大規模言語モデル(LLM)上に構築されたほとんどのサービスは、信頼性を高めるために出力に引用を追加する。
最近の研究は、どの基準文書が出力にリンクするかという問題に注意を払っている。
しかし、LCMが比喩的安全性をどのように認識し、どのようにこのプロセスを制御すべきかは未解明のままである。
本研究では,現在LLMが引用しているコンテンツの種類と,その行動が人間の嗜好とどのように一致しているかに着目した。
人間の引用嗜好とLLM行動の関係を特徴付けるデータセットを構築した。
ウェブから派生したテキストは8つの引用動機型に分類され、一対の引用嗜好はすべてのタイプの組み合わせで徹底的に評価され、きめ細かいコントラストを捉える。
以上の結果から,ヒトは医療用テキストの引用を最も多く求めており,より強力なモデルも同様の傾向を示した。
また、現在のモデルでは、ウィキペディアのような情報源の引用を必要とすると明示されたテキストに引用を加える確率が、人間よりも最大で27ドル%高いことがわかり、この過度な強調はアライメントの精度を低下させる。
逆に、モデルが体系的に数字の文(人間に対して$-22.6\%$)と個人名を含む文(20.1\%$)を選定する。
さらに、直接選好最適化を用いた実験では、モデルの振る舞いが人間の引用の好みに合うように校正できることが示されている。
本研究は, LLMの引用嗜好に関するよりきめ細かな研究の基盤となることを期待する。
関連論文リスト
- Generation-Time vs. Post-hoc Citation: A Holistic Evaluation of LLM Attribution [8.691344810384114]
大規模言語モデル (LLMs) は、医療、法律、アカデミア、金融といった高度な領域において、人間の検証可能な情報源を引用しなければならない。
本稿では,一つのパスで応答と引用を生成する生成時間Citation(G-Cite)と,起草後の引用を付加または検証するポストホックCitation(P-Cite)という2つのパラダイムを紹介する。
両パラダイムにおける帰属品質の主要因は検索であり,適用範囲と引用精度の相反するトレードオフを示した。
論文 参考訳(メタデータ) (2025-09-25T20:39:26Z) - SCIRGC: Multi-Granularity Citation Recommendation and Citation Sentence Preference Alignment [2.0383262889621867]
本稿では,引用記事を自動的に推薦し,引用箇所の引用文を生成するSciRGCフレームワークを提案する。
この枠組みは,(1)著者の引用意図を正確に識別し,関連する引用論文を見つける方法,(2)人間の嗜好に沿った高品質な引用文を生成する方法の2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2025-05-26T15:09:10Z) - SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models [51.90867482317985]
SelfCiteは、生成されたレスポンスの文に対して、きめ細かい文レベルの引用を生成する、自己教師型アプローチである。
SelfCiteの有効性は、LongBench-Citeベンチマークにおいて、引用F1を5.3ポイントまで増やすことによって示される。
論文 参考訳(メタデータ) (2025-02-13T18:55:13Z) - HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction [14.731720495144112]
本稿では,表面的な言及を超越した批判的参照を識別する,コア引用という新しい概念を紹介する。
我々は、引用予測のための$textbfH$ybrid $textbfL$anguage $textbfM$odelワークフローである$textbfHLM-Citeを提案する。
我々はHLM-Citeを19分野にわたって評価し,SOTA法と比較して17.6%の性能向上を示した。
論文 参考訳(メタデータ) (2024-10-10T10:46:06Z) - Large Language Models Reflect Human Citation Patterns with a Heightened Citation Bias [1.7812428873698407]
サイテーションの実践は科学的知識の構造を形成するのに不可欠であるが、それらは現代の規範や偏見の影響を受けていることが多い。
LLM(Large Language Models)の出現は、これらのプラクティスに新たなダイナミクスをもたらす。
本稿では,これらの特徴を,AAAI,NeurIPS,ICML,ICLRのデータセットを用いて解析する。
論文 参考訳(メタデータ) (2024-05-24T17:34:32Z) - Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data [48.409306245463]
事前学習データにおいて,信頼された情報源から動詞句を引用するモデルを構築した。
Quote-Tuningの中核は、信頼されたコーパスに対するテキストを効率的に検証する高速なメンバシップ推論機能である。
実験により、Quote-Tuningは、ベースモデルと比較して高品質なドキュメントからの動詞の引用を最大130%増加させることが示された。
論文 参考訳(メタデータ) (2024-04-05T02:27:09Z) - Towards generating citation sentences for multiple references with
intent control [86.53829532976303]
We build a novel generation model with the Fusion-in-Decoder approach to handlee with multiple long inputs。
実験により,提案手法は引用文を生成するためのより包括的な特徴を提供することが示された。
論文 参考訳(メタデータ) (2021-12-02T15:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。