論文の概要: Word Overuse and Alignment in Large Language Models: The Influence of Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2508.01930v1
- Date: Sun, 03 Aug 2025 21:45:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.121937
- Title: Word Overuse and Alignment in Large Language Models: The Influence of Learning from Human Feedback
- Title(参考訳): 大規模言語モデルにおける単語の過剰使用とアライメント:人間のフィードバックからの学習の影響
- Authors: Tom S. Juzek, Zina B. Ward,
- Abstract要約: 大規模言語モデル(LLM)は、"delve"や"intricate"のような特定の用語を過剰に使用することが知られている。
本研究は,LHF(Human Feedback)からの学習の貢献について検討する。
我々はLHF法を実験的にエミュレートすることによりLHFと語彙過剰使用をより確定的に関連付ける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are known to overuse certain terms like "delve" and "intricate." The exact reasons for these lexical choices, however, have been unclear. Using Meta's Llama model, this study investigates the contribution of Learning from Human Feedback (LHF), under which we subsume Reinforcement Learning from Human Feedback and Direct Preference Optimization. We present a straightforward procedure for detecting the lexical preferences of LLMs that are potentially LHF-induced. Next, we more conclusively link LHF to lexical overuse by experimentally emulating the LHF procedure and demonstrating that participants systematically prefer text variants that include certain words. This lexical overuse can be seen as a sort of misalignment, though our study highlights the potential divergence between the lexical expectations of different populations -- namely LHF workers versus LLM users. Our work contributes to the growing body of research on explainable artificial intelligence and emphasizes the importance of both data and procedural transparency in alignment research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、"delve"や"intricate"といった特定の用語を過剰に使用することが知られている。
しかし、これらの語彙選択の正確な理由は不明である。
メタのLlamaモデルを用いて,人間のフィードバックからの学習(LHF)の寄与について検討し,人間のフィードバックからの強化学習と直接選好最適化を仮定する。
LHFを誘発する可能性のあるLLMの語彙的嗜好を検出するための簡単な手順を提案する。
次に、LHFの手順を実験的にエミュレートし、参加者が特定の単語を含むテキスト変種を体系的に好むことを示すことにより、LHFと語彙過剰使用をより確定的にリンクする。
この語彙過剰使用は一種の誤認識と見なすことができるが、我々の研究は、異なる人口の語彙的期待、すなわちLHF労働者とLLM利用者の相違を浮き彫りにしている。
我々の研究は、説明可能な人工知能の研究に寄与し、アライメント研究におけるデータと手続き的透明性の両方の重要性を強調している。
関連論文リスト
- Using AI to replicate human experimental results: a motion study [0.11838866556981258]
本稿では,言語研究における信頼性の高い解析ツールとして,大規模言語モデル(LLM)の可能性について検討する。
動作動詞の行儀を含む時間表現における感情的意味の出現に焦点を当てる。
論文 参考訳(メタデータ) (2025-07-14T14:47:01Z) - Why Does ChatGPT "Delve" So Much? Exploring the Sources of Lexical Overrepresentation in Large Language Models [0.0]
科学者による大規模言語モデル(LLM)の使用が言語変化の原因であると広く考えられている。
我々は,これらの言語変化を特徴付ける形式的,伝達可能な方法を開発した。
LLM の使用により,科学的な抽象概念の出現が増加する21の焦点単語が検出された。
ヒトのフィードバックからの強化学習が焦点単語の過剰使用に寄与するかどうかを評価する。
論文 参考訳(メタデータ) (2024-12-16T02:27:59Z) - Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL)
本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文 参考訳(メタデータ) (2024-10-16T00:15:40Z) - Uncovering Factor Level Preferences to Improve Human-Model Alignment [58.50191593880829]
PROFILEは、好みを駆動する特定の要因の影響を明らかにし、定量化するフレームワークである。
ProFILE の因子レベル分析は、人間モデルのアライメントと不適応の背後にある 'なぜ' を説明している。
我々は、不整合要因に対処するなど、要因レベルの洞察の活用が、人間の嗜好との整合性をいかに改善するかを実証する。
論文 参考訳(メタデータ) (2024-10-09T15:02:34Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs [49.386699863989335]
大きな言語モデル(LLM)を訓練し、人間の効果的なアシスタントとして機能させるには、慎重に検討する必要がある。
有望なアプローチとして、人間からのフィードバック(RLHF)からの強化学習がある。
本稿では、強化学習原理のレンズを通してRLHFを分析し、その基礎を理解する。
論文 参考訳(メタデータ) (2024-04-12T15:54:15Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Probing Large Language Models from A Human Behavioral Perspective [24.109080140701188]
大規模言語モデル(LLM)は、現代のNLPにおいて支配的な基礎モデルとして登場した。
フィードフォワードネットワーク (FFN) やマルチヘッド・セルフアテンション (MHSA) などの予測プロセスや内部メカニズムの理解はいまだに未解明のままである。
論文 参考訳(メタデータ) (2023-10-08T16:16:21Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。