論文の概要: Fully Automated Identification of Lexical Alignment and Preference-Stage Shifts in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.03165v1
- Date: Tue, 02 Jun 2026 05:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.773416
- Title: Fully Automated Identification of Lexical Alignment and Preference-Stage Shifts in Large Language Models
- Title(参考訳): 大規模言語モデルにおける語彙アライメントと選好段階シフトの完全自動同定
- Authors: Thomas Stephan Juzek, Xiaoyang Ming, Jose A. Hernandez,
- Abstract要約: ChatGPTのようなデジタルチャットアシスタントが使用する言語は、人間の期待(ミスアライメント)から逸脱することができる
本稿では,レキシカルアライメントスコア (Lexical Alignment Score) と三角優先シフト (Triangulated Preference Shift) の2つの評価指標について述べる。
この手順は、手動による介入なしに、"suggest"、"additionally"、"strategy"などの過剰使用項目を特定し、彼らの嗜好学習との関係を推定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The language used by digital chat assistants such as ChatGPT can diverge from human expectations (misalignment). Research, mostly on Scientific English, has described both what divergences occur and, to some extent, why, linking them to the training stage of human preference learning. Yet, existing approaches rely on manual curation. This paper introduces two curation-free, assumption-light evaluation metrics: the Lexical Alignment Score, which identifies lexical overuse, and the Triangulated Preference Shift, which quantifies how much of such shifts can be attributed to human preference learning. Using PubMed abstracts, continuations were generated and measured using windowed document prevalence across six model families (Falcon, Gemma, Llama, Mistral, OLMo, Yi). The procedure identifies, without manual intervention, overused items such as 'suggest', 'additionally', and 'strategy', and estimates their link to preference learning. Our findings replicate prior work and remain stable across parameter settings, random seeds, and evaluation on further data. The approach scales readily and enables systematic study of lexical (mis)alignment beyond Scientific English and across languages, and as such, the metrics have the potential to contribute to improved alignment for future models and understanding of its origins.
- Abstract(参考訳): ChatGPTのようなデジタルチャットアシスタントが使用する言語は、人間の期待(ミスアライメント)から切り離すことができる。
主にサイエンティフィックイングリッシュ・イングリッシュ(Scientific English)の研究は、何が起こるのか、なぜある意味で人間の嗜好学習の訓練段階にリンクするのかを説明している。
しかし、既存のアプローチは手作業によるキュレーションに依存している。
本稿では,レキシカルオーバーユースを識別するレキシカルアライメントスコア(Lexical Alignment Score)と,そのようなシフトのどれ程が人間の嗜好学習に起因しているかを定量化するトライアンゲーテッド・プレフレクション・シフト(Triangulated Preference Shift)という2つの評価指標を紹介する。
PubMedの抽象化を用いて、6つのモデルファミリー(Falcon, Gemma, Llama, Mistral, OLMo, Yi)にまたがるウィンドウド文書の頻度を用いて、継続を生成、測定した。
手動による介入なしに、"suggest"、"additionally"、"strategy"などの過剰使用項目を特定し、彼らの嗜好学習との関係を推定する。
本研究は先行研究を再現し, パラメータ設定, ランダムシード, および, さらなるデータに対する評価を行った。
この手法は、科学的な英語や言語を越えた語彙的(ミス)アライメントの体系的な研究を可能にし、将来のモデルのアライメントの改善やその起源の理解に寄与する可能性がある。
関連論文リスト
- Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning [0.33463386076921503]
我々は、人間のゴールド標準、ベースモデル、変種を三角測量する計量である三角偏差スコア(Triangulated Preference Shift score)を導入する。
6つのモデルファミリーにデータを提供し、その結果を文献に固定し、一般的なアプローチの有用性を説明する。
論文 参考訳(メタデータ) (2026-05-29T20:19:49Z) - A Distributional Perspective on Word Learning in Neural Language Models [57.41607944290822]
言語モデルにおける単語学習のための広く合意されたメトリクスは存在しない。
我々は、先行研究で研究された分布シグネチャは、重要な分布情報の取得に失敗すると主張している。
我々は、スクラッチから訓練する小さな言語モデルを選択するための学習軌跡を得る。
論文 参考訳(メタデータ) (2025-02-09T13:15:59Z) - Reverse-Engineering the Reader [43.26660964074272]
本稿では,線形回帰器のパラメータを暗黙的に最適化するために,言語モデルを微調整する新しいアライメント手法を提案する。
単語をテストケースとして使用し、複数のモデルサイズとデータセットにわたる手法を評価する。
ダウンストリームNLPタスクにおける心理測定パワーとモデルの性能の逆関係と、ホールドアウトテストデータにおけるその難易度を見出した。
論文 参考訳(メタデータ) (2024-10-16T23:05:01Z) - Locally Measuring Cross-lingual Lexical Alignment: A Domain and Word Level Perspective [15.221506468189345]
親族領域における語彙的ギャップを用いた合成検証と新しい自然主義的検証の両方を解析する手法を提案する。
我々の分析は16の多様な言語にまたがっており、新しい言語モデルを使用することで改善の余地があることを実証している。
論文 参考訳(メタデータ) (2024-10-07T16:37:32Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Semantic Coherence Markers for the Early Diagnosis of the Alzheimer
Disease [0.0]
パープレキシティはもともと、与えられた言語モデルがテキストシーケンスを予測するのにどの程度適しているかを評価するための情報理論の尺度として考え出された。
我々は2グラムから5グラムまでのN-gramとトランスフォーマーベース言語モデルであるGPT-2を多種多様な言語モデルに適用した。
ベストパフォーマンスモデルでは、ADクラスと制御対象の両方から対象を分類する際に、完全精度とFスコア(精度/特異度とリコール/感度のそれぞれ1.00)を達成した。
論文 参考訳(メタデータ) (2023-02-02T11:40:16Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。