論文の概要: Natural Fingerprints of Large Language Models
- arxiv url: http://arxiv.org/abs/2504.14871v1
- Date: Mon, 21 Apr 2025 05:48:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 19:26:43.795814
- Title: Natural Fingerprints of Large Language Models
- Title(参考訳): 大規模言語モデルの自然なフィンガープリント
- Authors: Teppei Suzuki, Ryokan Ri, Sho Takase,
- Abstract要約: 大規模言語モデル(LLM)は出力にバイアスを示すことが多い。
これらは不公平な反応のような過度な問題から、どのモデルが生成したのかを明らかにする微妙なパターンまで様々である。
LLMの特徴を識別する要因について検討する。
- 参考スコア(独自算出の注目度): 36.221625684689414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often exhibit biases -- systematic deviations from expected norms -- in their outputs. These range from overt issues, such as unfair responses, to subtler patterns that can reveal which model produced them. We investigate the factors that give rise to identifiable characteristics in LLMs. Since LLMs model training data distribution, it is reasonable that differences in training data naturally lead to the characteristics. However, our findings reveal that even when LLMs are trained on the exact same data, it is still possible to distinguish the source model based on its generated text. We refer to these unintended, distinctive characteristics as natural fingerprints. By systematically controlling training conditions, we show that the natural fingerprints can emerge from subtle differences in the training process, such as parameter sizes, optimization settings, and even random seeds. We believe that understanding natural fingerprints offers new insights into the origins of unintended bias and ways for improving control over LLM behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば、その出力にバイアス(予想される基準からの体系的な逸脱)を示す。
これらは不公平な反応のような過度な問題から、どのモデルが生成したのかを明らかにする微妙なパターンまで様々である。
LLMの特徴を識別する要因について検討する。
LLMはトレーニングデータ分布をモデル化するので、トレーニングデータの違いが自然にその特性につながることは合理的である。
しかし,本研究の結果から,LLMが全く同じデータで訓練されている場合でも,生成したテキストに基づいてソースモデルを識別することが可能であることが判明した。
我々は、これらの意図しない特徴を自然の指紋として言及する。
トレーニング条件を体系的に制御することにより,パラメータサイズや最適化設定,さらにはランダムシードなど,トレーニングプロセスの微妙な違いから,自然な指紋が出現することを示す。
自然の指紋を理解することは、意図しない偏見の起源とLCMの行動制御を改善する方法に新たな洞察を与えると考えている。
関連論文リスト
- I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [79.01538178959726]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表される人間の解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Unnatural Languages Are Not Bugs but Features for LLMs [92.8332103170009]
大規模言語モデル(LLM)は、ジェイルブレイクプロンプトなどの非可読テキストシーケンスを処理するために観察されている。
我々はこの認識に挑戦する体系的な調査を行い、非自然言語にはモデルで使用可能な潜在的特徴が含まれていることを示した。
論文 参考訳(メタデータ) (2025-03-02T12:10:17Z) - Deterministic or probabilistic? The psychology of LLMs as random number generators [0.0]
大規模言語モデル(LLM)は、本質的に確率的文脈認識機構を通じてテキスト生成を変換している。
この結果から, 変圧器をベースとしたモデルでは, ランダムな数値出力を誘導すると, 決定論的応答が生じることが判明した。
論文 参考訳(メタデータ) (2025-02-27T10:45:27Z) - DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。
本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文 参考訳(メタデータ) (2025-02-25T16:44:10Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Lost in Inference: Rediscovering the Role of Natural Language Inference for Large Language Models [36.983534612895156]
近年、自然言語理解(NLU)を評価する一般的な方法は、自然言語推論(NLI)タスクを実行するモデルの能力を検討することである。
本稿では,異なるスケールの6つのモデルにわたる5つの異なるNLIベンチマークに焦点を当てる。
我々は,異なるサイズと品質のモデルを識別できるかどうか,トレーニング中にその精度がどのように発達するかを検討する。
論文 参考訳(メタデータ) (2024-11-21T13:09:36Z) - Distinguishing the Knowable from the Unknowable with Language Models [15.471748481627143]
地中真理確率の欠如において、与えられた不確実性を解き放つために、より大きなモデルが地中真理の代用として現れるような設定を探索する。
凍結, 事前訓練されたモデルの埋め込みを訓練した小さな線形プローブが, トークンレベルでより大きなモデルがより自信を持つようになる時期を正確に予測することを示した。
我々は,同じタスクにおいて非自明な精度を実現する,完全に教師なしの手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T22:22:49Z) - HuRef: HUman-REadable Fingerprint for Large Language Models [44.9820558213721]
HuRefは、大きな言語モデルのための人間可読指紋である。
トレーニングやモデルパラメータを公開することなく、ベースモデルを独自に識別する。
論文 参考訳(メタデータ) (2023-12-08T05:01:47Z) - Do pretrained Transformers Learn In-Context by Gradient Descent? [21.23795112800977]
本稿では,自然データを用いた言語モデル(LLaMa-7B)における文脈内学習(ICL)の出現について検討する。
ICL と Gradient Descent (GD) は言語モデルの出力分布を異なる方法で変更する。
これらの結果は、ICLとGDの同値性は未解決の仮説であり、さらなる研究が必要であることを示唆している。
論文 参考訳(メタデータ) (2023-10-12T17:32:09Z) - Personality Traits in Large Language Models [42.31355340867784]
コミュニケーションの有効性を決定する重要な要因は人格である。
本稿では,広く使用されている大規模言語モデル上でのパーソナリティテストの管理と検証のための,新しい,包括的・包括的心理学的・信頼性の高い方法論を提案する。
本稿では,計測・形成手法の適用と倫理的意味,特に責任あるAIについて論じる。
論文 参考訳(メタデータ) (2023-07-01T00:58:51Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。