論文の概要: Natural Fingerprints of Large Language Models
- arxiv url: http://arxiv.org/abs/2504.14871v2
- Date: Fri, 19 Sep 2025 03:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 14:11:06.983008
- Title: Natural Fingerprints of Large Language Models
- Title(参考訳): 大規模言語モデルの自然なフィンガープリント
- Authors: Teppei Suzuki, Ryokan Ri, Sho Takase,
- Abstract要約: 大規模な言語モデルがまったく同じデータセットでトレーニングされている場合でも、その出力は区別可能であることを示す。
我々は、これらの意図しない特徴を自然の指紋として言及する。
これらの結果は、トレーニングダイナミクスがデータやアーキテクチャに依存しないモデル動作を体系的に形成できることを示唆している。
- 参考スコア(独自算出の注目度): 19.87526607747389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have shown that the outputs from large language models (LLMs) can often reveal the identity of their source model. While this is a natural consequence of LLMs modeling the distribution of their training data, such identifiable traces may also reflect unintended characteristics with potential implications for fairness and misuse. In this work, we go one step further and show that even when LLMs are trained on exactly the same dataset, their outputs remain distinguishable, suggesting that training dynamics alone can leave recognizable patterns. We refer to these unintended, distinctive characteristics as natural fingerprints. By systematically controlling training conditions, we show that the natural fingerprints can emerge from subtle differences in the training process, such as parameter sizes, optimization settings, and even random seeds. These results suggest that training dynamics can systematically shape model behavior, independent of data or architecture, and should be explicitly considered in future research on transparency, reliability, and interpretability.
- Abstract(参考訳): 近年の研究では、大きな言語モデル(LLM)からの出力が、しばしばソースモデルの同一性を明らかにすることが示されている。
このことは、LLMがトレーニングデータの分布をモデル化する自然な結果であるが、そのような識別可能な痕跡は、意図しない特徴を反映し、公正さや誤用につながる可能性がある。
この研究では、さらに一歩進んで、LLMがまったく同じデータセットでトレーニングされている場合でも、その出力は区別可能であることを示し、トレーニングダイナミクスだけでは認識可能なパターンを残すことができることを示唆している。
我々は、これらの意図しない特徴を自然の指紋として言及する。
トレーニング条件を体系的に制御することにより,パラメータサイズや最適化設定,さらにはランダムシードなど,トレーニングプロセスの微妙な違いから,自然な指紋が出現することを示す。
これらの結果は、トレーニングダイナミクスが、データやアーキテクチャに依存しないモデル動作を体系的に形成し、透明性、信頼性、解釈可能性に関する将来の研究で明確に考慮すべきであることを示唆している。
関連論文リスト
- Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs [51.00909549291524]
大型言語モデル(LLM)は認知バイアスを示す。
これらのバイアスはモデルによって異なり、命令チューニングによって増幅することができる。
これらのバイアスの違いが事前学習、微調整、あるいはランダムノイズに起因するかどうかは不明だ。
論文 参考訳(メタデータ) (2025-07-09T18:01:14Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [79.01538178959726]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表される人間の解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Unnatural Languages Are Not Bugs but Features for LLMs [92.8332103170009]
大規模言語モデル(LLM)は、ジェイルブレイクプロンプトなどの非可読テキストシーケンスを処理するために観察されている。
我々はこの認識に挑戦する体系的な調査を行い、非自然言語にはモデルで使用可能な潜在的特徴が含まれていることを示した。
論文 参考訳(メタデータ) (2025-03-02T12:10:17Z) - Deterministic or probabilistic? The psychology of LLMs as random number generators [0.0]
大規模言語モデル(LLM)は、本質的に確率的文脈認識機構を通じてテキスト生成を変換している。
この結果から, 変圧器をベースとしたモデルでは, ランダムな数値出力を誘導すると, 決定論的応答が生じることが判明した。
論文 参考訳(メタデータ) (2025-02-27T10:45:27Z) - DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。
本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文 参考訳(メタデータ) (2025-02-25T16:44:10Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Lost in Inference: Rediscovering the Role of Natural Language Inference for Large Language Models [36.983534612895156]
近年、自然言語理解(NLU)を評価する一般的な方法は、自然言語推論(NLI)タスクを実行するモデルの能力を検討することである。
本稿では,異なるスケールの6つのモデルにわたる5つの異なるNLIベンチマークに焦点を当てる。
我々は,異なるサイズと品質のモデルを識別できるかどうか,トレーニング中にその精度がどのように発達するかを検討する。
論文 参考訳(メタデータ) (2024-11-21T13:09:36Z) - Distinguishing the Knowable from the Unknowable with Language Models [15.471748481627143]
地中真理確率の欠如において、与えられた不確実性を解き放つために、より大きなモデルが地中真理の代用として現れるような設定を探索する。
凍結, 事前訓練されたモデルの埋め込みを訓練した小さな線形プローブが, トークンレベルでより大きなモデルがより自信を持つようになる時期を正確に予測することを示した。
我々は,同じタスクにおいて非自明な精度を実現する,完全に教師なしの手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T22:22:49Z) - HuRef: HUman-REadable Fingerprint for Large Language Models [44.9820558213721]
HuRefは、大きな言語モデルのための人間可読指紋である。
トレーニングやモデルパラメータを公開することなく、ベースモデルを独自に識別する。
論文 参考訳(メタデータ) (2023-12-08T05:01:47Z) - Do pretrained Transformers Learn In-Context by Gradient Descent? [21.23795112800977]
本稿では,自然データを用いた言語モデル(LLaMa-7B)における文脈内学習(ICL)の出現について検討する。
ICL と Gradient Descent (GD) は言語モデルの出力分布を異なる方法で変更する。
これらの結果は、ICLとGDの同値性は未解決の仮説であり、さらなる研究が必要であることを示唆している。
論文 参考訳(メタデータ) (2023-10-12T17:32:09Z) - Personality Traits in Large Language Models [42.31355340867784]
コミュニケーションの有効性を決定する重要な要因は人格である。
本稿では,広く使用されている大規模言語モデル上でのパーソナリティテストの管理と検証のための,新しい,包括的・包括的心理学的・信頼性の高い方法論を提案する。
本稿では,計測・形成手法の適用と倫理的意味,特に責任あるAIについて論じる。
論文 参考訳(メタデータ) (2023-07-01T00:58:51Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。