論文の概要: Post-training makes large language models less human-like
- arxiv url: http://arxiv.org/abs/2605.07632v1
- Date: Fri, 08 May 2026 11:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.026308
- Title: Post-training makes large language models less human-like
- Title(参考訳): ポストトレーニングで大きな言語モデルが人間らしくなくなる
- Authors: Marcel Binz, Elif Akata, Abdullah Almaatouq, Mohammed Alsobay, Oleksii Ariasov, Franziska Brändle, David Broska, Jason W. Burton, Nuno Busch, Frederick Callaway, Vanessa Cheung, Brian Christian, Julian Coda-Forno, Can Demircan, Vittoria Dentella, Maria K. Eckstein, Noémi Éltető, Michael Franke, Thomas L. Griffiths, Fritz Günther, Susanne Haridi, Sebastian Hellmann, Stefan Herytash, Linus Hof, Eleanor Holton, Isabelle Hoxha, Zak Hussain, Akshay Jagadish, Elif Kara, Valentin Kriegmair, Evelina Leivada, Li Ji-An, Tobias Ludwig, Maximilian Maier, Marcelo G. Mattar, Marvin Mathony, Alireza Modirshanechi, Robin Na, Mariia Nadverniuk, Antonios Nasioulas, Surabhi S. Nath, Helen Niemeyer, Kate Nussenbaum, Sebastian Olschewski, Thorsten Pachur, Stefano Palminteri, Aliona Petrenco, Camille V. Phaneuf-Hadd, Angelo Pirrone, Manuel Rausch, Laura Raveling, Shashank Reddy, Milena Rmus, Evan M. Russek, Tankred Saanum, Kai Sandbrink, Louis Schiekiera, Johannes A. Schubert, Luca M. Schulze Buschoff, Nishad Singhi, Leah H. Somerville, Mikhail S. Spektor, Xin Sui, Christopher Summerfield, Mirko Thalmann, Anna I. Thoma, Taisiia Tikhomirova, Vuong Truong, Polina Tsvilodub, Konstantinos Voudouris, Robert C. Wilson, Kristin Witte, Shuchen Wu, Dirk U. Wulff, Hua-Dong Xiong, Songlin Xu, Lance Ying, Xinyu Zhang, Jian-Qiao Zhu, Eric Schulz,
- Abstract要約: 我々は,行動アライメントを大規模に測定できる新しいデータセット Psych-201 を紹介した。
ポストトレーニングは、モデルファミリー、サイズ、目的をまたいだ人間の行動との整合性を一貫して減少させる。
また,ペルソナ誘導は個人レベルでの予測を改善できないことも確認した。
- 参考スコア(独自算出の注目度): 29.032250146907074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used as surrogates for human participants, but it remains unclear which models best capture human behavior and why. To address this, we introduce Psych-201, a novel dataset that enables us to measure behavioral alignment at scale. We find that post-training -- the stage that turns base models into useful assistants -- consistently reduces alignment with human behavior across model families, sizes, and objectives. Moreover, this misalignment widens in newer model generations even as base models continue to improve. Finally, we find that persona-induction -- a popular technique for eliciting human-like behavior by conditioning models on participant-specific information -- does not improve predictions at the level of individuals. Taken together, our results suggest that the very processes that are currently employed to turn LLMs into useful assistants also make them less accurate models of human behavior.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、人間の行動のサロゲートとして使われることが多いが、どのモデルが人間の行動や理由を最もよく捉えているかは定かではない。
そこで我々は,行動アライメントを大規模に測定できる新しいデータセットであるPsych-201を紹介した。
ベースモデルを有用なアシスタントに変える、ポストトレーニングは、モデルファミリ、サイズ、目的を越えた人間の行動との整合性を一貫して減少させる。
さらに、このミスアライメントは、ベースモデルの改善が続けられているにもかかわらず、新しいモデル世代で拡大する。
最後に、人格誘導(人格誘導)は、個人レベルでの予測を改善するものではないことを発見した。
まとめると、LLMを有用なアシスタントにするために現在使われているプロセスは、人間の行動の正確さを損なうことを示唆している。
関連論文リスト
- HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.55730315685837]
HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。
私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。
次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
論文 参考訳(メタデータ) (2026-01-22T09:27:27Z) - Can training neural language models on a curriculum with developmentally
plausible data improve alignment with human reading behavior? [0.2745342790938508]
本稿では,より発達的に妥当なデータを用いたモデル学習により,経験的行動とモデル予測行動の相違が最小化できる範囲について検討する。
我々は,BabyLMの「限定小」データセットを用いて教師言語モデルを訓練し,これらの教師モデルからの文レベル推定を用いてカリキュラムの作成を行った。
モデルが学習データから言語知識を習得し易いという仮の証拠が得られた。
論文 参考訳(メタデータ) (2023-11-30T18:03:58Z) - Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。
これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。
これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文 参考訳(メタデータ) (2023-06-06T18:00:01Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Optimal Behavior Prior: Data-Efficient Human Models for Improved
Human-AI Collaboration [0.5524804393257919]
人間のモデルに最適な振る舞いを先行して使用すると、これらのモデルの方がはるかにデータ効率が良くなることを示す。
また、これらの改良された人間モデルを使用することで、人間とAIのコラボレーションのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-11-03T06:10:22Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - A General Language Assistant as a Laboratory for Alignment [3.3598752405752106]
簡単なベースライン手法と,プロンプトなどの評価について検討する。
モデルサイズにより, 緩やかな介入による利点が増大し, 様々なアライメント評価に一般化され, 大規模モデルの性能を損なわないことがわかった。
本研究では,人間の嗜好を微調整する際のサンプル効率の向上を目標として,事前学習段階の選好モデルについて検討した。
論文 参考訳(メタデータ) (2021-12-01T22:24:34Z) - Natural Language Inference with a Human Touch: Using Human Explanations
to Guide Model Attention [39.41947934589526]
人間の説明によるトレーニングは、モデルが文章全体に広く参加することを奨励する。
教師付きモデルは、人間が信じている言葉に付随し、より堅牢でより優れたNLIモデルを生成する。
論文 参考訳(メタデータ) (2021-04-16T14:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。