論文の概要: Large Model Strategic Thinking, Small Model Efficiency: Transferring Theory of Mind in Large Language Models
- arxiv url: http://arxiv.org/abs/2408.05241v3
- Date: Tue, 20 Aug 2024 18:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 21:46:26.811053
- Title: Large Model Strategic Thinking, Small Model Efficiency: Transferring Theory of Mind in Large Language Models
- Title(参考訳): 大規模モデルストラテジック思考と小型モデル効率:大規模言語モデルにおける心の伝達理論
- Authors: Nunzio Lore, Alireza Sepehr Ilami, Babak Heydari,
- Abstract要約: 微調整による小型かつ高性能な特殊アルゴリズムの実現可能性について検討する。
まず,異なる社会的文脈と異なる社会的ジレンマのゲームを組み合わせて,その回答を記録し,Q&Aの微調整に使用する,20種類のシナリオを持つ大規模事前学習モデルを提案する。
微調整されたより小さな言語モデルは、より小さな事前訓練されたモデルとより大きな相対性の間の性能のギャップを一貫して橋渡しすることを発見した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As the performance of larger, newer Large Language Models continues to improve for strategic Theory of Mind (ToM) tasks, the demand for these state-of-the-art models increases commensurately. However, their deployment is costly both in terms of processing power and time. In this paper, we investigate the feasibility of creating smaller, highly-performing specialized algorithms by way of fine-tuning. To do this, we first present a large pre-trained model with 20 unique scenarios that combine different social contexts with games of varying social dilemmas, record its answers, and use them for Q&A fine-tuning on a smaller model of the same family. Our focus is on in-context game-theoretic decision-making, the same domain within which human interaction occurs and that requires both a theory of mind (or a semblance thereof) and an understanding of social dynamics. The smaller model is therefore trained not just on the answers provided, but also on the motivations provided by the larger model, which should contain advice and guidelines to navigate both strategic dilemmas and social cues. We find that the fine-tuned smaller language model consistently bridged the gap in performance between the smaller pre-trained version of the model and its larger relative and that its improvements extended in areas and contexts beyond the ones provided in the training examples, including on out-of-sample scenarios that include completely different game structures. On average for all games, through fine-tuning, the smaller model showed a 46% improvement measured as alignment towards the behavior of the larger model, with 100% representing indistinguishable behavior. When presented with out-of-sample social contexts and games, the fine-tuned model still displays remarkable levels of alignment, reaching an improvement of 18% and 28% respectively.
- Abstract(参考訳): より大きな、より新しい大規模言語モデルの性能は、戦略的思考理論(ToM)タスクの改善を続けており、これらの最先端モデルの需要は必然的に増加する。
しかし、彼らのデプロイメントは処理能力と時間の両方においてコストがかかる。
本稿では,より小型で高性能な特殊アルゴリズムの実現可能性について,微調整により検討する。
そこで我々はまず,異なる社会的文脈と異なる社会的ジレンマのゲームを組み合わせて,その回答を記録し,同じ家族のより小さなモデルを用いたQ&A微調整に使用する,20種類のシナリオを持つ大規模事前学習モデルを提案する。
我々の焦点は、人間同士の相互作用が起こるのと同じ領域であり、心の理論(またはそのセマンス)と社会的ダイナミクスの理解の両方を必要とする、コンテキスト内ゲーム理論による意思決定である。
したがって、より小さなモデルは、提供された回答だけでなく、より大きなモデルが提供するモチベーションに基づいて訓練され、戦略ジレンマと社会的手がかりの両方をナビゲートするためのアドバイスとガイドラインを含むべきである。
細調整された小さな言語モデルは、より小さな事前学習版とより大きな相対性モデルの間のパフォーマンスのギャップを一貫して橋渡しし、その改善が、全く異なるゲーム構造を含むアウト・オブ・サンプルのシナリオを含むトレーニング例以外の領域や文脈で拡張されていることを発見した。
全ゲームの平均では、微調整により、より小さなモデルでは、より大きなモデルの動作に対するアライメントとして測定された46%の改善が示され、100%は区別不能な動作を表している。
アウトオブサンプルのソーシャルコンテキストとゲームで提示された場合、微調整されたモデルでは、それぞれ18%と28%の改善が達成された。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - Using Game Play to Investigate Multimodal and Conversational Grounding in Large Multimodal Models [14.878276985702685]
本稿では,テキストモデルからマルチモーダルモデルへの評価パラダイムを提案する。
我々は、視覚情報から状況を表現するためのモデルの能力に挑戦するゲームを定義し、対話を通じてそのような表現を調整する。
最大のクローズドモデルは、私たちが定義したゲームでかなりよく機能し、最高のオープンウェイトモデルでさえそれらと苦労している。
論文 参考訳(メタデータ) (2024-06-20T06:56:19Z) - Understanding Model Selection For Learning In Strategic Environments [5.634574808559901]
モデルが持つデータ量が多ければ多いほど、パフォーマンスが向上します。
本稿では,アクションゲームにおけるアクションセットとして,エージェントがさまざまなモデルクラスを選択しようとする新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-12T11:41:42Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Foundation models in brief: A historical, socio-technical focus [2.5991265608180396]
ディープラーニングをスケールアップすることで、将来のAI開発には、ファンデーションモデルが破壊的になる可能性がある。
モデルは自然言語処理やコンピュータビジョンといった分野における様々なタスクにおいて最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-17T22:11:33Z) - Multi-Modal Open-Domain Dialogue [28.69395893943413]
オープンドメインの会話エージェントにおける最近の研究は、大規模なスケーリングによって、モデルエンゲージネスと人文性メトリクスの大幅な改善が達成できることを実証している。
我々は、最先端のオープンドメイン対話エージェントと最先端のビジョンモデルからのコンポーネントの組み合わせについて検討する。
提案手法は,マルチモーダル対話において,既存モデルよりも優れた性能を示すと同時に,先行モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-10-02T16:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。