論文の概要: Exploring Next Token Prediction in Theory of Mind (ToM) Tasks: Comparative Experiments with GPT-2 and LLaMA-2 AI Models
- arxiv url: http://arxiv.org/abs/2504.15604v1
- Date: Tue, 22 Apr 2025 05:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 22:14:20.175674
- Title: Exploring Next Token Prediction in Theory of Mind (ToM) Tasks: Comparative Experiments with GPT-2 and LLaMA-2 AI Models
- Title(参考訳): 心の理論(ToM)課題における次のトークン予測の探索:GPT-2とLLaMA-2AIモデルとの比較実験
- Authors: Pavan Yadav, Nikhil Khandalkar, Krishna Shinde, Lokesh B. Ramegowda, Rajarshi Das,
- Abstract要約: OpenAI の GPT-2 と Meta-token の Llama-2-7b-7bhf on Theory of Mind (ToM) データセット。
Llama-2は、特に低温において、予測精度においてGPT-2より一貫して優れる。
推論の複雑さが増大するにつれて、モデル応答はさらに多様化する。
- 参考スコア(独自算出の注目度): 4.39614901077936
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language models have made significant progress in generating coherent text and predicting next tokens based on input prompts. This study compares the next-token prediction performance of two well-known models: OpenAI's GPT-2 and Meta's Llama-2-7b-chat-hf on Theory of Mind (ToM) tasks. To evaluate their capabilities, we built a dataset from 10 short stories sourced from the Explore ToM Dataset. We enhanced these stories by programmatically inserting additional sentences (infills) using GPT-4, creating variations that introduce different levels of contextual complexity. This setup enables analysis of how increasing context affects model performance. We tested both models under four temperature settings (0.01, 0.5, 1.0, 2.0) and evaluated their ability to predict the next token across three reasoning levels. Zero-order reasoning involves tracking the state, either current (ground truth) or past (memory). First-order reasoning concerns understanding another's mental state (e.g., "Does Anne know the apple is salted?"). Second-order reasoning adds recursion (e.g., "Does Anne think that Charles knows the apple is salted?"). Our results show that adding more infill sentences slightly reduces prediction accuracy, as added context increases complexity and ambiguity. Llama-2 consistently outperforms GPT-2 in prediction accuracy, especially at lower temperatures, demonstrating greater confidence in selecting the most probable token. As reasoning complexity rises, model responses diverge more. Notably, GPT-2 and Llama-2 display greater variability in predictions during first- and second-order reasoning tasks. These findings illustrate how model architecture, temperature, and contextual complexity influence next-token prediction, contributing to a better understanding of the strengths and limitations of current language models.
- Abstract(参考訳): 言語モデルは、コヒーレントテキストの生成と入力プロンプトに基づいた次のトークンの予測において、大きな進歩を遂げている。
本研究では,OpenAI の GPT-2 と Meta の Llama-2-7b-chat-hf という2つのよく知られたモデルの次のトーケン予測性能を比較した。
それらの機能を評価するために、Explore ToM Datasetから得られた10の短いストーリーからデータセットを構築しました。
GPT-4を用いて追加文(補充文)をプログラム的に挿入することで,文脈的複雑さのレベルが異なる変化を生じさせることにより,これらのストーリーを強化した。
この設定により、コンテキストの増加がモデルパフォーマンスに与える影響を分析することができる。
両モデルを4つの温度設定(0.01,0.5,1.0,2.0)でテストし,次のトークンを3つの推論レベルにわたって予測する能力を評価した。
ゼロオーダー推論では、現在の(地上の真実)または過去の(メモリ)の状態を追跡する。
第一の理由づけは、他人の精神状態を理解すること(例:アンヌはリンゴが塩漬けであることを知っているか?)である。
2階の推論では再帰が加えられる(例:アンヌはチャールズがリンゴが塩漬けだと知っているのか?)。
以上の結果から,追加の文脈が複雑性と曖昧さを増大させるにつれて,入力文の追加が予測精度をわずかに低下させることが明らかとなった。
Llama-2 は GPT-2 を予測精度、特に低い温度で一貫して上回り、最も確率の高いトークンを選択する自信を示す。
推論の複雑さが増大するにつれて、モデル応答はさらに多様化する。
特に、GPT-2とLlama-2は、一階と二階の推論タスクにおける予測のばらつきが大きい。
これらの知見は、モデルアーキテクチャ、温度、文脈の複雑さが次世代の予測にどのように影響するかを示し、現在の言語モデルの長所と短所をよりよく理解するのに役立つ。
関連論文リスト
- LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception [105.78609483419115]
我々はLongPerceptualThoughtsを紹介した。これは知覚タスクのための30Kの長所のトレースを持つ新しい合成データセットである。
本稿では,検証可能な複数の質問を最初に合成する新しい3段階データ合成フレームワークを提案する。
既存の視覚的推論データ生成手法よりも顕著な改善が示された。
論文 参考訳(メタデータ) (2025-04-21T18:10:38Z) - Predicting Through Generation: Why Generation Is Better for Prediction [10.098410272203301]
本稿では,トークンレベルの生成が相互情報を保持するため,予測タスクにプール表現を使用するよりも,出力トークンの生成の方が効果的であると主張している。
PredGenは、(i)露光バイアスを減らすためにスケジュールサンプリングを使用するエンド・ツー・エンドのフレームワークで、(ii)生成されたトークンを構造化された出力に変換するタスクアダプタを導入します。
以上の結果から,PredGenは標準ベースラインを一貫して上回り,構造化予測タスクの有効性を示した。
論文 参考訳(メタデータ) (2025-02-25T03:48:19Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - Back Attention: Understanding and Enhancing Multi-Hop Reasoning in Large Language Models [51.53835083483751]
我々は,「ヴォルフガング・アマデウス・モーツァルトの母の配偶者」のようなプロンプトにおいて,大規模言語モデルが潜在マルチホップ推論をどのように行うかを検討する。
故障は相関属性抽出の段階に起因することが多く、矛盾するロジットが予測精度を低下させる。
注意計算において,下位層が異なる位置から高層隠れ状態を利用することができる機構であるバックアテンションを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:36:42Z) - Improving Next Tokens via Second-to-Last Predictions with Generate and Refine [1.8592384822257952]
トークン列の2番目から最後のトークンを予測するために,デコーダのみのアーキテクチャをトレーニングする。
提案手法により,BERTモデルよりも高い計算訓練効率が得られる。
論文 参考訳(メタデータ) (2024-11-23T22:09:58Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation [110.71955853831707]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。
我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。
複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文 参考訳(メタデータ) (2024-02-05T18:25:51Z) - Embroid: Unsupervised Prediction Smoothing Can Improve Few-Shot
Classification [20.85088711770188]
ラベル付きデータを追加せずに即時学習を改善することができることを示す。
組込み関数の異なるデータセットの複数の表現を演算するEmbroidを提案する。
Embroidはオリジナルのプロンプトよりも性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:07:28Z) - Why Can GPT Learn In-Context? Language Models Implicitly Perform
Gradient Descent as Meta-Optimizers [93.9369467909176]
メタ最適化として言語モデルを説明し、文脈内学習を暗黙の微調整として理解する。
テキスト内学習は、複数の視点からの明示的な微調整と同様の振る舞いを示す。
バニラに対するパフォーマンスの向上は、別の観点からの理解をさらに後押しします。
論文 参考訳(メタデータ) (2022-12-20T18:58:48Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。