論文の概要: The Idola Tribus of AI: Large Language Models tend to perceive order where none exists
- arxiv url: http://arxiv.org/abs/2510.09709v1
- Date: Fri, 10 Oct 2025 02:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.576424
- Title: The Idola Tribus of AI: Large Language Models tend to perceive order where none exists
- Title(参考訳): AIのIdola Tribus: 大規模言語モデルは、存在しない順序を知覚する傾向がある
- Authors: Shin-nosuke Ishikawa, Masato Todo, Taiki Ogihara, Hirotsugu Ohba,
- Abstract要約: 我々は,不適切であるにもかかわらず,大きな言語モデル (LLM) が不適切なパターンを生成する傾向を示す。
この傾向は、Idola Tribusに相当するAIモデルと解釈できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a tendency of large language models (LLMs) to generate absurd patterns despite their clear inappropriateness in a simple task of identifying regularities in number series. Several approaches have been proposed to apply LLMs to complex real-world tasks, such as providing knowledge through retrieval-augmented generation and executing multi-step tasks using AI agent frameworks. However, these approaches rely on the logical consistency and self-coherence of LLMs, making it crucial to evaluate these aspects and consider potential countermeasures. To identify cases where LLMs fail to maintain logical consistency, we conducted an experiment in which LLMs were asked to explain the patterns in various integer sequences, ranging from arithmetic sequences to randomly generated integer series. While the models successfully identified correct patterns in arithmetic and geometric sequences, they frequently over-recognized patterns that were inconsistent with the given numbers when analyzing randomly generated series. This issue was observed even in multi-step reasoning models, including OpenAI o3, o4-mini, and Google Gemini 2.5 Flash Preview Thinking. This tendency to perceive non-existent patterns can be interpreted as the AI model equivalent of Idola Tribus and highlights potential limitations in their capability for applied tasks requiring logical reasoning, even when employing chain-of-thought reasoning mechanisms.
- Abstract(参考訳): 本稿では,大言語モデル (LLM) が,数列内の正規性を識別する簡単なタスクにおいて,不適切であるにもかかわらず,不適切なパターンを生成する傾向を示す。
検索強化生成による知識提供や、AIエージェントフレームワークを使用した多段階タスクの実行など、複雑な実世界のタスクにLLMを適用するためのいくつかのアプローチが提案されている。
しかし、これらのアプローチはLLMの論理的一貫性と自己整合性に依存しており、これらの側面を評価し、潜在的な対策を検討することが重要である。
LLMが論理的整合性を維持するのに失敗するケースを特定するために、算術列からランダムに生成された整数列まで、様々な整数列のパターンを説明するためにLLMが要求された実験を行った。
モデルは、算術的および幾何学的シーケンスにおける正しいパターンを識別することに成功したが、ランダムに生成された系列を分析する際に、与えられた数と矛盾しないパターンをしばしば過度に認識した。
この問題はOpenAI o3、o4-mini、Google Gemini 2.5 Flash Preview Thinkingなど、多段階の推論モデルでも観察された。
この非存在的パターンを知覚する傾向は、Idola Tribusに相当するAIモデルとして解釈することができ、たとえチェーン・オブ・オブ・シークレットの推論メカニズムを採用したとしても、論理的推論を必要とするタスクに適用する能力の潜在的な制限を強調している。
関連論文リスト
- seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs [1.0519693622157462]
我々は,Large Language Models (LLMs) における逐次推論限界を探索するベンチマークであるseqBenchを紹介する。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造的推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗することがわかった。
論文 参考訳(メタデータ) (2025-09-21T01:32:13Z) - Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。
計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。
最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文 参考訳(メタデータ) (2025-07-09T22:22:49Z) - Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - FOL-Pretrain: A complexity annotated corpus of first-order logic [16.061040115094592]
トランスフォーマーベースの大規模言語モデル(LLM)は、顕著な推論能力を示している。
LLMの振る舞いをリバースエンジニアリングしようとする最近の試みにもかかわらず、これらのモデルがどのように複雑なアルゴリズムの内部化と実行を行うかについての理解は依然として限られている。
本稿では,大規模かつ完全にオープンな,一階述語論理推論トレースの複雑性アノテーション付きデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-20T21:38:28Z) - Towards Understanding Multi-Round Large Language Model Reasoning: Approximability, Learnability and Generalizability [18.54202114336492]
マルチラウンド自動回帰モデルの近似,学習可能性,一般化特性について検討する。
有限コンテキストウィンドウを持つ変換器はチューリング計算可能関数のステップに対する普遍近似器であることを示す。
我々はPAC学習をシーケンス生成に拡張し、シーケンス長がモデルのコンテキストウィンドウを超えた場合でも、マルチラウンド生成が学習可能であることを示す。
論文 参考訳(メタデータ) (2025-03-05T02:50:55Z) - Randomly Sampled Language Reasoning Problems Elucidate Limitations of In-Context Learning [9.75748930802634]
機械学習の性能を向上させるために,テキスト内学習の能力について検討する。
非常に単純なドメインを考える: 単純な言語タスクにおける次のトークン予測。
この課題において LLM は n-gram モデルに一様に劣ることがわかった。
論文 参考訳(メタデータ) (2025-01-06T07:57:51Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。
このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-06T00:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。