論文の概要: Adaptive Token Boundaries: Integrating Human Chunking Mechanisms into Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2505.04637v1
- Date: Sat, 03 May 2025 09:14:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.59165
- Title: Adaptive Token Boundaries: Integrating Human Chunking Mechanisms into Multimodal LLMs
- Title(参考訳): 適応的トークン境界:人間のチャンキング機構をマルチモーダルLLMに統合する
- Authors: Dongxing Yu,
- Abstract要約: 本研究は,ヒトのクロスモーダルチャンキング機構とトークン表現手法の並列性について,系統的研究を行った。
本稿では,適応的境界,階層的表現,認知科学の原理に基づくアライメント機構を取り入れた動的クロスモーダルトークン化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in multimodal large language models (MLLMs) have demonstrated remarkable capabilities in processing diverse data types, yet significant disparities persist between human cognitive processes and computational approaches to multimodal information integration. This research presents a systematic investigation into the parallels between human cross-modal chunking mechanisms and token representation methodologies in MLLMs. Through empirical studies comparing human performance patterns with model behaviors across visual-linguistic tasks, we demonstrate that conventional static tokenization schemes fundamentally constrain current models' capacity to simulate the dynamic, context-sensitive nature of human information processing. We propose a novel framework for dynamic cross-modal tokenization that incorporates adaptive boundaries, hierarchical representations, and alignment mechanisms grounded in cognitive science principles. Quantitative evaluations demonstrate that our approach yields statistically significant improvements over state-of-the-art models on benchmark tasks (+7.8% on Visual Question Answering, +5.3% on Complex Scene Description) while exhibiting more human-aligned error patterns and attention distributions. These findings contribute to the theoretical understanding of the relationship between human cognition and artificial intelligence, while providing empirical evidence for developing more cognitively plausible AI systems.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、多様なデータ型を処理する際、顕著な能力を示してきたが、人間の認知過程とマルチモーダル情報統合に対する計算的アプローチとの間には大きな相違が持続している。
本研究は,MLLMにおけるヒトのクロスモーダルチャンキング機構とトークン表現手法の並列性に関する系統的研究である。
人間の行動パターンと視覚言語的タスク間のモデル行動を比較する実証的研究を通じて、従来の静的トークン化スキームは、人間の情報処理の動的で文脈に敏感な性質をシミュレートするために、現在のモデルの能力を根本的に制約することを示した。
本稿では,適応的境界,階層的表現,認知科学の原理に基づくアライメント機構を取り入れた動的クロスモーダルトークン化フレームワークを提案する。
定量的評価により, 提案手法は, ベンチマークタスクの最先端モデルに対して統計的に有意な改善が得られた(視覚質問回答+7.8%, 複合シーン記述+5.3%)。
これらの発見は、人間の認知と人工知能の関係に関する理論的理解に寄与し、より認知的に妥当なAIシステムを開発するための実証的な証拠を提供する。
関連論文リスト
- Artificial Behavior Intelligence: Technology, Challenges, and Future Directions [1.5237607855633524]
本稿では,ABI(Artificial Behavior Intelligence)の技術的枠組みを定義する。
ABIは、人間の姿勢、表情、感情、行動シーケンス、文脈的手がかりを包括的に分析し、解釈する。
ポーズ推定、顔と感情の認識、シーケンシャルな行動分析、文脈認識モデリングなど、ABIの本質的なコンポーネントについて詳述する。
論文 参考訳(メタデータ) (2025-05-06T08:45:44Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Discrete, compositional, and symbolic representations through attractor dynamics [51.20712945239422]
我々は,思考の確率的言語(PLoT)に似た認知過程をモデル化するために,アトラクタダイナミクスを記号表現と統合した新しいニューラルシステムモデルを導入する。
我々のモデルは、連続表現空間を、事前定義されたプリミティブに頼るのではなく、教師なし学習を通じて、記号系の意味性と構成性の特徴を反映する、記号列に対応する引き付け状態を持つ離散盆地に分割する。
このアプローチは、認知操作の複雑な双対性を反映したより包括的なモデルを提供する、AIにおける表現力の証明された神経弁別可能な基質であるニューラルダイナミクスを通じて、シンボル処理とサブシンボル処理の両方を統合する統一的なフレームワークを確立する。
論文 参考訳(メタデータ) (2023-10-03T05:40:56Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - A Meta-Bayesian Model of Intentional Visual Search [0.0]
本稿では,分類的知覚とササード計画の根底にある神経機構のベイズ的解釈を取り入れたビジュアルサーチの計算モデルを提案する。
擬似行動と人的行動の有意義な比較を可能にするため、参加者は視線に追従する窓から隠蔽されたMNIST桁を分類する必要がある。
本モデルは,観察された人間の行動から主観的パラメータを回収し,高い解釈可能性を維持しながら,分類精度などの人間の行動指標を再カプセル化することができる。
論文 参考訳(メタデータ) (2020-06-05T16:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。