Fugu-MT 論文翻訳(概要): Adaptive Token Boundaries: Integrating Human Chunking Mechanisms into Multimodal LLMs

論文の概要: Adaptive Token Boundaries: Integrating Human Chunking Mechanisms into Multimodal LLMs

arxiv url: http://arxiv.org/abs/2505.04637v1
Date: Sat, 03 May 2025 09:14:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 21:43:49.59165
Title: Adaptive Token Boundaries: Integrating Human Chunking Mechanisms into Multimodal LLMs
Title（参考訳）: 適応的トークン境界:人間のチャンキング機構をマルチモーダルLLMに統合する
Authors: Dongxing Yu,
Abstract要約: 本研究は,ヒトのクロスモーダルチャンキング機構とトークン表現手法の並列性について,系統的研究を行った。本稿では,適応的境界,階層的表現,認知科学の原理に基づくアライメント機構を取り入れた動的クロスモーダルトークン化フレームワークを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advancements in multimodal large language models (MLLMs) have demonstrated remarkable capabilities in processing diverse data types, yet significant disparities persist between human cognitive processes and computational approaches to multimodal information integration. This research presents a systematic investigation into the parallels between human cross-modal chunking mechanisms and token representation methodologies in MLLMs. Through empirical studies comparing human performance patterns with model behaviors across visual-linguistic tasks, we demonstrate that conventional static tokenization schemes fundamentally constrain current models' capacity to simulate the dynamic, context-sensitive nature of human information processing. We propose a novel framework for dynamic cross-modal tokenization that incorporates adaptive boundaries, hierarchical representations, and alignment mechanisms grounded in cognitive science principles. Quantitative evaluations demonstrate that our approach yields statistically significant improvements over state-of-the-art models on benchmark tasks (+7.8% on Visual Question Answering, +5.3% on Complex Scene Description) while exhibiting more human-aligned error patterns and attention distributions. These findings contribute to the theoretical understanding of the relationship between human cognition and artificial intelligence, while providing empirical evidence for developing more cognitively plausible AI systems.
Abstract（参考訳）: マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、多様なデータ型を処理する際、顕著な能力を示してきたが、人間の認知過程とマルチモーダル情報統合に対する計算的アプローチとの間には大きな相違が持続している。本研究は,MLLMにおけるヒトのクロスモーダルチャンキング機構とトークン表現手法の並列性に関する系統的研究である。人間の行動パターンと視覚言語的タスク間のモデル行動を比較する実証的研究を通じて、従来の静的トークン化スキームは、人間の情報処理の動的で文脈に敏感な性質をシミュレートするために、現在のモデルの能力を根本的に制約することを示した。本稿では,適応的境界,階層的表現,認知科学の原理に基づくアライメント機構を取り入れた動的クロスモーダルトークン化フレームワークを提案する。定量的評価により, 提案手法は, ベンチマークタスクの最先端モデルに対して統計的に有意な改善が得られた(視覚質問回答+7.8%, 複合シーン記述+5.3%)。これらの発見は、人間の認知と人工知能の関係に関する理論的理解に寄与し、より認知的に妥当なAIシステムを開発するための実証的な証拠を提供する。

関連論文リスト

Role-Playing Agents Driven by Large Language Models: Current Status, Challenges, and Future Trends [6.249024503883953]
本稿では、ロールプレイング言語エージェント(RPLA)の現況とキー技術について体系的にレビューする。心理的スケール駆動型キャラクターモデリング、メモリ拡張プロンプト機構、モチベーションに基づく行動決定制御など、高品質なロールプレイングをサポートする重要な技術経路を要約する。本稿では、パーソナリティ進化モデル、マルチエージェントのコラボレーティブな物語、マルチモーダルな没入型相互作用、認知神経科学の統合など、ロールプレイングエージェントの今後の開発方向性について概説する。
論文参考訳（メタデータ） (2026-01-15T07:08:20Z)
LVLM-Aided Alignment of Task-Specific Vision Models [49.96265491629163]
タスク固有の視覚モデルは、高い領域において不可欠である。本稿では,タスク固有の視覚モデルと人間のドメイン知識を協調する,新しい,効率的な手法を提案する。提案手法は, モデル動作と人間の仕様との整合性を大幅に向上させる。
論文参考訳（メタデータ） (2025-12-26T11:11:25Z)
Humanoid-inspired Causal Representation Learning for Domain Generalization [27.034416329441097]
Humanoid-Inspired Structure Causal Model (HSCM)は、人間の知性にインスパイアされた新しい因果関係の枠組みである。キーイメージ属性のアンタングル化と再重み付けにより、HSCMは様々な領域にわたる一般化を強化する。
論文参考訳（メタデータ） (2025-10-18T07:38:45Z)
Large Language Models as Psychological Simulators: A Methodological Guide [0.0]
本稿では,2つの主要なアプリケーションを対象とした心理シミュレータとして,大規模言語モデルを使用するためのフレームワークを提供する。シミュレーションでは,集団的カテゴリーを超えて心理的基盤を持つペルソナを開発する手法を提案する。我々は、素早い感度、トレーニングデータカットオフからの時間的制限、従来の人的対象のレビューを超えて広がる倫理的考慮など、包括的な課題に対処する。
論文参考訳（メタデータ） (2025-06-20T02:45:23Z)
Dynamic Programming Techniques for Enhancing Cognitive Representation in Knowledge Tracing [125.75923987618977]
認知表現動的プログラミングに基づく知識追跡(CRDP-KT)モデルを提案する。質問の難易度とそれらの間の性能間隔に基づいて認知表現を最適化する動的プログラミングアルゴリズムである。これは、その後のモデルトレーニングのためにより正確で体系的な入力機能を提供し、それによって認知状態のシミュレーションにおける歪みを最小限にする。
論文参考訳（メタデータ） (2025-06-03T14:44:48Z)
Modèles de Substitution pour les Modèles à base d'Agents : Enjeux, Méthodes et Applications [0.0]
エージェントベースモデル(ABM)は、局所的な相互作用から生じる創発的な現象を研究するために広く用いられている。 ABMの複雑さは、リアルタイム意思決定と大規模シナリオ分析の可能性を制限する。これらの制限に対処するため、サロゲートモデルはスパースシミュレーションデータから近似を学習することで効率的な代替手段を提供する。
論文参考訳（メタデータ） (2025-05-17T08:55:33Z)
Artificial Behavior Intelligence: Technology, Challenges, and Future Directions [1.5237607855633524]
本稿では,ABI(Artificial Behavior Intelligence)の技術的枠組みを定義する。 ABIは、人間の姿勢、表情、感情、行動シーケンス、文脈的手がかりを包括的に分析し、解釈する。ポーズ推定、顔と感情の認識、シーケンシャルな行動分析、文脈認識モデリングなど、ABIの本質的なコンポーネントについて詳述する。
論文参考訳（メタデータ） (2025-05-06T08:45:44Z)
On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。 GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文参考訳（メタデータ） (2025-01-23T16:58:18Z)
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。 MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文参考訳（メタデータ） (2024-09-09T17:44:00Z)
PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文参考訳（メタデータ） (2024-07-17T08:13:22Z)
Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文参考訳（メタデータ） (2024-07-04T14:36:49Z)
Discrete, compositional, and symbolic representations through attractor dynamics [51.20712945239422]
我々は,思考の確率的言語(PLoT)に似た認知過程をモデル化するために,アトラクタダイナミクスを記号表現と統合した新しいニューラルシステムモデルを導入する。我々のモデルは、連続表現空間を、事前定義されたプリミティブに頼るのではなく、教師なし学習を通じて、記号系の意味性と構成性の特徴を反映する、記号列に対応する引き付け状態を持つ離散盆地に分割する。このアプローチは、認知操作の複雑な双対性を反映したより包括的なモデルを提供する、AIにおける表現力の証明された神経弁別可能な基質であるニューラルダイナミクスを通じて、シンボル処理とサブシンボル処理の両方を統合する統一的なフレームワークを確立する。
論文参考訳（メタデータ） (2023-10-03T05:40:56Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)
A Meta-Bayesian Model of Intentional Visual Search [0.0]
本稿では,分類的知覚とササード計画の根底にある神経機構のベイズ的解釈を取り入れたビジュアルサーチの計算モデルを提案する。擬似行動と人的行動の有意義な比較を可能にするため、参加者は視線に追従する窓から隠蔽されたMNIST桁を分類する必要がある。本モデルは,観察された人間の行動から主観的パラメータを回収し,高い解釈可能性を維持しながら,分類精度などの人間の行動指標を再カプセル化することができる。
論文参考訳（メタデータ） (2020-06-05T16:10:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。