Fugu-MT 論文翻訳(概要): A Multimodal Framework for Aligning Human Linguistic Descriptions with Visual Perceptual Data

論文の概要: A Multimodal Framework for Aligning Human Linguistic Descriptions with Visual Perceptual Data

arxiv url: http://arxiv.org/abs/2602.19562v1
Date: Mon, 23 Feb 2026 07:20:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.71021
Title: A Multimodal Framework for Aligning Human Linguistic Descriptions with Visual Perceptual Data
Title（参考訳）: 視覚的知覚データを用いた言語記述の調整のためのマルチモーダルフレームワーク
Authors: Joseph Bingham,
Abstract要約: 人間の参照解釈の中核的な側面をモデル化する計算フレームワークを提案する。スタンフォード・リピート・レファレンス・ゲーム・コーパス(Stanford Repeated Reference Game corpus)のモデルを評価する。その結果, 比較的単純な知覚言語的アライメント機構は, 人間の競争行動をもたらすことが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Establishing stable mappings between natural language expressions and visual percepts is a foundational problem for both cognitive science and artificial intelligence. Humans routinely ground linguistic reference in noisy, ambiguous perceptual contexts, yet the mechanisms supporting such cross-modal alignment remain poorly understood. In this work, we introduce a computational framework designed to model core aspects of human referential interpretation by integrating linguistic utterances with perceptual representations derived from large-scale, crowd-sourced imagery. The system approximates human perceptual categorization by combining scale-invariant feature transform (SIFT) alignment with the Universal Quality Index (UQI) to quantify similarity in a cognitively plausible feature space, while a set of linguistic preprocessing and query-transformation operations captures pragmatic variability in referring expressions. We evaluate the model on the Stanford Repeated Reference Game corpus (15,000 utterances paired with tangram stimuli), a paradigm explicitly developed to probe human-level perceptual ambiguity and coordination. Our framework achieves robust referential grounding. It requires 65\% fewer utterances than human interlocutors to reach stable mappings and can correctly identify target objects from single referring expressions 41.66\% of the time (versus 20\% for humans).These results suggest that relatively simple perceptual-linguistic alignment mechanisms can yield human-competitive behavior on a classic cognitive benchmark, and offers insights into models of grounded communication, perceptual inference, and cross-modal concept formation. Code is available at https://anonymous.4open.science/r/metasequoia-9D13/README.md .
Abstract（参考訳）: 自然言語表現と視覚知覚の安定したマッピングを確立することは、認知科学と人工知能の両方にとって基礎的な問題である。人間は、うるさい、曖昧な知覚的文脈において、日常的に言語学的参照を基礎にしているが、そのような横断的アライメントを支えるメカニズムは理解されていない。本研究では,大規模なクラウドソース画像から派生した知覚表現と言語発話を統合することで,人間の参照解釈の中核的な側面をモデル化する計算フレームワークを提案する。このシステムは,スケール不変特徴変換(SIFT)とUniversal Quality Index(UQI)を併用して人間の知覚的分類を近似し,認識可能な特徴空間における類似性を定量化し,言語前処理とクエリ変換操作のセットは参照表現における実用的変動を捉える。本研究では,スタンフォード繰り返し参照ゲームコーパス(タングラム刺激と組み合わせた15,000発の発話)のモデルを評価する。我々の枠組みは、堅牢な参照基盤を実現する。安定したマッピングに到達するためには、人間のインターロケータよりも65\%の発話が必要であり、単一の参照式41.66\%(人間の場合は20\%)からターゲットオブジェクトを正しく識別することができる。これらの結果から,従来の認知的ベンチマークでは,比較的単純な知覚言語的アライメント機構が人間の競争的行動をもたらすことが示唆され,基礎的コミュニケーションモデル,知覚的推論モデル,モーダル間概念形成モデルに対する洞察が得られた。コードはhttps://anonymous.4open.science/r/metasequoia-9D13/README.mdで公開されている。

関連論文リスト

Characterizing Human Semantic Navigation in Concept Production as Trajectories in Embedding Space [0.0]
組込み空間を通したナビゲーションとして,概念生産を表現したフレームワークを導入する。本研究では,累積埋め込みに基づく参加者固有の意味軌道を構築し,幾何学的および動的メトリクスを抽出する。異なる言語にまたがる4つのデータセット上で、異なるプロパティ生成タスクにまたがるフレームワークを評価する。
論文参考訳（メタデータ） (2026-02-05T18:23:04Z)
Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning [50.76723760768117]
既存の人間のポーズ推定手法では、既存の映像からもっともらしい密接な相互作用を回復できない。人間の外見は、これらの障害に対処するための簡単な手がかりとなる。本研究では,人間の外見,社会的プロキシ,物理法則に制約された身体接触により,正確な対話動作を再構築するための2分岐最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-03T12:19:26Z)
Revealing emergent human-like conceptual representations from language prediction [90.73285317321312]
大規模言語モデル(LLMs)は、人間らしい振る舞いを示すテキストの次のトーケン予測によってのみ訓練される。これらのモデルでは、概念は人間のものと似ていますか? LLMは、他の概念に関する文脈的手がかりに関連して、言語記述から柔軟に概念を導出できることがわかった。
論文参考訳（メタデータ） (2025-01-21T23:54:17Z)
A Flexible Method for Behaviorally Measuring Alignment Between Human and Artificial Intelligence Using Representational Similarity Analysis [0.1957338076370071]
我々は、AIと人間間のアライメントを定量化するために、ペアワイズな類似度評価法であるRepresentational similarity Analysis (RSA)を適用した。我々は,テキストと画像のモダリティ間のセマンティックアライメント(セマンティックアライメント)を検証し,Large Language and Vision Language Model(LLM, VLM)の類似性判断が,グループレベルでも個人レベルでも人間の反応とどのように一致しているかを測定した。
論文参考訳（メタデータ） (2024-11-30T20:24:52Z)
Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文参考訳（メタデータ） (2024-10-15T07:35:51Z)
How Do You Perceive My Face? Recognizing Facial Expressions in Multi-Modal Context by Modeling Mental Representations [5.895694050664867]
本稿では,単純な分類タスクを超越した新しい表情分類手法を提案する。本モデルでは,認識された顔を正確に分類し,文脈で顔を観察する際,人間によって知覚される対応する心的表現を合成する。本研究では,人間の心的表現の近似を効果的に生成することを示す。
論文参考訳（メタデータ） (2024-09-04T09:32:40Z)
Probabilistic Transformer: A Probabilistic Dependency Model for Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文参考訳（メタデータ） (2023-11-26T06:56:02Z)
Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか? 本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文参考訳（メタデータ） (2023-10-20T03:33:36Z)
Multimodality and Attention Increase Alignment in Natural Language Prediction Between Humans and Computational Models [0.8139163264824348]
人間は、次の単語の処理を容易にするために、視覚的手がかりのような健全なマルチモーダル機能を使用することが知られている。マルチモーダル計算モデルは、視覚的注意機構を使用して視覚的および言語的データを統合して、次の単語の確率を割り当てることができる。本研究では,人間からの予測可能性の推定値が,マルチモーダルモデルと非モーダルモデルとのスコアとより密に一致していることを示す。
論文参考訳（メタデータ） (2023-08-11T09:30:07Z)
Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文参考訳（メタデータ） (2022-05-02T09:21:39Z)
Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文参考訳（メタデータ） (2020-12-10T01:27:24Z)
Mechanisms for Handling Nested Dependencies in Neural-Network Language Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文参考訳（メタデータ） (2020-06-19T12:00:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。