論文の概要: Context-Dependent Affordance Computation in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.04419v1
- Date: Sat, 14 Feb 2026 04:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.196233
- Title: Context-Dependent Affordance Computation in Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおける文脈依存アフォーマンス計算
- Authors: Murad Farzulla,
- Abstract要約: 視覚表現モデル(VLM)における文脈依存型アベイランス計算の現象を特徴付ける。
大規模な計算研究を通じて、膨大な空き容量のドリフトを実証する。
これらの結果から, VLM は文脈依存的な計算能力を有することが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We characterize the phenomenon of context-dependent affordance computation in vision-language models (VLMs). Through a large-scale computational study (n=3,213 scene-context pairs from COCO-2017) using Qwen-VL 30B and LLaVA-1.5-13B subject to systematic context priming across 7 agentic personas, we demonstrate massive affordance drift: mean Jaccard similarity between context conditions is 0.095 (95% CI: [0.093, 0.096], p < 0.0001), indicating that >90% of lexical scene description is context-dependent. Sentence-level cosine similarity confirms substantial drift at the semantic level (mean = 0.415, 58.5% context-dependent). Stochastic baseline experiments (2,384 inference runs across 4 temperatures and 5 seeds) confirm this drift reflects genuine context effects rather than generation noise: within-prime variance is substantially lower than cross-prime variance across all conditions. Tucker decomposition with bootstrap stability analysis (n=1,000 resamples) reveals stable orthogonal latent factors: a "Culinary Manifold" isolated to chef contexts and an "Access Axis" spanning child-mobility contrasts. These findings establish that VLMs compute affordances in a substantially context-dependent manner -- with the difference between lexical (90%) and semantic (58.5%) measures reflecting that surface vocabulary changes more than underlying meaning under context shifts -- and suggest a direction for robotics research: dynamic, query-dependent ontological projection (JIT Ontology) rather than static world modeling. We do not claim to establish processing order or architectural primacy; such claims require internal representational analysis beyond output behavior.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)における文脈依存型アベイランス計算の現象を特徴付ける。
Qwen-VL 30B と LLaVA-1.5-13B を用いた大規模計算 (n=3,213 シーンコンテキスト対 COCO-2017) により, 環境条件間のジャカード類似度は 0.095 (95% CI: [0.093, 0.096], p < 0.0001) であり, 語彙シーン記述の 90% が文脈依存であることを示す。
文レベルのコサイン類似性は、意味レベルではかなりのドリフト(平均 = 0.415, 58.5% 文脈依存)を確認している。
確率的ベースライン実験(2,384 inference run across 4 temperature and 5 seed)では、このドリフトが生成ノイズよりも実際の文脈効果を反映していることが確認された。
ブートストラップ安定性解析によるタッカー分解(n=1,000再サンプル)は、シェフコンテキストに分離された「クリーナリーマニフォールド」と、子育てのコントラストにまたがる「アクシス軸」という安定な直交潜伏因子を明らかにする。
これらの結果から、VLMは、文脈依存的な方法 -- 語彙(90%)と意味(58.5%)の違いを反映して -- をほぼ文脈依存的に計算し、静的世界モデリングではなく、動的でクエリ依存的な存在論的投影(JITオントロジー)というロボット研究の方向性を示唆している。
我々は、処理順序やアーキテクチャ上の優位性を確立することを主張しません。
関連論文リスト
- Prompt Architecture Determines Reasoning Quality: A Variable Isolation Study on the Car Wash Problem [0.0]
本研究では,生産システムのアーキテクチャ層が正しい推論を可能にする方法を検討する。
STAR(Situation-Task-Action-Result)推論フレームワークだけでは精度が0%から85%に向上することがわかった。
論文 参考訳(メタデータ) (2026-02-25T11:40:15Z) - Distributional Clarity: The Hidden Driver of RL-Friendliness in Large Language Models [50.99097734404912]
RLフレンドリなモデルでは, クラス内コンパクト性やクラス間分離が, 正誤応答に対する確率割当に現れることを示す。
6つの数学ベンチマークによる実験では、すべてのモデルファミリで一貫した改善が見られ、AIME24では5.9ポイントまで向上した。
論文 参考訳(メタデータ) (2026-01-11T13:34:44Z) - Generalization Gaps in Political Fake News Detection: An Empirical Study on the LIAR Dataset [0.764671395172401]
LIARベンチマークを用いて,9つの機械学習アルゴリズムの診断評価を行った。
モデルの重み付きF1スコアを超えないきめ細かい分類の「パフォーマンスシーリング」を発見した。
木に基づくアンサンブルの大規模な"一般化ギャップ"は、99%以上のトレーニング精度を達成したが、テストデータで約25%に崩壊した。
論文 参考訳(メタデータ) (2025-12-20T23:08:18Z) - A Reproducible Framework for Neural Topic Modeling in Focus Group Analysis [0.0]
チュニジアの10のフォーカスグループから得られたデータを用いて、BERTopicをグループテキストにフォーカスするための体系的なフレームワークを提案する。
ブートストラップ安定性解析、パフォーマンスメトリクス、LDAベースラインとの比較。
分析の結果,変換器をベースとしたトピックモデリングが,小さな焦点群転写コーパスから解釈可能なテーマを抽出できることが判明した。
論文 参考訳(メタデータ) (2025-11-24T07:30:15Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Causal Intervention Framework for Variational Auto Encoder Mechanistic Interpretability [0.0]
本稿では,変分オートエンコーダ(VAE)の機械的解釈性に対する包括的因果介入フレームワークを提案する。
VAEの「回路モチーフ」を識別・解析する手法を開発し、ネットワーク層を通して意味的要因がどのようにコード化され、処理され、そして切り離されているかを調べる。
その結果、我々の介入は機能回路の分離に成功し、計算グラフを意味因子の因果グラフにマッピングし、多意味単位と単意味単位を区別できることがわかった。
論文 参考訳(メタデータ) (2025-05-06T13:40:59Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Beyond Instance Discrimination: Relation-aware Contrastive
Self-supervised Learning [75.46664770669949]
本稿では,関係認識型コントラスト型自己教師型学習(ReCo)をインスタンス関係に統合するために提案する。
当社のReCoは、常に顕著なパフォーマンス改善を実現しています。
論文 参考訳(メタデータ) (2022-11-02T03:25:28Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。