論文の概要: The Effects of Visual Priming on Cooperative Behavior in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.27953v1
- Date: Thu, 30 Apr 2026 14:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.147719
- Title: The Effects of Visual Priming on Cooperative Behavior in Vision-Language Models
- Title(参考訳): 視覚的プライミングが視覚言語モデルにおける協調行動に及ぼす影響
- Authors: Kenneth J. K. Ong,
- Abstract要約: VLM(Vision-Language Models)は、意思決定システムに統合されつつある。
本稿では,視覚的プライミングが協調行動に及ぼす影響を,テストシナリオとしてIterated Prisoner's Dilemma(IPD)を用いて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Vision-Language Models (VLMs) become increasingly integrated into decision-making systems, it is essential to understand how visual inputs influence their behavior. This paper investigates the effects of visual priming on VLMs' cooperative behavior using the Iterated Prisoner's Dilemma (IPD) as a test scenario. We examine whether exposure to images depicting behavioral concepts (kindness/helpfulness vs. aggressiveness/selfishness) and color-coded reward matrices alters VLM decision patterns. Experiments were conducted across multiple state-of-the-art VLMs. We further explore mitigation strategies including prompt modifications, Chain of Thought (CoT) reasoning, and visual token reduction. Results show that VLM behavior can be influenced by both image content and color cues, with varying susceptibility and mitigation effectiveness across models. These findings not only underscore the importance of robust evaluation frameworks for VLM deployment in visually rich and safety-critical environments, but also highlight how architectural and training differences among models may lead to distinct behavioral responses-an area worthy of further investigation.
- Abstract(参考訳): VLM(Vision-Language Models)が意思決定システムに統合されるにつれて、視覚的な入力が彼らの行動にどのように影響するかを理解することが不可欠である。
本稿では,視覚的プライミングがVLMの協調行動に及ぼす影響を,テストシナリオとしてIterated Prisoner's Dilemma(IPD)を用いて検討する。
行動概念を描写した画像への露出(攻撃性/利己性)と色付き報酬行列がVLM決定パターンを変化させるか否かを検討する。
実験は複数の最先端のVLMで行われた。
さらに、迅速な修正、思考の連鎖(CoT)推論、視覚的トークン削減など、緩和戦略についても検討する。
以上の結果から,VLMの挙動は画像内容と色覚の両方に影響されうることが示唆された。
これらの知見は、視覚的に豊かで安全クリティカルな環境でのVLMデプロイメントにおけるロバストな評価フレームワークの重要性を浮き彫りにするだけでなく、モデル間のアーキテクチャとトレーニングの違いが、どのようにして異なる行動反応をもたらすかを強調している。
関連論文リスト
- Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs [60.93949629734977]
モデル生成論理における幻覚を軽減するために,視覚コントラスト型自己学習共振器(VC-STaR)を提案する。
多様なVQAデータセットを収集し、マルチモーダルな類似性に応じてコントラストペアをキュレートし、VC-STaRを用いて合理性を生成する。
大規模な実験によると、VC-STaRは既存の自己改善アプローチを上回るだけでなく、SoTA視覚推論データセットで微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2026-03-03T03:18:31Z) - MVR: Multi-view Video Reward Shaping for Reinforcement Learning [17.20077949643041]
MVR(Multi-View Video Reward Shaping)は、複数の視点から撮影したビデオを用いて、対象タスクに関する状態の関連性をモデル化するフレームワークである。
MVRは、画像ベースの手法に固有の特定の静的ポーズに対するバイアスを軽減する状態関連関数を学習する。
タスク固有の報酬とVLMに基づくガイダンスを統合した状態依存報酬形成形式を導入する。
論文 参考訳(メタデータ) (2026-03-02T10:24:04Z) - Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - Cross-modal Associations in Vision and Language Models: Revisiting the Bouba-Kiki Effect [0.8793721044482612]
我々は,「ブバ」のような擬似語を丸い形に,「キキ」をギザギザと確実に関連付ける「ブバキキ効果」を再評価する。
これらのモデル変種はブーバキキ効果を持続的に示さないことを示す。
その結果、ビジョン・アンド・ランゲージモデルがいかにしてクロスモーダルな概念を真に理解するかという議論が続いている。
論文 参考訳(メタデータ) (2025-07-14T07:48:54Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - VLM's Eye Examination: Instruct and Inspect Visual Competency of Vision Language Models [19.291697178628546]
ビジョン言語モデル(VLM)は、様々なベンチマークで有望な推論能力を示している。
本研究では,VLMがどのようにイメージを知覚するかを調べるために,視線検査プロセスを提案する。
論文 参考訳(メタデータ) (2024-09-23T07:15:29Z) - Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - Learning Generalizable Representations for Reinforcement Learning via
Adaptive Meta-learner of Behavioral Similarities [43.327357653393015]
本稿では,強化学習における行動類似性に関する表現学習のためのメタラーナーベースフレームワークを提案する。
提案するフレームワークが,いくつかのベンチマークで最先端のベースラインを上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-12-26T11:11:23Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。