論文の概要: Saying the Unsaid: Revealing the Hidden Language of Multimodal Systems Through Telephone Games
- arxiv url: http://arxiv.org/abs/2511.10690v1
- Date: Wed, 12 Nov 2025 03:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.27076
- Title: Saying the Unsaid: Revealing the Hidden Language of Multimodal Systems Through Telephone Games
- Title(参考訳): 電話ゲームでマルチモーダルシステムの隠れた言語を語る
- Authors: Juntu Zhao, Jialing Zhang, Chongxuan Li, Dequan Wang,
- Abstract要約: システムの好みバイアスを使って、隠れた言語を研究します。
このバイアスを戦略的に活用するために、私たちはマルチラウンドの「電話ゲーム」を採用しています。
電話ゲームにおける概念の共起を観察することにより,マルチモーダルシステムの理解における概念接続強度を定量的に検討する。
- 参考スコア(独自算出の注目度): 35.355734384960975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent closed-source multimodal systems have made great advances, but their hidden language for understanding the world remains opaque because of their black-box architectures. In this paper, we use the systems' preference bias to study their hidden language: During the process of compressing the input images (typically containing multiple concepts) into texts and then reconstructing them into images, the systems' inherent preference bias introduces specific shifts in the outputs, disrupting the original input concept co-occurrence. We employ the multi-round "telephone game" to strategically leverage this bias. By observing the co-occurrence frequencies of concepts in telephone games, we quantitatively investigate the concept connection strength in the understanding of multimodal systems, i.e., "hidden language." We also contribute Telescope, a dataset of 10,000+ concept pairs, as the database of our telephone game framework. Our telephone game is test-time scalable: By iteratively running telephone games, we can construct a global map of concept connections in multimodal systems' understanding. Here we can identify preference bias inherited from training, assess generalization capability advancement, and discover more stable pathways for fragile concept connections. Furthermore, we use Reasoning-LLMs to uncover unexpected concept relationships that transcend textual and visual similarities, inferring how multimodal systems understand and simulate the world. This study offers a new perspective on the hidden language of multimodal systems and lays the foundation for future research on the interpretability and controllability of multimodal systems.
- Abstract(参考訳): 最近のクローズドソースマルチモーダルシステムは大きな進歩を遂げているが、そのブラックボックスアーキテクチャのため、世界を理解するための隠された言語はいまだに不透明である。
本稿では,入力画像(典型的には複数の概念を含む)をテキストに圧縮し,それを画像に再構成する過程において,システム固有の嗜好バイアスが出力の特定のシフトを導入し,元の入力概念の共起を阻害する。
このバイアスを戦略的に活用するために、私たちはマルチラウンドの「電話ゲーム」を採用しています。
電話ゲームにおける概念の共起周波数を観察することにより、マルチモーダルシステムの理解における概念接続強度、すなわち「隠れた言語」を定量的に検討する。
また、電話ゲームフレームワークのデータベースとして、1万以上のコンセプトペアのデータセットであるStrospectationも提供しています。
我々の電話ゲームは、テストタイムでスケーラブルである: 反復的に電話ゲームを実行することで、マルチモーダルシステムの理解において、概念接続のグローバルマップを構築することができる。
ここでは、トレーニングから受け継いだ嗜好バイアスを特定し、一般化能力の向上を評価し、脆弱な概念接続のためのより安定した経路を発見する。
さらに、Reasoning-LLMsを用いて、マルチモーダルシステムが世界を理解し、シミュレートする方法を推定し、テキストと視覚の類似性を超越する予期せぬ概念関係を明らかにする。
本研究は,マルチモーダルシステムの隠された言語に対する新たな視点を提供し,マルチモーダルシステムの解釈可能性と制御可能性に関する今後の研究の基礎を定めている。
関連論文リスト
- Can Large Vision-Language Models Understand Multimodal Sarcasm? [14.863320201956963]
サルカスム(Sarcasm)は、リテラルと意図された意味の相違を含む複雑な言語現象である。
マルチモーダルサルカズム解析(MSA)タスクにおける大規模視覚言語モデル(LVLM)の評価を行った。
深度オブジェクト抽出と外部概念知識を統合した学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-05T17:05:11Z) - Decoding the Multimodal Mind: Generalizable Brain-to-Text Translation via Multimodal Alignment and Adaptive Routing [36.47424671683706]
本稿では,脳信号とテキスト,画像,音声を含む共有意味空間を連携させる統合フレームワークを提案する。
ルータモジュールは、各刺激の特性に応じて、モダリティ固有の脳の特徴を動的に選択、融合する。
テキスト、視覚、聴覚刺激を含む様々なfMRIデータセットの実験では、最先端のパフォーマンスを示し、最も一般的に使用されるベンチマークでは8.48%の改善が達成されている。
論文 参考訳(メタデータ) (2025-05-15T14:46:45Z) - A Concept-Based Explainability Framework for Large Multimodal Models [52.37626977572413]
本稿では,トークン表現に適用した辞書学習に基づくアプローチを提案する。
これらの概念は、視覚とテキストの両方に意味論的に根ざしていることを示す。
抽出したマルチモーダル概念は,テストサンプルの表現の解釈に有用であることを示す。
論文 参考訳(メタデータ) (2024-06-12T10:48:53Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - Expedition: A System for the Unsupervised Learning of a Hierarchy of
Concepts [0.522145960878624]
本稿では,意味のある文字列に対応する無数の概念のボトムアップ累積学習システムを提案する。
学習は、発見される概念が予測対象だけでなく予測対象として使用されるという点で自己監督される。
ベースライン予測システムとの比較から,学習概念とセグメンテーションする目的を考案する。
論文 参考訳(メタデータ) (2021-12-17T06:49:18Z) - Reversing the cycle: self-supervised deep stereo through enhanced
monocular distillation [51.714092199995044]
多くの分野において、自己教師付き学習ソリューションは急速に進化し、教師付きアプローチでギャップを埋めている。
本稿では,両者の相互関係を逆転する自己教師型パラダイムを提案する。
深層ステレオネットワークを訓練するために,単分子完備ネットワークを通じて知識を抽出する。
論文 参考訳(メタデータ) (2020-08-17T07:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。