論文の概要: What if Othello-Playing Language Models Could See?
- arxiv url: http://arxiv.org/abs/2507.14520v1
- Date: Sat, 19 Jul 2025 07:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.925253
- Title: What if Othello-Playing Language Models Could See?
- Title(参考訳): Othello-Playing Language Modelはどうなるか?
- Authors: Xinyi Chen, Yifei Yuan, Jiaang Li, Serge Belongie, Maarten de Rijke, Anders Søgaard,
- Abstract要約: VISOTHELLOは移動履歴と基板画像に基づいて訓練されたマルチモーダルモデルである。
マルチモーダルトレーニングは、内部表現の性能と堅牢性の両方を改善する。
- 参考スコア(独自算出の注目度): 81.14765602011055
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language models are often said to face a symbol grounding problem. While some argue that world understanding can emerge from text alone, others suggest grounded learning is more efficient. We explore this through Othello, where the board state defines a simplified, rule-based world. Building on prior work, we introduce VISOTHELLO, a multi-modal model trained on move histories and board images. Using next-move prediction, we compare it to mono-modal baselines and test robustness to semantically irrelevant perturbations. We find that multi-modal training improves both performance and the robustness of internal representations. These results suggest that grounding language in visual input helps models infer structured world representations.
- Abstract(参考訳): 言語モデルは、しばしばシンボル基底問題に直面していると言われる。
世界的理解はテキストのみから生まれると主張する者もいるが、基礎学習の方が効率的であると主張する者もいる。
私たちは、Othelloを通じてこれを探求し、ボードステートは、単純化されたルールベースの世界を定義します。
VISOTHELLOは移動履歴と基板画像に基づいて訓練されたマルチモーダルモデルである。
次モーブ予測を用いて、単モーダルベースラインと比較し、意味的に無関係な摂動に対するロバスト性をテストする。
マルチモーダルトレーニングは、内部表現の性能と堅牢性の両方を改善する。
これらの結果は、視覚入力における基底言語は、構造化された世界表現を推論するモデルに役立つことを示唆している。
関連論文リスト
- Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - CoLLIE: Continual Learning of Language Grounding from Language-Image
Embeddings [2.8478710949588284]
CoLLIEは、言語がどのように視覚に根ざされているかの継続的な学習のモデルである。
新しい言語の使用に対応するために必要な言語埋め込みを調整する変換関数を学習する。
ごく少数の例から,CoLLIEが効率的に学習し,一般化できることが示される。
論文 参考訳(メタデータ) (2021-11-15T18:54:58Z) - Does Vision-and-Language Pretraining Improve Lexical Grounding? [25.357191933430627]
ビジョン・アンド・ランゲージモデルは、テキストや画像、ビデオデータに基づいて共同で訓練される。
内部言語表現そのものが、テキストのみの表現とどのように比較されるのかは、まだ分かっていない。
論文 参考訳(メタデータ) (2021-09-21T15:12:39Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。
ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文 参考訳(メタデータ) (2020-03-11T02:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。