論文の概要: Listener Model for the PhotoBook Referential Game with CLIPScores as
Implicit Reference Chain
- arxiv url: http://arxiv.org/abs/2306.09607v1
- Date: Fri, 16 Jun 2023 03:41:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 15:08:41.521018
- Title: Listener Model for the PhotoBook Referential Game with CLIPScores as
Implicit Reference Chain
- Title(参考訳): クリップスコアを暗黙的参照チェインとしたフォトブック参照ゲームのリスナモデル
- Authors: Shih-Lun Wu, Yi-Hui Chou, and Liangze Li
- Abstract要約: PhotoBookは、2人のプレーヤーがプライベートで部分的に重なり合う画像のセットを受け取り、どの画像が共通であるかを判断する対話ゲームである。
そこで本研究では,ゲームの予測タスク,すなわちイメージがパートナーと共有されているかどうかを,直接的に対処する参照チェーンフリーリスナモデルを提案する。
DeBERTaベースのリスナーモデルは全対話を読み出し,CLIPScore機能を用いて発話画像の関連性を評価する。
- 参考スコア(独自算出の注目度): 0.9558392439655015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: PhotoBook is a collaborative dialogue game where two players receive private,
partially-overlapping sets of images and resolve which images they have in
common. It presents machines with a great challenge to learn how people build
common ground around multimodal context to communicate effectively. Methods
developed in the literature, however, cannot be deployed to real gameplay since
they only tackle some subtasks of the game, and they require additional
reference chains inputs, whose extraction process is imperfect. Therefore, we
propose a reference chain-free listener model that directly addresses the
game's predictive task, i.e., deciding whether an image is shared with partner.
Our DeBERTa-based listener model reads the full dialogue, and utilizes
CLIPScore features to assess utterance-image relevance. We achieve >77%
accuracy on unseen sets of images/game themes, outperforming baseline by >17
points.
- Abstract(参考訳): PhotoBookは、2人のプレーヤーがプライベートで部分的に重なり合う画像のセットを受け取り、どの画像が共通であるかを判断する対話ゲームである。
マルチモーダルなコンテキストにまつわる共通基盤を構築し、効果的にコミュニケーションする方法を学ぶ上で、マシンには大きな課題があります。
しかし、文学で開発された手法は、ゲームの一部のサブタスクのみに取り組むため、実際のゲームプレイに展開できず、抽出プロセスが不完全である追加の参照チェーン入力を必要とする。
そこで本研究では,ゲームの予測タスク,すなわちイメージがパートナーと共有されているかどうかを直接処理する参照チェーンフリーリスナモデルを提案する。
DeBERTaベースのリスナーモデルは全対話を読み出し,CLIPScore機能を用いて発話画像の関連性を評価する。
未確認画像・ゲームテーマの77%の精度を達成し,ベースラインを17点以上上回った。
関連論文リスト
- Collecting Visually-Grounded Dialogue with A Game Of Sorts [5.478764356647438]
我々は「A Game of Sorts」と呼ばれる合意ゲームである協調画像ランキングタスクを導入する。
我々のゲームでは、プレイヤーは、ほとんど制限のないロール対称の対話を通じて、何らかのソート基準を与えられた画像群をランク付けする方法に関して合意に達することを任務としている。
本稿では,提案課題を用いた小規模データ収集実験の結果について述べる。
論文 参考訳(メタデータ) (2023-09-10T23:00:35Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - PatchGame: Learning to Signal Mid-level Patches in Referential Games [38.79852742348459]
本研究では,2つのエージェントが個別のボトルネックを通じて相互に通信し,共通の目標を達成する参照ゲームについて検討する。
我々の参照ゲームでは、話者のゴールは「重要な」イメージパッチのメッセージやシンボル表現を構成することであり、リスナーは話者のメッセージを同じ画像の異なるビューにマッチさせることである。
我々は,2人のエージェントが明示的あるいは暗黙的な監督なしに通信プロトコルを開発することが可能であることを示す。
論文 参考訳(メタデータ) (2021-11-02T17:59:00Z) - Connecting What to Say With Where to Look by Modeling Human Attention
Traces [30.8226861256742]
画像,テキスト,人間の注意跡を共同でモデル化する統合フレームワークを提案する。
本研究では,(1)画像とキャプション(視覚的接地)に与えられたトレースを予測し,(2)画像のみに与えられるキャプションとトレースを予測する2つの新しいタスクを提案する。
論文 参考訳(メタデータ) (2021-05-12T20:53:30Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Keep CALM and Explore: Language Models for Action Generation in
Text-based Games [27.00685301984832]
本研究では,各ゲーム状態におけるアクション候補のコンパクトなセットを生成するために,文脈行動言語モデル(CALM)を提案する。
我々はCALMと強化学習エージェントを組み合わせることで、生成したアクション候補を再ランクし、ゲーム内報酬を最大化する。
論文 参考訳(メタデータ) (2020-10-06T17:36:29Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。