論文の概要: Listener Model for the PhotoBook Referential Game with CLIPScores as
Implicit Reference Chain
- arxiv url: http://arxiv.org/abs/2306.09607v1
- Date: Fri, 16 Jun 2023 03:41:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 15:08:41.521018
- Title: Listener Model for the PhotoBook Referential Game with CLIPScores as
Implicit Reference Chain
- Title(参考訳): クリップスコアを暗黙的参照チェインとしたフォトブック参照ゲームのリスナモデル
- Authors: Shih-Lun Wu, Yi-Hui Chou, and Liangze Li
- Abstract要約: PhotoBookは、2人のプレーヤーがプライベートで部分的に重なり合う画像のセットを受け取り、どの画像が共通であるかを判断する対話ゲームである。
そこで本研究では,ゲームの予測タスク,すなわちイメージがパートナーと共有されているかどうかを,直接的に対処する参照チェーンフリーリスナモデルを提案する。
DeBERTaベースのリスナーモデルは全対話を読み出し,CLIPScore機能を用いて発話画像の関連性を評価する。
- 参考スコア(独自算出の注目度): 0.9558392439655015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: PhotoBook is a collaborative dialogue game where two players receive private,
partially-overlapping sets of images and resolve which images they have in
common. It presents machines with a great challenge to learn how people build
common ground around multimodal context to communicate effectively. Methods
developed in the literature, however, cannot be deployed to real gameplay since
they only tackle some subtasks of the game, and they require additional
reference chains inputs, whose extraction process is imperfect. Therefore, we
propose a reference chain-free listener model that directly addresses the
game's predictive task, i.e., deciding whether an image is shared with partner.
Our DeBERTa-based listener model reads the full dialogue, and utilizes
CLIPScore features to assess utterance-image relevance. We achieve >77%
accuracy on unseen sets of images/game themes, outperforming baseline by >17
points.
- Abstract(参考訳): PhotoBookは、2人のプレーヤーがプライベートで部分的に重なり合う画像のセットを受け取り、どの画像が共通であるかを判断する対話ゲームである。
マルチモーダルなコンテキストにまつわる共通基盤を構築し、効果的にコミュニケーションする方法を学ぶ上で、マシンには大きな課題があります。
しかし、文学で開発された手法は、ゲームの一部のサブタスクのみに取り組むため、実際のゲームプレイに展開できず、抽出プロセスが不完全である追加の参照チェーン入力を必要とする。
そこで本研究では,ゲームの予測タスク,すなわちイメージがパートナーと共有されているかどうかを直接処理する参照チェーンフリーリスナモデルを提案する。
DeBERTaベースのリスナーモデルは全対話を読み出し,CLIPScore機能を用いて発話画像の関連性を評価する。
未確認画像・ゲームテーマの77%の精度を達成し,ベースラインを17点以上上回った。
関連論文リスト
- TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Collecting Visually-Grounded Dialogue with A Game Of Sorts [5.478764356647438]
我々は「A Game of Sorts」と呼ばれる合意ゲームである協調画像ランキングタスクを導入する。
我々のゲームでは、プレイヤーは、ほとんど制限のないロール対称の対話を通じて、何らかのソート基準を与えられた画像群をランク付けする方法に関して合意に達することを任務としている。
本稿では,提案課題を用いた小規模データ収集実験の結果について述べる。
論文 参考訳(メタデータ) (2023-09-10T23:00:35Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。
MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。
本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。
次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - Visually grounded few-shot word learning in low-resource settings [23.826000011632917]
そこで本研究では,数組の単語イメージ対から新しい単語とその視覚的描写を学習する音声モデルを提案する。
提案手法では,与えられた単語イメージの例対を用いて,音声と画像の大規模なコレクションから教師なしの単語イメージトレーニングペアを抽出する。
この新しいモデルでは、既存の英語ベンチマークの以前のアプローチよりも少ないショットでより良いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-06-20T08:27:42Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - PatchGame: Learning to Signal Mid-level Patches in Referential Games [38.79852742348459]
本研究では,2つのエージェントが個別のボトルネックを通じて相互に通信し,共通の目標を達成する参照ゲームについて検討する。
我々の参照ゲームでは、話者のゴールは「重要な」イメージパッチのメッセージやシンボル表現を構成することであり、リスナーは話者のメッセージを同じ画像の異なるビューにマッチさせることである。
我々は,2人のエージェントが明示的あるいは暗黙的な監督なしに通信プロトコルを開発することが可能であることを示す。
論文 参考訳(メタデータ) (2021-11-02T17:59:00Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。