論文の概要: PhotoChat: A Human-Human Dialogue Dataset with Photo Sharing Behavior
for Joint Image-Text Modeling
- arxiv url: http://arxiv.org/abs/2108.01453v1
- Date: Tue, 6 Jul 2021 14:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-08 11:01:37.952144
- Title: PhotoChat: A Human-Human Dialogue Dataset with Photo Sharing Behavior
for Joint Image-Text Modeling
- Title(参考訳): PhotoChat: 共同画像テキストモデリングのための写真共有行動付き人文対話データセット
- Authors: Xiaoxue Zang, Lijuan Liu, Maria Wang, Yang Song, Hao Zhang, Jindong
Chen
- Abstract要約: PhotoChatは、オンラインエミセーションにおける写真共有行動に光を当てる最初のデータセットである。
PhotoChatには12kの対話があり、それぞれが会話中に共有されるユーザー写真とペアリングされる。
- 参考スコア(独自算出の注目度): 16.12829919994305
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a new human-human dialogue dataset - PhotoChat, the first dataset
that casts light on the photo sharing behavior in onlin emessaging. PhotoChat
contains 12k dialogues, each of which is paired with a user photo that is
shared during the conversation. Based on this dataset, we propose two tasks to
facilitate research on image-text modeling: a photo-sharing intent prediction
task that predicts whether one intends to share a photo in the next
conversation turn, and a photo retrieval task that retrieves the most relevant
photo according to the dialogue context. In addition, for both tasks, we
provide baseline models using the state-of-the-art models and report their
benchmark performances. The best image retrieval model achieves 10.4% recall@1
(out of 1000 candidates) and the best photo intent prediction model achieves
58.1% F1 score, indicating that the dataset presents interesting yet
challenging real-world problems. We are releasing PhotoChat to facilitate
future research work among the community.
- Abstract(参考訳): そこで本研究では,onlinemessagingにおける写真共有行動に光をあてる最初のデータセットであるphotochatを提案する。
PhotoChatには12kの対話があり、それぞれが会話中に共有されるユーザー写真とペアリングされる。
本データセットでは,次の会話で写真を共有するかどうかを予測する写真共有意図予測タスクと,対話状況に応じて最も関連性の高い写真を検索する写真検索タスクという,画像テキストモデリングの研究を容易にする2つのタスクを提案する。
さらに,両タスクに最先端モデルを用いたベースラインモデルを提供し,ベンチマーク性能を報告する。
最高の画像検索モデルは10.4%のリコール@1(1000人の候補者のうち)を達成し、最高の写真意図予測モデルは58.1%のF1スコアを達成した。
私たちはPhotoChatをリリースし、コミュニティ間の将来の研究作業を促進します。
関連論文リスト
- ChatSearch: a Dataset and a Generative Retrieval Model for General Conversational Image Retrieval [31.663016521987764]
オープンドメイン画像における一般会話画像検索の課題について検討する。
このタスクを進めるために、ChatSearchと呼ばれるデータセットをキュレートします。
本データセットは、ターゲット画像毎のマルチラウンド多モーダル会話コンテキストクエリを含む。
そこで我々はChatSearcherという生成的検索モデルを提案する。
論文 参考訳(メタデータ) (2024-10-24T13:19:22Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。
MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。
本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。
次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - Chatting Makes Perfect: Chat-based Image Retrieval [25.452015862927766]
ChatIRはチャットベースの画像検索システムで、ユーザーと会話して情報を抽出する。
大規模言語モデルは、初期画像記述に対するフォローアップ質問を生成するために使用される。
本システムでは、5回の対話で78%以上の成功率で50K画像のプールから目標画像を取得することができる。
論文 参考訳(メタデータ) (2023-05-31T17:38:08Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - Conversational Fashion Image Retrieval via Multiturn Natural Language
Feedback [36.623221002330226]
マルチターン自然言語による対話型ファッション画像検索の課題について検討する。
本稿では,対話型ファッション画像検索を多ターン自然言語フィードバックテキストで効果的に処理できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T06:34:25Z) - A Large-Scale Chinese Short-Text Conversation Dataset [77.55813366932313]
大規模な中国語会話データセットLCCCについて,基本バージョン(680万対話),大バージョン(1120万対話)について述べる。
データセットの品質は、厳格なデータクリーニングパイプラインによって保証されます。
また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
論文 参考訳(メタデータ) (2020-08-10T08:12:49Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。