Fugu-MT 論文翻訳(概要): Creative Captioning: An AI Grand Challenge Based on the Dixit Board Game

論文の概要: Creative Captioning: An AI Grand Challenge Based on the Dixit Board Game

arxiv url: http://arxiv.org/abs/2010.00048v1
Date: Wed, 30 Sep 2020 18:28:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 23:43:58.356619
Title: Creative Captioning: An AI Grand Challenge Based on the Dixit Board Game
Title（参考訳）: 創造的なキャプション:dixitボードゲームに基づくaiの壮大な挑戦
Authors: Maithilee Kunda and Irina Rabkina
Abstract要約: 創造的なキャプションは、視覚、自然言語処理、ナラティブ推論、社会的推論のコアAI研究領域を描いている。我々は、人気ボードゲームDixitをインスピレーションとテスト場の提案の両方として利用し、創造的なキャプションの下のいくつかの特定の研究問題を分析した。
参考スコア（独自算出の注目度）: 3.7692411550925664
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a new class of "grand challenge" AI problems that we call creative captioning---generating clever, interesting, or abstract captions for images, as well as understanding such captions. Creative captioning draws on core AI research areas of vision, natural language processing, narrative reasoning, and social reasoning, and across all these areas, it requires sophisticated uses of common sense and cultural knowledge. In this paper, we analyze several specific research problems that fall under creative captioning, using the popular board game Dixit as both inspiration and proposed testing ground. We expect that Dixit could serve as an engaging and motivating benchmark for creative captioning across numerous AI research communities for the coming 1-2 decades.
Abstract（参考訳）: 我々は、創造的なキャプションと呼ばれる、画像の巧妙で興味深い、あるいは抽象的なキャプションを生成する、新しいタイプの「グランドチャレンジ」AI問題と、そのようなキャプションを理解することを提案する。創造的なキャプションは、視覚、自然言語処理、物語推論、社会的推論のコアAI研究領域を描き、これらすべての領域において、常識と文化知識の洗練された利用を必要とする。本稿では、人気ボードゲーム「ディクシット」をインスピレーションとして、創造的なキャプションの下のいくつかの特定の研究課題を分析する。 Dixitは今後10～20年間、多くのAI研究コミュニティで、創造的なキャプションのための魅力的なモチベーションベンチマークとして機能することを期待しています。

関連論文リスト

Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint [48.35508965276618]
画像、空間配置、記号置換を通じて言語を符号化するリバスパズルは、現在の視覚言語モデル(VLM)に固有の課題をもたらす。本稿では,現代VLMにおけるレバスパズルの解釈と解決の能力について,多種多様な英語リバスパズルの手書きおよび注釈付きベンチマークを構築して検討する。
論文参考訳（メタデータ） (2025-05-29T17:59:47Z)
The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文参考訳（メタデータ） (2025-03-31T03:00:19Z)
Understanding How Paper Writers Use AI-Generated Captions in Figure Caption Writing [38.53604094994033]
本稿では,18人の参加者を対象としたユーザスタディを通じて,論文著者がAI生成キャプションを記述プロセスに組み込む方法について検討する。インタラクション分析により映像記録を解析することにより、参加者はAI生成キャプションのコピー・リファインディングから始めることが多いことがわかった。ペーパーライターは、テキストとビジュアル要素を統合した長い細部豊かなキャプションを好んだが、現在のAIモデルは複雑な数字では効果が低かった。
論文参考訳（メタデータ） (2025-01-10T19:39:06Z)
Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue [67.09698638709065]
本稿では,SEntiment-enhanceD Graph を用いたマルチモーダルサルカズム記述フレームワーク EDGE を提案する。特に,まずレキシコン誘導型発話感情推論モジュールを提案し,そこでは発話感情改善戦略を考案する。次に,マルチモーダル感情分析モデル JCA を拡張し,映像音声クリップ毎に共同感情ラベルを導出することにより,JCA-SI (Joint Cross Attention-based Sentiment Inference) というモジュールを開発する。
論文参考訳（メタデータ） (2024-02-06T03:14:46Z)
No Longer Trending on Artstation: Prompt Analysis of Generative AI Art [7.64671395172401]
私たちは300万以上のプロンプトとそれらが生成する画像を収集し、分析します。本研究は, 表面美学, 文化規範の強化, 一般的な表現, イメージに重点を置いていることを示す。
論文参考訳（メタデータ） (2024-01-24T08:03:13Z)
Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文参考訳（メタデータ） (2023-12-01T23:56:00Z)
WinoGAViL: Gamified Association Benchmark to Challenge Vision-and-Language Models [91.92346150646007]
本研究では,視覚・言語関係を収集するオンラインゲームであるWinoGAViLを紹介する。私たちはこのゲームを使って3.5Kのインスタンスを収集し、それらが人間には直感的だが最先端のAIモデルには挑戦的であることを発見した。我々の分析とプレイヤーからのフィードバックは、収集された協会が多様な推論スキルを必要とすることを示している。
論文参考訳（メタデータ） (2022-07-25T23:57:44Z)
A Taxonomy of Prompt Modifiers for Text-To-Image Generation [6.903929927172919]
本稿では,3ヶ月のエスノグラフィー研究に基づいて,オンラインコミュニティの実践者が使用する6種類のプロンプト修飾剤を同定する。プロンプト修飾子の新たな分類法は、テキスト・ツー・イメージ・ジェネレーションの実践を研究するための概念的な出発点となる。本稿では,人間-コンピュータインタラクション分野における新しい創造的実践の機会について論じる。
論文参考訳（メタデータ） (2022-04-20T06:15:50Z)
Iconary: A Pictionary-Based Game for Testing Multimodal Communication with Drawings and Text [70.14613727284741]
人間とのコミュニケーションは、世界の共通理解、複雑なセマンティクス、時にはマルチモーダルなジェスチャーを必要とするため、AIにとって難しい。図面と推測の協調ゲームであるIconaryの文脈において,これらの課題を考察する。我々は、Iconaryをプレイし、人間のプレイヤー間で55,000以上のゲームでそれらをトレーニングするモデルを提案する。
論文参考訳（メタデータ） (2021-12-01T19:41:03Z)
Telling Creative Stories Using Generative Visual Aids [52.623545341588304]
私たちはライターに、開始プロンプトからクリエイティブなストーリーを書くように頼み、同じプロンプトから生成するAIモデルによって生成されたビジュアルを提供した。コントロールグループと比較すると、ビジュアルをストーリー・ライティング・アシストとして使用した作家は、より創造的で、オリジナルで、完全で、視覚的にできるストーリーを著した。発見は、AIによる横断的なモダリティ入力は、人間とAIの共創において創造性の異なる側面に利益をもたらすが、収束する思考を妨げることを示している。
論文参考訳（メタデータ） (2021-10-27T23:13:47Z)
Neural Twins Talk & Alternative Calculations [3.198144010381572]
高度に焦点を絞った対象を説明する際に、人間の脳がより多くの神経経路をいかに採用しているかに着想を得て、より優れたパフォーマンスを達成するために深い注意モデルを拡張することができることを示した。画像キャプションはコンピュータビジョンと自然言語処理のギャップを埋める。
論文参考訳（メタデータ） (2021-08-05T18:41:34Z)
From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。画像キャプションの研究はまだ結論に達していない。本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文参考訳（メタデータ） (2021-07-14T18:00:54Z)
A Framework and Dataset for Abstract Art Generation via CalligraphyGAN [0.0]
本研究では,コンディショナル・ジェネレーティブ・アドバイザリ・ネットワークと文脈ニューラル言語モデルに基づく創造的枠組みを提示し,抽象アートワークを生成する。私たちの作品は中国書道に触発され、字そのものが美的絵画である独特の視覚芸術形式である。
論文参考訳（メタデータ） (2020-12-02T16:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。