論文の概要: Machine-in-the-Loop Rewriting for Creative Image Captioning
- arxiv url: http://arxiv.org/abs/2111.04193v1
- Date: Sun, 7 Nov 2021 22:17:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 15:25:17.157151
- Title: Machine-in-the-Loop Rewriting for Creative Image Captioning
- Title(参考訳): 創造的画像キャプションのためのループ内書き直し
- Authors: Vishakh Padmakumar, He He
- Abstract要約: テキストに記述的および図形的要素を局所的に導入するために,ユーザのオリジナルドラフト内で指定されたテキスト幅を変更する書き換えモデルを訓練する。
我々は,創造的なイメージキャプションのタスクにおいて,人間と協調する能力をモデルとして評価する。
- 参考スコア(独自算出の注目度): 5.544401446569243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine-in-the-loop writing aims to enable humans to collaborate with models
to complete their writing tasks more effectively. Prior work has found that
providing humans a machine-written draft or sentence-level continuations has
limited success since the generated text tends to deviate from humans'
intention. To allow the user to retain control over the content, we train a
rewriting model that, when prompted, modifies specified spans of text within
the user's original draft to introduce descriptive and figurative elements
locally in the text. We evaluate the model on its ability to collaborate with
humans on the task of creative image captioning. On a user study through Amazon
Mechanical Turk, our model is rated to be more helpful than a baseline
infilling language model. In addition, third-party evaluation shows that users
write more descriptive and figurative captions when collaborating with our
model compared to completing the task alone.
- Abstract(参考訳): machine-in-the-loop writingは、人間がモデルとコラボレーションして、より効果的に記述タスクを完了できるようにすることを目的としている。
以前の研究で、機械で書かれた草案や文レベルの継続を人間に提供することは、生成したテキストが人間の意図から逸脱する傾向があるため、成功は限られていることがわかった。
そこで本研究では,ユーザがコンテンツのコントロールを維持できるように,ユーザ独自のドラフト内で指定されたテキストのスパンを変更可能な書き換えモデルをトレーニングし,テキスト内の記述的および図形的要素を局所的に導入する。
我々は,創造的なイメージキャプションのタスクにおいて,人間と協調する能力をモデルとして評価する。
Amazon Mechanical Turkによるユーザ調査では、私たちのモデルはベースラインのインフィル言語モデルよりも役に立つと評価されている。
さらに, 作業完了時よりも, モデルと協調する場合には, より説明的, 具体的キャプションを記述しやすくする。
関連論文リスト
- Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Learning to Generate Text in Arbitrary Writing Styles [6.7308816341849695]
言語モデルは、潜在的に小さな文章サンプルに基づいて、著者固有のスタイルでテキストを作成することが望ましい。
本稿では,テクスチャ的特徴を捉えた対照的に訓練された表現を用いて,ターゲットスタイルのテキストを生成するための言語モデルを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:58:52Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - MOCHA: A Multi-Task Training Approach for Coherent Text Generation from
Cognitive Perspective [22.69509556890676]
本稿では,文章の認知理論に基づくコヒーレントテキスト生成のための新しいマルチタスク学習戦略を提案する。
我々は,物語生成,ニュース記事作成,議論生成という3つのオープンエンド世代タスクに対して,我々のモデルを広範囲に評価する。
論文 参考訳(メタデータ) (2022-10-26T11:55:41Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Collaborative Storytelling with Large-scale Neural Language Models [6.0794985566317425]
我々は、人工知能エージェントと人が協力して、交代で追加することでユニークなストーリーを作るという、協調的なストーリーテリングのタスクを紹介します。
本稿では,人間ストーリーテラーと協調して物語を創り出す共同ストーリーテリングシステムについて述べる。
論文 参考訳(メタデータ) (2020-11-20T04:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。