論文の概要: Understanding How Paper Writers Use AI-Generated Captions in Figure Caption Writing
- arxiv url: http://arxiv.org/abs/2501.06317v1
- Date: Fri, 10 Jan 2025 19:39:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:09.150308
- Title: Understanding How Paper Writers Use AI-Generated Captions in Figure Caption Writing
- Title(参考訳): 図表キャプション記述における紙作者のAI生成キャプション使用方法の理解
- Authors: Ho Yin, Ng, Ting-Yao Hsu, Jiyoo Min, Sungchul Kim, Ryan A. Rossi, Tong Yu, Hyunggu Jung, Ting-Hao 'Kenneth' Huang,
- Abstract要約: 本稿では,18人の参加者を対象としたユーザスタディを通じて,論文著者がAI生成キャプションを記述プロセスに組み込む方法について検討する。
インタラクション分析により映像記録を解析することにより、参加者はAI生成キャプションのコピー・リファインディングから始めることが多いことがわかった。
ペーパーライターは、テキストとビジュアル要素を統合した長い細部豊かなキャプションを好んだが、現在のAIモデルは複雑な数字では効果が低かった。
- 参考スコア(独自算出の注目度): 38.53604094994033
- License:
- Abstract: Figures and their captions play a key role in scientific publications. However, despite their importance, many captions in published papers are poorly crafted, largely due to a lack of attention by paper authors. While prior AI research has explored caption generation, it has mainly focused on reader-centered use cases, where users evaluate generated captions rather than actively integrating them into their writing. This paper addresses this gap by investigating how paper authors incorporate AI-generated captions into their writing process through a user study involving 18 participants. Each participant rewrote captions for two figures from their own recently published work, using captions generated by state-of-the-art AI models as a resource. By analyzing video recordings of the writing process through interaction analysis, we observed that participants often began by copying and refining AI-generated captions. Paper writers favored longer, detail-rich captions that integrated textual and visual elements but found current AI models less effective for complex figures. These findings highlight the nuanced and diverse nature of figure caption composition, revealing design opportunities for AI systems to better support the challenges of academic writing.
- Abstract(参考訳): フィギュアとキャプションは科学出版において重要な役割を果たしている。
しかし、その重要性にも拘わらず、多くの新聞のキャプションは、主に紙作家の注意が欠如していることから、不作為である。
これまでのAI研究はキャプション生成を探求してきたが、主に読者中心のユースケースに焦点を当てており、ユーザーは積極的にキャプションを書き込みに組み込むのではなく、生成されたキャプションを評価する。
本稿は,18人の参加者を対象としたユーザスタディを通じて,論文作成者がAI生成キャプションを執筆プロセスに組み込む方法を検討することで,このギャップに対処する。
各参加者は、最新のAIモデルによって生成されたキャプションをリソースとして使用して、最近公開された自身の作品から2つのフィギュアのキャプションを書き直した。
インタラクション分析により映像記録を解析することにより、参加者はAI生成キャプションのコピー・リファインディングから始めることが多いことがわかった。
ペーパーライターは、テキストとビジュアル要素を統合した長い細部豊かなキャプションを好んだが、現在のAIモデルは複雑な数字では効果が低かった。
これらの知見は、図形字幕構成の微妙で多様な性質を浮き彫りにして、学術的執筆の課題をより良く支援するためのAIシステムの設計機会を明らかにした。
関連論文リスト
- How Does the Disclosure of AI Assistance Affect the Perceptions of Writing? [29.068596156140913]
筆者らは,筆記プロセスにおけるAI支援のレベルとタイプが,書記プロセスに対する人々の認識にどのように影響するかについて検討した。
以上の結果から,特にAIが新たなコンテンツ生成の支援を提供していれば,文章作成プロセスにおけるAI支援の開示は,平均品質評価を低下させる可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-06T16:45:33Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Purposeful remixing with generative AI: Constructing designer voice in multimodal composing [16.24460569356749]
本研究は, 生成型AIツールの使用が, 多モーダル執筆において, より一貫した音声構築に役立つかどうかを考察する。
この研究は、技術的柔軟性によって得られるように、AIによるマルチモーダル書き込みの意図的かつ非帰的な性質に光を当てている。
論文 参考訳(メタデータ) (2024-03-28T02:15:03Z) - SciCapenter: Supporting Caption Composition for Scientific Figures with Machine-Generated Captions and Ratings [28.973082312034343]
本稿では,科学的な図形キャプションのための最先端AI技術を統合する対話型システムであるSciCapenterを紹介する。
SciCapenterは学術論文で各人物の様々なキャプションを生成し、キャプションの品質を評価するためのスコアと包括的なチェックリストを提供する。
Ph.D.の学生によるユーザスタディによると、SciCapenterは字幕作成の認知負荷を著しく低下させる。
論文 参考訳(メタデータ) (2024-03-26T15:16:14Z) - Perceptions and Detection of AI Use in Manuscript Preparation for
Academic Journals [1.881901067333374]
大規模言語モデル(LLM)は、AIが学術的な文章にどのように影響するかを興奮と心配の両方を生み出している。
学術出版物の著者は、原稿の改訂に使用するAIツールを自発的に開示するかもしれない。
ジャーナルやカンファレンスは、開示を義務付けるか、あるいは検出サービスを使用するようにします。
論文 参考訳(メタデータ) (2023-11-19T06:04:46Z) - Summaries as Captions: Generating Figure Captions for Scientific
Documents with Automated Text Summarization [31.619379039184263]
図文キャプション生成は、科学文書におけるテキスト要約タスクとして、より効果的に取り組むことができる。
図式参照段落を具体的に要約するために,事前学習した抽象要約モデルであるPEGを微調整した。
大規模arXiv図を用いた実験により,本手法は,自動評価と人的評価の両方において,先行視覚法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-02-23T20:39:06Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。