論文の概要: Enhancing Journalism with AI: A Study of Contextualized Image Captioning for News Articles using LLMs and LMMs
- arxiv url: http://arxiv.org/abs/2408.04331v1
- Date: Thu, 8 Aug 2024 09:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 15:58:21.044820
- Title: Enhancing Journalism with AI: A Study of Contextualized Image Captioning for News Articles using LLMs and LMMs
- Title(参考訳): AIによるジャーナリズムの強化:LLMとLMMを用いたニュース記事のコンテクスト化画像キャプションに関する研究
- Authors: Aliki Anagnostopoulou, Thiago Gouvea, Daniel Sonntag,
- Abstract要約: 大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)はAIコミュニティに大きな影響を与えている。
本研究では,LLMとLMMが,ニュース記事に付随する画像の文脈的キャプションを生成することによって,ジャーナリストの実践を支援する方法について検討する。
- 参考スコア(独自算出の注目度): 2.1165011830664673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) and large multimodal models (LMMs) have significantly impacted the AI community, industry, and various economic sectors. In journalism, integrating AI poses unique challenges and opportunities, particularly in enhancing the quality and efficiency of news reporting. This study explores how LLMs and LMMs can assist journalistic practice by generating contextualised captions for images accompanying news articles. We conducted experiments using the GoodNews dataset to evaluate the ability of LMMs (BLIP-2, GPT-4v, or LLaVA) to incorporate one of two types of context: entire news articles, or extracted named entities. In addition, we compared their performance to a two-stage pipeline composed of a captioning model (BLIP-2, OFA, or ViT-GPT2) with post-hoc contextualisation with LLMs (GPT-4 or LLaMA). We assess a diversity of models, and we find that while the choice of contextualisation model is a significant factor for the two-stage pipelines, this is not the case in the LMMs, where smaller, open-source models perform well compared to proprietary, GPT-powered ones. Additionally, we found that controlling the amount of provided context enhances performance. These results highlight the limitations of a fully automated approach and underscore the necessity for an interactive, human-in-the-loop strategy.
- Abstract(参考訳): 大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は、AIコミュニティ、産業、および様々な経済セクターに大きな影響を与えている。
ジャーナリズムにおいて、AIの統合は、特にニュースレポートの品質と効率を高める上で、ユニークな課題と機会をもたらす。
本研究では,LLMとLMMが,ニュース記事に付随する画像の文脈的キャプションを生成することによって,ジャーナリストの実践を支援する方法について検討する。
我々はGoodNewsデータセットを用いて、LMM(BLIP-2, GPT-4v, LLaVA)の2種類のコンテキストを組み込む能力を評価する実験を行った。
さらに,キャプションモデル(BLIP-2,OFA,VT-GPT2)とLLM(GPT-4,LLaMA)を併用した2段階パイプラインとの比較を行った。
モデルの多様性を評価し、文脈化モデルの選択が2段階のパイプラインにとって重要な要素であることに気付きましたが、小型のオープンソースモデルがプロプライエタリなGPTモデルと比較してうまく機能するLMMではそうではありません。
さらに、提供されたコンテキスト量を制御することで、パフォーマンスが向上することがわかった。
これらの結果は、完全に自動化されたアプローチの限界を強調し、インタラクティブで人力によるループ戦略の必要性を浮き彫りにしている。
関連論文リスト
- Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - Automating Customer Needs Analysis: A Comparative Study of Large Language Models in the Travel Industry [2.4244694855867275]
大規模言語モデル(LLM)は、大量のテキストデータから貴重な洞察を抽出するための強力なツールとして登場した。
本研究では,TripAdvisor 投稿から旅行客のニーズを抽出するための LLM の比較分析を行った。
特にMistral 7Bは,大規模クローズドモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-27T18:28:10Z) - A Review of Multi-Modal Large Language and Vision Models [1.9685736810241874]
大規模言語モデル(LLM)が研究と応用の焦点として登場した。
近年、LLMはマルチモーダル大言語モデル(MM-LLM)に拡張されている。
本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。
論文 参考訳(メタデータ) (2024-03-28T15:53:45Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Harnessing the Power of LLMs: Evaluating Human-AI Text Co-Creation
through the Lens of News Headline Generation [58.31430028519306]
本研究は, LLMを書き込みに最も有効に活用する方法と, これらのモデルとのインタラクションが, 書き込みプロセスにおけるオーナシップや信頼感にどのように影響するかを考察する。
LLMだけで十分なニュースの見出しを生成することができるが、平均すると、望ましくないモデルのアウトプットを修正するには人間による制御が必要である。
論文 参考訳(メタデータ) (2023-10-16T15:11:01Z) - Integrating Stock Features and Global Information via Large Language
Models for Enhanced Stock Return Prediction [5.762650600435391]
本稿では,大規模言語モデルと既存の定量的モデルを統合する上での課題を克服するために,2つのコンポーネントからなる新しいフレームワークを提案する。
我々はランク情報係数とリターンにおいて、特に中国A株市場における株価のみに依存したモデルと比較して、優れたパフォーマンスを示してきた。
論文 参考訳(メタデータ) (2023-10-09T11:34:18Z) - An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文 参考訳(メタデータ) (2023-09-18T17:30:46Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。