論文の概要: Characterizing Multimodal Long-form Summarization: A Case Study on Financial Reports
- arxiv url: http://arxiv.org/abs/2404.06162v3
- Date: Thu, 15 Aug 2024 13:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 18:28:05.334704
- Title: Characterizing Multimodal Long-form Summarization: A Case Study on Financial Reports
- Title(参考訳): マルチモーダルロングフォーム要約の特徴付け:財務報告を事例として
- Authors: Tianyu Cao, Natraj Raman, Danial Dervovic, Chenhao Tan,
- Abstract要約: 我々は,財務報告書の要約をケーススタディとして用いている。
マルチモーダルな長文要約を特徴付けるための計算フレームワークを提案し,Claude 2.0/2.1, GPT-4/3.5, Cohereの挙動について検討する。
GPT-4と比較して,長時間のマルチモーダル入力処理におけるClaude 2の強みを概説した。
- 参考スコア(独自算出の注目度): 22.80534907457591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) expand the power of natural language processing to handle long inputs, rigorous and systematic analyses are necessary to understand their abilities and behavior. A salient application is summarization, due to its ubiquity and controversy (e.g., researchers have declared the death of summarization). In this paper, we use financial report summarization as a case study because financial reports are not only long but also use numbers and tables extensively. We propose a computational framework for characterizing multimodal long-form summarization and investigate the behavior of Claude 2.0/2.1, GPT-4/3.5, and Cohere. We find that GPT-3.5 and Cohere fail to perform this summarization task meaningfully. For Claude 2 and GPT-4, we analyze the extractiveness of the summary and identify a position bias in LLMs. This position bias disappears after shuffling the input for Claude, which suggests that Claude seems to recognize important information. We also conduct a comprehensive investigation on the use of numeric data in LLM-generated summaries and offer a taxonomy of numeric hallucination. We employ prompt engineering to improve GPT-4's use of numbers with limited success. Overall, our analyses highlight the strong capability of Claude 2 in handling long multimodal inputs compared to GPT-4. The generated summaries and evaluation code are available at https://github.com/ChicagoHAI/characterizing-multimodal-long-form-summarization.
- Abstract(参考訳): 大規模言語モデル(LLM)が長い入力を処理するために自然言語処理の能力を拡大するにつれ、その能力や振る舞いを理解するためには厳密で体系的な分析が必要である。
健全な応用は要約であり、その普遍性と論争のためである(例えば、研究者は要約の死を宣言している)。
本稿では,財務報告書の要約をケーススタディとして用いた。
マルチモーダルな長文要約を特徴付けるための計算フレームワークを提案し,Claude 2.0/2.1, GPT-4/3.5, Cohereの挙動について検討する。
GPT-3.5とCohereは、この要約タスクを有意に実行できない。
クロード2, GPT-4では, 要約の抽出性を分析し, LLMにおける位置バイアスを同定する。
この位置バイアスは、クロードの入力をシャッフルした後で消失し、クロードが重要な情報を認識することを示唆している。
また,LSM生成サマリーにおける数値データの利用に関する包括的調査を行い,数値幻覚の分類を提供する。
我々は、GPT-4の数値使用率の向上のために、限られた成功率で即時エンジニアリングを採用する。
GPT-4と比較して,長時間のマルチモーダル入力処理におけるClaude 2の強みを概説した。
生成された要約と評価コードはhttps://github.com/ChicagoHAI/characterizing-multimodal-long-form-summarizationで公開されている。
関連論文リスト
- Prompting and Fine-Tuning of Small LLMs for Length-Controllable Telephone Call Summarization [33.67670065326008]
本稿では,大規模言語モデル(LLM)を用いた電話要約システムの迅速な開発について検討する。
Llama-2-7Bの微調整による要約モデルでは,実測精度,完全性,簡潔性の観点から,GPT-4と同等に動作することがわかった。
論文 参考訳(メタデータ) (2024-10-24T10:32:10Z) - FABLES: Evaluating faithfulness and content selection in book-length summarization [55.50680057160788]
本稿では,本書の忠実度と内容選択の大規模評価を行う。
LLMが生成した26冊のサマリーで作成した3,158冊の注釈のデータセットであるFABLESを5.2KUSDで収集する。
注釈の分析によると、ほとんどの不誠実な主張は出来事や登場人物の状態に関係しており、物語を無効にするために間接的推論を必要とする。
論文 参考訳(メタデータ) (2024-04-01T17:33:38Z) - Can Large Language Models do Analytical Reasoning? [45.69642663863077]
本稿では,スポーツにおける分析的推論を用いた最先端の大規模言語モデルについて検討する。
GPT-4が有効であり,次いでClaude-2.1,GPT-3.5,Gemini-Pro,Llama-2-70bが遅れている。
意外なことに、GPT-4を含むほとんどのモデルでは、NFLのクォータースコアは高いパフォーマンスを示したにもかかわらず、NBAのクォーターの総得点を正確に数えるのに苦労している。
論文 参考訳(メタデータ) (2024-03-06T20:22:08Z) - Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models [58.54538318912159]
M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。
M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
論文 参考訳(メタデータ) (2023-10-30T03:11:30Z) - BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs'
Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。
具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。
次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文 参考訳(メタデータ) (2023-10-25T23:32:12Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Benchmarking the Abilities of Large Language Models for RDF Knowledge
Graph Creation and Comprehension: How Well Do LLMs Speak Turtle? [0.0]
大きな言語モデル(LLM)は、自然言語処理とコーディングタスクにおいて大幅に改善され、急速に進歩している。
様々なLSMの習熟度を評価するために,Turtle構文でシリアライズされた知識グラフを解析,理解,分析,作成する5つのタスクのセットを作成した。
GPT-3.5、GPT-4、Claude 1.3、Claude 2.0の4つの商用LLMと、GPT4All VicunaとGPT4All Falcon 13Bの2つのオフラインモデルが含まれていた。
論文 参考訳(メタデータ) (2023-09-29T10:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。