論文の概要: Unveiling Narrative Reasoning Limits of Large Language Models with Trope in Movie Synopses
- arxiv url: http://arxiv.org/abs/2409.14324v1
- Date: Sun, 22 Sep 2024 05:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 23:15:03.706390
- Title: Unveiling Narrative Reasoning Limits of Large Language Models with Trope in Movie Synopses
- Title(参考訳): 映画におけるトロープ付き大言語モデルの物語的推論限界の解き明かす
- Authors: Hung-Ting Su, Ya-Ching Hsu, Xudong Lin, Xiang-Qian Shi, Yulei Niu, Han-Yuan Hsu, Hung-yi Lee, Winston H. Hsu,
- Abstract要約: チェーン・オブ・シンクレット(CoT)プロンプトを備えた大規模言語モデルは、多段階の推論能力を示している。
本研究では,映画シナプスのトロープを利用して,最先端LLMの抽象的推論能力を評価する。
本稿では,これらの課題に対処し,F1スコアを11.8ポイント向上するためのトロープワイズクエリ手法を提案する。
- 参考スコア(独自算出の注目度): 66.7212332602784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) equipped with chain-of-thoughts (CoT) prompting have shown significant multi-step reasoning capabilities in factual content like mathematics, commonsense, and logic. However, their performance in narrative reasoning, which demands greater abstraction capabilities, remains unexplored. This study utilizes tropes in movie synopses to assess the abstract reasoning abilities of state-of-the-art LLMs and uncovers their low performance. We introduce a trope-wise querying approach to address these challenges and boost the F1 score by 11.8 points. Moreover, while prior studies suggest that CoT enhances multi-step reasoning, this study shows CoT can cause hallucinations in narrative content, reducing GPT-4's performance. We also introduce an Adversarial Injection method to embed trope-related text tokens into movie synopses without explicit tropes, revealing CoT's heightened sensitivity to such injections. Our comprehensive analysis provides insights for future research directions.
- Abstract(参考訳): 大型言語モデル (LLM) にはチェーン・オブ・シンクレット (CoT) のプロンプトが備わっており、数学、常識、論理学などの実コンテンツにおいて、重要な多段階の推論能力を示している。
しかし、より抽象的な能力を必要とする物語的推論における彼らのパフォーマンスは、まだ解明されていない。
本研究は,映画シナプスのトロープを利用して,最先端のLDMの抽象的推論能力を評価し,その低性能を明らかにする。
本稿では,これらの課題に対処し,F1スコアを11.8ポイント向上するためのトロープワイズクエリ手法を提案する。
さらに, 先行研究は, CoTが多段階推論を強化することを示唆する一方で, 本研究は, CoTが物語内容の幻覚を引き起こす可能性を示し, GPT-4の性能を低下させることを示した。
また, トロープ関連テキストトークンを露骨なトロープなしで映画シンプに埋め込み, それらのインジェクションに対するCoTの高感度化を明らかにした。
我々の総合的な分析は将来の研究の方向性についての洞察を提供する。
関連論文リスト
- Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study
on Syllogism [19.590120229602103]
大規模言語モデル(LLM)は、ステップバイステップの推論命令、例えばチェーン・オブ・シント(CoT)プロンプトを利用する。
本研究では, 否定に着目したLCMのステップバイステップ推論能力について検討する。
論文 参考訳(メタデータ) (2023-10-23T12:40:41Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z) - Text and Patterns: For Effective Chain of Thought, It Takes Two to Tango [11.344587937052697]
この研究は、大規模言語モデルにおける推論機構のより深い理解に向けた予備的なステップを開始する。
私たちの作業は、シンボル、パターン、テキストというプロンプト内のコンポーネントの1つを除いて、モデルをクエリすることに集中しています。
我々は、テキストがパターンに常識的な知識と意味を与えると仮定する。
論文 参考訳(メタデータ) (2022-09-16T02:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。