Fugu-MT 論文翻訳(概要): Context Matters: An Empirical Study of the Impact of Contextual Information in Temporal Question Answering Systems

論文の概要: Context Matters: An Empirical Study of the Impact of Contextual Information in Temporal Question Answering Systems

arxiv url: http://arxiv.org/abs/2406.19538v1
Date: Thu, 27 Jun 2024 21:31:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 18:22:04.927923
Title: Context Matters: An Empirical Study of the Impact of Contextual Information in Temporal Question Answering Systems
Title（参考訳）: 文脈事項:時間的質問回答システムにおける文脈情報の影響に関する実証的研究
Authors: Dan Schumacher, Fatemeh Haji, Tara Grey, Niharika Bandlamudi, Nupoor Karnik, Gagana Uday Kumar, Jason Cho-Yu Chiang, Paul Rad, Nishant Vishwamitra, Anthony Rios,
Abstract要約: 本稿では,様々な文脈で学習した時間的質問応答システムのロバスト性について実験的に検討する。これらのコンテキストを混合したトレーニングにより、モデルの堅牢性と精度が向上することを示す。我々は、コンテキストリッチなTQAデータセットであるContextAQAとContextTQEを導入し、堅牢なTQAモデルをトレーニングするための包括的な評価とガイドラインを提供する。
参考スコア（独自算出の注目度）: 7.393290178125003
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) often struggle with temporal reasoning, crucial for tasks like historical event analysis and time-sensitive information retrieval. Despite advancements, state-of-the-art models falter in handling temporal information, especially when faced with irrelevant or noisy contexts. This paper addresses this gap by empirically examining the robustness of temporal question-answering (TQA) systems trained on various context types, including relevant, irrelevant, slightly altered, and no context. Our findings indicate that training with a mix of these contexts enhances model robustness and accuracy. Additionally, we show that the position of context relative to the question significantly impacts performance, with question-first positioning yielding better results. We introduce two new context-rich TQA datasets, ContextAQA and ContextTQE, and provide comprehensive evaluations and guidelines for training robust TQA models. Our work lays the foundation for developing reliable and context-aware temporal QA systems, with broader implications for enhancing LLM robustness against diverse and potentially adversarial information.
Abstract（参考訳）: 大規模言語モデル(LLM)は、歴史的事象分析や時間に敏感な情報検索といったタスクに不可欠な時間的推論に苦しむことが多い。進歩にも拘わらず、最先端のモデルでは、特に無関係や騒々しい状況に直面した場合、時間的情報を扱うのが苦手である。本稿では, 時間的質問応答(TQA)システムにおいて, 関連性, 関連性, 変更性, 文脈性など, 様々な文脈タイプで訓練された頑健さを実証的に検証することによって, このギャップを解消する。以上の結果から,これらのコンテキストの混合によるトレーニングにより,モデルの堅牢性と精度が向上することが示唆された。さらに,質問に対する文脈の位置が性能に大きく影響し,質問優先の位置がより良い結果をもたらすことを示した。我々は、コンテキストリッチなTQAデータセットであるContextAQAとContextTQEを導入し、堅牢なTQAモデルをトレーニングするための包括的な評価とガイドラインを提供する。我々の研究は、多種多様かつ潜在的に敵対的な情報に対するLCM堅牢性を高めるために、信頼性と文脈に配慮した時間的QAシステムの開発の基礎を築いた。

関連論文リスト

It's High Time: A Survey of Temporal Question Answering [17.07150094603319]
TQA(Temporal Question Answering)は、時間的制約や文脈に関する質問に答えることに焦点を当てている。ニューラルモデルと大規模言語モデル(LLM)によるTQAの最近の進歩時間的堅牢性、傾向認識、一般化をテストするために設計されたベンチマークデータセットと評価戦略。
論文参考訳（メタデータ） (2025-05-26T17:21:26Z)
Learning to Reason Over Time: Timeline Self-Reflection for Improved Temporal Reasoning in Language Models [21.579319926212296]
大規模言語モデル(LLM)は、一貫性のあるテキストを生成し、コンテキストを理解し、推論タスクを実行するための強力なツールとして登場した。彼らは時間的推論に苦しむが、それはイベントシーケンシングや時間的関係、時間的関係などの時間的関連情報を処理する必要がある。我々は,タイムライン構築と反復的自己回帰を組み合わせた多段階プロセスを通じて,LLMの時間的推論能力を高める新しいフレームワークであるTISERを紹介する。
論文参考訳（メタデータ） (2025-04-07T16:51:45Z)
MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering [21.064096256892686]
マルチモーダル時系列データセットは、クロスモーダル推論と複雑な質問応答の評価において不足している。時系列およびテキスト理解における大規模言語モデル(LLM)を評価するベンチマークであるMTBench(Multimodal Time Series Benchmark)を紹介する。 MTbench 上での最先端 LLM の評価を行い,ニュース物語と時間パターンの複雑な関係をモデル化する上での有効性を分析した。
論文参考訳（メタデータ） (2025-03-21T05:04:53Z)
Mitigating Knowledge Conflicts in Language Model-Driven Question Answering [15.29366851382021]
2つの基本的な知識源は、文書ベースの質問応答と文書要約システムにおいて重要な役割を担っている。近年の研究では、モデル固有の知識とトレーニングデータにおける基礎的真理解との間に不整合が存在する場合、システムは推論中に問題のある振る舞いを示す可能性があるという重要な課題が明らかにされている。本研究は,ソース入力と出力との明示的な接続を構築することで,幻覚を最小化する手法を提案する。
論文参考訳（メタデータ） (2024-11-18T07:33:10Z)
On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文参考訳（メタデータ） (2024-11-05T00:16:01Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
Why context matters in VQA and Reasoning: Semantic interventions for VLM input modalities [18.859309032300402]
画像とテキストのモダリティからの情報の統合が視覚言語モデル(VLM)予測の性能と振舞いに与える影響について検討する。本稿では,VQAタスクの解決に視覚的内容が不可欠である様々な構成において,テキストと画像のモダリティの相互作用について検討する。この結果から,モダリティ間の相補的な情報によって解答や推論の質が向上し,矛盾する情報がモデルの性能や信頼性を損なうことが明らかとなった。
論文参考訳（メタデータ） (2024-10-02T16:02:02Z)
Enhancing Temporal Sensitivity and Reasoning for Time-Sensitive Question Answering [23.98067169669452]
Time-Sensitive Question Answering (TSQA)は、特定の時間的文脈を効果的に活用することを要求する。本稿では,時間的認知と推論を時間的情報認識の埋め込みとグラニュラコントラスト強化学習を通じて促進する新しい枠組みを提案する。
論文参考訳（メタデータ） (2024-09-25T13:13:21Z)
QTG-VQA: Question-Type-Guided Architectural for VideoQA Systems [3.486120902611884]
本稿では,VQAシステムにおける様々な質問タイプの重要性と,その性能への影響について考察する。本稿では,QTG-VQAを提案する。QTG-VQAは,質問型誘導型注意と適応学習機構を組み込んだ新しいアーキテクチャである。
論文参考訳（メタデータ） (2024-09-14T07:42:41Z)
QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory [66.01597794579568]
問題をモデル化するために情報ボトルネック理論(IB)を導入する。 IBにおける相互情報に近似するクロスアテンションに基づく手法を提案する。提案手法は,最先端技術と比較して25%の圧縮率向上を実現している。
論文参考訳（メタデータ） (2024-08-20T02:44:45Z)
Enhancing Robustness of Retrieval-Augmented Language Models with In-Context Learning [5.053086684547045]
本研究では、ALMの推論能力を高めるために、文脈内学習に基づくアプローチを導入する。我々のアプローチは、追加の微調整を必要とせずに、解決不可能なシナリオと矛盾するシナリオを特定する精度を高める。
論文参考訳（メタデータ） (2024-08-08T12:42:43Z)
Synthetic Context Generation for Question Generation [6.226609932118123]
本稿では,大規模言語モデルによる合成文脈を用いたQGモデルの訓練について検討する。たとえ合成されたとしても、QGタスクにはコンテキストが不可欠であることがわかった。
論文参考訳（メタデータ） (2024-06-19T03:37:52Z)
Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文参考訳（メタデータ） (2023-11-16T11:49:29Z)
Lost in the Middle: How Language Models Use Long Contexts [88.78803442320246]
本研究では,言語モデルの性能を2つのタスクで解析する。関連する情報の位置を変えると,性能が著しく低下することがわかった。我々の分析は、言語モデルが入力コンテキストをどのように使用するかをよりよく理解し、将来の長文言語モデルのための新しい評価プロトコルを提供する。
論文参考訳（メタデータ） (2023-07-06T17:54:11Z)
Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文参考訳（メタデータ） (2023-05-24T10:57:53Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。動的パーソナライズされた価格設定などの問題の因果構造を形式化する。本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文参考訳（メタデータ） (2021-10-19T16:15:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。