論文の概要: Temporally Consistent Factuality Probing for Large Language Models
- arxiv url: http://arxiv.org/abs/2409.14065v2
- Date: Thu, 17 Oct 2024 06:37:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 03:55:36.753644
- Title: Temporally Consistent Factuality Probing for Large Language Models
- Title(参考訳): 大規模言語モデルのための時間的一貫性のあるファクチュアリティ探索
- Authors: Ashutosh Bajpai, Aaryan Goyal, Atif Anwer, Tanmoy Chakraborty,
- Abstract要約: 本稿では, 時間的に一貫性のある課題であるTeCFaPを紹介する。
既存のメトリクスの定義を拡張して、時間次元にわたって一貫した事実性を表現します。
次に,マルチタスク・インストラクション・チューニング(MT-IT)と一貫した時間依存性強化学習(CTSRL)を組み合わせた新しいソリューションCoTSeLFを提案する。
- 参考スコア(独自算出の注目度): 16.177991267568125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prolific use of Large Language Models (LLMs) as an alternate knowledge base requires them to be factually consistent, necessitating both correctness and consistency traits for paraphrased queries. Recently, significant attempts have been made to benchmark datasets and metrics to evaluate LLMs for these traits. However, structural simplicity (subject-relation-object) and contemporary association in their query formulation limit the broader definition of factuality and consistency. In this study, we introduce TeCFaP, a novel Temporally Consistent Factuality Probe task to expand the consistent factuality probe in the temporal dimension. To this end, we propose TEMP-COFAC, a high-quality dataset of prefix-style English query paraphrases. Subsequently, we extend the definitions of existing metrics to represent consistent factuality across temporal dimension. We experiment with a diverse set of LLMs and find most of them performing poorly on TeCFaP. Next, we propose a novel solution CoTSeLF (Consistent-Time-Sensitive Learning Framework) combining multi-task instruction tuning (MT-IT) with consistent-time-sensitive reinforcement learning (CTSRL) to improve temporally consistent factuality in LLMs. Our experiments demonstrate the efficacy of CoTSeLF over several baselines.
- Abstract(参考訳): 言語モデル(LLM)を代替知識ベースとして多用するためには、実際には一貫性が必要であり、パラフレーズクエリの正確性と一貫性の両方の特性を必要とする。
近年,これらの特徴についてLLMを評価するために,データセットやメトリクスをベンチマークするための重要な試みが行われている。
しかし、そのクエリの定式化における構造的単純さ(対象-関係オブジェクト)と現代の関連性は、事実性と一貫性のより広範な定義を制限する。
本研究では,時間次元における一貫した事実性探究を拡大するために,時間的に一貫した現実性探究課題TeCFaPを紹介する。
そこで本稿では,プレフィックススタイルの英語クエリパラフレーズの高品質なデータセットであるTEMP-COFACを提案する。
その後、時間次元にまたがる一貫した事実性を表現するために、既存のメトリクスの定義を拡張した。
我々は,多種多様なLLMを用いて実験を行い,そのほとんどはTeCFaPで不十分な性能を示した。
次に,マルチタスク・インストラクション・チューニング (MT-IT) と一貫した時間依存性強化学習 (CTSRL) を組み合わせた新しいソリューション CoTSeLF (Consistent-Time-Sensitive Learning Framework) を提案する。
実験では,CoTSeLFがいくつかの基線上で有効であることを実証した。
関連論文リスト
- TableTime: Reformulating Time Series Classification as Zero-Shot Table Understanding via Large Language Models [54.44272772296578]
大規模言語モデル (LLM) は多変量時系列分類において有効であることを示した。
LLM は LLM の潜在空間内の時系列の埋め込みを直接コードし、LLM の意味空間と一致させる。
MTSCを表理解タスクとして再編成するテーブルタイムを提案する。
論文 参考訳(メタデータ) (2024-11-24T07:02:32Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Large Language Models Can Learn Temporal Reasoning [11.599570446840547]
本稿では,言語に基づく時間的推論のための新しいフレームワークTG-LLMを提案する。
元の文脈を推論する代わりに、潜時表現、時間グラフ(TG)を採用する。
合成データセット(TGQA)は完全に制御可能であり、最小限の監督を必要とする。
論文 参考訳(メタデータ) (2024-01-12T19:00:26Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。
以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T00:59:07Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.876355290198639]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - Measuring Reliability of Large Language Models through Semantic
Consistency [3.4990427823966828]
我々は,オープンなテキスト出力の比較を可能にする意味的一貫性の尺度を開発した。
我々は,この整合度尺度のいくつかのバージョンを実装し,パラフレーズ化した質問に対して,複数のPLMの性能を評価する。
論文 参考訳(メタデータ) (2022-11-10T20:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。