Fugu-MT 論文翻訳(概要): Large Language Models Can Learn Temporal Reasoning

論文の概要: Large Language Models Can Learn Temporal Reasoning

arxiv url: http://arxiv.org/abs/2401.06853v3
Date: Mon, 22 Apr 2024 04:00:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 23:53:39.846699
Title: Large Language Models Can Learn Temporal Reasoning
Title（参考訳）: 大規模言語モデルは時間的推論を学習できる
Authors: Siheng Xiong, Ali Payani, Ramana Kompella, Faramarz Fekri,
Abstract要約: 本稿では,言語に基づく時間的推論のための新しいフレームワークTG-LLMを提案する。元の文脈を推論する代わりに、TR学習を容易にする潜在表現である時間グラフ(TG)を採用する。合成データセット (TGQA) は, このテキストからTGへの翻訳作業において, LLMを微調整するために構築される。
参考スコア（独自算出の注目度）: 11.599570446840547
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While large language models (LLMs) have demonstrated remarkable reasoning capabilities, they are not without their flaws and inaccuracies. Recent studies have introduced various methods to mitigate these limitations. Temporal reasoning (TR), in particular, presents a significant challenge for LLMs due to its reliance on diverse temporal expressions and intricate temporal logic. In this paper, we propose TG-LLM, a novel framework towards language-based TR. Instead of reasoning over the original context, we adopt a latent representation, temporal graph (TG) that facilitates the TR learning. A synthetic dataset (TGQA), which is fully controllable and requires minimal supervision, is constructed for fine-tuning LLMs on this text-to-TG translation task. We confirmed in experiments that the capability of TG translation learned on our dataset can be transferred to other TR tasks and benchmarks. On top of that, we teach LLM to perform deliberate reasoning over the TGs via Chain of Thought (CoT) bootstrapping and graph data augmentation. We observed that those strategies, which maintain a balance between usefulness and diversity, bring more reliable CoTs and final results than the vanilla CoT distillation.
Abstract（参考訳）: 大きな言語モデル(LLM)は顕著な推論能力を示しているが、欠陥や不正確さがないわけではない。近年の研究では、これらの制限を緩和する様々な方法が紹介されている。特に、時間的推論(TR)は、多種多様な時間的表現と複雑な時間的論理に依存しているため、LLMにとって重要な課題である。本稿では,言語ベースTRに向けた新しいフレームワークであるTG-LLMを提案する。元の文脈を推論する代わりに、TR学習を容易にする潜在表現である時間グラフ(TG)を採用する。完全制御可能で最小限の監視を必要とする合成データセット(TGQA)は、このテキストからTGへの翻訳タスク上での微調整用として構築される。実験では,データセット上で学習したTG翻訳の能力が,他のTRタスクやベンチマークに転送可能であることを確認した。それに加えて、私たちはLLMに、Chain of Thought (CoT)ブートストラップとグラフデータ拡張を通じて、意図的にTGを推論するように教えています。有用性と多様性のバランスを保っているこれらの戦略は,バニラのCoT蒸留よりも信頼性が高く,最終結果が得られた。

関連論文リスト

LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens [25.257363122413395]
シンキングトークン」は、LRMが機械翻訳をより良く実行するのに役立ちません。合成CoT説明によるモデル微調整は、標準入力出力微調整よりは良くない。以上の結果から,教師が目標翻訳を洗練したり,並列コーパスを拡張することは,CoTの説明を「思考」MTモデルに蒸留するよりも影響が大きいことが示唆された。
論文参考訳（メタデータ） (2025-10-13T20:41:01Z)
Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection [64.73809794561305]
errOr-aware self-ReflectION (ORION) は、エラー・アウェア・リフレクション(Error-Aware Reflection)プロセスを通じて教師のCoTを洗練するフレームワークである。複数の数学的推論ベンチマークの実験では、ORIONはすべてのベースラインに対して2%以上パフォーマンスを継続的に改善している。
論文参考訳（メタデータ） (2025-05-28T08:57:03Z)
Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation [33.08089616645845]
大言語モデル(LLM)は機械翻訳(MT)のランドスケープを再構築した我々は,数発のプロンプト,言語間移動,パラメータ効率の微調整などの手法を解析する。幻覚、評価の不整合、遺伝バイアスなど、永続的な課題について議論する。
論文参考訳（メタデータ） (2025-04-02T17:26:40Z)
Unlocking General Long Chain-of-Thought Reasoning Capabilities of Large Language Models via Representation Engineering [59.34894142132706]
既存の作業では、いくつかの例だけをチューニングすることで、長いCoT推論の能力を効率的に引き出すことができる。このことは、LLMの一般的な能力であるCoT推論の長さを調査する動機となっている。 LLMの一般的な長大CoT推論能力を解き放つ新しい表現工学手法であるGLoREを提案する。
論文参考訳（メタデータ） (2025-03-14T11:30:37Z)
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
我々は,新しいプロンプトフレームワークであるSketch-of-Thought(SoT)を紹介する。認知に触発された推論パラダイムと言語制約を組み合わせることでトークンの使用を最小化する。 SoTは、無視できる精度の影響でトークンを76%削減する。
論文参考訳（メタデータ） (2025-03-07T06:57:17Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高めるしかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか? 本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
Temporally Consistent Factuality Probing for Large Language Models [16.177991267568125]
本稿では, 時間的に一貫性のある課題であるTeCFaPを紹介する。既存のメトリクスの定義を拡張して、時間次元にわたって一貫した事実性を表現します。次に,マルチタスク・インストラクション・チューニング(MT-IT)と一貫した時間依存性強化学習(CTSRL)を組み合わせた新しいソリューションCoTSeLFを提案する。
論文参考訳（メタデータ） (2024-09-21T08:41:08Z)
Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。 2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文参考訳（メタデータ） (2024-08-23T00:59:38Z)
LTLBench: Towards Benchmarks for Evaluating Temporal Logic Reasoning in Large Language Models [5.455744338342196]
時間的推論(TR)は人工知能の重要な構成要素である。 TR能力の様々な側面を評価するために、様々なデータセットが様々な方法で構築されている。本研究は,LLMのTR能力を評価するために,データセット構築のためのパイプラインを設計・開発するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-07-07T16:37:06Z)
Large Language Models-guided Dynamic Adaptation for Temporal Knowledge Graph Reasoning [87.10396098919013]
大規模言語モデル (LLM) は、時間的推論において広範な知識と卓越した能力を示した。本稿では,時間的知識グラフに基づく推論のためのLarge Language Models-Guided Dynamic Adaptation (LLM-DA)法を提案する。 LLM-DAは、歴史的データを解析し、時間的論理規則を抽出するLLMの機能を利用する。
論文参考訳（メタデータ） (2024-05-23T04:54:37Z)
ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文参考訳（メタデータ） (2024-03-21T11:34:26Z)
TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement [26.26493253161022]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た我々は,体系的LLMに基づく自己精製翻訳フレームワーク,textbfTEaRを紹介する。
論文参考訳（メタデータ） (2024-02-26T07:58:12Z)
Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。 EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文参考訳（メタデータ） (2023-11-12T05:12:49Z)
MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文参考訳（メタデータ） (2023-10-24T17:59:20Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。 GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文参考訳（メタデータ） (2023-10-02T00:59:07Z)
Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文参考訳（メタデータ） (2023-08-21T15:35:16Z)
TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文参考訳（メタデータ） (2023-07-10T08:15:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。