論文の概要: T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning
- arxiv url: http://arxiv.org/abs/2603.03790v1
- Date: Wed, 04 Mar 2026 07:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.21248
- Title: T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning
- Title(参考訳): T2S-Bench & Structure-of-ought:総合テキスト・ストラクチャー・推論のベンチマークとプロンプト
- Authors: Qinsi Wang, Hancheng Ye, Jinhee Kim, Jinghan Ke, Yifei Wang, Martin Kuo, Zishan Shao, Dongting Li, Yueqian Lin, Ting Jiang, Chiyue Wei, Qi Qian, Wei Wen, Helen Li, Yiran Chen,
- Abstract要約: 本稿では,中間的なテキスト構造を構築するためにモデルを誘導するプロンプト技術であるStructure of Thought(SoT)を紹介する。
この知見に基づいて、モデルのテキスト・ツー・ストラクチャ機能の評価と改善を目的とした最初のベンチマークであるT2S-Benchを提案する。
- 参考スコア(独自算出の注目度): 31.85615810584119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Think about how human handles complex reading tasks: marking key points, inferring their relationships, and structuring information to guide understanding and responses. Likewise, can a large language model benefit from text structure to enhance text-processing performance? To explore it, in this work, we first introduce Structure of Thought (SoT), a prompting technique that explicitly guides models to construct intermediate text structures, consistently boosting performance across eight tasks and three model families. Building upon this insight, we present T2S-Bench, the first benchmark designed to evaluate and improve text-to-structure capabilities of models. T2S-Bench includes 1.8K samples across 6 scientific domains and 32 structural types, rigorously constructed to ensure accuracy, fairness, and quality. Evaluation on 45 mainstream models reveals substantial improvement potential: the average accuracy on the multi-hop reasoning task is only 52.1%, and even the most advanced model achieves 58.1% node accuracy in end-to-end extraction. Furthermore, on Qwen2.5-7B-Instruct, SoT alone yields an average +5.7% improvement across eight diverse text-processing tasks, and fine-tuning on T2S-Bench further increases this gain to +8.6%. These results highlight the value of explicit text structuring and the complementary contributions of SoT and T2S-Bench. Dataset and eval code have been released at https://t2s-bench.github.io/T2S-Bench-Page/.
- Abstract(参考訳): キーポイントのマーク付け、関係の推測、理解と応答のガイドのための情報構造化などです。
同様に、大きな言語モデルは、テキスト処理性能を向上させるために、テキスト構造から恩恵を受けられるだろうか?
そこで本研究では,8つのタスクと3つのモデルファミリにまたがるパフォーマンスを継続的に向上させながら,中間テキスト構造を構築するためのモデルを明確に誘導する手法であるStructure of Thought(SoT)を紹介した。
この知見に基づいて、モデルのテキスト・ツー・ストラクチャ機能の評価と改善を目的とした最初のベンチマークであるT2S-Benchを提案する。
T2S-Benchには、6つの科学領域と32の構造型にわたる1.8Kサンプルが含まれており、正確さ、公正さ、品質を保証するために厳密に構築されている。
マルチホップ推論タスクの平均精度は52.1%であり、最も先進的なモデルでさえ、エンドツーエンドの抽出において58.1%のノード精度を達成する。
さらに、Qwen2.5-7B-Instructでは、SoTだけで8種類のテキスト処理タスクに対して平均+5.7%の改善が得られ、さらにT2S-Benchの微調整により+8.6%に向上した。
これらの結果は、明示的なテキスト構造化の価値と、SoTとT2S-Benchの補完的な貢献を強調している。
データセットとevalコードはhttps://t2s-bench.github.io/T2S-Bench-Page/でリリースされた。
関連論文リスト
- PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning [55.78158607697319]
大規模言語モデル(LLM)は、会話システムからオリンピアード数学や競合プログラミングといったタスクの強力な推論へと進化している。
本稿では,手作り合成を期待最大化ループで置き換えるスケーラブルなフレームワークであるPromptCoT 2.0を提案する。
これにより、以前のコーパスよりも難しく、より多様な問題が発生する。
論文 参考訳(メタデータ) (2025-09-24T08:46:29Z) - The Digital Sous Chef -- A Comparative Study on Fine-Tuning Language Models for Recipe Generation [2.497854684676663]
本稿では,GPT-2大モデル(774M)とGPT-2小モデル(124M)と,RecipeDB 5-cuisineコーパス上の従来のLSTM/RNNベースラインとを比較検討した。
キーとなるコントリビューションは、23個の共通分数トークンとカスタム構造マーカーで語彙を拡大するトークン化戦略です。
論文 参考訳(メタデータ) (2025-08-20T13:53:13Z) - Clarifying Before Reasoning: A Coq Prover with Structural Context [13.273599284897411]
タスクの明度を評価するための概念レベルメトリクスを導入し、構造化された意味コンテキストを追加すると、明度スコアが1.85$times$改善されることを示す。
我々は15の標準Coqパッケージからランダムにサンプリングされた1,386の定理でこれを評価した。
論文 参考訳(メタデータ) (2025-07-03T11:35:34Z) - Reasoning with Reinforced Functional Token Tuning [70.96651128307985]
本稿では,大規模言語モデル(LLM)に自己学習能力を持たせるためにRFTT(Reinforced Functional Token Tuning)を提案する。
RFTTは、学習可能な関数トークンの豊富なセットをモデル語彙に直接埋め込んで、多様な人間のような推論行動によるチェーン・オブ・思想の構築を可能にする。
論文 参考訳(メタデータ) (2025-02-19T02:59:42Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - StrucText-Eval: Evaluating Large Language Model's Reasoning Ability in Structure-Rich Text [29.03935605732864]
我々はStrucText-Evalという,構造化テキストによる大規模言語モデルの理解と推論の精度を評価するベンチマークを紹介した。
オープンソース LLM が標準データセットで74.9% の最大精度を達成する一方で、そのパフォーマンスはより難しいデータセットで45.8% に大幅に低下していることを示す。
対照的に、人間の参加者はStrucText-Eval-Hardで92.6%の精度に達し、複雑な構造情報を扱うLLMの現在の限界を強調している。
論文 参考訳(メタデータ) (2024-06-15T12:48:00Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Prompt-based Learning for Text Readability Assessment [0.4757470449749875]
可読性評価のための事前学習されたSeq2seqモデルの新規適応を提案する。
与えられた2つのテキストからより難しいテキストを区別するために、Seq2seqモデルを適用できることを実証する。
論文 参考訳(メタデータ) (2023-02-25T18:39:59Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - Conceptual Text Region Network: Cognition-Inspired Accurate Scene Text
Detection [7.716899861923764]
概念テキスト領域ネットワーク (Conceptual Text Region Network, CTRNet) を提案する。
CTRNetは、優れた数学的特性を継承する認知ベースのツールのクラスであるCTR(Conceptual Text Regions)を利用して、洗練されたラベルデザインを可能にします。
CTRNetは、ベンチマークCTW1500、Total-Text、MSRA-TD500、ICDAR 2015データセットで最新のパフォーマンスを達成し、最大2.0%のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2021-03-16T16:28:33Z) - Structure-Tags Improve Text Classification for Scholarly Document
Quality Prediction [4.4641025448898475]
本稿では,文書中の文の役割を示す構造タグとHANの利用を提案する。
文にタグを追加し、タイトル、抽象的、あるいは本文に対応するマークを付けると、学術的な文書品質予測のための最先端技術よりも改善される。
論文 参考訳(メタデータ) (2020-04-30T22:34:34Z) - AMR Parsing via Graph-Sequence Iterative Inference [62.85003739964878]
本稿では,AMR解析を入力シーケンスとインクリメンタルに構築されたグラフ上での2つの決定の連続として扱うエンド・ツー・エンドのモデルを提案する。
これら2つの質問に対する回答は相互因果関係であることを示す。
我々は、両方の視点でより良い回答を得るのに役立つ反復推論に基づくモデルを設計し、解析精度を大幅に改善する。
論文 参考訳(メタデータ) (2020-04-12T09:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。