論文の概要: Generating Hierarchical JSON Representations of Scientific Sentences Using LLMs
- arxiv url: http://arxiv.org/abs/2603.23532v1
- Date: Sun, 08 Mar 2026 00:12:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.022188
- Title: Generating Hierarchical JSON Representations of Scientific Sentences Using LLMs
- Title(参考訳): LLMを用いた科学文の階層的JSON表現の生成
- Authors: Satya Sri Rajiteswari Nimmagadda, Ethan Young, Niladri Sengupta, Ananya Jana, Aniruddha Maiti,
- Abstract要約: 本稿では,構造化表現が科学文の意味を保存できるかどうかを考察する。
これをテストするために、科学論文から収集した文から階層構造を生成する。
これらの構造は、生成モデルによって元のテキストを再構築するために使用される。
- 参考スコア(独自算出の注目度): 0.19573380763700712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates whether structured representations can preserve the meaning of scientific sentences. To test this, a lightweight LLM is fine-tuned using a novel structural loss function to generate hierarchical JSON structures from sentences collected from scientific articles. These JSONs are then used by a generative model to reconstruct the original text. Comparing the original and reconstructed sentences using semantic and lexical similarity we show that hierarchical formats are capable of retaining information of scientific texts effectively.
- Abstract(参考訳): 本稿では,構造化表現が科学文の意味を保存できるかどうかを考察する。
これをテストするために、新しい構造損失関数を用いて軽量LLMを微調整し、科学論文から収集した文から階層的なJSON構造を生成する。
これらのJSONは生成モデルによって元のテキストを再構築するために使用される。
意味的および語彙的類似性を用いた原文と再構成文を比較すると,階層形式は科学的テキストの情報を効果的に保持できることを示す。
関連論文リスト
- Domain Regeneration: How well do LLMs match syntactic properties of text domains? [19.04920427362747]
我々は、広く使われているオープンソースのLCMに、寛容にライセンスされた英語のテキストであるウィキペディアとニューステキストの2つのドメインからテキストを再生するよう促す。
この再生パラダイムは、LLMが意味的に制御された設定で、元の人間のテキストドメインと忠実に一致できるかどうかを調査することを可能にする。
その結果, 再生分布の大部分は, 平均値, 標準偏差が低く, 長い尾部が減少していることがわかった。
論文 参考訳(メタデータ) (2025-05-12T17:37:17Z) - Learning to Generate Structured Output with Schema Reinforcement Learning [83.09230124049667]
本研究では,大規模言語モデル(LLM)の構造的生成能力について検討する。
最新のLLMはまだ有効な文字列を生成するのに苦労している。
我々のモデルでは、出力と下流の両方のタスクが大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-26T06:45:29Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Learning Structured Representations with Hyperbolic Embeddings [22.95613852886361]
ラベル階層を学習表現に正確に埋め込むハイパーボリック構造正規化手法HypStructureを提案する。
いくつかの大規模ビジョンベンチマークの実験では、歪みを低減するためのHypStructureの有効性が示されている。
構造化された表現をよりよく理解するために、表現幾何学と改善されたout-of-Distribution(OOD)検出性能をリンクする固有値解析を行う。
論文 参考訳(メタデータ) (2024-12-02T00:56:44Z) - fLSA: Learning Semantic Structures in Document Collections Using Foundation Models [14.935888855108592]
基礎モデルに基づく潜在意味分析法である fLSA を導入する。
従来のタグ付け手法よりも,fLSAタグの方が原文の再構築に有益であることを示す。
論文 参考訳(メタデータ) (2024-10-07T20:25:52Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - HiStruct+: Improving Extractive Text Summarization with Hierarchical
Structure Information [0.6443952406204634]
本稿では,階層構造情報を抽出要約モデルに明示的に記述,抽出,エンコード,注入する新しい手法を提案する。
3つのデータセット(CNN/DailyMail、PubMed、arXivなど)のさまざまな実験的な設定を使用して、HiStruct+モデルは、一括して強力なベースラインをパフォーマンスします。
論文 参考訳(メタデータ) (2022-03-17T21:49:26Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - A Framework for End-to-End Learning on Semantic Tree-Structured Data [4.241801379755808]
構造化データの一般的な形態は、私たちが「セマンティックツリー構造」と呼ぶものである。
汎用意味木構造データに基づくエンドツーエンド学習のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-13T18:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。