Fugu-MT 論文翻訳(概要): Concept Navigation and Classification via Open Source Large Language Model Processing

論文の概要: Concept Navigation and Classification via Open Source Large Language Model Processing

arxiv url: http://arxiv.org/abs/2502.04756v1
Date: Fri, 07 Feb 2025 08:42:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 18:29:33.072592
Title: Concept Navigation and Classification via Open Source Large Language Model Processing
Title（参考訳）: オープンソースの大言語モデル処理による概念ナビゲーションと分類
Authors: Maël Kubli,
Abstract要約: 本稿では,オープンソースのLarge Language Models (LLMs) を用いたテキストデータから潜在構造を検出・分類するための新しい手法を提案する。提案手法は,自動要約とループ内検証を組み合わせることで,構造同定の精度と解釈性を向上させる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a novel methodological framework for detecting and classifying latent constructs, including frames, narratives, and topics, from textual data using Open-Source Large Language Models (LLMs). The proposed hybrid approach combines automated summarization with human-in-the-loop validation to enhance the accuracy and interpretability of construct identification. By employing iterative sampling coupled with expert refinement, the framework guarantees methodological robustness and ensures conceptual precision. Applied to diverse data sets, including AI policy debates, newspaper articles on encryption, and the 20 Newsgroups data set, this approach demonstrates its versatility in systematically analyzing complex political discourses, media framing, and topic classification tasks.
Abstract（参考訳）: 本稿では,オープンソースの大規模言語モデル (LLM) を用いたテキストデータから,フレーム,物語,話題を含む潜在構文を検出し,分類するための新しい手法フレームワークを提案する。提案手法は,自動要約とループ内検証を組み合わせることで,構造同定の精度と解釈性を向上させる。反復的なサンプリングと専門家の精巧さを組み合わせることで、方法論的堅牢性を保証し、概念的精度を保証します。 AIポリシの議論、暗号化に関する新聞記事、20のニュースグループデータセットなど、さまざまなデータセットに適用されたこのアプローチは、複雑な政治談話、メディアフレーミング、トピック分類タスクを体系的に分析する上で、その汎用性を示している。

関連論文リスト

Improving Neural Topic Modeling with Semantically-Grounded Soft Label Distributions [15.97570754056266]
言語モデル(LM)を用いた意味的基底を持つソフトラベルターゲット構築のための新しい手法を提案する。提案手法は,コーパスの主題構造とより密に一致した高品質なトピックを生成する。また,本手法が意味的に類似した文書の同定において,既存の手法を著しく上回っていることを示す検索基準も導入した。
論文参考訳（メタデータ） (2026-02-20T00:12:04Z)
Enhancing Retrieval-Augmented Generation with Topic-Enriched Embeddings: A Hybrid Approach Integrating Traditional NLP Techniques [0.0]
本研究は,用語ベースの信号と話題構造を文脈文の埋め込みと統合したトピック強化埋め込みを提案する。項レベルのセマンティクスとトピックレベルのセマンティクスを併用することにより、トピックに富んだ埋め込みはセマンティクスクラスタリングを改善し、検索精度を高め、計算負担を軽減する。
論文参考訳（メタデータ） (2025-12-31T13:43:57Z)
Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering [59.54662810933882]
既存の分類体系の構築手法は、教師なしクラスタリングや大きな言語モデルの直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。 LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-23T15:12:58Z)
Conceptual Topic Aggregation [0.0]
本稿では,FAT-CATを提案する。FAT-CATは,意味のあるトピックアグリゲーションと可視化を強化するための形式概念分析(FCA)に基づくアプローチである。当社のアプローチでは,さまざまなトピックやファイルタイプ – ディレクトリによってグループ化された – を処理して,そのトピック分布の構造化された階層的な表現を提供する概念格子を構築することが可能です。
論文参考訳（メタデータ） (2025-06-27T15:19:38Z)
DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文参考訳（メタデータ） (2025-05-26T14:45:12Z)
Talking to GDELT Through Knowledge Graphs [0.6461717749486492]
本研究では,各アプローチの強みと弱みを質問応答解析で把握するために,様々なRAG(Retrieval Augmented Regeneration)アプローチについて検討する。テキストコーパスから情報を取得するために,従来のベクトルストアRAGと,最先端の大規模言語モデル(LLM)に基づくアプローチを実装した。
論文参考訳（メタデータ） (2025-03-10T17:48:10Z)
Advanced ingestion process powered by LLM parsing for RAG system [0.0]
本稿では LLM を利用した OCR を用いたマルチストラテジー解析手法を提案する。この手法はノードベースの抽出手法を用いて、異なる情報タイプ間の関係を作り、コンテキスト対応メタデータを生成する。
論文参考訳（メタデータ） (2024-12-16T20:33:33Z)
Clustering Algorithms and RAG Enhancing Semi-Supervised Text Classification with Large LLMs [1.6575279044457722]
本稿では,セミスーパービジョンテキスト分類タスクの性能向上を目的としたクラスタリング,ラベル付け,拡張フレームワークを提案する。従来のSSTCアプローチとは異なり、このフレームワークはクラスタリングを使用してラベリングの代表的な"ランドマーク"を選択する。実験の結果,100以上のカテゴリを含む複雑な文書分類シナリオにおいても,Reutersデータセットでは95.41%,Web of Scienceデータセットでは82.43%の最先端の精度を達成した。
論文参考訳（メタデータ） (2024-11-09T13:17:39Z)
Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文参考訳（メタデータ） (2024-07-21T13:26:30Z)
Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness [3.2925222641796554]
ポインター誘導セグメントオーダリング(SO)は,段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である。実験の結果,ポインタ誘導型事前学習は複雑な文書構造を理解する能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-06T15:17:51Z)
Contextualization Distillation from Large Language Model for Knowledge Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文参考訳（メタデータ） (2024-01-28T08:56:49Z)
Incremental hierarchical text clustering methods: a review [49.32130498861987]
本研究の目的は,階層的および漸進的クラスタリング技術の解析である。本研究の主な貢献は、文書クラスタリングのテキスト化を目的とした、2010年から2018年にかけて出版された研究で使用されるテクニックの組織化と比較である。
論文参考訳（メタデータ） (2023-12-12T22:27:29Z)
Conflicts, Villains, Resolutions: Towards models of Narrative Media Framing [19.589945994234075]
我々は、物語の要素を明示的に捉えたコミュニケーション科学から、広く使われているフレーミングの概念化を再考する。我々は、複雑なアノテーションタスクをより単純なバイナリー質問に分解する効果的なアノテーションパラダイムを適用します。教師付きおよび半教師付きアプローチによるフレームの自動マルチラベル予測について検討する。
論文参考訳（メタデータ） (2023-06-03T08:50:13Z)
Natural Language Inference with Self-Attention for Veracity Assessment of Pandemic Claims [54.93898455714295]
まず、COVID-19に関する異質なクレームからなる新しいPANACEAデータセットの構築について述べる。そこで我々は,自然言語推論に基づく自動妥当性評価のための新しい手法を提案する。
論文参考訳（メタデータ） (2022-05-05T12:11:31Z)
A Proposition-Level Clustering Approach for Multi-Document Summarization [82.4616498914049]
クラスタリングアプローチを再検討し、より正確な情報アライメントの提案をグループ化します。提案手法は,有意な命題を検出し,それらをパラフラスティックなクラスタに分類し,その命題を融合して各クラスタの代表文を生成する。 DUC 2004 とTAC 2011 データセットでは,従来の最先端 MDS 法よりも要約法が優れている。
論文参考訳（メタデータ） (2021-12-16T10:34:22Z)
Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文参考訳（メタデータ） (2021-06-15T20:55:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。