論文の概要: AgriLens: Semantic Retrieval in Agricultural Texts Using Topic Modeling and Language Models
- arxiv url: http://arxiv.org/abs/2601.08283v1
- Date: Tue, 13 Jan 2026 07:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.095763
- Title: AgriLens: Semantic Retrieval in Agricultural Texts Using Topic Modeling and Language Models
- Title(参考訳): AgriLens: トピックモデリングと言語モデルを用いた農業用テキストのセマンティック検索
- Authors: Heba Shakeel, Tanvir Ahmad, Tanya Liyaqat, Chandni Saxena,
- Abstract要約: 本研究は,大規模農業用テキストコーパス上での,解釈可能なトピックモデリング,ゼロショットトピックラベリング,トピック誘導セマンティック検索のための統一的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.0345929832241805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the volume of unstructured text continues to grow across domains, there is an urgent need for scalable methods that enable interpretable organization, summarization, and retrieval of information. This work presents a unified framework for interpretable topic modeling, zero-shot topic labeling, and topic-guided semantic retrieval over large agricultural text corpora. Leveraging BERTopic, we extract semantically coherent topics. Each topic is converted into a structured prompt, enabling a language model to generate meaningful topic labels and summaries in a zero-shot manner. Querying and document exploration are supported via dense embeddings and vector search, while a dedicated evaluation module assesses topical coherence and bias. This framework supports scalable and interpretable information access in specialized domains where labeled data is limited.
- Abstract(参考訳): 非構造化テキストの量が増え続けるにつれて、解釈可能な組織化、要約、情報の検索を可能にするスケーラブルな方法が緊急に必要となる。
本研究は,大規模農業用テキストコーパス上での,解釈可能なトピックモデリング,ゼロショットトピックラベリング,トピック誘導セマンティック検索のための統一的なフレームワークを提案する。
BERTopicを活用することで、セマンティック・コヒーレントなトピックを抽出する。
各トピックは構造化プロンプトに変換され、言語モデルが意味のあるトピックラベルと要約をゼロショットで生成できる。
クエリとドキュメント検索は密埋め込みとベクトル検索によってサポートされ、専用の評価モジュールはトピックのコヒーレンスとバイアスを評価する。
このフレームワークは、ラベル付きデータが制限された特定のドメインにおけるスケーラブルで解釈可能な情報アクセスをサポートする。
関連論文リスト
- Question-Driven Analysis and Synthesis: Building Interpretable Thematic Trees with LLMs for Text Clustering and Controllable Generation [1.3750624267664158]
二分木を対話的に構築するための再帰的テーマ分割(RTP)を導入する。
ツリーの各ノードは、データを意味的に分割する自然言語の質問であり、完全に解釈可能な分類である。
RTPの質問駆動階層はBERTopicのような強力なベースラインからのキーワードベースのトピックよりも解釈可能であることを示す。
論文 参考訳(メタデータ) (2025-09-26T11:27:22Z) - LLM-Assisted Topic Reduction for BERTopic on Social Media Data [0.22940141855172028]
本稿では,話題生成のためのBERTopicと話題短縮のための大規模言語モデルを組み合わせたフレームワークを提案する。
3つのTwitter/Xデータセットと4つの異なる言語モデルにまたがるアプローチを評価した。
論文 参考訳(メタデータ) (2025-09-18T20:59:11Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Semantic Component Analysis: Introducing Multi-Topic Distributions to Clustering-Based Topic Modeling [8.834228408033896]
本稿では,サンプル毎に複数のトピックを検出するトピックモデリング手法であるセマンティックコンポーネント分析(SCA)を紹介する。
英語、ハウサ語、中国語のTwitterデータセット上でSCAを評価する。
論文 参考訳(メタデータ) (2024-10-28T14:09:52Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - TopicGPT: A Prompt-based Topic Modeling Framework [77.72072691307811]
TopicGPTは,大規模言語モデルを用いてテキストコレクション内の潜在トピックを明らかにするプロンプトベースのフレームワークである。
競合する手法と比較して、人間の分類とよく一致したトピックを生成する。
そのトピックもまた解釈可能であり、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
論文 参考訳(メタデータ) (2023-11-02T17:57:10Z) - Providing Insights for Open-Response Surveys via End-to-End
Context-Aware Clustering [2.6094411360258185]
本研究では,オープンレスポンスサーベイデータ中の組込み意味パターンを抽出し,集約し,省略する,エンド・ツー・エンドのコンテキスト認識フレームワークを提案する。
我々のフレームワークは、テキストデータを意味ベクトルにエンコードするために、事前訓練された自然言語モデルに依存している。
本フレームワークは,調査データから最も洞察に富んだ情報を抽出するプロセスを自動化することで,大規模化のコストを削減する。
論文 参考訳(メタデータ) (2022-03-02T18:24:10Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。