論文の概要: CienaLLM: Generative Climate-Impact Extraction from News Articles with Autoregressive LLMs
- arxiv url: http://arxiv.org/abs/2512.19305v1
- Date: Mon, 22 Dec 2025 11:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.735214
- Title: CienaLLM: Generative Climate-Impact Extraction from News Articles with Autoregressive LLMs
- Title(参考訳): CienaLLM: 自己回帰型LLMを用いたニュース記事から生成する気候-免疫抽出
- Authors: Javier Vela-Tambo, Jorge Gracia, Fernando Dominguez-Castro,
- Abstract要約: CienaLLMは、ニュース記事からゼロショット情報を抽出するために、オープンウェイトなLarge Language Modelsを使用している。
私たちは、モデル、精度、迅速なエンジニアリング技術について、大きな要因研究を実施しています。
CienaLLMは、スペインのニュースから干ばつの影響を抽出する精度で、監督されたベースラインにマッチまたは上回る。
- 参考スコア(独自算出の注目度): 42.720998608997824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and monitoring the socio-economic impacts of climate hazards requires extracting structured information from heterogeneous news articles on a large scale. To that end, we have developed CienaLLM, a modular framework based on schema-guided Generative Information Extraction. CienaLLM uses open-weight Large Language Models for zero-shot information extraction from news articles, and supports configurable prompts and output schemas, multi-step pipelines, and cloud or on-premise inference. To systematically assess how the choice of LLM family, size, precision regime, and prompting strategy affect performance, we run a large factorial study in models, precisions, and prompt engineering techniques. An additional response parsing step nearly eliminates format errors while preserving accuracy; larger models deliver the strongest and most stable performance, while quantization offers substantial efficiency gains with modest accuracy trade-offs; and prompt strategies show heterogeneous, model-specific effects. CienaLLM matches or outperforms the supervised baseline in accuracy for extracting drought impacts from Spanish news, although at a higher inference cost. While evaluated in droughts, the schema-driven and model-agnostic design is suitable for adapting to related information extraction tasks (e.g., other hazards, sectors, or languages) by editing prompts and schemas rather than retraining. We release code, configurations, and schemas to support reproducible use.
- Abstract(参考訳): 気候変動の社会的・経済的影響を理解し、監視するには、異質なニュース記事から構造化された情報を大規模に抽出する必要がある。
そこで我々は,スキーマ誘導生成情報抽出に基づくモジュラーフレームワークであるCienaLLMを開発した。
CienaLLMは、ニュース記事からゼロショット情報を取り出すために、オープンウェイトなLarge Language Modelsを使用し、設定可能なプロンプトと出力スキーマ、マルチステップパイプライン、クラウドまたはオンプレミスの推論をサポートする。
LLMファミリー,サイズ,精度,迅速な戦略の選択がパフォーマンスにどのように影響するかを体系的に評価するために,モデル,精度,エンジニアリングテクニックの素因として,大規模な因子分析を実施している。
追加の応答解析ステップでは、精度を保ちながらフォーマットエラーをほぼ排除し、より大きなモデルは最強で最も安定した性能を提供し、一方、量子化は適度な精度のトレードオフを伴う実質的な効率向上をもたらし、迅速な戦略は不均一でモデル固有の効果を示す。
シエナLLMは、スペインのニュースから干ばつの影響を抽出するために監督された基準線と一致または性能を向上するが、推論コストは高い。
干ばつで評価されているが、スキーマ駆動およびモデルに依存しない設計は、関連する情報抽出タスク(例えば、他のハザード、セクター、言語)に適応するために、トレーニングではなくプロンプトやスキーマを編集するのに適している。
再現可能な使用をサポートするためのコード、設定、スキーマをリリースします。
関連論文リスト
- Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression [53.39128997308138]
テキスト圧縮性能に基づくモデル効率の指標である情報容量を導入する。
主流のオープンソースモデルに対する実証的な評価は、シリーズ内のさまざまなサイズのモデルが一貫した情報容量を示すことを示している。
情報容量の特徴的な特徴は、入力と出力の両方のトークン数に影響を与えるトークン化効率が組み込まれていることである。
論文 参考訳(メタデータ) (2025-11-11T10:07:32Z) - Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。
提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文 参考訳(メタデータ) (2024-12-27T04:37:06Z) - Balancing Efficiency and Effectiveness: An LLM-Infused Approach for Optimized CTR Prediction [19.657522015829922]
エンド・ツー・エンドの深い意味情報をモデル化する新しいアプローチを導入する。
私たちのフレームワークは効率と効率のバランスをとるために慎重に設計されています。
Meituan sponsored-searchシステムで実施したオンラインA/Bテストでは,コスト・パー・マイル(CPM)とクリック・スルー・レート(CTR)でベースライン・モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-12-09T02:36:38Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。