論文の概要: Leveraging Multi-Source Textural UGC for Neighbourhood Housing Quality Assessment: A GPT-Enhanced Framework
- arxiv url: http://arxiv.org/abs/2508.16657v1
- Date: Wed, 20 Aug 2025 08:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.091792
- Title: Leveraging Multi-Source Textural UGC for Neighbourhood Housing Quality Assessment: A GPT-Enhanced Framework
- Title(参考訳): 住宅品質評価のためのマルチソースUGCの活用:GPT強化フレームワーク
- Authors: Qiyuan Hong, Huimin Zhao, Ying Long,
- Abstract要約: 本研究は,Dianping,Weibo,Government Message Boardのマルチソーステキストユーザ生成コンテンツ(UGC)を用いて,GPT-4oを用いて住宅品質の評価を行う。
11のカテゴリーに46の指標を持つ高精細住宅品質評価システムを開発し, 客観的客観的手法ギャップとプラットフォーム固有の焦点差を強調した。
GPT-4oはルールベースとBERTモデルに優れ、微調整設定で92.5%の精度を達成した。
- 参考スコア(独自算出の注目度): 1.1822315389714044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study leverages GPT-4o to assess neighbourhood housing quality using multi-source textural user-generated content (UGC) from Dianping, Weibo, and the Government Message Board. The analysis involves filtering relevant texts, extracting structured evaluation units, and conducting sentiment scoring. A refined housing quality assessment system with 46 indicators across 11 categories was developed, highlighting an objective-subjective method gap and platform-specific differences in focus. GPT-4o outperformed rule-based and BERT models, achieving 92.5% accuracy in fine-tuned settings. The findings underscore the value of integrating UGC and GPT-driven analysis for scalable, resident-centric urban assessments, offering practical insights for policymakers and urban planners.
- Abstract(参考訳): 本研究は,Dianping,Weibo,Government Message Boardのマルチソーステキストユーザ生成コンテンツ(UGC)を用いて,GPT-4oを用いて住宅品質の評価を行う。
この分析は、関連するテキストのフィルタリング、構造化された評価単位の抽出、感情スコアの実施を含む。
11のカテゴリーに46の指標を持つ高精細住宅品質評価システムを開発し, 客観的客観的手法ギャップとプラットフォーム固有の焦点差を強調した。
GPT-4oはルールベースとBERTモデルに優れ、微調整設定で92.5%の精度を達成した。
この結果は, 大規模で居住中心の都市アセスメントにおいて, UGC と GPT による分析を統合することの価値を強調し, 政策立案者や都市計画者に対して実践的な洞察を提供するものである。
関連論文リスト
- A Unified Agentic Framework for Evaluating Conditional Image Generation [66.25099219134441]
コンディショナル画像生成は、コンテンツのパーソナライズ能力において大きな注目を集めている。
本稿では,条件付き画像生成タスクを包括的に評価するための統合エージェントフレームワークCIGEvalを紹介する。
論文 参考訳(メタデータ) (2025-04-09T17:04:14Z) - Integrating Artificial Intelligence with Human Expertise: An In-depth Analysis of ChatGPT's Capabilities in Generating Metamorphic Relations [9.77485804969139]
本稿では OpenAI が開発した GPT モデルを用いて, メタモルフィック関係(MR)の生成と評価について詳細に検討する。
本研究の目的は,システムアンダーテスト(SUT)におけるGPT-3.5とGPT-4のMRの品質を評価することである。
論文 参考訳(メタデータ) (2025-03-28T04:31:32Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering [0.0]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) をプライベートおよび最新の知識ベースと共に使用する共通のパラダイムとして登場した。
本稿では,RAG システムによって生成される接地回答を評価する際に LLM-as-a-Judge を用いる際の課題に対処する。
論文 参考訳(メタデータ) (2024-09-10T15:39:32Z) - GPT-4 as Evaluator: Evaluating Large Language Models on Pest Management in Agriculture [7.458004824488893]
農業、特に害虫管理における大規模言語モデル(LLM)の適用は、まだ初期段階である。
我々は,OpenAIのGenerative Pre-trained Transformer(GPT)シリーズやGoogleのFLANシリーズなど,LLMsが生み出す害虫管理アドバイスの内容を評価することで,その実現可能性を証明することを目的とした。
我々は, GPT-4 を評価指標として, コヒーレンス, 論理的一貫性, 頻度, 妥当性, 包括性, 露出性について, 生成した内容を評価する革新的な手法を提案した。
論文 参考訳(メタデータ) (2024-03-18T15:08:01Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Learning Personalized Alignment for Evaluating Open-ended Text Generation [44.565686959174585]
PerSEは、特定の人間の好みに合わせてアライメントを評価するために設計された解釈可能な評価フレームワークである。
テキスト内個人プロファイルから特定の好みを推測し、生成されたコンテンツと個人の好みとの整合性を評価するように調整される。
当社の13B LLaMA-2ベースのPerSEは、ケダル相関が15.8%増加し、ゼロショットレビュアーによる13.7%の精度向上を示している。
論文 参考訳(メタデータ) (2023-10-05T04:15:48Z) - GPTEval: A Survey on Assessments of ChatGPT and GPT-4 [33.07746324851169]
本研究は,ChatGPTとGPT-4の事前評価を徹底的に分析する。
言語と推論能力、科学的知識、倫理的考察に重点を置いている。
論文 参考訳(メタデータ) (2023-08-24T01:17:16Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。