論文の概要: Prompt-based Personality Profiling: Reinforcement Learning for Relevance Filtering
- arxiv url: http://arxiv.org/abs/2409.04122v1
- Date: Fri, 6 Sep 2024 08:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:16:11.521401
- Title: Prompt-based Personality Profiling: Reinforcement Learning for Relevance Filtering
- Title(参考訳): Prompt-based Personality Profiling: Reinforcement Learning for Relevance Filtering
- Authors: Jan Hofmann, Cornelia Sindermann, Roman Klinger,
- Abstract要約: 著者プロファイルは、共有するコンテンツを分析して個人の特徴を推測するタスクである。
本稿では,関係のないコンテンツと関係のないコンテンツとを区別することを目的とした著者プロファイリング手法を提案し,それに続いて,関連データのみを用いて実際のユーザプロファイリングを行う。
2つのTwitterコーパスにおける5つの人格特性予測手法の評価を行った。
- 参考スコア(独自算出の注目度): 8.20929362102942
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Author profiling is the task of inferring characteristics about individuals by analyzing content they share. Supervised machine learning still dominates automatic systems that perform this task, despite the popularity of prompting large language models to address natural language understanding tasks. One reason is that the classification instances consist of large amounts of posts, potentially a whole user profile, which may exceed the input length of Transformers. Even if a model can use a large context window, the entirety of posts makes the application of API-accessed black box systems costly and slow, next to issues which come with such "needle-in-the-haystack" tasks. To mitigate this limitation, we propose a new method for author profiling which aims at distinguishing relevant from irrelevant content first, followed by the actual user profiling only with relevant data. To circumvent the need for relevance-annotated data, we optimize this relevance filter via reinforcement learning with a reward function that utilizes the zero-shot capabilities of large language models. We evaluate our method for Big Five personality trait prediction on two Twitter corpora. On publicly available real-world data with a skewed label distribution, our method shows similar efficacy to using all posts in a user profile, but with a substantially shorter context. An evaluation on a version of these data balanced with artificial posts shows that the filtering to relevant posts leads to a significantly improved accuracy of the predictions.
- Abstract(参考訳): 著者プロファイルは、共有するコンテンツを分析して個人の特徴を推測するタスクである。
監視された機械学習は、自然言語理解タスクに対処するために大きな言語モデルを促すことの人気にもかかわらず、このタスクを実行する自動システムを支配している。
1つの理由は、分類インスタンスが大量のポストで構成されており、おそらくユーザプロファイル全体であり、トランスフォーマーの入力長を超える可能性があるからである。
たとえモデルが大きなコンテキストウインドウを使えるとしても、投稿の全体は、このような"needle-in-the-haystack"タスクで発生する問題に次いで、APIアクセスのブラックボックスシステムのコストと遅延を発生させる。
この制限を緩和するために、関係のないコンテンツと関係のないコンテンツとを区別することを目的とした著者プロファイリングの新しい手法を提案し、続いて、関連するデータのみを実際のユーザプロファイリングする。
関連付け付きデータの必要性を回避するため,大言語モデルのゼロショット機能を利用する報酬関数を用いた強化学習により,この関連付けフィルタを最適化する。
2つのTwitterコーパスにおける5つの人格特性予測手法の評価を行った。
本手法は,スキューラベル分布を用いた実世界の公開データに対して,ユーザプロファイル内の全投稿と類似した有効性を示すが,コンテキストは極めて短い。
これらのデータと人工投稿のバランスの取れたバージョンの評価は、関連する投稿に対するフィルタリングが予測の精度を大幅に向上させることを示している。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - TAROT: A Hierarchical Framework with Multitask Co-Pretraining on
Semi-Structured Data towards Effective Person-Job Fit [60.31175803899285]
本稿では,階層型マルチタスク協調訓練フレームワークであるTAROTを提案する。
TAROTは、プロファイルとジョブにおける半構造化テキストをターゲットにしており、取得したセマンティック情報を各レベルで制限するために、複数のきめ細かい事前訓練タスクと共に保持されている。
論文 参考訳(メタデータ) (2024-01-15T07:57:58Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - A Graph-Based Context-Aware Model to Understand Online Conversations [3.8345539498627437]
オンライン会話では、コメントや返信は、すぐに関連する情報以外の外部のコンテキストに基づいている可能性がある。
グラフウォークを用いて会話のより広いコンテキストを組み込む新しいグラフベースのディープラーニングアーキテクチャであるGraphNLIを提案する。
極性予測と擬似的ヘイトスピーチ検出という2つのタスクでGraphNLIを評価する。
論文 参考訳(メタデータ) (2022-11-16T20:51:45Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - A pipeline and comparative study of 12 machine learning models for text
classification [0.0]
テキストベースのコミュニケーションは、特にビジネス環境では、コミュニケーション方法として非常に好まれる。
テキスト分類のための多くの機械学習手法が提案され、ほとんどのメールプロバイダのサービスに組み込まれている。
しかし、テキスト分類アルゴリズムを最適化し、攻撃性に関する適切なトレードオフを見つけることは、依然として大きな研究課題である。
論文 参考訳(メタデータ) (2022-04-04T23:51:22Z) - Improved Topic modeling in Twitter through Community Pooling [0.0]
Twitterの投稿は短いが、他のテキストよりも一貫性が低いことが多い。
著者が同じコミュニティに属しているツイートをグループ化する,トピックモデリングのための新しいプール方式を提案する。
その結果、我々のコミュニティポーリング手法は、2つの異種データセットの指標の大部分において、他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-20T17:05:32Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。