論文の概要: Can ChatGPT Learn My Life From a Week of First-Person Video?
- arxiv url: http://arxiv.org/abs/2504.03857v1
- Date: Fri, 04 Apr 2025 18:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:27.560340
- Title: Can ChatGPT Learn My Life From a Week of First-Person Video?
- Title(参考訳): ChatGPTは1週間の初対人ビデオから私の人生を学べる?
- Authors: Keegan Harris,
- Abstract要約: 本研究は,1対1のカメラデータを用いて,装着者の個人生活を学習する基礎モデルの能力について考察する。
これをテストするために、私は1週間で54時間カメラヘッドセットを装着しました。
- 参考スコア(独自算出の注目度): 4.2217158543261775
- License:
- Abstract: Motivated by recent improvements in generative AI and wearable camera devices (e.g. smart glasses and AI-enabled pins), I investigate the ability of foundation models to learn about the wearer's personal life through first-person camera data. To test this, I wore a camera headset for 54 hours over the course of a week, generated summaries of various lengths (e.g. minute-long, hour-long, and day-long summaries), and fine-tuned both GPT-4o and GPT-4o-mini on the resulting summary hierarchy. By querying the fine-tuned models, we are able to learn what the models learned about me. The results are mixed: Both models learned basic information about me (e.g. approximate age, gender). Moreover, GPT-4o correctly deduced that I live in Pittsburgh, am a PhD student at CMU, am right-handed, and have a pet cat. However, both models also suffered from hallucination and would make up names for the individuals present in the video footage of my life.
- Abstract(参考訳): 生成型AIとウェアラブルカメラデバイス(例えば、スマートグラスとAI対応ピン)の最近の改良により、私は、ファーストパーソナライズされたカメラデータを通して、着用者の個人生活について学習する基礎モデルの能力について調査する。
これをテストするために、私は1週間で54時間カメラヘッドセットを着用し、様々な長さのサマリー(例えば、分長、時間長、日長のサマリー)を生成し、その結果のサマリー階層に基づいてGPT-4oとGPT-4o-miniの両方を微調整した。
微調整されたモデルに問い合わせることで、モデルが私に何を学んだかを学ぶことができます。
どちらのモデルも、私に関する基本的な情報(例えば、年齢、性別)を学びました。
さらに、GPT-4oは私がピッツバーグに住んでいて、CMUの博士課程の学生で、右利きで、ペットの猫を飼っていると正確に推測した。
しかし、どちらのモデルも幻覚に悩まされ、私の人生のビデオ映像に写っている人物の名前もつくりだすだろう。
関連論文リスト
- An Empirical Study of Autoregressive Pre-training from Videos [67.15356613065542]
ビデオをビジュアルトークンとして扱い、トランスフォーマーモデルをトレーニングして、将来的なトークンを自動回帰的に予測します。
われわれのモデルは、1兆以上の視覚トークンからなる多様なビデオと画像のデータセットで事前訓練されている。
以上の結果から, 自己回帰的事前学習は, 最小限の帰納バイアスにもかかわらず, 競争性能に寄与することが示唆された。
論文 参考訳(メタデータ) (2025-01-09T18:59:58Z) - Assessing Social Alignment: Do Personality-Prompted Large Language Models Behave Like Humans? [9.771036970279765]
言語モデリングの革命は様々な新しい応用をもたらし、その一部は大規模言語モデル(LLM)の出現する「社会的能力」に依存している。
i) パーソナライズされたモデルが人格に記載された人格に合わせて振る舞うか(すなわち、社会的状況で提示された場合の「メイク」決定)、そして(ii) それらの行動がきめ細かく制御できるかどうかを問う。
古典心理学実験(ミルグラム実験とウルティマトゥムゲーム)をソーシャルインタラクションテストベッドとして使用し, GPT-3.5/4/4o-mini/4oに即したパーソナリティを適用した。
論文 参考訳(メタデータ) (2024-12-21T20:58:19Z) - HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation [64.37874983401221]
人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを紹介する。
実世界のデータについては、インターネットから大量の実世界のビデオをコンパイルします。
合成データとして,10K3Dアバターを収集し,体形,肌のテクスチャ,衣服などの既存の資産を利用した。
論文 参考訳(メタデータ) (2024-07-24T17:15:58Z) - Tarsier: Recipes for Training and Evaluating Large Video Description Models [6.338897745432373]
本稿では,大規模ビデオ言語モデルのファミリであるTarsierを紹介した。
厳密に設計された2段階のトレーニング手順により、Tarsierモデルは既存のオープンソースモデルよりもはるかに強力なビデオ記述能力を示す。
ビデオの説明に加えて、Tarsierは汎用的なジェネラリストモデルであることが証明され、9つの公開ベンチマークで新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-06-30T09:21:01Z) - L4GM: Large 4D Gaussian Reconstruction Model [99.82220378522624]
単視点ビデオ入力からアニメーションオブジェクトを生成する最初の4次元大規模再構成モデルであるL4GMを提案する。
私たちの成功の鍵は、キュレートされたレンダリングされたアニメーションオブジェクトを含む、新しいマルチビュービデオのデータセットです。
論文 参考訳(メタデータ) (2024-06-14T17:51:18Z) - MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large
Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。
凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。
また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文 参考訳(メタデータ) (2023-04-20T18:25:35Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - Exploring adaptation of VideoMAE for Audio-Visual Diarization & Social @
Ego4d Looking at me Challenge [5.429147779652134]
VideoMAEは、セルフ教師付きビデオ事前トレーニングのためのデータ効率のよい事前トレーニングモデルである。
ビデオMAEから転送された表現は時空間モデルに優れていることを示す。
論文 参考訳(メタデータ) (2022-11-17T06:49:57Z) - Ego4D: Around the World in 3,000 Hours of Egocentric Video [276.1326075259486]
Ego4Dは大規模なビデオデータセットとベンチマークスイートである。
世界中の74か国と9か国から、855人のユニークなカメラ着用者が捉えた数百のシナリオを、毎日3,025時間の動画で見ることができる。
ビデオにはオーディオ、環境の3Dメッシュ、視線、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが添付されている。
論文 参考訳(メタデータ) (2021-10-13T22:19:32Z) - Vid2Actor: Free-viewpoint Animatable Person Synthesis from Video in the
Wild [22.881898195409885]
対象者の「夢中」映像が与えられた場合、映像中の人物のアニマタブルなモデルを再構築する。
出力モデルは、明示的な3dメッシュ再構成なしに、学習されたコントロールを介して、任意のカメラビューに任意のボディポーズでレンダリングすることができる。
論文 参考訳(メタデータ) (2020-12-23T18:50:42Z) - What is More Likely to Happen Next? Video-and-Language Future Event
Prediction [111.93601253692165]
対話が整ったビデオの場合、人々は次に何が起こるかを見極めることができる。
本研究では,AIモデルがこのようなマルチモーダル・コモンセンスの次世代予測を学べるかどうかを考察する。
新しいデータセットであるVideo-and-Language Event Prediction(ビデオ・アンド・ランゲージ・イベント予測)を収集します。
論文 参考訳(メタデータ) (2020-10-15T19:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。