Point Transformer V3 Extreme: 1st Place Solution for 2024 Waymo Open Dataset Challenge in Semantic Segmentation [98.1] この技術的レポートでは、2024年のオープンデータセットチャレンジのセマンティックセグメンテーショントラックの第一位ソリューションについて詳述する。
我々は,最先端のプラグアンドプレイトレーニングと推論技術を実装することで,ベンチマーク上でのポイントトランスフォーマーV3の性能を大幅に向上させた。
このアプローチによって、Openデータセットセグメンテーションのリーダボードのトップポジションが確保され、他のエントリよりも大幅に向上しました。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 22:08:52 GMT)
WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.2] 本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 12:44:07 GMT)
Language Models as Science Tutors [79.7] 本研究では,LMの現実的なユーザビリティを科学的アシスタントとして測定するTutorEvalとTutorChatを紹介する。
既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能を低下させることを示す。
我々はTutorChatを用いて、7Bパラメータと34Bパラメータを持つLlemmaモデルを微調整する。これらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalで優れている。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 11:11:49 GMT)
xT: Nested Tokenization for Larger Context in Large Images [79.4] xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 02:33:00 GMT)
CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models [78.3] CatVTONはシンプルで効率的な仮想試行拡散モデルである。
元の拡散モジュールのみが、追加のネットワークモジュールなしで使用される。
CatVTONは、ベースライン法よりも必要条件や訓練可能なパラメータが少なく、質的かつ定量的な結果が得られる。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 11:58:53 GMT)
Neural 3D decoding for human vision diagnosis [76.4] われわれは、AIが2D視覚から視覚的に可視で機能的により包括的な脳信号からデコードされた3D視覚へと進化することで、現在の最先端技術を超えることができることを示す。
本研究では、2D画像で提示された被験者のfMRIデータを入力として、対応する3Dオブジェクト視覚を出力する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 14:28:44 GMT)
Flow as the Cross-Domain Manipulation Interface [73.2] 我々は,多様なデータソースから操作スキルをロボットが取得できる学習フレームワークIm2Flow2Actを提案する。
Im2Flow2Actはフロー生成ネットワークとフロー条件ポリシーの2つのコンポーネントから構成される。
我々はIm2Flow2Actの様々な実世界のタスクにおいて、剛性、調音、変形可能なオブジェクトの操作を含む能力を実証する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 16:15:02 GMT)
BAFFLE: A Baseline of Backpropagation-Free Federated Learning [71.1] フェデレートラーニング(FL)は、分散クライアントがローカルデータを共有せずにサーバモデルをまとめて訓練する一般的な原則である。
我々は、バックプロパゲーションを複数のフォワードプロセスに置き換えて勾配を推定する、BAFFLEと呼ばれる、バックプロパゲーションフリーなフェデレーション学習を開発する。
BAFFLEは、1)メモリ効率が高く、アップロード帯域幅に適しており、2)推論のみのハードウェア最適化とモデル量子化やプルーニングと互換性があり、3)信頼できる実行環境に適している。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 11:01:00 GMT)
MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.4] マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
MIBenchは、マルチイメージ・インストラクション(MII)、マルチモーダル・ナレッジ・シーキング(MKS)、マルチモーダル・イン・コンテクスト・ラーニング(MIC)の3つのシナリオに分類し、13のタスクを合計13Kの注釈付きサンプルで構成する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 21:22:58 GMT)
Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.8] 本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 22:57:58 GMT)
Farewell to Length Extrapolation, a Training-Free Infinite Context with Finite Attention Scope [68.1] LongCacheは、LLMが有限コンテキストスコープで無限コンテキストをサポートすることができるトレーニング不要のアプローチである。
我々はLongBenchとL-EvalでLongCacheを検証し、その性能が従来のフルアテンション機構と同等であることを実証した。
GPUを意識した最適化によって,LongCacheの効率性も近く向上します。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 14:23:37 GMT)
Layered 3D Human Generation via Semantic-Aware Diffusion Model [63.5] 本稿では,新しい意味認識拡散モデルに基づくテキスト駆動型3次元人文生成フレームワークを提案する。
生成した衣服を対象のテキストと整合性を保つために,衣服のセマンティック・信頼戦略を提案する。
そこで本研究では,SMPLによる暗黙的フィールド変形ネットワークを提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 06:09:05 GMT)
Navigation Instruction Generation with BEV Perception and Large Language Models [60.5] 本稿では,Bird's Eye View(BEV)機能をMLLM(Multi-Modal Large Language Models)に組み込んだBEVインストラクタを提案する。
具体的には、BEVインストラクタは、BEVとパースペクティブ特徴を融合させることにより、3D環境の理解のためのパースペクティブBEVを構築する。
パースペクティブ-BEVプロンプトに基づいて、BEVインストラクタはさらにインスタンス誘導反復精製パイプラインを採用し、プログレッシブな方法で命令を改善する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 08:05:29 GMT)
New Rules for Causal Identification with Background Knowledge [59.7] オープンな問題に対する新たな視点を提供するBKを導入するための2つの新しいルールを提案する。
これらのルールは、観測データによる因果効果のセットを決定するなど、典型的な因果関係のタスクに適用可能であることを示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 20:21:21 GMT)
EvSign: Sign Language Recognition and Translation with Streaming Events [59.5] イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 12:20:43 GMT)
Relational Database Augmented Large Language Model [59.4] 大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクに優れる。
彼らは、トレーニングや教師付き微調整プロセスを通じてのみ、新しい知識を取り入れることができる。
この正確で最新のプライベート情報は、通常リレーショナルデータベースに格納される。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 06:19:10 GMT)
Exploiting Pre-trained Models for Drug Target Affinity Prediction with Nearest Neighbors [58.7] 薬物-標的結合親和性(DTA)予測は、薬物発見に不可欠である。
DTA予測へのディープラーニング手法の適用にもかかわらず、達成された精度は依然として準最適である。
事前学習したDTA予測モデルに適用した非表現埋め込みに基づく検索手法である$k$NN-DTAを提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 15:49:05 GMT)
Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.4] モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 15:24:46 GMT)
AsyCo: An Asymmetric Dual-task Co-training Model for Partial-label Learning [54.0] 自己学習モデルは、最先端のパフォーマンスを実現するが、誤って曖昧なインスタンスによって生じるエラーの蓄積問題に悩まされる。
本稿では,2つのネットワーク,すなわち曖昧なネットワークと補助的なネットワークに,異なる視点から明確に学習するよう強制する,AsyCoという非対称なデュアルタスク協調学習モデルを提案する。
AsyCoの有効性を実証するため、一様および一様にラベル付けされた部分ラベル付きデータセットの実験を行った。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 02:08:51 GMT)
Studying How to Efficiently and Effectively Guide Models with Explanations [52.5] 「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 12:55:08 GMT)
Retrieval-Pretrained Transformer: Long-range Language Modeling with Self-retrieval [51.4] 本稿では,検索拡張LMをゼロから共同で訓練するためのアーキテクチャおよび訓練手順であるRetrieval-Pretrained Transformer (RPT)を提案する。
RPTは検索品質を向上し、強いベースラインに比べてボード全体の難易度を向上する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 07:35:23 GMT)
Text-Augmented Multimodal LLMs for Chemical Reaction Condition Recommendation [50.6] MM-RCRは、化学反応レコメンデーション(RCR)のためのSMILES、反応グラフ、テキストコーパスから統一的な反応表現を学習するテキスト拡張マルチモーダルLLMである。
この結果から,MM-RCRは2つのオープンベンチマークデータセット上で最先端の性能を達成できることが示唆された。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 12:27:26 GMT)
Conformal Predictions under Markovian Data [50.2] マルコフデータに適用した場合の分割等角予測法について検討する。
データ間の相関によって引き起こされる被覆率の差を定量化する。
K$-split CP は鎖の混合特性に適応する手法である。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 22:01:09 GMT)
Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.4] 我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 13:26:30 GMT)
When Can Transformers Count to n? [48.3] 本研究では, 変圧器状態の次元が文脈長で線形であれば, この課題を解くことができることを示す。
サイズ制限された変圧器がこのタスクを実装することが不可能な理由を理論的に論じる。
本結果は,トランスフォーマーが簡単なタスクを解く方法を理解することの重要性を示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 13:31:02 GMT)
A General Framework for Data-Use Auditing of ML Models [47.4] 本稿では,データ所有者のデータを用いた学習におけるMLモデルの評価方法を提案する。
本稿では,2種類のMLモデルにおけるデータ利用を監査するために,提案手法の有効性を示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 09:32:34 GMT)
IISAN: Efficiently Adapting Multimodal Representation for Sequential Recommendation with Decoupled PEFT [46.0] IISAN(Intra- and Inter-modal Side Adapted Network for Multimodal Representation)は、シーケンシャルなレコメンデーションシステムのためのプラグイン・アンド・プレイアーキテクチャである。
IISANはフルファインチューニング(FFT)と最先端PEFTのパフォーマンスにマッチする。
マルチモーダルシーケンシャルレコメンデーションタスクでは、47GBからわずか3GBへと大幅に削減される。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 21:05:40 GMT)
Automatically Identifying Local and Global Circuits with Linear Computation Graphs [45.8] Sparse Autoencoders (SAEs) と Transcoders と呼ばれる変種を用いた回路発見パイプラインを導入する。
本手法は各ノードの因果効果を計算するために線形近似を必要としない。
GPT-2 Small: Bracket, induction, Indirect Object Identification circuits の3種類の回路を解析する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 11:42:32 GMT)
Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.8] ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 20:50:06 GMT)
Assessing Sample Quality via the Latent Space of Generative Models [44.6] そこで本研究では,学習した生成モデルの潜伏空間について検討し,生成したサンプルの品質を推定する。
これは、生成されたサンプルの品質が、それに似たトレーニングデータの量に直接関連しているため、実現可能である。
提案手法は, VAE, GAN, 潜伏拡散モデルなど, 様々な生成モデルのサンプル品質と高い相関関係を示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 14:05:06 GMT)
OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web [43.6] エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。
このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。
我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 23:16:13 GMT)
The Hitchhiker's Guide to Human Alignment with *PO [43.4] 我々は,高次パラメータの変動に対して同時に頑健であるアルゴリズムの同定に焦点をあてる。
解析の結果,広範に採用されているDPO法は,品質が劣る長大な応答を連続的に生成することがわかった。
これらの結果から,DPOアルゴリズムであるLN-DPOの精度が向上し,品質を損なうことなく,より簡潔な応答が得られることが示唆された。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 17:35:20 GMT)
End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling [43.0] そこで我々は,VidF4を提案する。VidF4は,ビデオQAを効果的かつ効率的に選択するためのフレーム選択戦略を備えた,新しいビデオQAフレームワークである。
本稿では,ビデオ上での質問に対する各フレームの重要性を評価するために,質問関連性とフレーム間類似性の両方を考慮した3つのフレーム照合機構を提案する。
広く採用されている3つのベンチマークによる実験結果から,我々のモデルは既存のビデオQA手法より一貫して優れていることが示された。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 04:09:37 GMT)
$R^2$-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding [41.7] ビデオの時間的グラウンドは、自然言語のクェリが与えられたビデオに関連性のあるクリップを埋めることを目的としている。
既存のVTGモデルは、フレームワイドのファイナルレイヤCLIP機能に基づいて構築されており、追加の時間バックボーンによって支援されている。
ビデオ時間的グラウンド化のためのパラメータとメモリ効率の変換学習フレームワークであるReversed Recurrent Tuning(R2$-Tuning)を提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 16:17:07 GMT)
RouteLLM: Learning to Route LLMs with Preference Data [41.7] 大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択は、パフォーマンスとコストのトレードオフを伴うことが多い。
推論において,より強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。
我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 10:33:08 GMT)
Surfel-based Gaussian Inverse Rendering for Fast and Relightable Dynamic Human Reconstruction from Monocular Video [41.7] 本稿では,Surfel-based Gaussian Inverse Avatar (SGIA)法を提案する。
SGIAは従来のガウスアバター法を進歩させ、人間のアバターの物理的レンダリング(PBR)特性を包括的にモデル化した。
提案手法は,既存の暗黙的手法を超越した高速光計算のために,事前積分と画像ベース照明を統合する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 16:34:03 GMT)
Learn from Failure: Fine-Tuning LLMs with Trial-and-Error Data for Intuitionistic Propositional Logic Proving [41.2] 探索経路の失敗から学習する訓練モデルの利点を実証する。
既存のオープンソース定理証明データセットにそのような試行錯誤データが欠如しているにもかかわらず、直観論的命題論理定理のデータセットをキュレートする。
比較的短いトライアル・アンド・エラー情報(TrialMaster)で訓練されたモデルと、正しい経路でのみ訓練されたモデルを比較し、前者が低いトライアル探索でより目に見えない定理を解くことを発見した。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 00:10:34 GMT)
3D Gaussian Parametric Head Model [40.6] 本稿では,人間の頭部の複雑さを正確に表現するために3次元ガウス的パラメトリックヘッドモデルを提案する。
シームレスな顔のポートレートと、単一の画像から詳細な頭部アバターの再構築を可能にする。
提案手法は,高画質でリアルタイムな実写レンダリングを実現し,パラメトリックヘッドモデルの分野に有意義な貢献をする。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 06:03:11 GMT)
The Oscars of AI Theater: A Survey on Role-Playing with Language Models [38.6] 本調査では,言語モデルを用いたロールプレイングの急成長分野について検討する。
それは、初期のペルソナモデルから、Large Language Models(LLMs)によって促進される高度なキャラクタ駆動シミュレーションまでの開発に焦点を当てている。
データやモデル,アライメント,エージェントアーキテクチャ,評価など,これらのシステムを設計する上で重要なコンポーネントを包括的に分類する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 15:02:49 GMT)
Uniformly Accelerated Motion Model for Inter Prediction [38.3] 自然ビデオでは、通常、変動速度を持つ複数の移動物体が存在し、その結果、コンパクトに表現することが難しい複雑な運動場が生じる。
Versatile Video Coding (VVC) では、既存のインター予測手法は連続するフレーム間の均一な速度運動を仮定する。
本研究では,動画フレーム間の移動物体の運動関連要素(速度,加速度)を利用する一様加速度運動モデル(UAMM)を提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 12:58:00 GMT)
CGB-DM: Content and Graphic Balance Layout Generation with Transformer-based Diffusion Model [38.0] 変換器ベース拡散モデル(CGB-DM)を用いたコンテンツとグラフバランスレイアウト生成を提案する。
具体的には、予測されたコンテンツとグラフィック重量のバランスをとるレギュレータを最初に設計し、キャンバス上のコンテンツにより多くの注意を払う傾向を克服する。
第2に、レイアウト表現と画像間の幾何学的特徴のアライメントをさらに高めるために、サリエンシ境界ボックスのグラフィック制約を導入する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 17:58:21 GMT)
D-Flow: Differentiating through Flows for Controlled Generation [37.8] フローを微分することで生成プロセスを制御するフレームワークであるD-Flowを紹介する。
我々は、ガウス確率パスで訓練された拡散/FMモデルに対して、生成過程を微分することで、データ多様体の勾配を予測できるというキーとなる観察によって、この枠組みを動機付けている。
我々は,画像と音声の逆問題や条件分子生成など,線形および非線形に制御された生成問題に対する枠組みを検証する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 11:19:38 GMT)
StuGPTViz: A Visual Analytics Approach to Understand Student-ChatGPT Interactions [35.9] 本稿では、学生のプロンプトの時間パターンとChatGPTの応答の質を複数のスケールで追跡・比較する視覚分析システム、StuGPTVizを提案する。
その結果、StuGPTVizがChatGPTの教育的価値に対する教育者の洞察を高める能力があることが確認された。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 20:39:00 GMT)
Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis [35.7] 大規模言語モデル(LLM)は、ステレオタイプ、識別、毒性を永続するコンテンツを生成できる。
最近提案された道徳的自己補正は、LLMの応答における有害な内容を減らすための計算学的に効率的な方法である。
自己補正は、LLMが隠れた状態に保存されている不道徳性を本当に減らすのではなく、より道徳的に正しいアウトプットのショートカットを見つけるのに役立つと我々は主張する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 22:50:11 GMT)
NICP: Neural ICP for 3D Human Registration at Scale [35.6] 本研究では,3次元人間登録のためのニューラルネットワーク拡張型登録手法NSRを提案する。
NSRは、数千の形状と10以上の異なるデータソースを一般化し、スケールする。
我々の重要な貢献は、ICPスタイルの自己教師型タスクであるNICPである。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 14:21:58 GMT)
VerityMath: Advancing Mathematical Reasoning by Self-Verification Through Unit Consistency [33.8] プログラムベースの解法を用いて,数学語問題に対する強力なオープンソースLLMの性能について検討する。
本稿では,各量の単位を定義し,数理演算時の単位の整合性を確保することによる体系的アプローチを提案する。
単体一貫性を取り入れた我々のアプローチは、現在、そうでないアプローチに比べてわずかに性能が劣っている。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 12:41:18 GMT)
XAI meets LLMs: A Survey of the Relation between Explainable AI and Large Language Models [33.0] LLM(Large Language Models)研究の主な課題は、解釈可能性の重要性である。
AIやビジネスセクターからの関心が増すことで、私たちはLLMにおける透明性の必要性を強調します。
本稿では,機能的進歩と同等に解釈可能性を評価するバランスの取れたアプローチを提唱する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 19:23:45 GMT)
To Supervise or Not to Supervise: Understanding and Addressing the Key Challenges of Point Cloud Transfer Learning [33.0] 下流3D作業における教師付きコントラスト付き事前学習戦略とその有用性について, より詳細な調査を行う。
教師付き事前学習の伝達性を向上する簡易な幾何正規化戦略を提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 11:07:18 GMT)
D$^4$-VTON: Dynamic Semantics Disentangling for Differential Diffusion based Virtual Try-On [32.7] D$4$-VTONは画像ベースの仮想試行のための革新的なソリューションである。
我々は,服飾の前後における意味的不整合など,過去の研究の課題に対処する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 10:40:53 GMT)
A Community-Centric Perspective for Characterizing and Detecting Anti-Asian Violence-Provoking Speech [32.0] 暴力を誘発する演説は、パンデミック中の反アジア犯罪の急増に寄与した。
我々は、反アジア暴力を誘発する音声を特徴付けるコードブックを開発し、コミュニティソースのデータセットを収集する。
暴力を誘発する音声の正確かつ確実な検出が課題であることを示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 17:27:17 GMT)
Accelerating Image Generation with Sub-path Linear Approximation Model [31.9] 拡散モデルは、画像、オーディオ、ビデオ生成タスクにおける技術の現状を進歩させた。
高品質な画像生成を維持しながら拡散モデルを高速化するサブパス線形近似モデル(SLAM)を提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 04:57:19 GMT)
HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions [31.3] 3Dシーン生成は、仮想現実、ゲーム、映画産業など、さまざまな領域で高い需要がある。
フル3Dシーンの全体的初期化として,最初に高精細パノラマを生成するフレームワークであるHoloDreamerを紹介する。
そして、3Dガウススティング(3D-GS)を活用して3Dシーンを迅速に再構築し、ビュー一貫性と完全に囲まれた3Dシーンの作成を容易にする。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 14:52:51 GMT)
RoboGolf: Mastering Real-World Minigolf with a Reflective Multi-Modality Vision-Language Model [30.1] ミニゴルフ(Minigolf)は、エンボディインテリジェンスを調べるための模範的な現実世界ゲームである。
本稿では、デュアルカメラ認識と閉ループ動作改善を組み合わせたVLMベースのフレームワークであるRoboGolfを紹介する。
オフラインの推論設定でフレームワークの機能を解析し、記録されたトラジェクトリの広範なセットに依存する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 11:42:04 GMT)
Towards Automated Data Sciences with Natural Language and SageCopilot: Practices and Lessons Learned [29.8] 本研究では,データサイエンスパイプラインを自動化した先進的な産業レベルのシステムであるSageCopilotを紹介する。
SageCopilotは、ICL(In-Context Learning)を通じてユーザの入力を実行可能なスクリプトに書き換え、結果レポートと視覚化のためのスクリプトを実行するオンラインコンポーネントである。
Chain-of-Thoughtやpush-tuningといったトレンド戦略のリストは、パフォーマンス向上のためにSageCopilotの拡張に使用されている。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 08:58:18 GMT)
Large Language Model for Verilog Generation with Golden Code Feedback [29.1] 本研究は,ゴールドコードフィードバックを用いた強化学習を利用して,事前学習モデルの性能を向上させる手法を提案する。
我々は、最先端のSOTA(State-of-the-art)の結果をかなりの差で達成した。特に、我々の6.7Bパラメータモデルは、現行の13Bモデルと16Bモデルと比較して優れた性能を示している。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 11:25:21 GMT)
How Control Information Influences Multilingual Text Image Generation and Editing? [29.0] 高品質テキスト生成における制御情報の役割について検討する。
制御情報の最適化により生成品質を向上させる新しいフレームワークであるTextGenを提案する。
本手法は、中国語と英語の両方のテキスト生成における最先端のパフォーマンスを実現する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 08:22:18 GMT)
Learn to Preserve and Diversify: Parameter-Efficient Group with Orthogonal Regularization for Domain Generalization [29.0] ドメイン・ドメイン(DG)は、限られたトレーニングデータと見つからないテストデータの間の分散シフトが発生したとき、モデルの性能劣化を避けることを目的としている。
近年、膨大なパラメータを持つ基礎モデルは、膨大なデータセットで事前訓練されており、強力な一般化能力を示している。
我々のフレームワークは5つのDGベンチマークでSOTA性能を実現し、テストコストを増すことなく少数のパラメータをトレーニングするのみである。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 07:50:49 GMT)
The VEP Booster: A Closed-Loop AI System for Visual EEG Biomarker Auto-generation [28.9] 本稿では,視覚刺激プロトコルの下で信頼性と安定した脳波バイオマーカーを生成するクローズドループAIフレームワークを提案する。
以上の結果から,脳波バイオマーカーの信頼性と有用性は向上した。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 13:47:15 GMT)
Sampling to Distill: Knowledge Transfer from Open-World Data [28.7] 冗長な生成過程を伴わずにデータ自由知識蒸留(DFKD)タスクのための新しいオープンワールドデータサンプリング蒸留(ODSD)手法を提案する。
まず、適応サンプリングモジュールを用いて、原データの分布に近いオープンワールドデータをサンプリングする。
そこで我々は,学生モデル自体と教師の構造化表現を通して,データ知識を活用するために,複数のデータ例の構造化関係を構築した。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 14:32:53 GMT)
A Learning-Based Attack Framework to Break SOTA Poisoning Defenses in Federated Learning [27.5] Federated Learning(FL)は、データプライバシを保護する新しいクライアントサーバ分散学習フレームワークである。
近年の研究では、FLは毒殺攻撃に弱いことが示されている。
堅牢なアグリゲータ(AGR)を備えた多くの防衛策がこの問題を軽減するために提案されているが、いずれも先進的な攻撃によって破壊されている。
本稿では,これらの新規なロバストなAGRも,慎重に設計された毒殺攻撃に対して脆弱であることを示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 21:02:11 GMT)
AutoVCoder: A Systematic Framework for Automated Verilog Code Generation using LLMs [27.2] 我々は,Verilogコード生成の正確性を大幅に向上するフレームワークであるAutoVCoderを開発した。
本フレームワークは,高品質なハードウェアデータセット生成手法を含む3つの新しい手法を統合する。
AutoVCoderは、BetterVと比較して、EvalMachineとEvalHumanのベンチマークで機能的正しさが0.5%と2.2%向上している。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 16:42:45 GMT)
Rethinking Domain Adaptation and Generalization in the Era of CLIP [27.1] 単純なドメインがCLIPのゼロショット認識を特定のドメインで促進することを示す。
また,CLIPを用いたゼロショット適応と擬似ラベルに基づく自己学習のためのベンチマークを作成する。
複数の未ラベル領域からCLIPのタスク一般化能力を改善することを提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 14:09:14 GMT)
Active Prompting with Chain-of-Thought for Large Language Models [26.5] 本稿では,大規模言語モデルを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。
不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、不確実性を特徴づける指標をいくつか導入する。
実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 08:01:00 GMT)
Arondight: Red Teaming Large Vision Language Models with Auto-generated Multi-modal Jailbreak Prompts [25.7] 大規模視覚言語モデル(VLM)は、大規模言語モデル(LLM)の知覚能力を拡張し、拡張する
これらの進歩は、特に有害なコンテンツの生成に関して、重要なセキュリティと倫理上の懸念を引き起こす。
VLMに特化した標準化されたレッドチームフレームワークであるArondightを紹介します。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 04:37:11 GMT)
Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval [23.9] 本稿では,大言語モデル(LLM)を一般知識の統合に活用し,擬似イベントを時間的コンテンツ配信の先駆けとして活用する可能性について検討する。
これらの制限を克服するために,デコーダの代わりにLLMエンコーダを提案する。
LLMエンコーダを既存のVMRアーキテクチャ、特に核融合モジュールに組み込むための一般的なフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 04:39:06 GMT)
Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy [23.3] 強化学習アルゴリズムは通常、環境力学と値関数がマルコフ状態表現の言葉で表現できるという仮定に依存する。
基礎となる、観測不可能な状態空間へのアクセスや知識を必要とせずに、両方の目的を達成することのできるメトリクスを導入します。
私たちは、$lambda$-discrepancyがすべてのMarkov決定プロセスで完全にゼロであり、ほぼ常に、部分的に観察可能な環境の幅広いクラスではゼロではないことを証明しています。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 06:43:18 GMT)
Cross-Modal Projection in Multimodal LLMs Doesn't Really Project Visual Attributes to Textual Space [22.7] マルチモーダル大言語モデル(MLLM)は、言語モーダルを伴う画像に関する汎用的な会話を可能にする。
市販のMLLMは皮膚科や農業などの領域の画像に制限があるため、ドメイン固有のアプリケーションをアンロックするためには微調整が必要である。
本研究は,MLLMアーキテクチャにおけるクロスモーダル射影の役割を再解釈する可能性を示唆する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 18:11:34 GMT)
Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.8] KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 02:37:11 GMT)
Automatic Interactive Evaluation for Large Language Models with State Aware Patient Simulator [21.6] 大きな言語モデル(LLM)は、人間の相互作用において顕著な熟練性を示している。
本稿では,SAPS(State-Aware patient Simulator)とAIE(Automated Interactive Evaluation)フレームワークを紹介する。
AIEとSAPSは、多ターン医師-患者シミュレーションを通じてLCMを評価するための動的で現実的なプラットフォームを提供する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 03:00:04 GMT)
QuasiSim: Parameterized Quasi-Physical Simulators for Dexterous Manipulations Transfer [21.2] シミュレータの設計によるデクスタラスな操作伝達問題について検討する。
このタスクは、人間の操作を巧妙なロボットハンドシミュレーションに転送することを目的としている。
我々は,高忠実度シミュレーション環境における複雑で多様な操作を追跡するために,器用な手を作ることに成功している。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 06:56:12 GMT)
A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective [20.8] 3D占有感技術は、自動運転車の密集した3D環境を観察し理解することを目的としている。
従来の鳥眼視(BEV)と同様に、3D占有感は多ソース入力の性質と情報融合の必要性を持っている。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 12:01:28 GMT)
Adaptive Foundation Models for Online Decisions: HyperAgent with Fast Incremental Uncertainty Estimation [20.5] GPT-HyperAgentは,GPTとHyperAgentを併用した拡張手法である。
我々はHyperAgentが$tildeO(log T)$ per-step計算複雑性を用いて高速なインクリメンタル不確実性推定を実現することを証明した。
解析により,HyperAgentの遺残順序は線形文脈帯域における正確なトンプソンサンプリングと一致することが示された。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 16:31:14 GMT)
When Do Universal Image Jailbreaks Transfer Between Vision-Language Models? [20.4] 視覚およびテキスト入力に条件付けされたテキスト出力を生成する視覚言語モデル(VLM)の一般的なクラスに焦点を当てる。
我々は、勾配に基づく普遍的イメージ"jailbreaks"の転送可能性を評価するための大規模な実証的研究を行っている。
転送可能な勾配に基づく画像ジェイルブレイクは、取得が極めて困難である。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 16:27:24 GMT)
Paths of A Million People: Extracting Life Trajectories from Wikipedia [20.0] 軌道記述の多様性と不均一性から生じる一般化問題に取り組む。
半教師付き学習とコントラスト学習を組み合わせた組立モデルCOSMOSは,F1スコア85.95%を達成している。
我々はまた、8,852(人、時間、場所)のトリプルからなる手作業によるデータセットWikiLifeTrajectoryを作成しました。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 06:52:40 GMT)
MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [19.9] MusiConGenは、一時条件付きトランスフォーマーベースのテキスト-音楽モデルである。
条件信号として自動的に抽出されたリズムとコードを統合する。
MusiConGenは,特定の条件に整合したリアルなバックトラック音楽を生成することができることを示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 05:27:53 GMT)
Rocket Landing Control with Random Annealing Jump Start Reinforcement Learning [19.9] 本稿では,RLを用いた高忠実度ロケットモデルにおいて,ベースライン制御による8%から97%までのロケット着陸制御の成功率を著しく向上させる。
我々のアプローチはRandom Annealing Jump Start (RAJS)と呼ばれ、RLにおける環境探索と政策学習を促進するためのガイドポリシーとして、事前のフィードバックコントローラを活用することで、現実の目標志向の問題に合わせたものである。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 07:47:53 GMT)
FFHFlow: A Flow-based Variational Approach for Multi-fingered Grasp Synthesis in Real Time [19.3] 正規化フロー(NF)に基づくDGM(Deep Generative Model)の利用を提案する。
我々はまず,不完全点雲上に条件付きグリップ分布を学習するために,単一条件NF(cNFs)を直接適用することにより,多様性の向上を推し進めた。
これにより、我々は新しいフローベースd Deep Latent Variable Model (DLVM)を開発する動機となった。
変分オートエンコーダ(VAE)とは異なり、提案するDLVMは2つのcNFを事前分布と可能性分布に利用することにより、典型的な落とし穴に対処する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 13:33:08 GMT)
Unifying Invariant and Variant Features for Graph Out-of-Distribution via Probability of Necessity and Sufficiency [18.6] 本稿では,必要十分かつ必要な不変部分構造を抽出するために,PNS(Probability of Necessity and Sufficiency)を活用することを提案する。
また、ラベルに関連する領域不変部分グラフを活用し、アンサンブル方式で一般化性能を向上する。
実験の結果,SNIGLモデルは6つの公開ベンチマークにおいて最先端技術よりも優れていた。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 21:35:01 GMT)
Back-in-Time Diffusion: Unsupervised Detection of Medical Deepfakes [18.5] 拡散モデルに基づく医用画像のための新しい異常検出法を提案する。
モデルに疑似画像上の拡散を逆転させることにより、類似したプロセスを用いて合成内容を検出する方法を示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 13:58:43 GMT)
Medical Spoken Named Entity Recognition [18.3] 医療領域における最初の音声NERデータセットであるVietMed-NERを紹介する。
様々な最先端の事前学習モデルを用いてベースライン結果を示す。
単に翻訳することで、文字はベトナム語だけでなく他の言語にも適用できる。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 00:54:08 GMT)
Neural Residual Diffusion Models for Deep Scalable Vision Generation [17.9] 我々は,統一的かつ大規模に拡張可能なニューラルネットワーク残差拡散モデルフレームワーク(Neural-RDM)を提案する。
提案したニューラル残差モデルは、画像およびビデオ生成ベンチマークの最先端スコアを取得する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 15:55:34 GMT)
GLOP: Learning Global Partition and Local Construction for Solving Large-scale Routing Problems in Real-time [17.5] GLOPは、大規模なルーティング問題に対して効率的にスケールする統一階層型フレームワークである。
粗粒度問題分割のための非自己回帰ニューラルと、細粒度経路構築のための自己回帰ニューラルを初めてハイブリダイズする。
実験により、GLOPは大規模ルーティング問題において、競争力と最先端のリアルタイム性能を達成することが示された。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 10:18:30 GMT)
Anchored Diffusion for Video Face Reenactment [17.3] 比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 13:14:17 GMT)
LSTM Autoencoder-based Deep Neural Networks for Barley Genotype-to-Phenotype Prediction [17.0] そこで本研究では,オオムギの開花時期と収量推定のために,オオムギの遺伝子型からフェノタイプへの予測のためのLSTMオートエンコーダを用いた新しいモデルを提案する。
我々のモデルは、複雑な高次元農業データセットを扱う可能性を示す他のベースライン手法よりも優れていた。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 16:07:43 GMT)
Graph Encoder Ensemble for Simultaneous Vertex Embedding and Community Detection [16.7] 本稿では, 埋め込み, コミュニティ検出, コミュニティサイズ決定のための新しい, 計算効率の良い手法を提案する。
本手法では,正規化された1ホットグラフエンコーダと階数に基づくクラスタサイズ測定を利用する。
広範にシミュレーションを行い,提案したグラフエンコーダアンサンブルアルゴリズムの優れた数値性能を示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 17:26:26 GMT)
AGORA: Open More and Trust Less in Binary Verification Service [16.4] 本稿では,この課題を克服するために設計された新しいバイナリ検証サービスであるAGORAを紹介する。
あるタスクは信頼できないエンティティに委譲でき、対応するバリデーターは信頼されたコンピューティングベースに確実に格納される。
ブロックチェーンベースの新たな報奨金タスクマネージャを通じて、クラウドソーシングを使用して、定理証明者の信頼を取り除く。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 05:29:22 GMT)
Fine-grained Gender Control in Machine Translation with Large Language Models [15.6] 複数のエンティティを持つより現実的な入力設定で、制御された翻訳に取り組む。
提案手法は,詳細な実体レベルのジェンダー情報を用いてモデルを指示し,正しいジェンダーインフレクションで翻訳する。
我々は、複数の実体の性別を制御する際に、ジェンダー干渉現象が出現することを発見した。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 13:15:00 GMT)
Enhanced Data Transfer Cooperating with Artificial Triplets for Scene Graph Generation [15.1] 本研究は、シーングラフ生成(SGG)のための情報リレーショナル三重項のトレーニングデータセット強化に焦点を当てる。
本稿では,FSTA(Feature Space Triplet Augmentation)とSoft Transferの2つの新しいトレーニングデータセット拡張モジュールを提案する。
実験結果から、FSTAとSoft Transferの統合は、Visual Genomeデータセットにおけるリコールと平均リコールの両方の高レベルを実現することが示された。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 13:01:49 GMT)
FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models [14.9] 感情支援会話(Emotional Support Conversation、ESC)は、感情的なプレッシャーを軽減できる典型的な対話である。
現在の非芸術的方法論は、感情的支援能力を効果的に評価する上で困難に直面している。
本稿では,感情支援能力を評価するために,Large Language Models (LLMs) を用いた新しいモデルFEELを提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 13:27:02 GMT)
Fact-Aware Multimodal Retrieval Augmentation for Accurate Medical Radiology Report Generation [14.9] 正確な放射線診断レポートを生成するために,ファクトアウェアなマルチモーダル検索拡張パイプラインを導入する。
私たちはまずRadGraphを活用して実例レポートペアを抽出し、次に実例知識を統合してユニバーサルなマルチモーダルレトリバーをトレーニングします。
実験により,我々のマルチモーダルレトリバーは,言語生成と放射線学固有の指標の両方において最先端のレトリバーより優れていることが示された。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 21:04:28 GMT)
Deformation-Recovery Diffusion Model (DRDM): Instance Deformation for Image Manipulation and Synthesis [13.6] 変形-回復拡散モデル (DRDM) は, 変形拡散と回復に基づく拡散モデルである。
DRDMは、不合理な変形成分の回復を学ぶために訓練され、ランダムに変形した各画像を現実的な分布に復元する。
心MRIおよび肺CTによる実験結果から,DRDMは多種多様(10%以上の画像サイズ変形スケール)の変形を生じさせることが示された。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 04:48:16 GMT)
Selective Amnesia: On Efficient, High-Fidelity and Blind Suppression of Backdoor Effects in Trojaned Machine Learning Models [13.1] バックドアモデル上で「選択的アムネシア」を誘発する手法を提案する。
SEAMと呼ばれる我々のアプローチは、破滅的忘れ(CF)の問題にインスパイアされている。
実験の結果,SEAMは最先端の未学習技術よりも優れていた。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 04:38:34 GMT)
Two eyes, Two views, and finally, One summary! Towards Multi-modal Multi-tasking Knowledge-Infused Medical Dialogue Summarization [13.0] 医学的懸念, 医師の印象, 全体像の要約を同時に生成する多面的アプローチの有効性について検討した。
マルチモーダル・マルチタスク・知識注入型医療対話要約生成モデル(MMK-Summation)を提案する。
モデルMMK-Summationは、対話を入力として取り、コンテキストに基づいて関連する外部知識を抽出し、対話から知識と視覚的手がかりをテキストコンテンツに統合し、最終的には簡潔な要約を生成する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 18:00:10 GMT)
LSM-GNN: Large-scale Storage-based Multi-GPU GNN Training by Optimizing Data Transfer Scheme [12.6] グラフニューラルネットワーク(GNN)は、今日ではリコメンデーションシステム、不正検出、ノード/リンク分類タスクで広く使われている。
限られたメモリ容量に対応するため、従来のGNNトレーニングアプローチでは、グラフ分割とシャーディング技術を使用している。
大規模ストレージベースマルチGPUGNNフレームワーク(LSM-GNN)を提案する。
LSM-GNNは、静的ノード情報と動的ノード情報の両方を用いて、キャッシュ空間をインテリジェントに管理するハイブリッドな消去ポリシーを組み込んでいる。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 20:41:39 GMT)
Token-Picker: Accelerating Attention in Text Generation with Minimized Memory Transfer via Probability Estimation [10.9] オフチップメモリアクセスは、より高速な実行のために最小限にする必要がある。
オンデマンドのオフチップアクセスをシームレスにサポートするハードウェア設計を提案する。
我々の手法はメモリアクセスを2.6倍削減し、平均2.3倍のスピードアップと2.4倍のエネルギー効率をもたらす。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 11:56:54 GMT)
Synthetic Time Series for Anomaly Detection in Cloud Microservices [9.4] 本稿では,クラウドコンピューティングにおける異常検出のための時系列生成フレームワークを提案する。
我々は、デプロイメントと管理を可能にするパイプライン実装と、異常生成に必要な理論的アプローチについて詳述する。
提案されたフレームワークを使って生成された2つのデータセットがGitHubから公開されている。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 11:23:54 GMT)
Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement [8.6] 運転予測は自律運転(AD)において重要な役割を担っている
既存の手法はしばしば高い計算コストを発生させるが、これはADのリアルタイム要求と矛盾する。
ハイブリッドBEV-Voxel表現を用いた幾何学的意味的デュアルブランチネットワーク(GSDBN)を提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 07:28:19 GMT)
A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts [8.4] 本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。
このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。
このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 12:14:45 GMT)
Temporal Abstraction in Reinforcement Learning with Offline Data [8.4] 本稿では,オンライン階層型強化学習アルゴリズムを,未知の行動ポリシーによって収集されたトランジションのオフラインデータセット上でトレーニング可能なフレームワークを提案する。
我々は,Gym MuJoCo環境とロボットグリップのブロックスタッキングタスク,トランスファーおよびゴール条件設定について検証した。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 18:10:31 GMT)
BIGbench: A Unified Benchmark for Social Bias in Text-to-Image Generative Models Based on Multi-modal LLM [8.2] テキスト・ツー・イメージ(T2I)生成モデルは、複雑で高品質な画像を生成する能力においてより重要になっている。
本稿では,ビジェス・オブ・イメージ・ジェネレーションのための統一ベンチマークであるBIGbenchを,よく設計されたデータセットで紹介する。
既存のベンチマークとは対照的に、BIGbenchは複雑なバイアスを4次元に分類し評価する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 18:09:40 GMT)
Computational Copyright: Towards A Royalty Model for Music Generative AI [8.1] 生成的AIは、特に音楽業界において、著作権問題に拍車をかけた。
本稿では,これらの課題の経済的側面に焦点をあて,著作権分野における経済的影響が中心的な課題となっていることを強調する。
我々は、AI音楽生成プラットフォーム上での収益分配のための実行可能なロイヤリティモデルを提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 21:10:42 GMT)
TimeInf: Time Series Data Contribution via Influence Functions [8.0] TimeInfは時系列データセットのデータコントリビューション推定手法である。
実験の結果、TimeInfは有害な異常を識別する最先端の手法より優れていることが示された。
TimeInfはデータ値の直感的かつ解釈可能な属性を提供しており、視覚化によって様々な異常パターンを容易に識別することができる。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 19:10:40 GMT)
A Survey on Employing Large Language Models for Text-to-SQL Tasks [7.7] リレーショナルデータベースに格納されるデータの量の増加により、様々な分野において、このデータの効率的なクエリと利用の必要性が高まっている。
LLM(Large Language Models)の最近の発展を活かすため、様々な新しい手法が登場し、迅速なエンジニアリングと微調整に重点が置かれている。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 14:48:23 GMT)
No Size Fits All: The Perils and Pitfalls of Leveraging LLMs Vary with Company Size [7.7] 大規模言語モデル(LLM)は、さまざまな組織における戦略的ユースケースの展開において、重要な役割を担っている。
LLMの活用が成功する際の課題や課題は、組織の大きさによって大きく異なる可能性がある。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 16:11:00 GMT)
HPPP: Halpern-type Preconditioned Proximal Point Algorithms and Applications to Image Restoration [7.6] Preconditioned Proximal Point (PPP)アルゴリズムは、画像復元におけるメソッド分割のための統一的なフレームワークを提供する。
PPPアルゴリズムは典型的には無限次元収束において退化し、不確実な解をもたらす。
本稿では,Halpern型HPPPアルゴリズムを提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 12:13:03 GMT)
Will the Real Linda Please Stand up...to Large Language Models? Examining the Representativeness Heuristic in LLMs [7.1] 大規模言語モデル(LLM)は、テキストをモデル化し、人間に似たテキストを生成するのに顕著な能力を示した。
LLMは、代表性と呼ばれる人間の意思決定において共通の認知的罠に感受性がある。
本研究は, LLM推論における代表性の影響について検討する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 07:54:33 GMT)
Semi-Supervised Pipe Video Temporal Defect Interval Localization [7.1] 本研究では,視覚オドメトリーを応用した半教師付きマルチプロトタイプ方式による注意誘導手法(PipeSPO)を提案する。
実世界のデータセットでの実験では、PipeSPOは、IoU(Intersection over Union)閾値の0.1-0.7の平均精度を41.89%達成し、現在の最先端手法よりも8.14%向上している。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 14:04:21 GMT)
YOLOv10 to Its Genesis: A Decadal and Comprehensive Review of The You Only Look Once Series [6.8] 本研究は, YOLOv10からYOLOv9, YOLOv8, その後のバージョンに至るまで, YOLOアルゴリズムが導入した進歩について検討する。
この研究は、自動車安全、医療、工業製造、監視、農業の5つの重要な分野におけるYOLOの変革的な影響を強調している。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 03:42:53 GMT)
DOPRA: Decoding Over-accumulation Penalization and Re-allocation in Specific Weighting Layer [6.4] 大規模言語モデル(MLLM)における幻覚を緩和する新しいアプローチであるDOPRAを紹介する。
DOPRAは、復号処理中に12層のような特定の層で重み付けされたオーバーレイペナルティと再分配の戦略を採用している。
全体として、DOPRAはMLLMの出力品質を改善するための重要な一歩である。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 11:54:49 GMT)
An Adaptive System for Wearable Devices to Detect Stress Using Physiological Signals [6.0] 本稿では PPG と EDA 信号を用いたパーソナライズされたストレス検出のための適応フレームワークを提案する。
一般化されたモデルに依存する従来の手法とは異なり、このフレームワークは各ユーザにより高いストレス検出精度のパーソナライズされたモデルを提供することを目的としている。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 19:52:44 GMT)
Convergence Analysis of Probability Flow ODE for Score-based Generative Models [5.9] 確率フローODEに基づく決定論的サンプリング器の収束特性を理論的・数値的両面から検討する。
連続時間レベルでは、ターゲットと生成されたデータ分布の総変動を$mathcalO(d3/4delta1/2)$で表すことができる。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 20:23:07 GMT)
Efficient Sampling for Data-Driven Frequency Stability Constraint via Forward-Mode Automatic Differentiation [5.6] 本稿では,フォワードモード自動微分による勾配データ生成手法を提案する。
この方法では、元の力学系は、元の状態の感度のダイナミクスを表す新しい状態で拡張される。
提案アルゴリズムは, 非線形微分法と有限差分法と比較して, サンプリングアルゴリズムの優れた性能を示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 03:50:11 GMT)
DiffLoss: unleashing diffusion model as constraint for training image restoration network [4.9] 我々はDiffLossと呼ばれる画像復元ネットワークのトレーニングを支援するために拡散モデルを暗黙的に活用する新しい視点を導入する。
これら2つの設計を組み合わせることで、全体的な損失関数は画像復元の知覚的品質を改善することができ、視覚的に快く、意味的に強化された結果をもたらす。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 08:38:28 GMT)
VideoGameBunny: Towards vision assistants for video games [4.7] 本稿では,BunnyをベースとしたLLaVAスタイルモデルであるVideoGameBunnyの開発について述べる。
中間チェックポイント、トレーニングログ、および413タイトルから185,259のビデオゲーム画像からなる広範なデータセットをリリースする。
実験の結果,我々の高品質なゲーム関連データにより,比較的小さなモデルが,最先端モデルであるLLaVa-1.6-34bよりも優れている可能性が示唆された。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 23:31:57 GMT)
D$^4$M: Dataset Distillation via Disentangled Diffusion Model [4.6] 遠方拡散モデル(D$4$M)によるデータセット蒸留のための効率的なフレームワークを提案する。
アーキテクチャに依存した手法と比較して、D$4$Mは一貫性を保証するために遅延拡散モデルを採用し、ラベル情報をカテゴリのプロトタイプに組み込む。
D$4$Mは優れた性能とロバストな一般化を示し、多くの面においてSOTAメソッドを上回っている。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 12:16:20 GMT)
Optimal multiple-phase estimation with multi-mode NOON states against photon loss [4.4] 推定精度における量子的優位性は、光子損失の存在下でも達成可能であることを示す。
また、マルチモードビームスプリッタによる光子数カウントは、準最適で量子的な利点があるにもかかわらず有用であることを示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 03:26:39 GMT)
Temporal Persistence and Intercorrelation of Embeddings Learned by an End-to-End Deep Learning Eye Movement-driven Biometrics Pipeline [4.2] 本研究の目的は,最先端のDLベースの眼球運動生体計測システムにおいて,同じ関係が認められるかどうかを判断することである。
生体特性の変動を生じる眼球追跡信号の品質の様々な側面を操り、その結果の時間的持続性と相互相関を関連づける。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 23:58:34 GMT)
Revisiting Neighborhood Aggregation in Graph Neural Networks for Node Classification using Statistical Signal Processing [4.2] グラフニューラルネットワーク(GNN)の基本構成要素である近傍集約の概念を再評価する。
本分析では,エッジ独立ノードラベルの仮定の下での動作において,特定のベンチマークGNNモデル内の概念的欠陥を明らかにする。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 22:37:24 GMT)
A Novel Method to Improve Quality Surface Coverage in Multi-View Capture [4.1] 被写界深度 (deep of field) は、被写体からカメラまでの距離を短くしたり、焦点距離が大きい場合の限界因子である。
被被覆表面積の品質を最適化する,各カメラに焦点距離を導出する手法を提案する。
本手法の有効性を,全身撮影における様々なシミュレーションで示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 00:14:15 GMT)
Explainable AI-based Intrusion Detection System for Industry 5.0: An Overview of the Literature, associated Challenges, the existing Solutions, and Potential Research Directions [4.0] 産業5.0は、製造において様々なタスクを実行するための人間と人工知能(AI)の協力に焦点を当てている。
これらのデバイスと、経済、健康、教育、防衛システムなど、さまざまな重要な分野における相互接続の巨大な関与は、いくつかの潜在的なセキュリティ欠陥を引き起こしている。
XAIは、侵入検知、マルウェア検出、フィッシング検出など、さまざまなサイバーセキュリティ分野において、非常に効果的で強力なツールであることが証明されている。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 09:28:05 GMT)
ERD: Exponential Retinex decomposition based on weak space and hybrid nonconvex regularization and its denoising application [3.9] Retinex理論は、画像を照明とノイズ成分のセグメンテーションとしてモデル化する。
画像復調のための指数分解アルゴリズムを提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 03:03:12 GMT)
Weyl Calculus and Exactly Solvable Schrödinger Bridges with Quadratic State Cost [3.8] 量子力学におけるワイル計算、特にワイル作用素とワイル記号のアイデアは、そのようなマルコフ核を決定するのにどのように役立つかを説明する。
Weyl calculus による2次状態コストの場合、マルコフ核を明示的に見つけることで、これらのアイデアを説明する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 19:05:30 GMT)
Towards Better Question Generation in QA-based Event Extraction [3.7] イベント抽出(EE)は、構造化されていないテキストからイベント関連情報を抽出することを目的としている。
質問の品質は、抽出精度に劇的に影響を及ぼす。
本稿では,QAベースのEEのための強化学習手法RLQGを提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 12:01:08 GMT)
They Look Like Each Other: Case-based Reasoning for Explainable Depression Detection on Twitter using Large Language Models [3.6] ProtoDepはTwitterベースの抑うつ検出のための新しい説明可能なフレームワークである。
ProtoDepは、(i)ツイートとユーザ毎の症状レベルの説明、(ii)ユーザと類似した個人を比較したケースベースの説明、(iii)分類重みによる透明な意思決定の3つのレベルで透明な説明を提供する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 20:13:50 GMT)
Generalized Low-Rank Matrix Completion Model with Overlapping Group Error Representation [3.5] 低ランク行列補完(LRMC)技術は低レベル視覚タスクにおいて顕著な成果を上げている。
LRMCでは実世界の行列データが低ランクであるという前提がある。
実行列データは厳密な低ランク特性を満たさないが, 上記の行列回復法には深刻な課題があることは間違いない。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 02:43:43 GMT)
A Benchmark Dataset for Multimodal Prediction of Enzymatic Function Coupling DNA Sequences and Natural Language [3.4] DNA配列から遺伝子機能を予測することは、生物学における根本的な課題である。
深層学習モデルは、DNA配列を埋め込み、その酵素機能を予測するために提案されている。
科学界の生物学的機能に関する知識の多くは分類学的なラベルで表されていない。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 19:27:43 GMT)
Chemical Reaction Extraction for Chemical Knowledge Base [3.4] ChemPatKBは、先行技術検索を支援し、ドメインの専門家が化合物合成とユースケースの新しいイノベーションを探求するためのプラットフォームを提供するために使用できる。
このKBの基本的な構成要素は、長い特許文書から重要な反応スニペットを抽出することである。
本研究では,反応資源データベースを作成するために化学特許から反応を抽出する問題について検討する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 11:27:27 GMT)
Error-Tolerant Amplification and Simulation of the Ultrastrong-Coupling Quantum Rabi Model [3.2] フォトニック猫状態によって形成される立方体は、バイアスのあるノイズチャネルを持つ。
このようなバイアスノイズ量子ビットは、キャット状態量子ビットを光学キャビティに結合させることにより、量子ラビモデルの誤差耐性シミュレーションにも有効であることを示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 12:28:31 GMT)
Generalizing Trilateration: Approximate Maximum Likelihood Estimator for Initial Orbit Determination in Low-Earth Orbit [3.1] 本研究では,3つのモノスタティックレーダの設定について検討する。
これは、それぞれのレーダーが射程と射程の単一の測定値を得ることのできる最先端のアプローチであるトリラテレーション(英語版)と類似した設定に従う。
提案手法は, 測定回数の3乗法と同じ精度を達成し, 代替手法と一般化手法を提供する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 14:37:24 GMT)
ResVMUNetX: A Low-Light Enhancement Network Based on VMamba [3.1] ResVMUNetXは明るさを高め、構造の詳細を復元し、低照度画像のノイズを取り除く。
毎秒70フレームまでのリアルタイム処理速度を実現している。
これにより、低照度画像の高精細化と、実用的でリアルタイムな応用の可能性を確認することができる。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 06:43:27 GMT)
Genetic Algorithm to Optimize Design of Micro-Surgical Scissors [3.0] マイクロロボティクス(Microrobotics)は、小さなロボットが、最小侵襲の手術で提供される精度と器用さを改善する可能性があるため、魅力的な研究分野である。
そのような道具の1つの例は、脳などの体内の奥深くに存在する腫瘍や癌組織を切断するために開発された微小手術用ハサミである。
はさみは、偏向を最大化し、切断力を発生させるために、2つの磁石を特定の距離に配置して設計されている。
マイクロサージカル・シザーのリモート・アクティベーションとサイズ要件は、組織を穿刺するために発生する力を制限している。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 18:39:13 GMT)
PUFFLE: Balancing Privacy, Utility, and Fairness in Federated Learning [2.8] 公平さとプライバシの原則を同時に遵守するマシンラーニングモデルのトレーニングとデプロイは、大きな課題となる。
本稿では,FLシナリオにおける実用性,プライバシ,公正性のバランスを探究する上で有効な,高レベルのパラメータ化アプローチであるPUFFLEを紹介する。
PUFFLEは多様なデータセット,モデル,データ分布に対して有効であり,モデルの不公平性を75%まで低減し,最悪のシナリオでは有効性を最大17%削減できることを示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 17:22:18 GMT)
Fast Risk Assessment in Power Grids through Novel Gaussian Process and Active Learning [2.8] 本稿では,臨界電圧制約に対するデータ駆動型リスク評価のためのグラフ構造化ガウス過程(GP)モデルを提案する。
GPを効率的に推定するために,VDKの付加構造を利用した新しいアクティブラーニング手法を提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 20:32:38 GMT)
Natural Language Task-Oriented Dialog System 2.0 [2.8] タスク指向対話(TOD)システムは、ユーザとマシン間の効率的な対話を促進する上で重要な役割を果たす。
これらのシステムは従来、ダイアログ状態やポリシーアノテーションなど、手動でアノテートされたメタデータに依存していた。
本稿では,手動で注釈付けしたターンワイドデータに依存する新たなモデルである自然言語タスク指向対話システム(NL-ToD)を紹介する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 04:52:38 GMT)
Characteristics of ChatGPT users from Germany: implications for the digital divide from web tracking data [2.6] 本稿では,AIを利用した会話エージェントChatGPTのユーザ特性について検討する。
フルタイムの雇用と、より多くの子どもがChatGPT活動の障壁になることに気付きました。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 12:42:30 GMT)
Artificial Intelligence for Cochlear Implants: Review of Strategies, Challenges, and Perspectives [2.6] 本総説は、CIベースのASRと音声強調の進歩を包括的にカバーすることを目的としている。
このレビューは潜在的な応用を掘り下げ、この領域の既存の研究ギャップを埋めるための今後の方向性を提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 21:33:33 GMT)
A Finger on the Pulse of Cardiovascular: Estimating Blood Pressure with Smartphone Photoplethysmography-Based Pulse Waveform Analysis [2.4] 本研究は,スマートフォンを用いた血圧推定のための4つの革新的手法を提案する。
127人の被験者のデータ分析により,スマートフォンの波形特徴と標準BPモニタリング装置の波形特徴との間に有意な相関が認められた。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 03:03:24 GMT)
3D Reconstruction of the Human Colon from Capsule Endoscope Video [2.4] 本研究では,ヒト大腸全切片の3次元モデル構築の可能性について,ワイヤレスカプセル内視鏡による画像シーケンスを用いて検討した。
近年のヒト消化器系の仮想グラフィックベースモデルでは、歪みやアーティファクトの有効化や無効化が可能なため、問題の解決が可能になっている。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 17:31:38 GMT)
Error Detection and Constraint Recovery in Hierarchical Multi-Label Classification without Prior Knowledge [2.0] 本稿では,機械学習モデルの障害モードに関する説明可能なルールを学習可能なEDR(Error Detection Rules)に基づくアプローチを提案する。
提案手法は,機械学習の誤りの検出や制約の回復に有効であり,耐雑音性があり,複数のデータセット上でのニューロシンボリックモデルの知識源として機能することを示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 15:12:19 GMT)
Lexicase Selection Parameter Analysis: Varying Population Size and Test Case Redundancy with Diagnostic Metrics [2.0] 人口規模と世代数がレキシケードの勾配を利用して専門職を維持する能力に与える影響について検討した。
一定の評価予算で人口規模を変動させることで、より小さな人口はより大きな搾取能力を持つ傾向にあることを示す。
また、冗長なテストケースがスペシャリストのメンテナンスに与える影響も検討し、高い冗長性によってスペシャリストの最適化とメンテナンスが妨げられる可能性があることを見出した。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 04:54:27 GMT)
Audio-visual training for improved grounding in video-text LLMs [1.9] 本稿では,音声視覚入力を明示的に処理するモデルアーキテクチャを提案する。
我々は、ビデオインストラクションチューニングデータセットからオーディオデータと視覚データの両方でモデルをトレーニングする。
音声-視覚モデルのより良い評価のために、人間による注釈付きベンチマークデータセットもリリースする。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 03:59:14 GMT)
Weakly SSM : On the Viability of Weakly Supervised Segmentations for Statistical Shape Modeling [1.9] 統計的形状モデル (SSMs) は、個体群レベルの解剖学的変異を識別する。
SSMは専門家主導のマニュアルセグメンテーションの必要性によって制約されることが多い。
近年の深層学習手法により,非分割画像からのSSMの直接推定が可能となった。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 20:24:21 GMT)
TADA: Temporal Adversarial Data Augmentation for Time Series Data [1.7] ドメインの一般化には、アウト・オブ・ディストリビューションデータセットから見えないサンプルを堅牢に実行するために、機械学習モデルをトレーニングすることが含まれる。
Adversarial Data Augmentation (ADA) は、合成サンプルを組み込んだモデル適応性を高める手法である。
本稿では,時間変化を対象とする時間ワープ手法を取り入れたTADA(Temporal Adversarial Data Augmentation for Time Teries Data)を提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 14:21:00 GMT)
Online Optimization and Ambiguity-based Learning of Distributionally Uncertain Dynamic Systems [1.7] 本稿では,分散的に不確実な力学系のクラスを対象とする最適化問題 (P) に対して,データ駆動型オンラインソリューションを構築するための新しい手法を提案する。
導入されたフレームワークは、パラメータ化された制御依存のあいまいさセットを通じて、分散システムの不確実性の同時学習を可能にする。
また、Nesterovの高速化段階アルゴリズムのオンライン版を導入し、その性能を分析して、分散性理論を用いてこの問題のクラスを解く。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 18:11:23 GMT)
Improving Prediction of Need for Mechanical Ventilation using Cross-Attention [1.6] 集中治療室では、機械的換気(MV)の必要性を予測する能力により、よりタイムリーな介入によって患者の成果を改善することができる。
近年の研究では,機械学習モデルを用いたタスクの性能が向上している。
本稿では,より正確なMV予測を行うために,マルチヘッドアテンション(FFNN-MHA)を用いた深層学習モデルの新規適用について検討する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 09:37:30 GMT)
Compact Proofs of Model Performance via Mechanistic Interpretability [1.4] 本稿では,モデル性能に関する形式的保証を導出し,コンパクトに証明するために,機械的解釈可能性を用いることを提案する。
提案手法は, 最大K$タスクで訓練した151個の小型変圧器の精度について, 下限を正式に証明して試作する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 18:30:20 GMT)
Minimizing the Number of Roles in Bottom-Up Role-Mining using Maximal Biclique Enumeration [1.1] ボトムアップ・ロール・マイニング(英: Bottom-up role-mining)とは、ユーザのセットとユーザが所有するパーミッションを入力として与えられるロールのセットを決定することである。
我々は,最大斜めの列挙という新しい手法を提案する。
最初のアプローチは、正確な結果を得るために、ベンチマーク入力の半分以上に対処します。
もう一つのアプローチはハード・インスタンスに対して必要であり、その場合、我々は大きな最大二角形に対応する役割を識別し、採用する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 22:01:09 GMT)
Privacy-Preserving Multi-Center Differential Protein Abundance Analysis with FedProt [1.1] FedProtは、分散データの協調微分タンパク質量分析のための最初のプライバシ保護ツールである。
プールデータに適用されたDECMSに匹敵する精度を達成し、絶対差を完全に無視できる。
FedProtはWebツールとして利用可能で、FeatureCloud Appとして詳細なドキュメントが提供されている。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 17:09:20 GMT)
Enhancing Retinal Disease Classification from OCTA Images via Active Learning Techniques [0.8] 高齢のアメリカ人では眼疾患が一般的であり、視力や視力の低下につながることがある。
光コヒーレンス・トモグラフィ・アンギオグラフィー(OCTA)により、臨床医が網膜血管の高品質な画像を取得することができる画像技術の最近の進歩
OCTAは、一般的なOCT画像から得られる構造情報と比較して、詳細な血管画像を提供する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 23:24:49 GMT)
XEQ Scale for Evaluating XAI Experience Quality Grounded in Psychometric Theory [0.8] 説明可能な人工知能(XAI)は、説明を通じて自律的な意思決定の透明性を向上させることを目的としている。
近年の文献では、ユーザによる総合的な「マルチショット」の説明の必要性と、XAIシステムとの関わりをパーソナライズする能力を強調している。
我々は,XAI体験のユーザ中心品質を評価するためのXAI Experience Quality (XEQ)尺度を紹介する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 13:54:35 GMT)
Weighted Feedback-Based Quantum Algorithm for Excited States Calculation [0.7] 励起状態計算のための新しい重み付きフィードバックベース量子アルゴリズムを提案する。
我々は、重みとフィードバック法則をどう設計するかによって、$p$th励起状態または$p$th励起状態までの最低エネルギー状態を作成することができることを示した。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 10:22:58 GMT)
SusDevOps: Promoting Sustainability to a First Principle in Software Delivery [0.5] SusDevOpsは、ソフトウェアデリバリライフサイクル内のサステナビリティ関連のアクティビティを満足させるフレームワークである。
ソフトウェア開発スタートアップ企業を事例として,SusDevOpsのライフサイクルフェーズとテクニックを実演する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 18:49:39 GMT)
Experimental demonstration of reconstructing quantum states with generative models [0.4] 本稿では,プログラム可能な超伝導トランスモン量子ビットの配列を用いたニューラルネットワーク生成モデルに基づく量子状態の再構成実験を行った。
本研究は、複雑な量子デバイスを検証・特徴化するための機械学習技術を活用した興味深い可能性について実験的に示すものである。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 09:44:05 GMT)
Practical multi-fidelity machine learning: fusion of deterministic and Bayesian models [0.3] マルチフィデリティ機械学習手法は、少ないリソース集約型高フィデリティデータと、豊富なが精度の低い低フィデリティデータを統合する。
低次元領域と高次元領域にまたがる問題に対する実用的多面性戦略を提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 10:40:50 GMT)
Mitigating Deep Reinforcement Learning Backdoors in the Neural Activation Space [0.2] 本稿では,深層強化学習(DRL)エージェントポリシーにおけるバックドアの脅威について検討する。
実行時に検出する新しい方法を提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 13:48:23 GMT)
Few-Shot Transfer Learning for Individualized Braking Intent Detection on Neuromorphic Hardware [0.2] 本研究では、BrainChip上の畳み込みスパイクニューラルネットワーク(CSNN)をトレーニングし、実装するために、数発の転送学習手法の使用について検討する。
その結果、ネットワーク推論にAkida AKD1000プロセッサを使用すると、レイテンシが1.3倍の97%以上のエネルギー削減が達成された。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 15:35:46 GMT)
FSL-Rectifier: Rectify Outliers in Few-Shot Learning via Test-Time Augmentation [0.2] FSL(Few-shot-learning)は通常、トレーニング中に目に見えないクラスに属する画像(クエリ)を識別するモデルを必要とする。
そこで本研究では,テストクラスサンプルと適切な列車クラスサンプルを組み合わせることで,テストクラスサンプルを新たに生成する。
提案手法の有効性を実験的に理論的に実証し,約4%の精度向上を実現した。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 04:32:21 GMT)
SNIP: Speculative Execution and Non-Interference Preservation for Compiler Transformations [0.2] 投機的意味論に基づくコンパイラ変換における非干渉保存の問題に対処する。
我々は,すべてのソースプログラムに対して一様に保存を保証できる検証方法を開発した。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 07:30:30 GMT)
Multiple Object Detection and Tracking in Panoramic Videos for Cycling Safety Analysis [0.1] 本プロジェクトは,事前学習対象検出モデルの予測性能を向上させるための3段階の手法を提案し,実装した。
提案手法は、任意の入力解像度設定の下で、YOLO v5m6 と Faster RCNN-FPN の平均精度を改善する。
テストビデオのオーバーテイクを検出すると、Fスコア0.88を達成する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 15:37:55 GMT)
The dark side of the metaverse: The role of gamification in event virtualization [0.0] 本稿ではメタバースで開催される文化イベントにおけるユーザエクスペリエンスの肯定的側面と否定的側面を分析することを目的とする。
以上の結果から,メタバースの主な要素に注意を集中させることが困難であり,文化イベントの真偽を伝達できないことが示唆された。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 11:31:12 GMT)
SynCPKL: Harnessing LLMs to Generate Synthetic Data for Commonsense Persona Knowledge Linking [0.0] 本稿では,コモンセンスペルソナ知識リンク (CPKL) へのアプローチについて述べる。
本稿では,コモンセンスペルソナ知識リンカを学習するための高品質な合成データセットを生成するパイプラインであるSynCPKL Pipelineを紹介する。
本実験は,コモンセンスペルソナ知識リンカーの訓練におけるSynCPKLの有効性を検証した。
我々のトップパフォーマンスモデルであるDerberta-SynCPKLは、F1スコアの16%向上によってCPKLチャレンジで1位を獲得した。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 22:07:14 GMT)
Spin Qubits with Scalable milli-kelvin CMOS Control [0.0] シリコンMOS型電子スピン量子ビットをヘテロジニアインテグレートしたCreo-CMOS回路でベンチマークする。
ミルケルビン制御は単一および2量子ゲートの性能にはほとんど影響しないことを示す。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 13:04:21 GMT)
Separable DeepONet: Breaking the Curse of Dimensionality in Physics-Informed Machine Learning [0.0] ラベル付きデータセットがない場合、PDE残留損失を利用して物理系を学習する。
この手法は、主に次元の呪いによる重要な計算課題に直面するが、計算コストは、より詳細な離散化とともに指数関数的に増加する。
本稿では,これらの課題に対処し,高次元PDEのスケーラビリティを向上させるために,分離可能なDeepONetフレームワークを紹介する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 16:33:56 GMT)
Resolution of Simpson's paradox via the common cause principle [0.0] ランダム変数$A$と$B$が、観測する必要のない共通原因$C$を持つ場合のシナリオに焦点を当てる。
最小限の共通原因について、シンプソンのパラドックスの選択肢を選ぶべきである。
B$ と $C$ が二進数で、A$ が四進数(シンプソンのパラドックスの最小かつ最も広く使われている状況)であれば、任意の二進共通因に対する条件付けは、$C$ は同じ方向の関連性を確立する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 08:57:48 GMT)
Proposal for Composite Quantum Electromagnetically Induced Transparency Heat Engine Coupled by a Nanomechanical Mirror [0.0] 本稿では,超低温の原子ガスとナノメカニカルミラーを用いた量子熱エンジンモデルを提案する。
ミラーの振動は制御フィールドのオプトメカニカルサイドバンドを誘導し、冷たいガスの挙動に影響を与える。
モデルは、ミラー振動を受けると、提案された熱エンジンは理想的な熱エンジンで期待される特性から分岐することを示した。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 09:22:27 GMT)
Momentum Space Feynman Integral for the Bound State Aharonov-Bohm Effect [0.0] 極共役運動量空間におけるシュリンガープロパゲータに対するファインマン積分を構築する。
境界状態 Aharonov-Bohm 効果をホワイトノイズ関数として記述する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 10:27:39 GMT)
Fast forward problem for adiabatic quantum dynamics: Estimation of the energy cost [0.0] 我々は, 増田-中村高速転送プロトコルを用いて, 量子系の進化の加速(減速)に必要なエネルギーコストの問題を考察する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 19:31:00 GMT)
Explainable bank failure prediction models: Counterfactual explanations to reduce the failure risk [0.0] 銀行失敗予測モデルの正確性と理解性が重要である。
ランダムフォレスト、サポートベクターマシン、ディープラーニングのような複雑なモデルは、高い予測性能を提供するが、説明性は低い。
この課題に対処するためには, 対実的な説明を用いることが提案されている。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 19:47:47 GMT)
Explainability Paths for Sustained Artistic Practice with AI [0.0] 本研究は,生成型音声モデルの訓練と実装における研究成果から,説明可能性を向上させるためのいくつかの道を探究する。
我々は、トレーニング材料よりも人事機関、小規模データセットの生存可能性、反復的創造プロセスの促進、マッピングツールとしての対話型機械学習の統合を強調した。
重要なことは、これらのステップは、モデル推論中だけでなく、モデルのトレーニングフェーズ中だけでなく、トレーニングデータをキュレートおよび前処理する際にも、生成AIシステムよりも人的エージェンシーを強化することを目的としている。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 16:48:14 GMT)
Exact quantization conditions and full transseries structures for ${\cal PT}$ symmetric anharmonic oscillators [0.0] We study exact Wentzel-Kramers-Brillouin analysis (EWKB) for a $cal PT$ symmetric quantumchanics (QM)。
摂動・非摂動補正を含む任意の$(K,varepsilon)$に対する正確な量子化条件(QCs)を導出する。
ヘルミタンのQMと復活の類似性も追加の発言として議論されている。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 10:48:00 GMT)
Evaluation of LLMs Biases Towards Elite Universities: A Persona-Based Exploration [0.0] 本研究は,技術系専門職にペルソナを産み出す際に,一般のLLMがエリート大学に偏見を呈するかどうかを考察する。
GPT-3.5、Gemini、Claude 3 Sonnetで432のペルソナを生成しました。
その結果、LLMはエリート大学を著しく超越しており、これらの機関を特徴とする人格は72.45%であり、実際のLinkedInのデータでは8.56%に過ぎなかった。
この研究は、LLMにおける教育バイアスに対処する必要性を強調し、AIによる採用プロセスにおけるそのようなバイアスを軽減するための戦略を提案する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 23:23:13 GMT)
Demystifying the RSA Algorithm: An Intuitive Introduction for Novices in Cybersecurity [0.0] RSAアルゴリズムは公開鍵暗号システムにおいて重要なコンポーネントである。
RSAアルゴリズムを理解するには、一般に数論、モジュラー算術、関連する概念に精通する。
本稿では,RSAアルゴリズムの直感的に構築された学生向け導入について述べる。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 21:35:39 GMT)
Deep State Space Recurrent Neural Networks for Time Series Forecasting [0.0] 本稿では,固有状態空間モデルの原理とリカレントニューラルネットワーク(RNN)の動的機能とを融合した新しいニューラルネットワークフレームワークを提案する。
結果によると、Kolmogorov-Arnold Networks(KAN)とLSTMにインスパイアされたTKANは、有望な結果を示している。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 17:59:27 GMT)
Curvature of Gaussian quantum states [0.0] 量子状態の空間は相対エントロピーの2階微分を用いて計量構造を授けられ、いわゆるクボ・モリ・ボゴリボフ内部積(Kubo-Mori-Bogoliubov inner product)が生じる。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 15:33:52 GMT)
Cosmic Information Dynamics: The Landauer Principle and Cosmological Horizon [0.0] 膨張する宇宙における宇宙の見かけ上の地平線における情報損失は、情報力学のランダウアー原理と直接対応していることを示す。
このような場合、ランドーアー限界が満たされることを示し、宇宙の見かけ上の地平線における情報消去が可能な限り効率的に行われることを示唆する。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 17:50:43 GMT)
${\it Asparagus}$: A Toolkit for Autonomous, User-Guided Construction of Machine-Learned Potential Energy Surfaces [0.0] $it Asparagus$は、ML-PESモデルの自律的ユーザガイド構築を可能にする、複数のパーツを一貫した実装に包含するソフトウェアパッケージである。
コードの機能については、有機金属化合物における反応性ポテンシャルの表現や周期的な表面構造への原子拡散など、様々な例で説明されている。
論文参考訳(メタデータ) (Sun, 21 Jul 2024 14:22:47 GMT)