このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240329となっている論文です。

PDF登録状況(公開日: 20240329)

TitleAuthorsAbstract論文公表日・翻訳日
# LACS:不確実な需要を伴うカーボンアウェアリソーススケーリングのための学習強化アルゴリズム

LACS: Learning-Augmented Algorithms for Carbon-Aware Resource Scaling with Uncertain Demand ( http://arxiv.org/abs/2404.15211v1 )

ライセンス: Link先を確認
Roozbeh Bostandoost, Adam Lechowicz, Walid A. Hanafy, Noman Bashir, Prashant Shenoy, Mohammad Hajiesmaili, (参考訳) 本論文は,クラウドデータセンタの二酸化炭素排出量削減を目標として,未知のジョブ長(OCSU)によるオンライン炭素対応リソーススケーリング問題を調査し,計算処理を実行するための炭素対応リソーススケーリングに適用する。 タスクは、作業負荷を実行する際の二酸化炭素排出量を減らすことを目的として、期限前に完了するように、未知の長さのジョブに割り当てられたリソース(例えばサーバ数)を動的にスケールすることである。 ジョブを実行する総炭素排出量は、ジョブの実行の排出と異なるスケール(例えばチェックポイントと再開のため)を切り替えながら放出される余剰炭素に由来する。 炭素を意識した資源スケーリングに関する以前の研究は、正確なジョブ長情報を前提としていたが、他のアプローチでは、切り替え損失を無視し、炭素強度の予測を必要としている。 これらの仮定は、スケーラブルなコンピューティングワークロードのオンラインカーボンアウェア実行に対する事前作業の実践的展開を禁止している。 我々は,論理的に堅牢な学習拡張アルゴリズムであるLACSを提案し,OCSUを解く。 LACSは、実際の平均ケース性能を改善するために、機械学習によるジョブ長予測を統合している。 確固とした理論的性能を達成するため、LACSは、ジョブの長さが不明なシナリオを扱うために、オンライン変換の最近の理論的進歩を切り替えコストで拡張した。 実験により, LACSの炭素フットプリントはオンラインベースラインの1.2%以内であり, ジョブ長に加えて, 正確な炭素強度予測を必要とするオフラインベースラインの16%以内であることがわかった。 さらに、LACSは、仕事の納期を意識した炭素非依存の実行と比較して、炭素フットプリントの32%の削減を実現している。

Motivated by an imperative to reduce the carbon emissions of cloud data centers, this paper studies the online carbon-aware resource scaling problem with unknown job lengths (OCSU) and applies it to carbon-aware resource scaling for executing computing workloads. The task is to dynamically scale resources (e.g., the number of servers) assigned to a job of unknown length such that it is completed before a deadline, with the objective of reducing the carbon emissions of executing the workload. The total carbon emissions of executing a job originate from the emissions of running the job and excess carbon emitted while switching between different scales (e.g., due to checkpoint and resume). Prior work on carbon-aware resource scaling has assumed accurate job length information, while other approaches have ignored switching losses and require carbon intensity forecasts. These assumptions prohibit the practical deployment of prior work for online carbon-aware execution of scalable computing workload. We propose LACS, a theoretically robust learning-augmented algorithm that solves OCSU. To achieve improved practical average-case performance, LACS integrates machine-learned predictions of job length. To achieve solid theoretical performance, LACS extends the recent theoretical advances on online conversion with switching costs to handle a scenario where the job length is unknown. Our experimental evaluations demonstrate that, on average, the carbon footprint of LACS lies within 1.2% of the online baseline that assumes perfect job length information and within 16% of the offline baseline that, in addition to the job length, also requires accurate carbon intensity forecasts. Furthermore, LACS achieves a 32% reduction in carbon footprint compared to the deadline-aware carbon-agnostic execution of the job.
翻訳日:2024-04-28 11:06:36 公開日:2024-03-29
# 最適ROIにおけるリアルタイム車線交通モニタリング

Real-time Lane-wise Traffic Monitoring in Optimal ROIs ( http://arxiv.org/abs/2404.15212v1 )

ライセンス: Link先を確認
Mei Qiu, Wei Lin, Lauren Ann Christopher, Stanley Chien, Yaobin Chen, Shu Hu, (参考訳) 米国では、何千ものパン、ティルト、Zoom(PTZ)の交通カメラが高速道路の状態を監視しています。 高速道路の安全と効率的な交通管理のための交通分析と意思決定を支援するために,道路交通データ収集にこれらのハイウェイカメラを使うことに大きな関心がある。 しかし、少数の人間の交通オペレーターが効果的に監視するにはカメラが多すぎるため、完全に自動化された解決策が望まれる。 本稿では,これらのカメラからハイウェイレーンの位置と交通方向を自動で学習する新しいシステムを提案する。 リアルタイムで車線固有のトラフィックデータを継続的に収集し、カメラの角度やズームの変化も調整する。 これにより、効率的な交通分析、意思決定、高速道路の安全性の向上が促進される。

In the US, thousands of Pan, Tilt, and Zoom (PTZ) traffic cameras monitor highway conditions. There is a great interest in using these highway cameras to gather valuable road traffic data to support traffic analysis and decision-making for highway safety and efficient traffic management. However, there are too many cameras for a few human traffic operators to effectively monitor, so a fully automated solution is desired. This paper introduces a novel system that learns the locations of highway lanes and traffic directions from these camera feeds automatically. It collects real-time, lane-specific traffic data continuously, even adjusting for changes in camera angle or zoom. This facilitates efficient traffic analysis, decision-making, and improved highway safety.
翻訳日:2024-04-28 11:06:36 公開日:2024-03-29
# ADAPT^2:自己スーパービジョン・リプレイによるエンドユーザーへの事前学習センシングモデルの適用

ADAPT^2: Adapting Pre-Trained Sensing Models to End-Users via Self-Supervision Replay ( http://arxiv.org/abs/2404.15305v1 )

ライセンス: Link先を確認
Hyungjun Yoon, Jaehyun Kwak, Biniyam Aschalew Tolera, Gaole Dai, Mo Li, Taesik Gong, Kimin Lee, Sung-Ju Lee, (参考訳) 自己教師付き学習は、事前学習モデルのための膨大な未ラベルデータを活用する方法として登場し、様々なモバイルセンシングアプリケーションに効果的な特徴抽出器を提供する。 しかしながら、エンドユーザにデプロイされると、これらのモデルは、ユーザの多様性に起因する大きなドメインシフトに遭遇する。 自己教師型モデルがヘテロジニアス領域で微調整された場合に発生する性能劣化について検討する。 そこで本研究では,自己教師付きモデルをパーソナライズするためのドメイン適応フレームワークADAPT^2を提案する。 ADAPT2は、初期モデル事前学習のための自己教師付きメタラーニングを提案し、その後、ユーザ固有のデータで自己監督をリプレイすることで、ユーザー側モデル適応を行う。 これにより、モデルがトレーニング済みの表現を少数のサンプルでユーザに調整することが可能になる。 4つのベンチマークによる評価では、ADAPT^2はF1スコアの平均8.8%で既存のベースラインを上回っている。 市販オフ・ザ・シェルフ(COTS)スマートフォンのオンデバイス計算オーバーヘッド解析により,ADAPT2は9.54%のメモリ消費しか持たない非邪魔なレイテンシ(3分以内)で適応を完了し,提案手法の計算効率を実証した。

Self-supervised learning has emerged as a method for utilizing massive unlabeled data for pre-training models, providing an effective feature extractor for various mobile sensing applications. However, when deployed to end-users, these models encounter significant domain shifts attributed to user diversity. We investigate the performance degradation that occurs when self-supervised models are fine-tuned in heterogeneous domains. To address the issue, we propose ADAPT^2, a few-shot domain adaptation framework for personalizing self-supervised models. ADAPT2 proposes self-supervised meta-learning for initial model pre-training, followed by a user-side model adaptation by replaying the self-supervision with user-specific data. This allows models to adjust their pre-trained representations to the user with only a few samples. Evaluation with four benchmarks demonstrates that ADAPT^2 outperforms existing baselines by an average F1-score of 8.8%p. Our on-device computational overhead analysis on a commodity off-the-shelf (COTS) smartphone shows that ADAPT2 completes adaptation within an unobtrusive latency (in three minutes) with only a 9.54% memory consumption, demonstrating the computational efficiency of the proposed method.
翻訳日:2024-04-28 11:06:36 公開日:2024-03-29
# DCAE-SR:超高分解能心電図信号再構成のためのデノイング畳み込みオートエンコーダの設計

DCAE-SR: Design of a Denoising Convolutional Autoencoder for reconstructing Electrocardiograms signals at Super Resolution ( http://arxiv.org/abs/2404.15307v1 )

ライセンス: Link先を確認
Ugo Lomoio, Pierangelo Veltri, Pietro Hiram Guzzi, Pietro Lio', (参考訳) 心電図(ECG)信号は心臓血管診断において重要な役割を担い、心臓の電気活動について重要な情報を提供する。 しかし、ECG記録における固有のノイズや解像度の制限は、正確な解釈と診断を妨げる可能性がある。 本稿では、DNAEを用いてECG信号の内部の時間・周波数情報を強化するECGスーパーレゾリューション(SR)の新しいモデルを提案する。 本手法は従来のECG信号処理技術の限界に対処する。 入力5秒のECGウィンドウを50Hz(非常に低解像度)で入力し、x10アップサンプリングレート(500Hz)で復号化超解像信号を再構成することができる。 提案したDCAE-SRを心電図信号でトレーニングした。 超低分解能信号から50Hzのサンプリングレートで高分解能ECG信号を再構成する際の優れた性能を示す。 本研究は,ECG超解像法と,超解像法と復調法の両方が可能な非深度学習再現法とを比較した。 極低分解能心電図信号の超高分解能化において,心電図アーチファクトの劣化が頻発する中で,最先端の性能が得られた。 信号対雑音比は12.20dB(前4.68dB)、平均二乗誤差は0.0044(前0.0154)、根平均二乗誤差は4.86%(前12.40%)であった。 結論として、当社のDCAE-SRモデルは、ECG信号の品質を高めるために、堅牢で汎用的で説明可能なソリューションを提供する。 この進歩は、心臓血管診断の分野を前進させ、患者ケアの改善と高品質な臨床診断への道を開くことを約束する。

Electrocardiogram (ECG) signals play a pivotal role in cardiovascular diagnostics, providing essential information on the electrical activity of the heart. However, the inherent noise and limited resolution in ECG recordings can hinder accurate interpretation and diagnosis. In this paper, we propose a novel model for ECG super resolution (SR) that uses a DNAE to enhance temporal and frequency information inside ECG signals. Our approach addresses the limitations of traditional ECG signal processing techniques. Our model takes in input 5-second length ECG windows sampled at 50 Hz (very low resolution) and it is able to reconstruct a denoised super-resolution signal with an x10 upsampling rate (sampled at 500 Hz). We trained the proposed DCAE-SR on public available myocardial infraction ECG signals. Our method demonstrates superior performance in reconstructing high-resolution ECG signals from very low-resolution signals with a sampling rate of 50 Hz. We compared our results with the current deep-learning literature approaches for ECG super-resolution and some non-deep learning reproducible methods that can perform both super-resolution and denoising. We obtained current state-of-the-art performances in super-resolution of very low resolution ECG signals frequently corrupted by ECG artifacts. We were able to obtain a signal-to-noise ratio of 12.20 dB (outperforms previous 4.68 dB), mean squared error of 0.0044 (outperforms previous 0.0154) and root mean squared error of 4.86% (outperforms previous 12.40%). In conclusion, our DCAE-SR model offers a robust (to artefact presence), versatile and explainable solution to enhance the quality of ECG signals. This advancement holds promise in advancing the field of cardiovascular diagnostics, paving the way for improved patient care and high-quality clinical decisions
翻訳日:2024-04-28 11:06:36 公開日:2024-03-29
# 位置予測付き変圧器を用いたラベル効率のよい睡眠安定

Label-Efficient Sleep Staging Using Transformers Pre-trained with Position Prediction ( http://arxiv.org/abs/2404.15308v1 )

ライセンス: Link先を確認
Sayeri Lala, Hanlin Goh, Christopher Sandino, (参考訳) 睡眠ステージングは、様々な睡眠障害を診断するための臨床的に重要な課題であるが、労働集約的かつ時間を要するため、大規模に展開することは依然として困難である。 監視されたディープラーニングベースのアプローチは、睡眠ステージングを自動化することができるが、大きなラベル付きデータセットを犠牲にして、一般的な睡眠障害など、さまざまな設定で取得することは不可能である。 自己教師付き学習(SSL)は、このニーズを軽減することができるが、最近の睡眠ステージングのためのSSLの研究は、数十人の被験者のラベル付きデータでトレーニングした後、パフォーマンスが飽和していることを示しており、その結果、より大きなデータセットで達成されたピークパフォーマンスにマッチすることができない。 本研究では, 時間的エンコーダではなく, 時間的エンコーダではなく, 特徴量と時間的エンコーダをシームレスに結合するアーキテクチャと, モデル全体を事前トレーニングする適切な事前トレーニングスキームを提案する。 サンプル睡眠ステージングデータセットにおいて、提案手法は、ラベル付きトレーニングデータ(例えば、低レベルから高レベルなデータ設定におけるバランスの取れた睡眠ステージング精度の改善)に飽和しない性能向上を提供し、ハイパフォーマンスに必要なラベル付きトレーニングデータ(例えば、800名)の量を削減している。 この知見に基づき、睡眠ステージングのためのSSLの開発に、このSSLパラダイムを採用することを推奨する。

Sleep staging is a clinically important task for diagnosing various sleep disorders, but remains challenging to deploy at scale because it because it is both labor-intensive and time-consuming. Supervised deep learning-based approaches can automate sleep staging but at the expense of large labeled datasets, which can be unfeasible to procure for various settings, e.g., uncommon sleep disorders. While self-supervised learning (SSL) can mitigate this need, recent studies on SSL for sleep staging have shown performance gains saturate after training with labeled data from only tens of subjects, hence are unable to match peak performance attained with larger datasets. We hypothesize that the rapid saturation stems from applying a sub-optimal pretraining scheme that pretrains only a portion of the architecture, i.e., the feature encoder, but not the temporal encoder; therefore, we propose adopting an architecture that seamlessly couples the feature and temporal encoding and a suitable pretraining scheme that pretrains the entire model. On a sample sleep staging dataset, we find that the proposed scheme offers performance gains that do not saturate with amount of labeled training data (e.g., 3-5\% improvement in balanced sleep staging accuracy across low- to high-labeled data settings), reducing the amount of labeled training data needed for high performance (e.g., by 800 subjects). Based on our findings, we recommend adopting this SSL paradigm for subsequent work on SSL for sleep staging.
翻訳日:2024-04-28 10:56:51 公開日:2024-03-29
# 特化ラベルコーパスに基づく支援ベクトルマシンショートテキスト分類による銀行取引記述の同定

Identifying Banking Transaction Descriptions via Support Vector Machine Short-Text Classification Based on a Specialized Labelled Corpus ( http://arxiv.org/abs/2404.08664v1 )

ライセンス: Link先を確認
Silvia García-Méndez, Milagros Fernández-Gavilanes, Jonathan Juncal-Martínez, Francisco J. González-Castaño, Oscar Barba Seara, (参考訳) 短いテキストは、リアルタイムニュースやソーシャルネットワークのコメンタリーなどで一目でわかる。 従来のテキスト表現法は中規模の自己完結型文書にうまく適用されてきた。 しかし、例えば、mnemonicsの使用により、短いテキストの情報は不十分であることが多く、分類が困難である。 したがって、特定のドメインの特異性を利用する必要がある。 本稿では、自然言語処理技術と機械学習アルゴリズムを組み合わせて、個人金融管理のための銀行取引記述を分類する新しいシステムについて述べる。 私たちは、このシステムをラベル付きデータセット上でトレーニングし、テストしました。 また,スパム検出における既存のソリューションに触発されて,ジャカード距離に基づくトレーニングセットサイズの削減を目的とした,短いテキスト類似度検出手法を提案する。 この検出器とSVMを組み合わせた2段階の分類器による実験結果から,複雑性と計算時間を考慮して,他の手法と比較して高い精度を示す。 最後に、Google PlayとApp Storeで利用可能なパーソナルファイナンスアプリケーションCoinScrapのユースケースを提示します。

Short texts are omnipresent in real-time news, social network commentaries, etc. Traditional text representation methods have been successfully applied to self-contained documents of medium size. However, information in short texts is often insufficient, due, for example, to the use of mnemonics, which makes them hard to classify. Therefore, the particularities of specific domains must be exploited. In this article we describe a novel system that combines Natural Language Processing techniques with Machine Learning algorithms to classify banking transaction descriptions for personal finance management, a problem that was not previously considered in the literature. We trained and tested that system on a labelled dataset with real customer transactions that will be available to other researchers on request. Motivated by existing solutions in spam detection, we also propose a short text similarity detector to reduce training set size based on the Jaccard distance. Experimental results with a two-stage classifier combining this detector with a SVM indicate a high accuracy in comparison with alternative approaches, taking into account complexity and computing time. Finally, we present a use case with a personal finance application, CoinScrap, which is available at Google Play and App Store.
翻訳日:2024-04-21 20:04:31 公開日:2024-03-29
# 積み重ね分類システムによるマイクロブロッギングデータの財務的機会の検出

Detection of financial opportunities in micro-blogging data with a stacked classification system ( http://arxiv.org/abs/2404.07224v1 )

ライセンス: Link先を確認
Francisco de Arriba-Pérez, Silvia García-Méndez, José A. Regueiro-Janeiro, Francisco J. González-Castaño, (参考訳) Twitterソーシャルネットワークのようなマイクロブログソースは、市場予測モデルに貴重なリアルタイムデータを提供する。 このネットワークにおける投資家の意見は、株式市場の変動に追随し、他の投資家の行動に影響を及ぼす可能性のある市場機会に関する学識ある憶測を含むことが多い。 そこで,本稿では,Plutchik理論の「期待」に類似した「機会」という金融感情の一種である,ツイートの肯定的な予測を検出する新しいシステムを提案する。 具体的には、金融業者にかなりの量のツイートを提示すると共に、システム内の他の金融感情と区別し、高い検出精度を求める。 本稿では,自然言語処理技術を適用した3層積層機械学習分類システムを用いて,貴重な言語情報を抽出する手法を提案する。 財務感情やティッカー発生タグを手動でアノテートしたデータセットの実験結果から, 財務機会検出において, 83%の精度で, 良好な性能と競争性能が得られることが示された。 この有望な成果は、投資家の意思決定を支援するためのシステムのユーザビリティを支持します。

Micro-blogging sources such as the Twitter social network provide valuable real-time data for market prediction models. Investors' opinions in this network follow the fluctuations of the stock markets and often include educated speculations on market opportunities that may have impact on the actions of other investors. In view of this, we propose a novel system to detect positive predictions in tweets, a type of financial emotions which we term "opportunities" that are akin to "anticipation" in Plutchik's theory. Specifically, we seek a high detection precision to present a financial operator a substantial amount of such tweets while differentiating them from the rest of financial emotions in our system. We achieve it with a three-layer stacked Machine Learning classification system with sophisticated features that result from applying Natural Language Processing techniques to extract valuable linguistic information. Experimental results on a dataset that has been manually annotated with financial emotion and ticker occurrence tags demonstrate that our system yields satisfactory and competitive performance in financial opportunity detection, with precision values up to 83%. This promising outcome endorses the usability of our system to support investors' decision making.
翻訳日:2024-04-14 13:13:23 公開日:2024-03-29
# 胸部X線写真を用いたDense Convolutional Networkを用いた胸部疾患のマルチラベル分類

Multi-Label Classification of Thoracic Diseases using Dense Convolutional Network on Chest Radiographs ( http://arxiv.org/abs/2202.03583v4 )

ライセンス: Link先を確認
Dipkamal Bhusal, Sanjeeb Prasad Panday, (参考訳) X線画像の病理を識別する伝統的な方法は、熟練した人間の解釈に大きく依存しており、しばしば時間を要する。 ディープラーニング技術の出現により、自動疾患診断システムの開発が可能となった。 それでも、そのようなシステムの性能はエンドユーザーにとって不透明であり、単一の病理検出に限られている。 本稿では,1回の検査で複数の病理を検出できる多ラベル疾患予測モデルを提案する。 疾患診断には高密度畳み込みニューラルネットワーク(DenseNet)を用いる。 提案モデルでは,NoduleのAUCスコアは0.655,精度0.66のAUCスコアは0.826で,AUCスコアは0.896,Noduleは0.655であった。 意思決定における信頼を構築するため,X線上にヒートマップを作成し,モデルが注意を払って予測を行う領域を可視化した。 提案手法は, マルチラベル疾患予測タスクにおいて, 信頼性の高い高性能測定値を得た。

Traditional methods of identifying pathologies in X-ray images rely heavily on skilled human interpretation and are often time-consuming. The advent of deep learning techniques has enabled the development of automated disease diagnosis systems. Still, the performance of such systems is opaque to end-users and limited to detecting a single pathology. In this paper, we propose a multi-label disease prediction model that allows the detection of more than one pathology at a given test time. We use a dense convolutional neural network (DenseNet) for disease diagnosis. Our proposed model achieved the highest AUC score of 0.896 for the condition Cardiomegaly with an accuracy of 0.826, while the lowest AUC score was obtained for Nodule, at 0.655 with an accuracy of 0.66. To build trust in decision-making, we generated heatmaps on X-rays to visualize the regions where the model paid attention to make certain predictions. Our proposed automated disease prediction model obtained highly confident high-performance metrics in multi-label disease prediction tasks.
翻訳日:2024-04-04 23:57:15 公開日:2024-03-29
# 深部強化学習によるキャピラリーの高忠実度シミュレーションにおける磁気マイクロスウィマーの経路計画

Path planning of magnetic microswimmers in high-fidelity simulations of capillaries with deep reinforcement learning ( http://arxiv.org/abs/2404.02171v1 )

ライセンス: Link先を確認
Lucas Amoudruz, Sergey Litvinov, Petros Koumoutsakos, (参考訳) 標的とする薬物の送達、マイクロサージェリー、感覚といった医学的応用は、最小限の侵襲的な方法で体内の正確な領域に到達することに依存している。 人工細菌鞭毛(ABF)は、循環系をナビゲートすることで、このタスクの潜在的なツールとして登場した。 ABFsの制御と水泳特性は単純なシナリオで理解されているが、血流中での挙動はいまだに不明である。 ヒト網膜に存在する複雑な毛細血管網で進化するABFのシミュレーションを行う。 ABFは、予め縮小順序モデルに基づいて訓練された強化学習剤により、所定の目標に頑健に誘導される。

Biomedical applications such as targeted drug delivery, microsurgery or sensing rely on reaching precise areas within the body in a minimally invasive way. Artificial bacterial flagella (ABFs) have emerged as potential tools for this task by navigating through the circulatory system. While the control and swimming characteristics of ABFs is understood in simple scenarios, their behavior within the bloodstream remains unclear. We conduct simulations of ABFs evolving in the complex capillary networks found in the human retina. The ABF is robustly guided to a prescribed target by a reinforcement learning agent previously trained on a reduced order model.
翻訳日:2024-04-04 21:38:27 公開日:2024-03-29
# $\ell_\infty$ 保証付き線形ハッシュと両側カキーア境界

Linear Hashing with $\ell_\infty$ guarantees and two-sided Kakeya bounds ( http://arxiv.org/abs/2204.01665v3 )

ライセンス: Link先を確認
Manik Dhar, Zeev Dvir, (参考訳) 有限体上のランダムに選択された線型写像が$\ell_\infty$ の意味でよいハッシュ関数を与えることを示す。 より具体的には、集合 $S \subset \mathbb{F}_q^n$ とランダムに選択された線型写像 $L : \mathbb{F}_q^n \to \mathbb{F}_q^t$ を考える。 $U_S$は、$S$上に均一に分散されたランダム変数を表す。 我々の主定理は、$L$の選択よりも高い確率で、確率変数$L(U_S)$は$\ell_\infty$ノルムにおいて一様に近いことを示している。 言い換えれば、$\mathbb{F}_q^t$ の範囲内のすべての元は、$S$ の同じ数の元を持つ。 これは、統計学においてアナログステートメント($\ell_1$, distance (よりリッチな関数のクラス)を証明し、また線形ハッシュ関数 [ADMPT99] において期待される最大の「バケットサイズ」に関する先行研究を補完する。 負荷分散文献[RS98]からの既知のバウンダリにより、この結果は厳密であり、線形関数とトラリーランダム関数がエントロピー損失の定数因子であることを示す。 我々の証明は、線形ハッシュと有限体Kakeya問題の間の接続を利用し、この領域で開発されたツール、特に多項式法を拡張している。

We show that a randomly chosen linear map over a finite field gives a good hash function in the $\ell_\infty$ sense. More concretely, consider a set $S \subset \mathbb{F}_q^n$ and a randomly chosen linear map $L : \mathbb{F}_q^n \to \mathbb{F}_q^t$ with $q^t$ taken to be sufficiently smaller than $ |S|$. Let $U_S$ denote a random variable distributed uniformly on $S$. Our main theorem shows that, with high probability over the choice of $L$, the random variable $L(U_S)$ is close to uniform in the $\ell_\infty$ norm. In other words, {\em every} element in the range $\mathbb{F}_q^t$ has about the same number of elements in $S$ mapped to it. This complements the widely-used Leftover Hash Lemma (LHL) which proves the analog statement under the statistical, or $\ell_1$, distance (for a richer class of functions) as well as prior work on the expected largest 'bucket size' in linear hash functions [ADMPT99]. By known bounds from the load balancing literature [RS98], our results are tight and show that linear functions hash as well as trully random function up to a constant factor in the entropy loss. Our proof leverages a connection between linear hashing and the finite field Kakeya problem and extends some of the tools developed in this area, in particular the polynomial method.
翻訳日:2024-04-04 14:31:02 公開日:2024-03-29
# SmoothQuant:大規模言語モデルのための高精度かつ効率的なポストトレーニング量子化

SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models ( http://arxiv.org/abs/2211.10438v7 )

ライセンス: Link先を確認
Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song Han, (参考訳) 大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約性がある。 量子化はメモリを減らし、推論を加速する。 しかし、既存の手法では精度とハードウェアの効率を同時に維持できない。 SmoothQuant, a training-free, accuracy-serving and general-purpose post-training Quantization (PTQ) solution to enable 8-bit weight, 8-bit activation (W8A8) Quantization for LLMs。 SmoothQuantは、活性化中に重みが量子化しやすいという事実に基づいて、数学的に等価な変換で、活性化から重みへの量子化の難しさをオフラインで移動させることにより、アクティベーションアウトリーを滑らかにする。 SmoothQuantは、OPT、BLOOM、GLM、MT-NLG、Llama-1/2、Falcon、Mistral、Mixtralモデルを含む、LLMのすべての行列乗算に対するウェイトとアクティベーションの両方のINT8量子化を可能にする。 最大1.56倍の高速化と2倍のメモリ削減を実現した。 SmoothQuantは、単一のノード内で530B LLMを提供する。 私たちの仕事は、ハードウェアコストを削減し、LLMを民主化するターンキーソリューションを提供します。 コードはhttps://github.com/mit-han-lab/smoothquant.comで入手できる。

Large language models (LLMs) show excellent performance but are compute- and memory-intensive. Quantization can reduce memory and accelerate inference. However, existing methods cannot maintain accuracy and hardware efficiency at the same time. We propose SmoothQuant, a training-free, accuracy-preserving, and general-purpose post-training quantization (PTQ) solution to enable 8-bit weight, 8-bit activation (W8A8) quantization for LLMs. Based on the fact that weights are easy to quantize while activations are not, SmoothQuant smooths the activation outliers by offline migrating the quantization difficulty from activations to weights with a mathematically equivalent transformation. SmoothQuant enables an INT8 quantization of both weights and activations for all the matrix multiplications in LLMs, including OPT, BLOOM, GLM, MT-NLG, Llama-1/2, Falcon, Mistral, and Mixtral models. We demonstrate up to 1.56x speedup and 2x memory reduction for LLMs with negligible loss in accuracy. SmoothQuant enables serving 530B LLM within a single node. Our work offers a turn-key solution that reduces hardware costs and democratizes LLMs. Code is available at https://github.com/mit-han-lab/smoothquant.
翻訳日:2024-04-04 14:11:24 公開日:2024-03-29
# 重度ラベルフリップ攻撃を用いた逆ラベルによるバックドアアプローチ

A Backdoor Approach with Inverted Labels Using Dirty Label-Flipping Attacks ( http://arxiv.org/abs/2404.00076v1 )

ライセンス: Link先を確認
Orson Mengara, (参考訳) オーディオベースの機械学習システムは、公開データやサードパーティのデータを使うことが多いが、それは不正確かもしれない。 これにより、そのようなデータに基づいてトレーニングされたディープニューラルネットワーク(DNN)モデルが、潜在的なデータ中毒攻撃に公開されている。 この種の攻撃では、攻撃者は有毒なデータを使ってDNNモデルを訓練でき、性能を低下させる可能性がある。 我々の調査に非常に関係のある別のタイプのデータ中毒攻撃は、攻撃者がデータのサブセットのためにラベルを操作するラベルフリップである。 これらの攻撃は、最小限の能力を持つ攻撃者であっても、システム性能を大幅に低下させる可能性があることが示されている。 本研究では,「ラベル・オン・ラベル」という汚いラベル技術を用いて,対象クラスに関連する選択データパターンのトリガ(クラップ)を入力し,ステルスなバックドアを実現する「DirtyFlipping」というバックドア攻撃を提案する。

Audio-based machine learning systems frequently use public or third-party data, which might be inaccurate. This exposes deep neural network (DNN) models trained on such data to potential data poisoning attacks. In this type of assault, attackers can train the DNN model using poisoned data, potentially degrading its performance. Another type of data poisoning attack that is extremely relevant to our investigation is label flipping, in which the attacker manipulates the labels for a subset of data. It has been demonstrated that these assaults may drastically reduce system performance, even for attackers with minimal abilities. In this study, we propose a backdoor attack named 'DirtyFlipping', which uses dirty label techniques, "label-on-label", to input triggers (clapping) in the selected data patterns associated with the target class, thereby enabling a stealthy backdoor.
翻訳日:2024-04-04 07:27:29 公開日:2024-03-29
# マルチプロパリティ最適化を用いた分子生成逆相関ネットワーク

Molecular Generative Adversarial Network with Multi-Property Optimization ( http://arxiv.org/abs/2404.00081v1 )

ライセンス: Link先を確認
Huidong Tang, Chen Li, Sayaka Kamei, Yoshihiro Yamanishi, Yasuhiko Morimoto, (参考訳) GAN(Generative Adversarial Network)のような深い生成モデルは、薬物発見において$de~novo$の分子生成に使われてきた。 これまでのほとんどの研究では、強化学習(RL)アルゴリズム、特にモンテカルロ木探索(MCTS)を用いて、GANにおける分子表現の離散的な性質を処理してきた。 しかし、GANとRLモデルをトレーニングする際の固有の不安定さと、MCTSサンプリングに伴う高い計算コストのため、MCTS RLベースのGANは大規模な化学データベースにスケールするのに苦労する。 これらの課題に対処するために,InstGANと呼ばれるアクタークリティカルなRLに基づく新しいGANを導入し,マルチプロパティ最適化によりトークンレベルで分子を生成する。 さらに、最大情報エントロピーを利用してモード崩壊を緩和する。 実験により,InstGANは他のベースラインよりも優れ,最先端モデルに匹敵する性能を達成し,マルチプロパティ最適化で分子を効率的に生成することを示した。 ソースコードは、論文の受理時に公開される。

Deep generative models, such as generative adversarial networks (GANs), have been employed for $de~novo$ molecular generation in drug discovery. Most prior studies have utilized reinforcement learning (RL) algorithms, particularly Monte Carlo tree search (MCTS), to handle the discrete nature of molecular representations in GANs. However, due to the inherent instability in training GANs and RL models, along with the high computational cost associated with MCTS sampling, MCTS RL-based GANs struggle to scale to large chemical databases. To tackle these challenges, this study introduces a novel GAN based on actor-critic RL with instant and global rewards, called InstGAN, to generate molecules at the token-level with multi-property optimization. Furthermore, maximized information entropy is leveraged to alleviate the mode collapse. The experimental results demonstrate that InstGAN outperforms other baselines, achieves comparable performance to state-of-the-art models, and efficiently generates molecules with multi-property optimization. The source code will be released upon acceptance of the paper.
翻訳日:2024-04-04 07:27:29 公開日:2024-03-29
# データ駆動型室内音響モデル -学習遅延線付き微分フィードバック遅延ネットワーク-

Data-Driven Room Acoustic Modeling Via Differentiable Feedback Delay Networks With Learnable Delay Lines ( http://arxiv.org/abs/2404.00082v1 )

ライセンス: Link先を確認
Alessandro Ilic Mezza, Riccardo Giampiccolo, Enzo De Sena, Alberto Bernardini, (参考訳) 過去数十年にわたり、物理環境の室内音響をエミュレートすることを目的とした人工残響アルゴリズムの設計に、広範囲にわたる研究が費やされてきた。 大幅な進歩にもかかわらず、遅延ネットワークモデルの自動パラメータチューニングは未解決の課題である。 本稿では,FDN(Feedback Delay Network)のパラメータを求める新しい手法を提案する。 提案手法は、トレーニング可能な遅延線付き微分可能FDNの実装を伴い、バックプロパゲーションにより、各遅延ネットワークパラメータを同時に学習することができる。 反復最適化プロセスは、エネルギー減衰とエコー密度を考慮した微分可能な項を含む時間領域損失関数を最小化する。 実験により,提案手法は所望の音響特性と密に一致できる時間不変周波数非依存FDNを生成し,遺伝的アルゴリズムと解析フィルタ設計に基づく既存手法より優れていることを示す。

Over the past few decades, extensive research has been devoted to the design of artificial reverberation algorithms aimed at emulating the room acoustics of physical environments. Despite significant advancements, automatic parameter tuning of delay-network models remains an open challenge. We introduce a novel method for finding the parameters of a Feedback Delay Network (FDN) such that its output renders the perceptual qualities of a measured room impulse response. The proposed approach involves the implementation of a differentiable FDN with trainable delay lines, which, for the first time, allows us to simultaneously learn each and every delay-network parameter via backpropagation. The iterative optimization process seeks to minimize a time-domain loss function incorporating differentiable terms accounting for energy decay and echo density. Through experimental validation, we show that the proposed method yields time-invariant frequency-independent FDNs capable of closely matching the desired acoustical characteristics, and outperforms existing methods based on genetic algorithms and analytical filter design.
翻訳日:2024-04-04 07:27:29 公開日:2024-03-29
# Bayesian Nonparametrics: ディープラーニングに代わる方法

Bayesian Nonparametrics: An Alternative to Deep Learning ( http://arxiv.org/abs/2404.00085v1 )

ライセンス: Link先を確認
Bahman Moraffah, (参考訳) ベイズ非パラメトリックモデルは、統計モデル選択のための柔軟で強力なフレームワークを提供し、モデルの複雑さを多様なデータセットの複雑さに適応させることができる。 この調査はベイズ非パラメトリックの重要性を掘り下げることを目的としており、特に統計学、計算機科学、電気工学など様々な分野における複雑な課題に対処することを目的としている。 本研究は,これらの非パラメトリックモデルの基本特性と理論的基礎を解明することにより,ベイズ非パラメトリックの包括的理解と,複雑な問題,特に多対象追跡の領域におけるそれらの関連性を明らかにすることを目的とする。 この探索を通じて、ベイズ的非パラメトリック手法の汎用性と有効性を明らかにするとともに、様々な分野にわたる課題を複雑にするための革新的な解決策の道を開く。

Bayesian nonparametric models offer a flexible and powerful framework for statistical model selection, enabling the adaptation of model complexity to the intricacies of diverse datasets. This survey intends to delve into the significance of Bayesian nonparametrics, particularly in addressing complex challenges across various domains such as statistics, computer science, and electrical engineering. By elucidating the basic properties and theoretical foundations of these nonparametric models, this survey aims to provide a comprehensive understanding of Bayesian nonparametrics and their relevance in addressing complex problems, particularly in the domain of multi-object tracking. Through this exploration, we uncover the versatility and efficacy of Bayesian nonparametric methodologies, paving the way for innovative solutions to intricate challenges across diverse disciplines.
翻訳日:2024-04-04 07:27:29 公開日:2024-03-29
# DVIS-DAQ:動的アンカークエリによるビデオセグメンテーションの改善

DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries ( http://arxiv.org/abs/2404.00086v1 )

ライセンス: Link先を確認
Yikang Zhou, Tao Zhang, Shunping JI, Shuicheng Yan, Xiangtai Li, (参考訳) 現代のビデオセグメンテーション手法では、大規模な動きや過渡的閉塞にもかかわらず、オブジェクトクエリを用いてフレーム間アソシエーションを行い、連続的に現れるオブジェクトを追跡するのに満足な性能を示す。 しかし、それらはいずれも、背景と前景のクエリ間の大きな特徴ギャップを持つ特徴遷移を通じて、オブジェクトの出現と消失をモデル化しようとするために、現実世界でよく見られる、新しく出現し、消滅するオブジェクトに過小評価されている。 本稿では,潜在的な候補の特徴に基づいて,アンカークエリを動的に生成することにより,アンカーとターゲットクエリ間の遷移ギャップを短くする動的アンカークエリ(DAQ)を提案する。 さらに,クエリレベルのオブジェクトEmergence and Disappearance Simulation (EDS) 戦略を導入する。 最後に、提案したDAQとEDSをDVIS~\cite{zhang2023dvis}と組み合わせてDVIS-DAQを得る。 大規模な実験により、DVIS-DAQは5つの主流ビデオセグメンテーションベンチマーク上で、新しい最先端(SOTA)性能を達成することが示された。 コードとモデルは \url{https://github.com/SkyworkAI/DAQ-VS} で公開されている。

Modern video segmentation methods adopt object queries to perform inter-frame association and demonstrate satisfactory performance in tracking continuously appearing objects despite large-scale motion and transient occlusion. However, they all underperform on newly emerging and disappearing objects that are common in the real world because they attempt to model object emergence and disappearance through feature transitions between background and foreground queries that have significant feature gaps. We introduce Dynamic Anchor Queries (DAQ) to shorten the transition gap between the anchor and target queries by dynamically generating anchor queries based on the features of potential candidates. Furthermore, we introduce a query-level object Emergence and Disappearance Simulation (EDS) strategy, which unleashes DAQ's potential without any additional cost. Finally, we combine our proposed DAQ and EDS with DVIS~\cite{zhang2023dvis} to obtain DVIS-DAQ. Extensive experiments demonstrate that DVIS-DAQ achieves a new state-of-the-art (SOTA) performance on five mainstream video segmentation benchmarks. Code and models are available at \url{https://github.com/SkyworkAI/DAQ-VS}.
翻訳日:2024-04-04 07:27:29 公開日:2024-03-29
# ジェット製造における絡み合いとハドロン化の量子シミュレーション-シュウィンガーモデルからの教訓

Quantum simulation of entanglement and hadronization in jet production: lessons from the massive Schwinger model ( http://arxiv.org/abs/2404.00087v1 )

ライセンス: Link先を確認
Adrien Florio, David Frenklakh, Kazuki Ikeda, Dmitri E. Kharzeev, Vladimir Korepin, Shuzhe Shi, Kwangmin Yu, (参考訳) エンタングルメントと熱化の関係とハドロン化のダイナミクスは、外部ソースに結合した巨大なシュウィンガーモデルのリアルタイム応答を研究することによって解決される。 このセットアップは、シュウィンガーモデルとQCDが閉じ込めとカイラル対称性の破れの性質を共有するため、クォークジェットの生成と断片化を模倣する。 古典的ハードウェア上での量子シミュレーションを用いて、生成したジェット間の絡み合いを調べ、対応する絡み合いエントロピーの時間的成長を観察する。 この成長は、十分に大きく密接な固有値を持つ還元密度行列の寄与固有状態の増加から生じる。 また、これらの固有状態の物理的性質についても検討し、初期の段階ではフェルミオンフォック状態に対応することを発見した。 次に、時間関数としてこれらのフェルミオンフォック状態から中間子様境界状態への遷移を観察する。 言い換えれば、ハドロン化がリアルタイムでどのように進行するかを観察する。 後期には(フェルミオン密度や電場のような)ラピディティの局所観測物はほぼ一定の値に近づき、平衡の開始と熱化へのアプローチが示唆された。

The possible link between entanglement and thermalization, and the dynamics of hadronization are addressed by studying the real-time response of the massive Schwinger model coupled to external sources. This setup mimics the production and fragmentation of quark jets, as the Schwinger model and QCD share the properties of confinement and chiral symmetry breaking. By using quantum simulations on classical hardware, we study the entanglement between the produced jets, and observe the growth of the corresponding entanglement entropy in time. This growth arises from the increased number of contributing eigenstates of the reduced density matrix with sufficiently large and close eigenvalues. We also investigate the physical nature of these eigenstates, and find that at early times they correspond to fermionic Fock states. We then observe the transition from these fermionic Fock states to meson-like bound states as a function of time. In other words, we observe how hadronization develops in real time. At late times, the local observables at mid-rapidity (such as the fermion density and the electric field) approach approximately constant values, suggesting the onset of equilibrium and approach to thermalization.
翻訳日:2024-04-04 07:27:29 公開日:2024-03-29
# 超伝導プロセッサを用いたフィボナッチアロンの非アベリアブレイディング

Non-Abelian braiding of Fibonacci anyons with a superconducting processor ( http://arxiv.org/abs/2404.00091v1 )

ライセンス: Link先を確認
Shibo Xu, Zheng-Zhi Sun, Ke Wang, Hekang Li, Zitian Zhu, Hang Dong, Jinfeng Deng, Xu Zhang, Jiachen Chen, Yaozu Wu, Chuanyu Zhang, Feitong Jin, Xuhao Zhu, Yu Gao, Aosai Zhang, Ning Wang, Yiren Zou, Ziqi Tan, Fanhao Shen, Jiarun Zhong, Zehang Bao, Weikang Li, Wenjie Jiang, Li-Wei Yu, Zixuan Song, Pengfei Zhang, Liang Xiang, Qiujiang Guo, Zhen Wang, Chao Song, H. Wang, Dong-Ling Deng, (参考訳) 非アベリアトポロジカルオーダーは、フォールトトレラント量子計算への興味深い経路を提供し、そこでは、任意の局所雑音や摂動に免疫されたトポロジカルに保護された方法で情報をエンコードし、操作することができる。 しかし、非アベリアの位相的に順序づけられた状態を実現することは、凝縮物質とプログラマブル量子システムの両方において非常に難しいことで知られており、非アベリア統計のシグネチャがデジタル量子シミュレーションによって観測されたのは近年になってからである。 これらのエキサイティングな進歩にもかかわらず、それらのどれも、普遍的な量子計算をサポートするブレイディングのみを持つ位相的順序の適切なタイプと関連する非アベリア異性体を証明していない。 本稿では、非アベリアトポロジカル秩序状態のフィボナッチ弦ネットモデルの実現と、超伝導量子プロセッサによる普遍計算パワーを特徴とするフィボナッチのブレイディングを示す。 我々は、効率的な量子回路を利用して所望の状態を準備し、位相エンタングルメントエントロピーを測定することで、その非自明な位相特性を検証する。 さらに、フィボナッチ・アロンのペアを2つ作成し、基礎となる物理量子ビットにユニタリゲートを適用することにより、融合規則と非アベリアブレイディング統計を実証する。 この結果から,エキゾチックな非アベリア位相状態の探索と,現在のノイズの高い中間スケール量子プロセッサによるそれらの関連するブレイディング統計値の探索に,汎用的なディジタルアプローチが確立された。

Non-Abelian topological orders offer an intriguing path towards fault-tolerant quantum computation, where information can be encoded and manipulated in a topologically protected manner immune to arbitrary local noises and perturbations. However, realizing non-Abelian topologically ordered states is notoriously challenging in both condensed matter and programmable quantum systems, and it was not until recently that signatures of non-Abelian statistics were observed through digital quantum simulation approaches. Despite these exciting progresses, none of them has demonstrated the appropriate type of topological orders and associated non-Abelian anyons whose braidings alone support universal quantum computation. Here, we report the realization of non-Abelian topologically ordered states of the Fibonacci string-net model and demonstrate braidings of Fibonacci anyons featuring universal computational power, with a superconducting quantum processor. We exploit efficient quantum circuits to prepare the desired states and verify their nontrivial topological nature by measuring the topological entanglement entropy. In addition, we create two pairs of Fibonacci anyons and demonstrate their fusion rule and non-Abelian braiding statistics by applying unitary gates on the underlying physical qubits. Our results establish a versatile digital approach to exploring exotic non-Abelian topological states and their associated braiding statistics with current noisy intermediate-scale quantum processors.
翻訳日:2024-04-04 07:17:12 公開日:2024-03-29
# 光に近づいたスパースビュー:非校正点光測光ステレオの実用的なパラダイム

Sparse Views, Near Light: A Practical Paradigm for Uncalibrated Point-light Photometric Stereo ( http://arxiv.org/abs/2404.00098v1 )

ライセンス: Link先を確認
Mohammed Brahimi, Bjoern Haefner, Zhenzhang Ye, Bastian Goldluecke, Daniel Cremers, (参考訳) ニューラルアプローチは、カメラベースの再構築に大きな進歩を示している。 しかし、観察球のかなり密集したサンプリングを必要とするか、あるいは既存のデータセットで事前学習する必要があるため、一般化性が制限される。 対照的に、光度ステレオ(PS)アプローチは、スパース視点下で高品質な再構成を実現する大きな可能性を示している。 しかし、それらは通常退屈な実験室の条件を必要とし、暗い部屋に限定され、しばしば多段化され、蓄積されたエラーに晒されるため、実用的ではない。 これらの欠点に対処するために,実環境におけるスパースな視点から得られた高解像度形状を再構築する,エンドツーエンドのマルチビューPSフレームワークを提案する。 暗室の仮定を緩和し、静環境照明とLED近辺のダイナミックな光の組み合わせを可能にし、実験室の外でのデータ取得を容易にする。 実験による検証では、スパース視点の状況において、既存のベースラインアプローチよりも大きなマージンで優れていることが確認された。 これにより、暗室から現実世界に高精度な3D再構成を実現すると同時に、適切なデータキャプチャの複雑さを維持できる。

Neural approaches have shown a significant progress on camera-based reconstruction. But they require either a fairly dense sampling of the viewing sphere, or pre-training on an existing dataset, thereby limiting their generalizability. In contrast, photometric stereo (PS) approaches have shown great potential for achieving high-quality reconstruction under sparse viewpoints. Yet, they are impractical because they typically require tedious laboratory conditions, are restricted to dark rooms, and often multi-staged, making them subject to accumulated errors. To address these shortcomings, we propose an end-to-end uncalibrated multi-view PS framework for reconstructing high-resolution shapes acquired from sparse viewpoints in a real-world environment. We relax the dark room assumption, and allow a combination of static ambient lighting and dynamic near LED lighting, thereby enabling easy data capture outside the lab. Experimental validation confirms that it outperforms existing baseline approaches in the regime of sparse viewpoints by a large margin. This allows to bring high-accuracy 3D reconstruction from the dark room to the real world, while maintaining a reasonable data capture complexity.
翻訳日:2024-04-04 07:17:12 公開日:2024-03-29
# ロバストマルコフ決定過程における効率およびシャープオフポリティ評価

Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes ( http://arxiv.org/abs/2404.00099v1 )

ライセンス: Link先を確認
Andrew Bennett, Nathan Kallus, Miruna Oprescu, Wen Sun, Kaiwen Wang, (参考訳) 我々は,マルコフ決定過程 (MDP) に対する最善かつ最悪の摂動の下での政策評価について検討し,同じ政策であっても異なる政策であっても,元のMDPからの遷移観測を条件として検討した。 これは、例えば、未測定のコンバウンディング、分散シフト、あるいは敵環境による、歴史的環境と将来の環境のシフトの可能性において重要な問題である。 本稿では、ある乗法係数またはその相反係数の遷移カーネル密度を変更可能な摂動モデルを提案し、無限水平 RL への単一ステップ決定のための古典的限界感度モデル(MSM)を拡張した。 我々は,このモデルの下での政策値の鋭い境界,すなわち,元のMDPからの遷移観測によって与えられる最も狭い境界を特徴付け,これらの境界をそのような遷移観測から推定する。 半パラメトリック的に効率的であり、最悪のQ-関数のようなある種のニュアンス関数が遅い非パラメトリック速度で推定されたとしても、そのように保たれている。 また、漸近的に正規であり、ウォルドの信頼区間を用いた容易に統計的推測を可能にする。 さらに、あるニュアンスを不整合に見積もった場合、我々は依然として有効であると見積もるが、おそらく政策値の鋭い境界は持たない。 これらの性質を数値シミュレーションで検証する。 環境変化の会計は、列車から試験(腐食性)、ニュアンス関数推定(直交性)に敏感であること、そして(推論)から学ぶための有限サンプルしか持たないことが、信頼性と信頼性のある政策評価をもたらす。

We study evaluating a policy under best- and worst-case perturbations to a Markov decision process (MDP), given transition observations from the original MDP, whether under the same or different policy. This is an important problem when there is the possibility of a shift between historical and future environments, due to e.g. unmeasured confounding, distributional shift, or an adversarial environment. We propose a perturbation model that can modify transition kernel densities up to a given multiplicative factor or its reciprocal, which extends the classic marginal sensitivity model (MSM) for single time step decision making to infinite-horizon RL. We characterize the sharp bounds on policy value under this model, that is, the tightest possible bounds given by the transition observations from the original MDP, and we study the estimation of these bounds from such transition observations. We develop an estimator with several appealing guarantees: it is semiparametrically efficient, and remains so even when certain necessary nuisance functions such as worst-case Q-functions are estimated at slow nonparametric rates. It is also asymptotically normal, enabling easy statistical inference using Wald confidence intervals. In addition, when certain nuisances are estimated inconsistently we still estimate a valid, albeit possibly not sharp bounds on the policy value. We validate these properties in numeric simulations. The combination of accounting for environment shifts from train to test (robustness), being insensitive to nuisance-function estimation (orthogonality), and accounting for having only finite samples to learn from (inference) together leads to credible and reliable policy evaluation.
翻訳日:2024-04-04 07:17:12 公開日:2024-03-29
# PikeLPN:低精度ニューラルネットワークの不効率の軽減

PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks ( http://arxiv.org/abs/2404.00103v1 )

ライセンス: Link先を確認
Marina Neseem, Conor McCullough, Randy Hsin, Chas Leichner, Shan Li, In Suk Chong, Andrew G. Howard, Lukasz Lew, Sherief Reda, Ville-Mikko Rautio, Daniele Moro, (参考訳) 低精度量子化は、ニューラルネットワーク最適化における有効性として認識されている。 本稿では,パラメータ化アクティベーション関数やバッチ正規化,量子化スケーリングなどのレイヤで有効な非量子化要素演算が,低精度モデルの推論コストを支配していることを示す。 これらの非量子化要素演算は、一般に、Arithmetic Computation Effort (ACE)のようなSOTA効率指標で見過ごされる。 本稿では,数量化モデルの推論コストとMLハードウェア上でのエネルギー消費との整合性を向上するACEv2を提案する。 さらに、要素演算と乗算演算の両方に量子化を適用することにより、これらの効率問題に対処するモデルであるPikeLPNを導入する。 特に,QuantNormと呼ばれるバッチ正規化層に対して,モデル性能を損なうことなく,バッチ正規化パラメータを定量化する新しい量子化手法を提案する。 さらに、量子化スケーリングパラメータを量子化するDouble Quantizationを提案する。 さらに、分割可能な畳み込み層における分布ミスマッチの問題を、低精度で定量化できる分布不均一量子化を導入して解決する。 PikeLPNはSOTAの低精度モデルと比較して最大3倍の効率向上を実現した。

Low-precision quantization is recognized for its efficacy in neural network optimization. Our analysis reveals that non-quantized elementwise operations which are prevalent in layers such as parameterized activation functions, batch normalization, and quantization scaling dominate the inference cost of low-precision models. These non-quantized elementwise operations are commonly overlooked in SOTA efficiency metrics such as Arithmetic Computation Effort (ACE). In this paper, we propose ACEv2 - an extended version of ACE which offers a better alignment with the inference cost of quantized models and their energy consumption on ML hardware. Moreover, we introduce PikeLPN, a model that addresses these efficiency issues by applying quantization to both elementwise operations and multiply-accumulate operations. In particular, we present a novel quantization technique for batch normalization layers named QuantNorm which allows for quantizing the batch normalization parameters without compromising the model performance. Additionally, we propose applying Double Quantization where the quantization scaling parameters are quantized. Furthermore, we recognize and resolve the issue of distribution mismatch in Separable Convolution layers by introducing Distribution-Heterogeneous Quantization which enables quantizing them to low-precision. PikeLPN achieves Pareto-optimality in efficiency-accuracy trade-off with up to 3X efficiency improvement compared to SOTA low-precision models.
翻訳日:2024-04-04 07:17:12 公開日:2024-03-29
# 咬合ハンドリングによる直交核融合によるロバストアンサンブル人物再同定

Robust Ensemble Person Re-Identification via Orthogonal Fusion with Occlusion Handling ( http://arxiv.org/abs/2404.00107v1 )

ライセンス: Link先を確認
Syeda Nyma Ferdous, Xin Li, (参考訳) オークルージョンは、ポーズの多様性と外観の変化の結果、個人再識別(ReID)における大きな課題の1つとして残されている。 隠蔽を意識したRe-IDの堅牢性を改善するために新しいアーキテクチャを開発するには、特に低解像度のエッジカメラにおいて、新しい洞察が必要である。 本稿では,CNN と Transformer アーキテクチャを併用し,ロバストな特徴表現を生成する深層アンサンブルモデルを提案する。 手動で隠蔽領域をラベル付けすることなく、ロバストなRe-IDを実現するため、任意形状の隠蔽領域とロバストな特徴表現との類似性から、アンサンブル学習に基づくアプローチを提案する。 直交原理を用いて,マスク付きオートエンコーダ(MAE)とグローバルな特徴フュージョンを用いて,ロバストな人物識別を行う。 さらに,閉鎖領域に頑健な特徴空間を学習できる部分閉塞認識変換器を提案する。 いくつかのRe-IDデータセットを用いて,OFOHを用いた直交融合モデルの有効性を示す実験結果が報告された。 競合手法と比較して,提案手法は有能なランク1およびmAP性能を実現している。

Occlusion remains one of the major challenges in person reidentification (ReID) as a result of the diversity of poses and the variation of appearances. Developing novel architectures to improve the robustness of occlusion-aware person Re-ID requires new insights, especially on low-resolution edge cameras. We propose a deep ensemble model that harnesses both CNN and Transformer architectures to generate robust feature representations. To achieve robust Re-ID without the need to manually label occluded regions, we propose to take an ensemble learning-based approach derived from the analogy between arbitrarily shaped occluded regions and robust feature representation. Using the orthogonality principle, our developed deep CNN model makes use of masked autoencoder (MAE) and global-local feature fusion for robust person identification. Furthermore, we present a part occlusion-aware transformer capable of learning feature space that is robust to occluded regions. Experimental results are reported on several Re-ID datasets to show the effectiveness of our developed ensemble model named orthogonal fusion with occlusion handling (OFOH). Compared to competing methods, the proposed OFOH approach has achieved competent rank-1 and mAP performance.
翻訳日:2024-04-04 07:17:12 公開日:2024-03-29
# ラベルの多様性を考慮した効率的なデータフリーモデルステアリング

Efficient Data-Free Model Stealing with Label Diversity ( http://arxiv.org/abs/2404.00108v1 )

ライセンス: Link先を確認
Yiyong Liu, Rui Wen, Michael Backes, Yang Zhang, (参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)は、マシンラーニングモデルをAPI形式でクエリすることを可能にする。 このインターフェースは機械学習ベースのアプリケーションの増殖を促進する一方で、モデル盗難攻撃のための攻撃面を導入している。 既存のモデル盗難攻撃は、有効性を保ちながら、攻撃想定をデータフリー設定に緩和した。 しかしながら、これらのメソッドは複雑で、いくつかのコンポーネントで構成されており、攻撃が実際に依存するコアを曖昧にしている。 本稿では,多様性の観点からモデルを盗む問題を再考し,生成したデータサンプルをすべてのクラスに多様性を持たせることが,攻撃性能を向上させる重要なポイントであることを実証する。 この予想に基づき、我々は簡易な攻撃フレームワークを提供する。 我々は,攻撃の有効性を評価することによって,我々の予想を実証的に示し,実験結果から,我々のアプローチが最先端の手法と比較して同等あるいはさらに優れた性能を達成できることが示されている。 さらに,冗長なコンポーネントが欠如していることから,攻撃効率とクエリ予算の利点を示す。

Machine learning as a Service (MLaaS) allows users to query the machine learning model in an API manner, which provides an opportunity for users to enjoy the benefits brought by the high-performance model trained on valuable data. This interface boosts the proliferation of machine learning based applications, while on the other hand, it introduces the attack surface for model stealing attacks. Existing model stealing attacks have relaxed their attack assumptions to the data-free setting, while keeping the effectiveness. However, these methods are complex and consist of several components, which obscure the core on which the attack really depends. In this paper, we revisit the model stealing problem from a diversity perspective and demonstrate that keeping the generated data samples more diverse across all the classes is the critical point for improving the attack performance. Based on this conjecture, we provide a simplified attack framework. We empirically signify our conjecture by evaluating the effectiveness of our attack, and experimental results show that our approach is able to achieve comparable or even better performance compared with the state-of-the-art method. Furthermore, benefiting from the absence of redundant components, our method demonstrates its advantages in attack efficiency and query budget.
翻訳日:2024-04-04 07:17:12 公開日:2024-03-29
# Deepfake Sentry: レジリエンス検出と一般化のためのハーネスングアンサンブルインテリジェンス

Deepfake Sentry: Harnessing Ensemble Intelligence for Resilient Detection and Generalisation ( http://arxiv.org/abs/2404.00114v1 )

ライセンス: Link先を確認
Liviu-Daniel Ştefan, Dan-Cristian Stanciu, Mihai Dogariu, Mihai Gabriel Constantin, Andrei Cosmin Jitaru, Bogdan Ionescu, (参考訳) GAN(Generative Adversarial Networks)の最近の進歩により,高画質なフォトリアリスティック画像生成が可能になった。 しかし、このような生成メディアの悪意ある使用は、視覚的誤報に関する懸念を引き起こしている。 ディープフェイク検出研究は高い精度を示してきたが、検出対策における生成技術や敵の反復の進歩には弱い。 そこで本研究では,人工指紋をモデルに導入する,能動的かつ持続可能なディープフェイクトレーニング拡張ソリューションを提案する。 我々は,ディープフェイクジェネレータモデルによって導入された人工物の効果を模倣するオートエンコーダのプールを組み込んだアンサンブル学習手法を用いて,これを実現する。 提案したアンサンブル・オートエンコーダに基づくデータ強化学習手法は、一般化、ノイズ、ぼかし、シャープネスエンハンスメント、アフィン変換などの基本データ摂動に対する耐性、JPEGなどの一般的な損失圧縮アルゴリズムに対するレジリエンス、敵攻撃に対する耐性の向上などの点で改善されている。

Recent advancements in Generative Adversarial Networks (GANs) have enabled photorealistic image generation with high quality. However, the malicious use of such generated media has raised concerns regarding visual misinformation. Although deepfake detection research has demonstrated high accuracy, it is vulnerable to advances in generation techniques and adversarial iterations on detection countermeasures. To address this, we propose a proactive and sustainable deepfake training augmentation solution that introduces artificial fingerprints into models. We achieve this by employing an ensemble learning approach that incorporates a pool of autoencoders that mimic the effect of the artefacts introduced by the deepfake generator models. Experiments on three datasets reveal that our proposed ensemble autoencoder-based data augmentation learning approach offers improvements in terms of generalisation, resistance against basic data perturbations such as noise, blurring, sharpness enhancement, and affine transforms, resilience to commonly used lossy compression algorithms such as JPEG, and enhanced resistance against adversarial attacks.
翻訳日:2024-04-04 07:17:12 公開日:2024-03-29
# AgileFormer: 医療画像セグメンテーションのための空間的アジャイルトランスフォーマーUNet

AgileFormer: Spatially Agile Transformer UNet for Medical Image Segmentation ( http://arxiv.org/abs/2404.00122v1 )

ライセンス: Link先を確認
Peijie Qiu, Jin Yang, Sayantan Kumar, Soumyendu Sekhar Ghosh, Aristeidis Sotiras, (参考訳) 過去数十年間、ディープニューラルネットワーク、特に畳み込みニューラルネットワークは、様々な医療画像セグメンテーションタスクにおいて最先端のパフォーマンスを実現してきた。 近年,視覚変換器(ViT)の導入により,深部セグメンテーションモデルの景観が大きく変化している。 優れたパフォーマンスとスケーラビリティによって、ViTに注目が集まっている。 しかし、視覚変換器を用いたUNetセグメンテーションモデル(ViT-UNet)の現在の設計は、医用画像セグメンテーションタスクに関心のある物体の不均一な外観(例えば、形状やサイズ)を効果的に扱えないと論じる。 この課題に対処するため、VT-UNetに空間動的成分を導入するための構造的アプローチを提案する。 この適応により、モデルは様々な外観のターゲットオブジェクトの特徴を効果的に捉えることができる。 これは3つの主要なコンポーネントによって達成される。 (i)} 変形可能なパッチ埋め込み; \textbf{ (ii)空間的動的マルチヘッドアテンション; \textbf{ (iii) 変形可能な位置符号化。 これらのコンポーネントは、AgileFormerと呼ばれる新しいアーキテクチャに統合されました。 AgileFormerは、医療画像セグメンテーション用に設計された空間的にアジャイルなViT-UNetである。 公開データセットを用いた3つのセグメンテーションタスクの実験により,提案手法の有効性が示された。 コードは \href{https://github.com/sotiraslab/AgileFormer}{https://github.com/sotiraslab/AgileFormer} で公開されている。

In the past decades, deep neural networks, particularly convolutional neural networks, have achieved state-of-the-art performance in a variety of medical image segmentation tasks. Recently, the introduction of the vision transformer (ViT) has significantly altered the landscape of deep segmentation models. There has been a growing focus on ViTs, driven by their excellent performance and scalability. However, we argue that the current design of the vision transformer-based UNet (ViT-UNet) segmentation models may not effectively handle the heterogeneous appearance (e.g., varying shapes and sizes) of objects of interest in medical image segmentation tasks. To tackle this challenge, we present a structured approach to introduce spatially dynamic components to the ViT-UNet. This adaptation enables the model to effectively capture features of target objects with diverse appearances. This is achieved by three main components: \textbf{(i)} deformable patch embedding; \textbf{(ii)} spatially dynamic multi-head attention; \textbf{(iii)} deformable positional encoding. These components were integrated into a novel architecture, termed AgileFormer. AgileFormer is a spatially agile ViT-UNet designed for medical image segmentation. Experiments in three segmentation tasks using publicly available datasets demonstrated the effectiveness of the proposed method. The code is available at \href{https://github.com/sotiraslab/AgileFormer}{https://github.com/sotiraslab/AgileFormer}.
翻訳日:2024-04-04 07:17:12 公開日:2024-03-29
# ソラニ・クルド語における音声のサブダイレクト認識

Where Are You From? Let Me Guess! Subdialect Recognition of Speeches in Sorani Kurdish ( http://arxiv.org/abs/2404.00124v1 )

ライセンス: Link先を確認
Sana Isam, Hossein Hassani, (参考訳) Sorani Kurdishサブディレクトを分類することは、公開データセットやソーシャルメディアやWebサイトなどの信頼できるリソースがデータ収集のために必要になるため、課題となる。 我々は,異なる年齢層,性別,学歴,職業の母語話者と接続し,この問題に対処するため,各都市・村への現地訪問を行った。 ライフスタイル,背景,趣味,趣味,趣味,休暇,ライフレッスンなど,さまざまなトピックに関する会話をしながら,彼らの声を録音した。 研究対象地域はイラクのクルディスタン地方である。 その結果、107件のインタビューから29時間16分40秒の音声録音を蓄積し、6件のサブダイアレクトを含むアンバランスなデータセットを構成した。 その後、ANN、CNN、RNN-LSTMの3つのディープラーニングモデルを適用した。 トラックの持続時間、データセット分割、オーバーサンプリングやアンダーサンプリングといった不均衡なデータセットハンドリング技術など、さまざまな構成について検討した。 225回(225回) 実験を行い, 実験結果について検討した。 その結果,RNN-LSTMは96%の精度で他の手法よりも優れていた。 CNNは93%、ANNは75%の精度を達成した。 これら3モデルはすべて、バランスの取れたデータセットに適用した場合のパフォーマンス向上を示しました。 将来の研究は、他のクルド語方言を含むさらなる研究の方向性を探求することができる。

Classifying Sorani Kurdish subdialects poses a challenge due to the need for publicly available datasets or reliable resources like social media or websites for data collection. We conducted field visits to various cities and villages to address this issue, connecting with native speakers from different age groups, genders, academic backgrounds, and professions. We recorded their voices while engaging in conversations covering diverse topics such as lifestyle, background history, hobbies, interests, vacations, and life lessons. The target area of the research was the Kurdistan Region of Iraq. As a result, we accumulated 29 hours, 16 minutes, and 40 seconds of audio recordings from 107 interviews, constituting an unbalanced dataset encompassing six subdialects. Subsequently, we adapted three deep learning models: ANN, CNN, and RNN-LSTM. We explored various configurations, including different track durations, dataset splitting, and imbalanced dataset handling techniques such as oversampling and undersampling. Two hundred and twenty-five(225) experiments were conducted, and the outcomes were evaluated. The results indicated that the RNN-LSTM outperforms the other methods by achieving an accuracy of 96%. CNN achieved an accuracy of 93%, and ANN 75%. All three models demonstrated improved performance when applied to balanced datasets, primarily when we followed the oversampling approach. Future studies can explore additional future research directions to include other Kurdish dialects.
翻訳日:2024-04-04 07:17:12 公開日:2024-03-29
# メムリスタに基づく軽量暗号化

Memristor-Based Lightweight Encryption ( http://arxiv.org/abs/2404.00125v1 )

ライセンス: Link先を確認
Muhammad Ali Siddiqi, Jan Andrés Galvan Hernández, Anteneh Gebregiorgis, Rajendra Bishnoi, Christos Strydis, Said Hamdioui, Mottaqiallah Taouil, (参考訳) 次世代のパーソナライズされた医療機器は、ユーザーの受け入れ性を改善するために極端に小型化されている。 しかし、これらのアルゴリズムはエネルギー消費で悪名高いため、利用可能なターゲット技術を用いて暗号プリミティブを組み込むことは困難である。 さらに、サイドチャネル攻撃に対するこれらのスキームを強化することで、デバイスオーバーヘッドが増大する。 そのため、新興技術における有効な代替手段が求められている。 本研究では,軽量暗号化の実装にmemristorを使用する可能性について検討する。 1T1R構成を用いて40nmのRRAMベースのGIFT暗号の実装を提案し,CMOSのみの実装の消費電力の約半分を示す。 さらに重要なことは、その非揮発性で再構成可能な置換箱は、サイドチャネル攻撃に対するエネルギー効率のよい防御機構を提供する。 完全な暗号は0.0034 mm$^2$で、128ビットのブロックを暗号化すると242pJを消費する。

Next-generation personalized healthcare devices are undergoing extreme miniaturization in order to improve user acceptability. However, such developments make it difficult to incorporate cryptographic primitives using available target technologies since these algorithms are notorious for their energy consumption. Besides, strengthening these schemes against side-channel attacks further adds to the device overheads. Therefore, viable alternatives among emerging technologies are being sought. In this work, we investigate the possibility of using memristors for implementing lightweight encryption. We propose a 40-nm RRAM-based GIFT-cipher implementation using a 1T1R configuration with promising results; it exhibits roughly half the energy consumption of a CMOS-only implementation. More importantly, its non-volatile and reconfigurable substitution boxes offer an energy-efficient protection mechanism against side-channel attacks. The complete cipher takes 0.0034 mm$^2$ of area, and encrypting a 128-bit block consumes a mere 242 pJ.
翻訳日:2024-04-04 07:17:12 公開日:2024-03-29
# 擬似アンタングルメントはチープではない

Pseudoentanglement Ain't Cheap ( http://arxiv.org/abs/2404.00126v1 )

ライセンス: Link先を確認
Sabee Grewal, Vishnu Iyer, William Kretschmer, Daniel Liang, (参考訳) エントロピーの$t$ビットのギャップを持つ任意の擬アンタングル状態アンサンブルは、準備するために$\Omega(t)$非クリフォードゲートが必要であることを示す。 この境界は、線形時間量子セキュア擬ランドム関数が存在する場合、多元対数因子に強く依存する。 我々の結果は、任意の量子ビットのカットにわたる量子状態の絡み合いエントロピーを推定する多項式時間アルゴリズムから従う。 パウリ作用素によって安定化された$n$-qubit状態上で実行されるとき、我々のアルゴリズムは真のエンタングルメントエントロピーの$\frac{t}{2}$ビットの加算係数内にある推定を生成する。

We show that any pseudoentangled state ensemble with a gap of $t$ bits of entropy requires $\Omega(t)$ non-Clifford gates to prepare. This bound is tight up to polylogarithmic factors if linear-time quantum-secure pseudorandom functions exist. Our result follows from a polynomial-time algorithm to estimate the entanglement entropy of a quantum state across any cut of qubits. When run on an $n$-qubit state that is stabilized by at least $2^{n-t}$ Pauli operators, our algorithm produces an estimate that is within an additive factor of $\frac{t}{2}$ bits of the true entanglement entropy.
翻訳日:2024-04-04 07:17:12 公開日:2024-03-29
# FISBe: 長距離薄フィラメント構造のインスタンスセグメンテーションのための実世界のベンチマークデータセット

FISBe: A real-world benchmark dataset for instance segmentation of long-range thin filamentous structures ( http://arxiv.org/abs/2404.00130v1 )

ライセンス: Link先を確認
Lisa Mais, Peter Hirsch, Claire Managan, Ramya Kandarpa, Josef Lorenz Rumberger, Annika Reinke, Lena Maier-Hein, Gudrun Ihrke, Dagmar Kainmueller, (参考訳) 神経系の体積光顕微鏡画像におけるニューロンのインスタンスセグメンテーションは、細胞解像度での神経回路の結合機能的および形態学的解析を容易にすることにより、神経科学における画期的な研究を可能にする。 個々のニューロンは、長い配列、細いフィラメント、そして広範囲に分岐する形態を持ち、複数のニューロンは密に織り込まれ、部分的な体積効果、光顕微鏡に固有の不均一な照明とノイズは、局所的なアンタングリングを著しく阻害するだけでなく、個々のニューロンの長距離追跡も妨げている。 これらの特性は、機械学習研究における現在の重要な課題を反映している。 それぞれの方法論の研究はばかばかしいが、現在までの手法は一般的に合成データセット上でベンチマークされる。 このギャップに対処するため、FlyLight Instance Segmentation Benchmark (FISBe)データセットをリリースしました。 さらに、下流分析に関して有意義であるように設計されたベンチマークのための一連のインスタンスセグメンテーションメトリクスを定義した。 最後に、長距離データの依存関係をキャプチャする方法論に関する機械学習の分野を前進させ、基礎的な神経科学における科学的な発見を促進するために、競争を開始するための3つのベースラインを提供します。

Instance segmentation of neurons in volumetric light microscopy images of nervous systems enables groundbreaking research in neuroscience by facilitating joint functional and morphological analyses of neural circuits at cellular resolution. Yet said multi-neuron light microscopy data exhibits extremely challenging properties for the task of instance segmentation: Individual neurons have long-ranging, thin filamentous and widely branching morphologies, multiple neurons are tightly inter-weaved, and partial volume effects, uneven illumination and noise inherent to light microscopy severely impede local disentangling as well as long-range tracing of individual neurons. These properties reflect a current key challenge in machine learning research, namely to effectively capture long-range dependencies in the data. While respective methodological research is buzzing, to date methods are typically benchmarked on synthetic datasets. To address this gap, we release the FlyLight Instance Segmentation Benchmark (FISBe) dataset, the first publicly available multi-neuron light microscopy dataset with pixel-wise annotations. In addition, we define a set of instance segmentation metrics for benchmarking that we designed to be meaningful with regard to downstream analyses. Lastly, we provide three baselines to kick off a competition that we envision to both advance the field of machine learning regarding methodology for capturing long-range data dependencies, and facilitate scientific discovery in basic neuroscience.
翻訳日:2024-04-04 07:17:12 公開日:2024-03-29
# 胎児拡散:条件付き拡散モデルを用いた3次元胎児MRI合成

FetalDiffusion: Pose-Controllable 3D Fetal MRI Synthesis with Conditional Diffusion Model ( http://arxiv.org/abs/2404.00132v1 )

ライセンス: Link先を確認
Molin Zhang, Polina Golland, Patricia Ellen Grant, Elfar Adalsteinsson, (参考訳) 胎児MRIの質は、予測不可能で実質的な胎児運動に大きく影響され、高速な取得シーケンスが採用されてもアーティファクトの導入につながる。 体積型EPI胎児MRIにおける3次元リアルタイムポーズ推定手法の開発は、胎児の動きのモニタリングと予測のための有望な道を開く。 実際の胎児MRI訓練画像の数が限られていることによる胎児のポーズ推定の課題は、取得した胎児MRIが適切なポーズを欠いている場合に、モデル一般化を妨げる。 本研究では,条件付き拡散モデルを用いた3次元合成胎児MRIの新規なアプローチであるFetalDiffusionを紹介する。 さらに、モデル性能を高めるために補助ポーズレベル損失が採用される。 本研究は, 高品質な合成胎児MRI画像の精度, 認識可能な胎児のポーズを再現し, 実胎児MRIと比較することにより, 本モデルの有効性を実証するものである。 さらに, 人工胎児MR画像の統合により胎児のポーズ推定モデルの性能が向上し, 特に実検データ数が制限された場合, PCKは15.4%増加し, 平均誤差は50.2%減少した。 すべての実験は、32GBのV100 GPUで行われます。 本手法は, リアルタイム追跡モデルの改善を約束し, 胎児運動の問題をより効果的に解決する。

The quality of fetal MRI is significantly affected by unpredictable and substantial fetal motion, leading to the introduction of artifacts even when fast acquisition sequences are employed. The development of 3D real-time fetal pose estimation approaches on volumetric EPI fetal MRI opens up a promising avenue for fetal motion monitoring and prediction. Challenges arise in fetal pose estimation due to limited number of real scanned fetal MR training images, hindering model generalization when the acquired fetal MRI lacks adequate pose. In this study, we introduce FetalDiffusion, a novel approach utilizing a conditional diffusion model to generate 3D synthetic fetal MRI with controllable pose. Additionally, an auxiliary pose-level loss is adopted to enhance model performance. Our work demonstrates the success of this proposed model by producing high-quality synthetic fetal MRI images with accurate and recognizable fetal poses, comparing favorably with in-vivo real fetal MRI. Furthermore, we show that the integration of synthetic fetal MR images enhances the fetal pose estimation model's performance, particularly when the number of available real scanned data is limited resulting in 15.4% increase in PCK and 50.2% reduced in mean error. All experiments are done on a single 32GB V100 GPU. Our method holds promise for improving real-time tracking models, thereby addressing fetal motion issues more effectively.
翻訳日:2024-04-04 07:17:12 公開日:2024-03-29
# Budget-Aware Query Tuning - AutoMLの展望

Budget-aware Query Tuning: An AutoML Perspective ( http://arxiv.org/abs/2404.00137v1 )

ライセンス: Link先を確認
Wentao Wu, Chi Wang, (参考訳) 現代のデータベースシステムは、入力クエリの優れた実行計画を作成するために、コストベースのクエリオプティマイザに依存している。 このようなクエリオプティマイザは、候補クエリ実行計画のコストを見積もるために、コストモデルに依存する。 コストモデルは、コスト単位のセットからクエリ実行コストまでの関数を表し、各コスト単位は、ある種のクエリ処理操作(テーブルスキャンやジョインなど)を実行する単位コストを指定する。 これらのコスト単位は伝統的に定数と見なされ、その値はデータベースシステムが実行されているプラットフォーム構成にのみ依存するが、データベースシステムによって処理されるクエリには不変である。 本稿では,これらのコスト単位を変数として考えることによって,この古典的視点に挑戦する。 コスト単位の値を変えることで、コスト単位を定数として見る場合、クエリオプティマイザが返すデフォルトのクエリプランを大幅に上回るクエリプランを得ることができることを示す。 本稿では,このコストユニットチューニングプロセス "クエリチューニング" (QT) を,AutoMLにおけるよく知られたハイパーパラメータ最適化 (HPO) 問題と類似していることを示す。 結果として、最先端のHPO技術はQTにも適用できる。 特定の予算内でQTに費やされたトータル時間を制限することで現実的に望ましい、任意の時間的チューニングの文脈でQT問題を調査します。 我々はさらに、単一クエリのチューニングから、複数のクエリでワークロードをチューニングすることまでの研究を拡張し、この一般化された問題予算対応ワークロードチューニング(WT)と呼ばれ、ワークロード全体の実行時間を最小化することを目的としています。 WTは、与えられた時間予算内で個別のクエリチューニングをさらに優先順位付けする必要があるため、より難しい。 我々はQTとWTの双方に対するソリューションを提案し、ベンチマークと実ワークロードの両方を用いて実験的な評価を行い、提案手法の有効性を実証する。

Modern database systems rely on cost-based query optimizers to come up with good execution plans for input queries. Such query optimizers rely on cost models to estimate the costs of candidate query execution plans. A cost model represents a function from a set of cost units to query execution cost, where each cost unit specifies the unit cost of executing a certain type of query processing operation (such as table scan or join). These cost units are traditionally viewed as constants, whose values only depend on the platform configuration where the database system runs on top of but are invariant for queries processed by the database system. In this paper, we challenge this classic view by thinking of these cost units as variables instead. We show that, by varying the cost-unit values one can obtain query plans that significantly outperform the default query plans returned by the query optimizer when viewing the cost units as constants. We term this cost-unit tuning process "query tuning" (QT) and show that it is similar to the well-known hyper-parameter optimization (HPO) problem in AutoML. As a result, any state-of-the-art HPO technologies can be applied to QT. We study the QT problem in the context of anytime tuning, which is desirable in practice by constraining the total time spent on QT within a given budget -- we call this problem budget-aware query tuning. We further extend our study from tuning a single query to tuning a workload with multiple queries, and we call this generalized problem budget-aware workload tuning (WT), which aims for minimizing the execution time of the entire workload. WT is more challenging as one needs to further prioritize individual query tuning within the given time budget. We propose solutions to both QT and WT and experimental evaluation using both benchmark and real workloads demonstrates the efficacy of our proposed solutions.
翻訳日:2024-04-04 07:17:12 公開日:2024-03-29
# IoTにおける生成AIのセキュリティリスク

Security Risks Concerns of Generative AI in the IoT ( http://arxiv.org/abs/2404.00139v1 )

ライセンス: Link先を確認
Honghui Xu, Yingshu Li, Olusesi Balogun, Shaoen Wu, Yue Wang, Zhipeng Cai, (参考訳) モノのインターネット(IoT)が、生成的人工知能(AI)とますます交差する時代において、この記事では、この統合に固有の突発的なセキュリティリスクを精査する。 我々は、生成AIがIoTのイノベーションを促進する方法について検討し、生成AIを使用する際のデータ漏洩の可能性と、生成AI技術のIoTエコシステムにおける誤用を分析します。 これらのリスクは、IoTシステムのプライバシと効率を脅かすだけでなく、AI駆動環境における信頼性と安全性に広範な影響を及ぼす。 この記事では、堅牢なセキュリティプロトコルの開発、多層セキュリティアプローチ、AI技術ソリューションの採用など、これらのリスクを軽減するための戦略的アプローチについて論じる。 包括的な分析を通じて、この記事では、AIの進歩を受け入れることと、IoTにおける厳格なセキュリティを確保することの致命的なバランスについて光を当てることを目的としています。

In an era where the Internet of Things (IoT) intersects increasingly with generative Artificial Intelligence (AI), this article scrutinizes the emergent security risks inherent in this integration. We explore how generative AI drives innovation in IoT and we analyze the potential for data breaches when using generative AI and the misuse of generative AI technologies in IoT ecosystems. These risks not only threaten the privacy and efficiency of IoT systems but also pose broader implications for trust and safety in AI-driven environments. The discussion in this article extends to strategic approaches for mitigating these risks, including the development of robust security protocols, the multi-layered security approaches, and the adoption of AI technological solutions. Through a comprehensive analysis, this article aims to shed light on the critical balance between embracing AI advancements and ensuring stringent security in IoT, providing insights into the future direction of these intertwined technologies.
翻訳日:2024-04-04 07:07:01 公開日:2024-03-29
# 信条はプラウザビリティと矛盾するか? : NLPタスクにおける説明可能なAIの実証的研究

Does Faithfulness Conflict with Plausibility? An Empirical Study in Explainable AI across NLP Tasks ( http://arxiv.org/abs/2404.00140v1 )

ライセンス: Link先を確認
Xiaolei Lu, Jianghong Ma, (参考訳) 意思決定AIシステムの解釈を目的とした説明可能性アルゴリズムは、通常、2つの重要な次元のバランスを考える。 1) \textit{faithfulness} ここでは、説明がモデルの推論プロセスを正確に反映する。 2) \textit{plausibility} ここでは、説明がドメインの専門家と一致している。 しかし、疑問が生じる: 忠実さと可否性は本質的に矛盾しているか? 本研究では、選択された説明可能性法と3つのNLPタスク(感情分析、意図検出、トピックラベリング)における専門家レベルの解釈とを総合的に比較することにより、従来の摂動に基づく手法がより忠実で信頼性が高いことを示す。 この結果から,一方の次元を一方の次元に最適化するのではなく,2つの目的を持つ説明可能性アルゴリズムを最適化し,高い精度とユーザアクセシビリティを実現することが示唆された。

Explainability algorithms aimed at interpreting decision-making AI systems usually consider balancing two critical dimensions: 1) \textit{faithfulness}, where explanations accurately reflect the model's inference process. 2) \textit{plausibility}, where explanations are consistent with domain experts. However, the question arises: do faithfulness and plausibility inherently conflict? In this study, through a comprehensive quantitative comparison between the explanations from the selected explainability methods and expert-level interpretations across three NLP tasks: sentiment analysis, intent detection, and topic labeling, we demonstrate that traditional perturbation-based methods Shapley value and LIME could attain greater faithfulness and plausibility. Our findings suggest that rather than optimizing for one dimension at the expense of the other, we could seek to optimize explainability algorithms with dual objectives to achieve high levels of accuracy and user accessibility in their explanations.
翻訳日:2024-04-04 07:07:01 公開日:2024-03-29
# エピソード的ナラティブを大規模に分類する - 偽のアラームと誤ったつながり

Classifying Conspiratorial Narratives At Scale: False Alarms and Erroneous Connections ( http://arxiv.org/abs/2404.00141v1 )

ライセンス: Link先を確認
Ahmad Diab, Rr. Nefriana, Yu-Ru Lin, (参考訳) オンラインでの議論は、しばしば陰謀論を巻き込み、それらに対する信念の拡散に寄与する。 しかし、陰謀論に関する議論がすべて促進するわけではない。 既存の研究は、単純なプロキシを頼りにしたり、陰謀論を識別するための一連の信号に焦点を合わせてきた。 この研究は、陰謀論に関する議論を、陰謀説に関する著者の見解に基づいて分類するための一般的なスキームを確立しており、これは、エージェント、アクション、客観的といった物語的要素によって明示的に表現されるか、または、化学や新世界秩序のような既知の理論を参照することによって暗黙的に表現される。 我々は,オンラインCTを分類するためのBERTベースのモデルをトレーニングするために,人間ラベル付き地中真理を活用し,オンラインコンスピラリアルコンテンツを検出するための生成事前学習トランスフォーママシン(GPT)と比較した。 GPTの表現性や文脈的理解における強みは知られているが,本研究は論理的推論に重大な欠陥を呈し,また分類器の強みに匹敵する強みを示した。 我々は,最も活発な陰謀関連Redditフォーラムの投稿を用いた最初の大規模分類研究を行い,その3分の1が肯定的であることがわかった。 この研究は、文脈的理解を必要とするタスクにおいて、大規模言語モデルの潜在的な応用に光を当てている。

Online discussions frequently involve conspiracy theories, which can contribute to the proliferation of belief in them. However, not all discussions surrounding conspiracy theories promote them, as some are intended to debunk them. Existing research has relied on simple proxies or focused on a constrained set of signals to identify conspiracy theories, which limits our understanding of conspiratorial discussions across different topics and online communities. This work establishes a general scheme for classifying discussions related to conspiracy theories based on authors' perspectives on the conspiracy belief, which can be expressed explicitly through narrative elements, such as the agent, action, or objective, or implicitly through references to known theories, such as chemtrails or the New World Order. We leverage human-labeled ground truth to train a BERT-based model for classifying online CTs, which we then compared to the Generative Pre-trained Transformer machine (GPT) for detecting online conspiratorial content. Despite GPT's known strengths in its expressiveness and contextual understanding, our study revealed significant flaws in its logical reasoning, while also demonstrating comparable strengths from our classifiers. We present the first large-scale classification study using posts from the most active conspiracy-related Reddit forums and find that only one-third of the posts are classified as positive. This research sheds light on the potential applications of large language models in tasks demanding nuanced contextual comprehension.
翻訳日:2024-04-04 07:07:01 公開日:2024-03-29
# キラル導波路量子電磁力学における駆動散逸性リモート絡み合いの損失レジリエンス

Loss resilience of driven-dissipative remote entanglement in chiral waveguide quantum electrodynamics ( http://arxiv.org/abs/2404.00142v1 )

ライセンス: Link先を確認
Abdullah Irfan, Mingxing Yao, Andrew Lingenfelter, Xi Cao, Aashish A. Clerk, Wolfgang Pfaff, (参考訳) オープン量子システムにおける絡み合いの限界を確立することは根本的な関心事であり、量子情報科学への応用に強い意味を持つ。 本稿では,遠隔量子ビット間の絡み合い安定化の限界について検討する。 我々は, カイラル導波路に結合した遠隔クビット間の駆動散逸絡の損失抵抗について理論的に検討した。 2つの駆動量子ビットに1対の記憶量子ビットを結合することにより、定常状態が、導波路に結合された2つの駆動量子ビットで達成できるものよりも高いエンタングルメントの度合いを示すように調整できることが分かる。 駆動された量子ビットの絡み合いの度合いを下げることで、蓄えられた量子ビット間の絡み合いが導波路損失に対してよりレジリエンスになることを示す。 我々の解析的および数値的な結果は、導波路損失が、この駆動散逸系における絡み合いの程度をいかに制限するかについての洞察を与え、例えば超伝導回路を用いた実験室における絡み合い安定化のための重要なガイダンスを提供する。

Establishing limits of entanglement in open quantum systems is a problem of fundamental interest, with strong implications for applications in quantum information science. Here, we study limits of entanglement stabilization between remote qubits. We theoretically investigate the loss resilience of driven-dissipative entanglement between remote qubits coupled to a chiral waveguide. We find that by coupling a pair of storage qubits to the two driven qubits, the steady state can be tailored such that the storage qubits show a degree of entanglement that is higher than what can be achieved with only two driven qubits coupled to the waveguide. By reducing the degree of entanglement of the driven qubits, we show that the entanglement between the storage qubits becomes more resilient to waveguide loss. Our analytical and numerical results offer insights into how waveguide loss limits the degree of entanglement in this driven-dissipative system, and offers important guidance for remote entanglement stabilization in the laboratory, for example using superconducting circuits.
翻訳日:2024-04-04 07:07:01 公開日:2024-03-29
# オンライン生成体験を活用するマルチロボットマニピュレーションのための検索ベース計画の高速化

Accelerating Search-Based Planning for Multi-Robot Manipulation by Leveraging Online-Generated Experiences ( http://arxiv.org/abs/2404.00143v1 )

ライセンス: Link先を確認
Yorai Shaoul, Itamar Mishani, Maxim Likhachev, Jiaoyang Li, (参考訳) ロボット操作におけるエキサイティングなフロンティアは、一度に複数のアームを使用することである。 しかし、並列動作の計画は、現在の手法による難しい作業である。 高次元複合状態空間は、多くのよく知られた動き計画アルゴリズムを惹きつけることができる。 近年,マルチエージェントパスフィンディング (MAPF) アルゴリズムは離散2次元領域において有望であり,厳密な保証を提供する。 しかし、MAPFで広く使われているコンフリクトベースの手法は、効率的なシングルエージェントモーションプランナーを前提としている。 このことは、構成空間の高次元性や衝突チェックに伴う計算ボトルネックのため、この仮定が成立しない操作にそれらを適用する際の課題となる。 そこで本研究では,反復的かつ漸進的な性質を活かして,競合ベースの探索アルゴリズムを高速化するアプローチを提案する。 提案手法は, 完全性および有界な準最適保証を保ち, 最大10個のロボットアームを用いた実験により実効性を示す。

An exciting frontier in robotic manipulation is the use of multiple arms at once. However, planning concurrent motions is a challenging task using current methods. The high-dimensional composite state space renders many well-known motion planning algorithms intractable. Recently, Multi-Agent Path-Finding (MAPF) algorithms have shown promise in discrete 2D domains, providing rigorous guarantees. However, widely used conflict-based methods in MAPF assume an efficient single-agent motion planner. This poses challenges in adapting them to manipulation cases where this assumption does not hold, due to the high dimensionality of configuration spaces and the computational bottlenecks associated with collision checking. To this end, we propose an approach for accelerating conflict-based search algorithms by leveraging their repetitive and incremental nature -- making them tractable for use in complex scenarios involving multi-arm coordination in obstacle-laden environments. We show that our method preserves completeness and bounded sub-optimality guarantees, and demonstrate its practical efficacy through a set of experiments with up to 10 robotic arms.
翻訳日:2024-04-04 07:07:01 公開日:2024-03-29
# 統合失調症診断のための解釈可能な多モードMRI統合フレームワーク

An Interpretable Cross-Attentive Multi-modal MRI Fusion Framework for Schizophrenia Diagnosis ( http://arxiv.org/abs/2404.00144v1 )

ライセンス: Link先を確認
Ziyu Zhou, Anton Orlichenko, Gang Qu, Zening Fu, Vince D Calhoun, Zhengming Ding, Yu-Ping Wang, (参考訳) 機能的および構造的MRI(fMRI)とsMRI(sMRI)の両方が精神疾患の診断に広く用いられている。 しかし、これらの2つのモダリティの相補的な情報を組み合わせることは、その不均一性のために困難である。 既存の多くのメソッドは、これらのモダリティ間の相互作用をキャプチャするに足りず、しばしば遅延特徴の単純な組み合わせにデフォルトとなる。 本稿では,fMRIとsMRIのモーダル内およびモーダル間関係を捕捉し,マルチモーダルデータ表現を向上させることを目的とした,クロス・アテンティブ・マルチモーダル・フュージョン(CAMF)フレームワークを提案する。 具体的には、我々のCAMFフレームワークは、各モード間の相互作用を識別するために自己アテンションモジュールを使用し、一方、相互アテンションモジュールはモーダル間の相互作用を識別する。 その後、本手法は両方のモードから潜在機能の統合を最適化する。 提案手法は,CAMFが既存の手法を一貫して上回っている2つの広範囲なマルチモーダル脳画像データセットに対する評価により,分類精度を著しく向上させる。 さらに、勾配誘導Score-CAMは、統合失調症に関連する重要な機能的ネットワークと脳領域の解釈に応用される。 CAMFが同定したバイオマーカーは確立した研究と一致し、統合失調症の診断と病態内因性型に関する新たな知見を提供する可能性がある。

Both functional and structural magnetic resonance imaging (fMRI and sMRI) are widely used for the diagnosis of mental disorder. However, combining complementary information from these two modalities is challenging due to their heterogeneity. Many existing methods fall short of capturing the interaction between these modalities, frequently defaulting to a simple combination of latent features. In this paper, we propose a novel Cross-Attentive Multi-modal Fusion framework (CAMF), which aims to capture both intra-modal and inter-modal relationships between fMRI and sMRI, enhancing multi-modal data representation. Specifically, our CAMF framework employs self-attention modules to identify interactions within each modality while cross-attention modules identify interactions between modalities. Subsequently, our approach optimizes the integration of latent features from both modalities. This approach significantly improves classification accuracy, as demonstrated by our evaluations on two extensive multi-modal brain imaging datasets, where CAMF consistently outperforms existing methods. Furthermore, the gradient-guided Score-CAM is applied to interpret critical functional networks and brain regions involved in schizophrenia. The bio-markers identified by CAMF align with established research, potentially offering new insights into the diagnosis and pathological endophenotypes of schizophrenia.
翻訳日:2024-04-04 07:07:01 公開日:2024-03-29
# 肯定的非ラベル学習におけるランダム推定における完全選択の検証

Verifying the Selected Completely at Random Assumption in Positive-Unlabeled Learning ( http://arxiv.org/abs/2404.00145v1 )

ライセンス: Link先を確認
Paweł Teisseyre, Konrad Furmańczyk, Jan Mielniczuk, (参考訳) The goal of positive-unlabeled (PU) learning is training a binary classifier based on the training data containing positive and unlabeled instance, where unlabeled observed can belong to the positive class or the negative class。 PUデータのモデリングには、どの正の観測がラベルに割り当てられるかを記述するラベリング機構に関する特定の仮定が必要である。 初期の研究で考慮された最も単純な仮定はSCAR(Selected Completely at Random Assumption)であり、正の観測にラベルを割り当てる確率として定義される確率スコア関数は定数である。 一方、より現実的な仮定は SAR (Selected at Random) であり、確率関数は観測された特徴ベクトルにのみ依存する。 SCARベースのアルゴリズムは、SARベースのアルゴリズムに比べてはるかに単純で計算的に高速である。 そこで本研究では,SCARの仮定に適合するかどうかを判定するために,比較的単純かつ高速なテストを提案する。 本テストは,SCAR ケースに適合する人工ラベルを生成することに基づいて,SCAR の null 仮説の下での試験統計量の分布を模倣することができる。 私たちは理論的にその方法を正当化する。 実験では,SCARシナリオから様々な逸脱を検知し,同時にI型エラーを効果的に制御できることを実証した。 提案したテストは、ラベル付け機構の性質が不明な場合に、どの最終PUアルゴリズムを選択するかを決定するための前処理ステップとして推奨できる。

The goal of positive-unlabeled (PU) learning is to train a binary classifier on the basis of training data containing positive and unlabeled instances, where unlabeled observations can belong either to the positive class or to the negative class. Modeling PU data requires certain assumptions on the labeling mechanism that describes which positive observations are assigned a label. The simplest assumption, considered in early works, is SCAR (Selected Completely at Random Assumption), according to which the propensity score function, defined as the probability of assigning a label to a positive observation, is constant. On the other hand, a much more realistic assumption is SAR (Selected at Random), which states that the propensity function solely depends on the observed feature vector. SCAR-based algorithms are much simpler and computationally much faster compared to SAR-based algorithms, which usually require challenging estimation of the propensity score. In this work, we propose a relatively simple and computationally fast test that can be used to determine whether the observed data meet the SCAR assumption. Our test is based on generating artificial labels conforming to the SCAR case, which in turn allows to mimic the distribution of the test statistic under the null hypothesis of SCAR. We justify our method theoretically. In experiments, we demonstrate that the test successfully detects various deviations from SCAR scenario and at the same time it is possible to effectively control the type I error. The proposed test can be recommended as a pre-processing step to decide which final PU algorithm to choose in cases when nature of labeling mechanism is not known.
翻訳日:2024-04-04 07:07:01 公開日:2024-03-29
# エクササイズリカバリとスパース近似のための高速OMP

Fast OMP for Exact Recovery and Sparse Approximation ( http://arxiv.org/abs/2404.00146v1 )

ライセンス: Link先を確認
Huiyuan Yu, Jia He, Maggie Cheng, (参考訳) OMP (Orthogonal Matching Pursuit) はスパース信号の回復と近似において強力な手法である。 しかし、OMPは信号が多数非ゼロであるときに計算上の問題に悩まされる。 本稿では,入力信号の各繰り返しの直交射影に対する高速なアルゴリズムと,信号の回復に要する繰り返し数を削減した欲求選択のための新しい選択基準を提供する。 提案したOMPの修正により、計算複雑性は直接的に減少する。 実験結果は計算時間において古典的なOMPよりも大幅に改善したことを示している。 また,新たな欲求選択基準の下での正確な回復に十分な条件も提示した。 スパース表現を持たない一般的な信号に対しては、近似誤差のバウンダリを提供する。 近似誤差はOMPと同じ順序であるが、より少ないイテレーションと少ない時間で得られる。

Orthogonal Matching Pursuit (OMP) has been a powerful method in sparse signal recovery and approximation. However OMP suffers computational issue when the signal has large number of non-zeros. This paper advances OMP in two fronts: it offers a fast algorithm for the orthogonal projection of the input signal at each iteration, and a new selection criterion for making the greedy choice, which reduces the number of iterations it takes to recover the signal. The proposed modifications to OMP directly reduce the computational complexity. Experiment results show significant improvement over the classical OMP in computation time. The paper also provided a sufficient condition for exact recovery under the new greedy choice criterion. For general signals that may not have sparse representations, the paper provides a bound for the approximation error. The approximation error is at the same order as OMP but is obtained within fewer iterations and less time.
翻訳日:2024-04-04 07:07:01 公開日:2024-03-29
# VSRD: 弱教師付き3Dオブジェクト検出のためのインスタンス対応ボリュームシルエットレンダリング

VSRD: Instance-Aware Volumetric Silhouette Rendering for Weakly Supervised 3D Object Detection ( http://arxiv.org/abs/2404.00149v1 )

ライセンス: Link先を確認
Zihua Liu, Hiroki Sakuma, Masatoshi Okutomi, (参考訳) モノクラー3次元物体検出は、モノクラー深度推定における本質的に不適切な性質のため、3Dシーン理解において重要な課題となる。 既存の方法は、LiDARポイントクラウド上の高価な、労働集約的なアノテーションを通じて得られる、豊富な3Dラベルを用いた教師あり学習に大きく依存している。 そこで本研究では,VSRD(Volumetric Silhouette Rendering for Detection)と呼ばれる3次元オブジェクト検出フレームワークを提案する。 VSRDは、マルチビュー3Dオートラベルと、その後のオートラベル段階で生成された擬似ラベルを用いた単分子3Dオブジェクト検出器のトレーニングで構成されている。 自動ラベル付けの段階では、各インスタンスの表面を符号付き距離場(SDF)として表現し、そのシルエットをインスタンス対応ボリュームシルエットレンダリングによりインスタンスマスクとして描画する。 レンダリングにより3次元境界ボックスを直接最適化するため、各インスタンスの SDF を立方体の SDF と立方体の残差を表す残差距離場 (RDF) に分解する。 この機構により、レンダリングされたインスタンスマスクと地上の真理のインスタンスマスクを比較することで、エンドツーエンドで3D境界ボックスを最適化することができる。 最適化された3Dバウンディングボックスは、3Dオブジェクト検出のための効果的なトレーニングデータとして機能する。 我々は、KITTI-360データセット上で広範囲に実験を行い、既存の弱教師付き3次元物体検出法よりも優れていることを示す。 コードはhttps://github.com/skmhrk1209/VSRDで公開されている。

Monocular 3D object detection poses a significant challenge in 3D scene understanding due to its inherently ill-posed nature in monocular depth estimation. Existing methods heavily rely on supervised learning using abundant 3D labels, typically obtained through expensive and labor-intensive annotation on LiDAR point clouds. To tackle this problem, we propose a novel weakly supervised 3D object detection framework named VSRD (Volumetric Silhouette Rendering for Detection) to train 3D object detectors without any 3D supervision but only weak 2D supervision. VSRD consists of multi-view 3D auto-labeling and subsequent training of monocular 3D object detectors using the pseudo labels generated in the auto-labeling stage. In the auto-labeling stage, we represent the surface of each instance as a signed distance field (SDF) and render its silhouette as an instance mask through our proposed instance-aware volumetric silhouette rendering. To directly optimize the 3D bounding boxes through rendering, we decompose the SDF of each instance into the SDF of a cuboid and the residual distance field (RDF) that represents the residual from the cuboid. This mechanism enables us to optimize the 3D bounding boxes in an end-to-end manner by comparing the rendered instance masks with the ground truth instance masks. The optimized 3D bounding boxes serve as effective training data for 3D object detection. We conduct extensive experiments on the KITTI-360 dataset, demonstrating that our method outperforms the existing weakly supervised 3D object detection methods. The code is available at https://github.com/skmhrk1209/VSRD.
翻訳日:2024-04-04 07:07:01 公開日:2024-03-29
# バイオメディカルNERのためのLCMのオンザフライ定義強化

On-the-fly Definition Augmentation of LLMs for Biomedical NER ( http://arxiv.org/abs/2404.00152v1 )

ライセンス: Link先を確認
Monica Munnangi, Sergey Feldman, Byron C Wallace, Silvio Amir, Tom Hope, Aakanksha Naik, (参考訳) それらの一般的な能力にもかかわらず、LLMは、専門用語の存在と訓練データの欠如により難しい生物医学的NERタスクに苦戦している。 本研究は,生物医学的NERにおけるLLMの性能向上を目的として,新たな知識向上手法を提案する。 この過程で知識増強のためのテストベッドを提供するため、我々は戦略の推進を総合的に探究する。 本実験は, オープンソースと閉LLMの両方において, 定義拡張が有用であることを示す。 例えば、テストデータセットの全(6)に対して、GPT-4パフォーマンス(F1)の15倍(平均)の相対的な改善につながります。 私たちは、パフォーマンスの改善が関連する定義知識の追加に起因することを実証するために、広範囲にわたる改善と分析を行います。 注意的なプロンプト戦略はLLMの性能も向上し、微調整された言語モデルを数ショット設定で上回ることができることがわかった。 この方向への今後の研究を促進するため、私たちはhttps://github.com/allenai/beacon.comでコードを公開しています。

Despite their general capabilities, LLMs still struggle on biomedical NER tasks, which are difficult due to the presence of specialized terminology and lack of training data. In this work we set out to improve LLM performance on biomedical NER in limited data settings via a new knowledge augmentation approach which incorporates definitions of relevant concepts on-the-fly. During this process, to provide a test bed for knowledge augmentation, we perform a comprehensive exploration of prompting strategies. Our experiments show that definition augmentation is useful for both open source and closed LLMs. For example, it leads to a relative improvement of 15\% (on average) in GPT-4 performance (F1) across all (six) of our test datasets. We conduct extensive ablations and analyses to demonstrate that our performance improvements stem from adding relevant definitional knowledge. We find that careful prompting strategies also improve LLM performance, allowing them to outperform fine-tuned language models in few-shot settings. To facilitate future research in this direction, we release our code at https://github.com/allenai/beacon.
翻訳日:2024-04-04 07:07:01 公開日:2024-03-29
# ガウス平滑化による完全ゼロ階バイレベルプログラミング

Fully Zeroth-Order Bilevel Programming via Gaussian Smoothing ( http://arxiv.org/abs/2404.00158v1 )

ライセンス: Link先を確認
Alireza Aghasi, Saeed Ghadimi, (参考訳) 本稿では,上位・下位の目標値や偏りのない勾配推定値が得られない場合に,ビルベル問題を解くためのゼロ階確率近似アルゴリズムを研究・解析する。 特に、スタインの恒等性を生かして、まずガウス滑らか化を用いて、2つの独立な変数ブロックを持つ函数の1階と2階の部分微分を推定する。 次に、両レベル最適化問題の解法と非漸近収束解析の確立のための確率近似アルゴリズムの枠組みでこれらの推定値を用いた。 我々の知る限りでは、完全確率ゼロ階二階最適化アルゴリズムのためにサンプル複雑性境界が確立されたのはこれが初めてである。

In this paper, we study and analyze zeroth-order stochastic approximation algorithms for solving bilvel problems, when neither the upper/lower objective values, nor their unbiased gradient estimates are available. In particular, exploiting Stein's identity, we first use Gaussian smoothing to estimate first- and second-order partial derivatives of functions with two independent block of variables. We then used these estimates in the framework of a stochastic approximation algorithm for solving bilevel optimization problems and establish its non-asymptotic convergence analysis. To the best of our knowledge, this is the first time that sample complexity bounds are established for a fully stochastic zeroth-order bilevel optimization algorithm.
翻訳日:2024-04-04 07:07:01 公開日:2024-03-29
# 事象とは何か:量子論と重力における事象の同一性を明らかにする

What an event is not: unravelling the identity of events in quantum theory and gravity ( http://arxiv.org/abs/2404.00159v1 )

ライセンス: Link先を確認
Anne-Catherine de la Hamette, Viktoria Kabel, Časlav Brukner, (参考訳) 我々は、量子物理学と重力の交点における事象の概念を探求し、半古典的時空の重ね合わせに関する最近の研究から着想を得た。 崩壊する原子から二重スリットの実験、量子スイッチまで、様々な実験や思考実験を経ることで、このような非古典的な文脈でイベントを定義するためにどの特性が使えるのか、あるいは利用できないのかを分析します。 本研究は, 観測現象の破壊や変化を伴わずに, それらの特性にアクセス可能であることを強調した, 事象の運用的, 文脈依存的な定義を示唆するものである。 我々は、不明確な因果順序に対するこの出来事の理解と、ウィグナーの友人の思考実験における出来事の絶対性について論じる。 これらの発見は、量子時空における事象の概念を開発するための第一歩となる。

We explore the notion of events at the intersection between quantum physics and gravity, inspired by recent research on superpositions of semiclassical spacetimes. By going through various experiments and thought experiments -- from a decaying atom, to the double-slit experiment, to the quantum switch -- we analyse which properties can and cannot be used to define events in such non-classical contexts. Our findings suggest an operational, context-dependent definition of events which emphasises that their properties can be accessed without destroying or altering observed phenomena. We discuss the implications of this understanding of events for indefinite causal order as well as the non-absoluteness of events in the Wigner's friend thought experiment. These findings provide a first step for developing a notion of event in quantum spacetime.
翻訳日:2024-04-04 07:07:01 公開日:2024-03-29
# 大規模歩行とサイクリングネットワークのモデル化:携帯電話とクラウドソーシングデータを用いた機械学習アプローチ

Modeling Large-Scale Walking and Cycling Networks: A Machine Learning Approach Using Mobile Phone and Crowdsourced Data ( http://arxiv.org/abs/2404.00162v1 )

ライセンス: Link先を確認
Meead Saberi, Tanapon Lilasathapornkit, (参考訳) ウォーキングとサイクリングは、健康、環境、経済的優位性をもたらすことが知られている。 しかし,エビデンスに基づくアクティブな交通計画や政策の開発は,クラウドソースデータの偏りや携帯電話データの代表性といったデータ制限によって妨げられている。 本研究では,オーストラリア・ニューサウスウェールズ州の大規模地域ネットワークにおいて,128,999本の歩行リンクと114,885本のサイクリングリンクを含む1日あたりの歩行量とサイクリング量を推定するための機械学習に基づくモデリング手法を開発し,適用した。 このモデリング手法は、クラウドソースと携帯電話のデータに加えて、人口、土地利用、地形、気候などに関するさまざまなデータセットを活用している。 本研究は、モデル化されたネットワークの地理的な範囲と、観測された歩行およびサイクリング数データの相対的不足を考慮し、モデルトレーニング、テスト、推論の3つの側面にまつわる固有の課題と限界について論じる。 また、モデル推定アウトレーヤを特定し、その影響を軽減するための新しい手法も提案している。 全体として、この研究は、先進的なデータ駆動モデリング手法による活発な交通インフラ計画と政策の強化を目指す交通モデル、政策立案者、都市計画者に貴重なリソースを提供する。

Walking and cycling are known to bring substantial health, environmental, and economic advantages. However, the development of evidence-based active transportation planning and policies has been impeded by significant data limitations, such as biases in crowdsourced data and representativeness issues of mobile phone data. In this study, we develop and apply a machine learning based modeling approach for estimating daily walking and cycling volumes across a large-scale regional network in New South Wales, Australia that includes 188,999 walking links and 114,885 cycling links. The modeling methodology leverages crowdsourced and mobile phone data as well as a range of other datasets on population, land use, topography, climate, etc. The study discusses the unique challenges and limitations related to all three aspects of model training, testing, and inference given the large geographical extent of the modeled networks and relative scarcity of observed walking and cycling count data. The study also proposes a new technique to identify model estimate outliers and to mitigate their impact. Overall, the study provides a valuable resource for transportation modelers, policymakers and urban planners seeking to enhance active transportation infrastructure planning and policies with advanced emerging data-driven modeling methodologies.
翻訳日:2024-04-04 07:07:01 公開日:2024-03-29
# 関節教師と対位学習を用いたCT呼吸運動合成

CT respiratory motion synthesis using joint supervised and adversarial learning ( http://arxiv.org/abs/2404.00163v1 )

ライセンス: Link先を確認
Yi-Heng Cao, Vincent Bourbonne, François Lucia, Ulrike Schick, Julien Bert, Vincent Jaouen, Dimitris Visvikis, (参考訳) 目的: 4次元CT(4DCT)画像は、CT取得を複数の段階に再構成し、内臓器と腫瘍の運動を追跡する。 放射線治療計画において、計画対象量を確立するために一般的に用いられる。 しかし、4DCTは、プロトコルの複雑さを増し、治療中の患者の呼吸と一致せず、より高い放射線伝達をもたらす可能性がある。 本研究では,静止画像から擬似呼吸CT位相を生成する深層合成法を提案する。 患者特異的な変形ベクトル場(DVF)を外部の患者表面から推定した条件付け合成により生成し,呼吸モニタリング装置を模倣する。 鍵となる方法論は、DVF訓練を監督し、歪んだ画像だけでなく、DVF自体の規模でも共用しながら、DVFリアリズムを促進することである。 このようにして、深い教師なし学習によって得られる過度な滑らかさを回避し、呼吸振幅との相関を助長する。 主な結果: 腫瘍容積の少ない4DCTによる実検体を用いて, 評価を行った。 その結果, 生成した擬似呼吸CTの位相が, 同一患者の4DCTスキャンと同等の精度で臓器, 腫瘍の運動を捉えることができた。 平均質量間腫瘍中心距離とDice類似係数はそれぞれ1.97$mmと0.63$で、実際の4DCT相は2.35$mmと0.71$で合成相は2.35$mmと0.71$であり、最先端技術(RMSim)と比較すると好ましい。

Objective: Four-dimensional computed tomography (4DCT) imaging consists in reconstructing a CT acquisition into multiple phases to track internal organ and tumor motion. It is commonly used in radiotherapy treatment planning to establish planning target volumes. However, 4DCT increases protocol complexity, may not align with patient breathing during treatment, and lead to higher radiation delivery. Approach: In this study, we propose a deep synthesis method to generate pseudo respiratory CT phases from static images for motion-aware treatment planning. The model produces patient-specific deformation vector fields (DVFs) by conditioning synthesis on external patient surface-based estimation, mimicking respiratory monitoring devices. A key methodological contribution is to encourage DVF realism through supervised DVF training while using an adversarial term jointly not only on the warped image but also on the magnitude of the DVF itself. This way, we avoid excessive smoothness typically obtained through deep unsupervised learning, and encourage correlations with the respiratory amplitude. Main results: Performance is evaluated using real 4DCT acquisitions with smaller tumor volumes than previously reported. Results demonstrate for the first time that the generated pseudo-respiratory CT phases can capture organ and tumor motion with similar accuracy to repeated 4DCT scans of the same patient. Mean inter-scans tumor center-of-mass distances and Dice similarity coefficients were $1.97$mm and $0.63$, respectively, for real 4DCT phases and $2.35$mm and $0.71$ for synthetic phases, and compares favorably to a state-of-the-art technique (RMSim).
翻訳日:2024-04-04 07:07:01 公開日:2024-03-29
# 個人のテキストコーパスはオープンネス、関心、知識、教育レベルを予測する

Individual Text Corpora Predict Openness, Interests, Knowledge and Level of Education ( http://arxiv.org/abs/2404.00165v1 )

ライセンス: Link先を確認
Markus J. Hofmann, Markus T. Jansen, Christoph Wigbels, Benny Briesemeister, Arthur M. Jacobs, (参考訳) 本稿では,個々人の検索履歴から経験に対するオープンネスの個性次元を推定できるかどうかを検討する。 ウェブスクレイピングにより、平均500万ワードトークン数の214人の参加者から個々のテキストコーパス(IC)が生成される。 我々は、Word2vecモデルを訓練し、各ICの類似性を用いて単語をラベル付けした。 これらのIC-label-word類似性はニューラルモデルにおける予測的特徴として利用された。 トレーニングと検証には179人の参加者を頼りにし、35人の被験者のテストサンプルを公開しました。 様々な予測特性,隠蔽ユニット,ブーストファクタを備えたグリッド探索を行った。 モデル選択基準として、トレーニングと検証の間に絶対的なR2差が認められる検証サンプルにR2を用いた。 選択されたニューラルモデルでは、テストサンプルの開放性のばらつきの35%が説明され、同じアーキテクチャのアンサンブルモデルは、知的関心、人文科学の知識、教育のレベルについて、より安定した予測を提供した。 最後に、学習曲線解析により、一般化可能な予測には約500人のトレーニング参加者が必要であることが示唆された。 調査に基づく精神診断の補完や代替としてICについて論じる。

Here we examine whether the personality dimension of openness to experience can be predicted from the individual google search history. By web scraping, individual text corpora (ICs) were generated from 214 participants with a mean number of 5 million word tokens. We trained word2vec models and used the similarities of each IC to label words, which were derived from a lexical approach of personality. These IC-label-word similarities were utilized as predictive features in neural models. For training and validation, we relied on 179 participants and held out a test sample of 35 participants. A grid search with varying number of predictive features, hidden units and boost factor was performed. As model selection criterion, we used R2 in the validation samples penalized by the absolute R2 difference between training and validation. The selected neural model explained 35% of the openness variance in the test sample, while an ensemble model with the same architecture often provided slightly more stable predictions for intellectual interests, knowledge in humanities and level of education. Finally, a learning curve analysis suggested that around 500 training participants are required for generalizable predictions. We discuss ICs as a complement or replacement of survey-based psychodiagnostics.
翻訳日:2024-04-04 07:07:01 公開日:2024-03-29
# 実測値を持つ大規模視覚言語モデルにおけるバイアスの発見

Uncovering Bias in Large Vision-Language Models with Counterfactuals ( http://arxiv.org/abs/2404.00166v1 )

ライセンス: Link先を確認
Phillip Howard, Anahita Bhiwandiwalla, Kathleen C. Fraser, Svetlana Kiritchenko, (参考訳) LVLM(Large Vision-Language Models)は,LVLM(Large Vision-Language Models)を視覚的入力で拡張するために提案されている。 このようなモデル条件は入力画像とテキストプロンプトの両方にテキストを生成し、視覚的質問応答やマルチモーダルチャットなどのさまざまなユースケースを可能にする。 以前の研究では、LLMが生成するテキストに含まれる社会的バイアスについて検討されてきたが、この話題はLVLMでは比較的研究されていない。 LVLMの社会的偏見を調べることは、テキストや視覚的モダリティに含まれる情報によって引き起こされる偏見の相違により特に困難である。 この課題に対処するため,異なるLVLMによって生成されたテキストを,入力画像の反実的変化下で大規模に研究する。 具体的には、異なる対物集合の画像を条件付けしながら、同一のオープンエンドテキストプロンプトを持つLVLMを提示する。それぞれのセットは、共通の対象(例えば、医師)の描写とほとんど同一であるが、交叉的な社会的属性(例えば、人種、性別)の点でのみ異なる画像を含む。 本研究では, 異なるLVLMが生成するテキストを, この逆生成環境下で包括的に評価し, 入力画像に表される人種, 性別, 身体的特徴などの社会的属性が有毒性や有能な関連語の生成に大きく影響することを見出した。

With the advent of Large Language Models (LLMs) possessing increasingly impressive capabilities, a number of Large Vision-Language Models (LVLMs) have been proposed to augment LLMs with visual inputs. Such models condition generated text on both an input image and a text prompt, enabling a variety of use cases such as visual question answering and multimodal chat. While prior studies have examined the social biases contained in text generated by LLMs, this topic has been relatively unexplored in LVLMs. Examining social biases in LVLMs is particularly challenging due to the confounding contributions of bias induced by information contained across the text and visual modalities. To address this challenging problem, we conduct a large-scale study of text generated by different LVLMs under counterfactual changes to input images. Specifically, we present LVLMs with identical open-ended text prompts while conditioning on images from different counterfactual sets, where each set contains images which are largely identical in their depiction of a common subject (e.g., a doctor), but vary only in terms of intersectional social attributes (e.g., race and gender). We comprehensively evaluate the text produced by different LVLMs under this counterfactual generation setting and find that social attributes such as race, gender, and physical characteristics depicted in input images can significantly influence toxicity and the generation of competency-associated words.
翻訳日:2024-04-04 06:56:43 公開日:2024-03-29
# 動的都市環境のためのマルチレベルニューラルシーングラフ

Multi-Level Neural Scene Graphs for Dynamic Urban Environments ( http://arxiv.org/abs/2404.00168v1 )

ライセンス: Link先を確認
Tobias Fischer, Lorenzo Porzi, Samuel Rota Bulò, Marc Pollefeys, Peter Kontschieder, (参考訳) 環境条件の異なる複数車両からの大規模動的領域の放射界を推定する。 このドメインの以前の作業は、静的な環境に制限されているか、単一のショートビデオ以上のスケールしないか、動的オブジェクトインスタンスを別々に表現するのに苦労している。 この目的のために, 動的都市環境に対する新しい分解可能な放射場アプローチを提案する。 本稿では,数百の高速移動物体を含む数十のシーケンスから数千の画像にスケールする多段階ニューラルシーングラフ表現を提案する。 表現の効率的なトレーニングとレンダリングを可能にするために,高速な複合光線サンプリング・レンダリング手法を開発した。 都市の運転シナリオにおける我々のアプローチをテストするために,新しいビュー合成ベンチマークを導入する。 我々の手法は、トレーニングやレンダリングを高速化しながら、確立されたベンチマークと提案したベンチマークの両方において、先行技術よりも優れたパフォーマンスを示します。

We estimate the radiance field of large-scale dynamic areas from multiple vehicle captures under varying environmental conditions. Previous works in this domain are either restricted to static environments, do not scale to more than a single short video, or struggle to separately represent dynamic object instances. To this end, we present a novel, decomposable radiance field approach for dynamic urban environments. We propose a multi-level neural scene graph representation that scales to thousands of images from dozens of sequences with hundreds of fast-moving objects. To enable efficient training and rendering of our representation, we develop a fast composite ray sampling and rendering scheme. To test our approach in urban driving scenarios, we introduce a new, novel view synthesis benchmark. We show that our approach outperforms prior art by a significant margin on both established and our proposed benchmark while being faster in training and rendering.
翻訳日:2024-04-04 06:56:43 公開日:2024-03-29
# 深度データと深度学習によるウシの普遍的識別

Universal Bovine Identification via Depth Data and Deep Metric Learning ( http://arxiv.org/abs/2404.00172v1 )

ライセンス: Link先を確認
Asheesh Sharma, Lucy Randewich, William Andrew, Sion Hannuna, Neill Campbell, Siobhan Mullan, Andrew W. Dowsey, Melvyn Smith, Mark Hansen, Tilo Burghardt, (参考訳) 本稿では,まず,個別の牛を正確に識別し,関連するコード,データセット,訓練重量を即時再現性のために提供するための,トップダウン(寮ビュー),深度のみの深層学習システムを提案し,評価する。 群れの大きさの増大は、農場における牛と人間の比率を歪め、個人を手動で監視することがより困難になる。 そのため、家畜のリアルタイム識別は農業にとって不可欠であり、畜産の精密化に向けた重要なステップである。 そこで本研究では,市販の3Dカメラの深度データを用いた牛の識別のための深度学習手法を提案する。 この方法はCNNやMLPのバックボーンに頼り、体型から広く一般化した埋め込み空間を学習して個人を区別する。 ネットワーク埋め込みは、高度に正確な識別のために$k$-NNのような単純なアルゴリズムを使ってクラスタ化され、新しい個人を登録するためにネットワークを再トレーニングする必要がなくなる。 RGB画像を用いてホルスタイン・フリーズを識別するために使用したResNetと、3Dポイント・クラウド上での運用に特化したPointNetの2つのバックボーン・アーキテクチャを評価した。 CowDepth2023は、99頭の牛の同期色深度画像ペア21,490枚からなる新しいデータセットで、背骨の評価を行う。 ディープマップとポイントクラウドをそれぞれ消費するResNetアーキテクチャとPointNetアーキテクチャの両方が、コートパターンベースのバックボーンと同等の精度を実現している。

This paper proposes and evaluates, for the first time, a top-down (dorsal view), depth-only deep learning system for accurately identifying individual cattle and provides associated code, datasets, and training weights for immediate reproducibility. An increase in herd size skews the cow-to-human ratio at the farm and makes the manual monitoring of individuals more challenging. Therefore, real-time cattle identification is essential for the farms and a crucial step towards precision livestock farming. Underpinned by our previous work, this paper introduces a deep-metric learning method for cattle identification using depth data from an off-the-shelf 3D camera. The method relies on CNN and MLP backbones that learn well-generalised embedding spaces from the body shape to differentiate individuals -- requiring neither species-specific coat patterns nor close-up muzzle prints for operation. The network embeddings are clustered using a simple algorithm such as $k$-NN for highly accurate identification, thus eliminating the need to retrain the network for enrolling new individuals. We evaluate two backbone architectures, ResNet, as previously used to identify Holstein Friesians using RGB images, and PointNet, which is specialised to operate on 3D point clouds. We also present CowDepth2023, a new dataset containing 21,490 synchronised colour-depth image pairs of 99 cows, to evaluate the backbones. Both ResNet and PointNet architectures, which consume depth maps and point clouds, respectively, led to high accuracy that is on par with the coat pattern-based backbone.
翻訳日:2024-04-04 06:56:43 公開日:2024-03-29
# 有機太陽電池の効率劣化予測のための過最適化機械学習モデルの比較

Comparing Hyper-optimized Machine Learning Models for Predicting Efficiency Degradation in Organic Solar Cells ( http://arxiv.org/abs/2404.00173v1 )

ライセンス: Link先を確認
David Valientea, Fernando Rodríguez-Mas, Juan V. Alegre-Requena, David Dalmau, Juan C. Ferrer, (参考訳) 本研究は,多層構造ITO/PEDOT:PSS/P3HT:PCBM/Alを用いた高分子有機太陽電池 (OSC) の電力変換効率 (PCE) による時間劣化の最適機械学習モデルを提案する。 そこで我々は,製造プロセスと環境条件の両方に関して最大7変数を含む996項目のデータベースを180日間以上作成した。 そこで私たちは、コマンドラインインターフェースだけでデータベースに対してシーケンシャルに実行する自動MLプロトコルの集合体をまとめるソフトウェアフレームワークを頼りにしました。 これにより、徹底的なベンチマークによってMLモデルの超最適化およびランダム化が可能になり、最適なモデルが得られる。 一方、根平均二乗誤差(RMSE)、二乗誤差(SSE)の和、および平均絶対誤差(MAE)>1%の目標値であるPCEは、係数決定(R2)の値に達した。 さらに、データベースにないOSCの動作を確認できる検証されたモデルにコントリビュートする。 この場合 R2~0.96-0.97 と RMSE~1% は、予測する提案の信頼性を確認する。 比較目的では、非線形平均平方(LMS)に基づく古典的ベイズ回帰フィッティング(英語版)も提示され、単一のOSCの単変量に対してのみ十分に機能する。 そのため、MLモデルで示される能力の広さを上回りません。 最後に、MLフレームワークによって提供される標準化された結果により、データセットの変数とOSCの最適性能と安定性の関係について検討する。 再現性は、Githubで公開されているデータセットとともに標準化されたレポートによって保証される。

This work presents a set of optimal machine learning (ML) models to represent the temporal degradation suffered by the power conversion efficiency (PCE) of polymeric organic solar cells (OSCs) with a multilayer structure ITO/PEDOT:PSS/P3HT:PCBM/Al. To that aim, we generated a database with 996 entries, which includes up to 7 variables regarding both the manufacturing process and environmental conditions for more than 180 days. Then, we relied on a software framework that brings together a conglomeration of automated ML protocols that execute sequentially against our database by simply command-line interface. This easily permits hyper-optimizing and randomizing seeds of the ML models through exhaustive benchmarking so that optimal models are obtained. The accuracy achieved reaches values of the coefficient determination (R2) widely exceeding 0.90, whereas the root mean squared error (RMSE), sum of squared error (SSE), and mean absolute error (MAE)>1% of the target value, the PCE. Additionally, we contribute with validated models able to screen the behavior of OSCs never seen in the database. In that case, R2~0.96-0.97 and RMSE~1%, thus confirming the reliability of the proposal to predict. For comparative purposes, classical Bayesian regression fitting based on non-linear mean squares (LMS) are also presented, which only perform sufficiently for univariate cases of single OSCs. Hence they fail to outperform the breadth of the capabilities shown by the ML models. Finally, thanks to the standardized results offered by the ML framework, we study the dependencies between the variables of the dataset and their implications for the optimal performance and stability of the OSCs. Reproducibility is ensured by a standardized report altogether with the dataset, which are publicly available at Github.
翻訳日:2024-04-04 06:56:43 公開日:2024-03-29
# LSCDベンチマーク:Diachronic Word Meaning Tasksのテストベッド

The LSCD Benchmark: a Testbed for Diachronic Word Meaning Tasks ( http://arxiv.org/abs/2404.00176v1 )

ライセンス: Link先を確認
Dominik Schlechtweg, Shafqat Mumtaz Virk, Nikolay Arefyev, (参考訳) Lexical Semantic Change Detection (LSCD) は複雑な補題レベルのタスクであり、通常は2つの次に適用される使用レベルタスクに基づいて運用される。 次に、これらのラベルを、センスクラスタの導出にワードセンス誘導(WSI)を適用するグラフで表現する。 最後に、LSCDラベルは、時間とともにセンスクラスタを比較することによって導出される。 このモジュラリティは、ほとんどのLSCDデータセットやモデルに反映されている。 また、モデリングオプションやタスク定義において大きな異質性をもたらし、さまざまなデータセットバージョン、前処理オプション、評価指標によって悪化する。 この不均一性により、比較条件下でのモデルの評価、最適なモデルの組み合わせの選択、結果の再現が困難になる。 したがって、LSCD評価を標準化するベンチマークリポジトリを提供する。 透過的な実装の結果は容易に再現可能となり、異なるコンポーネントを自由に組み合わせることができる。 このリポジトリはWiC、WSI、LSCDのモデル評価を可能にすることで、タスクのモジュラリティを反映している。 これにより、モデル最適化の新しい方法を提供する、ますます複雑なモデルコンポーネントの慎重な評価が可能になる。

Lexical Semantic Change Detection (LSCD) is a complex, lemma-level task, which is usually operationalized based on two subsequently applied usage-level tasks: First, Word-in-Context (WiC) labels are derived for pairs of usages. Then, these labels are represented in a graph on which Word Sense Induction (WSI) is applied to derive sense clusters. Finally, LSCD labels are derived by comparing sense clusters over time. This modularity is reflected in most LSCD datasets and models. It also leads to a large heterogeneity in modeling options and task definitions, which is exacerbated by a variety of dataset versions, preprocessing options and evaluation metrics. This heterogeneity makes it difficult to evaluate models under comparable conditions, to choose optimal model combinations or to reproduce results. Hence, we provide a benchmark repository standardizing LSCD evaluation. Through transparent implementation results become easily reproducible and by standardization different components can be freely combined. The repository reflects the task's modularity by allowing model evaluation for WiC, WSI and LSCD. This allows for careful evaluation of increasingly complex model components providing new ways of model optimization.
翻訳日:2024-04-04 06:56:43 公開日:2024-03-29
# 量子遷移確率

Quantum Transition Probabilities ( http://arxiv.org/abs/2404.00177v1 )

ライセンス: Link先を確認
Stan Gudder, (参考訳) 遷移確率は量子力学において重要かつ有用なツールである。 しかし、現在の形式では、それらは範囲に限られており、純粋な量子状態にのみ適用される。 本稿では、混合状態と量子効果間の遷移への適用性を拡張する。 また,測定操作や楽器への依存度も示す。 まず、一般量子効果代数上で概念を定義する。 これらの概念は、ホレヴォの操作と楽器を用いて説明される。 次に、量子力学のヒルベルト空間定式化の特別な場合において遷移確率を示す。 純粋な状態や特定の種類の操作に対して、遷移確率は通常の形式に還元されることを示す。 L\」オーダの操作や楽器の例を示す。

Transition probabilities are an important and useful tool in quantum mechanics. However, in their present form, they are limited in scope and only apply to pure quantum states. In this article we extend their applicability to mixed states and to transitions between quantum effects. We also present their dependence on a measured operation or instrument. We begin by defining our concepts on a general quantum effect algebra. These concepts are illustrated using Holevo operations and instruments. We then present transition probabilities in the special case of the Hilbert space formulation of quantum mechanics. We show that for pure states and particular types of operations the transition probabilities reduce to their usual form. We give examples in terms of L\"uders operations and instruments.
翻訳日:2024-04-04 06:56:43 公開日:2024-03-29
# Beyond Suspension: スポーツリーグを締結するための2段階の方法論

Beyond Suspension: A Two-phase Methodology for Concluding Sports Leagues ( http://arxiv.org/abs/2404.00178v1 )

ライセンス: Link先を確認
Ali Hassanzadeh, Mojtaba Hosseini, John G. Turner, (参考訳) プロスポーツリーグは、新型コロナウイルス(COVID-19)のパンデミックなど、さまざまな理由で中止される可能性がある。 再オープン時にリーグが対処しなければならない重要な疑問は、シーズンを短縮した時間枠で終了するために残りのゲームのサブセットを適切に選択する方法である。 学術的・実践的関連性: 空白のスレートから始まるシーズン全体のスケジュールに関する豊富な文献にもかかわらず、既存のシーズンを結論付けることは、かなり異なる。 当社のアプローチでは,シーズンが満員になった場合のチームランキングと同じような達成を試みています。 方法論: 予測的および規範的分析を利用して, 当初予定されていたゲームのサブセットからなるシーズンの残り期間のスケジュールを生成するデータ駆動モデルを提案する。 本モデルでは,予測モデルを用いてパラメータを推定する確率的最適化モデルにおいて,ランク付けに基づく新たな目標を提案する。 我々は,この問題を効率的に解くために,フランク=ウルフアルゴリズムとともに決定論的に等価な再構成を導入するとともに,min-maxの後悔に基づく頑健なアルゴリズムを導入する。 結果:2004-2019年のNBAシーズンのシミュレーションに基づく数値実験を行い,このモデルが計算効率が高く,非ランク付け型スケジューリングポリシを近似したグレディ・ベンチマークを上回り,解釈可能な結果が得られることを示した。 管理的意味: 当社のデータ駆動型意思決定フレームワークは、シーズンを短縮した25~50パーセントのゲームを生成するのに使用できます。

Problem definition: Professional sports leagues may be suspended due to various reasons such as the recent COVID-19 pandemic. A critical question the league must address when re-opening is how to appropriately select a subset of the remaining games to conclude the season in a shortened time frame. Academic/practical relevance: Despite the rich literature on scheduling an entire season starting from a blank slate, concluding an existing season is quite different. Our approach attempts to achieve team rankings similar to that which would have resulted had the season been played out in full. Methodology: We propose a data-driven model which exploits predictive and prescriptive analytics to produce a schedule for the remainder of the season comprised of a subset of originally-scheduled games. Our model introduces novel rankings-based objectives within a stochastic optimization model, whose parameters are first estimated using a predictive model. We introduce a deterministic equivalent reformulation along with a tailored Frank-Wolfe algorithm to efficiently solve our problem, as well as a robust counterpart based on min-max regret. Results: We present simulation-based numerical experiments from previous National Basketball Association (NBA) seasons 2004--2019, and show that our models are computationally efficient, outperform a greedy benchmark that approximates a non-rankings-based scheduling policy, and produce interpretable results. Managerial implications: Our data-driven decision-making framework may be used to produce a shortened season with 25-50\% fewer games while still producing an end-of-season ranking similar to that of the full season, had it been played.
翻訳日:2024-04-04 06:56:43 公開日:2024-03-29
# 限られたラベルを持つ衛星画像における作物野境界の分割のためのマルチリージョン移動学習

Multi-Region Transfer Learning for Segmentation of Crop Field Boundaries in Satellite Images with Limited Labels ( http://arxiv.org/abs/2404.00179v1 )

ライセンス: Link先を確認
Hannah Kerner, Saketh Sundar, Mathan Satish, (参考訳) フィールドバウンダリデラインの目的は、個々の作物畑の多角形境界と内部を、リモートで感知された画像(例えば、衛星やドローンから)で予測することである。 フィールド境界の自動デライン化は、農業における多くの実世界のユースケースにおいて、ある地域で栽培されている地域を推定したり、ある地域でのエンド・オブ・シーズンの収量を予測するなど、必要なタスクである。 フィールド境界記述は、インスタンスセグメンテーション問題として表すことができるが、インスタンスセグメンテーションに使用される従来のコンピュータビジョンデータセットと比較して、ユニークな研究課題が提示される。 以前の研究の実用性はまた、フィールド境界線モデルを適用するような十分に大きなラベル付きデータセットが利用できるという仮定によって制限されている。 本稿では,多領域移動学習を用いて対象領域のモデル重みを適応させるラベル付きデータを持たない領域において,衛星画像における作物のフィールド境界のセグメンテーションを行う手法を提案する。 提案手法は既存の手法よりも優れており,マルチリージョン転送学習によって複数のモデルアーキテクチャの性能が大幅に向上することを示す。 私たちの実装とデータセットは、エンドユーザによるアプローチの使用を可能にするために公開されており、将来の作業のベンチマークとして機能します。

The goal of field boundary delineation is to predict the polygonal boundaries and interiors of individual crop fields in overhead remotely sensed images (e.g., from satellites or drones). Automatic delineation of field boundaries is a necessary task for many real-world use cases in agriculture, such as estimating cultivated area in a region or predicting end-of-season yield in a field. Field boundary delineation can be framed as an instance segmentation problem, but presents unique research challenges compared to traditional computer vision datasets used for instance segmentation. The practical applicability of previous work is also limited by the assumption that a sufficiently-large labeled dataset is available where field boundary delineation models will be applied, which is not the reality for most regions (especially under-resourced regions such as Sub-Saharan Africa). We present an approach for segmentation of crop field boundaries in satellite images in regions lacking labeled data that uses multi-region transfer learning to adapt model weights for the target region. We show that our approach outperforms existing methods and that multi-region transfer learning substantially boosts performance for multiple model architectures. Our implementation and datasets are publicly available to enable use of the approach by end-users and serve as a benchmark for future work.
翻訳日:2024-04-04 06:56:43 公開日:2024-03-29
# Word Ladders: セマンティックデータ収集のためのモバイルアプリケーション

Word Ladders: A Mobile Application for Semantic Data Collection ( http://arxiv.org/abs/2404.00184v1 )

ライセンス: Link先を確認
Marianna Marcella Bolognesi, Claudia Collacciani, Andrea Ferrari, Francesca Genovese, Tommaso Lamarra, Adele Loia, Giulia Rambelli, Andrea Amelio Ravelli, Caterina Villani, (参考訳) Word Ladders(ワードラダーズ)は、AndroidとiOS向けの無料のモバイルアプリケーションで、抽象プロジェクト(ERC-2021-STG-101039777)の中で、言語データを収集するために開発された。 ここでは、Word Laddersの概要を説明し、ゲームロジック、モチベーション、期待された結果、およびnlpタスクおよび認知科学的オープンな質問の調査への応用について説明する。

Word Ladders is a free mobile application for Android and iOS, developed for collecting linguistic data, specifically lists of words related to each other through semantic relations of categorical inclusion, within the Abstraction project (ERC-2021-STG-101039777). We hereby provide an overview of Word Ladders, explaining its game logic, motivation and expected results and applications to nlp tasks as well as to the investigation of cognitive scientific open questions
翻訳日:2024-04-04 06:56:43 公開日:2024-03-29
# アクティブビジョンシステムの固有対向ロバスト性について

On Inherent Adversarial Robustness of Active Vision Systems ( http://arxiv.org/abs/2404.00185v1 )

ライセンス: Link先を確認
Amitangshu Mukherjee, Timur Ibrayev, Kaushik Roy, (参考訳) 現在のディープニューラルネットワークは、敵の例に弱いため、慎重に作り上げられたノイズを加えることで予測を変更できる。 人間の目はそのような入力に対して堅牢であるため、この脆弱性は1ショットで全てのピクセルを同じ重要性で処理することで、入力を処理する標準的な方法に由来する可能性がある。 対照的に神経科学は、人間の視覚システムは(1)複数の固定点(サケード)を切り替え、(2)周囲を一様でない外部分解能(探索)で処理することで、有能な特徴を区別することができることを示唆している。 本研究では,このようなアクティブビジョン機構を現在のディープラーニングシステムに統合することで,堅牢性の向上が期待できると考えている。 具体的には、ブラックボックス脅威モデルの下で、GFNetとFALconという2つのアクティブビジョン手法の本質的な堅牢性を実証的に実証する。 入力中の複数の異なる固定点から得られたサンプル化されたスリープを学習し、推論することにより、これらのアクティブな手法は、最先端の敵攻撃下での標準的なパッシブ畳み込みネットワークに比べて、(2-3)大きなロバスト性を達成することを示す。 さらに重要なことは、異なる固定点からの推論を行うと、アクティブな視覚メソッドが悪意のある入力に対して脆弱になることを示す、図解的で解釈可能な可視化分析を提供することである。

Current Deep Neural Networks are vulnerable to adversarial examples, which alter their predictions by adding carefully crafted noise. Since human eyes are robust to such inputs, it is possible that the vulnerability stems from the standard way of processing inputs in one shot by processing every pixel with the same importance. In contrast, neuroscience suggests that the human vision system can differentiate salient features by (1) switching between multiple fixation points (saccades) and (2) processing the surrounding with a non-uniform external resolution (foveation). In this work, we advocate that the integration of such active vision mechanisms into current deep learning systems can offer robustness benefits. Specifically, we empirically demonstrate the inherent robustness of two active vision methods - GFNet and FALcon - under a black box threat model. By learning and inferencing based on downsampled glimpses obtained from multiple distinct fixation points within an input, we show that these active methods achieve (2-3) times greater robustness compared to a standard passive convolutional network under state-of-the-art adversarial attacks. More importantly, we provide illustrative and interpretable visualization analysis that demonstrates how performing inference from distinct fixation points makes active vision methods less vulnerable to malicious inputs.
翻訳日:2024-04-04 06:56:43 公開日:2024-03-29
# DataAgent: 大規模言語モデルの評価能力

DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries ( http://arxiv.org/abs/2404.00188v1 )

ライセンス: Link先を確認
Manit Mishra, Abderrahman Braham, Charles Marsom, Bryan Chung, Gavin Griffin, Dakshesh Sidnerlikar, Chatanya Sarin, Arjun Rajaram, (参考訳) データセットを分析し、意味のある情報を抽出する従来のプロセスは、しばしば時間と労力を要する。 これまでの研究は、手動、反復的なコーディング、データ収集を、データサイエンティストがよりニュアンスな労働力やハイレベルなプロジェクトに取り組むのを妨げる大きな障害として特定してきた。 これに対抗するため,OpenAIの GPT-3.5 を "Language Data Scientist" (LDS) として評価した。 このモデルは、NumPy、Pandas、Scikit-Learn、TensorFlowといったライブラリを含むデータサイエンスコード生成タスクを含む、さまざまな標準のパフォーマンスを評価するために、さまざまなベンチマークデータセットでテストされ、ベンチマークデータセットに関連する所定のデータサイエンスクエリに正しく答えることに成功した。 LDSは、Chain-of-Thoughtの強化やSayCanのプロンプトエンジニアリングなど、様々な新しいプロンプトエンジニアリング技術を使用して、与えられた質問に答えた。 その結果,低レベルゼロショットデータ解析に大規模言語モデルを活用する大きな可能性を示した。

Conventional processes for analyzing datasets and extracting meaningful information are often time-consuming and laborious. Previous work has identified manual, repetitive coding and data collection as major obstacles that hinder data scientists from undertaking more nuanced labor and high-level projects. To combat this, we evaluated OpenAI's GPT-3.5 as a "Language Data Scientist" (LDS) that can extrapolate key findings, including correlations and basic information, from a given dataset. The model was tested on a diverse set of benchmark datasets to evaluate its performance across multiple standards, including data science code-generation based tasks involving libraries such as NumPy, Pandas, Scikit-Learn, and TensorFlow, and was broadly successful in correctly answering a given data science query related to the benchmark dataset. The LDS used various novel prompt engineering techniques to effectively answer a given question, including Chain-of-Thought reinforcement and SayCan prompt engineering. Our findings demonstrate great potential for leveraging Large Language Models for low-level, zero-shot data analysis.
翻訳日:2024-04-04 06:56:43 公開日:2024-03-29
# GPTA:LLMを用いたシナジスティックダウンストリームニューラルネットワーク強化のための生成プロンプトチューニングアシスタント

GPTA: Generative Prompt Tuning Assistant for Synergistic Downstream Neural Network Enhancement with LLMs ( http://arxiv.org/abs/2404.00189v1 )

ライセンス: Link先を確認
Xiao Liu, Jiawei Zhang, (参考訳) 本研究はGPTA(Large Language Model assistance training framework)を導入し,プレフィックスプロンプトによる下流タスクモデルのトレーニングを強化する。 LLMのデータ露出を最小限にすることで、下流タスクモデルトレーニングにLLMを適用する際のセキュリティと法的課題に対処する。 GPTAは,パラメータ勾配を用いた下流モデルの最適化と,新しい「対話勾配」を用いたLLMの最適化という,新たな相乗的学習手法を採用している。 このフレームワークは6つのNLPベンチマークデータセットにおけるモデルパフォーマンスの大幅な改善を示すだけでなく、低リソースシナリオのオーバーフィットを効果的に削減する。 より詳細な分析により,私達の先駆的なフレームワークが,LLMサポートによる下流タスクモデルトレーニングに費用効率と適応性を提供することを確認した。

This study introduces GPTA, a Large Language Model assistance training framework, that enhances the training of downstream task models via prefix prompt. By minimizing data exposure to LLM, the framework addresses the security and legal challenges of applying LLM in downstream task model training. GPTA utilizes a new synergistic training approach, optimizing the downstream models with parameter gradients and LLMs with the novel ``dialogue gradient''. The framework not only demonstrates significant improvements in model performance across six NLP benchmark datasets, but also reduces overfitting in low-resource scenarios effectively. The detailed analyses further validate that our pioneer framework provides a cost-efficient and adaptive method for downstream task model training with LLM support.
翻訳日:2024-04-04 06:56:43 公開日:2024-03-29
# GuaranTEE: CCAによるAttestableとPrivateMLを目指す

GuaranTEE: Towards Attestable and Private ML with CCA ( http://arxiv.org/abs/2404.00190v1 )

ライセンス: Link先を確認
Sandra Siby, Sina Abdollahi, Mohammad Maheri, Marios Kogias, Hamed Haddadi, (参考訳) 機械学習(ML)モデルは、さまざまなサービスを提供するために、エッジデバイスにますますデプロイされている。 しかしながら、同社のデプロイメントには、モデルのプライバシと監査性に関する課題が伴っている。 モデルプロバイダはそれを確実にしたい (i)その独自モデルが第三者に公開されていないこと、及び 2)ユーザとのサービス契約に従って、真のモデルがエッジデバイス上で動作していることの証明を得る。 これらの課題に対処するための既存の対策は、エッジデバイス上の高いオーバーヘッドや限られた能力(処理/セキュアメモリ)といった問題によって妨げられている。 本研究では,エッジ上で検証可能なプライベート機械学習を提供するフレームワークであるGuranTEEを提案する。 GuaranTEEは、Armの最新アーキテクチャ拡張であるConfidential Computing Architecture(CCA)を使用して、モデルの実行が可能な動的信頼された実行環境(TEE)の作成とデプロイを可能にする。 CCAがプロトタイプを開発し、評価し、公開することで、MLモデルをデプロイできる可能性を評価する。 また、エッジデバイス上でのMLデプロイメントパイプライン全体を保護するために、CCAの改善も提案しています。

Machine-learning (ML) models are increasingly being deployed on edge devices to provide a variety of services. However, their deployment is accompanied by challenges in model privacy and auditability. Model providers want to ensure that (i) their proprietary models are not exposed to third parties; and (ii) be able to get attestations that their genuine models are operating on edge devices in accordance with the service agreement with the user. Existing measures to address these challenges have been hindered by issues such as high overheads and limited capability (processing/secure memory) on edge devices. In this work, we propose GuaranTEE, a framework to provide attestable private machine learning on the edge. GuaranTEE uses Confidential Computing Architecture (CCA), Arm's latest architectural extension that allows for the creation and deployment of dynamic Trusted Execution Environments (TEEs) within which models can be executed. We evaluate CCA's feasibility to deploy ML models by developing, evaluating, and openly releasing a prototype. We also suggest improvements to CCA to facilitate its use in protecting the entire ML deployment pipeline on edge devices.
翻訳日:2024-04-04 06:56:43 公開日:2024-03-29
# 最適ブラックジャック戦略レコメンデーション:強化ゲームプレイのためのコンピュータビジョン統合に関する総合的研究

Optimal Blackjack Strategy Recommender: A Comprehensive Study on Computer Vision Integration for Enhanced Gameplay ( http://arxiv.org/abs/2404.00191v1 )

ライセンス: Link先を確認
Krishnanshu Gupta, Devon Bolt, Ben Hinchliff, (参考訳) 本研究は,一般的なカジノゲームであるブラックジャックの文脈におけるカードの検出と認識のためのコンピュータビジョン技術の応用について検討する。 主な目的は、カードをリアルタイムに検出し、正確に分類し、現在の遊技の所定の画像に基づいて最適な動きの推薦を表示することのできるロバストシステムを開発することである。 提案手法は,画像分割,カード再投影,特徴抽出にK-Meansを用いること,ラベル付きデータセットを用いたKNN分類器の訓練,ブラックジャック基本戦略推薦アルゴリズムへの検出システムの統合を含む。 さらに, 本研究の目的は, 異なる照明条件および閉塞条件下での各種カード設計の検出において, このアプローチの有効性を観察することである。 全体として、コンピュータビジョン技術がカード検出に特化してプレイヤーの意思決定を強化し、戦略的な成果を最適化することを目的としたゲームに組み込むことの潜在的な利点について検討する。 実世界のカジノ環境や、他の同様の構成のゲームにおいて、実用的実装の可能性を明らかにするため、かなりの時間制約下で開発されたモデルを用いた実験結果が得られた。

This research project investigates the application of several computer vision techniques for playing card detection and recognition in the context of the popular casino game, blackjack. The primary objective is to develop a robust system that is capable of detecting and accurately classifying playing cards in real-time, and displaying the optimal move recommendation based on the given image of the current game. The proposed methodology involves using K-Means for image segmentation, card reprojection and feature extraction, training of the KNN classifier using a labeled dataset, and integration of the detection system into a Blackjack Basic Strategy recommendation algorithm. Further, the study aims to observe the effectiveness of this approach in detecting various card designs under different lighting conditions and occlusions. Overall, the project examines the potential benefits of incorporating computer vision techniques, with a specific focus on card detection, into commonly played games aiming to enhance player decision-making and optimize strategic outcomes. The results obtained from our experimental evaluations with models developed under considerable time constraints, highlight the potential for practical implementation in real-world casino environments and across other similarly structured games.
翻訳日:2024-04-04 06:56:43 公開日:2024-03-29
# 密度推定による多重政治評価

Multiple-policy Evaluation via Density Estimation ( http://arxiv.org/abs/2404.00195v1 )

ライセンス: Link先を確認
Yilei Chen, Aldo Pacchiano, Ioannis Ch. Paschalidis, (参考訳) 本研究は,目標政策のセットとしてK$を与えられた多重政治評価問題に焦点をあて,その目標は,その性能(期待される総報酬)を,少なくとも1-\delta$の確率で$\epsilon$の精度で評価することである。 この問題に対処するために,$\mathrm{CAESAR}$というアルゴリズムを提案する。 提案手法は, 最適オフラインサンプリング分布を近似的に計算し, 得られたデータを用いてポリシー値の同時推定を行う。 $\mathrm{CAESAR}$は2つのフェーズからなる。 最初の例では、ターゲットポリシーの振動分布の粗い推定を、$\tilde{O}(\frac{1}{\epsilon})$でスケールする低次サンプル複雑性率で生成する。 第2フェーズでは、最適オフラインサンプリング分布を近似し、DualDICEの目的にインスパイアされたステップワイド2次損失関数を最小化することにより、全ての目標ポリシーの重み付け比を計算する。 低次かつ対数的な$\mathrm{CAESAR}$は、サンプル複雑性$\tilde{O}\left(\frac{H^4}{\epsilon^2}\sum_{h=1}^H\max_{k\in[K]}\sum_{s,a}\frac{(d_h^{\pi^k}(s,a))^2}{\mu^*_h(s,a)}\right)$である。

In this work, we focus on the multiple-policy evaluation problem where we are given a set of $K$ target policies and the goal is to evaluate their performance (the expected total rewards) to an accuracy $\epsilon$ with probability at least $1-\delta$. We propose an algorithm named $\mathrm{CAESAR}$ to address this problem. Our approach is based on computing an approximate optimal offline sampling distribution and using the data sampled from it to perform the simultaneous estimation of the policy values. $\mathrm{CAESAR}$ consists of two phases. In the first one we produce coarse estimates of the vistation distributions of the target policies at a low order sample complexity rate that scales with $\tilde{O}(\frac{1}{\epsilon})$. In the second phase, we approximate the optimal offline sampling distribution and compute the importance weighting ratios for all target policies by minimizing a step-wise quadratic loss function inspired by the objective in DualDICE. Up to low order and logarithm terms $\mathrm{CAESAR}$ achieves a sample complexity $\tilde{O}\left(\frac{H^4}{\epsilon^2}\sum_{h=1}^H\max_{k\in[K]}\sum_{s,a}\frac{(d_h^{\pi^k}(s,a))^2}{\mu^*_h(s,a)}\right)$, where $d^{\pi}$ is the visitation distribution of policy $\pi$ and $\mu^*$ is the optimal sampling distribution.
翻訳日:2024-04-04 06:56:43 公開日:2024-03-29
# 高齢者のデジタル化のためのエンターテイメントチャットボット

Entertainment chatbot for the digital inclusion of elderly people without abstraction capabilities ( http://arxiv.org/abs/2404.01327v1 )

ライセンス: Link先を確認
Silvia García-Méndez, Francisco de Arriba-Pérez, Francisco J. González-Castaño, José A. Regueiro-Janeiro, Felipe Gil-Castiñeira, (参考訳) 現在の言語処理技術は、会話型チャットボットプラットフォームの作成を可能にする。 人工知能はまだ未成熟で、多くのマスマーケットドメインで満足いくユーザーエクスペリエンスをサポートできないが、会話インターフェースはコールセンタやオンラインショッピングアシスタントといったアドホックなアプリケーションに導入されている。 しかし、デジタル格差に特に弱い高齢者の社会的包摂には適用されていない。 多くはテレビやラジオなどの伝統的なメディアとの孤独感を和らげており、同調感を生んでいることが知られている。 本稿では高齢者のデジタルギャップを低減するためのEBERチャットボットを提案する。 EBERはバックグラウンドでニュースを読み、ユーザーの気分に反応する。 その斬新さは「知的なラジオ」という概念にあり、高齢者にアクセスできるようにデジタル情報システムを簡単にする代わりに、従来のチャンネルであるバックグラウンドニュースは音声対話を通じて対話を増強している。 我々は,人工知能モデリング言語,自然言語自動生成,感性分析を組み合わせることで実現した。 ユーザ回答から抽出した単語とチャットボット質問とをニュース項目から抽出したキーワードとを組み合わせることで、興味のあるデジタルコンテンツへのアクセスを可能にする。 このアプローチにより、単語空間の空間表現に依存するユーザの抽象化能力のメトリクスを定義することができる。 提案手法の適合性を証明するため,高齢者による実実験の結果を提示した。 提案手法は, 被験者の情報検索能力の向上と評価を行った。

Current language processing technologies allow the creation of conversational chatbot platforms. Even though artificial intelligence is still too immature to support satisfactory user experience in many mass market domains, conversational interfaces have found their way into ad hoc applications such as call centres and online shopping assistants. However, they have not been applied so far to social inclusion of elderly people, who are particularly vulnerable to the digital divide. Many of them relieve their loneliness with traditional media such as TV and radio, which are known to create a feeling of companionship. In this paper we present the EBER chatbot, designed to reduce the digital gap for the elderly. EBER reads news in the background and adapts its responses to the user's mood. Its novelty lies in the concept of "intelligent radio", according to which, instead of simplifying a digital information system to make it accessible to the elderly, a traditional channel they find familiar -- background news -- is augmented with interactions via voice dialogues. We make it possible by combining Artificial Intelligence Modelling Language, automatic Natural Language Generation and Sentiment Analysis. The system allows accessing digital content of interest by combining words extracted from user answers to chatbot questions with keywords extracted from the news items. This approach permits defining metrics of the abstraction capabilities of the users depending on a spatial representation of the word space. To prove the suitability of the proposed solution we present results of real experiments conducted with elderly people that provided valuable insights. Our approach was considered satisfactory during the tests and improved the information search capabilities of the participants.
翻訳日:2024-04-03 21:06:49 公開日:2024-03-29
# WhatsApp Explorer:WhatsAppの研究を支援するデータ提供ツール

WhatsApp Explorer: A Data Donation Tool To Facilitate Research on WhatsApp ( http://arxiv.org/abs/2404.01328v1 )

ライセンス: Link先を確認
Kiran Garimella, Simon Chauchard, (参考訳) 近年、選挙から集団暴力まで、さまざまな出来事におけるWhatsAppの役割を示す報告や逸話的証拠が浮上している。 学術研究はこれらの主張の妥当性を検討するべきであるが、WhatsAppのデータを取得することは、FacebookやTwitterのようなプラットフォームからのデータの相対的な多さとは対照的に、明らかに困難である。 WhatsAppがメッセージング市場を支配しているグローバル・サウス諸国のセットでは、誤情報やヘイトスピーチが大きな問題となっているため、このデータの欠如は特に問題となる。 この論文では、WhatsAppのデータ収集を大規模に行うためのツールであるWhatsApp Explorerを紹介する。 我々は、潜在的なサンプリングアプローチを含む、データ収集のためのプロトコルについて議論し、我々のツール(および隣接するプロトコル)がWhatsAppデータを倫理的かつ法的に、大規模に収集することを可能にする理由を説明します。

In recent years, reports and anecdotal evidence pointing at the role of WhatsApp in a variety of events, ranging from elections to collective violence, have emerged. While academic research should examine the validity of these claims, obtaining WhatsApp data for research is notably challenging, contrasting with the relative abundance of data from platforms like Facebook and Twitter, where user "information diets" have been extensively studied. This lack of data is particularly problematic since misinformation and hate speech are major concerns in the set of Global South countries in which WhatsApp dominates the market for messaging. To help make research on these questions, and more generally research on WhatsApp, possible, this paper introduces WhatsApp Explorer, a tool designed to enable WhatsApp data collection on a large scale. We discuss protocols for data collection, including potential sampling approaches, and explain why our tool (and adjoining protocol) arguably allow researchers to collect WhatsApp data in an ethical and legal manner, at scale.
翻訳日:2024-04-03 21:06:49 公開日:2024-03-29
# 位相限定ホログラムのためのホロVQVAE:VQ-VAE

Holo-VQVAE: VQ-VAE for phase-only holograms ( http://arxiv.org/abs/2404.01330v1 )

ライセンス: Link先を確認
Joohyun Park, Hyeongyeop Kang, (参考訳) ホログラフィーは視覚技術革新の最前線にあり、光波振幅と位相の操作による没入型3次元可視化を提供する。 ホログラム生成に関する現代の研究は、主に画像からホログラムへの変換に焦点を当てており、既存の画像からホログラムを生成する。 これらのアプローチは効果的であるが、本質的にホログラム生成における革新と創造性の範囲を制限している。 この制限に対応するために,位相限定ホログラム(POH)に適した新しい生成フレームワークであるHolo-VQVAEを提案する。 Holo-VQVAEはベクトル量子化変分オートエンコーダのアーキテクチャを利用して、POHの複雑な分布を学習する。 さらに、Angular Spectrum Methodをトレーニングプロセスに統合し、イメージドメインでの学習を容易にする。 このフレームワークは、既存の画像を必要とすることなく、複雑に学習された潜在空間から直接、目に見えない多様なホログラフィックコンテンツを生成することができる。 この先駆的な研究はホログラフィックコンテンツ作成における基礎的な応用と方法論の道を開き、ホログラフィックコンテンツ探索の新しい時代を開く。

Holography stands at the forefront of visual technology innovation, offering immersive, three-dimensional visualizations through the manipulation of light wave amplitude and phase. Contemporary research in hologram generation has predominantly focused on image-to-hologram conversion, producing holograms from existing images. These approaches, while effective, inherently limit the scope of innovation and creativity in hologram generation. In response to this limitation, we present Holo-VQVAE, a novel generative framework tailored for phase-only holograms (POHs). Holo-VQVAE leverages the architecture of Vector Quantized Variational AutoEncoders, enabling it to learn the complex distributions of POHs. Furthermore, it integrates the Angular Spectrum Method into the training process, facilitating learning in the image domain. This framework allows for the generation of unseen, diverse holographic content directly from its intricately learned latent space without requiring pre-existing images. This pioneering work paves the way for groundbreaking applications and methodologies in holographic content creation, opening a new era in the exploration of holographic content.
翻訳日:2024-04-03 21:06:49 公開日:2024-03-29
# LLaVA-Gemma: コンパクト言語モデルによるマルチモーダル基礎モデルの高速化

LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model ( http://arxiv.org/abs/2404.01331v1 )

ライセンス: Link先を確認
Musashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal, (参考訳) 我々は、最近リリースされた大規模言語モデル(LLM)のGemmaファミリで、人気のあるLLaVAフレームワークを使用して、MMFM(Multimodal foundation model)のスイートをトレーニングする。 特に興味深いのは、2Bパラメータ Gemma モデルであり、これは有能な小規模MMFMを構築する機会を提供する。 本研究は, コネクタの事前訓練, より強力な画像バックボーンの利用, 言語バックボーンの大きさの増大という, 3つの設計上の特徴について検討した。 LLaVA-Gemmaと呼ばれる結果のモデルは、評価の配列に対して適度な性能を示すが、現在の大容量SOTAモデルよりは改善されない。 事前学習をスキップすると性能が低下する傾向があり、より大きな視覚モデルでは性能が向上する傾向があり、言語モデルのサイズが大きくなると矛盾する効果がある。 LLaVA-Gemmaモデルのトレーニングレシピ、コード、重み付けを公開しています。

We train a suite of multimodal foundation models (MMFM) using the popular LLaVA framework with the recently released Gemma family of large language models (LLMs). Of particular interest is the 2B parameter Gemma model, which provides opportunities to construct capable small-scale MMFMs. In line with findings from other papers in this space, we test the effect of ablating three design features: pretraining the connector, utilizing a more powerful image backbone, and increasing the size of the language backbone. The resulting models, which we call LLaVA-Gemma, exhibit moderate performance on an array of evaluations, but fail to improve past the current comparably sized SOTA models. Closer analysis of performance shows mixed effects; skipping pretraining tends to reduce performance, larger vision models sometimes improve performance, and increasing language model size has inconsistent effects. We publicly release training recipes, code and weights for our models for the LLaVA-Gemma models.
翻訳日:2024-04-03 21:06:49 公開日:2024-03-29
# オールトーケンノイズか? - シェープな値を使ってLCMの振る舞いを解釈する

Wait, It's All Token Noise? Always Has Been: Interpreting LLM Behavior Using Shapley Value ( http://arxiv.org/abs/2404.01332v1 )

ライセンス: Link先を確認
Behnam Mohammadi, (参考訳) 大規模言語モデル(LLM)の出現は、マーケティング研究や消費者行動分析など、様々な分野における潜在的な応用とともに、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。 しかし, LLMをヒトのスタンドインとして活用する妥当性は, 基礎過程が根本的に異なることや, LLM応答の感度が変化の促進に寄与していることから, 明らかでない。 本稿では,協調ゲーム理論からのシェープリー値に基づく新たなアプローチを提案し,各プロンプト成分の相対的寄与をモデル出力に定量化する。 2つの応用-個別選択実験と認知バイアスの調査-を通じて、我々は、Shpley値法がいかにして「トーケンノイズ」効果と呼ばれるものを明らかにすることができるかを実証した。 この現象は、人間の行動シミュレーションの文脈において、LSMから得られる洞察の堅牢性と一般化可能性に関する懸念を提起する。 我々のモデルに依存しないアプローチは、その実用性を独自のLCMに拡張し、マーケターや研究者が戦略的にプロンプトを最適化し、明らかな認知バイアスを軽減する貴重なツールを提供する。 研究環境における被験者の代用として利用する前に, LLM反応を駆動する要因について, よりきめ細やかな理解の必要性が示唆された。 我々は、特定のプロンプトテンプレートに条件付けされた結果を報告することの重要性を強調し、人間の行動とLLMの並行性を引き出す際に注意を喚起する。

The emergence of large language models (LLMs) has opened up exciting possibilities for simulating human behavior and cognitive processes, with potential applications in various domains, including marketing research and consumer behavior analysis. However, the validity of utilizing LLMs as stand-ins for human subjects remains uncertain due to glaring divergences that suggest fundamentally different underlying processes at play and the sensitivity of LLM responses to prompt variations. This paper presents a novel approach based on Shapley values from cooperative game theory to interpret LLM behavior and quantify the relative contribution of each prompt component to the model's output. Through two applications-a discrete choice experiment and an investigation of cognitive biases-we demonstrate how the Shapley value method can uncover what we term "token noise" effects, a phenomenon where LLM decisions are disproportionately influenced by tokens providing minimal informative content. This phenomenon raises concerns about the robustness and generalizability of insights obtained from LLMs in the context of human behavior simulation. Our model-agnostic approach extends its utility to proprietary LLMs, providing a valuable tool for marketers and researchers to strategically optimize prompts and mitigate apparent cognitive biases. Our findings underscore the need for a more nuanced understanding of the factors driving LLM responses before relying on them as substitutes for human subjects in research settings. We emphasize the importance of researchers reporting results conditioned on specific prompt templates and exercising caution when drawing parallels between human behavior and LLMs.
翻訳日:2024-04-03 21:06:49 公開日:2024-03-29
# EuclideanとAffine Curveの再建

Euclidean and Affine Curve Reconstruction ( http://arxiv.org/abs/2201.09929v3 )

ライセンス: Link先を確認
Jose Agudelo, Brooke Dippold, Ian Klein, Alex Kokot, Eric Geiger, Irina Kogan, (参考訳) 所定のユークリッド曲率やアフィン曲率で平面曲線を再構成する実践的側面を考察する。 これらの曲率はそれぞれ特殊ユークリッド群と等アフィン群の下で不変であり、コンピュータビジョンや形状解析において重要な役割を果たす。 このような再構成のためのアルゴリズムを議論し実装し、適切な測定値における曲率の密接度に対する再構成曲線の密接度を推定する。 いくつかの例を挙げる。

We consider practical aspects of reconstructing planar curves with prescribed Euclidean or affine curvatures. These curvatures are invariant under the special Euclidean group and the equi-affine groups, respectively, and play an important role in computer vision and shape analysis. We discuss and implement algorithms for such reconstruction, and give estimates on how close reconstructed curves are relative to the closeness of their curvatures in appropriate metrics. Several illustrative examples are provided.
翻訳日:2024-04-02 16:23:34 公開日:2024-03-29
# eXplainable Artificial Intelligence(XAI)の規制は消費者に悪影響を及ぼすか

Regulating eXplainable Artificial Intelligence (XAI) May Harm Consumers ( http://arxiv.org/abs/2209.03499v3 )

ライセンス: Link先を確認
Behnam Mohammadi, Nikhil Malik, Tim Derdenger, Kannan Srinivasan, (参考訳) 最近のAIアルゴリズムは、解釈が難しいブラックボックスモデルである。 eXplainable AI (XAI)は、AIの解釈可能性と信頼の欠如に対処するために、顧客にAI決定を説明する方法のクラスである。 一般的な知恵は、完全に透明なXAIを強制することによってAIの規制が社会福祉を増大させるということである。 本稿は,社会福祉を最大化する政策立案者のゲーム理論モデル,利益を最大化する二重競争の企業,異種消費者を最大化する政策立案者のゲーム理論モデルを通じて,この概念に挑戦する。 その結果,XAI規制は冗長である可能性が示唆された。 実際、完全に透明なXAIを強制することは、企業や消費者を悪化させる可能性がある。 これは、福祉の最大化と説明可能なAI出力の受け入れのトレードオフを明らかにする。 我々は,既存の文献を手法と実体的側面に拡張し,必須のXAIでも保証できないXAI公正の概念を導入し,研究する。 最後に, 政策立案者, 企業に対する結果の規制的および管理的含意について論じる。

Recent AI algorithms are black box models whose decisions are difficult to interpret. eXplainable AI (XAI) is a class of methods that seek to address lack of AI interpretability and trust by explaining to customers their AI decisions. The common wisdom is that regulating AI by mandating fully transparent XAI leads to greater social welfare. Our paper challenges this notion through a game theoretic model of a policy-maker who maximizes social welfare, firms in a duopoly competition that maximize profits, and heterogenous consumers. The results show that XAI regulation may be redundant. In fact, mandating fully transparent XAI may make firms and consumers worse off. This reveals a tradeoff between maximizing welfare and receiving explainable AI outputs. We extend the existing literature on method and substantive fronts, and we introduce and study the notion of XAI fairness, which may be impossible to guarantee even under mandatory XAI. Finally, the regulatory and managerial implications of our results for policy-makers and businesses are discussed, respectively.
翻訳日:2024-04-02 16:23:34 公開日:2024-03-29
# 小型試料から大根多樹を推定する

Estimating large causal polytrees from small samples ( http://arxiv.org/abs/2209.07028v3 )

ライセンス: Link先を確認
Sourav Chatterjee, Mathukumalli Vidyasagar, (参考訳) 比較的小さなi.d.サンプルから大きな因果ポリツリーを推定する問題を考察する。 これは、遺伝子制御ネットワークのようなサンプルサイズに比べて変数の数が非常に大きい場合、因果構造を決定するという問題によって動機づけられる。 このような設定で高い精度で木を復元するアルゴリズムを提案する。 このアルゴリズムは、いくつかの軽度の非退化条件以外は、本質的に分布性やモデリングの仮定では機能しない。

We consider the problem of estimating a large causal polytree from a relatively small i.i.d. sample. This is motivated by the problem of determining causal structure when the number of variables is very large compared to the sample size, such as in gene regulatory networks. We give an algorithm that recovers the tree with high accuracy in such settings. The algorithm works under essentially no distributional or modeling assumptions other than some mild non-degeneracy conditions.
翻訳日:2024-04-02 16:23:34 公開日:2024-03-29
# 無制限メモリによるオンライン凸最適化

Online Convex Optimization with Unbounded Memory ( http://arxiv.org/abs/2210.09903v5 )

ライセンス: Link先を確認
Raunak Kumar, Sarah Dean, Robert Kleinberg, (参考訳) オンライン凸最適化(OCO)はオンライン学習において広く使われているフレームワークである。 各ラウンドにおいて、学習者は凸集合における決定を選択し、敵は凸損失関数を選択し、その後、学習者は現在の決定に関連する損失を被る。 しかし、多くのアプリケーションでは、学習者の損失は現在の決定だけでなく、その時点までの決定の歴史全体にも依存する。 OCOフレームワークとその既存の一般化は、これを捉えておらず、長い近似の議論の後、多くの関心事にしか適用できない。 彼らはまた、非自明な下限がないため、メモリ依存がきついかどうかという疑問も残している。 本稿では,OCOフレームワークである"Online Convex Optimization with Unbounded Memory"の一般化を紹介する。 我々は、過去の決定が現在の損失に与える影響を定量化する、$p$効率のメモリ容量、$H_p$の概念を導入する。 O(\sqrt{H_p T})$ up bound on the policy regret and a matching (worst-case) lower bound。 特別な場合として、有限メモリ \citep{anavaHM2015online} を持つ OCO に対する最初の非自明な下界を証明する。 オンライン線形制御や演奏予測のオンライン版を含む様々なオンライン学習問題に対して,後悔境界を導出し,既存の後悔境界を導出し,既存の後悔境界導出を改善することによって,我々のフレームワークの広範な適用性を実証する。

Online convex optimization (OCO) is a widely used framework in online learning. In each round, the learner chooses a decision in a convex set and an adversary chooses a convex loss function, and then the learner suffers the loss associated with their current decision. However, in many applications the learner's loss depends not only on the current decision but on the entire history of decisions until that point. The OCO framework and its existing generalizations do not capture this, and they can only be applied to many settings of interest after a long series of approximation arguments. They also leave open the question of whether the dependence on memory is tight because there are no non-trivial lower bounds. In this work we introduce a generalization of the OCO framework, "Online Convex Optimization with Unbounded Memory", that captures long-term dependence on past decisions. We introduce the notion of $p$-effective memory capacity, $H_p$, that quantifies the maximum influence of past decisions on present losses. We prove an $O(\sqrt{H_p T})$ upper bound on the policy regret and a matching (worst-case) lower bound. As a special case, we prove the first non-trivial lower bound for OCO with finite memory \citep{anavaHM2015online}, which could be of independent interest, and also improve existing upper bounds. We demonstrate the broad applicability of our framework by using it to derive regret bounds, and to improve and simplify existing regret bound derivations, for a variety of online learning problems including online linear control and an online variant of performative prediction.
翻訳日:2024-04-02 16:13:48 公開日:2024-03-29
# トレーニングデータの影響分析と推定:調査

Training Data Influence Analysis and Estimation: A Survey ( http://arxiv.org/abs/2212.04612v3 )

ライセンス: Link先を確認
Zayd Hammoudeh, Daniel Lowd, (参考訳) 優れたモデルは優れたトレーニングデータを必要とする。 過度にパラメータ化された深層モデルでは、トレーニングデータとモデル予測の因果関係はますます不透明で理解されていない。 影響分析は、各トレーニングインスタンスが最終モデルを変更する量を定量化することによって、トレーニングの基盤となる相互作用を部分的にデミステレーションする。 トレーニングデータの影響を正確に測定することは、最悪の場合、確実に難しい。 本稿では,トレーニングデータの影響分析と推定に関する総合的な調査を行う。 私たちはまず、さまざまな、そして直交する場所で、トレーニングデータの影響の定義を形式化することから始めます。 それぞれの手法を詳細に記述し、その基礎となる仮定、漸近的な複雑さ、全体的な強みと弱点を比較した。 最後に, 影響分析を実践上, 理論上, 経験的にも有用にするための今後の研究指針を提案する。 影響分析に関する最新のリソースのリストはhttps://github.com/ZaydH/influence_analysis_papersで公開されている。

Good models require good training data. For overparameterized deep models, the causal relationship between training data and model predictions is increasingly opaque and poorly understood. Influence analysis partially demystifies training's underlying interactions by quantifying the amount each training instance alters the final model. Measuring the training data's influence exactly can be provably hard in the worst case; this has led to the development and use of influence estimators, which only approximate the true influence. This paper provides the first comprehensive survey of training data influence analysis and estimation. We begin by formalizing the various, and in places orthogonal, definitions of training data influence. We then organize state-of-the-art influence analysis methods into a taxonomy; we describe each of these methods in detail and compare their underlying assumptions, asymptotic complexities, and overall strengths and weaknesses. Finally, we propose future research directions to make influence analysis more useful in practice as well as more theoretically and empirically sound. A curated, up-to-date list of resources related to influence analysis is available at https://github.com/ZaydH/influence_analysis_papers.
翻訳日:2024-04-02 16:13:48 公開日:2024-03-29
# 離散力学系における非自明な最小固定点の探索

Finding Nontrivial Minimum Fixed Points in Discrete Dynamical Systems ( http://arxiv.org/abs/2301.04090v5 )

ライセンス: Link先を確認
Zirou Qiu, Chen Chen, Madhav V. Marathe, S. S. Ravi, Daniel J. Rosenkrantz, Richard E. Stearns, Anil Vullikanti, (参考訳) ネットワーク化された離散力学系は、コーディネートゲームにおいてエージェントによる感染と意思決定の拡散をモデル化するためにしばしば用いられる。 このような力学系の固定点は、システムが収束する構成を表す。 望ましくない感染(噂や誤報など)の拡散では、少数の影響を受けるノードを持つ固定点への収束が望ましいゴールである。 このような考慮により、影響を受けるノード数が最小となるシステムの非自明な固定点を見つけるという、新しい最適化問題を定式化する。 P = NP でない限り、この問題の解を任意の定数 epsilon > 0 の係数 n^1-\epsilon に近似するための多項式時間アルゴリズムは存在しないことを証明している。 この計算難易度に対処するため,この問題を効率的に解決できる特別な事例をいくつか挙げる。 さらに,適切な大きさのネットワークに対する問題に対処する整数線形プログラムを提案する。 大規模ネットワーク上での問題を解くために、欲求選択法とともに一般的なヒューリスティックな枠組みを提案する。 実世界のネットワークにおける大規模な実験結果から,提案したヒューリスティックスの有効性が示された。

Networked discrete dynamical systems are often used to model the spread of contagions and decision-making by agents in coordination games. Fixed points of such dynamical systems represent configurations to which the system converges. In the dissemination of undesirable contagions (such as rumors and misinformation), convergence to fixed points with a small number of affected nodes is a desirable goal. Motivated by such considerations, we formulate a novel optimization problem of finding a nontrivial fixed point of the system with the minimum number of affected nodes. We establish that, unless P = NP, there is no polynomial time algorithm for approximating a solution to this problem to within the factor n^1-\epsilon for any constant epsilon > 0. To cope with this computational intractability, we identify several special cases for which the problem can be solved efficiently. Further, we introduce an integer linear program to address the problem for networks of reasonable sizes. For solving the problem on larger networks, we propose a general heuristic framework along with greedy selection methods. Extensive experimental results on real-world networks demonstrate the effectiveness of the proposed heuristics.
翻訳日:2024-04-02 16:13:48 公開日:2024-03-29
# 有限射影平面による分子ハミルトニアンのほぼ最適測定法

Almost optimal measurement scheduling of molecular Hamiltonian via finite projective plane ( http://arxiv.org/abs/2301.07335v3 )

ライセンス: Link先を確認
Wataru Inoue, Koki Aoyama, Yusuke Teranishi, Keita Kanno, Yuya O. Nakagawa, Kosuke Mitarai, (参考訳) 量子コンピュータ上での量子化学における分子ハミルトニアンの効率的かつほぼ最適な測定法を提案する。 ボネット・モンローグらによる以前の提案 (Phys. Rev. X 10, 031064 (2020)) を改良し、先行順で$\frac{10}{3}N^2$スケールする。 分子ハミルトニアンに含まれる同時測定可能な作用素の集合を構成するための有限射影平面に基づく新しい方法を開発する。 それぞれの測定は、量子ハードウェア上の量子ビットの線形接続を仮定して、ジョルダン・ウィグナーとパリティ写像の下で、$O(N^2)$ 1-および2-キュービットゲートからなる深さ$O(N)$回路のみを必要とする。 分子ハミルトニアンの期待値を評価することは、量子デバイスによる量子化学への応用における主要なボトルネックの1つであるため、我々はそのような応用を加速することが期待されている。

We propose an efficient and almost optimal scheme for measuring molecular Hamiltonians in quantum chemistry on quantum computers, which requires $2N^2$ distinct measurements in the leading order with $N$ being the number of molecular orbitals. It achieves the state-of-the-art by improving a previous proposal by Bonet-Monroig et al. [Phys. Rev. X 10, 031064 (2020)] which exhibits $\frac{10}{3}N^2$ scaling in the leading order. We develop a novel method based on a finite projective plane to construct sets of simultaneously-measurable operators contained in molecular Hamiltonians. Each measurement only requires a depth-$O(N)$ circuit consisting of $O(N^2)$ one- and two-qubit gates under the Jordan-Wigner and parity mapping, assuming the linear connectivity of qubits on quantum hardwares. Because evaluating expectation values of molecular Hamiltonians is one of the major bottlenecks in the applications of quantum devices to quantum chemistry, our finding is expected to accelerate such applications.
翻訳日:2024-04-02 16:13:48 公開日:2024-03-29
# LoCoNet: アクティブ話者検出のための長短コンテキストネットワーク

LoCoNet: Long-Short Context Network for Active Speaker Detection ( http://arxiv.org/abs/2301.08237v2 )

ライセンス: Link先を確認
Xizi Wang, Feng Cheng, Gedas Bertasius, David Crandall, (参考訳) Active Speaker Detection (ASD) は、ビデオの各フレームで誰が話しているかを特定することを目的としている。 長期話者間コンテキストと短期話者間コンテキストの2つの文脈からの音声および視覚情報からのASD理由 長期話者間コンテキストは、同じ話者の時間的依存関係をモデル化し、短期話者間コンテキストは、同じシーンにおける話者の相互作用をモデル化する。 これら2つのコンテキストは互いに補完的であり、アクティブな話者を推測するのに役立ちます。 本研究は,Long-Short Context Network(Long-Short Context Network,Long-Short Context Network,Long-Short Context Network,Long-Short Context Network,Long-Short Context Network,Long-Short Context Network)を提案する。 我々は、長期依存性のモデル化における有効性や、局所パターンをキャプチャして話者間コンテキストをモデル化する畳み込みブロックにより、話者間コンテキストのモデル化に自己アテンションを用いる。 大規模な実験によると、LoCoNetは複数のデータセットで最先端のパフォーマンスを達成し、AVA-ActiveSpeakerで95.2%(+1.1%)、コロンビアデータセットで68.1%(+22%)、トーキーデータセットで97.2%(+2.8%)、Ego4Dデータセットで59.7%(+8.0%)のmAPを達成した。 さらに、複数の話者が存在する場合、またはアクティブスピーカーの顔が同じシーンの他の顔よりもはるかに小さい場合、LoCoNetはAVA-ActiveSpeakerデータセットで従来の最先端のメソッドを3.4%上回っている。 コードはhttps://github.com/SJTUwxz/LoCoNet_ASDで公開される。

Active Speaker Detection (ASD) aims to identify who is speaking in each frame of a video. ASD reasons from audio and visual information from two contexts: long-term intra-speaker context and short-term inter-speaker context. Long-term intra-speaker context models the temporal dependencies of the same speaker, while short-term inter-speaker context models the interactions of speakers in the same scene. These two contexts are complementary to each other and can help infer the active speaker. Motivated by these observations, we propose LoCoNet, a simple yet effective Long-Short Context Network that models the long-term intra-speaker context and short-term inter-speaker context. We use self-attention to model long-term intra-speaker context due to its effectiveness in modeling long-range dependencies, and convolutional blocks that capture local patterns to model short-term inter-speaker context. Extensive experiments show that LoCoNet achieves state-of-the-art performance on multiple datasets, achieving an mAP of 95.2%(+1.1%) on AVA-ActiveSpeaker, 68.1%(+22%) on Columbia dataset, 97.2%(+2.8%) on Talkies dataset and 59.7%(+8.0%) on Ego4D dataset. Moreover, in challenging cases where multiple speakers are present, or face of active speaker is much smaller than other faces in the same scene, LoCoNet outperforms previous state-of-the-art methods by 3.4% on the AVA-ActiveSpeaker dataset. The code will be released at https://github.com/SJTUwxz/LoCoNet_ASD.
翻訳日:2024-04-02 16:13:48 公開日:2024-03-29
# NOPE:単一画像からの新しいオブジェクトポス推定

NOPE: Novel Object Pose Estimation from a Single Image ( http://arxiv.org/abs/2303.13612v2 )

ライセンス: Link先を確認
Van Nguyen Nguyen, Thibault Groueix, Yinlin Hu, Mathieu Salzmann, Vincent Lepetit, (参考訳) 3Dオブジェクトのポーズ推定の実用性は、3Dモデルの事前知識と新しいオブジェクトのトレーニング期間を必要とするため、多くのアプリケーションで制限されている。 この制限に対処するために,新しいオブジェクトの1つのイメージを入力として取り込んで,オブジェクトの3Dモデルの事前知識を必要とせず,新たなオブジェクトやカテゴリのトレーニング時間も必要とせず,新しいイメージにおけるオブジェクトの相対的なポーズを予測するアプローチを提案する。 対象物を取り巻く視点に対する識別的埋め込みを直接予測するモデルを訓練することでこれを実現できる。 この予測は単純なU-Netアーキテクチャを用いて行われ、必要なポーズに注意を向け、条件を定め、非常に高速な推論をもたらす。 我々の手法を最先端の手法と比較し、精度と堅牢性の両方で優れた性能を示す。 ソースコードはhttps://github.com/nv-nguyen/nopeで公開されています。

The practicality of 3D object pose estimation remains limited for many applications due to the need for prior knowledge of a 3D model and a training period for new objects. To address this limitation, we propose an approach that takes a single image of a new object as input and predicts the relative pose of this object in new images without prior knowledge of the object's 3D model and without requiring training time for new objects and categories. We achieve this by training a model to directly predict discriminative embeddings for viewpoints surrounding the object. This prediction is done using a simple U-Net architecture with attention and conditioned on the desired pose, which yields extremely fast inference. We compare our approach to state-of-the-art methods and show it outperforms them both in terms of accuracy and robustness. Our source code is publicly available at https://github.com/nv-nguyen/nope
翻訳日:2024-04-02 16:04:03 公開日:2024-03-29
# ベル差分サンプリングによる安定化器推定の改善

Improved Stabilizer Estimation via Bell Difference Sampling ( http://arxiv.org/abs/2304.13915v3 )

ライセンス: Link先を確認
Sabee Grewal, Vishnu Iyer, William Kretschmer, Daniel Liang, (参考訳) 安定化器の定式化に関して、量子状態の学習の複雑さについて研究し、以下の結果を得る。 - 計算的に擬似ランダムな量子状態を作成するためには、任意のクリフォード+T$回路に$\Omega(n)$$T$-gatesが必要であることを証明します。 この境界は、線形時間量子安全な擬ランドム関数が存在する場合、漸近的に厳密である。 -$n$-qubit純量子状態 $|\psi\rangle$ が少なくとも$\tau$ の安定化状態を持つとき、安定化状態の簡潔な記述を出力し、少なくとも$\tau - \varepsilon$ を目撃するアルゴリズムを与える。 このアルゴリズムは、$O(n/(\varepsilon^2\tau^4))$サンプルと$\exp\left(O(n/\tau^4)\right) / \varepsilon^2$ timeを使用する。 このアルゴリズムは、$\tau$定数のレギュレーションにおいて、すべての安定化状態に対して、Na\"ive $\exp(O(n^2))$-time brute-forceアルゴリズムよりもかなり高速に安定化器の忠実度を推定する。 -$\tau > \cos^2(\pi/8)$の特殊な場合、上記のアルゴリズムの修正は多項式時間で実行されることを示す。 -安定状態に対する耐久性試験アルゴリズムを示す。 全結果のアルゴリズムプリミティブはベル差分サンプリングである。 この結果を証明するため,ベル差分サンプリング,シンプレクティックフーリエ解析,グラフ理論の接続を確立する。

We study the complexity of learning quantum states in various models with respect to the stabilizer formalism and obtain the following results: - We prove that $\Omega(n)$ $T$-gates are necessary for any Clifford+$T$ circuit to prepare computationally pseudorandom quantum states, an exponential improvement over the previously known bound. This bound is asymptotically tight if linear-time quantum-secure pseudorandom functions exist. - Given an $n$-qubit pure quantum state $|\psi\rangle$ that has fidelity at least $\tau$ with some stabilizer state, we give an algorithm that outputs a succinct description of a stabilizer state that witnesses fidelity at least $\tau - \varepsilon$. The algorithm uses $O(n/(\varepsilon^2\tau^4))$ samples and $\exp\left(O(n/\tau^4)\right) / \varepsilon^2$ time. In the regime of $\tau$ constant, this algorithm estimates stabilizer fidelity substantially faster than the na\"ive $\exp(O(n^2))$-time brute-force algorithm over all stabilizer states. - In the special case of $\tau > \cos^2(\pi/8)$, we show that a modification of the above algorithm runs in polynomial time. - We exhibit a tolerant property testing algorithm for stabilizer states. The underlying algorithmic primitive in all of our results is Bell difference sampling. To prove our results, we establish and/or strengthen connections between Bell difference sampling, symplectic Fourier analysis, and graph theory.
翻訳日:2024-04-02 16:04:03 公開日:2024-03-29
# 近似安定化器ランクの二次下限:確率論的アプローチ

Quadratic Lower bounds on the Approximate Stabilizer Rank: A Probabilistic Approach ( http://arxiv.org/abs/2305.10277v4 )

ライセンス: Link先を確認
Saeed Mehraban, Mehrdad Tahmasbi, (参考訳) 量子状態の近似安定化器ランクは、その状態の任意の近似分解における最小の項数である。 Bravyi と Gosset は、$|T\rangle^{\otimes n}$ のようないわゆる「魔術的」状態の近似安定化ランクは、多項式因子まで、クリフォードゲートと$n$$$T$ゲートを持つ任意の量子回路をシミュレートするのに必要となる古典的な演算の回数の上限であることを示した。 結果として、この量に対する指数的な下界は避けられないように思われる。 この直観にもかかわらず、様々な手法を用いたいくつかの試みは、状態を正確に生成する分解の最小サイズを意味する${|T\rangle}^{\otimes n}$の「厳密な」ランクの線形下界よりも良い結果には至らなかった。 量子回路をシミュレートするコストとより現実的に関係している「近似」ランクについて、$\tilde \Omega(\sqrt n)$より低い境界は知られていない。 本論文では,近似パラメータの広い範囲に対して,近似ランクの下位境界を$\tilde \Omega (n^2)$に改善する。 我々の結果の直近の系は多項式時間計算可能関数の存在であり、これは任意の分解において、$\mathbb{F}_2$ 上の二次形式の指数関数への超線型項数を必要とし、[Wil18] の問題を解く。 提案手法は,Haar測度からサンプリングされた量子状態の近似ランクに基づく強い下界,Haar測度からサンプリングされたマジック状態テレポーテーションプロトコルの近似ランクのステップバイステップ解析,および[LKS18]で$T$ゲートでClifford演算を取引する結果に基づく。

The approximate stabilizer rank of a quantum state is the minimum number of terms in any approximate decomposition of that state into stabilizer states. Bravyi and Gosset showed that the approximate stabilizer rank of a so-called "magic" state like $|T\rangle^{\otimes n}$, up to polynomial factors, is an upper bound on the number of classical operations required to simulate an arbitrary quantum circuit with Clifford gates and $n$ number of $T$ gates. As a result, an exponential lower bound on this quantity seems inevitable. Despite this intuition, several attempts using various techniques could not lead to a better than a linear lower bound on the "exact" rank of ${|T\rangle}^{\otimes n}$, meaning the minimal size of a decomposition that exactly produces the state. For the "approximate" rank, which is more realistically related to the cost of simulating quantum circuits, no lower bound better than $\tilde \Omega(\sqrt n)$ has been known. In this paper, we improve the lower bound on the approximate rank to $\tilde \Omega (n^2)$ for a wide range of the approximation parameters. An immediate corollary of our result is the existence of polynomial time computable functions which require a super-linear number of terms in any decomposition into exponentials of quadratic forms over $\mathbb{F}_2$, resolving a question in [Wil18]. Our approach is based on a strong lower bound on the approximate rank of a quantum state sampled from the Haar measure, a step-by-step analysis of the approximate rank of a magic-state teleportation protocol to sample from the Haar measure, and a result about trading Clifford operations with $T$ gates by [LKS18].
翻訳日:2024-04-02 16:04:03 公開日:2024-03-29
# ランダム重みニューラルネットワークの解釈可能な構成アルゴリズム

Interpretable Constructive Algorithm for Random Weight Neural Networks ( http://arxiv.org/abs/2307.00185v2 )

ライセンス: Link先を確認
Jing Nan, Wei Dai, Guan Yuan, Ping Zhou, (参考訳) 本稿では、隠れパラメータ選択のブラックボックスプロセスの解釈が困難であるインクリメンタルランダムウェイトニューラルネットワーク(IRWNN)の重大な欠点を解決するために、幾何情報を用いた解釈可能な構成法(IC)を提案する。 さらに、ICはノードプーリング戦略を使用して、ネットワーク収束を容易にするノードを選択する。 この記事では、ICの一般的な近似特性を実証し、大規模データモデリングタスクに適した軽量バージョンを示す。 6つのベンチマークデータセットと1つの数値シミュレーションデータセットによる実験結果は、モデリング速度、精度、ネットワーク構造の観点から、他の構成的アルゴリズムと比較して、ICの優れた性能を示す。 さらに,2つの産業応用によりICの有効性が検証された。

In this paper, an interpretable construction method (IC) with geometric information is proposed to address a significant drawback of incremental random weight neural networks (IRWNNs), which is the difficulty in interpreting the black-box process of hidden parameter selection.The IC utilises geometric relationships to randomly assign hidden parameters, which improves interpretability. In addition, IC employs a node pooling strategy to select the nodes that will both facilitate network convergence. The article also demonstrates the general approximation properties of IC and presents a lightweight version tailored for large-scale data modelling tasks. Experimental results on six benchmark datasets and one numerical simulation dataset demonstrate the superior performance of IC compared to other constructive algorithms in terms of modelling speed, accuracy and network structure. In addition, the effectiveness of IC is validated by two real-world industrial applications.
翻訳日:2024-04-02 15:54:17 公開日:2024-03-29
# 医用画像分類のための半教師あり自己教師あり学習の体系的比較

Systematic comparison of semi-supervised and self-supervised learning for medical image classification ( http://arxiv.org/abs/2307.08919v3 )

ライセンス: Link先を確認
Zhe Huang, Ruijie Jiang, Shuchin Aeron, Michael C. Hughes, (参考訳) 典型的な医用画像分類問題では、ラベル付きデータが不足し、ラベルなしデータが利用できない。 半教師付き学習と自己教師付き学習は、2つの異なる研究方向であり、追加のラベル付きデータから学習することで精度を向上させることができる。 両方の方向からの最近の手法は、従来のベンチマークで顕著な上昇を報告している。 しかし、過去のベンチマークでは医学的なタスクに重点を置いておらず、同じ足場で自己と半メソッドを比べることはめったにない。 さらに、過去のベンチマークはハイパーパラメータチューニングを亜最適に扱うことが多い。 まず、ハイパーパラメータを全く調整せず、不適合になる可能性がある。 第二に、チューニングが発生した場合、トレーニングセットよりもはるかに大きいラベル付き検証セットを非現実的に使用することが多い。 したがって、現在公表されているランキングは、その実用性と必ずしも相関しないかもしれない。本研究では、ラベル付きデータが少なく、計算予算が限られている専門家をガイドする統一的な実験プロトコルを用いて、自己および半手法の体系的評価に寄与する。 ハイパーパラメータチューニングは現実的なサイズの検証セットで有効か? もしそうなら、すべてのメソッドが順調に調整されたとき、どの自己または半教師付きメソッドが最高の精度を達成するか? 本研究は,4つの医療データセット上でのラベル付きセットのみのベースラインに対して,13の代表的な半指導的手法と自己指導的手法を比較した。 ハイパーパラメータチューニングは効果的であり、MixMatchとして知られる半教師付きメソッドは、4つのデータセットでもっとも信頼性の高いゲインを提供する。

In typical medical image classification problems, labeled data is scarce while unlabeled data is more available. Semi-supervised learning and self-supervised learning are two different research directions that can improve accuracy by learning from extra unlabeled data. Recent methods from both directions have reported significant gains on traditional benchmarks. Yet past benchmarks do not focus on medical tasks and rarely compare self- and semi- methods together on an equal footing. Furthermore, past benchmarks often handle hyperparameter tuning suboptimally. First, they may not tune hyperparameters at all, leading to underfitting. Second, when tuning does occur, it often unrealistically uses a labeled validation set that is much larger than the training set. Therefore currently published rankings might not always corroborate with their practical utility This study contributes a systematic evaluation of self- and semi- methods with a unified experimental protocol intended to guide a practitioner with scarce overall labeled data and a limited compute budget. We answer two key questions: Can hyperparameter tuning be effective with realistic-sized validation sets? If so, when all methods are tuned well, which self- or semi-supervised methods achieve the best accuracy? Our study compares 13 representative semi- and self-supervised methods to strong labeled-set-only baselines on 4 medical datasets. From 20000+ GPU hours of computation, we provide valuable best practices to resource-constrained practitioners: hyperparameter tuning is effective, and the semi-supervised method known as MixMatch delivers the most reliable gains across 4 datasets.
翻訳日:2024-04-02 15:54:17 公開日:2024-03-29
# マルコフ決定過程としての解釈可能な決定木探索

Interpretable Decision Tree Search as a Markov Decision Process ( http://arxiv.org/abs/2309.12701v3 )

ライセンス: Link先を確認
Hector Kohler, Riad Akrour, Philippe Preux, (参考訳) 教師付き学習課題の最適決定木を見つけることは、大規模に解決すべき組合せ問題である。 近年、マルコフ決定問題 (MDP) としてこの問題の枠組みを定め、深層強化学習を用いてスケーリングに取り組むことが提案されている。 残念ながら、これらの手法は現在のブランチ・アンド・バウンド・オブ・ザ・アートと競合するものではない。 そこで我々は,情報理論によるテスト生成関数を用いて,全ての状態に対して動的に,許容可能なテスト動作のセットをいくつかのよい候補に限定する手法を提案する。 解法として、我々のアルゴリズムは、分岐とバウンドの代替品に対して、最も競争力が少ないことを実証的に示している。 機械学習ツールとして、私たちのアプローチの重要な利点は、複雑さとパフォーマンスのトレードオフを、事実上追加コストなしで解決することです。 このようなソリューションセットを使用することで、ユーザは、最も一般化し、ニーズに最も適した解釈可能性レベルを持つツリーを選択することができる。

Finding an optimal decision tree for a supervised learning task is a challenging combinatorial problem to solve at scale. It was recently proposed to frame the problem as a Markov Decision Problem (MDP) and use deep reinforcement learning to tackle scaling. Unfortunately, these methods are not competitive with the current branch-and-bound state-of-the-art. We propose instead to scale the resolution of such MDPs using an information-theoretic tests generating function that heuristically, and dynamically for every state, limits the set of admissible test actions to a few good candidates. As a solver, we show empirically that our algorithm is at the very least competitive with branch-and-bound alternatives. As a machine learning tool, a key advantage of our approach is to solve for multiple complexity-performance trade-offs at virtually no additional cost. With such a set of solutions, a user can then select the tree that generalizes best and which has the interpretability level that best suits their needs, which no current branch-and-bound method allows.
翻訳日:2024-04-02 15:34:46 公開日:2024-03-29
# FTFT:トランスファートレーニングダイナミクスによる効率的かつロバストなファインチューニング

FTFT: Efficient and Robust Fine-Tuning by Transferring Training Dynamics ( http://arxiv.org/abs/2310.06588v2 )

ライセンス: Link先を確認
Yupei Du, Albert Gatt, Dong Nguyen, (参考訳) 微調整事前学習言語モデル (PLMs) が大成功を収めたにもかかわらず、それらは相変わらずアウト・オブ・ディストリビューション・インプットの影響を受けやすいままである。 Dataset cartographyは、微調整PLMのロバスト性を改善するための、シンプルで効果的な2モデルアプローチである。 オリジナルのトレーニングセット(参照モデル)でモデルを微調整し、トレーニングダイナミクスに基づいて重要なトレーニングインスタンスのサブセットを選択し、これらの選択された例(メインモデル)でのみ微調整を行う。 しかし、このアプローチでは同じモデルを2回微調整する必要がある。 本稿では,(1)モデルサイズおよび事前学習手法間でトレーニングダイナミクスが高度に伝達可能であること,(2)選択したトレーニングインスタンスを用いた微調整メインモデルは,経験的リスク最小化(ERM)よりも高いトレーニング効率を実現すること,を示す。 これらの観測に基づいて,TransFerring Training dynamics (FTFT) を用いたファインチューニング手法を提案する。 データセットの地図作成と比較すると、FTFTはより効率的な参照モデルと攻撃的な早期停止を使用する。 FTFTはEMMよりも堅牢性を向上し、トレーニングコストを最大50\%まで下げる。

Despite the massive success of fine-tuning Pre-trained Language Models (PLMs), they remain susceptible to out-of-distribution input. Dataset cartography is a simple yet effective dual-model approach that improves the robustness of fine-tuned PLMs. It involves fine-tuning a model on the original training set (i.e. reference model), selecting a subset of important training instances based on the training dynamics, and fine-tuning again only on these selected examples (i.e. main model). However, this approach requires fine-tuning the same model twice, which is computationally expensive for large PLMs. In this paper, we show that (1) training dynamics are highly transferable across model sizes and pre-training methods, and that (2) fine-tuning main models using these selected training instances achieves higher training efficiency than empirical risk minimization (ERM). Building on these observations, we propose a novel fine-tuning approach: Fine-Tuning by transFerring Training dynamics (FTFT). Compared with dataset cartography, FTFT uses more efficient reference models and aggressive early stopping. FTFT achieves robustness improvements over ERM while lowering the training cost by up to $\sim 50\%$.
翻訳日:2024-04-02 15:34:46 公開日:2024-03-29
# リアルタイム神経スパイク分類のための軽量アーキテクチャ

A Lightweight Architecture for Real-Time Neuronal-Spike Classification ( http://arxiv.org/abs/2311.04808v2 )

ライセンス: Link先を確認
Muhammad Ali Siddiqi, David Vrijenhoek, Lennart P. L. Landsmeer, Job van der Kleij, Anteneh Gebregiorgis, Vincenzo Romano, Rajendra Bishnoi, Said Hamdioui, Christos Strydis, (参考訳) マウスの脳における神経活動の電気生理学的記録は、脳機能を理解する神経科学者の間で非常に人気がある。 脳の損傷と運動機能の喪失を理解するために、脳小脳のPurkinje細胞から記録を取得することが特に関心がある。 しかし、このような実験の現在のセットアップでは、マウスは自由に動くことができず、そのため、動物の頭部と取得装置との間に有線接続があるため、その自然な振る舞いを捉えない。 本研究では,パーキンエ細胞の特異な特徴を生かし,スパースニューラルネットワークから不要な情報をリアルタイムに破棄する軽量な神経スパイク検出・分類アーキテクチャを提案する。 これにより、(凝縮した)データはヘッドステージ上の取り外し可能な記憶装置に簡単に格納でき、ワイヤの必要性を軽減できる。 合成の結果、95%以上の分類精度が得られたが、それでも小さな形状の要素を持つ設計となり、実験中のマウスの自由な移動を可能にした。 さらに、この設計の電力効率性やSTT-RAM(Spin Transfer Torque Magnetic Random Access Memory)の取り外し可能なストレージとしての使用により、ヘッドステージは最大4日間小さなバッテリーで容易に操作できる。

Electrophysiological recordings of neural activity in a mouse's brain are very popular among neuroscientists for understanding brain function. One particular area of interest is acquiring recordings from the Purkinje cells in the cerebellum in order to understand brain injuries and the loss of motor functions. However, current setups for such experiments do not allow the mouse to move freely and, thus, do not capture its natural behaviour since they have a wired connection between the animal's head stage and an acquisition device. In this work, we propose a lightweight neuronal-spike detection and classification architecture that leverages on the unique characteristics of the Purkinje cells to discard unneeded information from the sparse neural data in real time. This allows the (condensed) data to be easily stored on a removable storage device on the head stage, alleviating the need for wires. Synthesis results reveal a >95% overall classification accuracy while still resulting in a small-form-factor design, which allows for the free movement of mice during experiments. Moreover, the power-efficient nature of the design and the usage of STT-RAM (Spin Transfer Torque Magnetic Random Access Memory) as the removable storage allows the head stage to easily operate on a tiny battery for up to approximately 4 days.
翻訳日:2024-04-02 15:15:12 公開日:2024-03-29
# 大規模言語モデルにおける線形関係概念の同定

Identifying Linear Relational Concepts in Large Language Models ( http://arxiv.org/abs/2311.08968v2 )

ライセンス: Link先を確認
David Chanin, Anthony Hunter, Oana-Maria Camburu, (参考訳) トランスフォーマー言語モデル(LM)は、隠れたアクティベーションの潜在空間における方向として概念を表現することが示されている。 しかし、人間解釈可能な概念に対して、その方向を潜伏空間でどのように見つけることができるのか? 本稿では、まず、対象と対象の関係を線形リレーショナル埋め込み(LRE)としてモデル化し、人間の解釈可能な概念に対応する概念方向を見つけるためのリレーショナルリレーショナル概念(LRC)と呼ばれる手法を提案する。 LREを反転させ、それ以前のオブジェクト層を使用すると、標準のブラックボックス・プロブリング・クラシファイアよりも優れた概念方向を見つけるための強力な技術が得られます。 モデル出力を因果的に変更する能力だけでなく、概念分類器としての性能も評価する。

Transformer language models (LMs) have been shown to represent concepts as directions in the latent space of hidden activations. However, for any human-interpretable concept, how can we find its direction in the latent space? We present a technique called linear relational concepts (LRC) for finding concept directions corresponding to human-interpretable concepts by first modeling the relation between subject and object as a linear relational embedding (LRE). We find that inverting the LRE and using earlier object layers results in a powerful technique for finding concept directions that outperforms standard black-box probing classifiers. We evaluate LRCs on their performance as concept classifiers as well as their ability to causally change model output.
翻訳日:2024-04-02 15:15:12 公開日:2024-03-29
# モデル自己曖昧化によるマルチソースデータセットから学習したVersatile Medical Image Segmentation

Versatile Medical Image Segmentation Learned from Multi-Source Datasets via Model Self-Disambiguation ( http://arxiv.org/abs/2311.10696v2 )

ライセンス: Link先を確認
Xiaoyang Chen, Hao Zheng, Yuemeng Li, Yuncong Ma, Liang Ma, Hongming Li, Yong Fan, (参考訳) 多様な機器やプロトコルで取得した画像に適用可能な汎用的な医用画像分割モデルは、モデルの展開とメンテナンスを容易にすることができる。 しかし、そのようなモデルを構築するには、データキュレーションの労働集約的な性質のため、大きな、多様で、完全に注釈付けされたデータセットを必要とするのが普通である。 この課題に対処するために,学習用部分的あるいは疎部分的なセグメンテーションラベルのみを用いてマルチソースデータを活用するコスト効率のよい代替案を提案し,汎用モデルを開発するコストを大幅に削減する。 我々は,ラベル曖昧性やモダリティ,データセット,クラス不均衡といった,一貫性のないラベル付きマルチソースデータに関わる課題に対処するために,モデル自己曖昧性,事前知識の取り込み,不均衡化の戦略を考案する。 腹部構造セグメンテーションのための8つの異なるソースから収集したマルチモーダルデータセットの実験結果は,最先端の代替手法と比較して,本手法の有効性と優れた性能を示した。 既存の注釈付きデータの利用を最適化し、新しいデータに対するアノテーションの取り組みを減らし、コスト削減がこの分野に大きな影響を与えることを期待する。

A versatile medical image segmentation model applicable to images acquired with diverse equipment and protocols can facilitate model deployment and maintenance. However, building such a model typically demands a large, diverse, and fully annotated dataset, which is challenging to obtain due to the labor-intensive nature of data curation. To address this challenge, we propose a cost-effective alternative that harnesses multi-source data with only partial or sparse segmentation labels for training, substantially reducing the cost of developing a versatile model. We devise strategies for model self-disambiguation, prior knowledge incorporation, and imbalance mitigation to tackle challenges associated with inconsistently labeled multi-source data, including label ambiguity and modality, dataset, and class imbalances. Experimental results on a multi-modal dataset compiled from eight different sources for abdominal structure segmentation have demonstrated the effectiveness and superior performance of our method compared to state-of-the-art alternative approaches. We anticipate that its cost-saving features, which optimize the utilization of existing annotated data and reduce annotation efforts for new data, will have a significant impact in the field.
翻訳日:2024-04-02 15:05:24 公開日:2024-03-29
# DiffAvatar: 微分可能なシミュレーションによるシミュレーション対応ガーメント最適化

DiffAvatar: Simulation-Ready Garment Optimization with Differentiable Simulation ( http://arxiv.org/abs/2311.12194v2 )

ライセンス: Link先を確認
Yifei Li, Hsiao-yu Chen, Egor Larionov, Nikolaos Sarafianos, Wojciech Matusik, Tuur Stuyck, (参考訳) デジタルアバターのリアリズムは、自己表現とカスタマイズを備えたテレプレゼンスアプリケーションの実現に不可欠である。 物理シミュレーションは、人間の現実的な動きを生み出すことができるが、布のシミュレーションには、関連する物理パラメータを持つ高品質な衣服の資産が必要である。 しかし、これらの資産を手動で作成し、それらのパラメータを調整することは労働集約的であり、専門的な専門知識を必要とする。 現在の手法は幾何学の再構築に重点を置いているが、物理学に基づく応用のための完全な資産は生成していない。 このギャップに対処するために、微分可能なシミュレーションを用いて身体と衣服の共最適化を行う新しいアプローチである「ペーパーネーム」を提案する。 物理シミュレーションを最適化ループに統合し、布の複雑な非線形挙動と身体との複雑な相互作用を考慮し、身体と衣服の形状を復元し、重要な材料パラメータを物理的に妥当な方法で抽出する。 提案手法は,下流の用途に適したリアルな衣服や体型を創出することを示す。 https://people.csail.mit.edu/liyifei/publication/diffavatar/

The realism of digital avatars is crucial in enabling telepresence applications with self-expression and customization. While physical simulations can produce realistic motions for clothed humans, they require high-quality garment assets with associated physical parameters for cloth simulations. However, manually creating these assets and calibrating their parameters is labor-intensive and requires specialized expertise. Current methods focus on reconstructing geometry, but don't generate complete assets for physics-based applications. To address this gap, we propose \papername,~a novel approach that performs body and garment co-optimization using differentiable simulation. By integrating physical simulation into the optimization loop and accounting for the complex nonlinear behavior of cloth and its intricate interaction with the body, our framework recovers body and garment geometry and extracts important material parameters in a physically plausible way. Our experiments demonstrate that our approach generates realistic clothing and body shape suitable for downstream applications. We provide additional insights and results on our webpage: https://people.csail.mit.edu/liyifei/publication/diffavatar/
翻訳日:2024-04-02 15:05:24 公開日:2024-03-29
# 新しいオンラインコミュニティ - 匿名投票ネットワークにおけるグラフ深層学習による多元的ガバナンスの脆弱性の特定

New Online Communities: Graph Deep Learning on Anonymous Voting Networks to Identify Sybils in Polycentric Governance ( http://arxiv.org/abs/2311.17929v6 )

ライセンス: Link先を確認
Quinn DuPont, (参考訳) 本研究では、ブロックチェーンベースの分散自律組織(DAOs)におけるデジタル資産の多元的ガバナンスについて検討する。 理論的な枠組みを提供し、シビル(Sybils)を識別する手法を開発することで、分散ガバナンスに直面する重要な課題に対処する。 シビルはDAOや他のコモンズベースのオンラインコミュニティに重大な組織的持続可能性の脅威を生じさせ、脅威モデルが特定される。 実験方法は、DAOガバナンスデータセット(snapshot.org)におけるSybilアクティビティを識別するために、オートエンコーダアーキテクチャとグラフ深層学習技術を使用する。 具体的には、グラフ畳み込みニューラルネットワーク(GCNN)は投票行動を学び、高速ベクトルクラスタリングアルゴリズムはグラフ内の類似ノードを特定するために高次元埋め込みを使用した。 その結果、ディープラーニングはSybilsを効果的に識別し、投票グラフを2-5%削減できることがわかった。 この研究は、DAOにおけるシビル抵抗の重要性を強調し、匿名ネットワークの法科学と分析の課題と機会を特定し、分散ガバナンス、将来の政策、規制、ガバナンスの実践を示す新しい視点を提供する。

This research examines the polycentric governance of digital assets in blockchain-based Decentralized Autonomous Organizations (DAOs). It offers a theoretical framework and addresses a critical challenge facing decentralized governance by developing a method to identify Sybils, or spurious identities. Sybils pose significant organizational sustainability threats to DAOs and other, commons-based online communities, and threat models are identified. The experimental method uses an autoencoder architecture and graph deep learning techniques to identify Sybil activity in a DAO governance dataset (snapshot.org). Specifically, a Graph Convolutional Neural Network (GCNN) learned voting behaviours and a fast vector clustering algorithm used high-dimensional embeddings to identify similar nodes in a graph. The results reveal that deep learning can effectively identify Sybils, reducing the voting graph by 2-5%. This research underscores the importance of Sybil resistance in DAOs, identifies challenges and opportunities for forensics and analysis of anonymous networks, and offers a novel perspective on decentralized governance, informing future policy, regulation, and governance practices.
翻訳日:2024-04-02 14:55:32 公開日:2024-03-29
# AVID:拡散モデルで描いたどんな長編ビデオでも

AVID: Any-Length Video Inpainting with Diffusion Model ( http://arxiv.org/abs/2312.03816v3 )

ライセンス: Link先を確認
Zhixing Zhang, Bichen Wu, Xiaoyan Wang, Yaqiao Luo, Luxin Zhang, Yinan Zhao, Peter Vajda, Dimitris Metaxas, Licheng Yu, (参考訳) 拡散モデルの最近の進歩は、テキスト誘導画像の塗装をうまく実現している。 このような編集機能をビデオ領域に拡張することは簡単と思われるが、テキスト誘導ビデオの塗装に関する作業は少ない。 ビデオ、初期フレームのマスキング領域、編集プロンプトが与えられた場合、マスク外領域を無傷に保ちながら、編集ガイダンスに従って各フレームに埋め込むモデルが必要となる。 編集されたビデオの時間的一貫性(i$)、異なる構造的忠実度レベルで異なるインペイントタイプをサポートする(ii$)、可変ビデオ長を扱う(iii$)。 これらの課題に対処するために,AVIDと呼ばれる拡散モデルを用いたAny-Length Video Inpaintingを導入する。 このモデルの中心となるのは、固定長ビデオのインペイントのための効果的なモーションモジュールと調整可能な構造ガイダンスである。 そこで本研究では,中間フレームの注意誘導機構を備えた時間的多次元サンプリングパイプラインを提案する。 包括的実験により,映像の持続時間範囲の異なる様々なインペイントタイプを,高品質で頑健に扱えることを示す。 さらなる視覚化結果はhttps://zhang-zx.github.io/AVID/ で公開されている。

Recent advances in diffusion models have successfully enabled text-guided image inpainting. While it seems straightforward to extend such editing capability into the video domain, there have been fewer works regarding text-guided video inpainting. Given a video, a masked region at its initial frame, and an editing prompt, it requires a model to do infilling at each frame following the editing guidance while keeping the out-of-mask region intact. There are three main challenges in text-guided video inpainting: ($i$) temporal consistency of the edited video, ($ii$) supporting different inpainting types at different structural fidelity levels, and ($iii$) dealing with variable video length. To address these challenges, we introduce Any-Length Video Inpainting with Diffusion Model, dubbed as AVID. At its core, our model is equipped with effective motion modules and adjustable structure guidance, for fixed-length video inpainting. Building on top of that, we propose a novel Temporal MultiDiffusion sampling pipeline with a middle-frame attention guidance mechanism, facilitating the generation of videos with any desired duration. Our comprehensive experiments show our model can robustly deal with various inpainting types at different video duration ranges, with high quality. More visualization results are made publicly available at https://zhang-zx.github.io/AVID/ .
翻訳日:2024-04-02 14:45:23 公開日:2024-03-29
# SteinDreamer:Stein Identityによるテキスト・ツー・3Dスコア蒸留の可変化

SteinDreamer: Variance Reduction for Text-to-3D Score Distillation via Stein Identity ( http://arxiv.org/abs/2401.00604v2 )

ライセンス: Link先を確認
Peihao Wang, Zhiwen Fan, Dejia Xu, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra, (参考訳) スコア蒸留は、テキストから3Dのアセット合成において最も一般的なアプローチの1つである。 基本的に、スコア蒸留は3Dパラメーターを異なる視点で平均値を持ち上げ、バックプロパゲーションすることで更新する。 本稿では, スコア蒸留における勾配推定が, 高分散性に起因していることを明らかにする。 分散還元のレンズを通して、SDSとVSDの有効性は、蒸留されたスコアのモンテカルロ推定器に対する様々な制御変数の応用と解釈できる。 この再考に動機付けられ、スタインの同一性に基づいて、スコア蒸留の分散を低減するためのより一般的な解法であるスタインスコア蒸留(Stein Score Distillation, SSD)を提案する。 SSDはスタインIDによって構築された制御変数を組み込んでおり、任意のベースライン関数が可能である。 これにより、フレキシブルなガイダンスとネットワークアーキテクチャを組み込むことで、分散削減を明示的に最適化できます。 実験では, 全体パイプラインをSteinDreamerと呼び, 制御変数を単分子深度推定器でインスタンス化して実装した。 その結果, SSDは蒸留の分散を効果的に低減し, オブジェクトレベルとシーンレベルの双方の視覚的品質を継続的に向上させることができることがわかった。 さらに,SteinDreamerは,より安定した勾配更新により,既存の手法よりも高速な収束を実現することを示す。

Score distillation has emerged as one of the most prevalent approaches for text-to-3D asset synthesis. Essentially, score distillation updates 3D parameters by lifting and back-propagating scores averaged over different views. In this paper, we reveal that the gradient estimation in score distillation is inherent to high variance. Through the lens of variance reduction, the effectiveness of SDS and VSD can be interpreted as applications of various control variates to the Monte Carlo estimator of the distilled score. Motivated by this rethinking and based on Stein's identity, we propose a more general solution to reduce variance for score distillation, termed Stein Score Distillation (SSD). SSD incorporates control variates constructed by Stein identity, allowing for arbitrary baseline functions. This enables us to include flexible guidance priors and network architectures to explicitly optimize for variance reduction. In our experiments, the overall pipeline, dubbed SteinDreamer, is implemented by instantiating the control variate with a monocular depth estimator. The results suggest that SSD can effectively reduce the distillation variance and consistently improve visual quality for both object- and scene-level generation. Moreover, we demonstrate that SteinDreamer achieves faster convergence than existing methods due to more stable gradient updates.
翻訳日:2024-04-02 14:35:39 公開日:2024-03-29
# テキスト・ツー・3次元生成のためのスコア蒸留におけるテーピングモードの崩壊

Taming Mode Collapse in Score Distillation for Text-to-3D Generation ( http://arxiv.org/abs/2401.00909v2 )

ライセンス: Link先を確認
Peihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra, (参考訳) テキストから3D生成におけるスコア蒸留の顕著な性能にもかかわらず、これらの技術は、複数の前面でそれぞれのビューを偽造する、"Janus"アーティファクト(英語版)としても知られる、ビューの不整合の問題に苦しむことで有名である。 経験的に有効な手法は、スコアデバイアスやエンジニアリングの促進を通じてこの問題にアプローチしてきたが、この問題を説明し、対処するためのより厳密な視点は、いまだ解明されていない。 本稿では,既存のスコア蒸留方式のテキスト・ツー・3D生成フレームワークが,個々の視点を個別に探す最大確率に縮退し,実際にJanusアーティファクトとして現れるモード崩壊問題に悩まされることを明らかにする。 モード崩壊を抑えるため,エントロピー項を対応する変分目的に再確立することにより,スコアの蒸留を改良し,描画画像の分布に適用する。 エントロピーの最大化は、生成された3D資産における異なる視点の多様性を促進し、それによってヤヌス問題を緩和する。 この新たな目的に基づいて,エントロピースコア蒸留(ESD)と呼ばれる3Dスコア蒸留の新しい更新規則を導出する。 変量点蒸留における分類器不要誘導法を応用すれば,ESDの簡易化と実装が可能であることを理論的に明らかにする。 恥ずかしいほど単純ではないが, 広範囲にわたる実験により, ESDがJanusアーティファクトのスコア蒸留に有効であることが示された。

Despite the remarkable performance of score distillation in text-to-3D generation, such techniques notoriously suffer from view inconsistency issues, also known as "Janus" artifact, where the generated objects fake each view with multiple front faces. Although empirically effective methods have approached this problem via score debiasing or prompt engineering, a more rigorous perspective to explain and tackle this problem remains elusive. In this paper, we reveal that the existing score distillation-based text-to-3D generation frameworks degenerate to maximal likelihood seeking on each view independently and thus suffer from the mode collapse problem, manifesting as the Janus artifact in practice. To tame mode collapse, we improve score distillation by re-establishing the entropy term in the corresponding variational objective, which is applied to the distribution of rendered images. Maximizing the entropy encourages diversity among different views in generated 3D assets, thereby mitigating the Janus problem. Based on this new objective, we derive a new update rule for 3D score distillation, dubbed Entropic Score Distillation (ESD). We theoretically reveal that ESD can be simplified and implemented by just adopting the classifier-free guidance trick upon variational score distillation. Although embarrassingly straightforward, our extensive experiments successfully demonstrate that ESD can be an effective treatment for Janus artifacts in score distillation.
翻訳日:2024-04-02 14:35:39 公開日:2024-03-29
# 物体認識における地理的ロバスト性向上のためのプロンプトへのジオディバース知識の導入

Incorporating Geo-Diverse Knowledge into Prompting for Increased Geographical Robustness in Object Recognition ( http://arxiv.org/abs/2401.01482v2 )

ライセンス: Link先を確認
Kyle Buettner, Sina Malakouti, Xiang Lorraine Li, Adriana Kovashka, (参考訳) 既存のオブジェクト認識モデルは、設計やコンテキストにおけるドメインシフトによって、多様な地理的シナリオにおいて堅牢性が欠如していることが示されている。 クラス表現は、これらのシフトの下でオブジェクトの概念をより正確に反映するように適応する必要がある。 対象地誌からのトレーニングデータがない場合、地理的に多様なカテゴリの記述的知識は堅牢性を高めることができると仮定する。 そこで本研究では,地理に基づくオブジェクト知識のための大規模言語モデルの実現可能性について検討し,知識をゼロショットと学習可能なソフトプロンプトに組み込んだCLIPの有効性について検討する。 本研究では,地理的知識の正規化を提案し,地理のソースセットで訓練されたソフトプロンプトが,未知のターゲットセットに一般化されることを保証する。 DollarStreetでのトレーニングは、アフリカ/アジア/アメリカからのターゲットデータでは+2.8/1.2/1.6、最も厳しいクラスでは+4.6である。 競合性能は、数発の目標訓練と比較して示され、将来的な地理的ロバスト性の研究に向け分析が提供される。

Existing object recognition models have been shown to lack robustness in diverse geographical scenarios due to domain shifts in design and context. Class representations need to be adapted to more accurately reflect an object concept under these shifts. In the absence of training data from target geographies, we hypothesize that geographically diverse descriptive knowledge of categories can enhance robustness. For this purpose, we explore the feasibility of probing a large language model for geography-based object knowledge, and we examine the effects of integrating knowledge into zero-shot and learnable soft prompting with CLIP. Within this exploration, we propose geography knowledge regularization to ensure that soft prompts trained on a source set of geographies generalize to an unseen target set. Accuracy gains over prompting baselines on DollarStreet while training only on Europe data are up to +2.8/1.2/1.6 on target data from Africa/Asia/Americas, and +4.6 overall on the hardest classes. Competitive performance is shown vs. few-shot target training, and analysis is provided to direct future study of geographical robustness.
翻訳日:2024-04-02 14:35:39 公開日:2024-03-29
# 低高度・高速ドローン用UAVボーンマッピングアルゴリズム

UAV-Borne Mapping Algorithms for Low-Altitude and High-Speed Drone Applications ( http://arxiv.org/abs/2401.06407v2 )

ライセンス: Link先を確認
Jincheng Zhang, Artur Wolek, Andrew R. Willis, (参考訳) 本稿では、現状のセンサと、これらのセンサがUAV(Unmanned Aerial Vehicle)アプリケーションのためのいくつかのマッピングアルゴリズムでどのように機能するかを、低高度および高速シナリオに焦点をあてて分析する。 AirSimシミュレータとGoogle 3DマップモデルをCesium Tilesプラグインを使って統合することで実現した、非常に現実的な環境を用いて、新しい実験的な構成が作成される。 1)DSO(Direct Sparse Odometry)、(2)SDSO(Stereo DSO)、(3)DSOL(DSO Lite)の3つの異なるマッピングアルゴリズムの性能を評価するために,この高現実性シミュレーション環境で実験を行った。 実験結果は, 測定された幾何精度と計算速度に基づいて, アルゴリズムの評価を行った。 結果は各アルゴリズムの強みと限界について貴重な洞察を与える。 探索はUAVアルゴリズムの選択における妥協を定量化し、研究者はアプリケーションに最も適したマッピングソリューションを見つけることができる。 計算資源が制限されたUAVでは,DSOLが最良であることを示す。 ペイロード容量と控えめな計算資源を持つシステムでは、SDSOが最良の選択肢である。 1台のカメラしか使えない場合、DSOは密集したマッピング結果を必要とするアプリケーションを選択するオプションである。

This article presents an analysis of current state-of-the-art sensors and how these sensors work with several mapping algorithms for UAV (Unmanned Aerial Vehicle) applications, focusing on low-altitude and high-speed scenarios. A new experimental construct is created using highly realistic environments made possible by integrating the AirSim simulator with Google 3D maps models using the Cesium Tiles plugin. Experiments are conducted in this high-realism simulated environment to evaluate the performance of three distinct mapping algorithms: (1) Direct Sparse Odometry (DSO), (2) Stereo DSO (SDSO), and (3) DSO Lite (DSOL). Experimental results evaluate algorithms based on their measured geometric accuracy and computational speed. The results provide valuable insights into the strengths and limitations of each algorithm. Findings quantify compromises in UAV algorithm selection, allowing researchers to find the mapping solution best suited to their application, which often requires a compromise between computational performance and the density and accuracy of geometric map estimates. Results indicate that for UAVs with restrictive computing resources, DSOL is the best option. For systems with payload capacity and modest compute resources, SDSO is the best option. If only one camera is available, DSO is the option to choose for applications that require dense mapping results.
翻訳日:2024-04-02 14:25:45 公開日:2024-03-29
# 篠尾:BRDF最適化によるニューラルネットワークによる形状と照明

SHINOBI: Shape and Illumination using Neural Object Decomposition via BRDF Optimization In-the-wild ( http://arxiv.org/abs/2401.10171v2 )

ライセンス: Link先を確認
Andreas Engelhardt, Amit Raj, Mark Boss, Yunzhi Zhang, Abhishek Kar, Yuanzhen Li, Deqing Sun, Ricardo Martin Brualla, Jonathan T. Barron, Hendrik P. A. Lensch, Varun Jampani, (参考訳) 各種照明,ポーズ,背景の異なる物体画像から形状,素材,照明を復元するエンド・ツー・エンドのフレームワークである篠尾を提案する。 制約のない画像コレクションに基づくオブジェクトの逆レンダリングは、コンピュータビジョンとグラフィックスにおける長年の課題であり、形状、放射率、ポーズに対する共同最適化が必要である。 マルチレゾリューションハッシュ符号化に基づく暗黙的な形状表現により、より高速でロバストな形状再構成が可能であり、関節カメラアライメントの最適化により、先行作業より優れることを示す。 さらに、照度と反射率(材料)の編集を可能にするため、BRDFと照度をオブジェクトの形状とともに共同で最適化する。 そこで本手法では,AR/VR,映画,ゲームなどいくつかのユースケースを対象とした3Dアセットを作成するために,オブジェクトの中間画像の収集作業を行う。 プロジェクトページ: https://shinobi.aengelhardt.com Video: https://www.youtube.com/watch? v=iFENQ6AcYd8&feature=youtu.be

We present SHINOBI, an end-to-end framework for the reconstruction of shape, material, and illumination from object images captured with varying lighting, pose, and background. Inverse rendering of an object based on unconstrained image collections is a long-standing challenge in computer vision and graphics and requires a joint optimization over shape, radiance, and pose. We show that an implicit shape representation based on a multi-resolution hash encoding enables faster and robust shape reconstruction with joint camera alignment optimization that outperforms prior work. Further, to enable the editing of illumination and object reflectance (i.e. material) we jointly optimize BRDF and illumination together with the object's shape. Our method is class-agnostic and works on in-the-wild image collections of objects to produce relightable 3D assets for several use cases such as AR/VR, movies, games, etc. Project page: https://shinobi.aengelhardt.com Video: https://www.youtube.com/watch?v=iFENQ6AcYd8&feature=youtu.be
翻訳日:2024-04-02 14:25:45 公開日:2024-03-29
# 健康テキストの簡易化:消化器癌教育のための注釈付きコーパスと強化学習のための新しい戦略

Health Text Simplification: An Annotated Corpus for Digestive Cancer Education and Novel Strategies for Reinforcement Learning ( http://arxiv.org/abs/2401.15043v2 )

ライセンス: Link先を確認
Md Mushfiqur Rahman, Mohammad Sabik Irbaz, Kai North, Michelle S. Williams, Marcos Zampieri, Kevin Lybarger, (参考訳) 目的: 健康教育資料の読解レベルは情報の理解可能性やアクセシビリティに大きく影響する。 多くの患者教育資源は、広く受け入れられている標準の読解レベルと複雑さを超越している。 普及とリテラシーを高めるために、健康情報における高パフォーマンステキスト単純化モデルが不可欠である。 この必要性は特にがん教育において急激であり、効果的な予防とスクリーニング教育が致命率と死亡率を大幅に低下させる可能性がある。 方法: アメリカがん学会, 疾病予防センター, 国立がん研究所の教育内容を含む, 健康テキストの簡易化研究に適した, がん教材の並列コーパスであるSimpleDCを紹介する。 既存のMed-EASiコーパスとともにSimpleDCを利用することで、微調整、強化学習(RL)、人間フィードバックによる強化学習(RLHF)、ドメイン適応、プロンプトベースアプローチなど、Large Language Model(LLM)に基づく単純化手法を検討する。 実験ではLlama 2とGPT-4を含む。 新規なRLHF報酬関数を導入し、オリジナルテキストと簡易テキストの区別が可能な軽量モデルを導入し、未ラベルデータによるモデルの有効性を高める。 結果: 微調整のLlama 2モデルは様々な指標で高い性能を示した。 我々の革新的なRLHF報酬関数は、既存のRLテキストの簡易化報酬関数をはるかに上回った。 その結果、RL/RLHFは微調整を強化し、ラベルなしテキストのモデルトレーニングを容易にし、性能を向上できることがわかった。

Objective: The reading level of health educational materials significantly influences the understandability and accessibility of the information, particularly for minoritized populations. Many patient educational resources surpass the reading level and complexity of widely accepted standards. There is a critical need for high-performing text simplification models in health information to enhance dissemination and literacy. This need is particularly acute in cancer education, where effective prevention and screening education can substantially reduce morbidity and mortality. Methods: We introduce Simplified Digestive Cancer (SimpleDC), a parallel corpus of cancer education materials tailored for health text simplification research, comprising educational content from the American Cancer Society, Centers for Disease Control and Prevention, and National Cancer Institute. Utilizing SimpleDC alongside the existing Med-EASi corpus, we explore Large Language Model (LLM)-based simplification methods, including fine-tuning, reinforcement learning (RL), reinforcement learning with human feedback (RLHF), domain adaptation, and prompt-based approaches. Our experimentation encompasses Llama 2 and GPT-4. A novel RLHF reward function is introduced, featuring a lightweight model adept at distinguishing between original and simplified texts, thereby enhancing the model's effectiveness with unlabeled data. Results: Fine-tuned Llama 2 models demonstrated high performance across various metrics. Our innovative RLHF reward function surpassed existing RL text simplification reward functions in effectiveness. The results underscore that RL/RLHF can augment fine-tuning, facilitating model training on unlabeled text and improving performance.
翻訳日:2024-04-02 14:25:45 公開日:2024-03-29
# 大規模マルチモーダルモデルを用いた生成モデルの潜在表現について

Explaining latent representations of generative models with large multimodal models ( http://arxiv.org/abs/2402.01858v2 )

ライセンス: Link先を確認
Mengdan Zhu, Zhenke Liu, Bo Pan, Abhinav Angirekula, Liang Zhao, (参考訳) データ生成潜在因子の解釈可能な表現を学習することは、人工知能の発展にとって重要なトピックである。 大規模なマルチモーダルモデルの台頭により、画像とテキストをアライメントして回答を生成することができる。 本研究では,大規模マルチモーダルモデルを用いた生成モデルにおいて,各潜伏変数を包括的に記述するフレームワークを提案する。 さらに、生成した説明の不確実性を測定し、複数の大規模マルチモーダルモデル間の説明生成性能を定量的に評価し、各潜伏変数の変動を定性的に可視化し、異なる生成モデルが説明に絡み合う影響を学習する。 最後に、最先端の大規模マルチモーダルモデルの説明能力と限界について論じる。

Learning interpretable representations of data generative latent factors is an important topic for the development of artificial intelligence. With the rise of the large multimodal model, it can align images with text to generate answers. In this work, we propose a framework to comprehensively explain each latent variable in the generative models using a large multimodal model. We further measure the uncertainty of our generated explanations, quantitatively evaluate the performance of explanation generation among multiple large multimodal models, and qualitatively visualize the variations of each latent variable to learn the disentanglement effects of different generative models on explanations. Finally, we discuss the explanatory capabilities and limitations of state-of-the-art large multimodal models.
翻訳日:2024-04-02 14:15:46 公開日:2024-03-29
# Semi-Mamba-UNet:Semi-Supervised Medical Image SegmentationのためのPixel-Level Contrastive and Pixel-Level Cross-Supervised Visual Mamba-based UNet

Semi-Mamba-UNet: Pixel-Level Contrastive and Pixel-Level Cross-Supervised Visual Mamba-based UNet for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2402.07245v2 )

ライセンス: Link先を確認
Chao Ma, Ziyang Wang, (参考訳) 医用画像のセグメンテーションは診断、治療計画、医療に不可欠であり、ディープラーニングは有望な進歩を提供する。 特に、畳み込みニューラルネットワーク(CNN)は、局所的な画像の特徴を捉えるのに優れ、ViT(Vision Transformer)は、マルチヘッド自己認識機構を通じて、遠距離依存を積極的にモデル化する。 彼らの強みにもかかわらず、CNNとViTはどちらも医療画像内の長距離依存関係を効率的に処理する上で困難に直面しており、しばしばかなりの計算資源を必要としている。 この問題は、高コストと専門家アノテーションの可用性の制限と相まって、正確なセグメンテーションを達成する上で大きな障害となる。 これらの課題に対処するために,視覚マンバに基づくUNetアーキテクチャを従来のUNetと統合したSemi-Mamba-UNetを,半教師付き学習(SSL)フレームワークに導入する。 この革新的なSSLアプローチは、デュアルネットワークを活用して擬似ラベルを共同で生成し、相互監督し、一貫性の正則化技術からインスピレーションを得ている。 さらに,プロジェクタペアを用いた自己教師型画素レベルのコントラスト学習戦略を導入し,特徴学習機能をさらに強化する。 UNetをベースとしたさまざまなセグメンテーションネットワークを用いたSSLフレームワークと比較した,MRI心セグメンテーションデータセットの総合評価では,Semi-Mamba-UNetの優れた性能が強調された。 ソースコードは一般に公開されている。

Medical image segmentation is essential in diagnostics, treatment planning, and healthcare, with deep learning offering promising advancements. Notably, Convolutional Neural Network (CNN) excel in capturing local image features, whereas Vision Transformer (ViT) adeptly model long-range dependencies through multi-head self-attention mechanisms. Despite their strengths, both CNN and ViT face challenges in efficiently processing long-range dependencies within medical images, often requiring substantial computational resources. This issue, combined with the high cost and limited availability of expert annotations, poses significant obstacles to achieving precise segmentation. To address these challenges, this paper introduces the Semi-Mamba-UNet, which integrates a visual mamba-based UNet architecture with a conventional UNet into a semi-supervised learning (SSL) framework. This innovative SSL approach leverages dual networks to jointly generate pseudo labels and cross supervise each other, drawing inspiration from consistency regularization techniques. Furthermore, we introduce a self-supervised pixel-level contrastive learning strategy, employing a projector pair to further enhance feature learning capabilities. Our comprehensive evaluation on a publicly available MRI cardiac segmentation dataset, comparing against various SSL frameworks with different UNet-based segmentation networks, highlights the superior performance of Semi-Mamba-UNet. The source code has been made publicly accessible.
翻訳日:2024-04-02 14:15:46 公開日:2024-03-29
# モデル編集の長期的評価

Long-form evaluation of model editing ( http://arxiv.org/abs/2402.09394v2 )

ライセンス: Link先を確認
Domenic Rosati, Robie Gonzales, Jinkun Chen, Xuemin Yu, Melis Erkan, Yahya Kayani, Satya Deepika Chavatapalli, Frank Rudzicz, Hassan Sajjad, (参考訳) モデル編集の評価は現在、プロンプトの後に 'next few token' 完了しか使用していない。 その結果、これらの手法が長大な自然言語生成に与える影響はほとんど分かっていない。 本稿では,モデル編集の有効性と効果を評価する新しい評価プロトコルであるLEME(Long-form Evaluation of Model Editor)について紹介する。 我々のプロトコルは,人間の評価とよく相関する,機械評価調査と分類器から構成される。 重要なことは、我々のプロトコルは、有効性、一般化、局所性、ポータビリティを長期設定に拡張するために設計されているにもかかわらず、以前のショートフォームメトリクスとはほとんど関係がないことを示し、モデル編集方法を理解するための新しい次元を導入したことを示す。 本プロトコルを用いて,多数のモデル編集手法をベンチマークし,いくつかの手法(ROMEとMEMIT)が一定の範囲内で一貫した編集を行うのに対して,他の手法よりも現実的なドリフトに悩まされていることを示す。 最後に, 内部整合性, 語彙結合性, 局所性問題を含む, 長期的生成環境における共通障害モードを定性的に解析する。

Evaluations of model editing currently only use the `next few token' completions after a prompt. As a result, the impact of these methods on longer natural language generation is largely unknown. We introduce long-form evaluation of model editing (LEME) a novel evaluation protocol that measures the efficacy and impact of model editing in long-form generative settings. Our protocol consists of a machine-rated survey and a classifier which correlates well with human ratings. Importantly, we find that our protocol has very little relationship with previous short-form metrics (despite being designed to extend efficacy, generalization, locality, and portability into a long-form setting), indicating that our method introduces a novel set of dimensions for understanding model editing methods. Using this protocol, we benchmark a number of model editing techniques and present several findings including that, while some methods (ROME and MEMIT) perform well in making consistent edits within a limited scope, they suffer much more from factual drift than other methods. Finally, we present a qualitative analysis that illustrates common failure modes in long-form generative settings including internal consistency, lexical cohesion, and locality issues.
翻訳日:2024-04-02 14:04:28 公開日:2024-03-29
# 離散力学系のトポロジーと挙動の学習

Learning the Topology and Behavior of Discrete Dynamical Systems ( http://arxiv.org/abs/2402.11686v2 )

ライセンス: Link先を確認
Zirou Qiu, Abhijin Adiga, Madhav V. Marathe, S. S. Ravi, Daniel J. Rosenkrantz, Richard E. Stearns, Anil Vullikanti, (参考訳) 離散力学系は、現実世界のネットワーク上での伝染の拡散をモデル化するために一般的に用いられる。 PACの枠組みの下では、基礎となるネットワークが知られていると仮定して、システムの振る舞いを学習する問題を研究している。 本研究では、ブラックボックスシステムの振る舞いと基盤となるトポロジの両方を学習する、より困難な設定に焦点を当てる。 一般に、この学習問題は計算的に難解であることが示される。 正の面では、動的システムの基盤となるグラフがいくつかのクラスに属する場合、PACモデルの下で効率的な学習方法を示す。 さらに,未知系のトポロジが部分的に観察される緩和された環境についても検討した。 そこで本研究では,システムの推論とサンプルの複雑さの確立に有効なPAC学習者を提案する。 最後に、ナタラジャン次元のよく知られた形式主義を用いて、トポロジーと振舞いの両方が未知である力学系の仮説クラスの表現力の形式的解析を行う。 この結果は、離散力学系の挙動とトポロジーの両方を学ぶための理論的基盤を提供する。

Discrete dynamical systems are commonly used to model the spread of contagions on real-world networks. Under the PAC framework, existing research has studied the problem of learning the behavior of a system, assuming that the underlying network is known. In this work, we focus on a more challenging setting: to learn both the behavior and the underlying topology of a black-box system. We show that, in general, this learning problem is computationally intractable. On the positive side, we present efficient learning methods under the PAC model when the underlying graph of the dynamical system belongs to some classes. Further, we examine a relaxed setting where the topology of an unknown system is partially observed. For this case, we develop an efficient PAC learner to infer the system and establish the sample complexity. Lastly, we present a formal analysis of the expressive power of the hypothesis class of dynamical systems where both the topology and behavior are unknown, using the well-known formalism of the Natarajan dimension. Our results provide a theoretical foundation for learning both the behavior and topology of discrete dynamical systems.
翻訳日:2024-04-02 14:04:28 公開日:2024-03-29
# Q-FOX学習:強化学習の伝統を破る

Q-FOX Learning: Breaking Tradition in Reinforcement Learning ( http://arxiv.org/abs/2402.16562v2 )

ライセンス: Link先を確認
Mahmood A. Jumaah, Yossra H. Ali, Tarik A. Rashid, (参考訳) 強化学習(Reinforcement Learning, RL)は、人工知能(AI)のサブセットであり、エージェントは環境と対話することで最良の行動を学ぶ。 ハイパーパラメータ(HP)チューニングは、RLアルゴリズムの最適解につながる最適なパラメータを選択することを指す。 HPのマニュアルやランダムなチューニングは、このパラメータのバリエーションが全体的な学習の側面や報酬の変化をもたらすため、重要なプロセスである可能性がある。 本稿では,Q-FOXと呼ばれる新しい自動HPチューニング手法を提案する。 これは、自然にインスパイアされた新しい最適化手法であるFOXオプティマイザと、HPチューニングの問題を解決するためによく使われるRL Q-learningアルゴリズムを使用する。 さらに、平均二乗誤差(MSE)と学習時間(ステップ)よりも報酬を優先する新たな目的関数を提案する。 Q-FOXは2つのOpenAI Gym環境制御タスク、カートポールと凍結湖で評価されている。 PSO, GA, Bee, ランダムに選択されたHPなど、他のオプティマイザとのチューニングよりも累積的な報酬が明らかにされた。 カート・ポール・タスクの累積報酬は32.08であり、凍結湖・タスクの報酬は0.95だった。 Q-FOXの堅牢性にもかかわらず、制限がある。 シミュレーション環境でHPを選択する前に、実際の単語で直接使用することはできない。 その結果,Q-FOXはRLアルゴリズムのHPチューニングにおいて重要な役割を担い,異なる制御タスクを効果的に解くことができた。

Reinforcement learning (RL) is a subset of artificial intelligence (AI) where agents learn the best action by interacting with the environment, making it suitable for tasks that do not require labeled data or direct supervision. Hyperparameters (HP) tuning refers to choosing the best parameter that leads to optimal solutions in RL algorithms. Manual or random tuning of the HP may be a crucial process because variations in this parameter lead to changes in the overall learning aspects and different rewards. In this paper, a novel and automatic HP-tuning method called Q-FOX is proposed. This uses both the FOX optimizer, a new optimization method inspired by nature that mimics red foxes' hunting behavior, and the commonly used, easy-to-implement RL Q-learning algorithm to solve the problem of HP tuning. Moreover, a new objective function is proposed which prioritizes the reward over the mean squared error (MSE) and learning time (steps). Q-FOX has been evaluated on two OpenAI Gym environment control tasks: Cart Pole and Frozen Lake. It exposed greater cumulative rewards than HP tuning with other optimizers, such as PSO, GA, Bee, or randomly selected HP. The cumulative reward for the Cart Pole task was 32.08, and for the Frozen Lake task was 0.95. Despite the robustness of Q-FOX, it has limitations. It cannot be used directly in real-word problems before choosing the HP in a simulation environment because its processes work iteratively, making it time-consuming. The results indicate that Q-FOX has played an essential role in HP tuning for RL algorithms to effectively solve different control tasks.
翻訳日:2024-04-02 14:04:28 公開日:2024-03-29
# グラディエント再重み付け:不均衡なクラスインクリメンタルラーニングを目指して

Gradient Reweighting: Towards Imbalanced Class-Incremental Learning ( http://arxiv.org/abs/2402.18528v2 )

ライセンス: Link先を確認
Jiangpeng He, Fengqing Zhu, (参考訳) CIL(Class-Incremental Learning)は、学習知識を維持しながら、非定常データから新しいクラスを継続的に認識するようにモデルを訓練する。 CILの大きな課題は、非一様分布を特徴とする実世界のデータに適用する際に生じる。 一 古タスクの記憶された例と新クラスデータ(段階間不均衡)の相違 (II)個々の作業(段階的不均衡)内での厳しいクラス不均衡。 この二重不均衡問題により、FC層に偏りのある勾配更新が生じ、CILの過度/過度な適合と破滅的な忘れが引き起こされる。 本手法は、バランスの取れた最適化と偏りのない分類器学習への勾配を重み付けすることでこの問題に対処する。 さらに, 学習段階において, 学習データ量が多くなるため, CIL中において, パラドックス的にインスタンスリッチクラスが高い性能劣化を被る不均衡な記憶を観察する。 これを解決するために、我々は、出力ロジットを、失われたトレーニングデータの分布に比例して整合させることにより、忘れを緩和するために、分布認識の知識蒸留損失を更に導入する。 CIFAR-100, ImageNetSubset, およびFood101の各種評価プロトコルに対する検証を行い, 実世界のシナリオにおけるCILの適用可能性を示した。

Class-Incremental Learning (CIL) trains a model to continually recognize new classes from non-stationary data while retaining learned knowledge. A major challenge of CIL arises when applying to real-world data characterized by non-uniform distribution, which introduces a dual imbalance problem involving (i) disparities between stored exemplars of old tasks and new class data (inter-phase imbalance), and (ii) severe class imbalances within each individual task (intra-phase imbalance). We show that this dual imbalance issue causes skewed gradient updates with biased weights in FC layers, thus inducing over/under-fitting and catastrophic forgetting in CIL. Our method addresses it by reweighting the gradients towards balanced optimization and unbiased classifier learning. Additionally, we observe imbalanced forgetting where paradoxically the instance-rich classes suffer higher performance degradation during CIL due to a larger amount of training data becoming unavailable in subsequent learning phases. To tackle this, we further introduce a distribution-aware knowledge distillation loss to mitigate forgetting by aligning output logits proportionally with the distribution of lost training data. We validate our method on CIFAR-100, ImageNetSubset, and Food101 across various evaluation protocols and demonstrate consistent improvements compared to existing works, showing great potential to apply CIL in real-world scenarios with enhanced robustness and effectiveness.
翻訳日:2024-04-02 13:54:43 公開日:2024-03-29
# Point Cloud Mamba: 状態空間モデルによるポイントクラウド学習

Point Cloud Mamba: Point Cloud Learning via State Space Model ( http://arxiv.org/abs/2403.00762v2 )

ライセンス: Link先を確認
Tao Zhang, Xiangtai Li, Haobo Yuan, Shunping Ji, Shuicheng Yan, (参考訳) 本研究では,マンバをベースとしたポイントクラウド手法が,ポイントベースの手法より優れていることを示す。 Mambaは、強力なグローバルモデリング機能と線形計算複雑性を示しており、ポイントクラウド分析にとって非常に魅力的である。 マンバによる3次元点群データのより効率的な処理を実現するために, 隣接点が空間的に近接していることを保証するとともに, 点群を1次元点列に変換するための一貫性トラバースシリアライゼーションを提案する。 連続トラバースシリアライゼーションは、x, y, z座標の順序を置換することによって6つの変種を生成する。 さらに,異なる順序の点列の処理において,より効果的にマンバを支援するために,マンバにシーケンスの配列規則を通知する点プロンプトを導入する。 最後に,空間座標マッピングに基づく位置符号化を提案し,位置情報を点雲列によりよく注入する。 これらの改善に基づき,ローカル・グローバル・モデリングを組み合わせたポイント・クラウド・マンバ(Point Cloud Mamba)というポイント・クラウド・ネットワークを構築した。 Point Cloud Mambaは、SOTAポイントベースのPointNeXtを超え、ScanObjectNN、ModelNet40、ShapeNetPartデータセットで新しいSOTAパフォーマンスを達成する。

In this work, for the first time, we demonstrate that Mamba-based point cloud methods can outperform point-based methods. Mamba exhibits strong global modeling capabilities and linear computational complexity, making it highly attractive for point cloud analysis. To enable more effective processing of 3-D point cloud data by Mamba, we propose a novel Consistent Traverse Serialization to convert point clouds into 1-D point sequences while ensuring that neighboring points in the sequence are also spatially adjacent. Consistent Traverse Serialization yields six variants by permuting the order of x, y, and z coordinates, and the synergistic use of these variants aids Mamba in comprehensively observing point cloud data. Furthermore, to assist Mamba in handling point sequences with different orders more effectively, we introduce point prompts to inform Mamba of the sequence's arrangement rules. Finally, we propose positional encoding based on spatial coordinate mapping to inject positional information into point cloud sequences better. Based on these improvements, we construct a point cloud network named Point Cloud Mamba, which combines local and global modeling. Point Cloud Mamba surpasses the SOTA point-based method PointNeXt and achieves new SOTA performance on the ScanObjectNN, ModelNet40, and ShapeNetPart datasets.
翻訳日:2024-04-02 13:54:43 公開日:2024-03-29
# FocusMAE:集束型オートエンコーダを用いた超音波による胆嚢癌検出

FocusMAE: Gallbladder Cancer Detection from Ultrasound Videos with Focused Masked Autoencoders ( http://arxiv.org/abs/2403.08848v2 )

ライセンス: Link先を確認
Soumen Basu, Mayuna Gupta, Chetan Madan, Pankaj Gupta, Chetan Arora, (参考訳) 近年,胆嚢癌(GBC)の自動検出が研究者の注目を集めている。 超音波ソノグラフィー(US)画像を利用したSOTA法は,変換的アプローチの必要性を強調しつつ,限定的な一般化を示している。 我々は、個々のアメリカのフレームには、病気の徴候を捉えるのに十分な情報がないことを観察する。 本研究は、時空間表現の固有の利点を生かして、ビデオベースGBC検出へのパラダイムシフトを提唱する。 Masked Autoencoder (MAE) を表現学習に適用し、従来の画像ベース手法の欠点に対処する。 本研究では,高情報領域からのマスキングトークンの選択を体系的にバイアスし,より洗練された悪性度表現を育成するFocusMAEという新しい設計を提案する。 さらに、GBC検出のための最も広範な米国ビデオデータセットをコントリビュートする。 また、これは米国におけるビデオベースのGBC検出に関する最初の研究である。 提案手法の有効性を検証し,既存の画像ベースSOTA - GBCNet と RadFormer では84%,ビデオベース SOTA - AdaMAE では94.7% の精度で,GBC 検出問題に対して96.4% の新たな最先端SOTA (State-of-the-art) 精度を報告した。 提案したFocusMAEの公共CTに基づくCovid検出データセットの汎用性をさらに実証し、現在のベースラインよりも精度が3.3%向上したことを報告した。 ソースコードと事前訓練されたモデルは以下の通りである。

In recent years, automated Gallbladder Cancer (GBC) detection has gained the attention of researchers. Current state-of-the-art (SOTA) methodologies relying on ultrasound sonography (US) images exhibit limited generalization, emphasizing the need for transformative approaches. We observe that individual US frames may lack sufficient information to capture disease manifestation. This study advocates for a paradigm shift towards video-based GBC detection, leveraging the inherent advantages of spatiotemporal representations. Employing the Masked Autoencoder (MAE) for representation learning, we address shortcomings in conventional image-based methods. We propose a novel design called FocusMAE to systematically bias the selection of masking tokens from high-information regions, fostering a more refined representation of malignancy. Additionally, we contribute the most extensive US video dataset for GBC detection. We also note that, this is the first study on US video-based GBC detection. We validate the proposed methods on the curated dataset, and report a new state-of-the-art (SOTA) accuracy of 96.4% for the GBC detection problem, against an accuracy of 84% by current Image-based SOTA - GBCNet, and RadFormer, and 94.7% by Video-based SOTA - AdaMAE. We further demonstrate the generality of the proposed FocusMAE on a public CT-based Covid detection dataset, reporting an improvement in accuracy by 3.3% over current baselines. The source code and pretrained models are available at: https://gbc-iitd.github.io/focusmae
翻訳日:2024-04-02 13:44:58 公開日:2024-03-29
# テキスト画像エンコーダにおける分布外データの微調整によるモデル再構成

Model Reprogramming Outperforms Fine-tuning on Out-of-distribution Data in Text-Image Encoders ( http://arxiv.org/abs/2403.10800v2 )

ライセンス: Link先を確認
Andrew Geng, Pin-Yu Chen, (参考訳) 下流タスクに移行した事前学習モデルの性能を評価する際には、下流モデルの分布内(ID)精度だけでなく、分布外(OOD)サンプルを一般化・識別する能力も評価することが不可欠である。 本稿では,侵入的微調整技術に関連する隠れたコストを明らかにする。 具体的には,covariate-shifted OOD サンプル(OOD 一般化)の一般化に必要な表現を歪曲するだけでなく,意味的にシフトした OOD サンプル(OOD 検出)を検出するために必要な表現を歪曲する。 これらの課題に対処するため、我々は細調整のための新しいモデル再プログラミング手法を導入し、それをリプログラマと呼ぶ。 Re Programmerは、ID、OOD一般化、OOD検出タスク間のダウンストリームモデルの全体的なパフォーマンスを改善することを目的としている。 我々の経験的証拠は、Re Programmerは侵入力が少なく、下流モデルに優れていることを示している。 さらに、Re Programmerに余分な表現接続を追加することで、トレーニング前の表現をさらに保存し、多くのID分類、OOD一般化、OOD検出設定に優れた、より安全で堅牢な下流モデルが得られることを示す。

When evaluating the performance of a pre-trained model transferred to a downstream task, it is imperative to assess not only the in-distribution (ID) accuracy of the downstream model but also its capacity to generalize and identify out-of-distribution (OOD) samples. In this paper, we unveil the hidden costs associated with intrusive fine-tuning techniques. Specifically, we demonstrate that commonly used fine-tuning methods not only distort the representations necessary for generalizing to covariate-shifted OOD samples (OOD generalization) but also distort the representations necessary for detecting semantically-shifted OOD samples (OOD detection). To address these challenges, we introduce a new model reprogramming approach for fine-tuning, which we name Reprogrammer. Reprogrammer aims to improve the holistic performance of the downstream model across ID, OOD generalization, and OOD detection tasks. Our empirical evidence reveals that Reprogrammer is less intrusive and yields superior downstream models. Furthermore, we demonstrate that by appending an additional representation residual connection to Reprogrammer, we can further preserve pre-training representations, resulting in an even more safe and robust downstream model capable of excelling in many ID classification, OOD generalization, and OOD detection settings.
翻訳日:2024-04-02 13:44:58 公開日:2024-03-29
# テキスト・トゥ・イメージ・シンセサイザーの評価:画像品質指標の調査と分類

Evaluating Text-to-Image Synthesis: Survey and Taxonomy of Image Quality Metrics ( http://arxiv.org/abs/2403.11821v2 )

ライセンス: Link先を確認
Sebastian Hartwig, Dominik Engel, Leon Sick, Hannah Kniesel, Tristan Payer, Poonam Poonam, Michael Glöckler, Alex Bäuerle, Timo Ropinski, (参考訳) 近年,言語と視覚基盤モデルの組み合わせによるテキスト・画像合成の進歩により,ツールの普及が進み,分野への注目が高まっている。 テキストと画像の合成を行う場合、中心となる目的は、テキストと画像のコンテンツが一致していることを保証することである。 このように、人間の判断を模倣することを目的とした評価指標が多数存在する。 しかし,テキスト・ツー・イメージ合成システムの評価に使用する指標が不明瞭である場合が多い。 本稿では,既存のテキスト・画像評価指標について概観する。 本研究は,これらの指標を分類する新しい分類法を提案する。 我々の分類学は、構成性と一般性という2つの主要な品質基準があるという前提に基づいており、それは理想的には人間の嗜好に当てはまる。 最終的に、テキスト・ツー・イメージ評価を行う実践者のためのガイドラインを導出し、評価メカニズムのオープンな課題と現在のメトリクスの表面的制限について議論する。

Recent advances in text-to-image synthesis enabled through a combination of language and vision foundation models have led to a proliferation of the tools available and an increased attention to the field. When conducting text-to-image synthesis, a central goal is to ensure that the content between text and image is aligned. As such, there exist numerous evaluation metrics that aim to mimic human judgement. However, it is often unclear which metric to use for evaluating text-to-image synthesis systems as their evaluation is highly nuanced. In this work, we provide a comprehensive overview of existing text-to-image evaluation metrics. Based on our findings, we propose a new taxonomy for categorizing these metrics. Our taxonomy is grounded in the assumption that there are two main quality criteria, namely compositionality and generality, which ideally map to human preferences. Ultimately, we derive guidelines for practitioners conducting text-to-image evaluation, discuss open challenges of evaluation mechanisms, and surface limitations of current metrics.
翻訳日:2024-04-02 13:44:58 公開日:2024-03-29
# キャッシングによる長寿命マルチエージェントパスの探索

Caching-Augmented Lifelong Multi-Agent Path Finding ( http://arxiv.org/abs/2403.13421v2 )

ライセンス: Link先を確認
Yimin Tang, Zhenghong Yu, Yi Zheng, T. K. Satish Kumar, Jiaoyang Li, Sven Koenig, (参考訳) マルチエージェントパス探索(MAPF: Multi-Agent Path Finding)は、複数のロボットの衝突のない経路を見つけることを含む、様々な用途において重要である。 Lifelong MAPFは、最初のターゲットが完成したらすぐにターゲットをエージェントに割り当てるが、現実の倉庫計画のより正確な近似を提供する。 本稿では,ライフロングMAPFの性能向上を目的とした,Caching-Augmented Lifelong MAPF (CAL-MAPF) という新しいメカニズムを提案する。 我々は、一時的アイテム記憶と交換のためのキャッシュと呼ばれる新しいタイプのマップグリッドを開発し、計画ソリューションの安定性を改善するためのロック機構を設計した。 このキャッシュ機構は、様々なキャッシュ置換ポリシーと入力タスク分布のスペクトルを用いて評価された。 実験によりCAL-MAPFの性能に顕著な3つの要因を同定した: 適切な入力タスク分布、高いキャッシュヒット率、スムーズなトラフィック。 一般に、CAL-MAPFは特定のタスク分布、マップ、エージェント構成のパフォーマンス改善の可能性を実証している。

Multi-Agent Path Finding (MAPF), which involves finding collision-free paths for multiple robots, is crucial in various applications. Lifelong MAPF, where targets are reassigned to agents as soon as they complete their initial targets, offers a more accurate approximation of real-world warehouse planning. In this paper, we present a novel mechanism named Caching-Augmented Lifelong MAPF (CAL-MAPF), designed to improve the performance of Lifelong MAPF. We have developed a new type of map grid called cache for temporary item storage and replacement, and designed a locking mechanism for it to improve the stability of the planning solution. This cache mechanism was evaluated using various cache replacement policies and a spectrum of input task distributions. We identified three main factors significantly impacting CAL-MAPF performance through experimentation: suitable input task distribution, high cache hit rate, and smooth traffic. In general, CAL-MAPF has demonstrated potential for performance improvements in certain task distributions, maps, and agent configurations.
翻訳日:2024-04-02 13:44:58 公開日:2024-03-29
# 包括性と抽象性によるジェネリティーの特定

Specifying Genericity through Inclusiveness and Abstractness Continuous Scales ( http://arxiv.org/abs/2403.15278v2 )

ライセンス: Link先を確認
Claudia Collacciani, Andrea Amelio Ravelli, Marianna Marcella Bolognesi, (参考訳) 本稿では,自然言語における名詞句(NP)の詳細なモデリングのための新しいアノテーションフレームワークを提案する。 このフレームワークはシンプルで直感的に設計されており、専門家でないアノテータにもアクセスでき、クラウドソースのタスクに適している。 一般性に関する理論的・認知的な文献から、この枠組みは確立された言語理論に根ざしている。 パイロットスタディを通じて、324文の小さなが重要な注釈付きデータセットを作成し、将来の研究の基盤となった。 提案手法の有効性を検証するため,同データセット上の既存のバイナリアノテーションと連続アノテーションを比較した。 我々の研究は、言語学者のための実践的なリソースを提供し、汎用性のセマンティクスの研究に使用可能な、最初の注釈付きデータセットと実際のデータセットを構築するためのアノテーションスキームを提供し、様々なNLPアプリケーションの拡張に有用なコモンセンス知識リポジトリの開発に寄与している。

This paper introduces a novel annotation framework for the fine-grained modeling of Noun Phrases' (NPs) genericity in natural language. The framework is designed to be simple and intuitive, making it accessible to non-expert annotators and suitable for crowd-sourced tasks. Drawing from theoretical and cognitive literature on genericity, this framework is grounded in established linguistic theory. Through a pilot study, we created a small but crucial annotated dataset of 324 sentences, serving as a foundation for future research. To validate our approach, we conducted an evaluation comparing our continuous annotations with existing binary annotations on the same dataset, demonstrating the framework's effectiveness in capturing nuanced aspects of genericity. Our work offers a practical resource for linguists, providing a first annotated dataset and an annotation scheme designed to build real-language datasets that can be used in studies on the semantics of genericity, and NLP practitioners, contributing to the development of commonsense knowledge repositories valuable in enhancing various NLP applications.
翻訳日:2024-04-02 13:35:12 公開日:2024-03-29
# 道路作業区域における拡張現実警告の強化--作業者の反応時間に及ぼすモダリティの影響の評価

Augmented Reality Warnings in Roadway Work Zones: Evaluating the Effect of Modality on Worker Reaction Times ( http://arxiv.org/abs/2403.15571v2 )

ライセンス: Link先を確認
Sepehr Sabeti, Fatemeh Banani Ardecani, Omidreza Shoghli, (参考訳) 老朽化した高速道路のインフラは、大規模な再建と強化を必要としており、労働ゾーンの増加に伴い、労働者を保護するための高度な安全システムの開発が急務である。 Augmented Reality(AR)は、労働者に警告を配信する大きな可能性を秘めているが、道路作業ゾーンへの統合は、まだ明らかになっていない。 本研究の目的は,マルチモーダルAR警告の組み合わせが作業者の反応時間にどのように影響するかを広範囲に分析することにより,道路作業区域内の安全対策を改善することである。 本稿では,実環境と仮想環境の両方において,道路作業ゾーンの特有な条件を再現することを目的とした一連の実験を通じて,このギャップを解消する。 提案手法は,高度なARシステムのプロトタイプ,ワークゾーン環境内のAR機能のVRシミュレーション,実験間でユーザエクスペリエンスを同期するWizard of Ozテクニックの3つの重要なコンポーネントから構成される。 反応時間を評価するために、実時間ポーズ推定を利用する単純な反応時間(SRT)技術と革新的な視覚ベースの計量の両方を利用する。 コントロールされた屋外ワークゾーンと屋内VR設定で5つの実験を行うことで、さまざまなマルチモーダルAR警告が労働者の反応時間に与える影響について貴重な情報を提供する。 さらに,本研究では,VRシミュレーションと実世界のシナリオ間の反応時間の差異を明らかにし,道路作業ゾーンのダイナミックスを反映するVR能力を拡張した。 さらに,本研究の結果は,視覚に基づく反応時間測定の可能性と信頼性を裏付けるものである。 これらの知見は、SRT技術を用いて導出されたものとよく一致し、実世界の有形な使用のためにこのアプローチが実現可能であることを暗示している。

Given the aging highway infrastructure requiring extensive rebuilding and enhancements, and the consequent rise in the number of work zones, there is an urgent need to develop advanced safety systems to protect workers. While Augmented Reality (AR) holds significant potential for delivering warnings to workers, its integration into roadway work zones remains relatively unexplored. The primary objective of this study is to improve safety measures within roadway work zones by conducting an extensive analysis of how different combinations of multimodal AR warnings influence the reaction times of workers. This paper addresses this gap through a series of experiments that aim to replicate the distinctive conditions of roadway work zones, both in real-world and virtual reality environments. Our approach comprises three key components: an advanced AR system prototype, a VR simulation of AR functionality within the work zone environment, and the Wizard of Oz technique to synchronize user experiences across experiments. To assess reaction times, we leverage both the simple reaction time (SRT) technique and an innovative vision-based metric that utilizes real-time pose estimation. By conducting five experiments in controlled outdoor work zones and indoor VR settings, our study provides valuable information on how various multimodal AR warnings impact workers reaction times. Furthermore, our findings reveal the disparities in reaction times between VR simulations and real-world scenarios, thereby gauging VR's capability to mirror the dynamics of roadway work zones. Furthermore, our results substantiate the potential and reliability of vision-based reaction time measurements. These insights resonate well with those derived using the SRT technique, underscoring the viability of this approach for tangible real-world uses.
翻訳日:2024-04-02 13:35:12 公開日:2024-03-29
# Task2Box:非対称なタスク関係をモデル化するためのボックス埋め込み

Task2Box: Box Embeddings for Modeling Asymmetric Task Relationships ( http://arxiv.org/abs/2403.17173v2 )

ライセンス: Link先を確認
Rangel Daroya, Aaron Sun, Subhransu Maji, (参考訳) タスクやデータセット間の関係をモデル化し視覚化することは、データセット発見、マルチタスク、転送学習といったさまざまなメタタスクを解決するための重要なステップである。 しかし、封じ込めや転送可能性のような多くの関係は自然に非対称であり、表現と視覚化(例えば t-SNE)に対する現在のアプローチは容易にはそれを支持しない。 本研究では,ボックス埋め込み(低次元空間における軸方向の超矩形)を用いてタスクを表現するためのTask2Boxを提案する。 我々は、Task2BoxがImageNetとiNaturalistデータセットのノード間の非階層的関係を正確に予測し、Taskonomyベンチマークのタスク間の転送可能性を示す。 また、タスク表現から推定されるボックス埋め込み(例えば、CLIP、Task2Vec、属性ベース)は、同じ表現で訓練された分類器や、手作りの非対称距離(例えば、KLの発散)よりも正確に、未確認タスク間の関係を予測できることを示す。 このことは、低次元のボックス埋め込みがこれらのタスク関係を効果的に捉え、解釈可能であるという利点を付加できることを示唆している。 私たちは、Hugging Faceと呼ばれる一般的なデータセットホスティングプラットフォーム上で、公開可能な画像分類データセット間の関係を可視化するために、このアプローチを使用します。

Modeling and visualizing relationships between tasks or datasets is an important step towards solving various meta-tasks such as dataset discovery, multi-tasking, and transfer learning. However, many relationships, such as containment and transferability, are naturally asymmetric and current approaches for representation and visualization (e.g., t-SNE) do not readily support this. We propose Task2Box, an approach to represent tasks using box embeddings -- axis-aligned hyperrectangles in low dimensional spaces -- that can capture asymmetric relationships between them through volumetric overlaps. We show that Task2Box accurately predicts unseen hierarchical relationships between nodes in ImageNet and iNaturalist datasets, as well as transferability between tasks in the Taskonomy benchmark. We also show that box embeddings estimated from task representations (e.g., CLIP, Task2Vec, or attribute based) can be used to predict relationships between unseen tasks more accurately than classifiers trained on the same representations, as well as handcrafted asymmetric distances (e.g., KL divergence). This suggests that low-dimensional box embeddings can effectively capture these task relationships and have the added advantage of being interpretable. We use the approach to visualize relationships among publicly available image classification datasets on popular dataset hosting platform called Hugging Face.
翻訳日:2024-04-02 13:35:12 公開日:2024-03-29
# 急速に予測される構造:推論の返却

Promptly Predicting Structures: The Return of Inference ( http://arxiv.org/abs/2401.06877v3 )

ライセンス: Link先を確認
Maitrey Mehta, Valentina Pyatkin, Vivek Srikumar, (参考訳) プロンプトベースの手法は、ゼロショットと少数ショットのラベル予測器を構築するために、NLP全体で広く使われている。 多くのNLPタスクは自然に構造化されており、その出力は互いに制約する複数のラベルで構成されている。 このようなタスクにデータをアノテートするのは面倒です。 プロンプトベースのパラダイムの約束はそのような構造化出力に拡張できるだろうか? 本稿では,ゼロショットと少数ショットの言語構造予測器を構築するためのフレームワークを提案する。 私たちのキーとなる洞察は、構造的制約 -- およびそれらから派生した組合せ推論 -- を使用して、大きな言語モデルによって予測される一貫性のない構造をフィルタリングできるということです。 2つの構造化予測タスクと5つのデータセットに基づいて、このフレームワークをインスタンス化した。 いずれの場合も、一貫性の強制は構造的に有効な出力を構成するだけでなく、制約のない変種よりも性能も向上することを示す。

Prompt-based methods have been used extensively across NLP to build zero- and few-shot label predictors. Many NLP tasks are naturally structured: that is, their outputs consist of multiple labels which constrain each other. Annotating data for such tasks can be cumbersome. Can the promise of the prompt-based paradigm be extended to such structured outputs? In this paper, we present a framework for constructing zero- and few-shot linguistic structure predictors. Our key insight is that we can use structural constraints -- and combinatorial inference derived from them -- to filter out inconsistent structures predicted by large language models. We instantiated this framework on two structured prediction tasks, and five datasets. Across all cases, our results show that enforcing consistency not only constructs structurally valid outputs, but also improves performance over the unconstrained variants.
翻訳日:2024-04-02 11:22:19 公開日:2024-03-29
# 低コスト単光子カメラによる3次元視覚の実現に向けて

Towards 3D Vision with Low-Cost Single-Photon Cameras ( http://arxiv.org/abs/2403.17801v2 )

ライセンス: Link先を確認
Fangzhou Mu, Carter Sifferman, Sacha Jungerman, Yiquan Li, Mark Han, Michael Gleicher, Mohit Gupta, Yin Li, (参考訳) 小型で省エネで低コストな単光子カメラによる計測に基づいて,任意のランベルト物体の3次元形状を再構成する手法を提案する。 時間分解画像センサーとして機能するこれらのカメラは、非常に速い拡散光のパルスでシーンを照らし、高い時間分解能でシーンから戻ると、そのパルスの形状を記録する。 本稿では、この画像形成過程をモデル化し、その非理想性を考慮し、ニューラルレンダリングを適用して、空間分布センサの集合を既知のポーズで再構成することを提案する。 シミュレーションデータから複雑な3次元形状を復元できることを示す。 さらに,コモディティ近接センサを用いて,実世界の撮影から3次元オブジェクトを復元する手法を実証した。 我々の研究は、画像ベースモデリングとアクティブレンジスキャンの関連性を引き合いに出し、単光子カメラによる3Dビジョンに向けた一歩である。

We present a method for reconstructing 3D shape of arbitrary Lambertian objects based on measurements by miniature, energy-efficient, low-cost single-photon cameras. These cameras, operating as time resolved image sensors, illuminate the scene with a very fast pulse of diffuse light and record the shape of that pulse as it returns back from the scene at a high temporal resolution. We propose to model this image formation process, account for its non-idealities, and adapt neural rendering to reconstruct 3D geometry from a set of spatially distributed sensors with known poses. We show that our approach can successfully recover complex 3D shapes from simulated data. We further demonstrate 3D object reconstruction from real-world captures, utilizing measurements from a commodity proximity sensor. Our work draws a connection between image-based modeling and active range scanning and is a step towards 3D vision with single-photon cameras.
翻訳日:2024-04-02 11:22:19 公開日:2024-03-29
# 中国語の攻撃的言語検出:現状と今後の方向性

Chinese Offensive Language Detection:Current Status and Future Directions ( http://arxiv.org/abs/2403.18314v3 )

ライセンス: Link先を確認
Yunze Xiao, Houda Bouamor, Wajdi Zaghouani, (参考訳) ソーシャルメディアプラットフォーム上でユーザー生成コンテンツを監視・規制するためのかなりの努力にもかかわらず、ヘイトスピーチやサイバーいじめのような攻撃的な言語がデジタル空間に広まることは大きな課題である。 文明化され、尊敬されるオンライン環境を維持することの重要性を考えると、攻撃的な音声をリアルタイムで検出できる自動システムの必要性は急速に高まっている。 しかし、中国語などの言語処理に有効なシステムを開発することは、言語が複雑でニュアンスに富んだ性質のため重要な課題であり、自動処理が困難である。 本稿では、中国語における攻撃的言語検出の総合的な概要、現在のベンチマークとアプローチ、この複雑な言語における攻撃的言語検出の独特な課題に対処するための特定のモデルとツールの強調について述べる。 本調査の主な目的は,中国語の文化的・言語的複雑さに対処可能な,既存の手法を探求し,さらなる研究の道筋を明らかにすることである。

Despite the considerable efforts being made to monitor and regulate user-generated content on social media platforms, the pervasiveness of offensive language, such as hate speech or cyberbullying, in the digital space remains a significant challenge. Given the importance of maintaining a civilized and respectful online environment, there is an urgent and growing need for automatic systems capable of detecting offensive speech in real time. However, developing effective systems for processing languages such as Chinese presents a significant challenge, owing to the language's complex and nuanced nature, which makes it difficult to process automatically. This paper provides a comprehensive overview of offensive language detection in Chinese, examining current benchmarks and approaches and highlighting specific models and tools for addressing the unique challenges of detecting offensive language in this complex language. The primary objective of this survey is to explore the existing techniques and identify potential avenues for further research that can address the cultural and linguistic complexities of Chinese.
翻訳日:2024-04-02 11:22:19 公開日:2024-03-29
# SplatFace: 最適表面を利用したガウスのスプラッター顔復元

SplatFace: Gaussian Splat Face Reconstruction Leveraging an Optimizable Surface ( http://arxiv.org/abs/2403.18784v2 )

ライセンス: Link先を確認
Jiahao Luo, Jing Liu, James Davis, (参考訳) SplatFaceは3次元人間の顔再構成のための新しいガウススプレイティングフレームワークであり、正確な事前決定幾何に依存しない。 本手法は,高品質な新規ビューレンダリングと高精度な3Dメッシュ再構成の両方を同時に実現するように設計されている。 本研究では,3次元形態モデル(3DMM)を組み込んで表面幾何学的構造を提供し,入力画像の限られたセットで顔の再構成を可能にする。 我々は,相乗的非剛性アライメントプロセスを通じて,ガウス面と変形面の両方を洗練させる共同最適化戦略を導入する。 ガウス位置と共分散の両方を考慮することによりアライメントを改善するために,新しい距離計量であるスプラ・トゥ・サーフェス(splat-to- Surface)を提案する。 表面情報は、世界空間の密度化プロセスを統合するためにも利用され、より優れた再構成品質が得られる。 提案手法は,新しいビュー合成における他のガウススプラッティング手法と,幾何学的精度の高い3次元顔メッシュの作成において,他の3次元再構成手法と競合することを示す。

We present SplatFace, a novel Gaussian splatting framework designed for 3D human face reconstruction without reliance on accurate pre-determined geometry. Our method is designed to simultaneously deliver both high-quality novel view rendering and accurate 3D mesh reconstructions. We incorporate a generic 3D Morphable Model (3DMM) to provide a surface geometric structure, making it possible to reconstruct faces with a limited set of input images. We introduce a joint optimization strategy that refines both the Gaussians and the morphable surface through a synergistic non-rigid alignment process. A novel distance metric, splat-to-surface, is proposed to improve alignment by considering both the Gaussian position and covariance. The surface information is also utilized to incorporate a world-space densification process, resulting in superior reconstruction quality. Our experimental analysis demonstrates that the proposed method is competitive with both other Gaussian splatting techniques in novel view synthesis and other 3D reconstruction methods in producing 3D face meshes with high geometric precision.
翻訳日:2024-04-02 11:22:19 公開日:2024-03-29
# Tiny Machine Learning: 進歩と未来

Tiny Machine Learning: Progress and Futures ( http://arxiv.org/abs/2403.19076v2 )

ライセンス: Link先を確認
Ji Lin, Ligeng Zhu, Wei-Ming Chen, Wei-Chen Wang, Song Han, (参考訳) Tiny Machine Learning (TinyML)は、機械学習の新しいフロンティアである。 ディープラーニングモデルを何十億ものIoTデバイスやマイクロコントローラ(MCU)に絞ることで、AIアプリケーションの範囲を広げ、ユビキタスなインテリジェンスを可能にします。 しかし、TinyMLはハードウェアの制約のために難しい。小さなメモリリソースは、クラウドやモバイルプラットフォーム用に設計されたディープラーニングモデルを保持するのを難しくする。 また、ベアメタルデバイスに対するコンパイラと推論エンジンのサポートも限定されている。 そのため,TinyMLを実現するためにアルゴリズムとシステムスタックを共同設計する必要がある。 本稿では、まずTinyMLの定義、課題、応用について論じる。 その後、TinyMLの最近の進歩と深層学習をMCUで調査する。 次に、MCUNetを紹介し、システム指向の共同設計でIoTデバイス上でImageNetスケールのAIアプリケーションを実現する方法について説明する。 推論からトレーニングまで、ソリューションをさらに拡張し、デバイス上での小さなトレーニング技術を導入します。 最後に、この領域における今後の方向性を示す。 今日の大きなモデルは明日の小さなモデルかもしれません。 TinyMLのスコープは、時間とともに進化し、適応しなければなりません。

Tiny Machine Learning (TinyML) is a new frontier of machine learning. By squeezing deep learning models into billions of IoT devices and microcontrollers (MCUs), we expand the scope of AI applications and enable ubiquitous intelligence. However, TinyML is challenging due to hardware constraints: the tiny memory resource makes it difficult to hold deep learning models designed for cloud and mobile platforms. There is also limited compiler and inference engine support for bare-metal devices. Therefore, we need to co-design the algorithm and system stack to enable TinyML. In this review, we will first discuss the definition, challenges, and applications of TinyML. We then survey the recent progress in TinyML and deep learning on MCUs. Next, we will introduce MCUNet, showing how we can achieve ImageNet-scale AI applications on IoT devices with system-algorithm co-design. We will further extend the solution from inference to training and introduce tiny on-device training techniques. Finally, we present future directions in this area. Today's large model might be tomorrow's tiny model. The scope of TinyML should evolve and adapt over time.
翻訳日:2024-04-02 11:22:19 公開日:2024-03-29
# MuCo: 相互カバーによるプライバシ保護によるマイクロデータのパブリッシング

MuCo: Publishing Microdata with Privacy Preservation through Mutual Cover ( http://arxiv.org/abs/2008.10771v4 )

ライセンス: Link先を確認
Boyu Li, Jianfeng Ma, Junhua Xi, Lili Zhang, Tao Xie, Tongfei Shang, (参考訳) マイクロデータ公開時のプライバシを保護するため,k-匿名ファミリーの匿名化手法について検討した。 一般化に基づく既存のアプローチは十分な保護を提供することができるが、一般化表はQI(Quasi-Identifier)値の分布がほとんど保存されておらず、クエリステートメントの結果が特定のタプルではなくグループであるために、常にかなりの情報損失に悩まされる。 そこで本稿では,Mutual Cover (MuCo) と呼ばれる新しい手法を提案する。 その根拠は、いくつかの元のQI値をランダムな出力テーブルに従ってランダムな値に置き換えることであり、同じタプルを最小のコストでカバーすることである。 その結果、MuCoは、情報ユーティリティを一般化よりも効果的に維持しつつ、アイデンティティ開示と属性開示の両方を防止することができる。 MuCoの有効性は広範な実験によって検証される。

We study the anonymization technique of k-anonymity family for preserving privacy in the publication of microdata. Although existing approaches based on generalization can provide good enough protections, the generalized table always suffers from considerable information loss, mainly because the distributions of QI (Quasi-Identifier) values are barely preserved and the results of query statements are groups rather than specific tuples. To this end, we propose a novel technique, called the Mutual Cover (MuCo), to prevent the adversary from matching the combination of QI values in published microdata. The rationale is to replace some original QI values with random values according to random output tables, making similar tuples to cover for each other with the minimum cost. As a result, MuCo can prevent both identity disclosure and attribute disclosure while retaining the information utility more effectively than generalization. The effectiveness of MuCo is verified with extensive experiments.
翻訳日:2024-04-01 21:15:55 公開日:2024-03-29
# 学習可能状態推定システムのロバスト性とレジリエンスの形式的検証

Formal Verification of Robustness and Resilience of Learning-Enabled State Estimation Systems ( http://arxiv.org/abs/2010.08311v4 )

ライセンス: Link先を確認
Wei Huang, Yifan Zhou, Gaojie Jin, Youcheng Sun, Jie Meng, Fan Zhang, Xiaowei Huang, (参考訳) 本稿では,ロバストでレジリエントな学習システムの設計と実装のための形式的検証指導手法を提案する。 我々は,ロボット工学の分野で広く用いられている,学習可能な状態推定システム(LE-SES)に注目し,複雑なシステムの現在の状態(例えば,位置,速度,方向など)を決定する。 LE-SESはネットワーク化されたシステムであり、状態推定のためのベイズフィルタ、知覚入力を処理するニューラルネットワークを含む一連の接続コンポーネントで構成されている。 LE-SESを形式的検証の観点から検討し,その特性に対するシステムモデルの満足度を決定する。 LE-SES上では、ロバスト性とレジリエンスという2つの重要な特性を調査し、それらの公式な定義を提供する。 本論文では, LE-SESをラベル付き遷移系の新しいクラスである {PO}^2-LTS に還元し, その特性を制約された最適化目的として正式に表現する。 検証問題はNP完全であることを証明する。 LE-SESの特性の満足度を確認するために, {PO}^2-LTSと最適化目標に基づいて, 実用的検証アルゴリズムを開発した。 主要なケーススタディとして,1つのカルマンフィルタ(KF)(ベイズフィルタの特殊なケース)を使って地上車両のローカライズと追跡を行う,現実世界の動的トラッキングシステムを疑問視する。 畳み込みニューラルネットワークに基づく認識システムは、WAMI(Wide Area Motion Imagery)データストリームを高解像度で処理する。 実験の結果,我々のアルゴリズムはWAMトラッキングシステムの特性を検証できるだけでなく,代表的な例も提示できることがわかった。 実験により, 改良された設計のロバスト性の向上が確認された。

This paper presents a formal verification guided approach for a principled design and implementation of robust and resilient learning-enabled systems. We focus on learning-enabled state estimation systems (LE-SESs), which have been widely used in robotics applications to determine the current state (e.g., location, speed, direction, etc.) of a complex system. The LE-SESs are networked systems, composed of a set of connected components including: Bayes filters for state estimation, and neural networks for processing sensory input. We study LE-SESs from the perspective of formal verification, which determines the satisfiabilty of a system model against the specified properties. Over LE-SESs, we investigate two key properties -- robustness and resilience -- and provide their formal definitions. To enable formal verification, we reduce the LE-SESs to a novel class of labelled transition systems, named {PO}^2-LTS in the paper, and formally express the properties as constrained optimisation objectives. We prove that the verification problems are NP-complete. Based on {PO}^2-LTS and the optimisation objectives, practical verification algorithms are developed to check the satisfiability of the properties on the LE-SESs. As a major case study, we interrogate a real-world dynamic tracking system which uses a single Kalman Filter (KF) -- a special case of Bayes filter -- to localise and track a ground vehicle. Its perception system, based on convolutional neural networks, processes a high-resolution Wide Area Motion Imagery (WAMI) data stream. Experimental results show that our algorithms can not only verify the properties of the WAMI tracking system but also provide representative examples, the latter of which inspired us to take an enhanced LE-SESs design where runtime monitors or joint-KFs are required. Experimental results confirm the improvement in the robustness of the enhanced design.
翻訳日:2024-04-01 21:15:55 公開日:2024-03-29
# 投射ワッサースタイン距離を用いた2サンプル試験

Two-sample Test using Projected Wasserstein Distance ( http://arxiv.org/abs/2010.11970v4 )

ライセンス: Link先を確認
Jie Wang, Rui Gao, Yao Xie, (参考訳) 統計学と機械学習の基本的な問題である2サンプルテストのための予測されたワッサースタイン距離を開発する。 特に, ワッサーシュタイン距離における次元の呪いを回避することを目指しており, 次元が高ければ, 高次元空間におけるワッサーシュタイン計量の緩やかな濃度特性により, 試験力を低下させる。 重要な貢献は、投影された確率分布の間のワッサーシュタイン距離を最大化する低次元線型写像を見つけるために最適射影を結合することである。 我々は、IPM上の有限サンプル収束率の理論的性質と、この計量を計算するための実用的なアルゴリズムを特徴付ける。 数値的な例は、我々の理論結果を検証する。

We develop a projected Wasserstein distance for the two-sample test, a fundamental problem in statistics and machine learning: given two sets of samples, to determine whether they are from the same distribution. In particular, we aim to circumvent the curse of dimensionality in Wasserstein distance: when the dimension is high, it has diminishing testing power, which is inherently due to the slow concentration property of Wasserstein metrics in the high dimension space. A key contribution is to couple optimal projection to find the low dimensional linear mapping to maximize the Wasserstein distance between projected probability distributions. We characterize the theoretical property of the finite-sample convergence rate on IPMs and present practical algorithms for computing this metric. Numerical examples validate our theoretical results.
翻訳日:2024-04-01 21:15:55 公開日:2024-03-29
# バンドフィードバックを持つ強いモノトーンゲームにおける2つの最適非線形オンライン学習

Doubly Optimal No-Regret Online Learning in Strongly Monotone Games with Bandit Feedback ( http://arxiv.org/abs/2112.02856v4 )

ライセンス: Link先を確認
Wenjia Ba, Tianyi Lin, Jiawei Zhang, Zhengyuan Zhou, (参考訳) 各プレイヤーは、その勾配ではなく、現在の全てのプレイヤーのジョイントアクションによって決定される報酬を、各プレイヤーがそれぞれのタイミングでのみ観察できる、バンドイットフィードバックを持つ未知のゲームにおいて、オンラインのノンレグリート学習を考える。 我々は,textit{smooth and strong monotone} ゲームに焦点をあて,そこで最適な非回帰学習を学習する。 自己調和障壁関数を活用することにより、まず新しいバンディット学習アルゴリズムを構築し、滑らかで強凹な報酬関数(n \geq 1$ is the problem dimension)の下で、単項の最適後悔($\tilde{\Theta}(n\sqrt{T})を達成できることを示す。 すると、各プレイヤーがこの非回帰学習アルゴリズムを強い単調ゲームに適用すると、結合アクションは、$\tilde{\Theta}(nT^{-1/2})$の速度で、一意なナッシュ平衡に収束する。 我々の研究に先立ち、同じクラスのゲームにおいて最もよく知られた収束率は$\tilde{O}(n^{2/3}T^{-1/3})$(異なるアルゴリズムによって達成される)であり、したがって最適な非回帰学習アルゴリズムの問題を解き放つ(既知の下界は$\Omega(nT^{-1/2})$)。 そこで我々は,このオープンな問題を解決し,第1の2倍の最適帯域幅学習アルゴリズムを同定し,単一エージェント学習における最適後悔とマルチエージェント学習における最適最終項目収束率の両方を達成することにより,バンド幅のゲーム理論学習の広い展望に寄与した。 また、本アルゴリズムの有効性を反復数の観点から示すために、いくつかの応用問題に関する予備的な数値結果も提示する。

We consider online no-regret learning in unknown games with bandit feedback, where each player can only observe its reward at each time -- determined by all players' current joint action -- rather than its gradient. We focus on the class of \textit{smooth and strongly monotone} games and study optimal no-regret learning therein. Leveraging self-concordant barrier functions, we first construct a new bandit learning algorithm and show that it achieves the single-agent optimal regret of $\tilde{\Theta}(n\sqrt{T})$ under smooth and strongly concave reward functions ($n \geq 1$ is the problem dimension). We then show that if each player applies this no-regret learning algorithm in strongly monotone games, the joint action converges in the \textit{last iterate} to the unique Nash equilibrium at a rate of $\tilde{\Theta}(nT^{-1/2})$. Prior to our work, the best-known convergence rate in the same class of games is $\tilde{O}(n^{2/3}T^{-1/3})$ (achieved by a different algorithm), thus leaving open the problem of optimal no-regret learning algorithms (since the known lower bound is $\Omega(nT^{-1/2})$). Our results thus settle this open problem and contribute to the broad landscape of bandit game-theoretical learning by identifying the first doubly optimal bandit learning algorithm, in that it achieves (up to log factors) both optimal regret in the single-agent learning and optimal last-iterate convergence rate in the multi-agent learning. We also present preliminary numerical results on several application problems to demonstrate the efficacy of our algorithm in terms of iteration count.
翻訳日:2024-04-01 21:15:55 公開日:2024-03-29
# 点ギャップ位相相におけるバルク境界対応

Bulk-boundary correspondence in point-gap topological phases ( http://arxiv.org/abs/2205.15635v4 )

ライセンス: Link先を確認
Daichi Nakamura, Takumi Bessho, Masatoshi Sato, (参考訳) 非エルミート系の顕著な特徴は、2つの異なるタイプの位相が存在することである。 1つはエルミート位相を一般化し、もう1つはラインギャップ位相 (line-gap topology) とポイントギャップ位相 (point-gap topology) と呼ばれる非エルミート系に固有のものである。 バルク境界対応は以前のトポロジーの基本的な原理であるが、後者におけるその役割はまだ明らかになっていない。 このレターは、非エルミート系の点ギャップ位相におけるバルク境界対応を確立する。 開境界条件における点ギャップトポロジーの要件を明らかにした後、開境界条件におけるバルク点ギャップトポロジーと周期境界条件のバルク点ギャップトポロジーが異なることを明らかにする。 実空間位相不変量と$K$-理論に基づいて、開境界点ギャップ位相を対称性で完全分類し、非自明な開境界位相がロバストかつエキゾチックな曲面状態をもたらすことを示す。

A striking feature of non-Hermitian systems is the presence of two different types of topology. One generalizes Hermitian topological phases, and the other is intrinsic to non-Hermitian systems, which are called line-gap topology and point-gap topology, respectively. Whereas the bulk-boundary correspondence is a fundamental principle in the former topology, its role in the latter has not been clear yet. This Letter establishes the bulk-boundary correspondence in the point-gap topology in non-Hermitian systems. After revealing the requirement for point-gap topology in the open boundary conditions, we clarify that the bulk point-gap topology in open boundary conditions can be different from that in periodic boundary conditions. On the basis of real space topological invariants and the $K$-theory, we give a complete classification of the open boundary point-gap topology with symmetry and show that the nontrivial open boundary topology results in robust and exotic surface states.
翻訳日:2024-04-01 21:15:55 公開日:2024-03-29
# 漸近正規分布学習による強伝達性対向攻撃

Strong Transferable Adversarial Attacks via Ensembled Asymptotically Normal Distribution Learning ( http://arxiv.org/abs/2209.11964v2 )

ライセンス: Link先を確認
Zhengwei Fang, Rui Wang, Tao Huang, Liping Jing, (参考訳) 強力な敵対的な例は、ディープニューラルネットワークの堅牢性の評価と強化に不可欠である。 しかしながら、一般的なアタックのパフォーマンスは通常、小さなイメージ変換に敏感で、限られた情報(通常は1つの入力例、少数のホワイトボックスソースモデル、未定義の防御戦略)から生まれます。 したがって、製作された敵の例は、ソースモデルに過度に適合する傾向にあり、未知のアーキテクチャへの移行性を損なうことになる。 本稿では,複数漸近正規分布攻撃 (MultiANDA) という手法を提案する。 具体的には、確率勾配上昇(SGA)の漸近正規性特性を利用して摂動の後方分布を近似し、この過程においてベイズ限界化の効果的なプロキシとしてディープアンサンブル戦略を用いて、潜在的最適化空間のより徹底的な探索を容易にするガウスの混合を推定することを目的とする。 近似後部は基本的にSGA反復の定常分布を記述しており、局所的な最適値の周りの幾何学的情報をキャプチャする。 したがって、MultiANDAは各入力に対して無限数の逆摂動を描画することができ、転送可能性を確実に維持することができる。 提案手法は、通常訓練された7つの防御モデルと7つの防御モデルによる広範囲な実験を通じて、防衛の有無にかかわらず、ディープラーニングモデルに対する10の最先端のブラックボックス攻撃より優れる。

Strong adversarial examples are crucial for evaluating and enhancing the robustness of deep neural networks. However, the performance of popular attacks is usually sensitive, for instance, to minor image transformations, stemming from limited information -- typically only one input example, a handful of white-box source models, and undefined defense strategies. Hence, the crafted adversarial examples are prone to overfit the source model, which hampers their transferability to unknown architectures. In this paper, we propose an approach named Multiple Asymptotically Normal Distribution Attacks (MultiANDA) which explicitly characterize adversarial perturbations from a learned distribution. Specifically, we approximate the posterior distribution over the perturbations by taking advantage of the asymptotic normality property of stochastic gradient ascent (SGA), then employ the deep ensemble strategy as an effective proxy for Bayesian marginalization in this process, aiming to estimate a mixture of Gaussians that facilitates a more thorough exploration of the potential optimization space. The approximated posterior essentially describes the stationary distribution of SGA iterations, which captures the geometric information around the local optimum. Thus, MultiANDA allows drawing an unlimited number of adversarial perturbations for each input and reliably maintains the transferability. Our proposed method outperforms ten state-of-the-art black-box attacks on deep learning models with or without defenses through extensive experiments on seven normally trained and seven defense models.
翻訳日:2024-04-01 21:15:55 公開日:2024-03-29
# 量子誤差緩和の極限に関する指数的に厳密な境界

Exponentially tighter bounds on limitations of quantum error mitigation ( http://arxiv.org/abs/2210.11505v3 )

ライセンス: Link先を確認
Yihui Quek, Daniel Stilck França, Sumeet Khatri, Johannes Jakob Meyer, Jens Eisert, (参考訳) フォールトトレラントスキームで要求される重いリソースオーバーヘッドを伴わずに、短期量子コンピューティングにおける望ましくない、避けられないエラーに対処する手段として、量子エラー軽減法が提案されている。 近年, 近距離応用におけるノイズ低減のために, 誤差低減が成功している。 しかし,本研究では,より大きなシステムサイズに対して,量子ノイズが効果的に「不要」となる程度に強い制約を課す。 私たちのフレームワークは、現在使われている大規模なエラー軽減スキームを厳格に捉えています。 統計的推測問題に誤差の緩和を関連付けることにより,従来の実験と同等の浅い回路深度でも,ノイズのない可観測物の予測値を推定するために,最悪の場合において,サンプルのスーパーポリノミカル数が必要とされることを示す。 特に、我々の構造は、以前考えられていたよりも指数関数的に小さな深さで、ノイズによる揺らぎが引き起こされることを示している。 また、量子機械学習におけるカーネル推定を制限し、変分量子アルゴリズムにおけるノイズ誘起バレンプラトーの早期発生を引き起こし、ノイズの有無やハミルトンの基底状態の予測値の指数的量子スピードアップを除外するなど、その他の短期的応用にも影響を及ぼす。

Quantum error mitigation has been proposed as a means to combat unwanted and unavoidable errors in near-term quantum computing without the heavy resource overheads required by fault tolerant schemes. Recently, error mitigation has been successfully applied to reduce noise in near-term applications. In this work, however, we identify strong limitations to the degree to which quantum noise can be effectively `undone' for larger system sizes. Our framework rigorously captures large classes of error mitigation schemes in use today. By relating error mitigation to a statistical inference problem, we show that even at shallow circuit depths comparable to the current experiments, a superpolynomial number of samples is needed in the worst case to estimate the expectation values of noiseless observables, the principal task of error mitigation. Notably, our construction implies that scrambling due to noise can kick in at exponentially smaller depths than previously thought. They also impact other near-term applications, constraining kernel estimation in quantum machine learning, causing an earlier emergence of noise-induced barren plateaus in variational quantum algorithms and ruling out exponential quantum speed-ups in estimating expectation values in the presence of noise or preparing the ground state of a Hamiltonian.
翻訳日:2024-04-01 21:15:55 公開日:2024-03-29
# ランダムマトリックス製品状態のマジック

Magic of Random Matrix Product States ( http://arxiv.org/abs/2211.10350v3 )

ライセンス: Link先を確認
Liyuan Chen, Roy J. Garcia, Kaifeng Bu, Arthur Jaffe, (参考訳) マジック(英: Magic、または非安定化剤性)は、状態が安定化状態からどこまで遠いかを特徴付け、ゴットマン・クニルの定理の定式化の下で、量子コンピューティングにおいて重要な資源となる。 本稿では,L_{1}$-norm測度を用いて,一次元ランダム行列生成状態(RMPS)の魔法について検討する。 まず、$L_{1}$-normと$L_{4}$-normを関連付ける。 次に、$L_{4}$-normを24ドル成分統計物理モデルにマッピングするために、4ドルのユニタリ設計を用いる。 モデルの分割関数を評価することにより、$L_{1}$-normの期待値の低い値が得られる。 この境界は、qudit 数 $n$ に対して指数関数的に増大し、$D RMPS は極めて魔法的であることを示す。 数値計算の結果, 量子ビットの場合, マジックは指数関数的に増大することがわかった。

Magic, or nonstabilizerness, characterizes how far away a state is from the stabilizer states, making it an important resource in quantum computing, under the formalism of the Gotteman-Knill theorem. In this paper, we study the magic of the $1$-dimensional Random Matrix Product States (RMPSs) using the $L_{1}$-norm measure. We firstly relate the $L_{1}$-norm to the $L_{4}$-norm. We then employ a unitary $4$-design to map the $L_{4}$-norm to a $24$-component statistical physics model. By evaluating partition functions of the model, we obtain a lower bound on the expectation values of the $L_{1}$-norm. This bound grows exponentially with respect to the qudit number $n$, indicating that the $1$D RMPS is highly magical. Our numerical results confirm that the magic grows exponentially in the qubit case.
翻訳日:2024-04-01 21:15:55 公開日:2024-03-29
# CPPF++: 投票集約による不確かさを意識したSim2Real Object Poseの推定

CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation ( http://arxiv.org/abs/2211.13398v3 )

ライセンス: Link先を確認
Yang You, Wenhao He, Jin Liu, Hongkai Xiong, Weiming Wang, Cewu Lu, (参考訳) オブジェクトのポーズ推定は、3次元視覚領域内の重要な領域を構成する。 実世界のポーズアノテーションを利用する現代的最先端の手法は、賞賛できる性能を示しているが、そのような実際のトレーニングデータの調達には相当なコストがかかる。 本稿では,3次元CADモデルのみを事前知識として利用し,背景情報や乱雑な情報を含まない,特定の環境に着目する。 そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。 この手法はCPPFの基本的な点対投票方式に基づいており、確率論的視点でそれを再構成する。 投票衝突による課題を解決するために,各点対の確率分布を正準空間内で推定することにより,投票の不確実性をモデル化する手法を提案する。 さらに,N点タプルの導入により,各投票単位のコンテキスト情報も強化する。 モデルの堅牢性と精度を高めるため,ノイズの多いペアフィルタリング,オンラインアライメント最適化,タプル機能アンサンブルなど,いくつかの革新的なモジュールを組み込んだ。 これらの手法の進歩とともに、DiversePose 300というカテゴリレベルのポーズ推定データセットを導入する。 経験的証拠は,本手法が従来のsim-to-realアプローチをはるかに上回り,新規データセット上での同等あるいは優れた性能を実現することを証明している。 私たちのコードはhttps://github.com/qq456cvb/CPPF2で利用可能です。

Object pose estimation constitutes a critical area within the domain of 3D vision. While contemporary state-of-the-art methods that leverage real-world pose annotations have demonstrated commendable performance, the procurement of such real training data incurs substantial costs. This paper focuses on a specific setting wherein only 3D CAD models are utilized as a priori knowledge, devoid of any background or clutter information. We introduce a novel method, CPPF++, designed for sim-to-real pose estimation. This method builds upon the foundational point-pair voting scheme of CPPF, reformulating it through a probabilistic view. To address the challenge posed by vote collision, we propose a novel approach that involves modeling the voting uncertainty by estimating the probabilistic distribution of each point pair within the canonical space. Furthermore, we augment the contextual information provided by each voting unit through the introduction of N-point tuples. To enhance the robustness and accuracy of the model, we incorporate several innovative modules, including noisy pair filtering, online alignment optimization, and a tuple feature ensemble. Alongside these methodological advancements, we introduce a new category-level pose estimation dataset, named DiversePose 300. Empirical evidence demonstrates that our method significantly surpasses previous sim-to-real approaches and achieves comparable or superior performance on novel datasets. Our code is available on https://github.com/qq456cvb/CPPF2.
翻訳日:2024-04-01 21:15:55 公開日:2024-03-29
# DialogCC: 高品質な多モード対話データセット作成のためのパイプライン自動化

DialogCC: An Automated Pipeline for Creating High-Quality Multi-Modal Dialogue Dataset ( http://arxiv.org/abs/2212.04119v2 )

ライセンス: Link先を確認
Young-Jun Lee, Byungsoo Ko, Han-Gyu Kim, Jonghwan Hyeon, Ho-Jin Choi, (参考訳) インスタントメッセージで画像を共有することが重要な要素であるため、画像テキストのマルチモーダル対話モデルを学ぶための研究が活発に行われている。 しかし、既存のマルチモーダル対話データセットでは、対話ごとの画質が低く、多様性が制限されているため、十分に一般化されたマルチモーダル対話モデルのトレーニングは依然として困難である。 本稿では,対話の質と画像の多様性を最小限の労力を要さずに確保し,マルチモーダル対話データセットを構築するための自動パイプラインを提案する。 我々のパイプラインでは、画像と対話のコヒーレンスを保証するため、GPT-4に潜在的な画像共有モーメント(特に発話、話者、合理性、画像記述)を推測するよう促します。 さらに、CLIPの類似性を利用して、複数の画像と発話の整合性を維持する。 このパイプラインを通じて、人間の評価における品質と多様性の観点から、既存のデータセットを超える高品質で多様なマルチモーダル対話データセットであるDialogCCを紹介します。 総合的な実験では、マルチモーダル対話モデルがデータセットを用いて訓練されると、未知の対話データセット上での一般化性能が大幅に向上することを示した。 ソースコードとデータセットを公開しています。

As sharing images in an instant message is a crucial factor, there has been active research on learning an image-text multi-modal dialogue models. However, training a well-generalized multi-modal dialogue model remains challenging due to the low quality and limited diversity of images per dialogue in existing multi-modal dialogue datasets. In this paper, we propose an automated pipeline to construct a multi-modal dialogue dataset, ensuring both dialogue quality and image diversity without requiring minimum human effort. In our pipeline, to guarantee the coherence between images and dialogue, we prompt GPT-4 to infer potential image-sharing moments - specifically, the utterance, speaker, rationale, and image description. Furthermore, we leverage CLIP similarity to maintain consistency between aligned multiple images to the utterance. Through this pipeline, we introduce DialogCC, a high-quality and diverse multi-modal dialogue dataset that surpasses existing datasets in terms of quality and diversity in human evaluation. Our comprehensive experiments highlight that when multi-modal dialogue models are trained using our dataset, their generalization performance on unseen dialogue datasets is significantly enhanced. We make our source code and dataset publicly available.
翻訳日:2024-04-01 21:15:55 公開日:2024-03-29
# チップアーキテクチャの制限は量子ニューラルネットワークの精度を維持する

Restricting to the chip architecture maintains the quantum neural network accuracy ( http://arxiv.org/abs/2212.14426v2 )

ライセンス: Link先を確認
Lucas Friedrich, Jonas Maziero, (参考訳) ノイズの多い中間規模量子デバイスの時代において、変分量子アルゴリズム(VQA)は量子機械学習モデルを構築するための重要な戦略である。 これらのモデルは、量子成分と古典成分の両方から構成される。 量子面は、典型的には様々な量子ゲートの構成から派生したパラメトリゼーション$U$によって特徴づけられる。 一方、古典的なコンポーネントは、コスト関数の$C$を最小化するために$U$のパラメータを調整するオプティマイザを含んでいる。 VQAの広範な応用にもかかわらず、最適ゲート列の決定、効率的なパラメータ最適化戦略の考案、適切なコスト関数の選択、最終的な結果に対する量子チップアーキテクチャの影響の理解など、いくつかの重要な疑問が続いている。 本稿は、コスト関数が平均値に収束する傾向にあり、利用したパラメータ化が2ドルの設計に近づくことを強調して、最後の問題に対処することを目的としている。 したがって、パラメータ化が2ドルの設計と密接に一致すると、量子ニューラルネットワークモデルの結果は特定のパラメータ化に依存しなくなる。 この洞察は、量子チップの固有のアーキテクチャを活用してVQAのパラメトリゼーションを定義する可能性をもたらす。 これにより、追加のスワップゲートの必要性が軽減され、VQAの深さが減少し、関連するエラーが最小化される。

In the era of noisy intermediate-scale quantum devices, variational quantum algorithms (VQAs) stand as a prominent strategy for constructing quantum machine learning models. These models comprise both a quantum and a classical component. The quantum facet is characterized by a parametrization $U$, typically derived from the composition of various quantum gates. On the other hand, the classical component involves an optimizer that adjusts the parameters of $U$ to minimize a cost function $C$. Despite the extensive applications of VQAs, several critical questions persist, such as determining the optimal gate sequence, devising efficient parameter optimization strategies, selecting appropriate cost functions, and understanding the influence of quantum chip architectures on the final results. This article aims to address the last question, emphasizing that, in general, the cost function tends to converge towards an average value as the utilized parameterization approaches a $2$-design. Consequently, when the parameterization closely aligns with a $2$-design, the quantum neural network model's outcome becomes less dependent on the specific parametrization. This insight leads to the possibility of leveraging the inherent architecture of quantum chips to define the parametrization for VQAs. By doing so, the need for additional swap gates is mitigated, consequently reducing the depth of VQAs and minimizing associated errors.
翻訳日:2024-04-01 21:06:09 公開日:2024-03-29
# フォン・ノイマン代数の型分類に関する注記

Notes on the type classification of von Neumann algebras ( http://arxiv.org/abs/2302.01958v3 )

ライセンス: Link先を確認
Jonathan Sorce, (参考訳) これらのノートはフォン・ノイマン代数の型分類の説明であり、近年の量子場論と量子重力の絡み合いに関する研究で多くの言及がなされている。 目標は、専門家でない読者には技術的すぎるリソースと、正確な定義を与えずに理論の幅広い直観を説明しようとするリソースの間の文学のギャップを埋めることである。 これらのメモを読むと、次のようになる。 (i)なぜ「因子」が研究すべき基本フォン・ノイマン代数であるのかという議論。 (二)非正規化正作用素を「有効密度行列」に変換する正規化スキームにおける因子の型分類の直観的説明 三 要因上の許された痕跡の点で異なる種類の再正規化スキームの数学的説明 (四)I型及びII型因子の「標準形」及び「標準形」の観点からの直感的特徴付け (v) 型分類とモジュラー理論の間の興味深い関係の一覧で、なぜ型III$_1$因子が場の量子論において関連するものと考えられるのかという議論を含む。 これはChandrasekaran氏、Longo氏、Penington氏、Witten氏による最近の重力に関する最近の研究とよく似ている。

These notes provide an explanation of the type classification of von Neumann algebras, which has made many appearances in recent work on entanglement in quantum field theory and quantum gravity. The goal is to bridge a gap in the literature between resources that are too technical for the non-expert reader, and resources that seek to explain the broad intuition of the theory without giving precise definitions. Reading these notes will provide you with: (i) an argument for why "factors" are the fundamental von Neumann algebras that one needs to study; (ii) an intuitive explanation of the type classification of factors in terms of renormalization schemes that turn unnormalizable positive operators into "effective density matrices;" (iii) a mathematical explanation of the different types of renormalization schemes in terms of the allowed traces on a factor; (iv) an intuitive characterization of type I and II factors in terms of their "standard forms;" and (v) a list of some interesting connections between type classification and modular theory, including the argument for why type III$_1$ factors are believed to be the relevant ones in quantum field theory. None of the material is new, but the pedagogy is different from other sources I have read; it is most similar in spirit to the recent work on gravity and the crossed product by Chandrasekaran, Longo, Penington, and Witten.
翻訳日:2024-04-01 21:06:09 公開日:2024-03-29
# トランスモンアレイにおける標準および所定の測定によって誘起される相転移

Phase transitions induced by standard and predetermined measurements in transmon arrays ( http://arxiv.org/abs/2302.02934v4 )

ライセンス: Link先を確認
Gonzalo Martín-Vázquez, Taneli Tolppanen, Matti Silveri, (参考訳) ユニタリダイナミクスと非ユニタリ測定の合流は、一般に測定誘起相転移と呼ばれる興味深い現象と関連する現象を引き起こす。 これらの遷移は、閉じ込められたイオンと超伝導量子デバイスからなる量子系で観測されている。 しかし、その実験的な実現には、主に軌跡のポストセレクションとして知られる測定結果の古典的な追跡のために、かなりの資源が必要である。 本研究では, 繰り返し測定される相互作用トランスモンアレイの統計特性を最初に記述し, レプリカ法と非エルミート摂動理論の組み合わせを用いて, エリア法相における関連量の挙動を予測した。 ボソン数の局所的な測定を確率的にインターリーブした魅力的なBose-Hubbardモデルでモデル化したトランスモンアレイは、定常状態における軌道のアンサンブルのエントロピー特性の位相遷移を示す。 さらに, 局所数測定後の決定論的フィードバック操作を用いて, 単一地点で測定されたボソン数の分布は, 個々の軌道の絡み合いの位相に関する情報を伝達する。 興味深いことに、フィードバックパターンの吸収状態を考慮せずに、単純な観測装置から位相と位相遷移に関する情報を抽出することができる。 これは、フィードバック測定アプローチが、個々の軌道における絡み合い相転移のいくつかの側面を研究するために単純な観測値を使用するための、実行可能な実験的な選択肢である可能性を示唆している。

The confluence of unitary dynamics and non-unitary measurements gives rise to intriguing and relevant phenomena, generally referred to as measurement-induced phase transitions. These transitions have been observed in quantum systems composed of trapped ions and superconducting quantum devices. However, their experimental realization demands substantial resources, primarily owing to the classical tracking of measurement outcomes, known as post-selection of trajectories. In this work, we first describe the statistical properties of an interacting transmon array which is repeatedly measured, and predict the behavior of relevant quantities in the area-law phase using a combination of the replica method and non-Hermitian perturbation theory. We show numerically that a transmon array, modeled by an attractive Bose-Hubbard model, in which local measurements of the number of bosons are probabilistically interleaved, exhibits a phase transition in the entanglement entropy properties of the ensemble of trajectories in the steady state. Furthermore, by using deterministic feedback operations after the local number measurements, the distribution of the number of bosons measured at a single site carries information on the phase in the entanglement of individual trajectories. Interestingly, we can extract information about the phase and the phase transition from simple observables without considering an absorbing state in the feedback pattern. This implies that the feedback measurement approach might be a viable experimental option to use simple observables to study some aspects of the entanglement phase transition in individual trajectories.
翻訳日:2024-04-01 21:06:09 公開日:2024-03-29
# クーディ・パウリ群:非可換対、非可換集合、構造定理

The qudit Pauli group: non-commuting pairs, non-commuting sets, and structure theorems ( http://arxiv.org/abs/2302.07966v2 )

ライセンス: Link先を確認
Rahul Sarkar, Theodore J. Yoder, (参考訳) 局所次元が$d>2$の量子はユニークな構造を持ち、qubits(d=2$)では不可能である。 クディット・パウリ作用素は、クディット状態と作用素の空間の非常に有用な基底を提供する。 クディット・パウリ群の構造について、合成を含め、いくつかの点で$d$について研究する。 d$ の合成値をカバーするため、可換環上の加群を扱い、場上のベクトル空間の概念を一般化する。 任意の特定の可換関係に対して、これらの関係を満たすクディット・パウリの集合を構築する。 また、互いに非可換なパウリ集合の最大サイズと、ペアで非可換な集合についても検討する。 最後に、パウリ部分群の極小生成集合を見つけ、パウリ部分群の規模を計算し、クウディット安定化符号の論理作用素の基底を求める方法を与える。 この研究で有用なツールは、可換環上の線型代数からの正規形式であり、スミス正規形式、交互スミス正規形式、ハウェル正規形式を含む。 この研究の応用例としては、クーデット安定化符号の構築と解析、絡み合い補助符号、パラフェミオン符号、フェルミオンハミルトンシミュレーションがある。

Qudits with local dimension $d>2$ can have unique structure and uses that qubits ($d=2$) cannot. Qudit Pauli operators provide a very useful basis of the space of qudit states and operators. We study the structure of the qudit Pauli group for any, including composite, $d$ in several ways. To cover composite values of $d$, we work with modules over commutative rings, which generalize the notion of vector spaces over fields. For any specified set of commutation relations, we construct a set of qudit Paulis satisfying those relations. We also study the maximum size of sets of Paulis that mutually non-commute and sets that non-commute in pairs. Finally, we give methods to find near minimal generating sets of Pauli subgroups, calculate the sizes of Pauli subgroups, and find bases of logical operators for qudit stabilizer codes. Useful tools in this study are normal forms from linear algebra over commutative rings, including the Smith normal form, alternating Smith normal form, and Howell normal form of matrices. Possible applications of this work include the construction and analysis of qudit stabilizer codes, entanglement assisted codes, parafermion codes, and fermionic Hamiltonian simulation.
翻訳日:2024-04-01 21:06:09 公開日:2024-03-29
# OLYMPIA:セキュアアグリゲーションプロトコルの具体的な拡張性を評価するためのシミュレーションフレームワーク

OLYMPIA: A Simulation Framework for Evaluating the Concrete Scalability of Secure Aggregation Protocols ( http://arxiv.org/abs/2302.10084v2 )

ライセンス: Link先を確認
Ivoline C. Ngong, Nicholas Gibson, Joseph P. Near, (参考訳) 最近のセキュアアグリゲーションプロトコルは、数千、あるいは数百万の参加者の高次元モデルに対するプライバシー保護フェデレーション学習を可能にする。 しかし、これらのユースケースの規模のため、これらのプロトコルのエンド・ツー・エンドの実証的な評価は不可能である。 シミュレーションによるセキュアプロトコルの実証評価のためのフレームワークであるOLYMPIAを提案する。 OLYMPIA プロトコルを定義するための組み込みドメイン固有言語と、パフォーマンスを評価するためのシミュレーションフレームワークを提供する。 我々は最近,OLYMPIAを用いてセキュアなアグリゲーションプロトコルを実装し,エンド・ツー・エンドのランニング時間の最初の経験的比較を行った。 我々はOLYMPIAをオープンソースとしてリリースします。

Recent secure aggregation protocols enable privacy-preserving federated learning for high-dimensional models among thousands or even millions of participants. Due to the scale of these use cases, however, end-to-end empirical evaluation of these protocols is impossible. We present OLYMPIA, a framework for empirical evaluation of secure protocols via simulation. OLYMPIA. provides an embedded domain-specific language for defining protocols, and a simulation framework for evaluating their performance. We implement several recent secure aggregation protocols using OLYMPIA, and perform the first empirical comparison of their end-to-end running times. We release OLYMPIA as open source.
翻訳日:2024-04-01 21:06:09 公開日:2024-03-29
# 構造化雑音によるニューラルネットワークの学習は分類と一般化を改善する

Training neural networks with structured noise improves classification and generalization ( http://arxiv.org/abs/2302.13417v5 )

ライセンス: Link先を確認
Marco Benedetti, Enrico Ventura, (参考訳) 学習におけるノイズ注入の利点は、人工ニューラルネットワークの分野における統合された概念であり、生物学的システムでさえ、その性能を最適化するために同様のメカニズムを利用する可能性があることを示唆している。 ガードナーと共同研究者によって提案されたトレーニング・ウィズ・ノイズ・アルゴリズムは、生物学的ニューラルネットワークのモデル化に使用できるリカレントネットワークにおけるノイズ注入手順の象徴的な例である。 雑音の多い学習データに構造を加えることでアルゴリズムの性能が大幅に向上し、最大射出雑音のシナリオにおいても、ネットワークは記憶の完全検索やアトラクションの広い流域にアプローチできることを示す。 また,いわゆるヘビアン・アンラーニング則は,ノイズが最大であり,データがネットワーク力学の安定な固定点である場合に,トレーニング・ウィズ・ノイズ・アルゴリズムと一致することを証明した。

The beneficial role of noise-injection in learning is a consolidated concept in the field of artificial neural networks, suggesting that even biological systems might take advantage of similar mechanisms to optimize their performance. The training-with-noise algorithm proposed by Gardner and collaborators is an emblematic example of a noise-injection procedure in recurrent networks, which can be used to model biological neural systems. We show how adding structure to noisy training data can substantially improve the algorithm performance, allowing the network to approach perfect retrieval of the memories and wide basins of attraction, even in the scenario of maximal injected noise. We also prove that the so-called Hebbian Unlearning rule coincides with the training-with-noise algorithm when noise is maximal and data are stable fixed points of the network dynamics.
翻訳日:2024-04-01 21:06:09 公開日:2024-03-29
# S3PRLツールキットを用いた音声データ拡張手法の比較

A Comparison of Speech Data Augmentation Methods Using S3PRL Toolkit ( http://arxiv.org/abs/2303.00510v2 )

ライセンス: Link先を確認
Mina Huh, Ruchira Ray, Corey Karnei, (参考訳) データ拡張は、音声処理タスクの堅牢性を改善することが知られている。 本研究では,S3PRLツールキットを用いたデータ拡張戦略の要約と比較を行った。 本稿では,HuBERTとwav2vecが音素認識(PR)タスクと自動音声認識(ASR)タスクに対して,異なる拡張手法(SpecAugment, Gaussian noise, Speed Perturbation)を用いてどのように機能するかを検討する。 我々は,音素誤り率 (PER) と単語誤り率 (WER) の観点からモデル性能を評価する。 実験の結果,SpecAugmentは元のデータセット上でのHuBERTとwav2vecの性能をわずかに改善することがわかった。 また,Gaussian Noise and Speed Perturbationデータセットを用いてトレーニングしたモデルは,拡張テストセットでテストした場合,より堅牢であることを示す。

Data augmentations are known to improve robustness in speech-processing tasks. In this study, we summarize and compare different data augmentation strategies using S3PRL toolkit. We explore how HuBERT and wav2vec perform using different augmentation techniques (SpecAugment, Gaussian Noise, Speed Perturbation) for Phoneme Recognition (PR) and Automatic Speech Recognition (ASR) tasks. We evaluate model performance in terms of phoneme error rate (PER) and word error rate (WER). From the experiments, we observed that SpecAugment slightly improves the performance of HuBERT and wav2vec on the original dataset. Also, we show that models trained using the Gaussian Noise and Speed Perturbation dataset are more robust when tested with augmented test sets.
翻訳日:2024-04-01 21:06:09 公開日:2024-03-29
# ハミルトン系のヘイデン・プレスキル・リカバリ

Hayden-Preskill Recovery in Hamiltonian Systems ( http://arxiv.org/abs/2303.02010v4 )

ライセンス: Link先を確認
Yoshifumi Nakata, Masaki Tezuka, (参考訳) 情報スクランブル(英: information scrambling)とは、局所化された量子情報を多体システム全体に素早く拡散してエンコードし、小さなサブシステムから情報にアクセスできるようにするユニタリダイナミクスである。 情報スクランブルは複雑な量子多体力学を理解する鍵であり、ランダムなユニタリモデルではよく理解されているが、ハミルトン系ではほとんど研究されていない。 本稿では、カオススピン鎖やSachdev-Ye-Kitaev(SYK)モデルを含む、時間に依存しないハミルトン系の情報回復について検討する。 情報リカバリは,情報リカバリと量子カオスの差をエネルギースペクトルと時間外相関器とで表すカオスモデルで表すことができるが,すべてではない。 また,情報回復は情報理論的特徴の変化による遷移を探索することを示す。

Information scrambling refers to the unitary dynamics that quickly spreads and encodes localized quantum information over an entire many-body system and makes the information accessible from any small subsystem. While information scrambling is the key to understanding complex quantum many-body dynamics and is well-understood in random unitary models, it has been hardly explored in Hamiltonian systems. In this Letter, we investigate the information recovery in various time-independent Hamiltonian systems, including chaotic spin chains and Sachdev-Ye-Kitaev (SYK) models. We show that information recovery is possible in certain, but not all, chaotic models, which highlights the difference between information recovery and quantum chaos based on the energy spectrum or the out-of-time-ordered correlators. We also show that information recovery probes transitions caused by the change of information-theoretic features of the dynamics.
翻訳日:2024-04-01 21:06:09 公開日:2024-03-29
# 3DInAction:3Dポイント雲における人間の行動を理解する

3DInAction: Understanding Human Actions in 3D Point Clouds ( http://arxiv.org/abs/2303.06346v2 )

ライセンス: Link先を確認
Yizhak Ben-Shabat, Oren Shrout, Stephen Gould, (参考訳) 本稿では,3次元クラウド行動認識のための新しい手法を提案する。 RGBビデオにおける人間の行動を理解することは近年広く研究されているが、その3Dポイントクラウドはいまだ探索されていない。 これは主に、ポイントクラウドデータのモダリティ(構造の欠如、置換不変性、点数の変化)が本質的に制限されているためであり、時空間表現の時空間的な学習が困難である。 この制限に対処するために,まず時間内移動するパッチ(tパッチ)を重要なビルディングブロックとして推定する3DinActionパイプラインと,情報的時空間表現を学習する階層アーキテクチャを提案する。 DFAUST や IKEA ASM など,既存のデータセットの性能向上を図っている。 コードはhttps://github.com/sitzikbs/3dincaction.comで公開されている。

We propose a novel method for 3D point cloud action recognition. Understanding human actions in RGB videos has been widely studied in recent years, however, its 3D point cloud counterpart remains under-explored. This is mostly due to the inherent limitation of the point cloud data modality -- lack of structure, permutation invariance, and varying number of points -- which makes it difficult to learn a spatio-temporal representation. To address this limitation, we propose the 3DinAction pipeline that first estimates patches moving in time (t-patches) as a key building block, alongside a hierarchical architecture that learns an informative spatio-temporal representation. We show that our method achieves improved performance on existing datasets, including DFAUST and IKEA ASM. Code is publicly available at https://github.com/sitzikbs/3dincaction.
翻訳日:2024-04-01 21:06:09 公開日:2024-03-29
# 深層学習におけるバッチの正規化

Making Batch Normalization Great in Federated Deep Learning ( http://arxiv.org/abs/2303.06530v4 )

ライセンス: Link先を確認
Jike Zhong, Hong-You Chen, Wei-Lun Chao, (参考訳) バッチ正規化(BN)は集中型ディープラーニングにおいて収束と一般化を改善するために広く使われている。 しかしながら、分散化されたデータを持つフェデレーション学習(FL)では、BNによるトレーニングがパフォーマンスを阻害し、グループ正規化(GN)に置き換えることが期待されている。 本稿では,先行研究における実証研究を拡大することで,この代替案を再考する。 意外なことに、BNは多くのFL設定でGNよりも優れています。 例外は高周波通信と極端な非IID方式である。 我々は、クライアント間のBN統計のミスマッチや、ローカルトレーニング中の勾配のずれなど、この問題の原因と考えられる要因を再検討する。 BNの強度を維持しながら、これらの要因の影響を低減できる簡単なプラクティスを実証的に特定する。 FIXBNと名付けられた私たちのアプローチは、追加のトレーニングや通信コストなしで実装が比較的簡単で、幅広いFL設定で好適に機能します。 FLにおける将来的な実践的利用と理論的分析の参考として,本研究が有用であることを期待している。

Batch Normalization (BN) is widely used in {centralized} deep learning to improve convergence and generalization. However, in {federated} learning (FL) with decentralized data, prior work has observed that training with BN could hinder performance and suggested replacing it with Group Normalization (GN). In this paper, we revisit this substitution by expanding the empirical study conducted in prior work. Surprisingly, we find that BN outperforms GN in many FL settings. The exceptions are high-frequency communication and extreme non-IID regimes. We reinvestigate factors that are believed to cause this problem, including the mismatch of BN statistics across clients and the deviation of gradients during local training. We empirically identify a simple practice that could reduce the impacts of these factors while maintaining the strength of BN. Our approach, which we named FIXBN, is fairly easy to implement, without any additional training or communication costs, and performs favorably across a wide range of FL settings. We hope that our study could serve as a valuable reference for future practical usage and theoretical analysis in FL.
翻訳日:2024-04-01 20:56:17 公開日:2024-03-29
# 流体力学シミュレーションのためのポテンシャル量子優位性

Potential quantum advantage for simulation of fluid dynamics ( http://arxiv.org/abs/2303.16550v3 )

ライセンス: Link先を確認
Xiangyu Li, Xiaolong Yin, Nathan Wiebe, Jaehun Chun, Gregory K. Schenter, Margaret S. Cheung, Johannes Mülmenstädt, (参考訳) 乱流力学の数値シミュレーションでは、大きな不確実性をもたらす乱流をパラメータ化するか、最小のスケールを明示的に解決する必要がある。 ここでは、解析的境界と数値的研究を通じて、量子計算を用いて乱流を管理するナビエ・ストークス方程式をシミュレートする潜在的な量子指数的スピードアップを達成することができることを示す。 具体的には、格子ボルツマン方程式の定式化を行い、これらの系に対して以前に信じられていたよりも低次カールマン線型化の方がはるかに正確であることを示す。 これは、非線形性を再構成し、動的方程式を正確に線形化し、量子解法において無視可能なコストを増す追加自由度のために非線形性を効果的に交換することで達成される。 これに基づいて、カールマン線形格子ボルツマン方程式をシミュレートする量子アルゴリズムを適用し、最もよく知られた古典的アルゴリズムの多項式スケーリングと比較して、そのコストが対数的にシステムサイズにスケールすることを示す。 この研究は、流体力学をシミュレートする指数的な量子優位性が存在し、量子コンピューティングを用いて幅広い分野において非線形多スケール輸送現象をシミュレートする方法を編み出すことを示唆している。

Numerical simulation of turbulent fluid dynamics needs to either parameterize turbulence-which introduces large uncertainties-or explicitly resolve the smallest scales-which is prohibitively expensive. Here we provide evidence through analytic bounds and numerical studies that a potential quantum exponential speedup can be achieved to simulate the Navier-Stokes equations governing turbulence using quantum computing. Specifically, we provide a formulation of the lattice Boltzmann equation for which we give evidence that low-order Carleman linearization is much more accurate than previously believed for these systems and that for computationally interesting examples. This is achieved via a combination of reformulating the nonlinearity and accurately linearizing the dynamical equations, effectively trading nonlinearity for additional degrees of freedom that add negligible expense in the quantum solver. Based on this we apply a quantum algorithm for simulating the Carleman-linearized lattice Boltzmann equation and provide evidence that its cost scales logarithmically with system size, compared to polynomial scaling in the best known classical algorithms. This work suggests that an exponential quantum advantage may exist for simulating fluid dynamics, paving the way for simulating nonlinear multiscale transport phenomena in a wide range of disciplines using quantum computing.
翻訳日:2024-04-01 20:56:17 公開日:2024-03-29
# VGTS: 歴史文書における新しいカテゴリのためのビジュアルガイド付きテキストスポッティング

VGTS: Visually Guided Text Spotting for Novel Categories in Historical Manuscripts ( http://arxiv.org/abs/2304.00746v4 )

ライセンス: Link先を確認
Wenbo Hu, Hongjian Zhan, Xinchen Ma, Cong Liu, Bing Yin, Yue Lu, (参考訳) 歴史写本研究の分野では、学者は古代の文献でしばしば新しいシンボルに遭遇し、その識別と文書化に多大な努力を払っている。 既存の物体検出手法は、既知のカテゴリにおいて印象的な性能を発揮するが、新しいシンボルを再訓練せずに認識することは困難である。 この制限に対処するために,1つの注釈付きサポートサンプルを用いて,新しい文字を正確に検出するビジュアルガイドテキストスポッティング(VGTS)手法を提案する。 VGTSのコアは、デュアル空間アテンション(DSA)ブロックと幾何マッチング(GM)ブロックからなる空間アライメントモジュールである。 DSAブロックは、人間の視覚的スポッティングプロセスを模倣して、サポート画像とクエリ画像における識別的空間領域を特定し、焦点を合わせ、学習することを目的としている。 まず,重要な領域を特定するためにチャネル間関係を解析してサポート画像を洗練し,情報的キーポイントに着目してクエリ画像を洗練する。 一方、GMブロックは、2つの画像間の空間対応を確立し、クエリ画像中のターゲットキャラクタの正確な位置決めを可能にする。 低リソーススポッティングタスクにおける例不均衡問題に対処するため,距離メトリック学習のための埋め込み空間の識別力を高める新しいトーラス損失関数を開発した。 われわれのアプローチをさらに検証するため,中国南亜少数民族と関連する古東亜ヒエログリフィクス(DBH)を特徴とする新しいデータセットを導入した。 DBHデータセットと、EGY、VML-HD、TKH、NCを含む他の公開データセットに関する大規模な実験は、VGTSが一貫して最先端のメソッドを超越していることを示している。 提案フレームワークは,歴史写本のテキストスポッティングに適用可能な可能性を示し,最小限のアノテーションで新規シンボルを効率よく識別し,文書化することができる。

In the field of historical manuscript research, scholars frequently encounter novel symbols in ancient texts, investing considerable effort in their identification and documentation. Although existing object detection methods achieve impressive performance on known categories, they struggle to recognize novel symbols without retraining. To address this limitation, we propose a Visually Guided Text Spotting (VGTS) approach that accurately spots novel characters using just one annotated support sample. The core of VGTS is a spatial alignment module consisting of a Dual Spatial Attention (DSA) block and a Geometric Matching (GM) block. The DSA block aims to identify, focus on, and learn discriminative spatial regions in the support and query images, mimicking the human visual spotting process. It first refines the support image by analyzing inter-channel relationships to identify critical areas, and then refines the query image by focusing on informative key points. The GM block, on the other hand, establishes the spatial correspondence between the two images, enabling accurate localization of the target character in the query image. To tackle the example imbalance problem in low-resource spotting tasks, we develop a novel torus loss function that enhances the discriminative power of the embedding space for distance metric learning. To further validate our approach, we introduce a new dataset featuring ancient Dongba hieroglyphics (DBH) associated with the Naxi minority of China. Extensive experiments on the DBH dataset and other public datasets, including EGY, VML-HD, TKH, and NC, show that VGTS consistently surpasses state-of-the-art methods. The proposed framework exhibits great potential for application in historical manuscript text spotting, enabling scholars to efficiently identify and document novel symbols with minimal annotation effort.
翻訳日:2024-04-01 20:56:17 公開日:2024-03-29
# 生成的ブレンディング増強と自己訓練による異所性腫瘍の分節化

Cross-modal tumor segmentation using generative blending augmentation and self training ( http://arxiv.org/abs/2304.01705v2 )

ライセンス: Link先を確認
Guillaume Sallé, Pierre-Henri Conze, Julien Bert, Nicolas Boussion, Dimitris Visvikis, Vincent Jaouen, (参考訳) \textit{Objectives}: データの不足とドメインシフトは、デプロイメント条件を正確に表現しないバイアス付きトレーニングセットにつながる。 関連した実用的な問題として、クロスモーダルなイメージセグメンテーションがあり、これは、以前にラベル付きデータセットを他の画像モダリティから切り離したイメージを分割することを目的としている。 そこで本研究では,GBA(Generative Blending Augmentation)と呼ばれる新たなデータ拡張手法により,従来の画像合成法に基づくクロスモーダルセグメンテーション手法を提案する。 GBAは、SinGANモデルを利用して、単一のトレーニング画像から代表的生成特徴を学習し、現実的な腫瘍の出現を多様化する。 このようにして、画像合成誤差を補償し、その後、下流セグメントモデルの一般化能力を向上させる。 提案手法は,各パスにおける擬似ラベルを利用した反復的自己学習手法と組み合わせたものである。 \textit{Results}: 提案された解は、MICCAI CrossMoDA 2022チャレンジの検証とテストフェーズにおいて、Dice類似度と平均対称表面距離測定において、前庭神経ショーノマ(VS)セグメンテーション(VS)セグメンテーション(VS)セグメンテーション(VS)セグメンテーション(VS)セグメンテーション(VS)セグメンテーション(VS)セグメンテーション(VS)セグメンテーション)で最初にランク付けされた。 \textit{Conclusion and importance}: 腫瘍の出現の局所的なコントラスト変化と擬似ラベルによる反復的自己訓練は、様々なセグメンテーションコンテキストにおけるパフォーマンス改善につながる可能性が高い。

\textit{Objectives}: Data scarcity and domain shifts lead to biased training sets that do not accurately represent deployment conditions. A related practical problem is cross-modal image segmentation, where the objective is to segment unlabelled images using previously labelled datasets from other imaging modalities. \textit{Methods}: We propose a cross-modal segmentation method based on conventional image synthesis boosted by a new data augmentation technique called Generative Blending Augmentation (GBA). GBA leverages a SinGAN model to learn representative generative features from a single training image to diversify realistically tumor appearances. This way, we compensate for image synthesis errors, subsequently improving the generalization power of a downstream segmentation model. The proposed augmentation is further combined to an iterative self-training procedure leveraging pseudo labels at each pass. \textit{Results}: The proposed solution ranked first for vestibular schwannoma (VS) segmentation during the validation and test phases of the MICCAI CrossMoDA 2022 challenge, with best mean Dice similarity and average symmetric surface distance measures. \textit{Conclusion and significance}: Local contrast alteration of tumor appearances and iterative self-training with pseudo labels are likely to lead to performance improvements in a variety of segmentation contexts.
翻訳日:2024-04-01 20:56:17 公開日:2024-03-29
# VicTR:活動認識のためのビデオ条件付きテキスト表現

VicTR: Video-conditioned Text Representations for Activity Recognition ( http://arxiv.org/abs/2304.02560v2 )

ライセンス: Link先を確認
Kumara Kahatapitiya, Anurag Arnab, Arsha Nagrani, Michael S. Ryoo, (参考訳) VLM(Vision-Language Model)は、膨大な事前トレーニングデータ(ペア画像テキストサンプル)が利用できるため、画像領域 -- 特にゼロショット設定 -- において優れています。 しかし、ビデオの場合、このようなペアリングされたデータはそれほど多くはない。 したがって、ビデオVLMは通常、トレーニングをスクラッチから行うのではなく、トレーニング済みの画像VLMをビデオドメインに適応させることによって設計される。 これらのレシピはすべて、時間的情報(画像$\rightarrow$ video)で視覚的な埋め込みを増強することに依存しており、しばしばテキストの埋め込みは変化せず、破棄される。 本稿では,視覚情報よりもテキストの強調に重点を置くことで,より優れたビデオVLMを設計できることを論じる。 より具体的には、ビデオ条件付きテキスト表現 (VicTR) を導入し、w.r.t.ビジュアル埋め込みに最適化されたテキスト埋め込みの形式を導入し、より柔軟なコントラスト付きラテント空間を作成する。 我々のモデルは、視覚的に接地された補助テキスト(例えば、オブジェクトやシーン情報)の形で、自由に利用できる意味情報を利用することができる。 我々は,ビデオVLMにおいて,少数ショット,ゼロショット (HMDB-51, UCF-101) ,ショートフォーム (Kinetics-400) ,ロングフォーム (Charades) のアクティビティ認識ベンチマークを用いて評価を行い,高い性能を示した。

Vision-Language models (VLMs) have excelled in the image-domain -- especially in zero-shot settings -- thanks to the availability of vast pretraining data (i.e., paired image-text samples). However for videos, such paired data is not as abundant. Therefore, video-VLMs are usually designed by adapting pretrained image-VLMs to the video-domain, instead of training from scratch. All such recipes rely on augmenting visual embeddings with temporal information (i.e., image $\rightarrow$ video), often keeping text embeddings unchanged or even being discarded. In this paper, we argue the contrary, that better video-VLMs can be designed by focusing more on augmenting text, rather than visual information. More specifically, we introduce Video-conditioned Text Representations (VicTR): a form of text embeddings optimized w.r.t. visual embeddings, creating a more-flexible contrastive latent space. Our model can further make use of freely-available semantic information, in the form of visually-grounded auxiliary text (e.g. object or scene information). We evaluate our model on few-shot, zero-shot (HMDB-51, UCF-101), short-form (Kinetics-400) and long-form (Charades) activity recognition benchmarks, showing strong performance among video-VLMs.
翻訳日:2024-04-01 20:56:17 公開日:2024-03-29
# 安全な説明可能な計画

Safe Explicable Planning ( http://arxiv.org/abs/2304.03773v4 )

ライセンス: Link先を確認
Akkamahadevi Hanni, Andrew Boateng, Yu Zhang, (参考訳) 人間の期待は、他人や世界に対する理解から生まれる。 人間とAIの相互作用の文脈では、この理解は現実と一致しないかもしれない。 このギャップを埋める方法として導入された説明可能なプランニングは、人間の期待をエージェントの最適な行動と調和させることを目的としており、解釈可能な意思決定を容易にする。 しかし、未解決の重大な問題は、説明可能な計画における安全性を保証することだ。 そこで,本稿では,セーフ・エクスプリシブル・プランニング(SEP)を提案する。 SEPの目標は、特定の安全基準に固執しながら、人間の期待に沿う行動を見つけることである。 提案手法は,1つのモデルではなく複数のモデルから派生した複数の目的の考察を一般化し,パレートの安全な説明可能なポリシーを導出する。 パレート集合を見つけるための正確な方法と、パレート集合のポリシーの1つを見つけるより効率的なグリージー法の両方を提示する。 さらに、拡張性を改善するために、状態アグリゲーションに基づく近似的なソリューションを提供する。 これらの手法の望ましい理論的性質を検証するための公式な証明を提供する。 シミュレーションと物理ロボット実験による評価により,提案手法の有効性が検証された。

Human expectations arise from their understanding of others and the world. In the context of human-AI interaction, this understanding may not align with reality, leading to the AI agent failing to meet expectations and compromising team performance. Explicable planning, introduced as a method to bridge this gap, aims to reconcile human expectations with the agent's optimal behavior, facilitating interpretable decision-making. However, an unresolved critical issue is ensuring safety in explicable planning, as it could result in explicable behaviors that are unsafe. To address this, we propose Safe Explicable Planning (SEP), which extends the prior work to support the specification of a safety bound. The goal of SEP is to find behaviors that align with human expectations while adhering to the specified safety criterion. Our approach generalizes the consideration of multiple objectives stemming from multiple models rather than a single model, yielding a Pareto set of safe explicable policies. We present both an exact method, guaranteeing finding the Pareto set, and a more efficient greedy method that finds one of the policies in the Pareto set. Additionally, we offer approximate solutions based on state aggregation to improve scalability. We provide formal proofs that validate the desired theoretical properties of these methods. Evaluation through simulations and physical robot experiments confirms the effectiveness of our approach for safe explicable planning.
翻訳日:2024-04-01 20:56:17 公開日:2024-03-29
# TACOS: 分散機械学習のためのトポロジ対応集合アルゴリズム合成装置

TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed Machine Learning ( http://arxiv.org/abs/2304.05301v2 )

ライセンス: Link先を確認
William Won, Midhilesh Elavazhagan, Sudarshan Srinivasan, Ajaya Durg, Samvit Kaul, Swati Gupta, Tushar Krishna, (参考訳) 人工知能(特に大きな言語モデル)の急増は、大規模な機械学習トレーニングクラスタの開発に急激な進展をもたらした。 これらのクラスタ内の集団通信は帯域幅に大きく依存する傾向にあり、利用可能なネットワーク帯域幅を最適に活用する技術が必要である。 これにより、集合に対するルーティングアルゴリズムは、パフォーマンスを決定する最前線に置かれる。 残念ながら、今日の分散機械学習で使われている通信ライブラリは、固定されたルーティングアルゴリズムによって制限されている。 これは、複雑で不均一で非対称で大規模なトポロジーを利用する次世代トレーニングクラスタの領域内での集合的パフォーマンスを制約する。 さらに、デバイス障害などの実行時の現象に起因する不規則なトポロジの出現は、課題の複雑さを複雑化するのに役立つ。 そこで本稿では,任意の入力ネットワークトポロジにまたがる共通分散機械学習集合のためのトポロジ対応集合アルゴリズムを自動合成するTACOSを紹介する。 TACOSは、異質な512-NPUシステムのAll-Reduceアルゴリズムをわずか6.09分で合成し、最先端の作業よりも4.27倍の性能向上を実現した。 TACOSは高いスケーラビリティを示し、合成時間はNPUの数に比例する。 従来のNPハードアプローチとは対照的に、40K NPUのTACOSは2.52時間で完了する。

The surge of artificial intelligence, specifically large language models, has led to a rapid advent towards the development of large-scale machine learning training clusters. Collective communications within these clusters tend to be heavily bandwidth-bound, necessitating techniques to optimally utilize the available network bandwidth. This puts the routing algorithm for the collective at the forefront of determining the performance. Unfortunately, communication libraries used in distributed machine learning today are limited by a fixed set of routing algorithms. This constraints collective performance within the domain of next-generation training clusters that employ intricate, heterogeneous, and asymmetric, large-scale topologies. Further, the emergence of irregular topologies attributed to runtime phenomena such as device failures serves to compound the complexity of the challenge. To this end, this paper introduces TACOS, an automated synthesizer that generates topology-aware collective algorithms for common distributed machine learning collectives across arbitrary input network topologies. TACOS was able to synthesize All-Reduce algorithm for a heterogeneous 512-NPU system in just 6.09 minutes while achieving performance improvement up to 4.27x over state-of-the-art prior work. TACOS exhibits high scalability, with synthesis time scaling quadratically with the number of NPUs. In contrast to prior works' NP-hard approaches, TACOS with 40K NPUs completes in 2.52 hours.
翻訳日:2024-04-01 20:56:17 公開日:2024-03-29
# moiré $\rm{WS}_2$/$\rm{WSe}_2$ヘテロビレイヤーのボース・フェルミ・ハバード系における励起モット絶縁体

Excitonic Mott insulator in a Bose-Fermi-Hubbard system of moiré $\rm{WS}_2$/$\rm{WSe}_2$ heterobilayer ( http://arxiv.org/abs/2304.09731v2 )

ライセンス: Link先を確認
Beini Gao, Daniel G. Suárez-Forero, Supratik Sarkar, Tsung-Sheng Huang, Deric Session, Mahmoud Jalali Mehrabad, Ruihao Ni, Ming Xie, Pranshoo Upadhyay, Jonathan Vannucci, Sunil Mittal, Kenji Watanabe, Takashi Taniguchi, Atac Imamoglu, You Zhou, Mohammad Hafezi, (参考訳) ハバードモデルを理解することは様々な量子多体状態の研究に不可欠であり、そのフェルミオンバージョンとボソニックバージョンは独立して実現されてきた。 近年,遷移金属ジアルコゲナイドヘテロ二層膜がハバードモデルのリッチ物理をシミュレートするための有望なプラットフォームとして出現している。 本研究では、このハイブリッド粒子密度をホストする$\rm{WS}_2$/$\rm{WSe}_2$ヘテロ双層デバイスを用いて、フェルミオンとボソニックの集団間の相互作用を探索する。 我々は電子ドーピングと電子-ホール対の光注入によってそれぞれフェルミオンとボゾンの集団を独立に調整する。 これにより、発光スペクトルにおいて大きなエネルギーギャップに現れる強い相互作用を持つ励起子を形成することができる。 励起子の非圧縮性は、ボソンの弱い相互作用を持つ気体の期待する挙動とは対照的に、ポンプ強度の増加に一定である励起子拡散を測定することでさらに相関し、ボゾンモット絶縁体の形成が示唆される。 位相空間充填を含む2バンドモデルを用いて観測を行った。 我々のシステムは、一般化されたボース・フェルミ・ハッバードモデルにおける量子多体効果の探索に制御可能なアプローチを提供する。

Understanding the Hubbard model is crucial for investigating various quantum many-body states and its fermionic and bosonic versions have been largely realized separately. Recently, transition metal dichalcogenides heterobilayers have emerged as a promising platform for simulating the rich physics of the Hubbard model. In this work, we explore the interplay between fermionic and bosonic populations, using a $\rm{WS}_2$/$\rm{WSe}_2$ heterobilayer device that hosts this hybrid particle density. We independently tune the fermionic and bosonic populations by electronic doping and optical injection of electron-hole pairs, respectively. This enables us to form strongly interacting excitons that are manifested in a large energy gap in the photoluminescence spectrum. The incompressibility of excitons is further corroborated by measuring exciton diffusion, which remains constant upon increasing pumping intensity, as opposed to the expected behavior of a weakly interacting gas of bosons, suggesting the formation of a bosonic Mott insulator. We explain our observations using a two-band model including phase space filling. Our system provides a controllable approach to the exploration of quantum many-body effects in the generalized Bose-Fermi-Hubbard model.
翻訳日:2024-04-01 20:56:17 公開日:2024-03-29
# 水中自動車用ハルの試料効率とサロゲートによる設計最適化

Sample-Efficient and Surrogate-Based Design Optimization of Underwater Vehicle Hulls ( http://arxiv.org/abs/2304.12420v2 )

ライセンス: Link先を確認
Harsh Vardhan, David Hyde, Umesh Timalsina, Peter Volgyesi, Janos Sztipanovits, (参考訳) 計算流体力学(CFD)のような物理シミュレーションは、コンピュータ支援設計(CAD)最適化プロセスにおける計算ボトルネックである。 このボトルネックを克服するには、非常にサンプリング効率のよい最適化フレームワークか、長期実行シミュレーションのための高速なデータ駆動プロキシ(代理モデル)が必要である。 どちらのアプローチにもメリットと限界があります。 ベイズ最適化はサンプル効率のためにしばしば用いられるが、特定の問題を1つ解決し、転送可能性に苦慮する。代わりに、代理モデルはCFD問題に対して高速でより一般化可能なソリューションを提供することができるが、そのようなモデルの収集や訓練は計算的に要求される。 本研究では、近年の最適化と人工知能(AI)の進歩を活用して、最適な無人水中車両(UUV)の設計の文脈において、これら2つの潜在的なアプローチを探索する。 本研究は,ベイズ最適化-低条件境界(BO-LCB)アルゴリズムが最もサンプリング効率のよい最適化フレームワークであり,最適収束挙動を有することを示す。 次に,DNNに基づく代理モデルを用いて,CFDシミュレーションと密に一致した試験データに対する抗力の予測を行い,平均絶対パーセンテージ誤差(MAPE)は1.85%であった。 これらの結果を組み合わせることで,サロゲートモデルを用いた設計最適化プロセスにおいて,2次超音速(精度に匹敵する)の高速化を実演する。 我々の知る限り、これはベイズ最適化とDNNに基づくサロゲートモデリングをUUV設計の最適化問題に適用した最初の研究であり、我々の開発成果をオープンソースソフトウェアとして共有する。

Physics simulations like computational fluid dynamics (CFD) are a computational bottleneck in computer-aided design (CAD) optimization processes. To overcome this bottleneck, one requires either an optimization framework that is highly sample-efficient, or a fast data-driven proxy (surrogate model) for long-running simulations. Both approaches have benefits and limitations. Bayesian optimization is often used for sample efficiency, but it solves one specific problem and struggles with transferability; alternatively, surrogate models can offer fast and often more generalizable solutions for CFD problems, but gathering data for and training such models can be computationally demanding. In this work, we leverage recent advances in optimization and artificial intelligence (AI) to explore both of these potential approaches, in the context of designing an optimal unmanned underwater vehicle (UUV) hull. Our study finds that the Bayesian Optimization-Lower Condition Bound (BO-LCB) algorithm is the most sample-efficient optimization framework and has the best convergence behavior of those considered. Subsequently, we show that our DNN-based surrogate model predicts drag force on test data in tight agreement with CFD simulations, with a mean absolute percentage error (MAPE) of 1.85%. Combining these results, we demonstrate a two-orders-of-magnitude speedup (with comparable accuracy) for the design optimization process when the surrogate model is used. To our knowledge, this is the first study applying Bayesian optimization and DNN-based surrogate modeling to the problem of UUV design optimization, and we share our developments as open-source software.
翻訳日:2024-04-01 20:56:17 公開日:2024-03-29
# mPLUG-Owl:マルチモーダリティを持つ大規模言語モデルを実現するモジュール化

mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality ( http://arxiv.org/abs/2304.14178v3 )

ライセンス: Link先を確認
Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, Chenliang Li, Yuanhong Xu, Hehong Chen, Junfeng Tian, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou, (参考訳) 大規模言語モデル(LLM)は、様々なオープンエンドタスクにおいて印象的なゼロショット能力を示し、最近の研究では、マルチモーダル生成にLLMを使うことも検討されている。 本研究では,基礎LLMのモジュール化学習,視覚知識モジュール,視覚抽象モジュールなどを通じて,LLMにマルチモーダル能力を持たせる新しいトレーニングパラダイムであるmPLUG-Owlを紹介する。 このアプローチは、複数のモダリティをサポートし、モダリティの協調を通じて、多様なモダリティとマルチモーダルの能力を促進する。 mPLUG-Owlのトレーニングパラダイムには、画像とテキストの整列のための2段階の手法が含まれており、LLMの生成能力を維持し、改善しながら、LLMの助けを借りて視覚知識を学ぶ。 第1段階では、視覚知識モジュールと抽象モジュールが凍結LDMモジュールで訓練され、画像とテキストが整列される。 第2段階では、言語のみおよびマルチモーダル教師付きデータセットを使用して、視覚的知識モジュールを凍結することにより、LLMと抽象モジュールの低ランク適応(LoRA)モジュールを協調的に微調整する。 我々は、視覚関連命令評価セットOwlEvalを慎重に構築する。 実験の結果,本モデルは既存のマルチモーダルモデルよりも優れており,mPLUG-Owlの印象的な指導と視覚的理解能力,マルチターン会話能力,知識推論能力などが示された。 さらに,複数画像の相関やシーンテキストの理解など,予期せぬ,エキサイティングな能力が観察され,視覚のみの文書理解など,より複雑なシナリオに活用できるようになった。 我々のコード、事前訓練されたモデル、命令調整されたモデル、評価セットはhttps://github.com/X-PLUG/mPLUG-Owl.comで入手できる。 オンラインデモはhttps://www.modelscope.cn/studios/damo/mPLUG-Owl.comで公開されている。

Large language models (LLMs) have demonstrated impressive zero-shot abilities on a variety of open-ended tasks, while recent research has also explored the use of LLMs for multi-modal generation. In this study, we introduce mPLUG-Owl, a novel training paradigm that equips LLMs with multi-modal abilities through modularized learning of foundation LLM, a visual knowledge module, and a visual abstractor module. This approach can support multiple modalities and facilitate diverse unimodal and multimodal abilities through modality collaboration. The training paradigm of mPLUG-Owl involves a two-stage method for aligning image and text, which learns visual knowledge with the assistance of LLM while maintaining and even improving the generation abilities of LLM. In the first stage, the visual knowledge module and abstractor module are trained with a frozen LLM module to align the image and text. In the second stage, language-only and multi-modal supervised datasets are used to jointly fine-tune a low-rank adaption (LoRA) module on LLM and the abstractor module by freezing the visual knowledge module. We carefully build a visually-related instruction evaluation set OwlEval. Experimental results show that our model outperforms existing multi-modal models, demonstrating mPLUG-Owl's impressive instruction and visual understanding ability, multi-turn conversation ability, and knowledge reasoning ability. Besides, we observe some unexpected and exciting abilities such as multi-image correlation and scene text understanding, which makes it possible to leverage it for harder real scenarios, such as vision-only document comprehension. Our code, pre-trained model, instruction-tuned models, and evaluation set are available at https://github.com/X-PLUG/mPLUG-Owl. The online demo is available at https://www.modelscope.cn/studios/damo/mPLUG-Owl.
翻訳日:2024-04-01 20:56:17 公開日:2024-03-29
# 2次元オン系の次元還元

Dimensional reduction for a system of 2D anyons ( http://arxiv.org/abs/2305.06670v2 )

ライセンス: Link先を確認
Nicolas Rougerie, Qiyun Yang, (参考訳) 統計位相パラメータ $\alpha\in(0,2)$ を持つ任意の粒子は、位相的理由により 1D または 2D の世界にしか存在しない準粒子の一種である。 タイト導波路内のエノンの2次元系の次元的低減について検討する。 具体的には、$x$-directionよりも$y$-directionにおいて粒子をより強くトラップする異方性調和ポテンシャルを付与した2次元磁気ゲージ画像モデルについて検討する。 本研究では, 固有関数と固有関数の双方が漸近的に疎閉方向と密閉方向とに分解されることを証明した。 $x$-directionの極限1Dシステムは、$\alpha$に依存せず、2Dモデルの長距離相互作用の痕跡も残らない、不透明なトンクス・ジラルドー・ボース気体によって与えられる。

Anyons with a statistical phase parameter $\alpha\in(0,2)$ are a kind of quasi-particles that, for topological reasons, only exist in a 1D or 2D world. We consider the dimensional reduction for a 2D system of anyons in a tight wave-guide. More specifically, we study the 2D magnetic-gauge picture model with an imposed anisotropic harmonic potential that traps particles much stronger in the $y$-direction than in the $x$-direction. We prove that both the eigenenergies and the eigenfunctions are asymptotically decoupled into the loose confining direction and the tight confining direction during this reduction. The limit 1D system for the $x$-direction is given by the impenetrable Tonks-Girardeau Bose gas, which has no dependency on $\alpha$, and no trace left of the long-range interactions of the 2D model.
翻訳日:2024-04-01 20:56:17 公開日:2024-03-29
# MaxViT-UNet:医療画像セグメンテーションのためのマルチ軸アテンション

MaxViT-UNet: Multi-Axis Attention for Medical Image Segmentation ( http://arxiv.org/abs/2305.08396v5 )

ライセンス: Link先を確認
Abdul Rehman Khan, Asifullah Khan, (参考訳) その出現以来、畳み込みニューラルネットワーク(CNN)は医療画像解析において大きな進歩を遂げてきた。 しかし、畳み込み作用素の局所的な性質は、CNNにおける大域的および長距離的相互作用を捉える限界を生じさせる可能性がある。 近年、トランスフォーマーは、コンピュータビジョンコミュニティや医療画像のセグメンテーションにおいて、グローバルな特徴を効果的に処理できることから人気を集めている。 自己注意機構のスケーラビリティの問題とCNNのような帰納バイアスの欠如は、採用を制限した可能性がある。 そのため、畳み込みと自己注意機構の両方の利点を生かしたハイブリッドビジョントランス (CNN-Transformer) が重要になっている。 本研究では,医療画像セグメンテーションのための新しいエンコーダ-デコーダベースUNet型ハイブリッドビジョントランス (CNN-Transformer) であるMaxViT-UNetを紹介する。 提案するハイブリッドデコーダは,各デコードステージにおける畳み込み機構と自己保持機構の両方のパワーを,名目記憶と計算負荷で活用するように設計されている。 復号器の各段階における多軸自己アテンションの導入は、対象領域と背景領域の識別能力を大幅に向上させ、セグメンテーション効率の向上に寄与する。 ハイブリッドデコーダでは、新しいブロックも提案されている。 融合プロセスは、変換畳み込みにより得られたアップサンプリングされた低レベルデコーダ特徴とハイブリッドエンコーダから導出されるスキップ接続特徴とを一体化して開始する。 その後、多軸アテンション機構の利用により、融合した特徴が洗練される。 提案したデコーダブロックは数回繰り返して核領域を段階的に分割する。 MoNuSeg18とMoNuSAC20データセットの実験結果から,提案手法の有効性が示された。

Since their emergence, Convolutional Neural Networks (CNNs) have made significant strides in medical image analysis. However, the local nature of the convolution operator may pose a limitation for capturing global and long-range interactions in CNNs. Recently, Transformers have gained popularity in the computer vision community and also in medical image segmentation due to their ability to process global features effectively. The scalability issues of the self-attention mechanism and lack of the CNN-like inductive bias may have limited their adoption. Therefore, hybrid Vision transformers (CNN-Transformer), exploiting the advantages of both Convolution and Self-attention Mechanisms, have gained importance. In this work, we present MaxViT-UNet, a new Encoder-Decoder based UNet type hybrid vision transformer (CNN-Transformer) for medical image segmentation. The proposed Hybrid Decoder is designed to harness the power of both the convolution and self-attention mechanisms at each decoding stage with a nominal memory and computational burden. The inclusion of multi-axis self-attention, within each decoder stage, significantly enhances the discriminating capacity between the object and background regions, thereby helping in improving the segmentation efficiency. In the Hybrid Decoder, a new block is also proposed. The fusion process commences by integrating the upsampled lower-level decoder features, obtained through transpose convolution, with the skip-connection features derived from the hybrid encoder. Subsequently, the fused features undergo refinement through the utilization of a multi-axis attention mechanism. The proposed decoder block is repeated multiple times to segment the nuclei regions progressively. Experimental results on MoNuSeg18 and MoNuSAC20 datasets demonstrate the effectiveness of the proposed technique.
翻訳日:2024-04-01 20:56:17 公開日:2024-03-29
# Sāmayik: 英語・サンスクリット翻訳のためのベンチマークとデータセット

Sāmayik: A Benchmark and Dataset for English-Sanskrit Translation ( http://arxiv.org/abs/2305.14004v2 )

ライセンス: Link先を確認
Ayush Maheshwari, Ashim Gupta, Amrith Krishna, Atul Kumar Singh, Ganesh Ramakrishnan, G. Anil Kumar, Jitin Singla, (参考訳) S\={a}mayik は、現代の散文で書かれた53,000の英サンスクリット文からなるデータセットである。 サンスクリット語は古典的な言語であり、歴史資料が豊富に残されている。 しかし、デジタル化されたコンテンツの入手が限られているため、依然として低リソースの言語である。 既存のサンスクリットのコーポラは、モノリンガルであれバイリンガルであれ、主に詩に焦点を合わせており、現代の著作物を限定的にカバーしている。 S\={a}mayikは、言語教育資料、テキスト教育教育、オンラインチュートリアルなど、さまざまな領域からキュレーションされている。 これはサンスクリットの現代的用法を特に重視するユニークな資料であり、散文に重点を置いている。 我々のデータセットで訓練された翻訳モデルは、古い古典詩のデータセットで訓練されたモデルよりも優れた、ドメイン外の現代コーパスを翻訳する際の統計的に有意な改善を示す。 最後に、4つの多言語事前学習モデルを適用してベンチマークモデルをリリースし、そのうち3つは英語とサンスクリットの翻訳のためにサンスクリットにこれまで公開されていないが、そのうちの1つは英語とサンスクリットを含む多言語事前学習翻訳モデルである。 データセットとソースコードはhttps://github.com/ayushbits/saamayikにある。

We release S\={a}mayik, a dataset of around 53,000 parallel English-Sanskrit sentences, written in contemporary prose. Sanskrit is a classical language still in sustenance and has a rich documented heritage. However, due to the limited availability of digitized content, it still remains a low-resource language. Existing Sanskrit corpora, whether monolingual or bilingual, have predominantly focused on poetry and offer limited coverage of contemporary written materials. S\={a}mayik is curated from a diverse range of domains, including language instruction material, textual teaching pedagogy, and online tutorials, among others. It stands out as a unique resource that specifically caters to the contemporary usage of Sanskrit, with a primary emphasis on prose writing. Translation models trained on our dataset demonstrate statistically significant improvements when translating out-of-domain contemporary corpora, outperforming models trained on older classical-era poetry datasets. Finally, we also release benchmark models by adapting four multilingual pre-trained models, three of them have not been previously exposed to Sanskrit for translating between English and Sanskrit while one of them is multi-lingual pre-trained translation model including English and Sanskrit. The dataset and source code is present at https://github.com/ayushbits/saamayik.
翻訳日:2024-04-01 20:56:17 公開日:2024-03-29
# 大規模言語モデルを破壊的にする鍵としてのドメイン特化 - 総合的な調査

Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey ( http://arxiv.org/abs/2305.18703v7 )

ライセンス: Link先を確認
Chen Ling, Xujiang Zhao, Jiaying Lu, Chengyuan Deng, Can Zheng, Junxiang Wang, Tanmoy Chowdhury, Yun Li, Hejie Cui, Xuchao Zhang, Tianjiao Zhao, Amit Panalkar, Dhagash Mehta, Stefano Pasquali, Wei Cheng, Haoyu Wang, Yanchi Liu, Zhengzhang Chen, Haifeng Chen, Chris White, Quanquan Gu, Jian Pei, Carl Yang, Liang Zhao, (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)の分野を著しく進歩させ、広範囲のアプリケーションに非常に有用なタスクに依存しない基盤を提供する。 しかし、ドメインデータの異質性、ドメインの知識の高度化、ドメインの目的の独自性、制約の多様性(例えば、様々な社会的規範、文化的適合性、宗教的信念、ドメインアプリケーションにおける倫理的基準)によって引き起こされる多くのハードルを、特定のドメインにおける洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。 ドメイン仕様技術は、多くのアプリケーションで大きな言語モデルを破壊的にする鍵となる。 特に、これらのハードルを解決するために、近年、LLMの領域特化に関する研究や実践が顕著に増加している。 この新たな分野の研究は、その影響のかなりの可能性を秘めており、この分野で進行中の作業をよりよく要約し、ガイドするために、包括的で体系的なレビューを必要としている。 本稿では,大規模言語モデルアプリケーションに不可欠な新たな方向性である,大規模言語モデルのドメイン仕様技術に関する包括的調査を紹介する。 まず, LLM のアクセシビリティに基づいた LLM ドメイン特殊化手法を分類し, 各サブカテゴリの枠組み, 相互の関係, 相違点を要約する系統分類法を提案する。 第2に、専門的なLLMから劇的に恩恵を受けることができる重要なアプリケーションドメインの広範な分類を提示し、それらの実践的重要性とオープンな課題について議論する。 最後に、この領域における現在の研究状況と今後の動向についての洞察を提供する。

Large language models (LLMs) have significantly advanced the field of natural language processing (NLP), providing a highly useful, task-agnostic foundation for a wide range of applications. However, directly applying LLMs to solve sophisticated problems in specific domains meets many hurdles, caused by the heterogeneity of domain data, the sophistication of domain knowledge, the uniqueness of domain objectives, and the diversity of the constraints (e.g., various social norms, cultural conformity, religious beliefs, and ethical standards in the domain applications). Domain specification techniques are key to make large language models disruptive in many applications. Specifically, to solve these hurdles, there has been a notable increase in research and practices conducted in recent years on the domain specialization of LLMs. This emerging field of study, with its substantial potential for impact, necessitates a comprehensive and systematic review to better summarize and guide ongoing work in this area. In this article, we present a comprehensive survey on domain specification techniques for large language models, an emerging direction critical for large language model applications. First, we propose a systematic taxonomy that categorizes the LLM domain-specialization techniques based on the accessibility to LLMs and summarizes the framework for all the subcategories as well as their relations and differences to each other. Second, we present an extensive taxonomy of critical application domains that can benefit dramatically from specialized LLMs, discussing their practical significance and open challenges. Last, we offer our insights into the current research status and future trends in this area.
翻訳日:2024-04-01 20:46:32 公開日:2024-03-29
# ジャンプを伴う高次元PIDEの時間差学習

Temporal Difference Learning for High-Dimensional PIDEs with Jumps ( http://arxiv.org/abs/2307.02766v2 )

ライセンス: Link先を確認
Liwei Lu, Hailong Guo, Xu Yang, Yi Zhu, (参考訳) 本稿では,時間差分学習に基づく高次元部分積分微分方程式(PIDE)を解くためのディープラーニングフレームワークを提案する。 我々は,一連のLeviプロセスを導入し,それに対応する強化学習モデルを構築した。 プロセス全体をシミュレートするために、方程式の解と非局所項を表現するためにディープニューラルネットワークを使用します。 その後、時間差誤差、終了条件、非局所項の性質を損失関数としてネットワークを訓練する。 この手法の相対誤差は100次元実験でO(10^{-3})、一次元純粋ジャンプ問題でO(10^{-4})に達する。 さらに,提案手法は計算コストの低減とロバストさの利点を実証し,異なる形状やジャンプ強度の問題を解くのに適していることを示す。

In this paper, we propose a deep learning framework for solving high-dimensional partial integro-differential equations (PIDEs) based on the temporal difference learning. We introduce a set of Levy processes and construct a corresponding reinforcement learning model. To simulate the entire process, we use deep neural networks to represent the solutions and non-local terms of the equations. Subsequently, we train the networks using the temporal difference error, termination condition, and properties of the non-local terms as the loss function. The relative error of the method reaches O(10^{-3}) in 100-dimensional experiments and O(10^{-4}) in one-dimensional pure jump problems. Additionally, our method demonstrates the advantages of low computational cost and robustness, making it well-suited for addressing problems with different forms and intensities of jumps.
翻訳日:2024-04-01 20:46:32 公開日:2024-03-29
# アノテーションなしで数えることを学ぶ

Learning to Count without Annotations ( http://arxiv.org/abs/2307.08727v2 )

ライセンス: Link先を確認
Lukas Knobel, Tengda Han, Yuki M. Asano, (参考訳) 最近の参照ベースのオブジェクトカウントのための教師付きメソッドは、ベンチマークデータセットのパフォーマンスを改善し続けているが、画像に数十のオブジェクトを手動でアノテートするコストのため、小さなデータセットに依存する必要がある。 我々は、手動のアノテーションを必要とせずに、このタスクを学習できるモデルUnCounTRを提案する。 この目的のために,任意の対象の種類や数量をカバーするリッチな学習信号を提供する,様々なペーストされたオブジェクトをトレーニングサンプルとして構築する。 提案手法は既存の教師なし表現とセグメンテーション技術に基づいて,手動の監督なしに参照ベースのカウント機能を示す。 実験の結果,本手法は単純なベースラインやFasterRCNNやDETRといったジェネリックモデルよりも優れるだけでなく,いくつかの領域における教師付きカウントモデルの性能と一致していることがわかった。

While recent supervised methods for reference-based object counting continue to improve the performance on benchmark datasets, they have to rely on small datasets due to the cost associated with manually annotating dozens of objects in images. We propose UnCounTR, a model that can learn this task without requiring any manual annotations. To this end, we construct "Self-Collages", images with various pasted objects as training samples, that provide a rich learning signal covering arbitrary object types and counts. Our method builds on existing unsupervised representations and segmentation techniques to successfully demonstrate for the first time the ability of reference-based counting without manual supervision. Our experiments show that our method not only outperforms simple baselines and generic models such as FasterRCNN and DETR, but also matches the performance of supervised counting models in some domains.
翻訳日:2024-04-01 20:46:32 公開日:2024-03-29
# 低周波計測家電機器のエネルギー効率の深いマルチラベルオン/オフ分類

Energy Efficient Deep Multi-Label ON/OFF Classification of Low Frequency Metered Home Appliances ( http://arxiv.org/abs/2307.09244v2 )

ライセンス: Link先を確認
Anže Pirnat, Blaž Bertalanič, Gregor Cerar, Mihael Mohorčič, Carolina Fortuna, (参考訳) 非侵入負荷モニタリング(Non-Inrusive Load Monitoring, NILM)とは、家庭や事業の総消費電力を計測し、単一の計測点からアプライアンスレベルのデータを取得するプロセスである。 アプライアンスレベルのデータは、需要対応アプリケーションやエネルギー管理システム、およびエネルギー効率の改善のための意識向上とモチベーションのために直接使用できる。 近年、古典的な機械学習とディープラーニング(DL)技術は非常に普及し、NILM分類に非常に効果的であることが証明されているが、複雑さが増すにつれ、これらの手法は訓練と運用の両方において、かなりの計算とエネルギーの要求に直面している。 本稿では,NILMのマルチラベル分類を改良した新しいDLモデルを提案する。 また、実世界のシナリオをよりよく表現するために、測定データセットから合成したデータを用いて異なるモデルを比較するための評価手法を提案する。 現状と比較して,提案モデルでは,REFITデータセットとUK-DALEデータセットから得られたデータに基づいて,平均8ポイントの性能向上を図りながら,エネルギー消費量を23%以上削減した。 また,無作為林モデルに対して提案したDLモデルによる12ポイント性能の利点を示すとともに,家庭内のデバイス数の増加に伴う性能劣化,すなわち,追加5デバイス毎に平均性能が約7ポイント低下することを示す。

Non-intrusive load monitoring (NILM) is the process of obtaining appliance-level data from a single metering point, measuring total electricity consumption of a household or a business. Appliance-level data can be directly used for demand response applications and energy management systems as well as for awareness raising and motivation for improvements in energy efficiency. Recently, classical machine learning and deep learning (DL) techniques became very popular and proved as highly effective for NILM classification, but with the growing complexity these methods are faced with significant computational and energy demands during both their training and operation. In this paper, we introduce a novel DL model aimed at enhanced multi-label classification of NILM with improved computation and energy efficiency. We also propose an evaluation methodology for comparison of different models using data synthesized from the measurement datasets so as to better represent real-world scenarios. Compared to the state-of-the-art, the proposed model has its energy consumption reduced by more than 23% while providing on average approximately 8 percentage points in performance improvement when evaluating on data derived from REFIT and UK-DALE datasets. We also show a 12 percentage point performance advantage of the proposed DL based model over a random forest model and observe performance degradation with the increase of the number of devices in the household, namely with each additional 5 devices, the average performance degrades by approximately 7 percentage points.
翻訳日:2024-04-01 20:46:32 公開日:2024-03-29
# グラディエント、高周波数のフィルタリングで説明が改善

Gradient strikes back: How filtering out high frequencies improves explanations ( http://arxiv.org/abs/2307.09591v2 )

ライセンス: Link先を確認
Sabine Muzellec, Thomas Fel, Victor Boutin, Léo andéol, Rufin VanRullen, Thomas Serre, (参考訳) 属性法は、個々の入力がモデルの意思決定プロセスにどのように貢献するかを評価するための説明可能性法(XAI)のクラスに対応する。 ホワイトボックス法(White-box method)と呼ばれる1種類の帰属法において,有意な制限が認められた。 これらの手法は高効率であるが、高周波ノイズによってしばしば汚染される勾配信号に依存している。 この制限を克服するために、我々は"FORGrad"と呼ばれる新しいアプローチを導入する。 本手法は,各モデルアーキテクチャの固有特性に合わせて最適なカットオフ周波数を用いて,ノイズアーティファクトを効果的にフィルタリングする。 以上の結果から, FORGradは既存のWhite-boxメソッドの性能を継続的に向上させ,より正確かつ計算的に要求される"black-box"メソッドと効果的に競合できることを示した。 我々の研究は、よりシンプルで効率的なホワイトボックス法を説明可能性に適用し、忠実性と計算効率のバランスを改善することを期待している。

Attribution methods correspond to a class of explainability methods (XAI) that aim to assess how individual inputs contribute to a model's decision-making process. We have identified a significant limitation in one type of attribution methods, known as "white-box" methods. Although highly efficient, these methods rely on a gradient signal that is often contaminated by high-frequency noise. To overcome this limitation, we introduce a new approach called "FORGrad". This simple method effectively filters out noise artifacts by using optimal cut-off frequencies tailored to the unique characteristics of each model architecture. Our findings show that FORGrad consistently enhances the performance of already existing white-box methods, enabling them to compete effectively with more accurate yet computationally demanding "black-box" methods. We anticipate that our research will foster broader adoption of simpler and more efficient white-box methods for explainability, offering a better balance between faithfulness and computational efficiency.
翻訳日:2024-04-01 20:46:32 公開日:2024-03-29
# ステップを有する高調波発振器とそのアイソスペクトル特性

Harmonic Oscillator with a Step and its Isospectral Properties ( http://arxiv.org/abs/2307.14251v3 )

ライセンス: Link先を確認
Yuta Nasuda, Nobuyuki Sawado, (参考訳) 原点における有限ジャンプ$a$の高調波発振器に対する一次元Schr\"{o}dinger方程式について検討する。 この解は、通常のマッチング・オブ・ウェーブファンクション技術を用いて構成される。 a$, $a=4\ell$$$\ell=1,2,\ldots$の特別な選択に対して、波動関数はエルミート多項式で表される。 さらに、Darboux変換によるポテンシャルの等スペクトル変形について検討する。 この文脈では、通常の調和振動子に対する無限個のアイソスペクトルハミルトニアンが得られる。

We investigate the one-dimensional Schr\"{o}dinger equation for a harmonic oscillator with a finite jump $a$ at the origin. The solution is constructed by employing the ordinary matching-of-wavefunctions technique. For the special choices of $a$, $a=4\ell$ ($\ell=1,2,\ldots$), the wavefunctions can be expressed by the Hermite polynomials. Moreover, we explore isospectral deformations of the potential via the Darboux transformation. In this context, infinitely many isospectral Hamiltonians to the ordinary harmonic oscillator are obtained.
翻訳日:2024-04-01 20:46:32 公開日:2024-03-29
# 量子情報スクランブルの量子貯水池探索

Quantum reservoir probing of quantum information scrambling ( http://arxiv.org/abs/2308.00898v3 )

ライセンス: Link先を確認
Kaito Kobayashi, Yukitoshi Motome, (参考訳) 量子情報のスクランブル(quantum information scrambling)は、初期局在化された量子情報が様々な自由度に広がるダイナミックなプロセスである。 長期体制における漸近的行動と早期体制における初期拡散に特に重点を置いて, 探索のための重要な指標として, 時間外相関器と三部情報の活用が試みられている。 オープンな疑問は、情報伝達のダイナミクスの包括的解明であり、中間時間体制をカバーしている。 本稿では、量子貯水池計算の考え方を拡張して、任意の時間に任意の自由度でスクランブルを統一的に診断する量子貯水池探索法(QRP)を提案する。 パラダイム的な例として、一次元量子イジング鎖について検討する。 我々は,QRPが量子カオス系における準粒子媒介情報伝達と相関媒介情報伝達の区別に成功し,その単純さを実証した。 さらに、読み出し演算子を体系的にスキャンすることにより、従来の方法よりも明確な利点であるシステム固有の情報伝達チャネルを特定できる。

Quantum information scrambling is the dynamical process where initially localized quantum information spreads over diverse degrees of freedom. Out-of-time-order correlators and tripartite mutual information have been utilized as key metrics to investigate scrambling, with a specific emphasis on the asymptotic behaviors in the long-time regime and the initial spreads in the early-time regime. An open question is the comprehensive clarification of the dynamics of information propagation, covering the intermediate-time regime. Here, by extending the idea of quantum reservoir computing, we propose quantum reservoir probing (QRP) to diagnose scrambling in a unified manner for arbitrary degrees of freedom at arbitrary times, through information estimation performance. As a paradigmatic example, we investigate a one-dimensional quantum Ising chain. We show that the QRP successfully distinguishes between quasiparticle-mediated information propagation in a free fermion system and correlation-mediated scrambling in a quantum chaotic system, all while showcasing its experimental simplicity. Furthermore, by systematically scanning the read-out operators, we can identify the system-specific information propagation channels, a distinct advantage over the conventional methods.
翻訳日:2024-04-01 20:46:32 公開日:2024-03-29
# サブ回折非コヒーレント光学画像への量子制限 III. 数値解析

Quantum limit to subdiffraction incoherent optical imaging. III. Numerical analysis ( http://arxiv.org/abs/2308.04317v2 )

ライセンス: Link先を確認
Xiao-Jie Tan, Mankei Tsang, (参考訳) M. Tsang, Phys. Rev. A 99, 012305 (2019); 104, 052411 (2021)] は、被写体モーメントを推定する誤差に基づいて量子下界を研究し、被写体サイズに関してスケーリング法則を証明した。 スケーリング法則は、対象サイズを消滅させる漸近的極限においてのみ証明されたため、この研究は、実際のゼロでない対象サイズに対して、その法則がうまく機能することを検証するために、量子境界の数値解析を行う。 また,空間モードデマルチプレクシング (SPADE) と呼ばれる測定値の最適性について検討し,SPADEがスケーリングに追従するだけでなく,少なくとも低次モーメントに対して最適に近い数値的に近いことを示す。

To investigate the fundamental limit to far-field incoherent imaging, the prequels to this work [M. Tsang, Phys. Rev. A 99, 012305 (2019); 104, 052411 (2021)] have studied a quantum lower bound on the error of estimating an object moment and proved a scaling law for the bound with respect to the object size. As the scaling law was proved only in the asymptotic limit of vanishing object size, this work performs a numerical analysis of the quantum bound to verify that the law works well for nonzero object sizes in reality. We also use the numerical bounds to study the optimality of a measurement called spatial-mode demultiplexing or SPADE, showing that SPADE not only follows the scaling but is also numerically close to being optimal, at least for low-order moments.
翻訳日:2024-04-01 20:46:32 公開日:2024-03-29
# DFWLayer: 微分可能なFrank-Wolfe最適化レイヤ

DFWLayer: Differentiable Frank-Wolfe Optimization Layer ( http://arxiv.org/abs/2308.10806v2 )

ライセンス: Link先を確認
Zixuan Liu, Liu Liu, Xueqian Wang, Peilin Zhao, (参考訳) ニューラルネットワークに基づく機械学習の分野における基礎的な役割から、微分可能な最適化は大きな注目を集めている。 本稿では,Frank-Wolfe法(Frank-Wolfe method)のロールアウトにより,Frank-Wolfe法(DFWLayer)と呼ばれる微分可能な層を提案する。 実験の結果、DFWLayerは解と勾配の競争精度を得るだけでなく、制約に一貫して従うことを示した。

Differentiable optimization has received a significant amount of attention due to its foundational role in the domain of machine learning based on neural networks. This paper proposes a differentiable layer, named Differentiable Frank-Wolfe Layer (DFWLayer), by rolling out the Frank-Wolfe method, a well-known optimization algorithm which can solve constrained optimization problems without projections and Hessian matrix computations, thus leading to an efficient way of dealing with large-scale convex optimization problems with norm constraints. Experimental results demonstrate that the DFWLayer not only attains competitive accuracy in solutions and gradients but also consistently adheres to constraints.
翻訳日:2024-04-01 20:46:32 公開日:2024-03-29
# 深部ニューラルネットワークの正規化経路を計算する多目的継続法

A multiobjective continuation method to compute the regularization path of deep neural networks ( http://arxiv.org/abs/2308.12044v5 )

ライセンス: Link先を確認
Augustina C. Amakor, Konstantin Sonntag, Sebastian Peitz, (参考訳) 数値効率を保証し、モデルの解釈可能性(関連する機能の少ないため)を改善し、堅牢性を向上させるため、ディープニューラルネットワーク(DNN)では、スパシティが非常に望ましい機能である。 線型モデルに対しては、$\ell^1$ノルム、すなわちゼロ重みと非正則解を連結する \emph{regularization path} が存在することが知られている。 ごく最近になって、経験的損失と空間性($\ell^1$ norm)を2つの矛盾する基準として扱い、結果として生じる低次元DNNに対する多目的最適化問題を解くことによって、正規化パスをDNNに拡張する最初の試みがあった。 しかし、$\ell^1$ノルムの非滑らかさとパラメータの多さのため、このアプローチは高次元DNNの計算的観点からはあまり効率的ではない。 この制限を克服するため,数百万のパラメータを持つ高次元DNNに対して,上述の目的に対するパレートフロント全体の近似を極めて効率的に行うアルゴリズムを提案する。 決定的勾配と確率的勾配の両方を用いて数値的な例を示す。 さらに、正規化パスの知識がネットワークパラメトリゼーションの一般化を可能にすることを実証する。 我々の知る限り、これは何百万自由度で非凸多目的最適化問題(MOP)の正規化経路を計算した最初のアルゴリズムである。

Sparsity is a highly desired feature in deep neural networks (DNNs) since it ensures numerical efficiency, improves the interpretability of models (due to the smaller number of relevant features), and robustness. For linear models, it is well known that there exists a \emph{regularization path} connecting the sparsest solution in terms of the $\ell^1$ norm, i.e., zero weights and the non-regularized solution. Very recently, there was a first attempt to extend the concept of regularization paths to DNNs by means of treating the empirical loss and sparsity ($\ell^1$ norm) as two conflicting criteria and solving the resulting multiobjective optimization problem for low-dimensional DNN. However, due to the non-smoothness of the $\ell^1$ norm and the high number of parameters, this approach is not very efficient from a computational perspective for high-dimensional DNNs. To overcome this limitation, we present an algorithm that allows for the approximation of the entire Pareto front for the above-mentioned objectives in a very efficient manner for high-dimensional DNNs with millions of parameters. We present numerical examples using both deterministic and stochastic gradients. We furthermore demonstrate that knowledge of the regularization path allows for a well-generalizing network parametrization. To the best of our knowledge, this is the first algorithm to compute the regularization path for non-convex multiobjective optimization problems (MOPs) with millions of degrees of freedom.
翻訳日:2024-04-01 20:46:32 公開日:2024-03-29
# RLSynC: シントーン補完のためのオフラインオンライン強化学習

RLSynC: Offline-Online Reinforcement Learning for Synthon Completion ( http://arxiv.org/abs/2309.02671v3 )

ライセンス: Link先を確認
Frazier N. Baker, Ziqi Chen, Daniel Adu-Ampratwum, Xia Ning, (参考訳) レトロ合成(Retro synthesis)は、反応可能な反応分子の集合が望ましい生成物を形成する過程である。 合成反応の逆論理を模倣する半テンポレートベースの逆合成法は、まず生成物の反応中心を予測し、その結果のシンソンを反応剤に戻す。 我々は,セミテンプレート法におけるシントーン補完のためのオフラインオンライン強化学習法 RLSynC を開発した。 RLSynCはシンソンに1つのエージェントを割り当て、それぞれがシンソンを完了させる。 RLSynCはオフライントレーニングエピソードとオンラインインタラクションの両方からポリシーを学び、RSynCは新しい反応空間を探索することができる。 RLSynCは、生成物を合成する際の予測された反応物質の可能性を評価するためにスタンドアロンの前方合成モデルを使用し、それによって作用探索を導く。 以上の結果から,RTSynCは14.9%の改善を達成し,合成計画の可能性を浮き彫りにした。

Retrosynthesis is the process of determining the set of reactant molecules that can react to form a desired product. Semi-template-based retrosynthesis methods, which imitate the reverse logic of synthesis reactions, first predict the reaction centers in the products, and then complete the resulting synthons back into reactants. We develop a new offline-online reinforcement learning method RLSynC for synthon completion in semi-template-based methods. RLSynC assigns one agent to each synthon, all of which complete the synthons by conducting actions step by step in a synchronized fashion. RLSynC learns the policy from both offline training episodes and online interactions, which allows RLSynC to explore new reaction spaces. RLSynC uses a standalone forward synthesis model to evaluate the likelihood of the predicted reactants in synthesizing a product, and thus guides the action search. Our results demonstrate that RLSynC can outperform state-of-the-art synthon completion methods with improvements as high as 14.9%, highlighting its potential in synthesis planning.
翻訳日:2024-04-01 20:36:47 公開日:2024-03-29
# ハイブリッド言語シンボリック推論のための自然言語組込みプログラム

Natural Language Embedded Programs for Hybrid Language Symbolic Reasoning ( http://arxiv.org/abs/2309.10814v2 )

ライセンス: Link先を確認
Tianhua Zhang, Jiaxin Ge, Hongyin Luo, Yung-Sung Chuang, Mingye Gao, Yuan Gong, Xixin Wu, Yoon Kim, Helen Meng, James Glass, (参考訳) 記号的および数値的推論を必要とするタスクを解決するために、自然言語表現上でどのように計算を実行するか。 本研究では,数学・記号的推論,自然言語理解,後続の課題に対処するための統合フレームワークとして,自然言語組み込みプログラム(NLEP)を提案する。 我々のアプローチは,構造化知識の自然言語表現を含むデータ構造上の関数を定義する完全なPythonプログラムを生成するよう,言語モデルに促す。 Pythonインタープリタが生成されたコードを実行し、出力をプリントする。 タスク・ジェネラル・プロンプトを用いても,本手法は数学や記号的推論,テキスト分類,質問応答,指示追従といった様々なタスクにおいて,強いベースラインを改善することができる。 プログラムインタプリタに続く正確な推論過程を概説した結果,生成したプログラムは解釈可能であることがわかった。

How can we perform computations over natural language representations to solve tasks that require symbolic and numeric reasoning? We propose natural language embedded programs (NLEP) as a unifying framework for addressing math/symbolic reasoning, natural language understanding, and instruction following tasks. Our approach prompts a language model to generate full Python programs that define functions over data structures which contain natural language representations of structured knowledge. A Python interpreter then executes the generated code and prints the output. Despite using a task-general prompt, we find that this approach can improve upon strong baselines across a range of different tasks including math and symbolic reasoning, text classification, question answering, and instruction following. We found that the generated programs are interpretable since they outline the exact reasoning process followed by the program interpreter.
翻訳日:2024-04-01 20:36:47 公開日:2024-03-29
# セマンティックセグメンテーションのための分散型連続テスト時間適応

Distribution-Aware Continual Test-Time Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2309.13604v2 )

ライセンス: Link先を確認
Jiayi Ni, Senqiao Yang, Ran Xu, Jiaming Liu, Xiaoqi Li, Wenyu Jiao, Zehui Chen, Yi Liu, Shanghang Zhang, (参考訳) 自律運転システムは通常、動的かつ絶え間なく変化する環境に直面しているため、継続的なテスト時間適応(CTTA)は、ターゲットドメインを継続的に変更するためにデプロイされたモデルを転送するための戦略として提案されている。 しかし、長期適応の追求は、しばしば破滅的な忘れ込みとエラー蓄積の問題を引き起こし、現実の世界におけるCTTAの実践的実装を阻害する。 近年,既存のCTTA法は主に,自己学習を通じて対象領域の知識に適合するパラメータの大部分を活用することに重点を置いている。 残念なことに、これらのアプローチは、ノイズの多い擬似ラベルによるエラー蓄積の課題を増幅し、モデル全体の更新に伴う計算コストに起因した実用的な制限を生じさせる。 本稿では, 実世界の応用において, セマンティックセグメンテーションCTTAを効率的かつ実用的なものにするための分散対応チューニング(DAT)手法を提案する。 DATは、ドメイン固有パラメータ(DSP)やタスク関連パラメータ(TRP)を含む、連続的な適応プロセス中のデータ分布に基づいて、トレーニング可能なパラメータの2つの小さなグループを適応的に選択し、更新する。 具体的には、DSPは実質的な分布シフトを伴う出力に対する感度を示し、エラー蓄積の問題を効果的に緩和する。 対照的に、TRPは小さな分布シフトを伴う出力に応答する位置に割り当てられ、これは破滅的な忘れの問題を避けるために微調整される。 また,CTTAは時間的タスクであるため,パラメータ蓄積更新(PAU)戦略を導入して,更新 DSP と TRP を対象ドメインシーケンスで収集する。 我々は2つの広く使われているセマンティックセマンティックセマンティクスCTTAベンチマークについて広範な実験を行い、従来の最先端手法と比較して有望な性能を実現した。

Since autonomous driving systems usually face dynamic and ever-changing environments, continual test-time adaptation (CTTA) has been proposed as a strategy for transferring deployed models to continually changing target domains. However, the pursuit of long-term adaptation often introduces catastrophic forgetting and error accumulation problems, which impede the practical implementation of CTTA in the real world. Recently, existing CTTA methods mainly focus on utilizing a majority of parameters to fit target domain knowledge through self-training. Unfortunately, these approaches often amplify the challenge of error accumulation due to noisy pseudo-labels, and pose practical limitations stemming from the heavy computational costs associated with entire model updates. In this paper, we propose a distribution-aware tuning (DAT) method to make the semantic segmentation CTTA efficient and practical in real-world applications. DAT adaptively selects and updates two small groups of trainable parameters based on data distribution during the continual adaptation process, including domain-specific parameters (DSP) and task-relevant parameters (TRP). Specifically, DSP exhibits sensitivity to outputs with substantial distribution shifts, effectively mitigating the problem of error accumulation. In contrast, TRP are allocated to positions that are responsive to outputs with minor distribution shifts, which are fine-tuned to avoid the catastrophic forgetting problem. In addition, since CTTA is a temporal task, we introduce the Parameter Accumulation Update (PAU) strategy to collect the updated DSP and TRP in target domain sequences. We conduct extensive experiments on two widely-used semantic segmentation CTTA benchmarks, achieving promising performance compared to previous state-of-the-art methods.
翻訳日:2024-04-01 20:36:47 公開日:2024-03-29
# DreamGaussian: 効率的な3Dコンテンツ作成のためのガウススプレイティング

DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation ( http://arxiv.org/abs/2309.16653v2 )

ライセンス: Link先を確認
Jiaxiang Tang, Jiawei Ren, Hang Zhou, Ziwei Liu, Gang Zeng, (参考訳) 近年の3Dコンテンツ作成の進歩は, スコア蒸留サンプリング(SDS)による最適化に基づく3D生成に大きく貢献している。 有望な結果が示されたが、これらの手法はサンプルごとの最適化が遅く、実用的利用が制限されることが多い。 本稿では,DreamGaussianを提案する。DreamGaussianは,効率と品質を両立させる新しい3Dコンテンツ生成フレームワークである。 我々の重要な洞察は、UV空間におけるメッシュ抽出とテクスチャ改善を伴う3次元ガウススプラッティングモデルを設計することである。 ニューラル・ラジアンス・フィールドにおける占有プルーニングとは対照的に、3次元ガウスの進行的な密度化は3次元生成タスクにおいて著しく速く収束することを示した。 テクスチャ品質をさらに向上させ,下流の応用を容易にするために,3次元ガウスをテクスチャメッシュに変換するアルゴリズムを導入し,細かな調整を施して細部を洗練させる。 大規模な実験は,提案手法の優れた効率性および競争力のある生成品質を示すものである。 とくにDreamGaussianは、単一のビューイメージからわずか2分で高品質なテクスチャメッシュを生成し、既存の方法に比べて約10倍の高速化を実現している。

Recent advances in 3D content creation mostly leverage optimization-based 3D generation via score distillation sampling (SDS). Though promising results have been exhibited, these methods often suffer from slow per-sample optimization, limiting their practical usage. In this paper, we propose DreamGaussian, a novel 3D content generation framework that achieves both efficiency and quality simultaneously. Our key insight is to design a generative 3D Gaussian Splatting model with companioned mesh extraction and texture refinement in UV space. In contrast to the occupancy pruning used in Neural Radiance Fields, we demonstrate that the progressive densification of 3D Gaussians converges significantly faster for 3D generative tasks. To further enhance the texture quality and facilitate downstream applications, we introduce an efficient algorithm to convert 3D Gaussians into textured meshes and apply a fine-tuning stage to refine the details. Extensive experiments demonstrate the superior efficiency and competitive generation quality of our proposed approach. Notably, DreamGaussian produces high-quality textured meshes in just 2 minutes from a single-view image, achieving approximately 10 times acceleration compared to existing methods.
翻訳日:2024-04-01 20:36:47 公開日:2024-03-29
# フーリエニューラル演算子の多解能動的学習

Multi-Resolution Active Learning of Fourier Neural Operators ( http://arxiv.org/abs/2309.16971v4 )

ライセンス: Link先を確認
Shibo Li, Xin Yu, Wei Xing, Mike Kirby, Akil Narayan, Shandian Zhe, (参考訳) Fourier Neural Operator (FNO)は、人気のある演算子学習フレームワークである。 多くのタスクで最先端のパフォーマンスを達成するだけでなく、トレーニングや予測にも効率的です。 しかし、FNOのためのトレーニングデータを集めることは、しばしば高価な物理シミュレーションを必要とするため、実際はコストのかかるボトルネックとなる。 この問題を解決するために,FNO(MRA-FNO)の多解能動学習(MRA-FNO)を提案する。 具体的には,確率的多分解能FNOを提案し,モンテカルロのアンサンブルを用いて効果的な後部推論アルゴリズムを提案する。 能動的学習を実現するため,各ステップで新たな実例と解像度を取得するために,取得関数としてユーティリティコスト比を最大化する。 モーメントマッチングと行列行列式補題を用いて、トラクタブルで効率的なユーティリティ計算を実現する。 さらに,初期における高精細度クエリの過料金化を回避するために,コストアニールフレームワークを開発した。 低精細度クエリではアクティブな学習が定着し、性能が劣る。 本手法はこの問題を克服し,汎用多要素能動学習および最適化問題に適用する。 いくつかのベンチマーク演算子学習タスクにおいて,本手法の利点を示した。 コードはhttps://github.com/shib0li/MRA-FNOで公開されている。

Fourier Neural Operator (FNO) is a popular operator learning framework. It not only achieves the state-of-the-art performance in many tasks, but also is efficient in training and prediction. However, collecting training data for the FNO can be a costly bottleneck in practice, because it often demands expensive physical simulations. To overcome this problem, we propose Multi-Resolution Active learning of FNO (MRA-FNO), which can dynamically select the input functions and resolutions to lower the data cost as much as possible while optimizing the learning efficiency. Specifically, we propose a probabilistic multi-resolution FNO and use ensemble Monte-Carlo to develop an effective posterior inference algorithm. To conduct active learning, we maximize a utility-cost ratio as the acquisition function to acquire new examples and resolutions at each step. We use moment matching and the matrix determinant lemma to enable tractable, efficient utility computation. Furthermore, we develop a cost annealing framework to avoid over-penalizing high-resolution queries at the early stage. The over-penalization is severe when the cost difference is significant between the resolutions, which renders active learning often stuck at low-resolution queries and inferior performance. Our method overcomes this problem and applies to general multi-fidelity active learning and optimization problems. We have shown the advantage of our method in several benchmark operator learning tasks. The code is available at https://github.com/shib0li/MRA-FNO.
翻訳日:2024-04-01 20:36:47 公開日:2024-03-29
# PETA: パラメータ効率の良いトロイの木馬攻撃

PETA: Parameter-Efficient Trojan Attacks ( http://arxiv.org/abs/2310.00648v5 )

ライセンス: Link先を確認
Lauren Hong, Ting Wang, (参考訳) パラメータ効率のよい微調整(PEFT)により、事前訓練された言語モデル(PLM)を特定のタスクに効率的に適応させることができる。 PEFTは最小限のパラメータのみをチューニングすることで、標準的な微調整に匹敵するパフォーマンスを達成する。 しかし、広く使われているにもかかわらず、PEFTのセキュリティ上の意味はほとんど解明されていない。 本稿では,2レベル最適化による下流適応を考慮し,PLMの重みを損なう新しいトロイの木馬攻撃 PETA について述べる。上層目標がモデルにバックドアを埋め込む一方で,下層目標がPEFTをシミュレートしてPLMのタスク固有性能を維持し,微調整後にバックドアが持続することを保証する。 様々なダウンストリームタスクやトリガ設計に対する広範な評価により、攻撃者が被害者のトレーニングプロセスについて十分な知識を持っていない場合でも、攻撃の成功率とクリーンな精度の両方の観点から、PETAの有効性を実証する。

Parameter-efficient fine-tuning (PEFT) enables efficient adaptation of pre-trained language models (PLMs) to specific tasks. By tuning only a minimal set of (extra) parameters, PEFT achieves performance that is comparable to standard fine-tuning. However, despite its prevalent use, the security implications of PEFT remain largely unexplored. In this paper, we take the initial steps and present PETA, a novel trojan attack that compromises the weights of PLMs by accounting for downstream adaptation through bilevel optimization: the upper-level objective embeds the backdoor into a model while the lower-level objective simulates PEFT to both retain the PLM's task-specific performance and ensure that the backdoor persists after fine-tuning. With extensive evaluation across a variety of downstream tasks and trigger designs, we demonstrate PETA's effectiveness in terms of both attack success rate and clean accuracy, even when the attacker does not have full knowledge of the victim user's training process.
翻訳日:2024-04-01 20:36:47 公開日:2024-03-29
# 低エネルギーにおける量子力学の局所性境界

Locality bounds for quantum dynamics at low energy ( http://arxiv.org/abs/2310.02856v3 )

ライセンス: Link先を確認
Andrew Osborne, Chao Yin, Andrew Lucas, (参考訳) 空間的局所ハミルトニアンの低エネルギー密度状態における量子力学の一般的な減速について論じる。 単一粒子の量子ウォークから始めると、ハミルトニアンのある種のクラス(格子正規化$H\propto p^{2k}$)に対して、低エネルギーでの粒子運動の「バタフライ速度」は、次元解析から予想されるように、上界が$E^{(2k-1)/2k}$であることを示す。 これらの結果を一般化して、反発相互作用を持つ多体系における粒子の典型的な速度のバウンダリを得る。

We discuss the generic slowing down of quantum dynamics in low energy density states of spatially local Hamiltonians. Beginning with quantum walks of a single particle, we prove that for certain classes of Hamiltonians (deformations of lattice-regularized $H\propto p^{2k}$), the ``butterfly velocity" of particle motion at low energies has an upper bound that must scale as $E^{(2k-1)/2k}$, as expected from dimensional analysis. We generalize these results to obtain bounds on the typical velocities of particles in many-body systems with repulsive interactions, where for certain families of Hubbard-like models we obtain similar scaling.
翻訳日:2024-04-01 20:36:47 公開日:2024-03-29
# TacoGFN:構造型医薬品設計のためのターゲット条件付きGFlowNet

TacoGFN: Target-conditioned GFlowNet for Structure-based Drug Design ( http://arxiv.org/abs/2310.03223v4 )

ライセンス: Link先を確認
Tony Shen, Seonghwan Seo, Grayson Lee, Mohit Pandey, Jason R Smith, Artem Cherkasov, Woo Youn Kim, Martin Ester, (参考訳) タンパク質ポケットに高い結合親和性を持つ薬物や合成可能な分子の広大な化学領域を探索することは、薬物発見の難しい課題である。 近年、タンパク質構造に基づいて分子を直接生成することにより、網羅的な仮想スクリーニングよりも効率の高い分子深層生成モデルが導入された。 しかし、制限されたタンパク質-リガンド複合体データセットの分布を学習するため、既存の手法では大きな特性改善を伴う新規分子の生成に苦慮している。 本稿では, 生成タスクを強化学習タスクとみなし, このタスクの目的は, トレーニングデータ分布に適合するのではなく, 望ましい性質を持つ分子のより広い化学空間を探索することである。 具体的には,タンパク質ポケット構造を前提とした生成フローネットワークであるTacoGFNを提案する。 提案手法は分子特性(Vina score, QED, SA)のCrossDocked2020ベンチマークにおける最先端手法よりも優れ, 生成時間も大幅に向上した。 タコGFNは平均ドッキングスコアが8.82ドル、ノベル・ヒットレートが52.63セントである。

Searching the vast chemical space for drug-like and synthesizable molecules with high binding affinity to a protein pocket is a challenging task in drug discovery. Recently, molecular deep generative models have been introduced which promise to be more efficient than exhaustive virtual screening, by directly generating molecules based on the protein structure. However, since they learn the distribution of a limited protein-ligand complex dataset, the existing methods struggle with generating novel molecules with significant property improvements. In this paper, we frame the generation task as a Reinforcement Learning task, where the goal is to search the wider chemical space for molecules with desirable properties as opposed to fitting a training data distribution. More specifically, we propose TacoGFN, a Generative Flow Network conditioned on protein pocket structure, using binding affinity, drug-likeliness and synthesizability measures as our reward. Empirically, our method outperforms state-of-art methods on the CrossDocked2020 benchmark for every molecular property (Vina score, QED, SA), while significantly improving the generation time. TacoGFN achieves $-8.82$ in median docking score and $52.63\%$ in Novel Hit Rate.
翻訳日:2024-04-01 20:36:47 公開日:2024-03-29
# 言語モデルが拡散に勝る - Tokenizerがビジュアル生成の鍵

Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation ( http://arxiv.org/abs/2310.05737v3 )

ライセンス: Link先を確認
Lijun Yu, José Lezama, Nitesh B. Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Vighnesh Birodkar, Agrim Gupta, Xiuye Gu, Alexander G. Hauptmann, Boqing Gong, Ming-Hsuan Yang, Irfan Essa, David A. Ross, Lu Jiang, (参考訳) 大規模言語モデル(LLM)は、言語における生成タスクの主要なモデルであるが、画像やビデオ生成における拡散モデルと同様に、機能しない。 視覚生成にLLMを効果的に利用するためには、LLM学習に適した離散トークンに画素空間の入力をマッピングする視覚トークン化器が重要な要素である。 本稿では,ビデオと画像の両方に対して,共通トークン語彙を用いて簡潔かつ表現豊かなトークンを生成するために設計されたビデオトークン化ツールMAGVIT-v2を紹介する。 この新たなトークンを組み込んだLLMは、ImageNetやKineeticsなどの標準画像およびビデオ生成ベンチマークにおいて、拡散モデルよりも優れていることを示す。 さらに,1)人間の評価による次世代ビデオコーデック(VCC)に匹敵するビデオ圧縮,(2)行動認識タスクの効果的な表現の学習,という2つのタスクにおいて,従来のトップパフォーマンスビデオコンデンサを上回っていることを示す。

While Large Language Models (LLMs) are the dominant models for generative tasks in language, they do not perform as well as diffusion models on image and video generation. To effectively use LLMs for visual generation, one crucial component is the visual tokenizer that maps pixel-space inputs to discrete tokens appropriate for LLM learning. In this paper, we introduce MAGVIT-v2, a video tokenizer designed to generate concise and expressive tokens for both videos and images using a common token vocabulary. Equipped with this new tokenizer, we show that LLMs outperform diffusion models on standard image and video generation benchmarks including ImageNet and Kinetics. In addition, we demonstrate that our tokenizer surpasses the previously top-performing video tokenizer on two more tasks: (1) video compression comparable to the next-generation video codec (VCC) according to human evaluations, and (2) learning effective representations for action recognition tasks.
翻訳日:2024-04-01 20:27:00 公開日:2024-03-29
# テキストによる分解によるCLIPの画像表現の解釈

Interpreting CLIP's Image Representation via Text-Based Decomposition ( http://arxiv.org/abs/2310.05916v4 )

ライセンス: Link先を確認
Yossi Gandelsman, Alexei A. Efros, Jacob Steinhardt, (参考訳) CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。 個々のイメージパッチ,モデルレイヤ,アテンションヘッドにまたがる和として画像表現を分解し,CLIPのテキスト表現を用いて要約を解釈する。 注目ヘッドを解釈し、出力空間にまたがるテキスト表現を自動的に見つけ、多くのヘッド(例えば位置や形状)のプロパティ固有の役割を明らかにすることにより、各ヘッドの役割を特徴付ける。 次に、画像パッチを解釈し、CLIP内の創発的な空間的局在を明らかにする。 最後に、この理解を用いて、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成する。 以上の結果から,トランスモデルに対するスケーラブルな理解が実現可能であり,モデルの修復と改善に有効であることが示唆された。

We investigate the CLIP image encoder by analyzing how individual model components affect the final representation. We decompose the image representation as a sum across individual image patches, model layers, and attention heads, and use CLIP's text representation to interpret the summands. Interpreting the attention heads, we characterize each head's role by automatically finding text representations that span its output space, which reveals property-specific roles for many heads (e.g. location or shape). Next, interpreting the image patches, we uncover an emergent spatial localization within CLIP. Finally, we use this understanding to remove spurious features from CLIP and to create a strong zero-shot image segmenter. Our results indicate that a scalable understanding of transformer models is attainable and can be used to repair and improve models.
翻訳日:2024-04-01 20:26:59 公開日:2024-03-29
# GTA:多視点変圧器の幾何学的注意機構

GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers ( http://arxiv.org/abs/2310.10375v2 )

ライセンス: Link先を確認
Takeru Miyato, Bernhard Jaeger, Max Welling, Andreas Geiger, (参考訳) 変換器は入力トークンの置換に等しく、多くのタスクにはトークンの位置情報を符号化する必要がある。 しかしながら、既存の位置符号化方式は、当初、NLPタスク用に設計されていたため、一般的にデータに異なる構造特性を示す視覚タスクに適していることは疑問視される。 既存の位置符号化方式は、基礎となる3次元幾何学的構造を尊重しないため、3次元視覚課題に最適である。 この仮説に基づいて,クエリとキー-値ペア間の幾何学的関係から決定される相対変換としてトークンの幾何学的構造を符号化する幾何学的注意機構を提案する。 広視野多視点設定における複数新しいビュー合成(NVS)データセットの評価により,幾何学変換注意(Geometric Transform Attention, GTA)と呼ばれる,新たな学習パラメータや計算オーバーヘッドを伴わずに,最先端のトランスフォーマーベースNVSモデルの学習効率と性能の向上が示された。

As transformers are equivariant to the permutation of input tokens, encoding the positional information of tokens is necessary for many tasks. However, since existing positional encoding schemes have been initially designed for NLP tasks, their suitability for vision tasks, which typically exhibit different structural properties in their data, is questionable. We argue that existing positional encoding schemes are suboptimal for 3D vision tasks, as they do not respect their underlying 3D geometric structure. Based on this hypothesis, we propose a geometry-aware attention mechanism that encodes the geometric structure of tokens as relative transformation determined by the geometric relationship between queries and key-value pairs. By evaluating on multiple novel view synthesis (NVS) datasets in the sparse wide-baseline multi-view setting, we show that our attention, called Geometric Transform Attention (GTA), improves learning efficiency and performance of state-of-the-art transformer-based NVS models without any additional learned parameters and only minor computational overhead.
翻訳日:2024-04-01 20:26:59 公開日:2024-03-29
# ガウス混合モデル空間におけるグロモフ-ワッサーテイン様距離

Gromov-Wassertein-like Distances in the Gaussian Mixture Models Space ( http://arxiv.org/abs/2310.11256v2 )

ライセンス: Link先を確認
Antoine Salmona, Julie Delon, Agnès Desolneux, (参考訳) グロモフ=ワッサーシュタイン距離(Gromov-Wasserstein distance, GW)は、機械学習において、異なる距離空間の分布を比較するためにしばしば用いられる。 実用性にも拘わらず、特に大規模問題では計算集約的である。 近年、ガウス混合モデルに特化して、MW (mixture Wasserstein) として知られる新しいワッサーシュタイン距離が何人かの著者によって導入された。 データがクラスタリングを示す場合、このアプローチは、GMM内のガウス成分の数にのみ依存する小さな離散的な最適輸送問題に単純化する。 本稿では,新しいGromov型距離を導入することでMWの拡張を目指す。 これらの距離はユークリッド空間における等尺不変量として設計され、異なる次元空間におけるGMMの比較に適用できる。 私たちの最初の貢献はMixture Gromov Wasserstein distance (MGW)であり、MWのGromovized版と見なすことができる。 この新しい距離は直接離散的な定式化を持ち、実用的な応用においてGMM間の距離を推定するのに非常に効率的である。 GMM間の輸送計画の導出を容易にするため,2番目の距離,埋め込みワッサースタイン距離(EW)を提示する。 この距離は、グロモフ=ワッサーシュタインのいくつかの最近の代替と密接に関係していることが判明した。 EWは,GMM間の最適な輸送計画だけでなく,距離の導出にも適用可能であることを示す。 本稿では, 形状マッチングやハイパースペクトル画像色移動など, 中~大規模問題に対して, 新たに提案した距離の効率を実証する。

The Gromov-Wasserstein (GW) distance is frequently used in machine learning to compare distributions across distinct metric spaces. Despite its utility, it remains computationally intensive, especially for large-scale problems. Recently, a novel Wasserstein distance specifically tailored for Gaussian mixture models and known as MW (mixture Wasserstein) has been introduced by several authors. In scenarios where data exhibit clustering, this approach simplifies to a small-scale discrete optimal transport problem, which complexity depends solely on the number of Gaussian components in the GMMs. This paper aims to extend MW by introducing new Gromov-type distances. These distances are designed to be isometry-invariant in Euclidean spaces and are applicable for comparing GMMs across different dimensional spaces. Our first contribution is the Mixture Gromov Wasserstein distance (MGW), which can be viewed as a Gromovized version of MW. This new distance has a straightforward discrete formulation, making it highly efficient for estimating distances between GMMs in practical applications. To facilitate the derivation of a transport plan between GMMs, we present a second distance, the Embedded Wasserstein distance (EW). This distance turns out to be closely related to several recent alternatives to Gromov-Wasserstein. We show that EW can be adapted to derive a distance as well as optimal transportation plans between GMMs. We demonstrate the efficiency of these newly proposed distances on medium to large-scale problems, including shape matching and hyperspectral image color transfer.
翻訳日:2024-04-01 20:26:59 公開日:2024-03-29
# 会話型金融情報検索モデル(ConFIRM)

Conversational Financial Information Retrieval Model (ConFIRM) ( http://arxiv.org/abs/2310.13001v3 )

ライセンス: Link先を確認
Stephen Choi, William Gazeley, Siu Ho Wong, Tingting Li, (参考訳) 大規模言語モデル(LLM)の指数的な成長に伴い、金融メリット探索(英語版)のような専門分野の創発的特性を活用する。 しかし、金融などの規制された分野には独自の制約があり、ドメイン最適化フレームワークが必要である。 質問意図分類と知識ベースラベリングに適したLLMベースの対話型財務情報検索モデルであるConFIRMを提案する。 ConFIRMは,1)ドメイン固有の問合せペアを合成する手法,2)クエリ分類タスクのためのパラメータ効率の良い微調整手法の評価,の2つのモジュールから構成される。 4000以上のサンプルのデータセットを生成し、別のテストセットで精度を評価する。 ConFIRMは90%以上の精度を達成した。 ConFIRMは、財務ダイアログシステムのための厳密なクエリインテントを抽出する、データ効率のよいソリューションを提供する。

With the exponential growth in large language models (LLMs), leveraging their emergent properties for specialized domains like finance merits exploration. However, regulated fields such as finance pose unique constraints, requiring domain-optimized frameworks. We present ConFIRM, an LLM-based conversational financial information retrieval model tailored for query intent classification and knowledge base labeling. ConFIRM comprises two modules: 1) a method to synthesize finance domain-specific question-answer pairs, and 2) evaluation of parameter efficient fine-tuning approaches for the query classification task. We generate a dataset of over 4000 samples, assessing accuracy on a separate test set. ConFIRM achieved over 90% accuracy, essential for regulatory compliance. ConFIRM provides a data-efficient solution to extract precise query intent for financial dialog systems.
翻訳日:2024-04-01 20:26:59 公開日:2024-03-29
# 因果機械学習による政策評価における透明性の課題 -- ユーザビリティと説明責任の向上

Transparency challenges in policy evaluation with causal machine learning -- improving usability and accountability ( http://arxiv.org/abs/2310.13240v2 )

ライセンス: Link先を確認
Patrick Rehill, Nicholas Biddle, (参考訳) 因果機械学習ツールは、現実の政策評価タスクで治療効果を柔軟に見積もるために使われ始めている。 これらの手法の1つの問題は、使用される機械学習モデルが一般的にブラックボックスである、すなわち、モデルがどのように見積を行うかを理解するグローバルに解釈可能な方法がないことである。 これは、政策評価アプリケーション、特に政府において明らかな問題であり、証拠の正しい解釈に基づいて、そのようなモデルが公正な方法で機能しているかどうかを理解することは困難である。 しかし、因果的機械学習文学における透明性の問題と、それらが克服される可能性についてはほとんど議論されていない。 本稿では、公開政策評価アプリケーションにおいて、透明性の問題が因果機械学習の問題である理由を考察し、これらの問題に説明可能なAIツールや、解釈可能なAI原則に従ってモデルを簡単にすることで対処する方法を検討する。 次に、オーストラリアにおける学校退学年齢の仮定的変化に対する条件平均治療効果を推定するために、因果林モデルを用いたケーススタディにこれらのアイデアを適用した。 これは、ブラックボックス予測モデルを理解する既存のツールが因果機械学習には適していないことを示し、それを解釈できるようにモデルを単純化することで、(このアプリケーションでは)許容できないエラーの増加につながることを示している。 因果的機械学習モデルとそれらに適合するアルゴリズムを適切に理解するためには、新しいツールが必要である、と結論付けている。

Causal machine learning tools are beginning to see use in real-world policy evaluation tasks to flexibly estimate treatment effects. One issue with these methods is that the machine learning models used are generally black boxes, i.e., there is no globally interpretable way to understand how a model makes estimates. This is a clear problem in policy evaluation applications, particularly in government, because it is difficult to understand whether such models are functioning in ways that are fair, based on the correct interpretation of evidence and transparent enough to allow for accountability if things go wrong. However, there has been little discussion of transparency problems in the causal machine learning literature and how these might be overcome. This paper explores why transparency issues are a problem for causal machine learning in public policy evaluation applications and considers ways these problems might be addressed through explainable AI tools and by simplifying models in line with interpretable AI principles. It then applies these ideas to a case-study using a causal forest model to estimate conditional average treatment effects for a hypothetical change in the school leaving age in Australia. It shows that existing tools for understanding black-box predictive models are poorly suited to causal machine learning and that simplifying the model to make it interpretable leads to an unacceptable increase in error (in this application). It concludes that new tools are needed to properly understand causal machine learning models and the algorithms that fit them.
翻訳日:2024-04-01 20:26:59 公開日:2024-03-29
# LipSim: 知覚的類似性メトリクスはおそらくロバストなものだ

LipSim: A Provably Robust Perceptual Similarity Metric ( http://arxiv.org/abs/2310.18274v2 )

ライセンス: Link先を確認
Sara Ghazanfari, Alexandre Araujo, Prashanth Krishnamurthy, Farshad Khorrami, Siddharth Garg, (参考訳) 近年、知覚的類似度指標の開発と適用への関心が高まっている。 人間の知覚と整合し、人間の視覚システムのプロキシとして機能する上で、ピクセル単位のメトリクスよりも知覚的メトリクスの方が優れていることが研究で示されている。 一方、知覚的メトリクスはニューラルネットワークに依存しているため、ニューラルネットワークの敵攻撃に対する脆弱性が確立していることを考えると、そのレジリエンスに対する懸念が高まっている。 知覚的メトリクスがニューラルネットワークの長所と短所の両方を継承する可能性があると推測するのは理にかなっている。 本研究では,ViTをベースとした特徴抽出器のアンサンブルに基づく,最先端の知覚的類似度指標の脆弱性を実証する。 次に、証明可能な保証とともに、LipSim(Lipschitz similarity Metric)と呼ばれる堅牢な知覚類似度メトリックをトレーニングするためのフレームワークを提案する。 1-Lipschitzニューラルネットワークをバックボーンとして活用することにより、LipSimは各データポイント周辺の保護された領域と、$\ell_2$ボール内のすべての摂動の証明書を提供する。 最後に、実験の総合的なセットは、自然および認定されたスコアと画像検索アプリケーションにおけるLipSimの性能を示す。 コードはhttps://github.com/SaraGhazanfari/LipSimで入手できる。

Recent years have seen growing interest in developing and applying perceptual similarity metrics. Research has shown the superiority of perceptual metrics over pixel-wise metrics in aligning with human perception and serving as a proxy for the human visual system. On the other hand, as perceptual metrics rely on neural networks, there is a growing concern regarding their resilience, given the established vulnerability of neural networks to adversarial attacks. It is indeed logical to infer that perceptual metrics may inherit both the strengths and shortcomings of neural networks. In this work, we demonstrate the vulnerability of state-of-the-art perceptual similarity metrics based on an ensemble of ViT-based feature extractors to adversarial attacks. We then propose a framework to train a robust perceptual similarity metric called LipSim (Lipschitz Similarity Metric) with provable guarantees. By leveraging 1-Lipschitz neural networks as the backbone, LipSim provides guarded areas around each data point and certificates for all perturbations within an $\ell_2$ ball. Finally, a comprehensive set of experiments shows the performance of LipSim in terms of natural and certified scores and on the image retrieval application. The code is available at https://github.com/SaraGhazanfari/LipSim.
翻訳日:2024-04-01 20:26:59 公開日:2024-03-29
# LLMがリゾネーターを改良, 失敗から学ぶ

Learning From Mistakes Makes LLM Better Reasoner ( http://arxiv.org/abs/2310.20689v4 )

ライセンス: Link先を確認
Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, Weizhu Chen, (参考訳) 大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。 彼らの推論能力をさらに向上するために、この研究は、LLMが人間の学習プロセスに似たミストエイクス(LEMA)から学習できるかどうかを探求する。 数学の問題を解くのに失敗した人間の学生を考えてみれば、彼が犯した間違いとそれをどのように修正するかから学ぶだろう。 LEMAはこの誤り駆動学習プロセスを模倣し、微調整LDM中に誤り訂正データペアを組み込む。 具体的には、まずまず様々なLCMから不正確な推論経路を収集し、次にGPT-4を'corrector'として使用して、ミスステップを特定し、その原因を説明し、誤りを訂正し、最終的な答えを生成する。 さらに,修正データを生成するための質問セットを効果的に拡張する修正中心の進化戦略を適用した。 様々なLCM実験と推論タスクにより、LEMAはCoT-aloneファインチューニングを効果的に改善することが示された。 さらなる改善は、CoTデータと修正データとの間の不均一な有効性に光を当てた。 これらの結果から,LLMが誤りから学習することで改善する可能性が示唆された。 私たちのコード、モデル、プロンプトはhttps://github.com/microsoft/LEMA.comで公開されています。

Large language models (LLMs) recently exhibited remarkable reasoning capabilities on solving math problems. To further improve their reasoning capabilities, this work explores whether LLMs can LEarn from MistAkes (LEMA), akin to the human learning process. Consider a human student who failed to solve a math problem, he will learn from what mistake he has made and how to correct it. Mimicking this error-driven learning process, LEMA incorporates mistake-correction data pairs during fine-tuning LLMs. Specifically, we first collect inaccurate reasoning paths from various LLMs, and then employ GPT-4 as a ''corrector'' to identify the mistake step, explain the reason for the mistake, correct the mistake and generate the final answer. In addition, we apply a correction-centric evolution strategy that effectively expands the question set for generating correction data. Experiments across various LLMs and reasoning tasks show that LEMA effectively improves CoT-alone fine-tuning. Our further ablations shed light on the non-homogeneous effectiveness between CoT data and correction data. These results suggest a significant potential for LLMs to improve through learning from their mistakes. Our code, models and prompts are publicly available at https://github.com/microsoft/LEMA.
翻訳日:2024-04-01 20:26:59 公開日:2024-03-29
# 歩行者検出における言語依存型外見要素と視覚的手がかりの統合

Integrating Language-Derived Appearance Elements with Visual Cues in Pedestrian Detection ( http://arxiv.org/abs/2311.01025v2 )

ライセンス: Link先を確認
Sungjune Park, Hyunjun Kim, Yong Man Ro, (参考訳) 大規模言語モデル(LLM)は、インスタンスの外観に関する知識に関する文脈的および意味的な情報を理解する能力を示している。 本稿では,LLMの強みを利用した視覚モデル(以下,歩行者検出)にその知識を応用するための新しい手法を提案する。 歩行者検出は、安全(例えば、インテリジェントな運転システム)に直接関係する重要なタスクの1つと考えられているが、様々な場面で外観やポーズが異なるため、困難である。 そこで我々は,言語由来の外観要素を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。 この目的のために,歩行者や他の事例の様々な外観を記述した多数の物語を含む記述コーパスを確立する。 LLMを通してそれらを供給することにより、外観変化の表現を含む外観知識集合を抽出する。 その後、下流歩行者検知タスクに関連する代表的外観知識である外観要素を得るためのタスクプロンプト処理を行う。 得られた知識要素は、様々な検出フレームワークに適用可能であり、言語由来の外観要素と視覚的手がかりを検出器内に組み込むことで、豊富な外観情報を提供できる。 各種歩行者検知器を用いた総合的な実験を通じて,本手法の適応性と有効性を検証するとともに,2つの公共歩行者検出ベンチマーク(CrowdHumanとWiderPedestrian)における最先端検出性能を実現する。

Large language models (LLMs) have shown their capabilities in understanding contextual and semantic information regarding knowledge of instance appearances. In this paper, we introduce a novel approach to utilize the strengths of LLMs in understanding contextual appearance variations and to leverage this knowledge into a vision model (here, pedestrian detection). While pedestrian detection is considered one of the crucial tasks directly related to our safety (e.g., intelligent driving systems), it is challenging because of varying appearances and poses in diverse scenes. Therefore, we propose to formulate language-derived appearance elements and incorporate them with visual cues in pedestrian detection. To this end, we establish a description corpus that includes numerous narratives describing various appearances of pedestrians and other instances. By feeding them through an LLM, we extract appearance knowledge sets that contain the representations of appearance variations. Subsequently, we perform a task-prompting process to obtain appearance elements which are guided representative appearance knowledge relevant to a downstream pedestrian detection task. The obtained knowledge elements are adaptable to various detection frameworks, so that we can provide plentiful appearance information by integrating the language-derived appearance elements with visual cues within a detector. Through comprehensive experiments with various pedestrian detectors, we verify the adaptability and effectiveness of our method showing noticeable performance gains and achieving state-of-the-art detection performance on two public pedestrian detection benchmarks (i.e., CrowdHuman and WiderPedestrian).
翻訳日:2024-04-01 20:26:59 公開日:2024-03-29
# DialogBench: LLMを人間に似た対話システムとして評価する

DialogBench: Evaluating LLMs as Human-like Dialogue Systems ( http://arxiv.org/abs/2311.01677v2 )

ライセンス: Link先を確認
Jiao Ou, Junda Lu, Che Liu, Yihong Tang, Fuzheng Zhang, Di Zhang, Kun Gai, (参考訳) 大規模言語モデル(LLM)は,対話システムの人間の印象をリフレッシュする命令チューニングを活用することで,新たな対話機能において画期的なブレークスルーを実現している。 対話システムの長年の目標は、ユーザーとの長期的なつながりを確立するのに十分な人間のようなものである。 そのため,LLMを人間的な対話システムとして評価する必要性が高まっている。 本稿では,12の対話タスクを含む対話評価ベンチマークであるDialogBenchを提案する。 具体的には,各タスクに対する評価インスタンスを生成することをGPT-4に促す。 まず、広く使われている設計原則に基づいて基本的なプロンプトを設計し、既存のバイアスを緩和し、高品質な評価インスタンスを生成する。 26のLLMの英語と中国語のダイアログベンチに関する広範な試験では、指導指導はLLMの人間的類似性をある程度改善するが、ほとんどのLLMは人間のような対話システムとして改善の余地が残っている。 興味深いことに、アシスタントAIの位置付けは、LLMの人間の感情知覚と人間の日常生活に関する情報の習得を弱めることができる。

Large language models (LLMs) have achieved remarkable breakthroughs in new dialogue capabilities by leveraging instruction tuning, which refreshes human impressions of dialogue systems. The long-standing goal of dialogue systems is to be human-like enough to establish long-term connections with users. Therefore, there has been an urgent need to evaluate LLMs as human-like dialogue systems. In this paper, we propose DialogBench, a dialogue evaluation benchmark that contains 12 dialogue tasks to probe the capabilities of LLMs as human-like dialogue systems should have. Specifically, we prompt GPT-4 to generate evaluation instances for each task. We first design the basic prompt based on widely used design principles and further mitigate the existing biases to generate higher-quality evaluation instances. Our extensive tests on English and Chinese DialogBench of 26 LLMs show that instruction tuning improves the human likeness of LLMs to a certain extent, but most LLMs still have much room for improvement as human-like dialogue systems. Interestingly, results also show that the positioning of assistant AI can make instruction tuning weaken the human emotional perception of LLMs and their mastery of information about human daily life.
翻訳日:2024-04-01 20:26:59 公開日:2024-03-29
# FastLog: 効率的なロギングステートメントの生成と挿入を行うエンドツーエンドメソッド

FastLog: An End-to-End Method to Efficiently Generate and Insert Logging Statements ( http://arxiv.org/abs/2311.02862v2 )

ライセンス: Link先を確認
Xiaoyuan Xie, Zhipeng Cai, Songqiang Chen, Jifeng Xuan, (参考訳) ログは現代のソフトウェアシステムにおいて重要な役割を担い、開発者は将来のソフトウェア保守に不可欠な情報を記録できる手段となる。 これらのログベースのメンテナンスタスクのパフォーマンスはロギングステートメントの品質に大きく依存しているため、開発者が適切なロギングステートメントを書くのを支援するためにさまざまな作業が提案されている。 しかしながら、これらの作業は、このアクティビティ全体の部分的なサブタスクで開発者のみをサポートするか、比較的高いコストで実行するか、望ましくない修正を導入する可能性がある。 これらの制限に対処するために、我々はFastLogを提案する。これは、非常に高速な方法で、完全なロギングステートメントの生成と挿入アクティビティをサポートすることができる。 具体的には、プログラムメソッドが与えられた場合、FastLogはまず最も優れたトークンレベルの挿入位置を予測し、次に挿入する完全なロギングステートメントを生成する。 さらに、長い入力テキストに対してテキスト分割を使用して、ロギングステートメントを挿入する場所を予測する精度を向上させる。 総合的な実証分析により,本手法は効率と出力品質の両方において最先端の手法よりも優れており,現状のリアルタイム知的開発環境におけるその可能性と実用性を示している。

Logs play a crucial role in modern software systems, serving as a means for developers to record essential information for future software maintenance. As the performance of these log-based maintenance tasks heavily relies on the quality of logging statements, various works have been proposed to assist developers in writing appropriate logging statements. However, these works either only support developers in partial sub-tasks of this whole activity; or perform with a relatively high time cost and may introduce unwanted modifications. To address their limitations, we propose FastLog, which can support the complete logging statement generation and insertion activity, in a very speedy manner. Specifically, given a program method, FastLog first predicts the insertion position in the finest token level, and then generates a complete logging statement to insert. We further use text splitting for long input texts to improve the accuracy of predicting where to insert logging statements. A comprehensive empirical analysis shows that our method outperforms the state-of-the-art approach in both efficiency and output quality, which reveals its great potential and practicality in current real-time intelligent development environments.
翻訳日:2024-04-01 20:26:59 公開日:2024-03-29
# 負値を持つ雑音データに対する非負行列分解アルゴリズム

Algorithms for Non-Negative Matrix Factorization on Noisy Data With Negative Values ( http://arxiv.org/abs/2311.04855v2 )

ライセンス: Link先を確認
Dylan Green, Stephen Bailey, (参考訳) 非負行列因子化(Non- negative matrix factorization、NMF)は、ノイズデータ、特に天文学的なデータを分析することを約束する次元還元技術である。 これらのデータセットに対して、観測されたデータは、真の物理信号が厳密に正である場合でも、ノイズによる負の値を含むことができる。 NMFの以前の研究は、統計的に一貫した方法では陰性データを扱いておらず、多くの負の値を持つ低信号対雑音データでは問題となる。 本稿では、入力データのノイズと導入された負性の両方を扱えるShift-NMFとNearly-NMFの2つのアルゴリズムを提案する。 これらのアルゴリズムはどちらもクリッピングなしで負のデータ空間を使用し、クリッピング時に発生する正のオフセットを導入せずに非負の信号を正しく復元する。 単純な例とより現実的な例の両方でこれを数値的に示し、両方のアルゴリズムが単調に更新ルールを減らしていることを証明した。

Non-negative matrix factorization (NMF) is a dimensionality reduction technique that has shown promise for analyzing noisy data, especially astronomical data. For these datasets, the observed data may contain negative values due to noise even when the true underlying physical signal is strictly positive. Prior NMF work has not treated negative data in a statistically consistent manner, which becomes problematic for low signal-to-noise data with many negative values. In this paper we present two algorithms, Shift-NMF and Nearly-NMF, that can handle both the noisiness of the input data and also any introduced negativity. Both of these algorithms use the negative data space without clipping, and correctly recover non-negative signals without any introduced positive offset that occurs when clipping negative data. We demonstrate this numerically on both simple and more realistic examples, and prove that both algorithms have monotonically decreasing update rules.
翻訳日:2024-04-01 20:26:59 公開日:2024-03-29
# 並列サンプリングによる深部平衡拡散回復

Deep Equilibrium Diffusion Restoration with Parallel Sampling ( http://arxiv.org/abs/2311.11600v2 )

ライセンス: Link先を確認
Jiezhang Cao, Yue Shi, Kai Zhang, Yulun Zhang, Radu Timofte, Luc Van Gool, (参考訳) 拡散モデルに基づく画像復元(IR)は、拡散モデルを用いて劣化した画像から高品質な(本社)画像を復元し、有望な性能を達成することを目的としている。 拡散モデル固有の性質のため、既存のほとんどの手法では、HQイメージを段階的に復元するために長いシリアルサンプリングチェーンが必要であるため、高価なサンプリング時間と高い計算コストが生じる。 さらに、このような長いサンプリングチェーンは、チェーン全体の勾配を計算するのが難しいため、入力と復元結果の関係を理解するのを妨げている。 本研究では,拡散モデルに基づくIRモデルを異なる視点,すなわちDeqIRと呼ばれるDeQ(Deep equilibrium)固定点系で再考することを目的とする。 具体的には、これらのIRモデルにおけるサンプリングチェーン全体を連成多変量固定点系としてモデル化することにより、解析解を導出する。 解析解に基づいて、訓練なしで並列サンプリングを行い、本社画像の復元を行うことができる。 さらに、DECインバージョンによる高速勾配計算を行い、初期化最適化により画像品質が向上し、生成方向が制御できることを見出した。 ベンチマーク実験により,典型的なIRタスクや実環境設定における提案手法の有効性が示された。

Diffusion model-based image restoration (IR) aims to use diffusion models to recover high-quality (HQ) images from degraded images, achieving promising performance. Due to the inherent property of diffusion models, most existing methods need long serial sampling chains to restore HQ images step-by-step, resulting in expensive sampling time and high computation costs. Moreover, such long sampling chains hinder understanding the relationship between inputs and restoration results since it is hard to compute the gradients in the whole chains. In this work, we aim to rethink the diffusion model-based IR models through a different perspective, i.e., a deep equilibrium (DEQ) fixed point system, called DeqIR. Specifically, we derive an analytical solution by modeling the entire sampling chain in these IR models as a joint multivariate fixed point system. Based on the analytical solution, we can conduct parallel sampling and restore HQ images without training. Furthermore, we compute fast gradients via DEQ inversion and found that initialization optimization can boost image quality and control the generation direction. Extensive experiments on benchmarks demonstrate the effectiveness of our method on typical IR tasks and real-world settings.
翻訳日:2024-04-01 20:17:13 公開日:2024-03-29
# ディスクリプタと単語の相違: アウト・オブ・ディストリビューション・ファウショット学習におけるパラメータ効率の精度トレードオフを克服する

Descriptor and Word Soups: Overcoming the Parameter Efficiency Accuracy Tradeoff for Out-of-Distribution Few-shot Learning ( http://arxiv.org/abs/2311.13612v2 )

ライセンス: Link先を確認
Christopher Liao, Theodoros Tsiligkaridis, Brian Kulis, (参考訳) 過去1年間で、GPT記述子を用いたゼロショット評価を中心に、大規模なマルチモーダル研究が出現している。 これらの研究は、事前訓練されたVLモデルのゼロショット精度を、GPTによって生成されたラベル固有のテキストのアンサンブルで向上させる。 最近の研究であるWaffleCLIPは、同じゼロショット精度をランダムな記述子のアンサンブルで達成できることを示した。 しかし、両方のゼロショット法は訓練不可能であり、結果として数発のアウト・オブ・ディストリビューション(OOD)トレーニングデータが利用できる場合、サブ最適である。 これらの先行研究に触発されて、テスト時にLLMを必要としない記述子と単語スープという、より柔軟な2つの手法を提案し、OOD目標精度を向上させるためにトレーニングデータを活用することができる。 Descriptor soupは、ジェネリックな数ショットのトレーニングデータを使用して小さなテキスト記述子を選択し、選択した記述子を使って堅牢なクラス埋め込みを計算する。 単語のスープは、似たような方法で単語の連鎖を優雅に組み立てる。 既存の数発のソフトプロンプトチューニング手法と比較すると、ワードスープはバックプロパゲーションを必要としないため、構成によるパラメータの削減とGPUメモリの削減が要求される。 どちらのスープも、データセットとドメインの一般化ベンチマークにおいて、SoTAゼロショットメソッドと組み合わせても、現在の数ショットメソッドよりも優れています。 ProDAやWaffleCLIPのようなSoTAプロンプトやディスクリプタのアンサンブル手法と比較して、単語スープはアンサンブルメンバーが少なくて高いOOD精度を実現する。 コードをチェックしてください。github.com/Chris210634/word_soups

Over the past year, a large body of multimodal research has emerged around zero-shot evaluation using GPT descriptors. These studies boost the zero-shot accuracy of pretrained VL models with an ensemble of label-specific text generated by GPT. A recent study, WaffleCLIP, demonstrated that similar zero-shot accuracy can be achieved with an ensemble of random descriptors. However, both zero-shot methods are un-trainable and consequently sub-optimal when some few-shot out-of-distribution (OOD) training data is available. Inspired by these prior works, we present two more flexible methods called descriptor and word soups, which do not require an LLM at test time and can leverage training data to increase OOD target accuracy. Descriptor soup greedily selects a small set of textual descriptors using generic few-shot training data, then calculates robust class embeddings using the selected descriptors. Word soup greedily assembles a chain of words in a similar manner. Compared to existing few-shot soft prompt tuning methods, word soup requires fewer parameters by construction and less GPU memory, since it does not require backpropagation. Both soups outperform current published few-shot methods, even when combined with SoTA zero-shot methods, on cross-dataset and domain generalization benchmarks. Compared with SoTA prompt and descriptor ensembling methods, such as ProDA and WaffleCLIP, word soup achieves higher OOD accuracy with fewer ensemble members. Please checkout our code: github.com/Chris210634/word_soups
翻訳日:2024-04-01 20:17:13 公開日:2024-03-29
# SEGIC: インコンテキストセグメンテーションのための創発的対応を開放する

SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation ( http://arxiv.org/abs/2311.14671v2 )

ライセンス: Link先を確認
Lingchen Meng, Shiyi Lan, Hengduo Li, Jose M. Alvarez, Zuxuan Wu, Yu-Gang Jiang, (参考訳) インコンテキストセグメンテーション(In-context segmentation)は、いくつかのラベル付き例画像を用いて、サンプルとターゲットの間のコンテンツ類似性を探ることを目的としている。 得られたモデルは、新しいセグメンテーションタスクにシームレスに一般化することができ、従来のパイプラインと比較してラベル付けとトレーニングコストを大幅に削減できる。 しかし、コンテキスト内セグメンテーションは、モデルがいくつかのサンプルで条件付けられたセグメンテーションルールを学習する必要がある古典的セグメンテーションよりも難しい。 アドホックや非エンドツーエンドの設計と異なり、単一ビジョン基盤モデル(VFM)上に構築されたエンドツーエンドのセグメント・イン・コンテクストフレームワークであるSEGICを提案する。 特に、SEGICは、VFM内の創発的対応を利用して、ターゲット画像とコンテキスト内サンプル間の密接な関係をキャプチャする。 そのため、文脈内サンプルからの情報は幾何学的、視覚的、メタ的な3種類の命令に抽出され、最終的なマスク予測の明確な条件として機能する。 SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。 特に、SEGICは、ビデオオブジェクトのセグメンテーションやオープン語彙のセグメンテーションなど、様々なタスクに簡単に一般化できる。 コードはhttps://github.com/MengLcool/SEGICで入手できる。

In-context segmentation aims at segmenting novel images using a few labeled example images, termed as "in-context examples", exploring content similarities between examples and the target. The resulting models can be generalized seamlessly to novel segmentation tasks, significantly reducing the labeling and training costs compared with conventional pipelines. However, in-context segmentation is more challenging than classic ones requiring the model to learn segmentation rules conditioned on a few samples. Unlike previous work with ad-hoc or non-end-to-end designs, we propose SEGIC, an end-to-end segment-in-context framework built upon a single vision foundation model (VFM). In particular, SEGIC leverages the emergent correspondence within VFM to capture dense relationships between target images and in-context samples. As such, information from in-context samples is then extracted into three types of instructions, i.e. geometric, visual, and meta instructions, serving as explicit conditions for the final mask prediction. SEGIC is a straightforward yet effective approach that yields state-of-the-art performance on one-shot segmentation benchmarks. Notably, SEGIC can be easily generalized to diverse tasks, including video object segmentation and open-vocabulary segmentation. Code will be available at https://github.com/MengLcool/SEGIC.
翻訳日:2024-04-01 20:17:13 公開日:2024-03-29
# SAR ATRの自己監督型学習と統合組込み予測アーキテクチャ

Predicting Gradient is Better: Exploring Self-Supervised Learning for SAR ATR with a Joint-Embedding Predictive Architecture ( http://arxiv.org/abs/2311.15153v4 )

ライセンス: Link先を確認
Weijie Li, Yang Wei, Tianpeng Liu, Yuenan Hou, Yuxuan Li, Zhen Liu, Yongxiang Liu, Li Liu, (参考訳) 成長するSAR(Synthetic Aperture Radar)データには,SAR自動ターゲット認識(ATR)タスクを大規模未ラベルデータで事前学習し,小さなラベル付きサンプルで微調整することで,自己監視学習(SSL)手法による基礎モデル構築の可能性がある。 SSLはデータから直接監視信号を構築することを目的としており、これは高価な専門家アノテーションの必要性を最小限に抑え、基礎的なモデルのために拡張データプールの使用を最大化する。 本研究では,SAR ATRの基盤モデル構築に有効なSSL方式について検討した。 SAR ATRのSSLで直面する主な障害は、SSLアプローチと信号に対応する、SAR画像のリモートセンシングとスペックルノイズの小さなターゲットである。 これらの課題を克服するために,SAR ATR (SAR-JEPA) のための新しい統合埋め込み予測アーキテクチャを提案する。 SAR-JEPAのキーとなる側面は、SARドメイン機能を統合して、高品質な自己監視シグナルをターゲットとして確保することだ。 さらに、リモートセンシングにおいて、様々な小さなターゲットに対応するために、ローカルマスクとマルチスケール特徴を用いる。 3つの目標認識データセット(車両、船舶、航空機)のフレームワークを事前トレーニングとして微調整し、評価することにより、他のSSLメソッドよりも優れた性能を示し、SARデータの増加による有効性を示す。 本研究は,多種多様なターゲット,シーン,センサにわたるSARターゲット認識におけるSSLの可能性を示す。

The growing Synthetic Aperture Radar (SAR) data has the potential to build a foundation model through Self-Supervised Learning (SSL) methods, which can achieve various SAR Automatic Target Recognition (ATR) tasks with pre-training in large-scale unlabeled data and fine-tuning in small labeled samples. SSL aims to construct supervision signals directly from the data, which minimizes the need for expensive expert annotation and maximizes the use of the expanding data pool for a foundational model. This study investigates an effective SSL method for SAR ATR, which can pave the way for a foundation model in SAR ATR. The primary obstacles faced in SSL for SAR ATR are the small targets in remote sensing and speckle noise in SAR images, corresponding to the SSL approach and signals. To overcome these challenges, we present a novel Joint-Embedding Predictive Architecture for SAR ATR (SAR-JEPA), which leverages local masked patches to predict the multi-scale SAR gradient representations of unseen context. The key aspect of SAR-JEPA is integrating SAR domain features to ensure high-quality self-supervised signals as target features. Besides, we employ local masks and multi-scale features to accommodate the various small targets in remote sensing. By fine-tuning and evaluating our framework on three target recognition datasets (vehicle, ship, and aircraft) with four other datasets as pre-training, we demonstrate its outperformance over other SSL methods and its effectiveness with increasing SAR data. This study showcases the potential of SSL for SAR target recognition across diverse targets, scenes, and sensors.
翻訳日:2024-04-01 20:17:13 公開日:2024-03-29
# ビデオオブジェクト追跡のための単一モデルと任意のモダリティ

Single-Model and Any-Modality for Video Object Tracking ( http://arxiv.org/abs/2311.15851v3 )

ライセンス: Link先を確認
Zongwei Wu, Jilai Zheng, Xiangxuan Ren, Florin-Alexandru Vasluianu, Chao Ma, Danda Pani Paudel, Luc Van Gool, Radu Timofte, (参考訳) ビデオオブジェクト追跡の分野では、RGBトラッカーを補完する貴重な資産として、深度、熱、イベントデータなどの補助的なモダリティが出現している。 実際には、既存のRGBトラッカーのほとんどは、データセットとアプリケーション間でそれらを使用するためのパラメータセットを1セット学習している。 しかし、類似したマルチモーダリティ追跡のための単一モデル統一はいくつかの課題を呈している。 これらの課題は、入力の固有の不均一性、それぞれがモダリティ固有の表現、マルチモーダルデータセットの不足、そして常にすべてのモダリティが欠如していることに起因している。 本研究では,任意のモダリティに対するパラメータセットの統一トラッカーUn-Trackを紹介する。 任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。 さらに重要なのは、RGB-Xペアのみを使用して、一般的な潜在空間を学習することです。 このユニークな共有表現は、すべてのモダリティをシームレスに結合し、効率的な統一と、欠落したモダリティの調整を可能にする。 我々のUn-Trackは2.14(21.50以上)のGFLOPと+6.6M(93M以上)のパラメータのみを導入し、DepthTrackデータセットで+8.1絶対Fスコアゲインを達成した。 異なるモダリティを持つ5つのベンチマークデータセットの大規模な比較は、Un-TrackがSOTA統合トラッカーとモダリティ固有のトラッカーの両方を上回り、我々の有効性と実用性を検証していることを示している。 ソースコードはhttps://github.com/Zongwei97/UnTrack.comで公開されている。

In the realm of video object tracking, auxiliary modalities such as depth, thermal, or event data have emerged as valuable assets to complement the RGB trackers. In practice, most existing RGB trackers learn a single set of parameters to use them across datasets and applications. However, a similar single-model unification for multi-modality tracking presents several challenges. These challenges stem from the inherent heterogeneity of inputs -- each with modality-specific representations, the scarcity of multi-modal datasets, and the absence of all the modalities at all times. In this work, we introduce Un-Track, a Unified Tracker of a single set of parameters for any modality. To handle any modality, our method learns their common latent space through low-rank factorization and reconstruction techniques. More importantly, we use only the RGB-X pairs to learn the common latent space. This unique shared representation seamlessly binds all modalities together, enabling effective unification and accommodating any missing modality, all within a single transformer-based architecture. Our Un-Track achieves +8.1 absolute F-score gain, on the DepthTrack dataset, by introducing only +2.14 (over 21.50) GFLOPs with +6.6M (over 93M) parameters, through a simple yet efficient prompting strategy. Extensive comparisons on five benchmark datasets with different modalities show that Un-Track surpasses both SOTA unified trackers and modality-specific counterparts, validating our effectiveness and practicality. The source code is publicly available at https://github.com/Zongwei97/UnTrack.
翻訳日:2024-04-01 20:17:13 公開日:2024-03-29
# パラレルテキストワールドからLLMを訓練したマルチモーダルエージェント

Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld ( http://arxiv.org/abs/2311.16714v2 )

ライセンス: Link先を確認
Yijun Yang, Tianyi Zhou, Kanxue Li, Dapeng Tao, Lusong Li, Li Shen, Xiaodong He, Jing Jiang, Yuhui Shi, (参考訳) 大きな言語モデル(LLM)は、シミュレーションされたテキストの世界において優れているが、視覚や音声信号などの他のモダリティを認識せずに、より現実的な世界と対話するのに苦労する。 視覚言語モデル(VLM)は,(1)静的な画像特徴に整合したLLMモジュールと,(2)世界力学の事前知識(テキストの世界で実証されているように)を統合しているが,それらが具現化された視覚世界において訓練されていないため,その力学と整合することができない。 一方,ノイズの多い視覚的世界において,専門家による指導を伴わないエンボディエージェントの訓練は,しばしば困難で非効率である。 本稿では,並列テキストの世界において優れたLDMエージェントを用いて,視覚の世界に住むVLMエージェントを訓練する。 具体的には、テキストワールドのタスクにおいてLLMの反射結果(誤りを分析して改善された動作)を蒸留し、視覚世界の同じタスクでVLMを微調整し、視覚世界のダイナミクスに迅速に適応するEmbodied Multi-Modal Agent(EMMA)を実現する。 この2つの並列世界の相互模倣学習は、新しいDAgger-DPOアルゴリズムによって実現され、EMMAはLLMの専門家の指導なしに、新しいタスクの幅広い範囲に一般化することができる。 ALFWorldベンチマークの多種多様なタスクに対する広範囲な評価は、EMMAがSOTA VLMベースのエージェントよりも優れており、成功率の20%-70%が改善されている。

While large language models (LLMs) excel in a simulated world of texts, they struggle to interact with the more realistic world without perceptions of other modalities such as visual or audio signals. Although vision-language models (VLMs) integrate LLM modules (1) aligned with static image features, and (2) may possess prior knowledge of world dynamics (as demonstrated in the text world), they have not been trained in an embodied visual world and thus cannot align with its dynamics. On the other hand, training an embodied agent in a noisy visual world without expert guidance is often challenging and inefficient. In this paper, we train a VLM agent living in a visual world using an LLM agent excelling in a parallel text world. Specifically, we distill LLM's reflection outcomes (improved actions by analyzing mistakes) in a text world's tasks to finetune the VLM on the same tasks of the visual world, resulting in an Embodied Multi-Modal Agent (EMMA) quickly adapting to the visual world dynamics. Such cross-modality imitation learning between the two parallel worlds is achieved by a novel DAgger-DPO algorithm, enabling EMMA to generalize to a broad scope of new tasks without any further guidance from the LLM expert. Extensive evaluations on the ALFWorld benchmark's diverse tasks highlight EMMA's superior performance to SOTA VLM-based agents, e.g., 20%-70% improvement in the success rate.
翻訳日:2024-04-01 20:17:13 公開日:2024-03-29
# オフザシェルフビジョンランゲージモデルからの創発的開語彙セマンティックセマンティックセグメンテーション

Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models ( http://arxiv.org/abs/2311.17095v2 )

ライセンス: Link先を確認
Jiayun Luo, Siddhesh Khandelwal, Leonid Sigal, Boyang Li, (参考訳) 画像テキストペアから、大規模視覚言語モデル(VLM)は、画像領域と単語を暗黙的に関連付けることを学習し、視覚的質問応答のようなタスクに有効である。 しかし、学習した関連をオープン語彙のセマンティックセグメンテーションに活用することは依然として課題である。 本稿では,PnP-OVSS(Plug-and-Play Open-Vocabulary Semantic Segmentation)を提案する。 PnP-OVSSは、直接テキスト対イメージのクロスアテンションと画像-テキストマッチング損失を備えたVLMを利用する。 過偏差と過偏差のバランスをとるために、Salience Dropoutを導入し、モデルが最も注意すべきパッチを反復的にドロップすることで、セグメンテーションマスクの全範囲をよりよく解決する。 \shortname{}はニューラルネットワークのトレーニングを一切必要とせず、検証セットであってもセグメンテーションアノテーションを必要とせずにハイパーパラメータチューニングを実行する。 PnP-OVSSは、同等のベースライン(Pascal VOCでは+29.4% mIoU、Pascal Contextでは+13.2% mIoU、MS COCOでは+14.0% mIoU、ADE-20K.では+11.4% mIoU)よりも大幅に改善され、事前訓練されたVLM上で追加のネットワークトレーニングを行うほとんどのベースラインよりも優れていた。 私たちのコードベースはhttps://github.com/letitiabanana/PnP-OVSSにあります。

From image-text pairs, large-scale vision-language models (VLMs) learn to implicitly associate image regions with words, which prove effective for tasks like visual question answering. However, leveraging the learned association for open-vocabulary semantic segmentation remains a challenge. In this paper, we propose a simple, yet extremely effective, training-free technique, Plug-and-Play Open-Vocabulary Semantic Segmentation (PnP-OVSS) for this task. PnP-OVSS leverages a VLM with direct text-to-image cross-attention and an image-text matching loss. To balance between over-segmentation and under-segmentation, we introduce Salience Dropout; by iteratively dropping patches that the model is most attentive to, we are able to better resolve the entire extent of the segmentation mask. \shortname{} does not require any neural network training and performs hyperparameter tuning without the need for any segmentation annotations, even for a validation set. PnP-OVSS demonstrates substantial improvements over comparable baselines (+29.4% mIoU on Pascal VOC, +13.2% mIoU on Pascal Context, +14.0% mIoU on MS COCO, and +11.4% mIoU on ADE-20K.) and even outperforms most baselines that conduct additional network training on top of pretrained VLMs. Our codebase is at https://github.com/letitiabanana/PnP-OVSS.
翻訳日:2024-04-01 20:17:13 公開日:2024-03-29
# TransNeXt: 視覚変換器のロバストな視覚知覚

TransNeXt: Robust Foveal Visual Perception for Vision Transformers ( http://arxiv.org/abs/2311.17132v2 )

ライセンス: Link先を確認
Dai Shi, (参考訳) 残差接続における深度劣化効果のため、情報交換のために積み重ね層に依存する多くの効率的なビジョントランスフォーマーモデルでは、十分な情報混合が得られず、不自然な視覚知覚に繋がる。 本稿では,生物の眼球運動と眼球運動をシミュレートするバイオミメティックデザインに基づくトークンミキサーAggregated Attentionを提案する。 さらに、従来のクエリやキーと相互作用する学習可能なトークンを組み込み、クエリとキーの類似性に依存するだけでなく、アフィニティ行列の生成も多様化する。 本手法では,情報交換の積み重ねに頼らず,奥行き劣化を効果的に回避し,自然な視覚知覚を実現する。 さらに,GLUとSEのギャップを埋めるチャネルミキサーであるConvolutional GLUを提案する。 集約された注意と畳み込みGLUを組み合わせて、TransNeXtと呼ばれる新しいビジュアルバックボーンを作成します。 大規模な実験により、TransNeXtは複数のモデルサイズにまたがって最先端のパフォーマンスを実現することが実証された。 224^2$の解像度で、TransNeXt-Tinyはイメージネットの精度84.0%に達し、69%のパラメータでConvNeXt-Bを上回った。 TransNeXt-Base は ImageNet の精度86.2%、ImageNet-A の精度61.6%を384^2$、COCO オブジェクト検出 mAP 57.1、ADE20K セマンティックセグメンテーション mIoU 54.7 で達成している。

Due to the depth degradation effect in residual connections, many efficient Vision Transformers models that rely on stacking layers for information exchange often fail to form sufficient information mixing, leading to unnatural visual perception. To address this issue, in this paper, we propose Aggregated Attention, a biomimetic design-based token mixer that simulates biological foveal vision and continuous eye movement while enabling each token on the feature map to have a global perception. Furthermore, we incorporate learnable tokens that interact with conventional queries and keys, which further diversifies the generation of affinity matrices beyond merely relying on the similarity between queries and keys. Our approach does not rely on stacking for information exchange, thus effectively avoiding depth degradation and achieving natural visual perception. Additionally, we propose Convolutional GLU, a channel mixer that bridges the gap between GLU and SE mechanism, which empowers each token to have channel attention based on its nearest neighbor image features, enhancing local modeling capability and model robustness. We combine aggregated attention and convolutional GLU to create a new visual backbone called TransNeXt. Extensive experiments demonstrate that our TransNeXt achieves state-of-the-art performance across multiple model sizes. At a resolution of $224^2$, TransNeXt-Tiny attains an ImageNet accuracy of 84.0%, surpassing ConvNeXt-B with 69% fewer parameters. Our TransNeXt-Base achieves an ImageNet accuracy of 86.2% and an ImageNet-A accuracy of 61.6% at a resolution of $384^2$, a COCO object detection mAP of 57.1, and an ADE20K semantic segmentation mIoU of 54.7.
翻訳日:2024-04-01 20:17:13 公開日:2024-03-29
# LightGaussian:15倍の圧縮と200以上のFPSを備えた3Dガウス圧縮

LightGaussian: Unbounded 3D Gaussian Compression with 15x Reduction and 200+ FPS ( http://arxiv.org/abs/2311.17245v5 )

ライセンス: Link先を確認
Zhiwen Fan, Kevin Wang, Kairun Wen, Zehao Zhu, Dejia Xu, Zhangyang Wang, (参考訳) ポイントベース技術を用いたリアルタイムニューラルレンダリングの最近の進歩は、3D表現の普及の道を開いた。 しかし、3D Gaussian Splattingのような基本的なアプローチは、SfMポイントを数百万に拡大し、単一の無制限シーンに対してギガバイトレベルのディスクスペースを必要とすることがあり、大きなスケーラビリティ上の課題を生じさせ、スティング効率を妨げている。 この課題に対処するために、我々は3Dガウスをより効率的でコンパクトなフォーマットに変換するために設計された新しい方法であるLightGaussianを紹介する。 ネットワーク・プルーニング(Network Pruning)の概念から着想を得たLightGaussianは、シーンの再構築にはあまり貢献していないガウス人を識別し、プルーニングとリカバリのプロセスを採用し、視覚効果を保ちながらガウス数の冗長性を効果的に減少させる。 さらに、LightGaussianは、蒸留と擬似ビュー拡張を使用して球面調和を低い程度に蒸留し、反射性を維持しながらよりコンパクトな表現への知識伝達を可能にする。 さらに,全ての属性を量子化するハイブリッド方式であるVecTree Quantizationを提案する。 要約すると、LightGaussian は FPS を 139 から 215 に向上させ、Mip-NeRF 360, Tank と Temple のデータセット上の複雑なシーンの効率的な表現を可能にした。 プロジェクトサイト:https://lightgaussian.github.io/

Recent advancements in real-time neural rendering using point-based techniques have paved the way for the widespread adoption of 3D representations. However, foundational approaches like 3D Gaussian Splatting come with a substantial storage overhead caused by growing the SfM points to millions, often demanding gigabyte-level disk space for a single unbounded scene, posing significant scalability challenges and hindering the splatting efficiency. To address this challenge, we introduce LightGaussian, a novel method designed to transform 3D Gaussians into a more efficient and compact format. Drawing inspiration from the concept of Network Pruning, LightGaussian identifies Gaussians that are insignificant in contributing to the scene reconstruction and adopts a pruning and recovery process, effectively reducing redundancy in Gaussian counts while preserving visual effects. Additionally, LightGaussian employs distillation and pseudo-view augmentation to distill spherical harmonics to a lower degree, allowing knowledge transfer to more compact representations while maintaining reflectance. Furthermore, we propose a hybrid scheme, VecTree Quantization, to quantize all attributes, resulting in lower bitwidth representations with minimal accuracy losses. In summary, LightGaussian achieves an averaged compression rate over 15x while boosting the FPS from 139 to 215, enabling an efficient representation of complex scenes on Mip-NeRF 360, Tank and Temple datasets. Project website: https://lightgaussian.github.io/
翻訳日:2024-04-01 20:17:12 公開日:2024-03-29
# SPOT:自己回帰変換器を用いた物体中心学習のためのパッチ順変換による自己学習

SPOT: Self-Training with Patch-Order Permutation for Object-Centric Learning with Autoregressive Transformers ( http://arxiv.org/abs/2312.00648v2 )

ライセンス: Link先を確認
Ioannis Kakogeorgiou, Spyros Gidaris, Konstantinos Karantzalos, Nikos Komodakis, (参考訳) 教師なしのオブジェクト中心学習は、シーンを解釈可能なオブジェクトエンティティ(スロット)に分解することを目的としている。 Slotベースのオートエンコーダは、このタスクの顕著な方法である。 それらの重要な側面には、エンコーダにオブジェクト固有のスロットを生成するよう誘導すること、デコーダが再構築時にそれらを利用するようにすることが含まれる。 この作品には2つの新しいテクニックが紹介されている。 一 デコーダからエンコーダに優れたスロットベースのアテンションマスクを蒸留し、オブジェクトセグメンテーションを強化するアテンションベースのセルフトレーニングアプローチ (II) 自己回帰変換器の革新的なパッチ順置換戦略により, 再構成におけるスロットベクトルの役割が強化される。 これらの戦略の有効性を実験的に示す。 この組み合わせアプローチは、特に複雑な実世界の画像において、教師なしオブジェクトセグメンテーションにおいて、以前のスロットベースのオートエンコーダ手法を大幅に上回っている。 実装コードはhttps://github.com/gkakogeorgiou/spot で公開しています。

Unsupervised object-centric learning aims to decompose scenes into interpretable object entities, termed slots. Slot-based auto-encoders stand out as a prominent method for this task. Within them, crucial aspects include guiding the encoder to generate object-specific slots and ensuring the decoder utilizes them during reconstruction. This work introduces two novel techniques, (i) an attention-based self-training approach, which distills superior slot-based attention masks from the decoder to the encoder, enhancing object segmentation, and (ii) an innovative patch-order permutation strategy for autoregressive transformers that strengthens the role of slot vectors in reconstruction. The effectiveness of these strategies is showcased experimentally. The combined approach significantly surpasses prior slot-based autoencoder methods in unsupervised object segmentation, especially with complex real-world images. We provide the implementation code at https://github.com/gkakogeorgiou/spot .
翻訳日:2024-04-01 20:17:12 公開日:2024-03-29
# RNb-NeuS:反射率と正規化によるマルチビュー3D再構成

RNb-NeuS: Reflectance and Normal-based Multi-View 3D Reconstruction ( http://arxiv.org/abs/2312.01215v2 )

ライセンス: Link先を確認
Baptiste Brument, Robin Bruneau, Yvain Quéau, Jean Mélou, François Bernard Lauze, Jean-Denis, Jean-Denis Durou, Lilian Calvet, (参考訳) 本稿では、多視点反射率(オプション)と測光ステレオで得られる正規写像を統合するための多目的パラダイムを提案する。 提案手法では, 反射率と正規度を画素ワイドで再パラメータ化し, 放射光のベクトルとして, 反射率と正規度をシミュレートし, 異なる照明条件下での放射光のベクトルとして検討する。 この再パラメータ化により、単一の最適化目標を維持しながら、ニューラルボリュームレンダリングに基づく3D再構成における入力データとしての反射率と正規マップのシームレスな統合が可能となる。 対照的に、最近の多視点測光ステレオ(MVPS)法は、複数の、潜在的に矛盾する目的に依存している。 その明らかな単純さにもかかわらず、提案手法は、Fスコア、チャンファー距離、平均角誤差メトリクスにわたってMVPSベンチマークにおける最先端のアプローチよりも優れている。 特に、高い曲率または視界の低い領域の詳細な3D再構成を大幅に改善する。

This paper introduces a versatile paradigm for integrating multi-view reflectance (optional) and normal maps acquired through photometric stereo. Our approach employs a pixel-wise joint re-parameterization of reflectance and normal, considering them as a vector of radiances rendered under simulated, varying illumination. This re-parameterization enables the seamless integration of reflectance and normal maps as input data in neural volume rendering-based 3D reconstruction while preserving a single optimization objective. In contrast, recent multi-view photometric stereo (MVPS) methods depend on multiple, potentially conflicting objectives. Despite its apparent simplicity, our proposed approach outperforms state-of-the-art approaches in MVPS benchmarks across F-score, Chamfer distance, and mean angular error metrics. Notably, it significantly improves the detailed 3D reconstruction of areas with high curvature or low visibility.
翻訳日:2024-04-01 20:17:12 公開日:2024-03-29
# FlashAvatar:効率的なガウスの埋め込み機能を備えた高忠実なヘッドアバター

FlashAvatar: High-fidelity Head Avatar with Efficient Gaussian Embedding ( http://arxiv.org/abs/2312.02214v2 )

ライセンス: Link先を確認
Jun Xiang, Xuan Gao, Yudong Guo, Juyong Zhang, (参考訳) 我々は,高速で軽量な3Dアニマタブルなアバター表現であるFlashAvatarを提案する。これは,短い単眼ビデオシーケンスから数分でデジタルアバターを再構築し,300FPSの高忠実なフォトリアリスティック画像をコンシューマグレードのGPU上でレンダリングする。 これを実現するために、パラメトリック顔モデルの表面に埋め込まれた均一な3次元ガウス場を維持し、非表面領域と微妙な顔の詳細をモデル化するための余分な空間オフセットを学習する。 幾何学的事前の完全な使用は、高周波の顔の詳細をキャプチャし、誇張された表現を保存できるが、適切な初期化はガウスの数を減らし、超高速なレンダリング速度を可能にする。 大規模な実験結果から、FlashAvatarは視覚的品質とパーソナライズされた詳細に関する既存の作品よりも優れており、レンダリング速度はおよそ1桁高速であることが示された。 プロジェクトページ: https://ustc3dv.github.io/FlashAvatar/

We propose FlashAvatar, a novel and lightweight 3D animatable avatar representation that could reconstruct a digital avatar from a short monocular video sequence in minutes and render high-fidelity photo-realistic images at 300FPS on a consumer-grade GPU. To achieve this, we maintain a uniform 3D Gaussian field embedded in the surface of a parametric face model and learn extra spatial offset to model non-surface regions and subtle facial details. While full use of geometric priors can capture high-frequency facial details and preserve exaggerated expressions, proper initialization can help reduce the number of Gaussians, thus enabling super-fast rendering speed. Extensive experimental results demonstrate that FlashAvatar outperforms existing works regarding visual quality and personalized details and is almost an order of magnitude faster in rendering speed. Project page: https://ustc3dv.github.io/FlashAvatar/
翻訳日:2024-04-01 20:17:12 公開日:2024-03-29
# DragVideo:インタラクティブなドラッグスタイルのビデオ編集

DragVideo: Interactive Drag-style Video Editing ( http://arxiv.org/abs/2312.02216v2 )

ライセンス: Link先を確認
Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang, (参考訳) ビデオ生成モデルは、フォトリアリスティックなビデオを生成する優れた能力を示している。 しかし、ビデオを正確にコントロール(あるいは編集)する方法は、まだまだ難しい課題だ。 主な問題は次のとおりである。 1) 編集における直接的かつ正確なユーザコントロールの実施方法 2 形態、表現、レイアウトの変更等の編集を、目立たない歪みや編集内容のアーティファクトなしに行う方法。 3)編集後のビデオの時空間整合性を維持する方法。 以上の課題に対処するため,一般的なドラッグスタイルのビデオ編集フレームワークであるDragVideoを提案する。 DragGANにインスパイアされたDragVideoは問題に対処する 1)と 2) ドラッグ・スタイルの遅延最適化手法を提案し, ドラッグ・レベル・ドラッグ・オブジェクト・ファンクションを通したドラッグ・インストラクションに従ってノイズの多いビデオ・レイトを更新し, 所望の制御を行う。 We amend issue 3) ビデオ拡散モデルとサンプル特異的なLoRAとDragVideoの相互自己認識を組み合わせることで, 編集結果の時空間的整合性を確保する。 また、ドラッグスタイルのビデオ編集や、モーションやスケルトン編集など、さまざまな困難な編集タスクにわたる広範な実験、DragVideoのアンダースコーリングなど、ユーザの意図に忠実で、ほとんど目立たない歪みやアーティファクトを伴って、ビデオの編集を直感的に行うための一連のテスト例を提示する。 従来のプロンプトベースのビデオ編集では以前の2回は行われず、画像ドラッグの編集を直接適用しても最後には失敗するが、DragVideoの汎用性と汎用性が強調されている。 Githubのリンク:https://github.com/RickySkywalker/DragVideo-Official.com

Video generation models have shown their superior ability to generate photo-realistic video. However, how to accurately control (or edit) the video remains a formidable challenge. The main issues are: 1) how to perform direct and accurate user control in editing; 2) how to execute editings like changing shape, expression, and layout without unsightly distortion and artifacts to the edited content; and 3) how to maintain spatio-temporal consistency of video after editing. To address the above issues, we propose DragVideo, a general drag-style video editing framework. Inspired by DragGAN, DragVideo addresses issues 1) and 2) by proposing the drag-style video latent optimization method which gives desired control by updating noisy video latent according to drag instructions through video-level drag objective function. We amend issue 3) by integrating the video diffusion model with sample-specific LoRA and Mutual Self-Attention in DragVideo to ensure the edited result is spatio-temporally consistent. We also present a series of testing examples for drag-style video editing and conduct extensive experiments across a wide array of challenging editing tasks, such as motion, skeleton editing, etc, underscoring DragVideo can edit video in an intuitive, faithful to the user's intention manner, with nearly unnoticeable distortion and artifacts, while maintaining spatio-temporal consistency. While traditional prompt-based video editing fails to do the former two and directly applying image drag editing fails in the last, DragVideo's versatility and generality are emphasized. Github link: https://github.com/RickySkywalker/DragVideo-Official.
翻訳日:2024-04-01 20:07:17 公開日:2024-03-29
# 機能3DGS: 蒸留機能フィールドを可能にする3Dガウススプレイティングのスーパーチャージ

Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields ( http://arxiv.org/abs/2312.03203v2 )

ライセンス: Link先を確認
Shijie Zhou, Haoran Chang, Sicheng Jiang, Zhiwen Fan, Zehao Zhu, Dejia Xu, Pradyumna Chari, Suya You, Zhangyang Wang, Achuta Kadambi, (参考訳) 近年,3Dシーンの表現が盛んに行われている。 ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。 近年,2次元基礎モデルからの3次元特徴場蒸留を用いた編集やセグメンテーションなどのセグメンテーションを意味的に認識する作業において,NeRFの機能をビュー合成を超えて拡張することを目的とした研究が出現している。 しかし、これらの手法には2つの大きな制限がある。 (a)NeRFパイプラインのレンダリング速度に制限され、 b) 暗黙的に表される特徴フィールドは、特徴品質を低下させる連続性アーティファクトに悩まされる。 近年, 3D Gaussian Splatting は実時間ラディアンス場レンダリングにおける最先端の性能を示した。 本研究では, 放射場レンダリングに加えて, 2次元基礎モデル蒸留による任意の次元意味的特徴の3次元ガウススプラッティングを可能にする。 3DGSフレームワークに機能フィールドを内在的に組み込むことは、特に空間分解能の相違やRGB画像と特徴マップ間のチャネルの整合性など、大きな課題に直面する。 この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。 提案手法は汎用的であり,本実験ではSAMやCLIP-LSegといった最先端の2D基盤モデルから,新しいビューセマンティックセマンティックセマンティクス,言語誘導編集,セマンティクスを学習する。 実験全体では, 蒸留法は同等あるいはより良い結果が得られる一方で, 電車やレンダリングよりもはるかに高速である。 さらに、私たちの知る限りでは、SAMモデルを利用して、放射場操作のための点とバウンディングボックスのプロンプトを可能にする最初の方法である。 Project website at https://feature-3dgs.github.io/

3D scene representations have gained immense popularity in recent years. Methods that use Neural Radiance fields are versatile for traditional tasks such as novel view synthesis. In recent times, some work has emerged that aims to extend the functionality of NeRF beyond view synthesis, for semantically aware tasks such as editing and segmentation using 3D feature field distillation from 2D foundation models. However, these methods have two major limitations: (a) they are limited by the rendering speed of NeRF pipelines, and (b) implicitly represented feature fields suffer from continuity artifacts reducing feature quality. Recently, 3D Gaussian Splatting has shown state-of-the-art performance on real-time radiance field rendering. In this work, we go one step further: in addition to radiance field rendering, we enable 3D Gaussian splatting on arbitrary-dimension semantic features via 2D foundation model distillation. This translation is not straightforward: naively incorporating feature fields in the 3DGS framework encounters significant challenges, notably the disparities in spatial resolution and channel consistency between RGB images and feature maps. We propose architectural and training changes to efficiently avert this problem. Our proposed method is general, and our experiments showcase novel view semantic segmentation, language-guided editing and segment anything through learning feature fields from state-of-the-art 2D foundation models such as SAM and CLIP-LSeg. Across experiments, our distillation method is able to provide comparable or better results, while being significantly faster to both train and render. Additionally, to the best of our knowledge, we are the first method to enable point and bounding-box prompting for radiance field manipulation, by leveraging the SAM model. Project website at: https://feature-3dgs.github.io/
翻訳日:2024-04-01 20:07:17 公開日:2024-03-29
# ロボットマニピュレータアームの高速モータ適応

Rapid Motor Adaptation for Robotic Manipulator Arms ( http://arxiv.org/abs/2312.04670v2 )

ライセンス: Link先を確認
Yichao Liang, Kevin Ellis, João Henriques, (参考訳) 汎用的な操作スキルの開発は、AIの具体化における中核的な課題である。 これには様々なタスク構成の一般化が含まれており、対象形状、密度、摩擦係数、ロボットに適用される力などの外乱のバリエーションを含んでいる。 Rapid Motor Adaptation (RMA)はこの課題に対して有望な解決策を提供する。 物体の質量や形状など、エージェントのタスクパフォーマンスに影響を与える必須の隠れ変数は、エージェントの作用や受容史から効果的に推測できると仮定する。 ローコモーションや手動回転におけるRMAからのインスピレーションを得て,様々な操作タスクにおいて,迅速な運動適応に適したエージェントを開発する。 Maniskill2ベンチマークから,YCBおよびEGADデータセットから数百のオブジェクトをピックアップ・アンド・プレース操作,正確な位置と向きのペグ挿入,さまざまなファセットとハンドルの操作,環境のカスタマイズなど,4つの課題に対してエージェントを評価した。 実験により,我々のエージェントは,ドメインの自動ランダム化やビジョンベースのポリシといった最先端の手法を超越し,より優れた一般化性能とサンプル効率が得られることを示した。

Developing generalizable manipulation skills is a core challenge in embodied AI. This includes generalization across diverse task configurations, encompassing variations in object shape, density, friction coefficient, and external disturbances such as forces applied to the robot. Rapid Motor Adaptation (RMA) offers a promising solution to this challenge. It posits that essential hidden variables influencing an agent's task performance, such as object mass and shape, can be effectively inferred from the agent's action and proprioceptive history. Drawing inspiration from RMA in locomotion and in-hand rotation, we use depth perception to develop agents tailored for rapid motor adaptation in a variety of manipulation tasks. We evaluated our agents on four challenging tasks from the Maniskill2 benchmark, namely pick-and-place operations with hundreds of objects from the YCB and EGAD datasets, peg insertion with precise position and orientation, and operating a variety of faucets and handles, with customized environment variations. Empirical results demonstrate that our agents surpass state-of-the-art methods like automatic domain randomization and vision-based policies, obtaining better generalization performance and sample efficiency.
翻訳日:2024-04-01 20:07:17 公開日:2024-03-29
# 証人業者の絡み合いの量

Bounding the amount of entanglement from witness operators ( http://arxiv.org/abs/2312.04897v2 )

ライセンス: Link先を確認
Liang-Liang Sun, Xiang Zhou, Armin Tavakoli, Zhen-Peng Xu, Sixia Yu, (参考訳) 本稿では, 絡み合った状態と分離可能な状態との操作的区別性を, 絡み合った証人から直接推定する手法を提案する。 この推定は、他のよく知られた絡み合い量化器の有界性も示している。 エンタングルメント推定のアプローチは、測定デバイス非依存のシナリオと完全にデバイス非依存のシナリオの両方に拡張され、非自明だが準最適境界が得られる。 この手順は数値最適化を必要とせず、計算が容易である。 これは実験者が標準的な絡み込みの証人手続きから、検出するだけでなく、定量化する手段を提供する。

We present an approach to estimate the operational distinguishability between an entangled state and any separable state directly from measuring an entanglement witness. We show that this estimation also implies bounds on a variety of other well-known entanglement quantifiers. This approach for entanglement estimation is then extended to to both the measurement-device-independent scenario and the fully device-independent scenario, where we obtain non-trivial but sub-optimal bounds. The procedure requires no numerical optimization and is easy to compute. It offers ways for experimenters to not only detect, but also quantify, entanglement from the standard entanglement witness procedure.
翻訳日:2024-04-01 20:07:17 公開日:2024-03-29
# LifelongMemory: 長めのエゴセントリックビデオの問合せにLLMを活用する

LifelongMemory: Leveraging LLMs for Answering Queries in Long-form Egocentric Videos ( http://arxiv.org/abs/2312.05269v2 )

ライセンス: Link先を確認
Ying Wang, Yanlai Yang, Mengye Ren, (参考訳) 本稿では,自然言語による質問応答と検索を通じて,長めのエゴシックなビデオメモリにアクセスするための新しいフレームワークであるLifelongMemoryを紹介する。 LifelongMemoryは、カメラ装着者の簡潔なビデオアクティビティ記述を生成し、訓練済みの大言語モデルのゼロショット機能を活用して、長めのビデオコンテキストに対する推論を行う。 さらに、Lifelong Memoryは信頼性と説明モジュールを使用して、信頼性、高品質、解釈可能な回答を生成する。 提案手法は,質問応答のためのEgoSchemaベンチマークの最先端性能を実現し,Ego4Dの自然言語クエリ(NLQ)課題に対して高い競争力を持つ。 コードはhttps://github.com/Agentic-Learning-AI-Lab/lifelong-Memoryで入手できる。

In this paper we introduce LifelongMemory, a new framework for accessing long-form egocentric videographic memory through natural language question answering and retrieval. LifelongMemory generates concise video activity descriptions of the camera wearer and leverages the zero-shot capabilities of pretrained large language models to perform reasoning over long-form video context. Furthermore, Lifelong Memory uses a confidence and explanation module to produce confident, high-quality, and interpretable answers. Our approach achieves state-of-the-art performance on the EgoSchema benchmark for question answering and is highly competitive on the natural language query (NLQ) challenge of Ego4D. Code is available at https://github.com/Agentic-Learning-AI-Lab/lifelong-memory.
翻訳日:2024-04-01 20:07:17 公開日:2024-03-29
# GlitchBench: 大規模なマルチモーダルモデルは、ビデオゲームのグリッチを検出できますか?

GlitchBench: Can large multimodal models detect video game glitches? ( http://arxiv.org/abs/2312.05291v2 )

ライセンス: Link先を確認
Mohammad Reza Taesiri, Tianjun Feng, Anh Nguyen, Cor-Paul Bezemer, (参考訳) 大規模マルチモーダルモデル (LMM) は大規模言語モデル (LLM) から進化し、視覚入力のような複数の入力モダリティを統合するようになった。 この統合により、視覚的理解と推論を必要とするタスクに対するLLMの容量が増大する。 しかし、それらの強化能力の程度と限界は、特に現実世界のタスクに関して完全には理解されていない。 このギャップに対処するために,ゲーム品質保証タスクから派生した新しいベンチマークであるGlitchBenchを導入し,LMMの推論能力を検証・評価する。 我々のベンチマークは、ビデオゲームの様々な異常なシナリオから算出され、通常イベントの検出と解釈において、LMMの視覚的および言語的推論能力に挑戦することを目的としている。 我々は、複数の最先端LMMを評価し、GlitchBenchがこれらのモデルに新しい課題を提示していることを示す。 コードとデータは、https://glitchbench.github.io/で入手できる。

Large multimodal models (LMMs) have evolved from large language models (LLMs) to integrate multiple input modalities, such as visual inputs. This integration augments the capacity of LLMs for tasks requiring visual comprehension and reasoning. However, the extent and limitations of their enhanced abilities are not fully understood, especially when it comes to real-world tasks. To address this gap, we introduce GlitchBench, a novel benchmark derived from video game quality assurance tasks, to test and evaluate the reasoning capabilities of LMMs. Our benchmark is curated from a variety of unusual and glitched scenarios from video games and aims to challenge both the visual and linguistic reasoning powers of LMMs in detecting and interpreting out-of-the-ordinary events. We evaluate multiple state-of-the-art LMMs, and we show that GlitchBench presents a new challenge for these models. Code and data are available at: https://glitchbench.github.io/
翻訳日:2024-04-01 20:07:17 公開日:2024-03-29
# PLGSLAM:局所的から大域的バンドル調整による進行性ニューラルシーンの再現

PLGSLAM: Progressive Neural Scene Represenation with Local to Global Bundle Adjustment ( http://arxiv.org/abs/2312.09866v2 )

ライセンス: Link先を確認
Tianchen Deng, Guole Shen, Tong Qin, Jianyu Wang, Wentao Zhao, Jingchuan Wang, Danwei Wang, Weidong Chen, (参考訳) ニューラル暗黙のシーン表現は、近年、濃密な視覚SLAMの結果を奨励している。 しかし、既存の手法では、屋内の大きなシーンや長いシーケンスにスケールアップする際に、低品質なシーン再構築と低精度なローカライゼーション性能を実現している。 これらの制限は主に、大きなシナリオに適応しない有限容量の単一の大域放射場に起因する。 彼らのエンドツーエンドのポーズネットワークは、大規模なシーンで累積誤差が増加するほど堅牢ではない。 そこで本研究では,高忠実度表面再構成とロバストなカメラトラッキングをリアルタイムで実現可能なニューラルビジュアルSLAMシステムであるPLGSLAMを紹介する。 大規模屋内シーンを扱うため, PLGSLAM では, ローカルスライドウィンドウ内のフレームで訓練した新たなローカルシーン表現を動的に割り当てるプログレッシブシーン表現法を提案する。 これにより、屋内のシーンを拡大し、(ポーズドリフト下であっても)堅牢性を向上させることができます。 局所的なシーン表現において、PLGSLAMは、低周波特性のための多層パーセプトロン(MLP)ネットワークを備えた局所的な高周波特性にトリプレーンを使用し、観測されていない領域での滑らかさとシーン補完を実現する。 さらに,長列のポーズドリフトの増加に対応するため,グローバルなキーフレームデータベースを用いた局所-グローバルバンドル調整手法を提案する。 実験結果から,PSGSLAMは様々なデータセットやシナリオ(小規模・大規模屋内環境の両方において)にわたって,最先端のシーン再構築結果を達成し,性能の追跡を行うことが示された。

Neural implicit scene representations have recently shown encouraging results in dense visual SLAM. However, existing methods produce low-quality scene reconstruction and low-accuracy localization performance when scaling up to large indoor scenes and long sequences. These limitations are mainly due to their single, global radiance field with finite capacity, which does not adapt to large scenarios. Their end-to-end pose networks are also not robust enough with the growth of cumulative errors in large scenes. To this end, we introduce PLGSLAM, a neural visual SLAM system capable of high-fidelity surface reconstruction and robust camera tracking in real-time. To handle large-scale indoor scenes, PLGSLAM proposes a progressive scene representation method which dynamically allocates new local scene representation trained with frames within a local sliding window. This allows us to scale up to larger indoor scenes and improves robustness (even under pose drifts). In local scene representation, PLGSLAM utilizes tri-planes for local high-frequency features with multi-layer perceptron (MLP) networks for the low-frequency feature, achieving smoothness and scene completion in unobserved areas. Moreover, we propose local-to-global bundle adjustment method with a global keyframe database to address the increased pose drifts on long sequences. Experimental results demonstrate that PLGSLAM achieves state-of-the-art scene reconstruction results and tracking performance across various datasets and scenarios (both in small and large-scale indoor environments).
翻訳日:2024-04-01 20:07:17 公開日:2024-03-29
# 極端エッジ計算デバイスにおけるコンバータに基づく音声認識

Conformer-Based Speech Recognition On Extreme Edge-Computing Devices ( http://arxiv.org/abs/2312.10359v2 )

ライセンス: Link先を確認
Mingbin Xu, Alex Jin, Sicheng Wang, Mu Su, Tim Ng, Henry Mason, Shiyi Han, Zhihong Lei Yaqiao Deng, Zhen Huang, Mahesh Krishnamoorthy, (参考訳) 今日のデバイスでは、ますます強力な計算能力とリソースによって、従来の計算集約型自動音声認識(ASR)は、ユーザのプライバシをより保護するために、クラウドからデバイスへと移行してきた。 しかし、スマートフォン、スマートウェアラブル、その他の小型ホームオートメーションデバイスなど、リソースに制約のあるデバイスに対して、オンデバイスASRを実装することは依然として困難である。 本稿では,モデルアーキテクチャの適応,ニューラルネットワークグラフ変換,数値最適化により,高度なコンバータベースのエンドツーエンドストリーミングASRシステムを,精度の低下を伴わずに資源制約のあるデバイスに適合させる手法を提案する。 我々は,小型ウェアラブル端末におけるリアルタイム(0.19 RTF)音声認識よりも5.26倍高速で,エネルギー消費を最小化し,最先端の精度を実現している。 提案手法は,他のトランスフォーマーベースのサーバフリーAIアプリケーションに適用可能である。 さらに、任意の浮動小数点精度を用いて任意のLpノルムにおける層正規化を数値的に安定化する最適な事前正規化器に関する完全な理論を提供する。

With increasingly more powerful compute capabilities and resources in today's devices, traditionally compute-intensive automatic speech recognition (ASR) has been moving from the cloud to devices to better protect user privacy. However, it is still challenging to implement on-device ASR on resource-constrained devices, such as smartphones, smart wearables, and other small home automation devices. In this paper, we propose a series of model architecture adaptions, neural network graph transformations, and numerical optimizations to fit an advanced Conformer based end-to-end streaming ASR system on resource-constrained devices without accuracy degradation. We achieve over 5.26 times faster than realtime (0.19 RTF) speech recognition on small wearables while minimizing energy consumption and achieving state-of-the-art accuracy. The proposed methods are widely applicable to other transformer-based server-free AI applications. In addition, we provide a complete theory on optimal pre-normalizers that numerically stabilize layer normalization in any Lp-norm using any floating point precision.
翻訳日:2024-04-01 20:07:17 公開日:2024-03-29
# CLOVA: ツール使用とアップデートを備えたクローズドループビジュアルアシスタント

CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update ( http://arxiv.org/abs/2312.10908v2 )

ライセンス: Link先を確認
Zhi Gao, Yuntao Du, Xintong Zhang, Xiaojian Ma, Wenjuan Han, Song-Chun Zhu, Qing Li, (参考訳) 大型言語モデル(LLM)を用いて、市販のビジュアルツールを構成することは、多様なビジュアルタスクに対処できる堅牢なビジュアルアシスタントを開発するための、有望な研究の道のりである。 しかし、これらの手法は、典型的には使用済みツールを凍結することで、継続的な学習の可能性を見落とし、新しい知識を必要とする環境への適応を制限する。 この課題に対処するため、我々は、推論、リフレクション、学習フェーズを含むフレームワーク内で機能するクローズドループビジュアルアシスタントであるCLOVAを提案する。 推論フェーズの間、LLMはプログラムを生成し、割り当てられたタスクを完了させるために対応するツールを実行する。 リフレクションフェーズでは、マルチモーダルなグローバルローカルリフレクションスキームが人間のフィードバックを分析し、更新が必要なツールを決定する。 最後に、学習フェーズでは、トレーニングデータを自動的に収集する3つの柔軟なアプローチを採用し、ツールを更新するための新しいプロンプトチューニングスキームを導入し、CLOVAがより効率的に新しい知識を取得できるようにする。 実験結果から,CLOVAは既存のツール利用手法を5%,知識タグ付けでは10%,画像編集では20%,視覚的質問応答や複数画像推論では5%に上回っていることがわかった。 これらの結果は、一般的な視覚アシスタントにおける連続学習能力の重要性を浮き彫りにしている。

Utilizing large language models (LLMs) to compose off-the-shelf visual tools represents a promising avenue of research for developing robust visual assistants capable of addressing diverse visual tasks. However, these methods often overlook the potential for continual learning, typically by freezing the utilized tools, thus limiting their adaptation to environments requiring new knowledge. To tackle this challenge, we propose CLOVA, a Closed-Loop Visual Assistant, which operates within a framework encompassing inference, reflection, and learning phases. During the inference phase, LLMs generate programs and execute corresponding tools to complete assigned tasks. In the reflection phase, a multimodal global-local reflection scheme analyzes human feedback to determine which tools require updating. Lastly, the learning phase employs three flexible approaches to automatically gather training data and introduces a novel prompt tuning scheme to update the tools, allowing CLOVA to efficiently acquire new knowledge. Experimental findings demonstrate that CLOVA surpasses existing tool-usage methods by 5% in visual question answering and multiple-image reasoning, by 10% in knowledge tagging, and by 20% in image editing. These results underscore the significance of the continual learning capability in general visual assistants.
翻訳日:2024-04-01 20:07:17 公開日:2024-03-29
# GAvatar: 暗黙のメッシュ学習を備えたアニマタブルな3Dガウスアバター

GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning ( http://arxiv.org/abs/2312.11461v2 )

ライセンス: Link先を確認
Ye Yuan, Xueting Li, Yangyi Huang, Shalini De Mello, Koki Nagano, Jan Kautz, Umar Iqbal, (参考訳) ガウススプラッティングは、明示的(メッシュ)と暗黙的(NeRF)の両方の3D表現の利点を利用する強力な3D表現として登場した。 本稿では,メッシュやNeRFに基づく表現によって課される制限(柔軟性や効率性など)に対処するため,ガウススプラッティングを活用して,テキスト記述から現実的なアニマタブルアバターを生成する。 しかし、ガウススプラッティングの素質的な応用は高品質なアニマタブルなアバターを生成できず、不安定な学習に苦しむ。 これらの問題に対処するために、まずプリミティブベースの3次元ガウス表現を提案し、ガウス表現はポーズ駆動プリミティブの中で定義され、アニメーションを容易にする。 第二に、何百万人ものガウスの学習を安定させ、記憶させるため、ニューラルネットワークを用いてガウスの属性(例えば色)を予測することを提案する。 最後に、細かなアバターのジオメトリを捕捉し、詳細なメッシュを抽出するために、基礎となるジオメトリを規則化し、高度に詳細なテクスチャ化されたメッシュを抽出する3Dガウスのための新しいSDFベースの暗黙的メッシュ学習手法を提案する。 提案手法であるGAvatarは,テキストプロンプトのみを用いて,多様なアニマタブルアバターを大規模に生成する。 GAvatarは外観と幾何学的品質の両方で既存の手法を大幅に上回り、1K解像度で非常に高速なレンダリング(100 fps)を実現している。

Gaussian splatting has emerged as a powerful 3D representation that harnesses the advantages of both explicit (mesh) and implicit (NeRF) 3D representations. In this paper, we seek to leverage Gaussian splatting to generate realistic animatable avatars from textual descriptions, addressing the limitations (e.g., flexibility and efficiency) imposed by mesh or NeRF-based representations. However, a naive application of Gaussian splatting cannot generate high-quality animatable avatars and suffers from learning instability; it also cannot capture fine avatar geometries and often leads to degenerate body parts. To tackle these problems, we first propose a primitive-based 3D Gaussian representation where Gaussians are defined inside pose-driven primitives to facilitate animation. Second, to stabilize and amortize the learning of millions of Gaussians, we propose to use neural implicit fields to predict the Gaussian attributes (e.g., colors). Finally, to capture fine avatar geometries and extract detailed meshes, we propose a novel SDF-based implicit mesh learning approach for 3D Gaussians that regularizes the underlying geometries and extracts highly detailed textured meshes. Our proposed method, GAvatar, enables the large-scale generation of diverse animatable avatars using only text prompts. GAvatar significantly surpasses existing methods in terms of both appearance and geometry quality, and achieves extremely fast rendering (100 fps) at 1K resolution.
翻訳日:2024-04-01 20:07:17 公開日:2024-03-29
# 疎線形帯域問題におけるGreedy-Applicable Arm特徴分布の新しいクラス

New Classes of the Greedy-Applicable Arm Feature Distributions in the Sparse Linear Bandit Problem ( http://arxiv.org/abs/2312.12400v2 )

ライセンス: Link先を確認
Koji Ichikawa, Shinji Ito, Daisuke Hatano, Hanna Sumita, Takuro Fukunaga, Naonori Kakimura, Ken-ichi Kawarabayashi, (参考訳) スパースパラメータの内積を通じて腕の特徴が報酬に影響を及ぼすスパースコンテキストバンドイット問題を考える。 近年の研究では、グリーディアーム選択ポリシーに基づくスパーシリティ非依存アルゴリズムが開発されている。 しかしながら、これらのアルゴリズムの分析は、厳密に選択されたサンプルが十分に多様であることを保証するために、腕の特徴分布に強い仮定を必要とする。 本稿では,グリーディアルゴリズムが2つの側面からより広い範囲の腕の特徴分布に適用可能であることを示す。 まず,greedy-applicable成分を有する混合分布もgreedy-applicableであることを示す。 次に,ガウス混合,離散分布,放射分布に関連する新しい分布クラスを提案し,サンプルの多様性が保証される。 提案したクラスは、原点非対称な支持を持つ分布を記述することができ、第1のクレームと共に、非常に広い範囲の腕の特徴分布に対して、グリージーポリシーの理論的保証を提供する。

We consider the sparse contextual bandit problem where arm feature affects reward through the inner product of sparse parameters. Recent studies have developed sparsity-agnostic algorithms based on the greedy arm selection policy. However, the analysis of these algorithms requires strong assumptions on the arm feature distribution to ensure that the greedily selected samples are sufficiently diverse; One of the most common assumptions, relaxed symmetry, imposes approximate origin-symmetry on the distribution, which cannot allow distributions that has origin-asymmetric support. In this paper, we show that the greedy algorithm is applicable to a wider range of the arm feature distributions from two aspects. Firstly, we show that a mixture distribution that has a greedy-applicable component is also greedy-applicable. Second, we propose new distribution classes, related to Gaussian mixture, discrete, and radial distribution, for which the sample diversity is guaranteed. The proposed classes can describe distributions with origin-asymmetric support and, in conjunction with the first claim, provide theoretical guarantees of the greedy policy for a very wide range of the arm feature distributions.
翻訳日:2024-04-01 20:07:17 公開日:2024-03-29
# DyBluRF:Blury Monocular Videoのための動的劣化型ニューラルラジアンス場

DyBluRF: Dynamic Deblurring Neural Radiance Fields for Blurry Monocular Video ( http://arxiv.org/abs/2312.13528v2 )

ライセンス: Link先を確認
Minh-Quan Viet Bui, Jongmin Park, Jihyong Oh, Munchurl Kim, (参考訳) 静的シーン用に開発されたNeRFは、多くのビデオノベルビュー合成技術にインスピレーションを与えている。 しかし、映像映像合成の課題は、露出中の物体やカメラの動きの結果である動きのぼやけから生じ、鮮明な時空間ビューの正確な合成を妨げている。 そこで本研究では,BRI(Base Ray Initialization)ステージとMDD(Motion Decomposition-based Deblurring)ステージで構成される,ぼやけたモノクルビデオのための動的デブロアリングNeRFフレームワークDyBluRFを提案する。 我々のDyBluRFは、新しい2段階のフレームワークで、ぼやけたモノクロビデオのための新しいビュー合成を処理する最初のものです。 BRIの段階では、ダイナミックな3Dシーンを粗く再構成し、ベースレイを共同で初期化する。 MDDの段階では、静止画をグローバルカメラモーションと局所物体の動き成分に分解することで、ぼやけたモノクロビデオフレームに対する新しいインクリメンタルラテントシャープ線予測(ILSP)手法を導入する。 さらに,マスクの監督を伴わない静的および動的シーンコンポーネントの効率的な幾何正規化と分解のための2つの損失関数を提案する。 実験により、DyBluRFはSOTA法よりも質的に定量的に優れていることが示された。

Neural Radiance Fields (NeRF), initially developed for static scenes, have inspired many video novel view synthesis techniques. However, the challenge for video view synthesis arises from motion blur, a consequence of object or camera movement during exposure, which hinders the precise synthesis of sharp spatio-temporal views. In response, we propose a novel dynamic deblurring NeRF framework for blurry monocular video, called DyBluRF, consisting of a Base Ray Initialization (BRI) stage and a Motion Decomposition-based Deblurring (MDD) stage. Our DyBluRF is the first that handles the novel view synthesis for blurry monocular video with a novel two-stage framework. In the BRI stage, we coarsely reconstruct dynamic 3D scenes and jointly initialize the base ray, which is further used to predict latent sharp rays, using the inaccurate camera pose information from the given blurry frames. In the MDD stage, we introduce a novel Incremental Latent Sharp-rays Prediction (ILSP) approach for the blurry monocular video frames by decomposing the latent sharp rays into global camera motion and local object motion components. We further propose two loss functions for effective geometry regularization and decomposition of static and dynamic scene components without any mask supervision. Experiments show that DyBluRF outperforms qualitatively and quantitatively the SOTA methods.
翻訳日:2024-04-01 20:07:17 公開日:2024-03-29
# 可変条件下でのロバストペグ・イン・ホール作業に対する視覚的空間的注意と受動的データ駆動強化学習

Visual Spatial Attention and Proprioceptive Data-Driven Reinforcement Learning for Robust Peg-in-Hole Task Under Variable Conditions ( http://arxiv.org/abs/2312.16438v2 )

ライセンス: Link先を確認
André Yuji Yasutomi, Hideyuki Ichiwara, Hiroshi Ito, Hiroki Mori, Tetsuya Ogata, (参考訳) アンカーボルト挿入(アンカーボルト挿入、Anchor-bolt insert)は、コンクリート中の穴の建設現場で行われるペグ・イン・ホールの作業である。 このタスクを自動化する努力は行われているが、様々な照明と穴面条件、および短時間のセットアップとタスク実行時間の要件は自動化を困難にしている。 本研究では,この課題に対して,照明条件や穴面条件に頑健な視覚とプロプリセプティブなデータ駆動型ロボット制御モデルを提案する。 このモデルは、空間的注意点ネットワーク(SAP)と、ロボットを制御するためにエンドツーエンドにトレーニングされた深層強化学習(DRL)ポリシーから構成される。 モデルはオフラインでトレーニングされ、トレーニング時間を短縮し、物理的な世界にモデルを転送する際の現実的ギャップを最小限に抑えるために設計された、サンプル効率のよいフレームワークである。 16の異なる初期位置から始まり、3つの異なる照明条件下(2つは誤解を招く影を持つ)から、12の未知の穴でタスクを実行する産業用ロボットによる評価により、SAPは、難解な照明条件であっても、画像の適切な注意点を生成できることを実証した。 また,提案モデルにより,各種ベースラインよりも高い成功率と短いタスク完了時間でタスク実行が可能となることを示す。 厳密な照明,初期位置,ホール条件においても,提案モデルの有効性が高く,オフライントレーニングフレームワークの高サンプリング効率と短時間のトレーニング時間により,本手法は建設に容易に適用できる。

Anchor-bolt insertion is a peg-in-hole task performed in the construction field for holes in concrete. Efforts have been made to automate this task, but the variable lighting and hole surface conditions, as well as the requirements for short setup and task execution time make the automation challenging. In this study, we introduce a vision and proprioceptive data-driven robot control model for this task that is robust to challenging lighting and hole surface conditions. This model consists of a spatial attention point network (SAP) and a deep reinforcement learning (DRL) policy that are trained jointly end-to-end to control the robot. The model is trained in an offline manner, with a sample-efficient framework designed to reduce training time and minimize the reality gap when transferring the model to the physical world. Through evaluations with an industrial robot performing the task in 12 unknown holes, starting from 16 different initial positions, and under three different lighting conditions (two with misleading shadows), we demonstrate that SAP can generate relevant attention points of the image even in challenging lighting conditions. We also show that the proposed model enables task execution with higher success rate and shorter task completion time than various baselines. Due to the proposed model's high effectiveness even in severe lighting, initial positions, and hole conditions, and the offline training framework's high sample-efficiency and short training time, this approach can be easily applied to construction.
翻訳日:2024-04-01 20:07:17 公開日:2024-03-29
# 知識グラフによるリフォームによる会話質問の回答

Conversational Question Answering with Reformulations over Knowledge Graph ( http://arxiv.org/abs/2312.17269v2 )

ライセンス: Link先を確認
Lihui Liu, Blaine Hill, Boxin Du, Fei Wang, Hanghang Tong, (参考訳) 知識グラフ(KG)上の会話型質問応答(convQA)は、KGに含まれる情報に関する多ターン自然言語の質問に答える。 ConvQAの最先端の手法は、しばしば難解な問合せに苦労する。 これらの入力は、会話履歴が与えられたら人間が容易に理解できるが、機械が解釈するのは難しいため、ConvQAのパフォーマンスは劣化する。 この問題に対処するために,大規模言語モデル(LLM)が生成する質問の修正を利用してConvQA性能を向上させる強化学習(RL)モデルであるCornNetを提案する。 CornNetは、教師モデルが人間の書き直しを使って質問表現を学習する教師学生アーキテクチャと、LLMによって生成された教師モデルの出力を模倣する学生モデルを採用する。 学習された質問表現は、RLモデルによってKG内の正しい答えを見つけるために使用される。 CornNetは最先端のconvQAモデルよりも優れています。

Conversational question answering (convQA) over knowledge graphs (KGs) involves answering multi-turn natural language questions about information contained in a KG. State-of-the-art methods of ConvQA often struggle with inexplicit question-answer pairs. These inputs are easy for human beings to understand given a conversation history, but hard for a machine to interpret, which can degrade ConvQA performance. To address this problem, we propose a reinforcement learning (RL) based model, CornNet, which utilizes question reformulations generated by large language models (LLMs) to improve ConvQA performance. CornNet adopts a teacher-student architecture where a teacher model learns question representations using human writing reformulations, and a student model to mimic the teacher model's output via reformulations generated by LLMs. The learned question representation is then used by an RL model to locate the correct answer in a KG. Extensive experimental results show that CornNet outperforms state-of-the-art convQA models.
翻訳日:2024-04-01 19:57:29 公開日:2024-03-29
# DXAI:画像分解による分類の説明

DXAI: Explaining Classification by Image Decomposition ( http://arxiv.org/abs/2401.00320v2 )

ライセンス: Link先を確認
Elnatan Kadar, Guy Gilboa, (参考訳) 本稿では、分解に基づく説明可能なAI(DXAI)を用いて、ニューラルネットワークの分類を説明し、視覚化する新しい方法を提案する。 提案手法は, 説明ヒートマップを提供する代わりに, データや選択した分類器に関して, 画像のクラス非依存部分とクラス固有部分への分解を行う。 解析と合成の基本的な信号処理パラダイムに従って、元の画像は分解された部分の和である。 したがって、分類を説明する方法が根本的に異なる。 クラス識別部は、クラス識別部が相補的なクラス情報を持たないすべての画像特徴から理想的に構成される。 この新たな視覚化は、特に属性が密度が高く、グローバルで、自然界において、例えば、クラス区別に色やテクスチャが不可欠である場合において、特定のシナリオにおいてより有用で有益なものになり得る。 コードはhttps://github.com/dxai2024/dxaiで入手できる。

We propose a new way to explain and to visualize neural network classification through a decomposition-based explainable AI (DXAI). Instead of providing an explanation heatmap, our method yields a decomposition of the image into class-agnostic and class-distinct parts, with respect to the data and chosen classifier. Following a fundamental signal processing paradigm of analysis and synthesis, the original image is the sum of the decomposed parts. We thus obtain a radically different way of explaining classification. The class-agnostic part ideally is composed of all image features which do not posses class information, where the class-distinct part is its complementary. This new visualization can be more helpful and informative in certain scenarios, especially when the attributes are dense, global and additive in nature, for instance, when colors or textures are essential for class distinction. Code is available at https://github.com/dxai2024/dxai.
翻訳日:2024-04-01 19:57:29 公開日:2024-03-29
# ${\cal PT}$対称量子力学の特別なWKB解析:Ai-Bender-Sarkar予想の研究

Exact WKB analysis for ${\cal PT}$ symmetric quantum mechanics: Study of the Ai-Bender-Sarkar conjecture ( http://arxiv.org/abs/2401.00574v4 )

ライセンス: Link先を確認
Syo Kamata, (参考訳) V(x) = \omega^2 x^2 + g x^2(i x)^{\varepsilon=2}$ with $\omega \in {\mathbb R}_{\ge 0}$, $g \in {\mathbb R} _{> 0}$である。 特に、エネルギースペクトルやユークリッド分割関数に関するエルミート理論の$D$-次元${\cal PT}$-対称理論と解析的連続(AC)の関係に関する、Ai-Bender-Sarkar (ABS) の予想を検証することを目的としている。 本研究の目的は,WKB解析によりエネルギー量子化条件を構築し,その条件を解くことで,その半減期解を記述することである。 エネルギー解に対して異種計算を行うことで、ABS予想の妥当性を検証するとともに、それが破られた場合のボレル再仮定理論による代替形の可能性を求める。 我々の結果は、ABS予想の妥当性は、$\omega > 0$ または $\omega = 0$: if ${\omega}> 0$ によって劇的に変化すると主張している。 ${\cal PT}$ と AC のエネルギーは、1パラメータストークス自己同型(英語版)と、AC エネルギーの形式的正確な解(resp)に対応する中央再帰形式(英語版)によって互いに関連付けられている。 ${\cal PT}$ energy) は、ボレル再仮定を${\cal PT}$ energy (resp. AC energy) の半減期解に作用させることで直接得られる。 もし$\omega = 0$なら、逆エネルギー準位展開に関して、${\cal PT}$とACエネルギーの摂動的/非摂動的構造だけでなく、それらの摂動的部分も互いに一致しない。 これらのエネルギーは独立解であり、ABS予想の代替形はボレル再仮定理論によって再構成できない。

We consider exact WKB analysis to a ${\cal PT}$ symmetric quantum mechanics defined by the potential, $V(x) = \omega^2 x^2 + g x^2(i x)^{\varepsilon=2}$ with $\omega \in {\mathbb R}_{\ge 0}$, $g \in {\mathbb R} _{> 0}$. We in particular aim to verify a conjecture proposed by Ai-Bender-Sarkar (ABS), that pertains to a relation between $D$-dimensional ${\cal PT}$-symmetric theories and analytic continuation (AC) of Hermitian theories concerning the energy spectrum or Euclidean partition function. For the purpose, we construct energy quantization conditions by exact WKB analysis and write down their transseries solution by solving the conditions. By performing alien calculus to the energy solutions, we verify validity of the ABS conjecture and seek a possibility of its alternative form by Borel resummation theory if it is violated. Our results claim that the validity of the ABS conjecture drastically changes depending on whether $\omega > 0$ or $\omega = 0$: If ${\omega}>0$, then the ABS conjecture is violated when exceeding the semi-classical level of the first non-perturbative order, but its alternative form is constructable by Borel resummation theory. The ${\cal PT}$ and the AC energies are related to each other by a one-parameter Stokes automorphism, and a median resummed form, which corresponds to a formal exact solution, of the AC energy (resp. ${\cal PT}$ energy) is directly obtained by acting Borel resummation to a transseries solution of the ${\cal PT}$ energy (resp. AC energy). If $\omega = 0$, then, with respect to the inverse energy level-expansion, not only perturbative/non-perturbative structures of the ${\cal PT}$ and the AC energies but also their perturbative parts do not match with each other. These energies are independent solutions, and no alternative form of the ABS conjecture can be reformulated by Borel resummation theory.
翻訳日:2024-04-01 19:57:29 公開日:2024-03-29
# GD^2-NeRF:GANによる生成的詳細補償と1ショット一般化可能なニューラルラディアンス場への拡散

GD^2-NeRF: Generative Detail Compensation via GAN and Diffusion for One-shot Generalizable Neural Radiance Fields ( http://arxiv.org/abs/2401.00616v3 )

ライセンス: Link先を確認
Xiao Pan, Zongxin Yang, Shuai Bai, Yi Yang, (参考訳) 本稿では,ワンショット・ノベルビュー・シンセサイザー(O-NVS)タスクに着目し,シーン毎に1つの参照画像のみを与えられた写真リアリスティック・ノベルビューの合成を目的とした。 従来のワンショット汎用ニューラルラジアンスフィールド(OG-NeRF)法は、このタスクを推論時の微調整のない方法で解決するが、限られた参照画像に強く依存するエンコーダのみのアーキテクチャのため、曖昧な問題に悩まされる。 一方,近年の拡散法に基づく画像-3d法では,事前学習した2次元拡散モデルを3次元表現に蒸留することで,鮮明な可視性を示す。 これらの問題をターゲットに、GD$^2$-NeRF(GANとDiffusionによる生成的詳細補償フレームワーク)を提案する。 GD$^2$-NeRFは主に1段並列パイプライン(OPP)と3D一貫性Detail Enhancer(Diff3DE)で構成されている。 粗い段階では、OPPはまずGANモデルを既存のOG-NeRFパイプラインに効率よく挿入し、トレーニングデータセットから取得した非分配先との曖昧な問題を主に軽減し、シャープネス(LPIPS, FID)とフィデリティ(PSNR, SSIM)のバランスよく達成する。 そして、Diff3DEは、さらに訓練済みの画像拡散モデルを活用して、十分な3D一貫性を維持しながら、リッチなアウトディストリビューションの詳細を補完する。 GD$^2$-NeRFは、合成データセットと実世界のデータセットの両方に対する大規模な実験により、シーンごとの微調整なしに、細部を著しく改善することを示した。

In this paper, we focus on the One-shot Novel View Synthesis (O-NVS) task which targets synthesizing photo-realistic novel views given only one reference image per scene. Previous One-shot Generalizable Neural Radiance Fields (OG-NeRF) methods solve this task in an inference-time finetuning-free manner, yet suffer the blurry issue due to the encoder-only architecture that highly relies on the limited reference image. On the other hand, recent diffusion-based image-to-3d methods show vivid plausible results via distilling pre-trained 2D diffusion models into a 3D representation, yet require tedious per-scene optimization. Targeting these issues, we propose the GD$^2$-NeRF, a Generative Detail compensation framework via GAN and Diffusion that is both inference-time finetuning-free and with vivid plausible details. In detail, following a coarse-to-fine strategy, GD$^2$-NeRF is mainly composed of a One-stage Parallel Pipeline (OPP) and a 3D-consistent Detail Enhancer (Diff3DE). At the coarse stage, OPP first efficiently inserts the GAN model into the existing OG-NeRF pipeline for primarily relieving the blurry issue with in-distribution priors captured from the training dataset, achieving a good balance between sharpness (LPIPS, FID) and fidelity (PSNR, SSIM). Then, at the fine stage, Diff3DE further leverages the pre-trained image diffusion models to complement rich out-distribution details while maintaining decent 3D consistency. Extensive experiments on both the synthetic and real-world datasets show that GD$^2$-NeRF noticeably improves the details while without per-scene finetuning.
翻訳日:2024-04-01 19:57:29 公開日:2024-03-29
# 量子ベイズ分類器とその画像分類への応用

Quantum Bayes Classifiers and Their Application in Image Classification ( http://arxiv.org/abs/2401.01588v2 )

ライセンス: Link先を確認
Ming-Ming Wang, Xiao-Ying Zhang, (参考訳) ベイジアンネットワークは確率分析のための強力なツールであり、機械学習やデータサイエンスで広く利用されている。 ニューラルネットワークの時間を要するパラメータトレーニングプロセスとは異なり、ベイズネットワーク上に構築されたベイズ分類器は、サンプルの統計データのみに基づいて決定を行うことができる。 本稿では,量子ベイズ分類器(QBC)の構築に焦点をあてる。 半裸QBC(SN-QBC)と半裸QBC(SN-QBC)の両方を設計する。 これらのQBCは画像分類タスクに適用される。 計算複雑性を低減するため,画像から限られた特徴属性を抽出するために局所特徴サンプリング法を用いる。 これらの属性は、QBCを生成するベイズネットワークのノードとして機能する。 我々は,これらのQBCをMindQuantumプラットフォーム上でシミュレートし,MNISTおよびFashion-MNISTデータセット上での性能を評価する。 以上の結果から,これらのQBCの分類精度は,属性が限られている場合でも良好であることが示唆された。 MNISTデータセット上のQBCの分類精度は、すべての利用可能な特徴属性を利用する古典的ベイズ的ネットワークや量子ニューラルネットワークのそれを上回っている。

Bayesian networks are powerful tools for probabilistic analysis and have been widely used in machine learning and data science. Unlike the time-consuming parameter training process of neural networks, Bayes classifiers constructed on Bayesian networks can make decisions based solely on statistical data from samples. In this paper, we focus on constructing quantum Bayes classifiers (QBCs). We design both a naive QBC and three semi-naive QBCs (SN-QBCs). These QBCs are then applied to image classification tasks. To reduce computational complexity, we employ a local feature sampling method to extract a limited number of feature attributes from an image. These attributes serve as nodes of the Bayesian networks to generate the QBCs. We simulate these QBCs on the MindQuantum platform and evaluate their performance on the MNIST and Fashion-MNIST datasets. Our results demonstrate that these QBCs achieve good classification accuracies even with a limited number of attributes. The classification accuracies of QBCs on the MNIST dataset surpass those of classical Bayesian networks and quantum neural networks that utilize all available feature attributes.
翻訳日:2024-04-01 19:57:29 公開日:2024-03-29
# Masked Inter-Intra-Frame Attention を用いた超解像変換器

Video Super-Resolution Transformer with Masked Inter&Intra-Frame Attention ( http://arxiv.org/abs/2401.06312v4 )

ライセンス: Link先を確認
Xingyu Zhou, Leheng Zhang, Xiaorui Zhao, Keze Wang, Leida Li, Shuhang Gu, (参考訳) 近年、Vision Transformerは低解像度のシーケンス、すなわちビデオ超解像(VSR)タスクの欠落した詳細を復元することに成功した。 VSRの精度が優れているにもかかわらず、計算上の重荷と大きなメモリフットプリントは、TransformerベースのVSRモデルを制約されたデバイスに配置することを妨げている。 本稿では,Masked Intra and Inter frame Attention (MIA-VSR) を用いた新しい機能レベルのマスク処理フレームワークを提案する。 MIA-VSRのコアは、隣接するフレーム間の特徴レベルの時間的連続性を利用して冗長な計算を減らし、以前拡張されたSR特徴をより合理的に活用することである。 具体的には,過去の特徴と入力特徴のそれぞれの役割を考慮に入れたフレーム内およびフレーム間アテンションブロックを提案する。 さらに、隣接するフレーム間の特徴的類似性に応じて、重要でない計算をスキップする適応ブロックワイドマスク予測モジュールを開発した。 我々は,提案手法を最近の最先端のVSR手法と比較するため,詳細なアブレーション研究を行っている。 実験の結果,MIA-VSRはPSNRの精度を落とさずに,最先端手法よりもメモリと計算効率を向上することが示された。 コードはhttps://github.com/LabShuHangGU/MIA-VSRで公開されている。

Recently, Vision Transformer has achieved great success in recovering missing details in low-resolution sequences, i.e., the video super-resolution (VSR) task. Despite its superiority in VSR accuracy, the heavy computational burden as well as the large memory footprint hinder the deployment of Transformer-based VSR models on constrained devices. In this paper, we address the above issue by proposing a novel feature-level masked processing framework: VSR with Masked Intra and inter frame Attention (MIA-VSR). The core of MIA-VSR is leveraging feature-level temporal continuity between adjacent frames to reduce redundant computations and make more rational use of previously enhanced SR features. Concretely, we propose an intra-frame and inter-frame attention block which takes the respective roles of past features and input features into consideration and only exploits previously enhanced features to provide supplementary information. In addition, an adaptive block-wise mask prediction module is developed to skip unimportant computations according to feature similarity between adjacent frames. We conduct detailed ablation studies to validate our contributions and compare the proposed method with recent state-of-the-art VSR approaches. The experimental results demonstrate that MIA-VSR improves the memory and computation efficiency over state-of-the-art methods, without trading off PSNR accuracy. The code is available at https://github.com/LabShuHangGU/MIA-VSR.
翻訳日:2024-04-01 19:57:29 公開日:2024-03-29
# 生産におけるハイブリッド量子ソルバー : NISQ時代をどう成功させるか

Hybrid Quantum Solvers in Production: how to succeed in the NISQ era? ( http://arxiv.org/abs/2401.10302v5 )

ライセンス: Link先を確認
Eneko Osaba, Esther Villar-Rodriguez, Aitor Gomez-Tejedor, Izaskun Oregi, (参考訳) ハイブリッド量子コンピューティングは、量子コンピューティングの分野における現在と未来と考えられている。 NISQ時代のデバイスの限界に対処するためには、この傾向は単なるストップギャップとは考えられない。 両方のコンピューティングパラダイムをリンクする基盤は、今後も堅牢なままだ。 この研究の貢献は2つある: まず、文献で最近発表された2つの異なる分類体系に頼って、最も頻繁に使用されるハイブリッド・ソルバのいくつかを記述し分類する。 第二に、現在実運用にデプロイされており、実際の産業に近いことを実証している2つの解決器に特化しています。 これらの解法は、D-WaveのHybridBQMSamplerとQuantagoniaのHybrid Solverに含まれるLeapHybridBQMSamplerである。 ベンチマークを4つの組合せ最適化問題として用いて,両手法の性能を解析した。

Hybrid quantum computing is considered the present and the future within the field of quantum computing. Far from being a passing fad, this trend cannot be considered just a stopgap to address the limitations of NISQ-era devices. The foundations linking both computing paradigms will remain robust over time. The contribution of this work is twofold: first, we describe and categorize some of the most frequently used hybrid solvers, resorting to two different taxonomies recently published in the literature. Secondly, we put a special focus on two solvers that are currently deployed in real production and that have demonstrated to be near the real industry. These solvers are the LeapHybridBQMSampler contained in D-Wave's Hybrid Solver Service and Quantagonia's Hybrid Solver. We analyze the performance of both methods using as benchmarks four combinatorial optimization problems.
翻訳日:2024-04-01 19:57:29 公開日:2024-03-29
# 光分解能を高めるために分離依存コヒーレンスを爆発させる

Exploiting separation-dependent coherence to boost optical resolution ( http://arxiv.org/abs/2401.13562v3 )

ライセンス: Link先を確認
Ilya Karuseichyk, Giacomo Sorelli, Vyacheslav Shatokhin, Mattia Walschaers, Nicolas Treps, (参考訳) 点状の光源を分解する問題は光学分解能のベンチマークとして機能するだけでなく、顕微鏡から天文学まで様々な応用がある。 本研究では,空間モード分割手法を用いて,任意の相互整合性を共有する2つの熱源を解くことを目的とする。 我々の分析研究は、コヒーレンスと排出率がソース間の分離に依存し、かすかなソース制限に制限されないシナリオを含む。 相互作用する2つの双極子の蛍光を考察し、利子パラメータに対する発光特性の依存性が推定の感度を高め、情報減衰の持続時間を顕著に延長することを示す。

The problem of resolving point-like light sources not only serves as a benchmark for optical resolution but also holds various practical applications ranging from microscopy to astronomy. In this research, we aim to resolve two thermal sources sharing arbitrary mutual coherence using the spatial mode demultiplexing technique. Our analytical study includes scenarios where the coherence and the emission rate depend on the separation between the sources, and is not limited to the faint sources limit. We consider the fluorescence of two interacting dipoles to demonstrate that the dependence of emission characteristics on the parameter of interest can boost the sensitivity of the estimation and noticeably prolong the duration of information decay.
翻訳日:2024-04-01 19:57:29 公開日:2024-03-29
# SERNet-Former:Attention-Boosting GatesとAttention-Fusion Networksを用いた効率的な残留ネットワークによるセマンティックセグメンテーション

SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks ( http://arxiv.org/abs/2401.15741v4 )

ライセンス: Link先を確認
Serdar Erisen, (参考訳) セマンティックセグメンテーションにおける最先端の手法の効率を改善するには、計算コストの増大を克服し、グローバルな文脈やローカルな文脈から意味情報を抽出するといった問題を克服する必要がある。 セマンティックセグメンテーションにおいて畳み込みニューラルネットワーク(CNN)が遭遇する最近の成功と問題に基づいて,一意に効率的な残余ネットワークであるEfficient-ResNetを用いたエンコーダデコーダアーキテクチャを提案する。 エンコーダ内の効率的な残留ネットワークのグローバルコンテキストの出力の等価サイズで同変および特徴に基づく意味情報を融合することを目的として、アテンションブースティングゲート(AbG)とアテンションブースティングモジュール(AbM)を配置する。 留意して、デコーダネットワークは、AbMにインスパイアされた追加の注意融合ネットワーク(AfN)で開発される。 AfNは、デコーダ部に追加の畳み込み層を配置することにより、意味情報の1対1変換の効率を向上させるように設計されている。 我々のネットワークは、挑戦的なCamVidとCityscapesのデータセットでテストされており、提案手法により、残余ネットワークに対する大幅な改善が示されている。 我々の知る限り、開発ネットワークであるSERNet-FormerはCamVidデータセット上で最先端の結果(84.62 %はIoU)を達成し、Cityscapesバリデーションデータセットでは挑戦的な結果(87.35 %はIoU)を達成している。

Improving the efficiency of state-of-the-art methods in semantic segmentation requires overcoming the increasing computational cost as well as issues such as fusing semantic information from global and local contexts. Based on the recent success and problems that convolutional neural networks (CNNs) encounter in semantic segmentation, this research proposes an encoder-decoder architecture with a unique efficient residual network, Efficient-ResNet. Attention-boosting gates (AbGs) and attention-boosting modules (AbMs) are deployed by aiming to fuse the equivariant and feature-based semantic information with the equivalent sizes of the output of global context of the efficient residual network in the encoder. Respectively, the decoder network is developed with the additional attention-fusion networks (AfNs) inspired by AbM. AfNs are designed to improve the efficiency in the one-to-one conversion of the semantic information by deploying additional convolution layers in the decoder part. Our network is tested on the challenging CamVid and Cityscapes datasets, and the proposed methods reveal significant improvements on the residual networks. To the best of our knowledge, the developed network, SERNet-Former, achieves state-of-the-art results (84.62 % mean IoU) on CamVid dataset and challenging results (87.35 % mean IoU) on Cityscapes validation dataset.
翻訳日:2024-04-01 19:57:29 公開日:2024-03-29
# 左利きメタマテリアル伝送路における粒子生成

Particle creation in left-handed metamaterial transmission lines ( http://arxiv.org/abs/2401.16976v3 )

ライセンス: Link先を確認
Alessandro Ferreri, David Edward Bruschi, Frank K. Wilhelm, (参考訳) 伝送線は量子場の量子シミュレータの優れた例である。 特定の回路要素を適切に駆動することにより、これらのデバイスは量子真空の非断熱的刺激による粒子生成のような相対論的および量子的に再現することができる。 超伝導量子干渉デバイスにおけるジョセフソンエネルギーの変調による左利き伝送線路の粒子生成について検討する。 以上の結果から,これらの系に存在する特異な分散関係により,通常の右利き送電線に対して,より良好な条件で粒子生成が生じることが示唆された。

Transmission lines are excellent examples of quantum simulators of quantum fields. By appropriately driving specific circuit elements, these devices can reproduce relativistic and quantum such as particle creation due to the non-adiabatic stimulation of the quantum vacuum. We investigate particle creation in left-handed transmission lines induced by the modulation of the Josephson energy in superconducting quantum interference devices. Our results show that, as a consequence of the peculiar dispersion relations present in these systems, particle production occurs with much more favorable conditions with respect to the usual right-handed transmission lines.
翻訳日:2024-04-01 19:57:29 公開日:2024-03-29
# CroissantLLM: 真にバイリンガルなフランス語と英語の言語モデル

CroissantLLM: A Truly Bilingual French-English Language Model ( http://arxiv.org/abs/2402.00786v4 )

ライセンス: Link先を確認
Manuel Faysse, Patrick Fernandes, Nuno M. Guerreiro, António Loison, Duarte M. Alves, Caio Corro, Nicolas Boizard, João Alves, Ricardo Rei, Pedro H. Martins, Antoni Bigata Casademunt, François Yvon, André F. T. Martins, Gautier Viaud, Céline Hudelot, Pierre Colombo, (参考訳) 3Tの英語とフランス語のトークンセットで事前訓練された1.3B言語モデルであるCroissantLLMを導入し、研究と産業コミュニティに、コンシューマグレードのローカルハードウェア上で迅速に動作する高性能で完全にオープンソースなバイリンガルモデルをもたらす。 そこで本研究では、英語とフランス語の事前学習データ比率1:1、カスタムトークン化器、およびバイリンガル微調整データセットを用いて、本質的なバイリンガルモデルを訓練するアプローチを開拓した。 トレーニングデータセットは、特に、手作業でキュレートされた、高品質で、さまざまなデータソースを備えた、フランスの分割を含むものです。 英語以外でのパフォーマンスを評価するために,分類タスクと生成タスクからなる新しいベンチマークである FrenchBench を構築し,フランス語におけるモデルパフォーマンスの直交的な側面を網羅した。 さらに、透明性に根ざし、さらに大規模な言語モデルの研究を促進するために、コードベースと、さまざまなモデルサイズ、トレーニングデータ配布、トレーニングステップ、微調整のChatモデル、強力な翻訳モデルを含む数十のチェックポイントをリリースしています。 FMTIフレームワークを通じてモデルを評価し,透明性基準の81%を検証した。 この研究は、言語モデルにおける多言語性の理解を強化するために、従来の英語中心の作業から切り離されたNLPの景観を豊かにする。

We introduce CroissantLLM, a 1.3B language model pretrained on a set of 3T English and French tokens, to bring to the research and industrial community a high-performance, fully open-sourced bilingual model that runs swiftly on consumer-grade local hardware. To that end, we pioneer the approach of training an intrinsically bilingual model with a 1:1 English-to-French pretraining data ratio, a custom tokenizer, and bilingual finetuning datasets. We release the training dataset, notably containing a French split with manually curated, high-quality, and varied data sources. To assess performance outside of English, we craft a novel benchmark, FrenchBench, consisting of an array of classification and generation tasks, covering various orthogonal aspects of model performance in the French Language. Additionally, rooted in transparency and to foster further Large Language Model research, we release codebases, and dozens of checkpoints across various model sizes, training data distributions, and training steps, as well as fine-tuned Chat models, and strong translation models. We evaluate our model through the FMTI framework, and validate 81 % of the transparency criteria, far beyond the scores of even most open initiatives. This work enriches the NLP landscape, breaking away from previous English-centric work in order to strengthen our understanding of multilinguality in language models.
翻訳日:2024-04-01 19:57:29 公開日:2024-03-29
# ゲームウィールウルフにおける大規模言語モデルのエンハンス推論

Enhance Reasoning for Large Language Models in the Game Werewolf ( http://arxiv.org/abs/2402.02330v2 )

ライセンス: Link先を確認
Shuang Wu, Liwen Zhu, Tao Yang, Shiwei Xu, Qiang Fu, Yang Wei, Haobo Fu, (参考訳) 本稿では,LLMをベースとしたエージェントの推論能力を高めるために,LLM(Large Language Models)を外部のThinkerモジュールと統合する革新的なフレームワークを提案する。 迅速なエンジニアリングによるLLMの拡張とは異なり、Thinkerはデータベースからの知識を直接活用し、様々な最適化技術を採用している。 このフレームワークは、LLMが自然言語処理のような直感的なSystem-1タスクを処理するための推論階層を形成し、Thinkerは複雑な論理解析とドメイン固有の知識を必要とするSystem-2タスクに焦点を当てている。 本フレームワークは,マルチシステム推論を必要とする9人プレイヤのWerewolfゲームを用いて提案する。 LLMとThinker間の通信プロトコルを導入し、18800人のセッションと強化学習のデータを用いてThinkerを訓練する。 実験では, 帰納的推論, 音声生成, オンラインゲーム評価におけるフレームワークの有効性を示す。 さらに、6B LLMを微調整して、Thinkerと統合した場合、GPT4を超えるようにします。 本稿では,これまでで最大のソーシャル・デダクション・ゲームデータセットを提供する。

This paper presents an innovative framework that integrates Large Language Models (LLMs) with an external Thinker module to enhance the reasoning capabilities of LLM-based agents. Unlike augmenting LLMs with prompt engineering, Thinker directly harnesses knowledge from databases and employs various optimization techniques. The framework forms a reasoning hierarchy where LLMs handle intuitive System-1 tasks such as natural language processing, while the Thinker focuses on cognitive System-2 tasks that require complex logical analysis and domain-specific knowledge. Our framework is presented using a 9-player Werewolf game that demands dual-system reasoning. We introduce a communication protocol between LLMs and the Thinker, and train the Thinker using data from 18800 human sessions and reinforcement learning. Experiments demonstrate the framework's effectiveness in deductive reasoning, speech generation, and online game evaluation. Additionally, we fine-tune a 6B LLM to surpass GPT4 when integrated with the Thinker. This paper also contributes the largest dataset for social deduction games to date.
翻訳日:2024-04-01 19:57:29 公開日:2024-03-29
# 変分フローモデル:あなたのスタイルで流れる

Variational Flow Models: Flowing in Your Style ( http://arxiv.org/abs/2402.02977v3 )

ライセンス: Link先を確認
Kien Do, Duc Kieu, Toan Nguyen, Dang Nguyen, Hung Le, Dung Nguyen, Thin Nguyen, (参考訳) 後流(posterior flow) - 「確率フロー」(probability flow)の一般化を、必ずしも拡散過程ではないより広範な確率過程のクラスに導入し、Xt = at * X0 + st * X1 の方程式を特徴とする「線形」確率過程の後流を直列定速(SC)流に変換する体系的な学習自由な手法を提案する。 この変換は、SC流の新しいモデルを訓練することなく、元の後流に沿って高速なサンプリングを容易にする。 このアプローチの柔軟性により、異なる「線形」確率過程から2つの後流を相互変換する変換を拡張できる。 さらに,高次数値解法を変換SC流に容易に組み込むことができ,サンプリング精度と効率が向上する。 厳密な理論的解析と広範な実験結果は,我々の枠組みの利点を裏付けるものである。

We introduce "posterior flows" - generalizations of "probability flows" to a broader class of stochastic processes not necessarily diffusion processes - and propose a systematic training-free method to transform the posterior flow of a "linear" stochastic process characterized by the equation Xt = at * X0 + st * X1 into a straight constant-speed (SC) flow, reminiscent of Rectified Flow. This transformation facilitates fast sampling along the original posterior flow without training a new model of the SC flow. The flexibility of our approach allows us to extend our transformation to inter-convert two posterior flows from distinct "linear" stochastic processes. Moreover, we can easily integrate high-order numerical solvers into the transformed SC flow, further enhancing sampling accuracy and efficiency. Rigorous theoretical analysis and extensive experimental results substantiate the advantages of our framework.
翻訳日:2024-04-01 18:02:50 公開日:2024-03-29
# Lens: サイバーセキュリティにおけるネットワークトラフィックの基礎モデル

Lens: A Foundation Model for Network Traffic in Cybersecurity ( http://arxiv.org/abs/2402.03646v3 )

ライセンス: Link先を確認
Qineng Wang, Chen Qian, Xiaochang Li, Ziyu Yao, Huajie Shao, (参考訳) ネットワークトラフィック(ネットワークトラフィック)とは、インターネットやコンピュータを接続するシステムを通じて送信されるデータの量である。 ネットワークトラフィックの分析と理解は、ネットワークのセキュリティと管理を改善する上で不可欠である。 しかし、データパケットの性質が多様であることから、ネットワークトラフィックの分析は困難である。 トラフィックの潜在的セマンティクスを捉えるために、Transformerエンコーダやデコーダをベースとした事前学習技術を用いて、大量のトラフィックデータから表現を学習する研究がいくつかある。 しかし、これらの手法は一般的にトラフィック理解(分類)やトラフィック生成タスクに優れている。 この問題に対処するため,T5アーキテクチャを利用したネットワークトラフィック基盤モデルLensを開発し,大規模未ラベルデータから事前学習を行う。 生成能力を保ちながらグローバル情報をキャプチャするエンコーダ・デコーダ・フレームワークの強みを活かして,本モデルでは生データから表現をよりよく学習することができる。 事前学習の有効性をさらに高めるために,マスク付きスパン予測(MSP),パケット順序予測(POP),ホモログトラフィック予測(HTP)の3つの異なるタスクを組み合わせた新しい損失を設計する。 様々なベンチマークデータセットによる評価結果から,提案したLensは,トラフィック理解と生成の両方に関連するほとんどの下流タスクにおいて,ベースラインを上回っていることが示された。 特に、現在のメソッドと比較して、微調整のためにラベル付きデータもはるかに少なくなります。

Network traffic refers to the amount of data being sent and received over the internet or any system that connects computers. Analyzing and understanding network traffic is vital for improving network security and management. However, the analysis of network traffic is challenging due to the diverse nature of data packets, which often feature heterogeneous headers and encrypted payloads lacking semantics. To capture the latent semantics of traffic, a few studies have adopted pre-training techniques based on the Transformer encoder or decoder to learn the representations from massive traffic data. However, these methods typically excel in traffic understanding (classification) or traffic generation tasks. To address this issue, we develop Lens, a foundation model for network traffic that leverages the T5 architecture to learn the pre-trained representations from large-scale unlabeled data. Harnessing the strength of the encoder-decoder framework, which captures the global information while preserving the generative ability, our model can better learn the representations from raw data. To further enhance pre-training effectiveness, we design a novel loss that combines three distinct tasks: Masked Span Prediction (MSP), Packet Order Prediction (POP), and Homologous Traffic Prediction (HTP). Evaluation results across various benchmark datasets demonstrate that the proposed Lens outperforms the baselines in most downstream tasks related to both traffic understanding and generation. Notably, it also requires much less labeled data for fine-tuning compared to current methods.
翻訳日:2024-04-01 18:02:50 公開日:2024-03-29
# 大規模言語モデルを用いた対話的評価のための多視点フレームワーク

A Multi-Aspect Framework for Counter Narrative Evaluation using Large Language Models ( http://arxiv.org/abs/2402.11676v2 )

ライセンス: Link先を確認
Jaylen Jones, Lingbo Mo, Eric Fosler-Lussier, Huan Sun, (参考訳) ヘイトスピーチの介入戦略として、ヘイトフルな主張を否定し、遭遇を非エスカレートするために設計されたヘイトスピーチの文脈に対するインフォームド・レスポンス(英語版)が登場した。 従来,手作業の介入を支援するための自動対言生成手法が提案されてきたが,これらの手法の評価はいまだに未開発である。 従来の対物的評価のための自動指標は、対物的評価基準として、対物的品質の重要な側面を取り入れるのではなく、表面的基準による比較に頼っているため、人間の判断と一致しない。 先行評価の限界に対処するため,本研究では,対人物語専門NGOのガイドラインから派生した5つの定義された側面を用いて,LLMが生成した対人物語候補に対してスコアとフィードバックを提供するための新しい評価フレームワークを提案する。 LLM評価器は人手による注釈付きスコアやフィードバックに強く対応し,多視点・参照なし・解釈可能な評価器としての可能性を示した。

Counter narratives - informed responses to hate speech contexts designed to refute hateful claims and de-escalate encounters - have emerged as an effective hate speech intervention strategy. While previous work has proposed automatic counter narrative generation methods to aid manual interventions, the evaluation of these approaches remains underdeveloped. Previous automatic metrics for counter narrative evaluation lack alignment with human judgment as they rely on superficial reference comparisons instead of incorporating key aspects of counter narrative quality as evaluation criteria. To address prior evaluation limitations, we propose a novel evaluation framework prompting LLMs to provide scores and feedback for generated counter narrative candidates using 5 defined aspects derived from guidelines from counter narrative specialized NGOs. We found that LLM evaluators achieve strong alignment to human-annotated scores and feedback and outperform alternative metrics, indicating their potential as multi-aspect, reference-free and interpretable evaluators for counter narrative evaluation.
翻訳日:2024-04-01 18:02:50 公開日:2024-03-29
# MultiCorrupt: マルチモードロバストネスデータセットと3次元物体検出のためのLiDAR-Camera Fusionのベンチマーク

MultiCorrupt: A Multi-Modal Robustness Dataset and Benchmark of LiDAR-Camera Fusion for 3D Object Detection ( http://arxiv.org/abs/2402.11677v2 )

ライセンス: Link先を確認
Till Beemelmanns, Quan Zhang, Lutz Eckstein, (参考訳) 自動走行のためのマルチモーダル3Dオブジェクト検出モデルは、nuScenesのようなコンピュータビジョンベンチマークでは例外的な性能を示した。 しかし、密集したLiDAR点雲や精密に校正されたセンサーアレイへの依存は、現実世界のアプリケーションに課題をもたらす。 センサの不整合、誤校正、異なるサンプリング周波数などの問題は、LiDARとカメラのデータにおける空間的および時間的不整合につながる。 加えて、LiDARとカメラデータの完全性は、インクリメント気象などの有害な環境条件によってしばしば損なわれ、閉塞やノイズ干渉を引き起こす。 この課題に対処するため,MultiCorruptは,10種類の汚職に対してマルチモーダル3Dオブジェクト検出器の堅牢性を評価するために設計された総合的なベンチマークである。 我々は,MultiCorrupt上で5つの最先端マルチモーダル検出器を評価し,その耐久性能の観点からその性能を解析した。 以上の結果から, 既存手法は, 腐敗の種類や融合戦略によって, 各種の強靭性を示すことがわかった。 マルチモーダルな設計選択が、そのようなモデルをある種の摂動に対して堅牢にするための洞察を提供する。 データセット生成コードとベンチマークはhttps://github.com/ika-rwth-aachen/MultiCorruptで公開されている。

Multi-modal 3D object detection models for automated driving have demonstrated exceptional performance on computer vision benchmarks like nuScenes. However, their reliance on densely sampled LiDAR point clouds and meticulously calibrated sensor arrays poses challenges for real-world applications. Issues such as sensor misalignment, miscalibration, and disparate sampling frequencies lead to spatial and temporal misalignment in data from LiDAR and cameras. Additionally, the integrity of LiDAR and camera data is often compromised by adverse environmental conditions such as inclement weather, leading to occlusions and noise interference. To address this challenge, we introduce MultiCorrupt, a comprehensive benchmark designed to evaluate the robustness of multi-modal 3D object detectors against ten distinct types of corruptions. We evaluate five state-of-the-art multi-modal detectors on MultiCorrupt and analyze their performance in terms of their resistance ability. Our results show that existing methods exhibit varying degrees of robustness depending on the type of corruption and their fusion strategy. We provide insights into which multi-modal design choices make such models robust against certain perturbations. The dataset generation code and benchmark are open-sourced at https://github.com/ika-rwth-aachen/MultiCorrupt.
翻訳日:2024-04-01 18:02:50 公開日:2024-03-29
# パラメータ効率の良いファインチューニングのための重み付きバックドアアタック対策

Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2402.12168v3 )

ライセンス: Link先を確認
Shuai Zhao, Leilei Gan, Luu Anh Tuan, Jie Fu, Lingjuan Lyu, Meihuizi Jia, Jinming Wen, (参考訳) 近年,言語モデルに適用するための様々なパラメータ効率細調整(PEFT)戦略が提案され,実装が成功している。 しかし、このことは、限られたモデルパラメータのみを更新するPEFTが、重み付けされたバックドア攻撃に直面した場合にセキュリティ上の脆弱性を構成するかどうかという疑問を提起する。 本研究では,PEFTが全パラメータ細調整法よりも重み付けバックドア攻撃の影響を受けやすいことを示す。 この知見により,PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。 具体的には、PEFTを利用して、ランダムにリセットされたサンプルラベルでPSIMをトレーニングする。 推測の過程では、極度に自信が有毒なサンプルの指標となり、他のものは清潔である。 テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。 実験では、PEFTを利用する場合、重量を抑えるバックドア攻撃が100%近い成功率を示す。 さらに,本研究の防御的アプローチは,重量減少によるバックドア攻撃を緩和するための総合的な競争性能を示す。

Recently, various parameter-efficient fine-tuning (PEFT) strategies for application to language models have been proposed and successfully implemented. However, this raises the question of whether PEFT, which only updates a limited set of model parameters, constitutes security vulnerabilities when confronted with weight-poisoning backdoor attacks. In this study, we show that PEFT is more susceptible to weight-poisoning backdoor attacks compared to the full-parameter fine-tuning method, with pre-defined triggers remaining exploitable and pre-defined targets maintaining high confidence, even after fine-tuning. Motivated by this insight, we developed a Poisoned Sample Identification Module (PSIM) leveraging PEFT, which identifies poisoned samples through confidence, providing robust defense against weight-poisoning backdoor attacks. Specifically, we leverage PEFT to train the PSIM with randomly reset sample labels. During the inference process, extreme confidence serves as an indicator for poisoned samples, while others are clean. We conduct experiments on text classification tasks, five fine-tuning strategies, and three weight-poisoning backdoor attack methods. Experiments show near 100% success rates for weight-poisoning backdoor attacks when utilizing PEFT. Furthermore, our defensive approach exhibits overall competitive performance in mitigating weight-poisoning backdoor attacks.
翻訳日:2024-04-01 18:02:50 公開日:2024-03-29
# ターミノロジー定義のための生成的人工知能の意味

What Generative Artificial Intelligence Means for Terminological Definitions ( http://arxiv.org/abs/2402.16139v2 )

ライセンス: Link先を確認
Antonio San Martín, (参考訳) 本稿では,ChatGPTのような生成人工知能(GenAI)ツールが用語定義の作成と消費に与える影響について検討する。 用語学の観点からは、GenAIツールの戦略的使用は、定義の作成プロセスの合理化、時間と労力の削減、品質の向上の可能性を秘めている。 GenAIツールはAI支援の用語学、特に後編集の用語学を可能にし、機械は、その用語学者が修正または洗練する定義を生成する。 しかし,GenAIツールが,用語定義を含む利用者のすべての用語的ニーズを満たす可能性を,私たちが知っている用語的定義やリソースの存在に挑戦する。 用語の定義とは異なり、GenAIツールは特定の文脈で用語によって活性化される知識を記述することができる。 しかし、これらのツールの主な欠点は、その出力がエラーを含むことができることである。 そのため、信頼性を必要とするユーザは、定義の用語的リソースに頼っている可能性が高い。 それでも、AIが用語学の仕事に必然的に統合されるにつれ、人間によって作られたコンテンツとAIによって作られたコンテンツとの区別はますます曖昧になる。

This paper examines the impact of Generative Artificial Intelligence (GenAI) tools like ChatGPT on the creation and consumption of terminological definitions. From the terminologist's point of view, the strategic use of GenAI tools can streamline the process of crafting definitions, reducing both time and effort, while potentially enhancing quality. GenAI tools enable AI-assisted terminography, notably post-editing terminography, where the machine produces a definition that the terminologist then corrects or refines. However, the potential of GenAI tools to fulfill all the terminological needs of a user, including term definitions, challenges the very existence of terminological definitions and resources as we know them. Unlike terminological definitions, GenAI tools can describe the knowledge activated by a term in a specific context. However, a main drawback of these tools is that their output can contain errors. For this reason, users requiring reliability will likely still resort to terminological resources for definitions. Nevertheless, with the inevitable integration of AI into terminology work, the distinction between human-created and AI-created content will become increasingly blurred.
翻訳日:2024-04-01 18:02:49 公開日:2024-03-29
# 階層型テキスト分類のための逆学習による局所階層の利用

Utilizing Local Hierarchy with Adversarial Training for Hierarchical Text Classification ( http://arxiv.org/abs/2402.18825v2 )

ライセンス: Link先を確認
Zihan Wang, Peiyi Wang, Houfeng Wang, (参考訳) 階層的テキスト分類(HTC)は、その複雑な分類構造のため、多ラベル分類の挑戦的なサブタスクである。 最近のHTCの作業は、ラベルがどのように構成されているかに重点を置いているが、実りあるラベルの共起情報を含む各入力テキストに従って、接地トラスラベルのサブ構造を無視している。 本稿では,この局所的な階層構造を逆の枠組みで紹介する。 我々は,ほぼすべてのHTCモデルに適合するHiAdvフレームワークを提案し,それを補助情報としてローカル階層で最適化する。 我々は2つの典型的なHTCモデルをテストし、HiAdvがすべてのシナリオで有効であり、複雑な分類学的階層を扱うのに十分であることを確認した。 さらなる実験により、我々のフレームワークの促進は、実際にローカルな階層から来ていることが示され、ローカルな階層は、トレーニングデータが不十分な稀なクラスにとって有益である。

Hierarchical text classification (HTC) is a challenging subtask of multi-label classification due to its complex taxonomic structure. Nearly all recent HTC works focus on how the labels are structured but ignore the sub-structure of ground-truth labels according to each input text which contains fruitful label co-occurrence information. In this work, we introduce this local hierarchy with an adversarial framework. We propose a HiAdv framework that can fit in nearly all HTC models and optimize them with the local hierarchy as auxiliary information. We test on two typical HTC models and find that HiAdv is effective in all scenarios and is adept at dealing with complex taxonomic hierarchies. Further experiments demonstrate that the promotion of our framework indeed comes from the local hierarchy and the local hierarchy is beneficial for rare classes which have insufficient training data.
翻訳日:2024-04-01 18:02:49 公開日:2024-03-29
# SNE-RoadSegV2:自由空間検出のための不均一な特徴融合と誤り認識の促進

SNE-RoadSegV2: Advancing Heterogeneous Feature Fusion and Fallibility Awareness for Freespace Detection ( http://arxiv.org/abs/2402.18918v2 )

ライセンス: Link先を確認
Yi Feng, Yu Ma, Qijun Chen, Ioannis Pitas, Rui Fan, (参考訳) 二重複素エンコーダを持つ特徴融合ネットワークは、自由空間検出問題の解決に有効な手法であることが証明されている。 しかし, 従来の研究成果にも拘わらず, 適切な不均一な特徴融合の探索や, 誤認性を考慮した損失関数の開発は比較的少ない。 本報告では, 特徴量と特徴量との相違を解消しつつ, デコーダアーキテクチャにスケール内とスケール内の両方のスキップ接続を組み込むことにより, 精度と計算効率を両立させるとともに, セマンティック・トランジションと深度不整合領域に分離して集中する2つの誤認識損失関数を導入し, モデルトレーニングにおいて, より深い監視に寄与する, 完全対応モジュール, 異種特徴コントラスト記述器, 親和性重み付き特徴校正器を含む, 新たな異種特徴融合ブロックを提案する。 これらすべての革新的なコンポーネントを組み込んだ異種機能融合ネットワーク(SNE-RoadSegV2)は,複数の公開データセットにまたがる他のすべての自由空間検出アルゴリズムと比較して,優れた性能を示す。 特に、公式のKITTI Roadベンチマークでは第1位にランクインしている。

Feature-fusion networks with duplex encoders have proven to be an effective technique to solve the freespace detection problem. However, despite the compelling results achieved by previous research efforts, the exploration of adequate and discriminative heterogeneous feature fusion, as well as the development of fallibility-aware loss functions remains relatively scarce. This paper makes several significant contributions to address these limitations: (1) It presents a novel heterogeneous feature fusion block, comprising a holistic attention module, a heterogeneous feature contrast descriptor, and an affinity-weighted feature recalibrator, enabling a more in-depth exploitation of the inherent characteristics of the extracted features, (2) it incorporates both inter-scale and intra-scale skip connections into the decoder architecture while eliminating redundant ones, leading to both improved accuracy and computational efficiency, and (3) it introduces two fallibility-aware loss functions that separately focus on semantic-transition and depth-inconsistent regions, collectively contributing to greater supervision during model training. Our proposed heterogeneous feature fusion network (SNE-RoadSegV2), which incorporates all these innovative components, demonstrates superior performance in comparison to all other freespace detection algorithms across multiple public datasets. Notably, it ranks the 1st on the official KITTI Road benchmark.
翻訳日:2024-04-01 18:02:49 公開日:2024-03-29
# CustomListener: ユーザフレンドリーなリスニングヘッド生成のためのテキスト誘導型応答型インタラクション

CustomListener: Text-guided Responsive Interaction for User-friendly Listening Head Generation ( http://arxiv.org/abs/2403.00274v2 )

ライセンス: Link先を確認
Xi Liu, Ying Guo, Cheng Zhen, Tong Li, Yingying Ao, Pengfei Yan, (参考訳) 動的変換における話者とリスナーの相関をモデル化し,非言語対応型リスナーヘッドを合成することを目的として,仮想対話におけるリスナーエージェント生成の適用により,多種多様かつきめ細かな動作生成を実現する多くの作業が促進されている。 しかし、単純な感情ラベルによってのみ動作を操作できるが、聴取者の動作を自由に制御することはできない。 リスナーエージェントは、ユーザーが自由にカスタマイズできる人間ライクな属性(例えば、アイデンティティ、パーソナリティ)を持つべきであるため、現実性は制限される。 本稿では,ユーザフレンドリーなフレームワークであるCustomListenerを提案する。 話者-リスナー調整を実現するため,話者情報と対話する静的・ダイナミック・ポートレート・モジュール (SDP) を設計し,完成リズムと振幅情報を用いて静的テキストを動的ポートレートトークンに変換する。 セグメント間のコヒーレンスを実現するために,先行動作によるカスタマイズされたリスナ属性の整合性を維持するために過去のガイド生成モジュール(PGG)を設計し,その制御可能な生成を実現する前に,ポートレートトークンとモーションに条件付けられた拡散に基づく構造を利用する。 我々のモデルを訓練し、評価するために、テキストとビデオのペアラベルを提供するViCoとRealTalkに基づく2つのテキストアノテートヘッドデータセットを構築した。 大規模な実験により,本モデルの有効性が検証された。

Listening head generation aims to synthesize a non-verbal responsive listener head by modeling the correlation between the speaker and the listener in dynamic conversion.The applications of listener agent generation in virtual interaction have promoted many works achieving the diverse and fine-grained motion generation. However, they can only manipulate motions through simple emotional labels, but cannot freely control the listener's motions. Since listener agents should have human-like attributes (e.g. identity, personality) which can be freely customized by users, this limits their realism. In this paper, we propose a user-friendly framework called CustomListener to realize the free-form text prior guided listener generation. To achieve speaker-listener coordination, we design a Static to Dynamic Portrait module (SDP), which interacts with speaker information to transform static text into dynamic portrait token with completion rhythm and amplitude information. To achieve coherence between segments, we design a Past Guided Generation Module (PGG) to maintain the consistency of customized listener attributes through the motion prior, and utilize a diffusion-based structure conditioned on the portrait token and the motion prior to realize the controllable generation. To train and evaluate our model, we have constructed two text-annotated listening head datasets based on ViCo and RealTalk, which provide text-video paired labels. Extensive experiments have verified the effectiveness of our model.
翻訳日:2024-04-01 18:02:49 公開日:2024-03-29
# EAGLE: オブジェクト中心の教師なしセマンティックセマンティックセグメンテーションのための固有集約学習

EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2403.01482v3 )

ライセンス: Link先を確認
Chanyoung Kim, Woojung Han, Dayun Ju, Seong Jae Hwang, (参考訳) セマンティックセグメンテーションは、本来は広いピクセルレベルの注釈付きデータに依存しており、教師なしの方法論の出現につながっている。 その中では、教師なしセマンティックセグメンテーション(USS)に自己教師付きビジョントランスフォーマーを活用することで、表現力のある深い特徴で着実に進歩している。 しかし、複雑なオブジェクトでイメージをセグメンテーションする際、重要な課題は、パッチレベルの機能に明示的なオブジェクトレベルのセマンティックエンコーディングがないことである。 この技術的な制限は、しばしば多様な構造を持つ複素対象の十分でない部分化につながる。 このギャップに対処するために、教師なしセマンティックセグメンテーションのためのオブジェクト指向表現学習を強調する新しいアプローチであるEAGLEを提案する。 具体的には、深部画像の特徴と色親和性のセマンティック類似性行列から導かれる固有ベイジを通じて、意味的および構造的手がかりを提供するスペクトル技術であるEiCueを紹介する。 さらに,EiCueにオブジェクト中心のコントラスト損失を組み込むことで,画像内および画像間のオブジェクト間整合性でオブジェクトレベルの表現を学習し,セマンティックな精度を向上させる。 COCO-Stuff、Cityscapes、Potsdam-3データセットに関する大規模な実験は、複雑なシーンにわたる正確で一貫したセマンティックセグメンテーションを備えたEAGLEの最先端のUSS結果を示している。

Semantic segmentation has innately relied on extensive pixel-level annotated data, leading to the emergence of unsupervised methodologies. Among them, leveraging self-supervised Vision Transformers for unsupervised semantic segmentation (USS) has been making steady progress with expressive deep features. Yet, for semantically segmenting images with complex objects, a predominant challenge remains: the lack of explicit object-level semantic encoding in patch-level features. This technical limitation often leads to inadequate segmentation of complex objects with diverse structures. To address this gap, we present a novel approach, EAGLE, which emphasizes object-centric representation learning for unsupervised semantic segmentation. Specifically, we introduce EiCue, a spectral technique providing semantic and structural cues through an eigenbasis derived from the semantic similarity matrix of deep image features and color affinity from an image. Further, by incorporating our object-centric contrastive loss with EiCue, we guide our model to learn object-level representations with intra- and inter-image object-feature consistency, thereby enhancing semantic accuracy. Extensive experiments on COCO-Stuff, Cityscapes, and Potsdam-3 datasets demonstrate the state-of-the-art USS results of EAGLE with accurate and consistent semantic segmentation across complex scenes.
翻訳日:2024-04-01 18:02:49 公開日:2024-03-29
# SemEval-2024 Shared Task 6: SHROOM, Shared-task on Hallucinations and Related Observable Overgeneration misstakes

SemEval-2024 Shared Task 6: SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes ( http://arxiv.org/abs/2403.07726v3 )

ライセンス: Link先を確認
Timothee Mickus, Elaine Zosa, Raúl Vázquez, Teemu Vahtola, Jörg Tiedemann, Vincent Segonne, Alessandro Raganato, Marianna Apidianaki, (参考訳) 本稿では, 自然言語生成システム(NLG)から生成した, 流動的で不正確である幻覚の検出に焦点をあてた共有タスクであるSHROOMの結果について述べる。 オーバージェネレーションのケースは、しばしばミッションクリティカルである多くのNLGアプリケーションに危険を及ぼす。 共有タスクは、機械翻訳、パラフレーズ生成、定義モデリングという3つのNLPタスクにまたがる5つのアノテータによってラベル付けされた4000モデル出力のデータセットを新たに構築した。 共有タスクは、42チームでグループ化された58の異なるユーザによって取り組まれ、そのうち27人がシステム記述紙の執筆に選ばれ、合計で、共有タスクの両トラックに300以上の予測セットが提出された。 多くの参加者は少数のモデルに依存しており、しばしば微調整やゼロショットのプロンプト戦略のために合成データに依存しています。 チームの大多数が提案したベースラインシステムより優れていますが、トップスコアシステムのパフォーマンスは依然として、より困難なアイテムのランダムなハンドリングと一致しています。

This paper presents the results of the SHROOM, a shared task focused on detecting hallucinations: outputs from natural language generation (NLG) systems that are fluent, yet inaccurate. Such cases of overgeneration put in jeopardy many NLG applications, where correctness is often mission-critical. The shared task was conducted with a newly constructed dataset of 4000 model outputs labeled by 5 annotators each, spanning 3 NLP tasks: machine translation, paraphrase generation and definition modeling. The shared task was tackled by a total of 58 different users grouped in 42 teams, out of which 27 elected to write a system description paper; collectively, they submitted over 300 prediction sets on both tracks of the shared task. We observe a number of key trends in how this approach was tackled -- many participants rely on a handful of model, and often rely either on synthetic data for fine-tuning or zero-shot prompting strategies. While a majority of the teams did outperform our proposed baseline system, the performances of top-scoring systems are still consistent with a random handling of the more challenging items.
翻訳日:2024-04-01 18:02:49 公開日:2024-03-29
# 最小二乗問題に対するプレコンディショニングによるSGDの帰納規則化の改善

Improving Implicit Regularization of SGD with Preconditioning for Least Square Problems ( http://arxiv.org/abs/2403.08585v2 )

ライセンス: Link先を確認
Junwei Su, Difan Zou, Chuan Wu, (参考訳) 確率勾配降下 (SGD) はアルゴリズムの正則化効果が強く、現代の機械学習の一般化において重要な役割を果たしている。 しかし、従来の研究では、SGDの一般化性能が、異なる次元に沿った不均一な最適化のため、リッジ回帰よりも悪いことが判明している。 プレコンディショニングは、最適化を異なる方向に再バランスすることで、この問題に自然な解決策を提供する。 しかし, プレコンディショニングによってSGDの一般化性能が向上し, 既存の溝をリッジレグレッションで橋渡しできるかどうかは不明である。 本稿では,最小二乗問題に対する事前条件付きSGDの一般化性能について検討する。 プレコンディション付きSGDと(標準 \&プレコンディション付き)リッジレグレッションの総合的な比較を行う。 本研究は,プレコンディショニングによるSGDの理解と改善にいくつかの重要な貢献をしている。 まず、任意の事前条件行列の下で、事前条件付きSGDとリッジ回帰に対する過剰リスク境界(一般化性能)を確立する。 第二に、プレコンディショニングされたSGDとリッジ回帰の過度なリスク特性を利用して、(構成を通して)単純なプレコンディショニングされた行列が存在し、(標準の \&プレコンディショニングされた)リッジ回帰よりも優れていることを示す。 最後に, 提案したプレコンディショニング行列は, リッジ回帰に対する理論的優位性を維持しつつ, 有限標本からのロバストな推定を可能にするほど単純であることを示す。 予備条件付きSGDの高次正則化効果を総合的に示し, 実験結果と理論的知見が一致した。

Stochastic gradient descent (SGD) exhibits strong algorithmic regularization effects in practice and plays an important role in the generalization of modern machine learning. However, prior research has revealed instances where the generalization performance of SGD is worse than ridge regression due to uneven optimization along different dimensions. Preconditioning offers a natural solution to this issue by rebalancing optimization across different directions. Yet, the extent to which preconditioning can enhance the generalization performance of SGD and whether it can bridge the existing gap with ridge regression remains uncertain. In this paper, we study the generalization performance of SGD with preconditioning for the least squared problem. We make a comprehensive comparison between preconditioned SGD and (standard \& preconditioned) ridge regression. Our study makes several key contributions toward understanding and improving SGD with preconditioning. First, we establish excess risk bounds (generalization performance) for preconditioned SGD and ridge regression under an arbitrary preconditions matrix. Second, leveraging the excessive risk characterization of preconditioned SGD and ridge regression, we show that (through construction) there exists a simple preconditioned matrix that can outperform (standard \& preconditioned) ridge regression. Finally, we show that our proposed preconditioning matrix is straightforward enough to allow robust estimation from finite samples while maintaining a theoretical advantage over ridge regression. Our empirical results align with our theoretical findings, collectively showcasing the enhanced regularization effect of preconditioned SGD.
翻訳日:2024-04-01 18:02:49 公開日:2024-03-29
# 文脈内学習における実証的ショートカットの定式化

Rectifying Demonstration Shortcut in In-Context Learning ( http://arxiv.org/abs/2403.09488v2 )

ライセンス: Link先を確認
Joonwon Jang, Sanghwan Jang, Wonbin Kweon, Minjin Jeon, Hwanjo Yu, (参考訳) 大規模言語モデル(LLM)は、ICL(In-context Learning)能力を利用したいくつかのデモで、様々なタスクを解くことができる。 しかし、LCMはICL予測を進めるために、インプット-ラベル関係よりも、事前に訓練されたデモのセマンティック先行に頼っていることが多い。 本研究では、この現象を「祝祭ショートカット」と呼ぶ。 従来の研究は主に、事前定義されたタスクに対するICL予測結果の改善に重点を置いているが、我々はデモから新たなインプット-ラベル関係を効果的に学習できるように、Demonstration Shortcutの修正を目指している。 これを実現するために,実証対応キャリブレーション手法であるIn-Context Calibrationを導入する。 提案手法の有効性を,(1)標準ラベル空間を用いたオリジナルICLタスク,(2)意味不明なトークンでラベル空間を置き換えるタスク学習設定の2つの設定で評価する。 どちらの設定でも、In-Context Calibrationは大幅に改善され、様々な構成で3つのLLMファミリ(OPT、GPT、Llama2)にまたがって結果が一般化される。

Large language models (LLMs) are able to solve various tasks with only a few demonstrations utilizing their in-context learning (ICL) abilities. However, LLMs often rely on their pre-trained semantic priors of demonstrations rather than on the input-label relationships to proceed with ICL prediction. In this work, we term this phenomenon as the 'Demonstration Shortcut'. While previous works have primarily focused on improving ICL prediction results for predefined tasks, we aim to rectify the Demonstration Shortcut, thereby enabling the LLM to effectively learn new input-label relationships from demonstrations. To achieve this, we introduce In-Context Calibration, a demonstration-aware calibration method. We evaluate the effectiveness of the proposed method in two settings: (1) the Original ICL Task using the standard label space and (2) the Task Learning setting, where the label space is replaced with semantically unrelated tokens. In both settings, In-Context Calibration demonstrates substantial improvements, with results generalized across three LLM families (OPT, GPT, and Llama2) under various configurations.
翻訳日:2024-04-01 17:53:05 公開日:2024-03-29
# PET-SQL: 相互一貫性を備えたプロンプト強化2段階のテキスト間SQLフレームワーク

PET-SQL: A Prompt-enhanced Two-stage Text-to-SQL Framework with Cross-consistency ( http://arxiv.org/abs/2403.09732v3 )

ライセンス: Link先を確認
Zhishuai Li, Xiang Wang, Jingjing Zhao, Sun Yang, Guoqing Du, Xiaoru Hu, Bin Zhang, Yuxiao Ye, Ziyue Li, Rui Zhao, Hangyu Mao, (参考訳) Text-to-SQL(Text2SQL)の最近の進歩は、コンテキスト内学習における大きな言語モデル(LLM)の刺激を強調し、大きな成果を上げている。 それでも、冗長なデータベース情報や複雑なユーザ意図を扱う場合、問題に直面します。 本稿では,現在のLLMをベースとした自然言語をSQLシステムに拡張するための2段階のフレームワークを提案する。 まず、スキーマ情報とテーブルからランダムにサンプリングされたセル値を含む、参照強調表現と呼ばれる新しいプロンプト表現を導入し、SQLクエリの生成をLLMに指示する。 そして、最初の段階で、質問とSQLのペアは、数ショットのデモとして検索され、LCMは予備のSQL(PreSQL)を生成する。 その後、PreSQLの前述のエンティティを解析してスキーマリンクを実行することで、有用な情報を大幅にコンパクト化することができる。 第2段階では、リンクされたスキーマを用いてプロンプトのスキーマ情報を単純化し、LCMに最終的なSQLを生成するように指示する。 最後に,再分別後のモジュールとして,特定のLLM内の自己整合性ではなく,異なるLLM間での相互整合性(cross-consistency)を提案する。 提案手法は, 87.6%の精度で, スパイダーベンチマークで新しいSOTA結果が得られる。

Recent advancements in Text-to-SQL (Text2SQL) emphasize stimulating the large language models (LLM) on in-context learning, achieving significant results. Nevertheless, they face challenges when dealing with verbose database information and complex user intentions. This paper presents a two-stage framework to enhance the performance of current LLM-based natural language to SQL systems. We first introduce a novel prompt representation, called reference-enhanced representation, which includes schema information and randomly sampled cell values from tables to instruct LLMs in generating SQL queries. Then, in the first stage, question-SQL pairs are retrieved as few-shot demonstrations, prompting the LLM to generate a preliminary SQL (PreSQL). After that, the mentioned entities in PreSQL are parsed to conduct schema linking, which can significantly compact the useful information. In the second stage, with the linked schema, we simplify the prompt's schema information and instruct the LLM to produce the final SQL. Finally, as the post-refinement module, we propose using cross-consistency across different LLMs rather than self-consistency within a particular LLM. Our methods achieve new SOTA results on the Spider benchmark, with an execution accuracy of 87.6%.
翻訳日:2024-04-01 17:53:05 公開日:2024-03-29
# 合成語彙データの構造化評価

Structured Evaluation of Synthetic Tabular Data ( http://arxiv.org/abs/2403.10424v2 )

ライセンス: Link先を確認
Scott Cheng-Hsin Yang, Baxter Eaves, Michael Schmidt, Ken Swanson, Patrick Shafto, (参考訳) タブラルデータは一般的には不完全であり、ボリュームは小さく、プライバシー上の懸念からアクセス制限されている。 合成データ生成は潜在的な解決策を提供する。 合成表データの質を評価するために多くの指標が存在するが、多くの指標の客観的かつ一貫性のある解釈は欠如している。 この問題に対処するために,観測データと同じ分布から合成データを抽出すべきとする,単一の数学的目的を持つ評価フレームワークを提案する。 目的のさまざまな構造的分解を通じて、このフレームワークは、任意のメトリクスセットの完全性を初めて推論し、忠実さ、ダウンストリームアプリケーション、モデルベースのアプローチから派生したメトリクスを含む既存のメトリクスを統一することを可能にする。 さらに、このフレームワークはモデルフリーのベースラインと新しいメトリクスのスペクトルを動機付けている。 深層学習を利用した構造情報型シンセサイザーとシンセサイザーの評価を行った。 構造化されたフレームワークを用いて、表構造を明示的に表現する合成データ生成装置が、特に小さなデータセットにおいて、他の手法よりも優れていることを示す。

Tabular data is common yet typically incomplete, small in volume, and access-restricted due to privacy concerns. Synthetic data generation offers potential solutions. Many metrics exist for evaluating the quality of synthetic tabular data; however, we lack an objective, coherent interpretation of the many metrics. To address this issue, we propose an evaluation framework with a single, mathematical objective that posits that the synthetic data should be drawn from the same distribution as the observed data. Through various structural decomposition of the objective, this framework allows us to reason for the first time the completeness of any set of metrics, as well as unifies existing metrics, including those that stem from fidelity considerations, downstream application, and model-based approaches. Moreover, the framework motivates model-free baselines and a new spectrum of metrics. We evaluate structurally informed synthesizers and synthesizers powered by deep learning. Using our structured framework, we show that synthetic data generators that explicitly represent tabular structure outperform other methods, especially on smaller datasets.
翻訳日:2024-04-01 17:53:05 公開日:2024-03-29
# P-MapNet: SDMapとHDMapの両方で強化されたFar-seeing Map Generator

P-MapNet: Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors ( http://arxiv.org/abs/2403.10521v3 )

ライセンス: Link先を確認
Zhou Jiang, Zhenxin Zhu, Pengfei Li, Huan-ang Gao, Tianyuan Yuan, Yongliang Shi, Hang Zhao, Hao Zhao, (参考訳) 自動運転車は今日、ハイデフィニションマップ(HDMaps)の助けを借りて、徐々に都市道路に入りつつある。 しかし、HDMapsへの依存は、この高価なデジタルインフラなしで自動運転車が地域に入るのを防ぐ。 この事実は、多くの研究者がオンラインHDMap生成アルゴリズムの研究を加速させるが、これらのアルゴリズムの性能は未だに満足できない。 提案するP-MapNetでは、P文字は、モデル性能を改善するために、マッププリエントの導入に重点を置いているという事実を強調している。 具体的には、SDMapとHDMapの両方のプリミティブを利用しています。 一方、OpenStreetMapから弱い整列SDMapを抽出し、それを追加の条件分岐としてエンコードする。 設計ミスにもかかわらず、注意に基づくアーキテクチャはSDMapスケルトンに適応的に対応し、性能を著しく向上させる。 一方、マスク付きオートエンコーダを用いてHDMapの事前分布をキャプチャし、オクルージョンやアーティファクトを緩和するリファインメントモジュールとして機能する。 nuScenesとArgoverse2データセットをベンチマークします。 1)ラースタ化(最大$+18.73$$\rm mIoU$)とベクター化(最大$+8.50$$\rm mAP$)の2つの出力表現を使用して、SDMapの事前使用により、オンラインマップ生成のパフォーマンスが向上する。 2) HDMap プリミティブは、最大 6.34 %$ のマップ知覚メトリクスを改善できます。 (3) P-MapNetは、精度と効率のトレードオフの異なる領域をカバーする異なる推論モードに切り替えることができる。 (4) P-MapNetは、長い範囲でより大きな改善をもたらす、遠方のソリューションである。 コードとモデルはhttps://jike5.github.io/P-MapNet.comで公開されている。

Autonomous vehicles are gradually entering city roads today, with the help of high-definition maps (HDMaps). However, the reliance on HDMaps prevents autonomous vehicles from stepping into regions without this expensive digital infrastructure. This fact drives many researchers to study online HDMap generation algorithms, but the performance of these algorithms at far regions is still unsatisfying. We present P-MapNet, in which the letter P highlights the fact that we focus on incorporating map priors to improve model performance. Specifically, we exploit priors in both SDMap and HDMap. On one hand, we extract weakly aligned SDMap from OpenStreetMap, and encode it as an additional conditioning branch. Despite the misalignment challenge, our attention-based architecture adaptively attends to relevant SDMap skeletons and significantly improves performance. On the other hand, we exploit a masked autoencoder to capture the prior distribution of HDMap, which can serve as a refinement module to mitigate occlusions and artifacts. We benchmark on the nuScenes and Argoverse2 datasets. Through comprehensive experiments, we show that: (1) our SDMap prior can improve online map generation performance, using both rasterized (by up to $+18.73$ $\rm mIoU$) and vectorized (by up to $+8.50$ $\rm mAP$) output representations. (2) our HDMap prior can improve map perceptual metrics by up to $6.34\%$. (3) P-MapNet can be switched into different inference modes that covers different regions of the accuracy-efficiency trade-off landscape. (4) P-MapNet is a far-seeing solution that brings larger improvements on longer ranges. Codes and models are publicly available at https://jike5.github.io/P-MapNet.
翻訳日:2024-04-01 17:53:05 公開日:2024-03-29
# 蒸留ディスタングルによる多視点表現学習の再考

Rethinking Multi-view Representation Learning via Distilled Disentangling ( http://arxiv.org/abs/2403.10897v2 )

ライセンス: Link先を確認
Guanzhou Ke, Bo Wang, Xiaoli Wang, Shengfeng He, (参考訳) マルチビュー表現学習は、多様なデータソースから、ビュー一貫性とビュー固有性の両方を持つ堅牢な表現を導出することを目的としている。 本稿では、この領域における既存のアプローチを詳細に分析し、一般的に見落とされがちな側面であるビュー一貫性とビュー固有表現の冗長性を明らかにする。 そこで本稿では,多視点表現学習のための革新的なフレームワークを提案する。 提案手法では,様々なソースからコンパクトで高品質なビュー一貫性表現を抽出し,余分な計算オーバーヘッドを発生させることなく,マスク付きクロスビュー予測の概念を導入している。 さらに,多視点表現から一貫性関連情報を効率よくフィルタし,より純粋なビュー固有表現を実現する蒸留脱タングルモジュールを開発した。 このアプローチは、ビュー一貫性とビュー固有表現の冗長性を著しく低減し、学習プロセス全体の効率を高める。 我々の経験的評価から,高いマスク比がビュー一貫性表現の質を著しく向上させることが明らかとなった。 さらに、ビュー固有表現と比較して、ビュー一貫性表現の次元性を減少させることにより、複合表現の質をさらに向上させることが判明した。 私たちのコードは、https://github.com/Guanzhou-Ke/MRDDでアクセスできます。

Multi-view representation learning aims to derive robust representations that are both view-consistent and view-specific from diverse data sources. This paper presents an in-depth analysis of existing approaches in this domain, highlighting a commonly overlooked aspect: the redundancy between view-consistent and view-specific representations. To this end, we propose an innovative framework for multi-view representation learning, which incorporates a technique we term 'distilled disentangling'. Our method introduces the concept of masked cross-view prediction, enabling the extraction of compact, high-quality view-consistent representations from various sources without incurring extra computational overhead. Additionally, we develop a distilled disentangling module that efficiently filters out consistency-related information from multi-view representations, resulting in purer view-specific representations. This approach significantly reduces redundancy between view-consistent and view-specific representations, enhancing the overall efficiency of the learning process. Our empirical evaluations reveal that higher mask ratios substantially improve the quality of view-consistent representations. Moreover, we find that reducing the dimensionality of view-consistent representations relative to that of view-specific representations further refines the quality of the combined representations. Our code is accessible at: https://github.com/Guanzhou-Ke/MRDD.
翻訳日:2024-04-01 17:53:05 公開日:2024-03-29
# V2X-DGW: 逆気象条件下でのマルチエージェント知覚のためのドメイン一般化

V2X-DGW: Domain Generalization for Multi-agent Perception under Adverse Weather Conditions ( http://arxiv.org/abs/2403.11371v4 )

ライセンス: Link先を確認
Baolu Li, Jinlong Li, Xinyu Liu, Runsheng Xu, Zhengzhong Tu, Jiacheng Guo, Xiaopeng Li, Hongkai Yu, (参考訳) 現在のLiDARベースのV2X(Vine-to-Everything)マルチエージェント認識システムは、3Dオブジェクト検出において大きな成功を収めている。 これらのモデルは、訓練済みのクリーンな天候下ではよく機能するが、現実のドメインギャップで目に見えない悪天候に苦しむ。 本稿では,悪天候下でのマルチエージェント認識システム上でのLiDARに基づく3次元物体検出のための領域一般化手法であるV2X-DGWを提案する。 クリーンな天候だけでなく、クリーンな天気データのみを学習することで、好適なマルチエージェントのパフォーマンスを確保することを目的としている。 この領域の研究を進めるために、我々は広く使われている2つのマルチエージェントデータセットに対する3つの悪天候条件の影響をシミュレートし、2つの新しいベンチマークデータセット、OPV2V-wとV2XSet-wを作成しました。 この目的のために,まずアダプティブ・ウェザー・アジュメンテーション(AWA)を導入し,未知の悪天候条件を模倣し,TWA(Trust-rea Weather-invariant Alignment)とACA(Agent-aware Contrastive Alignment)の2つのアライメントを提案する。 我々のV2X-DGWは、目に見えない悪天候を改善することができた。

Current LiDAR-based Vehicle-to-Everything (V2X) multi-agent perception systems have shown the significant success on 3D object detection. While these models perform well in the trained clean weather, they struggle in unseen adverse weather conditions with the real-world domain gap. In this paper, we propose a domain generalization approach, named V2X-DGW, for LiDAR-based 3D object detection on multi-agent perception system under adverse weather conditions. Not only in the clean weather does our research aim to ensure favorable multi-agent performance, but also in the unseen adverse weather conditions by learning only on the clean weather data. To advance research in this area, we have simulated the impact of three prevalent adverse weather conditions on two widely-used multi-agent datasets, resulting in the creation of two novel benchmark datasets: OPV2V-w and V2XSet-w. To this end, we first introduce the Adaptive Weather Augmentation (AWA) to mimic the unseen adverse weather conditions, and then propose two alignments for generalizable representation learning: Trust-region Weather-invariant Alignment (TWA) and Agent-aware Contrastive Alignment (ACA). Extensive experimental results demonstrate that our V2X-DGW achieved improvements in the unseen adverse weather conditions.
翻訳日:2024-04-01 17:53:05 公開日:2024-03-29
# ハードサンプルのメタラーニングによる一般化の改善

Improving Generalization via Meta-Learning on Hard Samples ( http://arxiv.org/abs/2403.12236v2 )

ライセンス: Link先を確認
Nishant Jain, Arun S. Suggala, Pradeep Shenoy, (参考訳) 教師付き学習に対する学習再重み付け(LRW)アプローチでは、代表検証データセットのパフォーマンスを最大化するために、最適化基準を使用してトレーニングインスタンスの重み付けを割り当てる。 LRWトレーニングで使用される検証セットを最適化し、分類器の一般化を改善する。 特に、検証集合における分類の難しいインスタンスの使用は、理論上の関係と、一般化の強い経験的証拠の両方を持つことを示す。 このメタ最適化モデルを学習するための効率的なアルゴリズムと、注意深い比較研究のための単純なトレインツースヒューリスティックを提供する。 簡単な検証データを持つLRWは、ハードな検証データを持つLRWよりも一貫して悪い性能を示し、メタ最適化問題の妥当性を確立した。 提案アルゴリズムは,データセットやドメインシフトの課題(Imagenet-1K, CIFAR-100, Clothing-1M, CAMELYON, WILDSなど)に対して,VIT-BをImagenet上で使用する場合の約1%のゲインで,幅広いベースラインを達成している。 また、LRWトレーニングにおける検証のための自然なハード例(Imagenet-R / Imagenet-A)を使用することで、クリーンかつ自然なテストインスタンスの性能が1-2%向上することを示す。 2次解析により、LRWフレームワークにおけるハード検証データを使用することで、テストデータのマージンが向上し、経験的ゲインの基礎となるメカニズムが示唆された。 本研究は,メタ学習を教師付き学習コンテキストでメタ学習に最適化するための新たな研究の方向性を開くと信じている。

Learned reweighting (LRW) approaches to supervised learning use an optimization criterion to assign weights for training instances, in order to maximize performance on a representative validation dataset. We pose and formalize the problem of optimized selection of the validation set used in LRW training, to improve classifier generalization. In particular, we show that using hard-to-classify instances in the validation set has both a theoretical connection to, and strong empirical evidence of generalization. We provide an efficient algorithm for training this meta-optimized model, as well as a simple train-twice heuristic for careful comparative study. We demonstrate that LRW with easy validation data performs consistently worse than LRW with hard validation data, establishing the validity of our meta-optimization problem. Our proposed algorithm outperforms a wide range of baselines on a range of datasets and domain shift challenges (Imagenet-1K, CIFAR-100, Clothing-1M, CAMELYON, WILDS, etc.), with ~1% gains using VIT-B on Imagenet. We also show that using naturally hard examples for validation (Imagenet-R / Imagenet-A) in LRW training for Imagenet improves performance on both clean and naturally hard test instances by 1-2%. Secondary analyses show that using hard validation data in an LRW framework improves margins on test data, hinting at the mechanism underlying our empirical gains. We believe this work opens up new research directions for the meta-optimization of meta-learning in a supervised learning context.
翻訳日:2024-04-01 17:53:05 公開日:2024-03-29
# マルチビュー3次元人物位置推定のための自己学習カノニカル空間

Self-learning Canonical Space for Multi-view 3D Human Pose Estimation ( http://arxiv.org/abs/2403.12440v2 )

ライセンス: Link先を確認
Xiaoben Li, Mancheng Meng, Ziyan Wu, Terrence Chen, Fan Yang, Dinggang Shen, (参考訳) マルチビュー3次元人間のポーズ推定は、自然に単一のビューよりも優れており、複数のビューの画像によって提供されるより包括的な情報から恩恵を受けている。 情報には、カメラのポーズ、2D/3Dの人間のポーズ、3Dの幾何学が含まれる。 しかし、これらの情報の正確なアノテーションを得ることは困難であり、多視点画像から正確な3次元ポーズを予測することは困難である。 この問題に対処するため、我々はCMANet(Cascaded Multi-view aggregating Network)と呼ばれる完全に自己管理されたフレームワークを提案し、多視点情報の統合と活用を目的とした標準パラメータ空間を構築した。 本フレームワークでは,マルチビュー情報を2つのカテゴリに分類する。 1)ビュー内情報、2)ビュー間情報。 そのため、CMANetは、IRV(Intra-view Module)とIEV(Inter-view Module)の2つのコンポーネントで構成されている。 IRVは、各ビューの初期のカメラポーズと3D人間のポーズを抽出するために使用され、IEVは、最後の3D人間のポーズのために補完的なポーズ情報と3Dの幾何学を融合することを目的としている。 ビュー内およびビュー間のアグリゲーションを容易にするため、SMPLモデルのカメラポーズと人間のポーズと形状パラメータ($\theta$と$\beta$)で表現された標準パラメータ空間を定義し、2段階の学習手順を提案する。 第一段階では、IRVは、市販の2Dキーポイント検出器の確実な出力によって監督されるカメラのポーズとビュー依存の人間のポーズを推定することを学ぶ。 第2段階では、IRVは凍結され、IEVはカメラポーズをさらに洗練し、予測されたマルチビュー2Dキーポイントを併用することで達成される、クロスビュー補完と3D幾何制約を暗黙的に符号化することで、3D人間のポーズを最適化する。 提案したフレームワーク,モジュール,学習戦略は総合的な実験によって有効であることが実証され,CMANetは大規模かつ質的な分析において最先端の手法よりも優れている。

Multi-view 3D human pose estimation is naturally superior to single view one, benefiting from more comprehensive information provided by images of multiple views. The information includes camera poses, 2D/3D human poses, and 3D geometry. However, the accurate annotation of these information is hard to obtain, making it challenging to predict accurate 3D human pose from multi-view images. To deal with this issue, we propose a fully self-supervised framework, named cascaded multi-view aggregating network (CMANet), to construct a canonical parameter space to holistically integrate and exploit multi-view information. In our framework, the multi-view information is grouped into two categories: 1) intra-view information , 2) inter-view information. Accordingly, CMANet consists of two components: intra-view module (IRV) and inter-view module (IEV). IRV is used for extracting initial camera pose and 3D human pose of each view; IEV is to fuse complementary pose information and cross-view 3D geometry for a final 3D human pose. To facilitate the aggregation of the intra- and inter-view, we define a canonical parameter space, depicted by per-view camera pose and human pose and shape parameters ($\theta$ and $\beta$) of SMPL model, and propose a two-stage learning procedure. At first stage, IRV learns to estimate camera pose and view-dependent 3D human pose supervised by confident output of an off-the-shelf 2D keypoint detector. At second stage, IRV is frozen and IEV further refines the camera pose and optimizes the 3D human pose by implicitly encoding the cross-view complement and 3D geometry constraint, achieved by jointly fitting predicted multi-view 2D keypoints. The proposed framework, modules, and learning strategy are demonstrated to be effective by comprehensive experiments and CMANet is superior to state-of-the-art methods in extensive quantitative and qualitative analysis.
翻訳日:2024-04-01 17:53:05 公開日:2024-03-29
# 遅いモーダリティ融合とルールベース決定に基づく音声・視覚複合表現認識法

Audio-Visual Compound Expression Recognition Method based on Late Modality Fusion and Rule-based Decision ( http://arxiv.org/abs/2403.12687v2 )

ライセンス: Link先を確認
Elena Ryumina, Maxim Markitantov, Dmitry Ryumin, Heysem Kaya, Alexey Karpov, (参考訳) 本稿では,第6回ABAWコンペティションの複合表現認識チャレンジにおけるSUNチームの結果について述べる。 本稿では,複合表現認識のための新しい音声視覚手法を提案する。 本手法は,感情の確率レベルでのモダリティを融合する感情認識モデルに依存し,複合表現の予測に関する決定は予め定義されたルールに基づいている。 特に,本手法では,対象タスクに特有のトレーニングデータを一切使用していない。 したがって、問題はゼロショット分類タスクである。 マルチコーパス・トレーニングとクロスコーパス・バリデーション・セットアップで評価を行う。 提案手法を用いて,C-EXPR-DBテストサブセット上でF1スコア値が22.01%に等しいことを示す。 この課題から得られた知見は,人間の基本的な感情と複合感情の文脈において,音声・視覚データをアノテートするための知的なツールを開発するための基盤となる可能性が示唆された。

This paper presents the results of the SUN team for the Compound Expressions Recognition Challenge of the 6th ABAW Competition. We propose a novel audio-visual method for compound expression recognition. Our method relies on emotion recognition models that fuse modalities at the emotion probability level, while decisions regarding the prediction of compound expressions are based on predefined rules. Notably, our method does not use any training data specific to the target task. Thus, the problem is a zero-shot classification task. The method is evaluated in multi-corpus training and cross-corpus validation setups. Using our proposed method is achieved an F1-score value equals to 22.01% on the C-EXPR-DB test subset. Our findings from the challenge demonstrate that the proposed method can potentially form a basis for developing intelligent tools for annotating audio-visual data in the context of human's basic and compound emotions.
翻訳日:2024-04-01 17:53:05 公開日:2024-03-29
# 一度だけサンプル: 自己協力的拡散GANによるワンステップテキスト・ツー・イメージ合成

You Only Sample Once: Taming One-Step Text-To-Image Synthesis by Self-Cooperative Diffusion GANs ( http://arxiv.org/abs/2403.12931v2 )

ライセンス: Link先を確認
Yihong Luo, Xiaolong Chen, Jing Tang, (参考訳) 高速でスケーラブルで高忠実なワンステップ画像合成のための新しい生成モデルであるYOSOを紹介する。 これは拡散過程とGANを統合することで達成される。 具体的には、デノナイジングジェネレータ自体による分布を円滑にし、自己協調学習を行う。 提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。 さらに,本手法は,LoRAファインチューニングにおいても,高品質なワンステップテキスト・ツー・イメージ合成を実現するために,事前学習したテキスト・ツー・イメージ拡散を微調整できることを示す。 特に、512の解像度で訓練された1ステップで画像を生成できる最初の拡散変換器を、明示的な訓練なしに1024の解像度に適応できる能力で提供する。 私たちのコードはhttps://github.com/Luo-Yihong/YOSO.comで提供されています。

We introduce YOSO, a novel generative model designed for rapid, scalable, and high-fidelity one-step image synthesis. This is achieved by integrating the diffusion process with GANs. Specifically, we smooth the distribution by the denoising generator itself, performing self-cooperative learning. We show that our method can serve as a one-step generation model training from scratch with competitive performance. Moreover, we show that our method can be extended to finetune pre-trained text-to-image diffusion for high-quality one-step text-to-image synthesis even with LoRA fine-tuning. In particular, we provide the first diffusion transformer that can generate images in one step trained on 512 resolution, with the capability of adapting to 1024 resolution without explicit training. Our code is provided at https://github.com/Luo-Yihong/YOSO.
翻訳日:2024-04-01 17:53:05 公開日:2024-03-29
# 古典的光による量子計算の無条件検証

Unconditional verification of quantum computation with classical light ( http://arxiv.org/abs/2403.14142v2 )

ライセンス: Link先を確認
Yuki Takeuchi, Akihiro Mizutani, (参考訳) 量子計算の検証は、量子コンピュータから与えられた出力が正しいかどうかを効率的にチェックするタスクである。 検証対象の量子コンピュータと検証対象間の既存の検証プロトコルは、量子コンピュータの悪意ある振る舞いを無条件に検出するために、${\sf BQP}$で解決する。 本稿では,量子コンピュータにコヒーレント光を送出する「物理的に古典的な」検証プロトコルを提案することにより,量子ビットの通信の必要性を解消する。

Verification of quantum computation is a task to efficiently check whether an output given from a quantum computer is correct. Existing verification protocols conducted between a quantum computer to be verified and a verifier necessitate quantum communication to unconditionally detect any malicious behavior of the quantum computer solving any promise problem in ${\sf BQP}$. In this paper, we remove the necessity of the communication of qubits by proposing a "physically classical" verification protocol in which the verifier just sends coherent light to the quantum computer.
翻訳日:2024-04-01 17:53:05 公開日:2024-03-29
# 細胞変動情報ボトルネックネットワーク

Cell Variational Information Bottleneck Network ( http://arxiv.org/abs/2403.15082v3 )

ライセンス: Link先を確認
Zhonghua Zhai, Chen Ju, Jinsong Lan, Shuai Xiao, (参考訳) 本研究では,情報ボトルネック機構を用いた畳み込みニューラルネットワークであるCell Variational Information Bottleneck Network (cellVIB)を提案する。 我々のセル変動情報ボトルネックネットワークは、不確実性のある特徴マップを生成するVIBセルを積み重ねて構築されている。 層が深くなるにつれて、Deep VIBのように、モデルの出力層に直接過剰な規則的な制約を加えるのではなく、正規化効果が徐々に増加します。 各VIBセルでは、フィードフォワードプロセスは独立平均項と標準偏差項を学習し、それらに基づいてガウス分布を予測する。 フィードバックプロセスは、効果的なトレーニングのためのパラメータ化トリックに基づいている。 この研究は、各VIB細胞の有効性を検証するためにMNISTデータセットを広範囲に分析し、VIB細胞が相互情報にどのように影響するかについての洞察に富んだ分析を提供する。 CIFAR-10で行った実験では、我々の細胞VIBはトレーニング中のノイズラベルや検査中の劣化画像に対して堅牢であることが示された。 そして,本手法をPACSデータセット上で検証した結果,VIBセルが基本モデルの一般化性能を大幅に向上できることが示された。 最後に、より複雑な表現学習タスクである顔認識において、我々のネットワーク構造も非常に競争力のある結果を得た。

In this work, we propose Cell Variational Information Bottleneck Network (cellVIB), a convolutional neural network using information bottleneck mechanism, which can be combined with the latest feedforward network architecture in an end-to-end training method. Our Cell Variational Information Bottleneck Network is constructed by stacking VIB cells, which generate feature maps with uncertainty. As layers going deeper, the regularization effect will gradually increase, instead of directly adding excessive regular constraints to the output layer of the model as in Deep VIB. Under each VIB cell, the feedforward process learns an independent mean term and an standard deviation term, and predicts the Gaussian distribution based on them. The feedback process is based on reparameterization trick for effective training. This work performs an extensive analysis on MNIST dataset to verify the effectiveness of each VIB cells, and provides an insightful analysis on how the VIB cells affect mutual information. Experiments conducted on CIFAR-10 also prove that our cellVIB is robust against noisy labels during training and against corrupted images during testing. Then, we validate our method on PACS dataset, whose results show that the VIB cells can significantly improve the generalization performance of the basic model. Finally, in a more complex representation learning task, face recognition, our network structure has also achieved very competitive results.
翻訳日:2024-04-01 17:53:05 公開日:2024-03-29
# MedPromptX:胸部X線診断のための接地型マルチモーダルプロンプト

MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis ( http://arxiv.org/abs/2403.15585v3 )

ライセンス: Link先を確認
Mai A. Shaaban, Adnan Khan, Mohammad Yaqub, (参考訳) 胸部X線画像は、急性および慢性の心肺疾患の予測に一般的に用いられているが、構造化された臨床データと統合しようとする試みは、不完全な電子健康記録(EHR)による課題に直面している。 本稿では,MedPromptXについて紹介する。MedPromptXはマルチモーダル大言語モデル (MLLM) と少数ショットプロンプト (FP) と視覚的グラウンドディング (VG) を統合し,胸部X線診断のための画像とERHデータを組み合わせた最初のモデルである。 事前トレーニングされたMLLMは、欠落したEHR情報を補完するために使用され、患者の医療史を包括的に理解する。 さらに、FPは幻覚の問題を効果的に解決しつつ、MLLMの広範な訓練の必要性を減らす。 それでも、最適数を決定するプロセスや高品質な候補を選択するプロセスは重荷になりがちであるが、モデルの性能に大きな影響を及ぼす。 そこで我々は,新しい患者シナリオをリアルタイムに調整するために,少数のショットデータを動的に洗練する手法を提案する。 さらに、VGは、X線画像に対する関心領域にモデルの注意を集中させ、異常の同定を強化する。 MedPromptX-VQAは、MIMIC-IVとMIMIC-CXRデータベースから得られたインターリーブ画像とEHRデータを含む、新しいコンテキスト内ビジュアル質問応答データセットである。 その結果、MedPromptXのSOTA性能を示し、ベースラインに比べてF1スコアが11%向上した。 コードとデータはhttps://github.com/BioMedIA-MBZUAI/MedPromptXで公開されている。

Chest X-ray images are commonly used for predicting acute and chronic cardiopulmonary conditions, but efforts to integrate them with structured clinical data face challenges due to incomplete electronic health records (EHR). This paper introduces MedPromptX, the first model to integrate multimodal large language models (MLLMs), few-shot prompting (FP) and visual grounding (VG) to combine imagery with EHR data for chest X-ray diagnosis. A pre-trained MLLM is utilized to complement the missing EHR information, providing a comprehensive understanding of patients' medical history. Additionally, FP reduces the necessity for extensive training of MLLMs while effectively tackling the issue of hallucination. Nevertheless, the process of determining the optimal number of few-shot examples and selecting high-quality candidates can be burdensome, yet it profoundly influences model performance. Hence, we propose a new technique that dynamically refines few-shot data for real-time adjustment to new patient scenarios. Moreover, VG aids in focusing the model's attention on relevant regions of interest in X-ray images, enhancing the identification of abnormalities. We release MedPromptX-VQA, a new in-context visual question answering dataset encompassing interleaved image and EHR data derived from MIMIC-IV and MIMIC-CXR databases. Results demonstrate the SOTA performance of MedPromptX, achieving an 11% improvement in F1-score compared to the baselines. Code and data are available at https://github.com/BioMedIA-MBZUAI/MedPromptX
翻訳日:2024-04-01 17:43:20 公開日:2024-03-29
# 需要サージ時の最適病院容量管理

Optimal Hospital Capacity Management During Demand Surges ( http://arxiv.org/abs/2403.15738v2 )

ライセンス: Link先を確認
Felix Parker, Fardin Ganjkhanloo, Diego A. Martínez, Kimia Ghobadi, (参考訳) 効果的な病院の容量管理は、患者のケアの質、手術の効率、医療システムのレジリエンスを高めるために、特に新型コロナウイルス(COVID-19)パンデミックに見られるような需要急増時に重要である。 しかし、最適なキャパシティ戦略の策定は、需要変動、目的の相反、多面的な実践的制約によって複雑である。 本研究では,サージイベント中の病院システム内のキャパシティ管理決定を最適化するためのデータ駆動型フレームワークを提案する。 2つの重要な決定は、患者を徴発する専用容量を割り当て、病院の救急部門(ED)間で患者を移動させ、需要を分散させるという戦術的な計画の観点で最適化されている。 最適化モデルは堅牢な混合整数線形プログラムとして定式化され、需要不確実性に対して堅牢な最適決定の効率的な計算を可能にする。 モデルには、サージキャパシティを追加するためのセットアップ時間とコスト、ED患者転送の制限、ケア品質と運用効率への影響を反映した異なる決定の相対コストなど、実用的な制約とコストが含まれている。 この手法は、新型コロナウイルスのパンデミックの最盛期に病院システムで振り返って評価され、推奨された決定の潜在的影響を示す。 その結果,2日毎に1回程度,ピーク時63日間にベッドを最適に配置し,32人だけを移動させることで,病院システムにおけるサージ容量を約90%削減できる可能性が示唆された。 全体として、この研究はキャパシティ管理の意思決定を変革する実践的なツールを導入し、積極的に計画し、結果を改善するためにデータ駆動のレコメンデーションを使用することを可能にした。

Effective hospital capacity management is pivotal for enhancing patient care quality, operational efficiency, and healthcare system resilience, notably during demand spikes like those seen in the COVID-19 pandemic. However, devising optimal capacity strategies is complicated by fluctuating demand, conflicting objectives, and multifaceted practical constraints. This study presents a data-driven framework to optimize capacity management decisions within hospital systems during surge events. Two key decisions are optimized over a tactical planning horizon: allocating dedicated capacity to surge patients and transferring incoming patients between emergency departments (EDs) of hospitals to better distribute demand. The optimization models are formulated as robust mixed-integer linear programs, enabling efficient computation of optimal decisions that are robust against demand uncertainty. The models incorporate practical constraints and costs, including setup times and costs for adding surge capacity, restrictions on ED patient transfers, and relative costs of different decisions that reflect impacts on care quality and operational efficiency. The methodology is evaluated retrospectively in a hospital system during the height of the COVID-19 pandemic to demonstrate the potential impact of the recommended decisions. The results show that optimally allocating beds and transferring just 32 patients over a 63 day period around the peak, about one transfer every two days, could have reduced the need for surge capacity in the hospital system by nearly 90%. Overall, this work introduces a practical tool to transform capacity management decision-making, enabling proactive planning and the use of data-driven recommendations to improve outcomes.
翻訳日:2024-04-01 17:43:20 公開日:2024-03-29
# FedAC: 異種データのための適応的クラスタ化フェデレーション学習フレームワーク

FedAC: An Adaptive Clustered Federated Learning Framework for Heterogeneous Data ( http://arxiv.org/abs/2403.16460v2 )

ライセンス: Link先を確認
Yuxin Zhang, Haoyu Chen, Zheng Lin, Zhe Chen, Jin Zhao, (参考訳) CFL(Clustered Federated Learning)は、クラスタワイドモデルトレーニングのために類似のクライアントをグループ化することにより、フェデレートラーニング(FL)におけるデータ不均一性に起因する性能劣化を軽減するために提案される。 しかし、現在のCFL法は、クラスタ内知識の不十分な統合と効率的なオンラインモデル類似度指標の欠如により、クラスタカウントを固定されたハイパーパラメータとして扱い、柔軟性と堅牢性を制限している。 本稿では,(1)ニューラルネットワークの疎結合によるクラスタ内学習にグローバル知識を効率よく統合し,各サブモジュールに対する個別のアグリゲーション手法を利用する適応型CFLフレームワークを提案する。(2)次元削減に基づく費用対効果の高いオンラインモデル類似度指標,(3)複雑な異種環境における適応性と拡張性を改善するためのクラスタ数微調整モジュールを組み込んだ。 CIFAR-10とCIFAR-100データセットにおいて、SOTA法と比較して異なる非IID条件下で、FedACは試験精度を約1.82%向上し、12.67%向上する。

Clustered federated learning (CFL) is proposed to mitigate the performance deterioration stemming from data heterogeneity in federated learning (FL) by grouping similar clients for cluster-wise model training. However, current CFL methods struggle due to inadequate integration of global and intra-cluster knowledge and the absence of an efficient online model similarity metric, while treating the cluster count as a fixed hyperparameter limits flexibility and robustness. In this paper, we propose an adaptive CFL framework, named FedAC, which (1) efficiently integrates global knowledge into intra-cluster learning by decoupling neural networks and utilizing distinct aggregation methods for each submodule, significantly enhancing performance; (2) includes a costeffective online model similarity metric based on dimensionality reduction; (3) incorporates a cluster number fine-tuning module for improved adaptability and scalability in complex, heterogeneous environments. Extensive experiments show that FedAC achieves superior empirical performance, increasing the test accuracy by around 1.82% and 12.67% on CIFAR-10 and CIFAR-100 datasets, respectively, under different non-IID settings compared to SOTA methods.
翻訳日:2024-04-01 17:43:20 公開日:2024-03-29
# 多段階協調学習による共同胸部X線診断と臨床視覚的注意予測 : 解釈可能性の向上

Joint chest X-ray diagnosis and clinical visual attention prediction with multi-stage cooperative learning: enhancing interpretability ( http://arxiv.org/abs/2403.16970v2 )

ライセンス: Link先を確認
Zirui Qiu, Hassan Rivaz, Yiming Xiao, (参考訳) 深層学習がコンピュータ支援診断の最先端となるにつれ、自動判断の解釈可能性も臨床展開に欠かせないものとなっている。 この領域では様々な方法が提案されているが、放射線検診における臨床医の視覚的注意マップは重要な洞察を与え、コンピュータ支援診断の質を高める可能性がある。 本稿では,胸部X線検査における関節疾患診断のための新しい深層学習フレームワークを提案する。 具体的には、DenseNet201バックボーンとResidualとSqueeze-and-Excitationブロックベースのエンコーダを併用した、新しいデュアルエンコーダマルチタスクUNetと、病気分類を行うマルチスケール機能融合分類器を設計した。 マルチタスク学習における個別タスクの非同期トレーニングスケジュールの課題に対処するため,我々は多段階協調学習戦略を提案し,性能向上のための特徴エンコーダ事前学習のためのコントラスト学習を行った。 実験の結果,提案手法は胸部X線診断や視力マップの精度に優れていた。

As deep learning has become the state-of-the-art for computer-assisted diagnosis, interpretability of the automatic decisions is crucial for clinical deployment. While various methods were proposed in this domain, visual attention maps of clinicians during radiological screening offer a unique asset to provide important insights and can potentially enhance the quality of computer-assisted diagnosis. With this paper, we introduce a novel deep-learning framework for joint disease diagnosis and prediction of corresponding visual saliency maps for chest X-ray scans. Specifically, we designed a novel dual-encoder multi-task UNet, which leverages both a DenseNet201 backbone and a Residual and Squeeze-and-Excitation block-based encoder to extract diverse features for saliency map prediction, and a multi-scale feature-fusion classifier to perform disease classification. To tackle the issue of asynchronous training schedules of individual tasks in multi-task learning, we proposed a multi-stage cooperative learning strategy, with contrastive learning for feature encoder pretraining to boost performance. Experiments show that our proposed method outperformed existing techniques for chest X-ray diagnosis and the quality of visual saliency map prediction.
翻訳日:2024-04-01 17:43:20 公開日:2024-03-29
# MambaMixer: デュアルトークンとチャネル選択による効率的な選択状態空間モデル

MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection ( http://arxiv.org/abs/2403.19888v1 )

ライセンス: Link先を確認
Ali Behrouz, Michele Santacatterina, Ramin Zabih, (参考訳) ディープラーニングの最近の進歩は、データ依存と大規模学習能力のため、主にTransformerに依存している。 しかし、これらのアーキテクチャのアテンションモジュールは2次時間と2次空間の入力サイズを示し、長いシーケンスモデリングのスケーラビリティを制限している。 近年、画像や多変量時系列などの多次元データのための効率的で効果的なアーキテクチャバックボーンを設計しようとする試みが試みられているが、既存のモデルはデータに依存しているか、次元間通信を許さないかのいずれかである。 近年、SSM(State Space Models)やより具体的にはSelective State Space Models(SSM)は、ハードウェアを意識した効率的な実装であり、長いシーケンスモデリングの有望な可能性を示している。 SSMの成功に触発されたMambaMixerは、Selective TokenとChannel Mixerと呼ばれるトークンとチャネル間の二重選択機構を用いた、データ依存の重み付けを持つ新しいアーキテクチャである。 MambaMixerは、重み付けされた平均化メカニズムを使用して選択ミキサーを接続する。 概念実証として,MambaMixerブロックに基づくVision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) アーキテクチャを設計し,その性能を様々なビジョンや時系列予測タスクで探索する。 この結果から,トークンとチャネル間の選択的混合の重要性が示唆された。 ImageNet分類、オブジェクト検出、セマンティックセグメンテーションタスクにおいて、ViM2は確立されたビジョンモデルとの競合性能を達成し、SSMベースのビジョンモデルを上回っている。 時系列予測では、TSM2は最先端の手法と比較して優れた性能を達成し、計算コストは大幅に向上した。 これらの結果から,トランスフォーマー,クロスチャンネルアテンション,MPPは時系列予測において十分な性能を示すが,どちらも必要ではないことがわかった。

Recent advances in deep learning have mainly relied on Transformers due to their data dependency and ability to learn at scale. The attention module in these architectures, however, exhibits quadratic time and space in input size, limiting their scalability for long-sequence modeling. Despite recent attempts to design efficient and effective architecture backbone for multi-dimensional data, such as images and multivariate time series, existing models are either data independent, or fail to allow inter- and intra-dimension communication. Recently, State Space Models (SSMs), and more specifically Selective State Space Models, with efficient hardware-aware implementation, have shown promising potential for long sequence modeling. Motivated by the success of SSMs, we present MambaMixer, a new architecture with data-dependent weights that uses a dual selection mechanism across tokens and channels, called Selective Token and Channel Mixer. MambaMixer connects selective mixers using a weighted averaging mechanism, allowing layers to have direct access to early features. As a proof of concept, we design Vision MambaMixer (ViM2) and Time Series MambaMixer (TSM2) architectures based on the MambaMixer block and explore their performance in various vision and time series forecasting tasks. Our results underline the importance of selective mixing across both tokens and channels. In ImageNet classification, object detection, and semantic segmentation tasks, ViM2 achieves competitive performance with well-established vision models and outperforms SSM-based vision models. In time series forecasting, TSM2 achieves outstanding performance compared to state-of-the-art methods while demonstrating significantly improved computational cost. These results show that while Transformers, cross-channel attention, and MLPs are sufficient for good performance in time series forecasting, neither is necessary.
翻訳日:2024-04-01 16:54:17 公開日:2024-03-29
# ロバスト検索に基づく要約システムに向けて

Towards a Robust Retrieval-Based Summarization System ( http://arxiv.org/abs/2403.19889v1 )

ライセンス: Link先を確認
Shengjie Liu, Jing Wu, Jingyuan Bao, Wenyi Wang, Naira Hovakimyan, Christopher G Healey, (参考訳) 本稿では,大規模言語モデル(LLM)のRAGに基づく要約タスクに対する堅牢性について検討する。 LLMは要約機能を提供するが、複雑な実世界のシナリオにおけるそれらの性能はいまだ解明されていない。 最初のコントリビューションはLogicSummで、現実的なシナリオを取り入れた革新的な評価フレームワークで、RAGに基づく要約中にLCMの堅牢性を評価する。 LogiSummが特定した制約に基づいて、トレーニング対話を作成し、LogicSummのシナリオ内で堅牢性を高めるためにモデルを微調整する包括的システム SummRAG を開発した。 SummRAGは、1回限りの問題に対処するのではなく、LLMの機能をテストする構造化メソッドを定義するという私たちの目標の例です。 実験により, SummRAGのパワーが確認され, 論理的コヒーレンスと要約品質が改善された。 データ、対応するモデルウェイト、Pythonコードはオンラインで入手できる。

This paper describes an investigation of the robustness of large language models (LLMs) for retrieval augmented generation (RAG)-based summarization tasks. While LLMs provide summarization capabilities, their performance in complex, real-world scenarios remains under-explored. Our first contribution is LogicSumm, an innovative evaluation framework incorporating realistic scenarios to assess LLM robustness during RAG-based summarization. Based on limitations identified by LogiSumm, we then developed SummRAG, a comprehensive system to create training dialogues and fine-tune a model to enhance robustness within LogicSumm's scenarios. SummRAG is an example of our goal of defining structured methods to test the capabilities of an LLM, rather than addressing issues in a one-off fashion. Experimental results confirm the power of SummRAG, showcasing improved logical coherence and summarization quality. Data, corresponding model weights, and Python code are available online.
翻訳日:2024-04-01 16:54:17 公開日:2024-03-29
# PLOC: 自律運転データセットの物理的位置に基づく新しい評価基準

PLoc: A New Evaluation Criterion Based on Physical Location for Autonomous Driving Datasets ( http://arxiv.org/abs/2403.19893v1 )

ライセンス: Link先を確認
Ruining Yang, Yuqi Peng, (参考訳) 自律運転は人工知能の重要な研究領域として大きな注目を集めている。 自律運転のシナリオでは、物体の様々な物理的位置は、異なるレベルの危険に対応する。 しかし、従来の自動走行物体検出評価基準は、物体の物理的位置の重要な側面を見落とし、物体が自律走行車両にもたらす真の脅威を正確に反映しないような評価結果をもたらすことが多い。 自律運転の安全性を高めるため,PLOCと呼ばれる物理的位置情報に基づく新しい評価基準を提案する。 この基準は、自動運転車のシナリオにおける歩行者の物理的な位置が、貴重な安全関連情報を提供できることを認識することで、従来の基準の限界を超越している。 さらに,ApolloScape-R(ApolloScape-R)から得られた新たなアノテートデータセットを提案する。 ApolloScape-R は、その物理的な位置の意義に基づいた歩行者の退避を伴っている。 提案したPLOC基準に基づいて,様々な物体検出モデルの性能を評価する。 実験により、自動運転車の走行車線に位置する人物を特定する際の物体検出モデルの平均精度が、歩道にいる人よりも低いことが示された。 データセットはhttps://github.com/lnyrlyed/ApolloScape-R.gitで公開されている。

Autonomous driving has garnered significant attention as a key research area within artificial intelligence. In the context of autonomous driving scenarios, the varying physical locations of objects correspond to different levels of danger. However, conventional evaluation criteria for automatic driving object detection often overlook the crucial aspect of an object's physical location, leading to evaluation results that may not accurately reflect the genuine threat posed by the object to the autonomous driving vehicle. To enhance the safety of autonomous driving, this paper introduces a novel evaluation criterion based on physical location information, termed PLoc. This criterion transcends the limitations of traditional criteria by acknowledging that the physical location of pedestrians in autonomous driving scenarios can provide valuable safety-related information. Furthermore, this paper presents a newly re-annotated dataset (ApolloScape-R) derived from ApolloScape. ApolloScape-R involves the relabeling of pedestrians based on the significance of their physical location. The dataset is utilized to assess the performance of various object detection models under the proposed PLoc criterion. Experimental results demonstrate that the average accuracy of all object detection models in identifying a person situated in the travel lane of an autonomous vehicle is lower than that for a person on a sidewalk. The dataset is publicly available at https://github.com/lnyrlyed/ApolloScape-R.git
翻訳日:2024-04-01 16:54:17 公開日:2024-03-29
# アウト・オブ・ディストリビューションの一般化のための情報理論フレームワーク

An Information-Theoretic Framework for Out-of-Distribution Generalization ( http://arxiv.org/abs/2403.19895v1 )

ライセンス: Link先を確認
Wenliang Liu, Guanding Yu, Lele Wang, Renjie Liao, (参考訳) 機械学習におけるアウト・オブ・ディストリビューション(OOD)の一般化について検討し,情報理論の一般化境界を提供する汎用フレームワークを提案する。 我々のフレームワークは、積分確率メトリック(IPM)と$f$-divergenceの間を自由に補間し、自然にいくつかの既知の結果(ワッサーシュタイン-およびKL-バウンドを含む)を回復し、新しい一般化境界を得る。 さらに,本フレームワークは最適なトランスポート解釈が可能であることを示す。 2つの具体的な例で評価すると、提案された境界は、いくつかの場合において既存の境界を厳密に改善するか、既存のOOD一般化境界の中で最高の値を取り戻すかのいずれかである。

We study the Out-of-Distribution (OOD) generalization in machine learning and propose a general framework that provides information-theoretic generalization bounds. Our framework interpolates freely between Integral Probability Metric (IPM) and $f$-divergence, which naturally recovers some known results (including Wasserstein- and KL-bounds), as well as yields new generalization bounds. Moreover, we show that our framework admits an optimal transport interpretation. When evaluated in two concrete examples, the proposed bounds either strictly improve upon existing bounds in some cases or recover the best among existing OOD generalization bounds.
翻訳日:2024-04-01 16:54:17 公開日:2024-03-29
# 非線形強化適応活性化関数

Nonlinearity Enhanced Adaptive Activation Function ( http://arxiv.org/abs/2403.19896v1 )

ライセンス: Link先を確認
David Yevick, (参考訳) 十分な計算資源を必要とせず、ニューラルネットワークの精度を高めるために、立方次非線形性さえも実装された単純なアクティベーション関数が導入された。 これは収束と精度の間の明らかなトレードオフによって部分的に実現される。 アクティベーション関数は、非線形性の度合いを調整できる最適化可能なパラメータによって、追加の自由度を導入することで標準RELU関数を一般化する。 関連する精度向上は、標準手法との比較を通じて、MNIST桁データセットの文脈で定量化される。

A simply implemented activation function with even cubic nonlinearity is introduced that increases the accuracy of neural networks without substantial additional computational resources. This is partially enabled through an apparent tradeoff between convergence and accuracy. The activation function generalizes the standard RELU function by introducing additional degrees of freedom through optimizable parameters that enable the degree of nonlinearity to be adjusted. The associated accuracy enhancement is quantified in the context of the MNIST digit data set through a comparison with standard techniques.
翻訳日:2024-04-01 16:54:17 公開日:2024-03-29
# 遠心性顔面フェノタイプ:レース関連顔面フェノタイプ特性の微粒化制御

Disentangling Racial Phenotypes: Fine-Grained Control of Race-related Facial Phenotype Characteristics ( http://arxiv.org/abs/2403.19897v1 )

ライセンス: Link先を確認
Seyma Yucer, Amir Atapour Abarghouei, Noura Al Moubayed, Toby P. Breckon, (参考訳) 2次元顔画像に対して効果的なきめ細かな外観変化を達成する一方で、顔のアイデンティティを保ちながら、一般的な2次元顔の特徴符号化空間の複雑さと絡み合いが高いため、難しい課題である。 これらの課題にもかかわらず、このような微粒な制御は、人間の顔の多様性を分析し、特徴付けし、合成できるようにするため、複数の自動化された顔分析タスクにわたる、データ駆動の人種的偏見緩和戦略にとって、決定的な有効性である。 本稿では,顔画像の個々の人種関連表現型属性のきめ細かい制御を可能にする新しいGANフレームワークを提案する。 我々の枠組みは、潜伏した(機能的な)空間を人種関係の表情表現に対応する要素に分解し、現実の顔データにおいて頑健に注釈を付けるのが難しい表現的側面(例えば、肌、髪の色、鼻、目、口形)を分離する。 また,GANトレーニングのためにCelebA-HQから抽出した高品質な2次元顔画像データセットも導入した。 従来の作業とは異なり,本フレームワークは2次元画像と関連するパラメータにのみ依存し,写真実写出力を改良したレース関連表現型属性に対する最先端の個別制御を実現する。

Achieving an effective fine-grained appearance variation over 2D facial images, whilst preserving facial identity, is a challenging task due to the high complexity and entanglement of common 2D facial feature encoding spaces. Despite these challenges, such fine-grained control, by way of disentanglement is a crucial enabler for data-driven racial bias mitigation strategies across multiple automated facial analysis tasks, as it allows to analyse, characterise and synthesise human facial diversity. In this paper, we propose a novel GAN framework to enable fine-grained control over individual race-related phenotype attributes of the facial images. Our framework factors the latent (feature) space into elements that correspond to race-related facial phenotype representations, thereby separating phenotype aspects (e.g. skin, hair colour, nose, eye, mouth shapes), which are notoriously difficult to annotate robustly in real-world facial data. Concurrently, we also introduce a high quality augmented, diverse 2D face image dataset drawn from CelebA-HQ for GAN training. Unlike prior work, our framework only relies upon 2D imagery and related parameters to achieve state-of-the-art individual control over race-related phenotype attributes with improved photo-realistic output.
翻訳日:2024-04-01 16:54:17 公開日:2024-03-29
# 構造的問題:画像塗布用拡散モデルにおける意味的相違に対処する

Structure Matters: Tackling the Semantic Discrepancy in Diffusion Models for Image Inpainting ( http://arxiv.org/abs/2403.19898v1 )

ライセンス: Link先を確認
Haipeng Liu, Yang Wang, Biao Qian, Meng Wang, Yong Rui, (参考訳) 画像インパインティングの拡散確率モデルは、前処理中に画像のテクスチャにノイズを付加することを目的としており、また、逆デマイングプロセスを通じてマスクされた領域を復元することを目的としている。意味的な意味論の生成にもかかわらず、既存の芸術は、意味的に密集した未マインドなテクスチャが拡散過程の純粋なノイズに変化する間、意味的に密接な未マインドなテクスチャが完全に劣化しないため、意味的に密接な非マインドなテクスチャが拡散過程の純粋なノイズに変化する。この論文では、非マインドなセマンティックスがテクスチャをガイドする方法、意味的不一致に対処し、セマンティックなセマンティックな生成を容易にし、セマンティックなセマンティックな生成を促進することを目的としている。

Denoising diffusion probabilistic models for image inpainting aim to add the noise to the texture of image during the forward process and recover masked regions with unmasked ones of the texture via the reverse denoising process.Despite the meaningful semantics generation,the existing arts suffer from the semantic discrepancy between masked and unmasked regions, since the semantically dense unmasked texture fails to be completely degraded while the masked regions turn to the pure noise in diffusion process,leading to the large discrepancy between them.In this paper,we aim to answer how unmasked semantics guide texture denoising process;together with how to tackle the semantic discrepancy,to facilitate the consistent and meaningful semantics generation.To this end,we propose a novel structure-guided diffusion model named StrDiffusion,to reformulate the conventional texture denoising process under structure guidance to derive a simplified denoising objective for image inpainting,while revealing:1) the semantically sparse structure is beneficial to tackle semantic discrepancy in early stage, while dense texture generates reasonable semantics in late stage;2) the semantics from unmasked regions essentially offer the time-dependent structure guidance for the texture denoising process,benefiting from the time-dependent sparsity of the structure semantics.For the denoising process,a structure-guided neural network is trained to estimate the simplified denoising objective by exploiting the consistency of the denoised structure between masked and unmasked regions.Besides,we devise an adaptive resampling strategy as a formal criterion as whether structure is competent to guide the texture denoising process,while regulate their semantic correlations.Extensive experiments validate the merits of StrDiffusion over the state-of-the-arts.Our code is available at https://github.com/htyjers/StrDiffusion.
翻訳日:2024-04-01 16:54:17 公開日:2024-03-29
# PolSAR土地被覆分類のための不均一ネットワークを用いたコントラスト学習法

Heterogeneous Network Based Contrastive Learning Method for PolSAR Land Cover Classification ( http://arxiv.org/abs/2403.19902v1 )

ライセンス: Link先を確認
Jianfeng Cai, Yue Ma, Zhixi Feng, Shuyuan Yang, (参考訳) ポラリメトリック合成開口レーダ(PolSAR)の画像解釈は様々な分野で広く使われている。 近年,深層学習はPolSAR画像分類において大きな進歩を遂げている。 教師付き学習(SL)では、高い品質のラベル付きPolSARデータを必要とするが、手動でラベル付けしたデータは不十分である。 これにより、SLはオーバーフィッティングに失敗し、一般化性能を低下させる。 さらに、散乱混乱問題もまた、より多くの注目を集める重要な課題である。 これらの問題を解決するために,異種ネットワークを用いたコントラスト学習法(HCLNet)を提案する。 ラベルなしのPolSARデータから高レベルな表現を学習し、マルチ機能やスーパーピクセルに応じて数ショットの分類を行う。 従来のCL以外にも、HCLNetは異種PolSAR機能をよりよく活用するために、初めて異種アーキテクチャを導入した。 また、機能フィルタやスーパーピクセルベースのインスタンス識別など、光学とPolSARのドメインギャップを狭めるための2つの使いやすさプラグインを開発しており、後者は複数の特徴の相補性を高めるために、後者は負のサンプルの多様性を高めるために使用される。 実験では、最先端の手法と比較して、広く使われている3つのPolSARベンチマークデータセット上でのHCLNetの優位性を実証した。 アブレーション研究は各成分の重要性も検証している。 さらに, この研究は, PolSARデータの多機能化を効果的に活用し, CLの高レベル表現をより良く学習する方法や, PolSARデータに適したネットワークを構築する方法についても示唆している。

Polarimetric synthetic aperture radar (PolSAR) image interpretation is widely used in various fields. Recently, deep learning has made significant progress in PolSAR image classification. Supervised learning (SL) requires a large amount of labeled PolSAR data with high quality to achieve better performance, however, manually labeled data is insufficient. This causes the SL to fail into overfitting and degrades its generalization performance. Furthermore, the scattering confusion problem is also a significant challenge that attracts more attention. To solve these problems, this article proposes a Heterogeneous Network based Contrastive Learning method(HCLNet). It aims to learn high-level representation from unlabeled PolSAR data for few-shot classification according to multi-features and superpixels. Beyond the conventional CL, HCLNet introduces the heterogeneous architecture for the first time to utilize heterogeneous PolSAR features better. And it develops two easy-to-use plugins to narrow the domain gap between optics and PolSAR, including feature filter and superpixel-based instance discrimination, which the former is used to enhance the complementarity of multi-features, and the latter is used to increase the diversity of negative samples. Experiments demonstrate the superiority of HCLNet on three widely used PolSAR benchmark datasets compared with state-of-the-art methods. Ablation studies also verify the importance of each component. Besides, this work has implications for how to efficiently utilize the multi-features of PolSAR data to learn better high-level representation in CL and how to construct networks suitable for PolSAR data better.
翻訳日:2024-04-01 16:54:17 公開日:2024-03-29
# 完全幾何学的パノラマ像定位

Fully Geometric Panoramic Localization ( http://arxiv.org/abs/2403.19904v1 )

ライセンス: Link先を確認
Junho Kim, Jiwon Jeong, Young Min Kim, (参考訳) 本稿では,2次元3次元線の形状のみを利用する軽量かつ高精度な位置決め手法を提案する。 プレキャプチャされた3Dマップからパノラマ画像のローカライズを行う。 このシステムは、トレーニングされたまたは手作りの視覚ディスクリプタを避けることで、潜在的なプライバシー侵害やドメインの不一致を緩和する。 しかし、線のみを曖昧にすることができるため、平行線の優越方向と非平行線間の交点という直線間の関係から、特異でコンパクトな空間文脈を表現できる。 結果として得られる表現は、従来のビジュアルディスクリプタベースの方法と比較して、処理時間とメモリにおいて効率的である。 支配線方向とその交点の群を考慮し, 精度を犠牲にすることなく, 数千のポーズ候補を1ミリ秒未満で検証する。 提案した2D-3Dマッチングは、類似した構造、劇的なドメインシフト、照明変化を持つ挑戦シーンに対して、パノラマをローカライズできることを実証的に示す。 我々の完全に幾何学的なアプローチは、広範囲なパラメータチューニングやニューラルネットワークのトレーニングを伴わないため、現実の世界に容易に展開できる実用的なアルゴリズムです。 コードを含むプロジェクトページは、このリンクから入手できる。

We introduce a lightweight and accurate localization method that only utilizes the geometry of 2D-3D lines. Given a pre-captured 3D map, our approach localizes a panorama image, taking advantage of the holistic 360 view. The system mitigates potential privacy breaches or domain discrepancies by avoiding trained or hand-crafted visual descriptors. However, as lines alone can be ambiguous, we express distinctive yet compact spatial contexts from relationships between lines, namely the dominant directions of parallel lines and the intersection between non-parallel lines. The resulting representations are efficient in processing time and memory compared to conventional visual descriptor-based methods. Given the groups of dominant line directions and their intersections, we accelerate the search process to test thousands of pose candidates in less than a millisecond without sacrificing accuracy. We empirically show that the proposed 2D-3D matching can localize panoramas for challenging scenes with similar structures, dramatic domain shifts or illumination changes. Our fully geometric approach does not involve extensive parameter tuning or neural network training, making it a practical algorithm that can be readily deployed in the real world. Project page including the code is available through this link: https://82magnolia.github.io/fgpl/.
翻訳日:2024-04-01 16:54:17 公開日:2024-03-29
# 深層学習モデルを用いた糖尿病網膜症の分類

Classification of Diabetic Retinopathy using Pre-Trained Deep Learning Models ( http://arxiv.org/abs/2403.19905v1 )

ライセンス: Link先を確認
Inas Al-Kamachy, Prof. Dr. Reza Hassanpour, Prof. Roya Choupani, (参考訳) 糖尿病網膜症(DR)は、特に20歳から70歳までの人の視覚障害の主要な原因である。 本稿では,正常,軽度,中等度,重症,増殖性糖尿病網膜症(PDR)の5つの分類に分類するコンピュータ支援診断システムを提案する。 提案システムは,事前学習したディープラーニングモデルを用いた畳み込みニューラルネットワーク(CNN)を利用する。 細調整技術の適用により,350x350x3と224x224x3の解像度で糖尿病網膜症の基底像を訓練した。 4CPU,17GB RAM,1GB Disk のリソースを活用し,Kaggle プラットフォーム上での実験結果から,本手法の有効性を実証した。 CNN、MobileNet、VGG-16、InceptionV3、InceptionResNetV2の各モデルのAUC値は0.50、0.70、0.53、0.63、0.69である。

Diabetic Retinopathy (DR) stands as the leading cause of blindness globally, particularly affecting individuals between the ages of 20 and 70. This paper presents a Computer-Aided Diagnosis (CAD) system designed for the automatic classification of retinal images into five distinct classes: Normal, Mild, Moderate, Severe, and Proliferative Diabetic Retinopathy (PDR). The proposed system leverages Convolutional Neural Networks (CNNs) employing pre-trained deep learning models. Through the application of fine-tuning techniques, our model is trained on fundus images of diabetic retinopathy with resolutions of 350x350x3 and 224x224x3. Experimental results obtained on the Kaggle platform, utilizing resources comprising 4 CPUs, 17 GB RAM, and 1 GB Disk, demonstrate the efficacy of our approach. The achieved Area Under the Curve (AUC) values for CNN, MobileNet, VGG-16, InceptionV3, and InceptionResNetV2 models are 0.50, 0.70, 0.53, 0.63, and 0.69, respectively.
翻訳日:2024-04-01 16:44:26 公開日:2024-03-29
# Beyond the Known: オープンワールドグラフ学習のための新しいクラスディスカバリ

Beyond the Known: Novel Class Discovery for Open-world Graph Learning ( http://arxiv.org/abs/2403.19907v1 )

ライセンス: Link先を確認
Yucheng Jin, Yun Xiong, Juncheng Fang, Xixi Wu, Dongxiao He, Xing Jia, Bingchen Zhao, Philip Yu, (参考訳) グラフ上のノード分類は多くのアプリケーションにおいて非常に重要である。 実世界のオープンシナリオにおけるラベリング能力の制限と進化により、未ラベルのテストノードに新しいクラスが出現する可能性がある。 しかし、グラフ上の新しいクラス発見にはほとんど注意が払われていない。 新しいクラスを発見することは、新しいクラスノードと既知のクラスノードがエッジによって相関しているため、メッセージパッシングGNNを適用する際にそれらの表現を区別できない。 さらに,新しい授業では学習過程をガイドするラベル情報がない。 本稿では,これらの課題に対処するためのオープンワールドgRAph neuraLネットワーク(ORAL)を提案する。 ORALは、半教師付きプロトタイプ学習により、クラス間の相関を初めて検出する。 クラス間相関は、その後、原型的注意ネットワークによって排除され、異なるクラスに対する独特な表現をもたらす。 さらに,ラベル不足を緩和するためのマルチスケールグラフ機能について検討するために,複数のスタック化されたプロトタイプアテンションネットワークからラベル推定を調整・アンサンブルすることで,擬似ラベルを生成する。 いくつかのベンチマークデータセットに対する大規模な実験により,提案手法の有効性が示された。

Node classification on graphs is of great importance in many applications. Due to the limited labeling capability and evolution in real-world open scenarios, novel classes can emerge on unlabeled testing nodes. However, little attention has been paid to novel class discovery on graphs. Discovering novel classes is challenging as novel and known class nodes are correlated by edges, which makes their representations indistinguishable when applying message passing GNNs. Furthermore, the novel classes lack labeling information to guide the learning process. In this paper, we propose a novel method Open-world gRAph neuraL network (ORAL) to tackle these challenges. ORAL first detects correlations between classes through semi-supervised prototypical learning. Inter-class correlations are subsequently eliminated by the prototypical attention network, leading to distinctive representations for different classes. Furthermore, to fully explore multi-scale graph features for alleviating label deficiencies, ORAL generates pseudo-labels by aligning and ensembling label estimations from multiple stacked prototypical attention networks. Extensive experiments on several benchmark datasets show the effectiveness of our proposed method.
翻訳日:2024-04-01 16:44:26 公開日:2024-03-29
# 深層学習法を用いたCRAFTSにおけるHi音源の自動同定とセグメント化

Automated Identification and Segmentation of Hi Sources in CRAFTS Using Deep Learning Method ( http://arxiv.org/abs/2403.19912v1 )

ライセンス: Link先を確認
Zihao Song, Huaxi Chen, Donghui Quan, Di Li, Yinghui Zheng, Shulei Ni, Yunchuan Chen, Yun Zheng, (参考訳) 本研究では,3次元スペクトルデータからHIソースを抽出する機械学習手法を導入し,CRAFTSからHIソースの専用データセットを構築する。 私たちのカスタムデータセットは、HIソース検出のための包括的なリソースを提供します。 3D-Unetセグメンテーションアーキテクチャを用いることで、HIソースを確実に識別およびセグメント化し、リコールレート91.6%、精度95.7%の顕著なパフォーマンス指標を達成する。 これらの結果は、カスタムデータセットの価値と、HIソースを特定する上で提案したネットワークの有効性を裏付けるものである。 私たちのコードはhttps://github.com/fishszh/HISF.comで公開されています。

We introduce a machine learning-based method for extracting HI sources from 3D spectral data, and construct a dedicated dataset of HI sources from CRAFTS. Our custom dataset provides comprehensive resources for HI source detection. Utilizing the 3D-Unet segmentation architecture, our method reliably identifies and segments HI sources, achieving notable performance metrics with recall rates reaching 91.6% and accuracy levels at 95.7%. These outcomes substantiate the value of our custom dataset and the efficacy of our proposed network in identifying HI source. Our code is publicly available at https://github.com/fishszh/HISF.
翻訳日:2024-04-01 16:44:26 公開日:2024-03-29
# MANGO:大規模言語モデルのマッピングとナビゲーション能力の評価ベンチマーク

MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models ( http://arxiv.org/abs/2403.19913v1 )

ライセンス: Link先を確認
Peng Ding, Jiading Fang, Peng Li, Kangrui Wang, Xiaochen Zhou, Mo Yu, Jing Li, Matthew R. Walter, Hongyuan Mei, (参考訳) ChatGPTやGPT-4のような大規模言語モデルは、最近、様々な自然言語処理タスクにおける驚くべきパフォーマンスを達成した。 本稿では,テキストマッピングとナビゲーションの能力を評価するベンチマークであるMANGOを提案する。 ベンチマークには、一連のテキストゲームから採取した53個の迷路が含まれている。各迷路は、すべての場所を訪れながら、可能なすべての経路をカバーしていないウォークスルーとペアリングされる。 それぞれの迷路について、大きな言語モデルがウォークスルーを読み、数百の地図やナビゲーションの質問に答えている。 これらの質問は人間にとって容易であるが、最も最新の言語モデルであるGPT-4でさえ、答えが不十分であることが判明した。 さらに,本実験は,テキストゲームなどの下流タスクの実行において,強力なマッピングとナビゲーション能力が大きな言語モデルに有効であることが示唆された。 我々のMANGOベンチマークは,言語モデルのマッピングとナビゲーション機能を改善する手法の今後の研究を促進する。 私たちはリーダーボード、データ、コード、評価プログラムをhttps://mango.ttic.eduとhttps://github.com/oaklight/mango/でホストしています。

Large language models such as ChatGPT and GPT-4 have recently achieved astonishing performance on a variety of natural language processing tasks. In this paper, we propose MANGO, a benchmark to evaluate their capabilities to perform text-based mapping and navigation. Our benchmark includes 53 mazes taken from a suite of textgames: each maze is paired with a walkthrough that visits every location but does not cover all possible paths. The task is question-answering: for each maze, a large language model reads the walkthrough and answers hundreds of mapping and navigation questions such as "How should you go to Attic from West of House?" and "Where are we if we go north and east from Cellar?". Although these questions are easy to humans, it turns out that even GPT-4, the best-to-date language model, performs poorly at answering them. Further, our experiments suggest that a strong mapping and navigation ability would benefit large language models in performing relevant downstream tasks, such as playing textgames. Our MANGO benchmark will facilitate future research on methods that improve the mapping and navigation capabilities of language models. We host our leaderboard, data, code, and evaluation program at https://mango.ttic.edu and https://github.com/oaklight/mango/.
翻訳日:2024-04-01 16:44:26 公開日:2024-03-29
# イメージを共変量として使う:ディープラーニングによるカーブアピールの測定

Using Images as Covariates: Measuring Curb Appeal with Deep Learning ( http://arxiv.org/abs/2403.19915v1 )

ライセンス: Link先を確認
Ardyn Nordstrom, Morgan Nordstrom, Matthew D. Webb, (参考訳) 本稿では、画像データを従来の計量モデルに統合する革新的な手法を詳述する。 住宅不動産の販売価格の予測により、我々は、画像に含まれる「情報」を共変量として付加する深層学習の力を活用している。 具体的には、画像分類器(ResNet-50, VGG16, MobileNet, Inception V3)のアンサンブルを用いて、住宅画像の分類と符号化を行った。 各画像内で提示される特異な特徴は、さらに汎視的セグメンテーションによって符号化された。 符号化されたデータに基づいてトレーニングされたニューラルネットワークからの予測は、サンプル外予測能力を改善する。 また、これらの画像に基づく予測と、標準のヘドニックな不動産特性と位置特性を組み合わせ、統合されたデータセットを生成する。 符号化された特徴を余分な共変量と見なすと,画像に基づく予測によってヘドニック予測の精度が向上することを示す。 また、画像に基づく予測が最も高い相関関係にあるかを「説明」しようと試みる。 この研究は、学際的方法論、機械学習とエコノメトリを統合することで、未解決のデータソースを利用してより正確な予測を行うという利点を実証している。

This paper details an innovative methodology to integrate image data into traditional econometric models. Motivated by forecasting sales prices for residential real estate, we harness the power of deep learning to add "information" contained in images as covariates. Specifically, images of homes were categorized and encoded using an ensemble of image classifiers (ResNet-50, VGG16, MobileNet, and Inception V3). Unique features presented within each image were further encoded through panoptic segmentation. Forecasts from a neural network trained on the encoded data results in improved out-of-sample predictive power. We also combine these image-based forecasts with standard hedonic real estate property and location characteristics, resulting in a unified dataset. We show that image-based forecasts increase the accuracy of hedonic forecasts when encoded features are regarded as additional covariates. We also attempt to "explain" which covariates the image-based forecasts are most highly correlated with. The study exemplifies the benefits of interdisciplinary methodologies, merging machine learning and econometrics to harness untapped data sources for more accurate forecasting.
翻訳日:2024-04-01 16:44:26 公開日:2024-03-29
# CtRL-Sim:オフライン強化学習による反応性・制御可能な運転エージェント

CtRL-Sim: Reactive and Controllable Driving Agents with Offline Reinforcement Learning ( http://arxiv.org/abs/2403.19918v1 )

ライセンス: Link先を確認
Luke Rowe, Roger Girgis, Anthony Gosselin, Bruno Carrez, Florian Golemo, Felix Heide, Liam Paull, Christopher Pal, (参考訳) シミュレーションにおける自律走行車スタック(AV)の評価は、通常、実世界の記録されたトラフィックからログを再生する。 しかし、オフラインデータからリプレイされたエージェントはAVの動作に反応せず、その振る舞いは反現実的なシナリオをシミュレートするために簡単には制御できない。 既存のアプローチは、実世界のデータのヒューリスティックスや学習された生成モデルに依存する手法を提案し、これらの欠点に対処しようと試みてきたが、これらのアプローチは現実主義を欠いているか、生成された振る舞いを制御するためにコストのかかる反復的なサンプリング手順を必要とするかのいずれかである。 そこで本研究では,Nacturneシミュレータ内での返却条件付きオフライン強化学習を利用して,応答性および制御可能なトラヒックエージェントを効率的に生成する手法であるCtRL-Simを提案する。 具体的には、実世界の運転データをNocturneシミュレータを通して処理し、様々な報酬項を付加した多様なオフライン強化学習データセットを生成する。 このデータセットを用いて、返却条件付きマルチエージェント動作モデルをトレーニングし、様々な報酬成分に対して所望の戻り値を変更することでエージェント動作のきめ細かい操作を可能にする。 この機能は、敵の振る舞いを表すものを含む、初期データセットの範囲を超えて幅広い駆動行動を生成することができる。 我々は,CtRL-Simがエージェント動作のきめ細かい制御を提供しながら,多様かつ現実的な安全クリティカルシナリオを効率的に生成できることを実証した。 さらに、モデルが生成するシミュレーション安全クリティカルなシナリオを微調整することで、この制御性が向上することを示す。

Evaluating autonomous vehicle stacks (AVs) in simulation typically involves replaying driving logs from real-world recorded traffic. However, agents replayed from offline data do not react to the actions of the AV, and their behaviour cannot be easily controlled to simulate counterfactual scenarios. Existing approaches have attempted to address these shortcomings by proposing methods that rely on heuristics or learned generative models of real-world data but these approaches either lack realism or necessitate costly iterative sampling procedures to control the generated behaviours. In this work, we take an alternative approach and propose CtRL-Sim, a method that leverages return-conditioned offline reinforcement learning within a physics-enhanced Nocturne simulator to efficiently generate reactive and controllable traffic agents. Specifically, we process real-world driving data through the Nocturne simulator to generate a diverse offline reinforcement learning dataset, annotated with various reward terms. With this dataset, we train a return-conditioned multi-agent behaviour model that allows for fine-grained manipulation of agent behaviours by modifying the desired returns for the various reward components. This capability enables the generation of a wide range of driving behaviours beyond the scope of the initial dataset, including those representing adversarial behaviours. We demonstrate that CtRL-Sim can efficiently generate diverse and realistic safety-critical scenarios while providing fine-grained control over agent behaviours. Further, we show that fine-tuning our model on simulated safety-critical scenarios generated by our model enhances this controllability.
翻訳日:2024-04-01 16:44:26 公開日:2024-03-29
# Diff-Reg v1: 登録問題に対する拡散マッチングモデル

Diff-Reg v1: Diffusion Matching Model for Registration Problem ( http://arxiv.org/abs/2403.19919v1 )

ライセンス: Link先を確認
Qianliang Wu, Haobo Jiang, Lei Luo, Jun Li, Yaqing Ding, Jin Xie, Jian Yang, (参考訳) 3Dや2D3Dの登録のような登録タスクには、信頼できる対応を確立することが不可欠である。 既存の手法では、幾何学的あるいは意味的な特徴を利用して潜在的な対応を生成する。 しかし、これらの特徴は大きな変形、スケールの不整合、曖昧なマッチング問題(例えば対称性)といった課題に直面している可能性がある。 さらに、シングルパス予測に依存する多くの従来の手法は、複雑なシナリオにおいて局所ミニマと競合する可能性がある。 これらの課題を軽減するために,ロバスト対応構築のための拡散マッチングモデルを提案する。 提案手法は, 2次確率行列空間内の共振拡散過程として対応し, 2次確率マッチング行列を2次確率マッチング行列から2次確率マッチング行列に分解し,高品質な対応推定を行う。 これは、ガウス雑音を基底の真理マッチング行列に徐々に導入する前方拡散過程と、雑音マッチング行列を反復的に洗練する逆復調過程を含む。 特に、背骨からの特徴抽出は推論フェーズ中に1回だけ発生する。 我々の軽量デノナイジングモジュールは、各逆サンプリングステップで同じ機能を利用する。 3次元および2次元の登録タスクにおける本手法の有効性を検証した。

Establishing reliable correspondences is essential for registration tasks such as 3D and 2D3D registration. Existing methods commonly leverage geometric or semantic point features to generate potential correspondences. However, these features may face challenges such as large deformation, scale inconsistency, and ambiguous matching problems (e.g., symmetry). Additionally, many previous methods, which rely on single-pass prediction, may struggle with local minima in complex scenarios. To mitigate these challenges, we introduce a diffusion matching model for robust correspondence construction. Our approach treats correspondence estimation as a denoising diffusion process within the doubly stochastic matrix space, which gradually denoises (refines) a doubly stochastic matching matrix to the ground-truth one for high-quality correspondence estimation. It involves a forward diffusion process that gradually introduces Gaussian noise into the ground truth matching matrix and a reverse denoising process that iteratively refines the noisy matching matrix. In particular, the feature extraction from the backbone occurs only once during the inference phase. Our lightweight denoising module utilizes the same feature at each reverse sampling step. Evaluation of our method on both 3D and 2D3D registration tasks confirms its effectiveness.
翻訳日:2024-04-01 16:44:26 公開日:2024-03-29
# MI-NeRF: 複数の物体から単一顔NeRFを学習する

MI-NeRF: Learning a Single Face NeRF from Multiple Identities ( http://arxiv.org/abs/2403.19920v1 )

ライセンス: Link先を確認
Aggelina Chatziagapi, Grigorios G. Chrysos, Dimitris Samaras, (参考訳) 本研究では,複数の人物の顔映像から単一動的神経放射場(NeRF)を学習する手法を提案する。 NeRFは、人間の顔の4Dダイナミックスと外観をモデル化する際、顕著な結果を示した。 しかし、それらは同一性ごとの最適化を必要とする。 近年、トレーニングやレンダリングの時間を短縮する手法が提案されているが、アイデンティティの数を増やすにはコストがかかる。 MI-NeRF(multi-identity NeRF)は、任意の長さのモノクロビデオのみを用いて、複雑な非剛体顔の動きをモデル化する単一統一ネットワークである。 本手法の中核となる前提は、乗法モジュールを用いてアイデンティティと非アイデンティティ固有情報の間の非線形相互作用を学習することである。 複数の動画を同時にトレーニングすることで、MI-NeRFは通常のシングルアイデンティティのNeRFと比較してトレーニング時間を短縮するだけでなく、任意の入力IDに対して新規表現を合成する際の堅牢性も示している。 本稿では,表情伝達と音声合成の両面での結果について述べる。 本手法は,短いビデオのみを対象とする個人識別のためにさらにパーソナライズすることができる。

In this work, we introduce a method that learns a single dynamic neural radiance field (NeRF) from monocular talking face videos of multiple identities. NeRFs have shown remarkable results in modeling the 4D dynamics and appearance of human faces. However, they require per-identity optimization. Although recent approaches have proposed techniques to reduce the training and rendering time, increasing the number of identities can be expensive. We introduce MI-NeRF (multi-identity NeRF), a single unified network that models complex non-rigid facial motion for multiple identities, using only monocular videos of arbitrary length. The core premise in our method is to learn the non-linear interactions between identity and non-identity specific information with a multiplicative module. By training on multiple videos simultaneously, MI-NeRF not only reduces the total training time compared to standard single-identity NeRFs, but also demonstrates robustness in synthesizing novel expressions for any input identity. We present results for both facial expression transfer and talking face video synthesis. Our method can be further personalized for a target identity given only a short video.
翻訳日:2024-04-01 16:44:26 公開日:2024-03-29
# SceneTracker: 長期のシーンフロー推定ネットワーク

SceneTracker: Long-term Scene Flow Estimation Network ( http://arxiv.org/abs/2403.19924v1 )

ライセンス: Link先を確認
Bo Wang, Jian Li, Yang Yu, Li Liu, Zhenping Sun, Dewen Hu, (参考訳) 本研究は,空間領域の焦点能力と時間領域のコヒーレンスにおける3次元物体追跡の相補性を考慮して,細粒度と長期の3次元動きを同時にオンライン的に捉えることができる包括的新しい課題である長期シーンフロー推定(LSFE)に取り組むことを目的とする。 SceneTrackerは学習に基づく新しいLSFEネットワークであり、最適軌道を近似するために反復的なアプローチを採用する。 さらに、外見と奥行きの相関機能を同時に動的にインデックスし、構築し、Transformerを使用して軌道内および軌道間の長距離接続を探索、活用する。 詳細な実験により、SceneTrackerはLSFEタスクのニーズに合わせて高度に調整された3次元空間閉塞と奥行きノイズ干渉を扱う優れた能力を示す。 SceneTrackerのコードはhttps://github.com/wwsource/SceneTracker.comで公開されている。

Considering the complementarity of scene flow estimation in the spatial domain's focusing capability and 3D object tracking in the temporal domain's coherence, this study aims to address a comprehensive new task that can simultaneously capture fine-grained and long-term 3D motion in an online manner: long-term scene flow estimation (LSFE). We introduce SceneTracker, a novel learning-based LSFE network that adopts an iterative approach to approximate the optimal trajectory. Besides, it dynamically indexes and constructs appearance and depth correlation features simultaneously and employs the Transformer to explore and utilize long-range connections within and between trajectories. With detailed experiments, SceneTracker shows superior capabilities in handling 3D spatial occlusion and depth noise interference, highly tailored to the LSFE task's needs. The code for SceneTracker is available at https://github.com/wwsource/SceneTracker.
翻訳日:2024-04-01 16:44:26 公開日:2024-03-29
# 決定マンバ:選択状態空間を用いたシーケンスモデリングによる強化学習

Decision Mamba: Reinforcement Learning via Sequence Modeling with Selective State Spaces ( http://arxiv.org/abs/2403.19925v1 )

ライセンス: Link先を確認
Toshihiro Ota, (参考訳) 決定トランスフォーマー(Decision Transformer)は、トランスフォーマーアーキテクチャを強化学習に適用する、有望なアプローチである。 提案手法は競争力のある結果を示したが,効率が高く効率的なシーケンスモデリングの高度な能力で知られるMambaフレームワークを決定変換器アーキテクチャに統合し,逐次決定タスクにおける性能向上の可能性に着目した。 本研究は,様々な意思決定環境における一連の実験を行うことにより,この統合を系統的に評価し,改良された決定変換器である決定マンバと従来の決定マンバとを比較した。 この研究は、シーケンシャルな意思決定モデルの進歩に寄与し、ニューラルネットワークのアーキテクチャとトレーニング方法論が複雑なタスクにおける彼らのパフォーマンスに大きな影響を与えることを示唆し、強化学習シナリオにおけるトランスフォーマーベースのモデルの有効性を改善するための貴重なツールとして、Mambaの可能性を強調した。

Decision Transformer, a promising approach that applies Transformer architectures to reinforcement learning, relies on causal self-attention to model sequences of states, actions, and rewards. While this method has shown competitive results, this paper investigates the integration of the Mamba framework, known for its advanced capabilities in efficient and effective sequence modeling, into the Decision Transformer architecture, focusing on the potential performance enhancements in sequential decision-making tasks. Our study systematically evaluates this integration by conducting a series of experiments across various decision-making environments, comparing the modified Decision Transformer, Decision Mamba, with its traditional counterpart. This work contributes to the advancement of sequential decision-making models, suggesting that the architecture and training methodology of neural networks can significantly impact their performance in complex tasks, and highlighting the potential of Mamba as a valuable tool for improving the efficacy of Transformer-based models in reinforcement learning scenarios.
翻訳日:2024-04-01 16:44:26 公開日:2024-03-29
# デカップリング空間時間アグリゲーションによるビデオベースヒューマンポーズ回帰

Video-Based Human Pose Regression via Decoupled Space-Time Aggregation ( http://arxiv.org/abs/2403.19926v1 )

ライセンス: Link先を確認
Jijie He, Wenwu Yang, (参考訳) ビデオシーケンスにおける時間的依存性を活用することで、マルチフレームの人間のポーズ推定アルゴリズムは、閉塞、動きのぼやけ、ビデオデフォーカスといった複雑な状況において顕著な結果を示した。 これらのアルゴリズムは主にヒートマップに基づいており、結果としてフレーム毎に高い計算とストレージ要求が発生し、ビデオシナリオ、特にエッジデバイスにおけるその柔軟性とリアルタイムなアプリケーションを制限する。 本稿では,ヒートマップなどの中間表現をバイパスし,入力を出力されたジョイント座標に直接マッピングする,効率的かつ効果的なヒューマンポーズ回帰手法を開発する。 ヒトのポーズの隣り合う関節の空間的相関にもかかわらず、各関節の時間的軌跡は相対的な独立性を示す。 そこで本研究では,各関節の空間的状況と時間的手がかりを分離的に把握し,時空間次元の融合を回避するために,新たにDSTA(Decoupled Space-Time Aggregation Network)を提案する。 具体的には、DSTAは各関節に専用の特徴トークンを学習し、時空間依存のモデリングを容易にする。 提案手法では, 近接する関節の空間的依存性と各関節の時間的依存性を効率よく, 柔軟に利用することができる。 大規模な実験により,本手法の優位性を実証した。 従来の回帰ベースの単一フレームのヒューマンポーズ推定手法と比較して、DSTAはパフォーマンスを大幅に向上し、PoseTrack2017の8.9mAP改善を実現している。 さらに,本手法は,最先端のヒートマップに基づくマルチフレームヒューマンポーズ推定手法に匹敵するか,あるいは同等である。 プロジェクトページ: https://github.com/zgspose/DSTA.com

By leveraging temporal dependency in video sequences, multi-frame human pose estimation algorithms have demonstrated remarkable results in complicated situations, such as occlusion, motion blur, and video defocus. These algorithms are predominantly based on heatmaps, resulting in high computation and storage requirements per frame, which limits their flexibility and real-time application in video scenarios, particularly on edge devices. In this paper, we develop an efficient and effective video-based human pose regression method, which bypasses intermediate representations such as heatmaps and instead directly maps the input to the output joint coordinates. Despite the inherent spatial correlation among adjacent joints of the human pose, the temporal trajectory of each individual joint exhibits relative independence. In light of this, we propose a novel Decoupled Space-Time Aggregation network (DSTA) to separately capture the spatial contexts between adjacent joints and the temporal cues of each individual joint, thereby avoiding the conflation of spatiotemporal dimensions. Concretely, DSTA learns a dedicated feature token for each joint to facilitate the modeling of their spatiotemporal dependencies. With the proposed joint-wise local-awareness attention mechanism, our method is capable of efficiently and flexibly utilizing the spatial dependency of adjacent joints and the temporal dependency of each joint itself. Extensive experiments demonstrate the superiority of our method. Compared to previous regression-based single-frame human pose estimation methods, DSTA significantly enhances performance, achieving an 8.9 mAP improvement on PoseTrack2017. Furthermore, our approach either surpasses or is on par with the state-of-the-art heatmap-based multi-frame human pose estimation methods. Project page: https://github.com/zgspose/DSTA.
翻訳日:2024-04-01 16:44:26 公開日:2024-03-29
# DiJiang: コンパクトカーネル化による効率的な大規模言語モデル

DiJiang: Efficient Large Language Models through Compact Kernelization ( http://arxiv.org/abs/2403.19928v1 )

ライセンス: Link先を確認
Hanting Chen, Zhicheng Liu, Xutao Wang, Yuchuan Tian, Yunhe Wang, (参考訳) 変圧器の計算負荷を削減するため、線形注意の研究は大きな勢いを増した。 しかし、注意機構の改善戦略は、多くのパラメータを持つ大規模言語モデルでは実行不可能な大規模な再訓練を必要とするのが一般的である。 本稿では、事前学習したバニラトランスの線形複雑性モデルへの変換を可能にする新しい周波数領域カーネル化手法であるDiJiangを提案する。 重み付けされた準モンテカルロ法をサンプリングに利用することにより、理論的には近似効率が優れている。 トレーニング計算の複雑さをさらに軽減するために、我々のカーネル化は離散コサイン変換(DCT)演算に基づいている。 大規模な実験により,提案手法は元のTransformerに匹敵する性能を示したが,トレーニングコストは大幅に削減され,推論速度は大幅に向上した。 我々のDiJiang-7Bは、様々なベンチマークでLLaMA2-7Bと同等のパフォーマンスを達成していますが、トレーニングコストは1/50程度です。 コードはhttps://github.com/YuchuanTian/DiJiang.comで入手できる。

In an effort to reduce the computational load of Transformers, research on linear attention has gained significant momentum. However, the improvement strategies for attention mechanisms typically necessitate extensive retraining, which is impractical for large language models with a vast array of parameters. In this paper, we present DiJiang, a novel Frequency Domain Kernelization approach that enables the transformation of a pre-trained vanilla Transformer into a linear complexity model with little training costs. By employing a weighted Quasi-Monte Carlo method for sampling, the proposed approach theoretically offers superior approximation efficiency. To further reduce the training computational complexity, our kernelization is based on Discrete Cosine Transform (DCT) operations. Extensive experiments demonstrate that the proposed method achieves comparable performance to the original Transformer, but with significantly reduced training costs and much faster inference speeds. Our DiJiang-7B achieves comparable performance with LLaMA2-7B on various benchmark while requires only about 1/50 training cost. Code is available at https://github.com/YuchuanTian/DiJiang.
翻訳日:2024-04-01 16:44:26 公開日:2024-03-29
# LLMsは微調整に有効か?-中国語短文マッチングにおけるLLMの監督に関する実験的検討

Are LLMs Effective Backbones for Fine-tuning? An Experimental Investigation of Supervised LLMs on Chinese Short Text Matching ( http://arxiv.org/abs/2403.19930v1 )

ライセンス: Link先を確認
Shulin Liu, Chengcheng Xu, Hao Liu, Tinghao Yu, Tao Yang, (参考訳) 近年のLarge Language Models(LLMs)の成功は、学術と産業の両方において大きな注目を集めている。 LLMの以前の研究は、主にゼロショットと少数ショットの設定における一般化能力の強化や活用に重点を置いていた。 しかし、教師付き設定において、特定の自然言語理解タスクに対して、効果的に微調整されたLLMについて限定的な調査がなされている。 本研究では,中国語短文マッチング作業のための微調整LDMによる実験的検討を行った。 タスクモデリング手法,プロンプト形式,出力形式など,微調整LDMの性能に影響を及ぼす諸要因について検討する。

The recent success of Large Language Models (LLMs) has garnered significant attention in both academia and industry. Prior research on LLMs has primarily focused on enhancing or leveraging their generalization capabilities in zero- and few-shot settings. However, there has been limited investigation into effectively fine-tuning LLMs for a specific natural language understanding task in supervised settings. In this study, we conduct an experimental analysis by fine-tuning LLMs for the task of Chinese short text matching. We explore various factors that influence performance when fine-tuning LLMs, including task modeling methods, prompt formats, and output formats.
翻訳日:2024-04-01 16:44:26 公開日:2024-03-29
# 強添加による$g$-theorem

The $g$-theorem from Strong Subadditivity ( http://arxiv.org/abs/2403.19934v1 )

ライセンス: Link先を確認
Jonathan Harper, Hiroki Kanda, Tadashi Takayanagi, Kenya Tasuki, (参考訳) 強部分付加性は2次元共形場理論における境界再正規化群フローに対する$g$-理論の単純な導出を与えることを示す。 ホログラフィック解釈を検証し、2次元共形場理論における界面の場合の$g$-理論の導出を与える。 また、境界を持つ多様体上の共形場理論のホログラフィック双対に対する強い部分付加性も幾何的に確認する。

We show that strong subadditivity provides a simple derivation of the $g$-theorem for the boundary renormalization group flow in two-dimensional conformal field theories. We work out its holographic interpretation and also give a derivation of the $g$-theorem for the case of an interface in two-dimensional conformal field theories. We also geometrically confirm strong subadditivity for holographic duals of conformal field theories on manifolds with boundaries.
翻訳日:2024-04-01 16:44:26 公開日:2024-03-29
# CP HDR:LDRおよびHDR画像の特徴点検出と記述ライブラリ

CP HDR: A feature point detection and description library for LDR and HDR images ( http://arxiv.org/abs/2403.19935v1 )

ライセンス: Link先を確認
Artur Santos Nascimento, Valter Guilherme Silva de Souza, Daniel Oliveira Dantas, Beatriz Trinchão Andrade, (参考訳) コンピュータビジョンにおいて、特徴とは、コーナー、エッジ、テクスチャ、あるいはコントラストの高い領域などの独特の特性を持つ画像領域を指す。 これらの領域は特徴点(FP)を通して表現することができる。 FPの検出と記述は多くのコンピュータビジョンタスクの基本的なステップである。 ほとんどのFP検出および記述方法は低ダイナミックレンジ(LDR)画像を使用し、デジタル画像を含むほとんどのアプリケーションに十分である。 しかし、LDR画像は、FP検出を低下させる極端光条件のシーンで飽和画素を持つ可能性がある。 一方、高ダイナミックレンジ(HDR)画像は、通常より広いダイナミックレンジを示すが、FP検出アルゴリズムはそのような画像の全ての情報を利用するわけではない。 本研究では,HDR画像を入力として使用する画像検出と記述アルゴリズムの体系的レビューを行う。 本研究では,HDR用SIFT (SfHDR) とHDR用Harris (HfHDR) の2つのアルゴリズムを改良し,HDR用SIFT (SfHDR) とHDR用Harris (HfHDR) を実装したCP_HDRライブラリを開発した。 従来の研究では,FP検出におけるHDR画像の使用について検討されていたが,FP記述におけるHDR画像の使用に関する調査は見つからなかった。 LDRおよびHDR画像を用いたCP_HDRアルゴリズムの性能を,均一性,再現性,平均精度,マッチングレートの測定値を用いて比較した。 画像の高照度,中照度,低照度領域におけるFPの分布の均一性の増加を観察した。 その結果,HDR画像を入力として検出アルゴリズムとして用いることで性能が向上し,SfHDRとHfHDRがFP記述を向上させることがわかった。

In computer vision, characteristics refer to image regions with unique properties, such as corners, edges, textures, or areas with high contrast. These regions can be represented through feature points (FPs). FP detection and description are fundamental steps to many computer vision tasks. Most FP detection and description methods use low dynamic range (LDR) images, sufficient for most applications involving digital images. However, LDR images may have saturated pixels in scenes with extreme light conditions, which degrade FP detection. On the other hand, high dynamic range (HDR) images usually present a greater dynamic range but FP detection algorithms do not take advantage of all the information in such images. In this study, we present a systematic review of image detection and description algorithms that use HDR images as input. We developed a library called CP_HDR that implements the Harris corner detector, SIFT detector and descriptor, and two modifications of those algorithms specialized in HDR images, called SIFT for HDR (SfHDR) and Harris for HDR (HfHDR). Previous studies investigated the use of HDR images in FP detection, but we did not find studies investigating the use of HDR images in FP description. Using uniformity, repeatability rate, mean average precision, and matching rate metrics, we compared the performance of the CP_HDR algorithms using LDR and HDR images. We observed an increase in the uniformity of the distribution of FPs among the high-light, mid-light, and low-light areas of the images. The results show that using HDR images as input to detection algorithms improves performance and that SfHDR and HfHDR enhance FP description.
翻訳日:2024-04-01 16:44:26 公開日:2024-03-29
# SLFNet:意味確率グラフを用いた自然言語から意味論理形式を生成する

SLFNet: Generating Semantic Logic Forms from Natural Language Using Semantic Probability Graphs ( http://arxiv.org/abs/2403.19936v1 )

ライセンス: Link先を確認
Hao Wu, Fan Xu, (参考訳) 自然言語インターフェースの構築は通常、ユーザの自然言語を解析するためにセマンティックパーサを使用し、構造化された \textbf{S}emantic \textbf{L}ogic \textbf{F}orms (SLFs) に変換する。 主流のアプローチはシーケンス・ツー・シーケンスのフレームワークを採用することであり、自然言語コマンドとSLFを直列に表現する必要がある。 一つの自然言語が複数のSLFを持つ場合や、複数の自然言語コマンドが同じSLFを持つ場合があり、シーケンス・ツー・シーケンスのモデルを訓練することはそれらの選択に敏感であり、「順序事項」として記録される現象である。 この問題を解決するために,まず依存構文情報を先行知識として組み込んだ新しいニューラルネットワーク,SLFNetを提案し,文脈情報と単語間の長距離相互作用を捉える。 次に、予測変数間の局所的依存関係を得るために意味確率グラフを構築する。 最後に、シーケンス・トゥ・スロットに基づく自然言語コマンドからSLFを合成するマルチヘッドSLFアテンション機構を提案する。 実験の結果,中国QCI-TSデータセットとオカピデータセットではSLFNetが最先端のパフォーマンス,ATISデータセットでは競合性能を実現していることがわかった。

Building natural language interfaces typically uses a semantic parser to parse the user's natural language and convert it into structured \textbf{S}emantic \textbf{L}ogic \textbf{F}orms (SLFs). The mainstream approach is to adopt a sequence-to-sequence framework, which requires that natural language commands and SLFs must be represented serially. Since a single natural language may have multiple SLFs or multiple natural language commands may have the same SLF, training a sequence-to-sequence model is sensitive to the choice among them, a phenomenon recorded as "order matters". To solve this problem, we propose a novel neural network, SLFNet, which firstly incorporates dependent syntactic information as prior knowledge and can capture the long-range interactions between contextual information and words. Secondly construct semantic probability graphs to obtain local dependencies between predictor variables. Finally we propose the Multi-Head SLF Attention mechanism to synthesize SLFs from natural language commands based on Sequence-to-Slots. Experiments show that SLFNet achieves state-of-the-art performance on the ChineseQCI-TS and Okapi datasets, and competitive performance on the ATIS dataset.
翻訳日:2024-04-01 16:34:41 公開日:2024-03-29
# 自己蒸留とリセットによる多様な特徴学習

Diverse Feature Learning by Self-distillation and Reset ( http://arxiv.org/abs/2403.19941v1 )

ライセンス: Link先を確認
Sejik Park, (参考訳) 本稿は,これまで学習してきた特徴を忘れたり,新しい特徴を習得できなかったりするため,多様な特徴を学習するのに苦労するモデルの問題に対処する。 この問題を解決するために,重要な特徴保存アルゴリズムと新しい特徴学習アルゴリズムを組み合わせたDFL(Diverse Feature Learning)を提案する。 具体的には、重要な特徴を保存するために、トレーニング中に観察される意味のあるモデルの重みを選択することで、アンサンブルモデルの自己蒸留を利用する。 新機能の学習には、定期的にモデルの一部を初期化するリセットを採用しています。 その結果、画像分類に関する様々なモデルを用いた実験により、自己蒸留とリセットの相乗効果の可能性を明らかにした。

Our paper addresses the problem of models struggling to learn diverse features, due to either forgetting previously learned features or failing to learn new ones. To overcome this problem, we introduce Diverse Feature Learning (DFL), a method that combines an important feature preservation algorithm with a new feature learning algorithm. Specifically, for preserving important features, we utilize self-distillation in ensemble models by selecting the meaningful model weights observed during training. For learning new features, we employ reset that involves periodically re-initializing part of the model. As a result, through experiments with various models on the image classification, we have identified the potential for synergistic effects between self-distillation and reset.
翻訳日:2024-04-01 16:34:41 公開日:2024-03-29
# TDANet: 故障診断に留意した新しい時間分解畳み込みニューラルネットワーク

TDANet: A Novel Temporal Denoise Convolutional Neural Network With Attention for Fault Diagnosis ( http://arxiv.org/abs/2403.19943v1 )

ライセンス: Link先を確認
Zhongzhi Li, Rong Fan, Jingqi Tu, Jinyi Ma, Jianliang Ai, Yiqun Dong, (参考訳) 故障診断は機械システムの運用上の整合性を維持する上で重要な役割を担い、予期せぬ故障による重大な損失を防ぐ。 インテリジェントな製造とデータ駆動のアプローチが進化するにつれて、Deep Learning(DL)は障害診断研究において重要な技術として登場し、複雑な特徴を自律的に抽出する能力を認識している。 しかし, 産業環境の複雑化により, 現状の故障診断法の実用化が課題となっている。 本稿では,音環境における故障診断性能の向上を目的としたTDANet(Tunal Denoise Convolutional Neural Network With Attention)を提案する。 このモデルは、周期特性に基づいて1次元信号を2次元テンソルに変換し、多スケール2次元畳み込みカーネルを用いて周期内および周期間の信号情報を抽出する。 この方法は、複数の時間スケールで異なる信号特性を効果的に識別することを可能にする。 TDANetは、残差接続を備えたテンポラル可変デノイズ(TVD)モジュールとマルチヘッドアテンションフュージョン(MAF)モジュールを内蔵し、ノイズデータ内の情報の健全性を高め、効果的な故障診断性能を維持する。 CWRU (single sensor) とReal Aircraft Sensor Fault (multiple sensor) の2つのデータセットに対する評価は、TDANetモデルがノイズの多い環境下での診断精度において既存のディープラーニングアプローチを大幅に上回っていることを示している。

Fault diagnosis plays a crucial role in maintaining the operational integrity of mechanical systems, preventing significant losses due to unexpected failures. As intelligent manufacturing and data-driven approaches evolve, Deep Learning (DL) has emerged as a pivotal technique in fault diagnosis research, recognized for its ability to autonomously extract complex features. However, the practical application of current fault diagnosis methods is challenged by the complexity of industrial environments. This paper proposed the Temporal Denoise Convolutional Neural Network With Attention (TDANet), designed to improve fault diagnosis performance in noise environments. This model transforms one-dimensional signals into two-dimensional tensors based on their periodic properties, employing multi-scale 2D convolution kernels to extract signal information both within and across periods. This method enables effective identification of signal characteristics that vary over multiple time scales. The TDANet incorporates a Temporal Variable Denoise (TVD) module with residual connections and a Multi-head Attention Fusion (MAF) module, enhancing the saliency of information within noisy data and maintaining effective fault diagnosis performance. Evaluation on two datasets, CWRU (single sensor) and Real aircraft sensor fault (multiple sensors), demonstrates that the TDANet model significantly outperforms existing deep learning approaches in terms of diagnostic accuracy under noisy environments.
翻訳日:2024-04-01 16:34:41 公開日:2024-03-29
# バイナリ化低照度映像強調

Binarized Low-light Raw Video Enhancement ( http://arxiv.org/abs/2403.19944v1 )

ライセンス: Link先を確認
Gengchen Zhang, Yulun Zhang, Xin Yuan, Ying Fu, (参考訳) 近年,低照度生ビデオの高精細化において,ディープニューラルネットワークは優れた性能を発揮している。 しかし、それらはしばしば高い計算複雑性と大きなメモリコストを伴い、リソース制限されたデバイスへの応用を妨げる。 本稿では,低照度生ビデオエンハンスメントに超コンパクトなバイナリニューラルネットワーク(BNN)を適用する可能性について検討する。 それにもかかわらず、ビデオエンハンスメントモデルのバイナライズには2つの大きな問題がある。 ひとつは、複雑なモジュールを使わずに、時間情報を融合して低照度化を改善する方法です。 もう1つは、完全な精度でバイナリの畳み込みのパフォーマンスギャップを狭める方法です。 最初の課題に対処するため,時空間シフト操作を導入する。 時間シフトは隣接するフレームの特徴を効率的に集約し、空間シフトはビデオの大きな動きによる不一致を処理する。 2つ目の問題として、実数値入力の分布特性をキャプチャし、それらを平易なバイナリ畳み込みに組み込んで性能劣化を緩和する分散対応バイナリ畳み込みを提案する。 広汎な定量および定性的実験により,高能率バイナライズされた低照度生ビデオ強調法は有望な性能が得られることが示された。

Recently, deep neural networks have achieved excellent performance on low-light raw video enhancement. However, they often come with high computational complexity and large memory costs, which hinder their applications on resource-limited devices. In this paper, we explore the feasibility of applying the extremely compact binary neural network (BNN) to low-light raw video enhancement. Nevertheless, there are two main issues with binarizing video enhancement models. One is how to fuse the temporal information to improve low-light denoising without complex modules. The other is how to narrow the performance gap between binary convolutions with the full precision ones. To address the first issue, we introduce a spatial-temporal shift operation, which is easy-to-binarize and effective. The temporal shift efficiently aggregates the features of neighbor frames and the spatial shift handles the misalignment caused by the large motion in videos. For the second issue, we present a distribution-aware binary convolution, which captures the distribution characteristics of real-valued input and incorporates them into plain binary convolutions to alleviate the degradation in performance. Extensive quantitative and qualitative experiments have shown our high-efficiency binarized low-light raw video enhancement method can attain a promising performance.
翻訳日:2024-04-01 16:34:41 公開日:2024-03-29
# コンクリート穴の穴あけ対策

A Peg-in-hole Task Strategy for Holes in Concrete ( http://arxiv.org/abs/2403.19946v1 )

ライセンス: Link先を確認
André Yuji Yasutomi, Hiroki Mori, Tetsuya Ogata, (参考訳) 産業用ロボットがコンクリート中の穴の穴あけを行えるようにする手法を提案する。 提案手法は, コンクリートの高摩擦係数の負の影響を回避するため, 壁面からペグをわずかに除去する。 強化学習を通じて訓練されたディープニューラルネットワーク(DNN)を使用して、分析モデルや制御パラメータチューニングを使わずに、可変形状と表面仕上げ(コンクリートの脆さの性質のため)の穴を効果的に見つける。 この方法は、DNNの入力の1つとして、力とトルクに加えて、壁面へのペグの変位を利用する。 ペグが穴に近づくにつれて変位が増加するので(コンクリート中の穴の面形状による)、DNNを入力するのに有用なパラメータである。 提案手法はDNNを500倍の穴で訓練し,12個の未知の穴を見つけようとした。 評価の結果、DNNは、平均成功率96.1%、平均実行時間12.5秒の未知の穴を見つけることができた。 ランダムな初期位置と異なるタイプのペグによる追加評価は、訓練されたDNNが異なる条件でうまく一般化できることを示す。 このパラメータを用いてDNNの成功率を増加させたペグ変位入力の影響を解析した。 これらの結果は,提案手法の有効性と建設産業への適用性の観点から検証した。

A method that enables an industrial robot to accomplish the peg-in-hole task for holes in concrete is proposed. The proposed method involves slightly detaching the peg from the wall, when moving between search positions, to avoid the negative influence of the concrete's high friction coefficient. It uses a deep neural network (DNN), trained via reinforcement learning, to effectively find holes with variable shape and surface finish (due to the brittle nature of concrete) without analytical modeling or control parameter tuning. The method uses displacement of the peg toward the wall surface, in addition to force and torque, as one of the inputs of the DNN. Since the displacement increases as the peg gets closer to the hole (due to the chamfered shape of holes in concrete), it is a useful parameter for inputting in the DNN. The proposed method was evaluated by training the DNN on a hole 500 times and attempting to find 12 unknown holes. The results of the evaluation show the DNN enabled a robot to find the unknown holes with average success rate of 96.1% and average execution time of 12.5 seconds. Additional evaluations with random initial positions and a different type of peg demonstrate the trained DNN can generalize well to different conditions. Analyses of the influence of the peg displacement input showed the success rate of the DNN is increased by utilizing this parameter. These results validate the proposed method in terms of its effectiveness and applicability to the construction industry.
翻訳日:2024-04-01 16:34:41 公開日:2024-03-29
# 動的モード分解による量子多体系の長期ダイナミクス予測

Forecasting Long-Time Dynamics in Quantum Many-Body Systems by Dynamic Mode Decomposition ( http://arxiv.org/abs/2403.19947v1 )

ライセンス: Link先を確認
Ryui Kaneko, Masatoshi Imada, Yoshiyuki Kabashima, Tomi Ohtsuki, (参考訳) 量子多体系における時間進化状態の物理量の数値計算は、一般に難しい課題である。 本稿では,身体量の短時間データの信頼性を利用して,長時間の挙動を正確に予測する手法を提案する。 この方法は流体力学で一般的に用いられる動的モード分解(DMD)に基づいている。 臨界点における横場におけるイジングモデルのような量子多体系におけるDMDの有効性と適用性について検討し、入力データが流体力学と異なり、複数の振動成分や長い配列の量子絡み合いを持つパワーロー崩壊のような複雑な特徴を示す場合であっても検討する。 本手法により,短時間のトレーニングデータよりも1桁近い精度の予測が可能であることが実証された。 また, 騒音が予測精度に及ぼす影響についても検討した。 数パーセントのノイズが予測精度に破壊的影響を与えないことが判明した。

Numerically computing physical quantities of time-evolved states in quantum many-body systems is a challenging task in general. Here, we propose a method that utilizes reliable short-time data of physical quantities to accurately forecast long-time behavior. The method is based on the dynamic mode decomposition (DMD), which is commonly used in fluid dynamics. The effectiveness and applicability of the DMD in quantum many-body systems such as the Ising model in the transverse field at the critical point are studied, even when the input data exhibits complicated features such as multiple oscillatory components and a power-law decay with long-ranged quantum entanglements unlike fluid dynamics. It is demonstrated that the present method enables accurate forecasts at time as long as nearly an order of magnitude longer than that of the short-time training data. Effects of noise on the accuracy of the forecast are also investigated, because they are important especially when dealing with the experimental data. We find that a few percent of noise does not affect the prediction accuracy destructively.
翻訳日:2024-04-01 16:34:41 公開日:2024-03-29
# FairCLIP:ビジョンランゲージ学習における公平さ

FairCLIP: Harnessing Fairness in Vision-Language Learning ( http://arxiv.org/abs/2403.19949v1 )

ライセンス: Link先を確認
Yan Luo, Min Shi, Muhammad Osama Khan, Muhammad Muneeb Afzal, Hao Huang, Shuaihang Yuan, Yu Tian, Luo Song, Ava Kouhana, Tobias Elze, Yi Fang, Mengyu Wang, (参考訳) 公平性は、ディープラーニング、特に医療において重要な関心事であり、これらのモデルが診断や治療決定に影響を及ぼす。 視覚のみの領域ではフェアネスが研究されているが、医療用視覚言語(VL)モデルのフェアネスは、フェアネスを研究するための医療用VLデータセットが不足しているため、未探索のままである。 本研究のギャップを埋めるために,VL基盤モデル内での公平性の詳細な検証を容易にするために,詳細な人口統計特性,地層構造ラベル,臨床ノートを提供する,最初のフェアビジョン言語医療データセットであるFairVLMedを導入する。 FairVLMedを用いて、自然と医療の両方で事前訓練された2つの広く使われているVLモデル(CLIPとBLIP2)を、4つの異なる保護属性で包括的公正性解析を行う。 以上の結果から,アジア,男性,非ヒスパニック,スペインがそれぞれ,人種,性別,民族,言語という保護された属性のサブグループとして好まれる,すべてのVLモデルに有意な偏見が認められた。 これらのバイアスを軽減するために,各人口集団に対応する分布とサンプル分布とのシンクホーン距離を削減し,性能と公平性の良好なトレードオフを実現するための,最適輸送に基づくFairCLIPを提案する。 この種の最初のVLデータセットとして、FairVLMedは倫理的に認識され、臨床的に有効である機械学習モデルの開発における進歩を触媒する可能性を秘めている。 私たちのデータセットとコードはhttps://ophai.hms.harvard.edu/datasets/fairvlmed10kで公開されています。

Fairness is a critical concern in deep learning, especially in healthcare, where these models influence diagnoses and treatment decisions. Although fairness has been investigated in the vision-only domain, the fairness of medical vision-language (VL) models remains unexplored due to the scarcity of medical VL datasets for studying fairness. To bridge this research gap, we introduce the first fair vision-language medical dataset FairVLMed that provides detailed demographic attributes, ground-truth labels, and clinical notes to facilitate an in-depth examination of fairness within VL foundation models. Using FairVLMed, we conduct a comprehensive fairness analysis of two widely-used VL models (CLIP and BLIP2), pre-trained on both natural and medical domains, across four different protected attributes. Our results highlight significant biases in all VL models, with Asian, Male, Non-Hispanic, and Spanish being the preferred subgroups across the protected attributes of race, gender, ethnicity, and language, respectively. In order to alleviate these biases, we propose FairCLIP, an optimal-transport-based approach that achieves a favorable trade-off between performance and fairness by reducing the Sinkhorn distance between the overall sample distribution and the distributions corresponding to each demographic group. As the first VL dataset of its kind, FairVLMed holds the potential to catalyze advancements in the development of machine learning models that are both ethically aware and clinically effective. Our dataset and code are available at https://ophai.hms.harvard.edu/datasets/fairvlmed10k.
翻訳日:2024-04-01 16:34:41 公開日:2024-03-29
# アウト・オブ・ディストリビューションデータのカバレッジ保証予測セット

Coverage-Guaranteed Prediction Sets for Out-of-Distribution Data ( http://arxiv.org/abs/2403.19950v1 )

ライセンス: Link先を確認
Xin Zou, Weiwei Liu, (参考訳) アウト・オブ・ディストリビューション(OOD)の一般化は、現実の応用における有望な実験結果により、近年研究の注目を集めている。 本稿では,OOD一般化設定における信頼セット予測問題について検討する。 スプリット共形予測(SCP)は、信頼セット予測問題を扱うための効率的なフレームワークである。 しかし、SCPの妥当性は、OOD設定に違反する例を交換する必要がある。 実験により,SCPを自明に適用すると,未知のターゲットドメインがソースドメインと異なる場合,限界範囲のカバレッジを維持することができないことがわかった。 この問題に対処するため、我々はOOD設定において自信ある予測セットを形成する方法を開発し、提案手法の有効性を理論的に証明する。 最後に,本理論の正しさと提案手法の有効性を実証的に検証するために,シミュレーションデータを用いた実験を行った。

Out-of-distribution (OOD) generalization has attracted increasing research attention in recent years, due to its promising experimental results in real-world applications. In this paper,we study the confidence set prediction problem in the OOD generalization setting. Split conformal prediction (SCP) is an efficient framework for handling the confidence set prediction problem. However, the validity of SCP requires the examples to be exchangeable, which is violated in the OOD setting. Empirically, we show that trivially applying SCP results in a failure to maintain the marginal coverage when the unseen target domain is different from the source domain. To address this issue, we develop a method for forming confident prediction sets in the OOD setting and theoretically prove the validity of our method. Finally, we conduct experiments on simulated data to empirically verify the correctness of our theory and the validity of our proposed method.
翻訳日:2024-04-01 16:34:41 公開日:2024-03-29
# 低パラメータLDMのチューニングとマルチブランチ推論による汎用エージェント機能向上

Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning ( http://arxiv.org/abs/2403.19962v1 )

ライセンス: Link先を確認
Qinhao Zhou, Zihan Zhang, Xiang Xiang, Ke Wang, Yuchuan Wu, Yongbin Li, (参考訳) オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示し、様々なタスクで高い成功を収めている。 しかし、現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。 インテリジェントなエージェントとして、LCMはタスク計画、長期記憶、そして十分なパフォーマンスを達成するために外部ツールを活用する能力を持つ必要がある。 LLMのエージェント能力を高めるために,様々な手法が提案されている。 一方、メソッドはエージェント固有のデータを構築し、モデルを微調整する。 一方、LLMの推論能力を効果的に活性化するプロンプトの設計に焦点を当てた手法もある。 7Bモデルと13Bモデルの両方の戦略を検討します。 GPT-4を用いてエージェント固有データを構築するための総合的手法を提案する。 構築されたデータを用いた教師付き微調整により、比較的少数のパラメータを持つこれらのモデルでは、教師付き微調整は、エージェントタスクにおける幻覚出力とフォーマットエラーを著しく削減できることがわかった。 さらに、マルチパス推論やタスク分解といった手法は、問題複雑性を効果的に低減し、エージェントとしてのLLMの性能を高めることができる。 我々は,エージェントベンチの5つのエージェントタスクについて評価を行い,良好な結果を得た。

Open-source pre-trained Large Language Models (LLMs) exhibit strong language understanding and generation capabilities, making them highly successful in a variety of tasks. However, when used as agents for dealing with complex problems in the real world, their performance is far inferior to large commercial models such as ChatGPT and GPT-4. As intelligent agents, LLMs need to have the capabilities of task planning, long-term memory, and the ability to leverage external tools to achieve satisfactory performance. Various methods have been proposed to enhance the agent capabilities of LLMs. On the one hand, methods involve constructing agent-specific data and fine-tuning the models. On the other hand, some methods focus on designing prompts that effectively activate the reasoning abilities of the LLMs. We explore both strategies on the 7B and 13B models. We propose a comprehensive method for constructing agent-specific data using GPT-4. Through supervised fine-tuning with constructed data, we find that for these models with a relatively small number of parameters, supervised fine-tuning can significantly reduce hallucination outputs and formatting errors in agent tasks. Furthermore, techniques such as multi-path reasoning and task decomposition can effectively decrease problem complexity and enhance the performance of LLMs as agents. We evaluate our method on five agent tasks of AgentBench and achieve satisfactory results.
翻訳日:2024-04-01 16:34:41 公開日:2024-03-29
# ビジョンネットワークの効率的な変調

Efficient Modulation for Vision Networks ( http://arxiv.org/abs/2403.19963v1 )

ライセンス: Link先を確認
Xu Ma, Xiyang Dai, Jianwei Yang, Bin Xiao, Yinpeng Chen, Yun Fu, Lu Yuan, (参考訳) 本稿では,効率的なビジョンネットワークのための新しい設計である,効率的な変調法を提案する。 我々は、畳み込みコンテキストモデリングと特徴投影層を通して入力を動作させる変調機構を再検討し、要素ワイド乗算とMLPブロックを介して特徴を融合する。 本稿では,この変調機構が効率的なネットワークに特に適しており,効率的な変調(効率的なMod)ブロックを提案することで,変調設計の調整が可能であることを実証する。 変調機構の顕著な表現能力と提案した効率的な設計により、ネットワークは精度と効率のトレードオフを向上し、効率的なネットワークの動物園における新しい最先端性能を設定できる。 EfficientModをバニラ自己注意ブロックに統合すると、効率を損なうことなく性能をさらに向上するハイブリッドアーキテクチャが得られる。 EfficientModのパフォーマンスを検証するための総合的な実験を行います。 パラメータが少ないため、EfficientMod-sはEfficientFormerV2-s2よりも0.6トップ-1精度が良く、GPUでは25%速く、同じGPUレイテンシではMobileViTv2-1.0より2.9良い。 さらに,本手法は,ADE20KベンチマークでEfficientFormerV2-sを3.6mIoUで上回り,下流タスクの顕著な改善を示す。 コードとチェックポイントはhttps://github.com/ma-xu/EfficientMod.comで入手できる。

In this work, we present efficient modulation, a novel design for efficient vision networks. We revisit the modulation mechanism, which operates input through convolutional context modeling and feature projection layers, and fuses features via element-wise multiplication and an MLP block. We demonstrate that the modulation mechanism is particularly well suited for efficient networks and further tailor the modulation design by proposing the efficient modulation (EfficientMod) block, which is considered the essential building block for our networks. Benefiting from the prominent representational ability of modulation mechanism and the proposed efficient design, our network can accomplish better trade-offs between accuracy and efficiency and set new state-of-the-art performance in the zoo of efficient networks. When integrating EfficientMod with the vanilla self-attention block, we obtain the hybrid architecture which further improves the performance without loss of efficiency. We carry out comprehensive experiments to verify EfficientMod's performance. With fewer parameters, our EfficientMod-s performs 0.6 top-1 accuracy better than EfficientFormerV2-s2 and is 25% faster on GPU, and 2.9 better than MobileViTv2-1.0 at the same GPU latency. Additionally, our method presents a notable improvement in downstream tasks, outperforming EfficientFormerV2-s by 3.6 mIoU on the ADE20K benchmark. Code and checkpoints are available at https://github.com/ma-xu/EfficientMod.
翻訳日:2024-04-01 16:34:41 公開日:2024-03-29
# FairRAG:フェアリトリーバル拡張によるフェアヒューマンジェネレーション

FairRAG: Fair Human Generation via Fair Retrieval Augmentation ( http://arxiv.org/abs/2403.19964v1 )

ライセンス: Link先を確認
Robik Shrestha, Yang Zou, Qiuyu Chen, Zhiheng Li, Yusheng Xie, Siqi Deng, (参考訳) 既存のテキスト・画像生成モデルは、トレーニングデータに内在する社会的バイアスを反映または増幅する。 これは、モデルが特定の人口集団に偏っている人間の画像生成に特に関係している。 この問題を解決するための既存の試みは、事前訓練されたモデルの固有の制限によって妨げられ、人口多様性を著しく改善することができない。 本研究では,Fair Retrieval Augmented Generation (FairRAG)について紹介する。FairRAGは,外部画像データベースから取得した参照画像に対して,事前学習した生成モデルを条件付けし,人間の生成における公平性を改善するフレームワークである。 FairRAGは、参照画像をテキスト空間に投影する軽量リニアモジュールによる条件付けを可能にする。 公平性を高めるために、FairRAGは単純なyet- Effective debiasing戦略を適用し、生成過程において多様な人口集団の画像を提供する。 大規模な実験により、FairRAGは人口多様性、画像テキストアライメント、画像の忠実度において既存の手法よりも優れており、推論中に最小の計算オーバーヘッドが生じることが示された。

Existing text-to-image generative models reflect or even amplify societal biases ingrained in their training data. This is especially concerning for human image generation where models are biased against certain demographic groups. Existing attempts to rectify this issue are hindered by the inherent limitations of the pre-trained models and fail to substantially improve demographic diversity. In this work, we introduce Fair Retrieval Augmented Generation (FairRAG), a novel framework that conditions pre-trained generative models on reference images retrieved from an external image database to improve fairness in human generation. FairRAG enables conditioning through a lightweight linear module that projects reference images into the textual space. To enhance fairness, FairRAG applies simple-yet-effective debiasing strategies, providing images from diverse demographic groups during the generative process. Extensive experiments demonstrate that FairRAG outperforms existing methods in terms of demographic diversity, image-text alignment, and image fidelity while incurring minimal computational overhead during inference.
翻訳日:2024-04-01 16:34:41 公開日:2024-03-29
# メタラーニングを用いたマルチタスク磁気共鳴画像再構成

Multi-task Magnetic Resonance Imaging Reconstruction using Meta-learning ( http://arxiv.org/abs/2403.19966v1 )

ライセンス: Link先を確認
Wanyu Bian, Albert Jang, Fang Liu, (参考訳) 単一タスク深層学習法を用いて、異なる画像シーケンスで取得したMRIデータを再構成することは本質的に困難である。 訓練されたディープラーニングモデルは一般的に一般化性に欠けており、異なるタイプのコントラストを持つ画像データセット間の相違は、準最適学習性能をもたらす。 本稿では,複数のMR画像データセットから画像特徴を効率的に学習するメタラーニング手法を提案する。 提案アルゴリズムは,画像コントラストの異なる画像シーケンスを用いて取得したMR画像を同時に再構成するマルチタスク学習を行う。 実験の結果,複数のMRIデータセットから得られた高度にアンサンプされたk空間データを同時に再構成するメタラーニング再構成法が,従来開発されていた他の説得力のある再構築法よりも優れていることが示された。

Using single-task deep learning methods to reconstruct Magnetic Resonance Imaging (MRI) data acquired with different imaging sequences is inherently challenging. The trained deep learning model typically lacks generalizability, and the dissimilarity among image datasets with different types of contrast leads to suboptimal learning performance. This paper proposes a meta-learning approach to efficiently learn image features from multiple MR image datasets. Our algorithm can perform multi-task learning to simultaneously reconstruct MR images acquired using different imaging sequences with different image contrasts. The experiment results demonstrate the ability of our new meta-learning reconstruction method to successfully reconstruct highly-undersampled k-space data from multiple MRI datasets simultaneously, outperforming other compelling reconstruction methods previously developed for single-task learning.
翻訳日:2024-04-01 16:34:41 公開日:2024-03-29
# 星の書き直し

Rewrite the Stars ( http://arxiv.org/abs/2403.19967v1 )

ライセンス: Link先を確認
Xu Ma, Xiyang Dai, Yue Bai, Yizhou Wang, Yun Fu, (参考訳) 近年の研究では、ネットワーク設計における「星演算」の未解決の可能性に注意が向けられている。 直感的な説明は多いが、その応用の背後にある基礎的根拠はほとんど解明されていない。 我々の研究は、ネットワークを広げることなく、インプットを高次元で非線形な特徴空間(カーネルのトリックに似た)にマッピングするスター操作の能力を明らかにする試みである。 さらに,小型ネットワーク構造下での優れた性能と低レイテンシ,効率的な予算を実証した,シンプルながら強力なプロトタイプであるStarNetを紹介した。 空の星のように、恒星の操作は目立たずに見えるが、巨大なポテンシャルの宇宙を持っている。 私たちの作業は、https://github.com/ma-xu/Rewrite-the-Stars.comで利用可能なコードを使って、タスクのさらなる探索を奨励します。

Recent studies have drawn attention to the untapped potential of the "star operation" (element-wise multiplication) in network design. While intuitive explanations abound, the foundational rationale behind its application remains largely unexplored. Our study attempts to reveal the star operation's ability to map inputs into high-dimensional, non-linear feature spaces -- akin to kernel tricks -- without widening the network. We further introduce StarNet, a simple yet powerful prototype, demonstrating impressive performance and low latency under compact network structure and efficient budget. Like stars in the sky, the star operation appears unremarkable but holds a vast universe of potential. Our work encourages further exploration across tasks, with codes available at https://github.com/ma-xu/Rewrite-the-Stars.
翻訳日:2024-04-01 16:34:41 公開日:2024-03-29
# コンピュータビジョンタスクにおけるブロック/出力チャネルプルーニングのための分離・動的・微分可能(SMART)プルーナ

Separate, Dynamic and Differentiable (SMART) Pruner for Block/Output Channel Pruning on Computer Vision Tasks ( http://arxiv.org/abs/2403.19969v1 )

ライセンス: Link先を確認
Guanhua Ding, Zexi Ye, Zhen Zhong, Gang Li, David Shao, (参考訳) Deep Neural Network(DNN)プルーニングは、モデルサイズを削減し、推論レイテンシを改善し、DNNアクセラレータの消費電力を削減するための重要な戦略として登場した。 様々なプルーニング技術の中で、ブロックおよび出力チャネルプルーニングは、ハードウェア性能を加速する大きな可能性を示している。 しかし、その精度は、しばしばさらなる改善を必要とする。 この課題に応えて、我々は分離された動的かつ微分可能なプルナー(SMART)を導入する。 本発明のプルーナーは、個別の学習可能な確率マスクをウェイト重要度ランキングに利用し、微分可能なトップk演算子を用いて目標空隙を達成し、非スパース局所ミニマから逃れるために動的温度パラメータのトリックを活用することで際立っている。 我々の実験では、SMARTプルーナーは、ブロックおよび出力チャネルプルーニングにおける、幅広いタスクおよびモデルにわたる既存のプルーニング手法よりも、一貫してその優位性を実証した。 さらに、テストはN:MプルーニングシナリオのTransformerベースのモデルに拡張します。SMARTプルーナーは、さまざまなニューラルネットワークアーキテクチャにまたがる適応性と堅牢性、およびプルーニングタイプを示す、最先端の結果も生成します。

Deep Neural Network (DNN) pruning has emerged as a key strategy to reduce model size, improve inference latency, and lower power consumption on DNN accelerators. Among various pruning techniques, block and output channel pruning have shown significant potential in accelerating hardware performance. However, their accuracy often requires further improvement. In response to this challenge, we introduce a separate, dynamic and differentiable (SMART) pruner. This pruner stands out by utilizing a separate, learnable probability mask for weight importance ranking, employing a differentiable Top k operator to achieve target sparsity, and leveraging a dynamic temperature parameter trick to escape from non-sparse local minima. In our experiments, the SMART pruner consistently demonstrated its superiority over existing pruning methods across a wide range of tasks and models on block and output channel pruning. Additionally, we extend our testing to Transformer-based models in N:M pruning scenarios, where SMART pruner also yields state-of-the-art results, demonstrating its adaptability and robustness across various neural network architectures, and pruning types.
翻訳日:2024-04-01 16:34:41 公開日:2024-03-29
# 自然言語追跡のための言語と視覚的参照の文脈認識統合

Context-Aware Integration of Language and Visual References for Natural Language Tracking ( http://arxiv.org/abs/2403.19975v1 )

ライセンス: Link先を確認
Yanyan Shao, Shuting He, Qi Ye, Yuchao Feng, Wenhan Luo, Jiming Chen, (参考訳) 自然言語仕様(TNL)による追跡は、初期フレームに言語的記述が与えられたビデオシーケンスにおいて、ターゲットを一貫してローカライズすることを目的としている。 既存の手法では、ターゲット推論のための言語ベースおよびテンプレートベースのマッチングを別々に実行し、2つのソースからのマッチング結果をマージする。 この問題に対処するため,我々はマルチモーダル・トラッキング・フレームワークを共同で提案する。 1)時間的視覚的テンプレートと言語表現の相補性を活用し、正確かつ文脈に配慮した外観と言語的手がかりを可能にするプロンプト変調モジュール 2)マルチモーダル参照キューを統合し、検索画像上で統合されたクエリを実行し、ターゲット位置をエンドツーエンドで直接予測する統合されたターゲットデコーディングモジュール。 この設計は、歴史的視覚情報を活用することで時空間整合性を確保し、統合されたソリューションを導入し、単一のステップで予測を生成する。 TNL2K, OTB-Lang, LaSOT, RefCOCOgで行った大規模な実験により, 提案手法の有効性が検証された。 その結果, トラッキングとグラウンドの両面において, 最先端の手法に対する競合性能が示された。

Tracking by natural language specification (TNL) aims to consistently localize a target in a video sequence given a linguistic description in the initial frame. Existing methodologies perform language-based and template-based matching for target reasoning separately and merge the matching results from two sources, which suffer from tracking drift when language and visual templates miss-align with the dynamic target state and ambiguity in the later merging stage. To tackle the issues, we propose a joint multi-modal tracking framework with 1) a prompt modulation module to leverage the complementarity between temporal visual templates and language expressions, enabling precise and context-aware appearance and linguistic cues, and 2) a unified target decoding module to integrate the multi-modal reference cues and executes the integrated queries on the search image to predict the target location in an end-to-end manner directly. This design ensures spatio-temporal consistency by leveraging historical visual information and introduces an integrated solution, generating predictions in a single step. Extensive experiments conducted on TNL2K, OTB-Lang, LaSOT, and RefCOCOg validate the efficacy of our proposed approach. The results demonstrate competitive performance against state-of-the-art methods for both tracking and grounding.
翻訳日:2024-04-01 16:34:41 公開日:2024-03-29
# eTraM: イベントベースのトラフィック監視データセット

eTraM: Event-based Traffic Monitoring Dataset ( http://arxiv.org/abs/2403.19976v1 )

ライセンス: Link先を確認
Aayush Atul Verma, Bharatesh Chakravarthi, Arpitsinh Vaghela, Hua Wei, Yezhou Yang, (参考訳) イベントカメラは、高い時間的および動的範囲と最小限のメモリ使用量を持ち、様々な分野で応用されている。 しかし、静的なトラフィック監視におけるその可能性はほとんど解明されていない。 この探索を容易にするために、最初のイベントベースのトラフィック監視データセットであるeTraMを紹介します。 eTraMは、様々な照明と気象条件の異なる交通シナリオから10時間のデータを提供する。 2Mのバウンディングボックスアノテーションを提供し、車両から歩行者、マイクロモビリティまで、交通参加者の8つの異なるクラスをカバーしている。 eTraMのユーティリティは、RVT、RED、YOLOv8など、トラフィックの傍受を検出する最先端の手法を使用して評価されている。 我々は、夜間および見えない場面でイベントベースモデルが一般化する能力について定量的に評価する。 本研究は,交通監視にイベントカメラを活用する可能性,研究と応用に新たな道を開くことの可能性を裏付けるものである。 eTraMはhttps://eventbasedvision.github.io/eTraMで利用可能である。

Event cameras, with their high temporal and dynamic range and minimal memory usage, have found applications in various fields. However, their potential in static traffic monitoring remains largely unexplored. To facilitate this exploration, we present eTraM - a first-of-its-kind, fully event-based traffic monitoring dataset. eTraM offers 10 hr of data from different traffic scenarios in various lighting and weather conditions, providing a comprehensive overview of real-world situations. Providing 2M bounding box annotations, it covers eight distinct classes of traffic participants, ranging from vehicles to pedestrians and micro-mobility. eTraM's utility has been assessed using state-of-the-art methods for traffic participant detection, including RVT, RED, and YOLOv8. We quantitatively evaluate the ability of event-based models to generalize on nighttime and unseen scenes. Our findings substantiate the compelling potential of leveraging event cameras for traffic monitoring, opening new avenues for research and application. eTraM is available at https://eventbasedvision.github.io/eTraM
翻訳日:2024-04-01 16:24:57 公開日:2024-03-29
# 冬が近づいていますか。

Is Winter Coming? ( http://arxiv.org/abs/2403.19977v1 )

ライセンス: Link先を確認
A. Winter, A. Winter, A. Winter, A. Winter, (参考訳) 我々は,「春冬(または他の冬)がやってくる」というしばしば作られた観察と,それに備えて,必然的に到着するであろうその冬に備える,関連する警告を批判的に検討する。 最も表面的な証拠でもわかるのは、こうした主張が誇張されているだけでなく、事実的に間違っているということだ。

We critically examine the often-made observation that "quantum winter [or some other winter] is coming", and the related admonition to prepare for this or that winter, inevitably bound to arrive. What we find based on even the most superficial look at the available evidence is that such statements not only are overblown hype, but are also factually wrong: Winter is here, and the real question is rather for how long it/they will stay.
翻訳日:2024-04-01 16:24:57 公開日:2024-03-29
# 逐次移動型インクリメンタルアダプタチューニングは連続Viトランスである

Semantically-Shifted Incremental Adapter-Tuning is A Continual ViTransformer ( http://arxiv.org/abs/2403.19979v1 )

ライセンス: Link先を確認
Yuwen Tan, Qinhao Zhou, Xiang Xiang, Ke Wang, Yuchuan Wu, Yongbin Li, (参考訳) クラスインクリメンタルラーニング(CIL)は、モデルが破滅的な忘れを克服しつつ、新しいクラスを継続的に学習できるようにすることを目的としている。 事前訓練モデルの導入により、CILに新たなチューニングパラダイムが導入された。 本稿では,連続学習の文脈において,異なるパラメータ効率チューニング(PET)手法を再検討する。 適応チューニングは,各学習セッションにおいてパラメータ拡張がなくても,プロンプトベースの手法よりも優れていることを示す。 そこで本研究では,パラメータ更新制約を課さずに,共有アダプタを漸進的にチューニングし,バックボーンの学習能力を向上させることを提案する。 さらに,記憶されたプロトタイプから特徴サンプリングを用いて統一型分類器を再訓練し,その性能をさらに向上する。 過去のサンプルにアクセスせずに古いプロトタイプのセマンティックシフトを推定し,セッション毎に保存されたプロトタイプを更新する。 提案手法は, モデル展開を排除し, 画像サンプルの保持を回避する。 従来の訓練済みのモデルベースCILメソッドを超越し、顕著な連続学習能力を示す。 5つのCILベンチマークによる実験結果から,提案手法の有効性を検証し,SOTA(State-of-the-art)性能を実現する。

Class-incremental learning (CIL) aims to enable models to continuously learn new classes while overcoming catastrophic forgetting. The introduction of pre-trained models has brought new tuning paradigms to CIL. In this paper, we revisit different parameter-efficient tuning (PET) methods within the context of continual learning. We observe that adapter tuning demonstrates superiority over prompt-based methods, even without parameter expansion in each learning session. Motivated by this, we propose incrementally tuning the shared adapter without imposing parameter update constraints, enhancing the learning capacity of the backbone. Additionally, we employ feature sampling from stored prototypes to retrain a unified classifier, further improving its performance. We estimate the semantic shift of old prototypes without access to past samples and update stored prototypes session by session. Our proposed method eliminates model expansion and avoids retaining any image samples. It surpasses previous pre-trained model-based CIL methods and demonstrates remarkable continual learning capabilities. Experimental results on five CIL benchmarks validate the effectiveness of our approach, achieving state-of-the-art (SOTA) performance.
翻訳日:2024-04-01 16:24:57 公開日:2024-03-29
# 乳牛の顔認識のための並列注意ネットワーク

A Parallel Attention Network for Cattle Face Recognition ( http://arxiv.org/abs/2403.19980v1 )

ライセンス: Link先を確認
Jiayu Li, Xuechao Zou, Shiying Wang, Ben Chen, Junliang Xing, Pin Tao, (参考訳) 乳牛の顔の認識は、動物愛護や行動研究のような領域において最も重要である。 制限された環境では大きな進歩があったが、これらの成果を野生環境で適用することは依然として困難である。 そこで我々は,野生環境を対象とした最初の大規模牛の顔認識データセット ICRWE を開発した。 483頭の牛と9,816頭の高解像度画像サンプルを含んでいる。 それぞれのサンプルは、顔の特徴、光条件、顔の向きに関するアノテーションを受け取ります。 さらに,新しい並列アテンションネットワークPANetを導入する。 いくつかのカスケードトランスフォーマーモジュールを補完し、各モジュールには2つの並列位置注意モジュール(PAM)とフィーチャーマッピングモジュール(FMM)が組み込まれている。 PAMは、並列チャネルアテンションによる各画像位置の局所的特徴とグローバル的特徴に焦点を当て、FMMは非線形マッピングによる複雑な特徴パターンをキャプチャする。 実験の結果、PANetはICCWEデータセット上で88.03%の認識精度を達成し、現在の最先端のアプローチとして確立した。 ソースコードは補足資料で入手できる。

Cattle face recognition holds paramount significance in domains such as animal husbandry and behavioral research. Despite significant progress in confined environments, applying these accomplishments in wild settings remains challenging. Thus, we create the first large-scale cattle face recognition dataset, ICRWE, for wild environments. It encompasses 483 cattle and 9,816 high-resolution image samples. Each sample undergoes annotation for face features, light conditions, and face orientation. Furthermore, we introduce a novel parallel attention network, PANet. Comprising several cascaded Transformer modules, each module incorporates two parallel Position Attention Modules (PAM) and Feature Mapping Modules (FMM). PAM focuses on local and global features at each image position through parallel channel attention, and FMM captures intricate feature patterns through non-linear mappings. Experimental results indicate that PANet achieves a recognition accuracy of 88.03% on the ICRWE dataset, establishing itself as the current state-of-the-art approach. The source code is available in the supplementary materials.
翻訳日:2024-04-01 16:24:57 公開日:2024-03-29
# CT画像における足関節骨折分類のための多段階半教師あり学習

A multi-stage semi-supervised learning for ankle fracture classification on CT images ( http://arxiv.org/abs/2403.19983v1 )

ライセンス: Link先を確認
Hongzhi Liu, Guicheng Li, Jiacheng Nie, Hui Tang, Chunfeng Yang, Qianjin Feng, Hailin Xu, Yang Chen, (参考訳) 足関節損傷のメカニズムが複雑であるため, 当科における足関節骨折の診断は極めて困難である。 骨折診断のプロセスを簡単にするために,足関節骨折の自動診断モデルを提案した。 第一に、足関節関節の関節庭領域にティアビア・フィブラ・セグメンテーション・ネットワークを提案し、それに対応するセグメンテーション・データセットを骨折データに基づいて確立する。 次に、画像登録方法を用いて、正常な骨マスクで骨分割マスクを登録する。 最後に、足関節骨折の分類に多数のラベルのないデータを完全に利用する半教師付き分類器を構築する。 実験の結果, 提案手法はフラクチャーラインを正確に分割することができ, 一般法よりも優れた性能を有することがわかった。 同時に、この手法はいくつかの指標の分類網よりも優れている。

Because of the complicated mechanism of ankle injury, it is very difficult to diagnose ankle fracture in clinic. In order to simplify the process of fracture diagnosis, an automatic diagnosis model of ankle fracture was proposed. Firstly, a tibia-fibula segmentation network is proposed for the joint tibiofibular region of the ankle joint, and the corresponding segmentation dataset is established on the basis of fracture data. Secondly, the image registration method is used to register the bone segmentation mask with the normal bone mask. Finally, a semi-supervised classifier is constructed to make full use of a large number of unlabeled data to classify ankle fractures. Experiments show that the proposed method can segment fractures with fracture lines accurately and has better performance than the general method. At the same time, this method is superior to classification network in several indexes.
翻訳日:2024-04-01 16:24:57 公開日:2024-03-29
# 高速Few-Shot NeRFのための安定表面規則化

Stable Surface Regularization for Fast Few-Shot NeRF ( http://arxiv.org/abs/2403.19985v1 )

ライセンス: Link先を確認
Byeongin Joung, Byeong-Uk Lee, Jaesung Choe, Ukcheol Shin, Minjun Kang, Taeyeop Lee, In So Kweon, Kuk-Jin Yoon, (参考訳) 本稿では,数発のセットアップで新規ビューを合成するアルゴリズムを提案する。 主な概念は、Annealing Signed Distance Function (ASDF) と呼ばれる安定な表面正規化技術を開発することである。 幾何正規化として広く知られているアイコンの損失は、SDFの異なるレベルセットを形成するために密集した訓練信号を必要とし、数発の訓練で低忠実度結果をもたらすことが観察された。 対照的に、提案した表面正則化はシーンの再構築に成功し、安定したトレーニングで高忠実度幾何を生成する。 格子表現と単図形幾何学的先行値を利用することにより,本手法をさらに高速化する。 最後に、提案手法は既存の数発の新規ビュー合成手法よりも最大45倍高速で、ScanNetデータセットとNeRF-Realデータセットで同等の結果が得られる。

This paper proposes an algorithm for synthesizing novel views under few-shot setup. The main concept is to develop a stable surface regularization technique called Annealing Signed Distance Function (ASDF), which anneals the surface in a coarse-to-fine manner to accelerate convergence speed. We observe that the Eikonal loss - which is a widely known geometric regularization - requires dense training signal to shape different level-sets of SDF, leading to low-fidelity results under few-shot training. In contrast, the proposed surface regularization successfully reconstructs scenes and produce high-fidelity geometry with stable training. Our method is further accelerated by utilizing grid representation and monocular geometric priors. Finally, the proposed approach is up to 45 times faster than existing few-shot novel view synthesis methods, and it produces comparable results in the ScanNet dataset and NeRF-Real dataset.
翻訳日:2024-04-01 16:24:57 公開日:2024-03-29
# 光ファイバにおける統合量子通信網と振動検出

Integrated quantum communication network and vibration sensing in optical fibers ( http://arxiv.org/abs/2403.19989v1 )

ライセンス: Link先を確認
Shuaishuai Liu, Yan Tian, Yu Zhang, Zhenguo Lu, Xuyang Wang, Yongmin Li, (参考訳) コミュニケーションとセンシング技術は現代社会の様々な側面において重要な役割を果たしている。 コミュニケーションとセンシングシステムのシームレスな組み合わせが望まれており、近年は大きな関心を集めている。 本稿では、ダウンストリーム量子アクセスネットワーク(DQAN)と光ファイバーの振動センシングを統合するネットワークアーキテクチャを提案し、実証する。 単一レーザ源のサイドモード量子状態上で8人のユーザのキー情報を同時に符号化し、フィルタネットワークで連続的に分離することにより、80kmの単一モードファイバ上で平均1.88*10^4ビット/秒のキーレートで安全かつ効率的なDQANを実現する。 一方、DQANシステムの既存のインフラでは、100Hz,1kHz,10kHzの振動周波数で、空間分解能120m,24m,8mの振動位置をそれぞれ実装している。 我々の統合アーキテクチャは、セキュアな量子通信センサネットワークを構築し、量子通信ネットワークの機能拡張の道を開くための、実用的で費用対効果の高いソリューションを提供します。

Communication and sensing technology play a significant role in various aspects of modern society. A seamless combination of the communication and the sensing systems is desired and have attracted great interests in recent years. Here, we propose and demonstrate a network architecture that integrating the downstream quantum access network (DQAN) and vibration sensing in optical fibers. By encoding the key information of eight users simultaneously on the sidemode quantum states of a single laser source and successively separating them by a filter network, we achieve a secure and efficient DQAN with an average key rate of 1.88*10^4 bits per second over an 80 km single-mode fiber. Meanwhile, the vibration location with spatial resolution of 120 m, 24 m, and 8 m at vibration frequencies of 100 Hz, 1 kHz, and 10 kHz, respectively, is implemented with the existing infrastructure of the DQAN system. Our integrated architecture provides a viable and cost-effective solution for building a secure quantum communication sensor network, and open the way for expanding the functionality of quantum communication networks.
翻訳日:2024-04-01 16:24:57 公開日:2024-03-29
# MindArm: 機械化されたインテリジェントな非侵襲型神経駆動義肢システム

MindArm: Mechanized Intelligent Non-Invasive Neuro-Driven Prosthetic Arm System ( http://arxiv.org/abs/2403.19992v1 )

ライセンス: Link先を確認
Maha Nawaz, Abdul Basit, Muhammad Shafique, (参考訳) 現在、「患者」と呼ばれる)腕を動かすことの困難さや障害のある人は、生理的限界を効果的に解決するために非常に限られた技術的解決策を持っている。 主に2つの理由がある:(1)マインドコントロールされた人工装具のような非侵襲的なソリューションは一般的に非常にコストがかかり、高価なメンテナンスが必要であり、(2)他のソリューションは高価な侵襲的な脳外科を必要とする。 したがって、現在の技術的ソリューションは、異なる経済的背景を持つすべての患者にアクセスできない。 そこで我々は,インテリジェントな非侵襲的神経駆動義肢システムであるMindArmを提案する。 私たちのMindArmシステムでは、ディープニューラルネットワーク(DNN)エンジンを使用して、脳信号を意図した義肢の動きに変換することで、生理的制約にもかかわらず患者が多くの活動を行うのを助ける。 そこで、MindArmシステムでは、オープン脳コンピュータインタフェースとUDPネットワークと組み合わせて、広くアクセス可能で低コストな表面脳波(EEG)電極を使用して脳信号を取得し、それらを計算モジュールに送信し、信号処理を行う。 計算モジュールでは、トレーニングされたDNNモデルを実行して、正常化された脳信号のマイクロ電圧を解釈し、それらをシリアル通信を介して補綴アームアクションに変換する。 完全に動作するプロトタイプ実験の結果,MindArm システムは3つの動作から,アイドル/静止時の 91 %,握手時の 85 %,ピックアップカップ時の 84 % という肯定的な成功率を達成した。 このことは、MindArmが、すべての患者に対して、より低コストでマインドコントロールされた人工装具に新しいアプローチを提供することを示している。

Currently, people with disability or difficulty to move their arms (referred to as "patients") have very limited technological solutions to efficiently address their physiological limitations. It is mainly due to two reasons: (1) the non-invasive solutions like mind-controlled prosthetic devices are typically very costly and require expensive maintenance; and (2) other solutions require costly invasive brain surgery, which is high risk to perform, expensive, and difficult to maintain. Therefore, current technological solutions are not accessible for all patients with different financial backgrounds. Toward this, we propose a low-cost technological solution called MindArm, a mechanized intelligent non-invasive neuro-driven prosthetic arm system. Our MindArm system employs a deep neural network (DNN) engine to translate brain signals into the intended prosthetic arm motion, thereby helping patients to perform many activities despite their physiological limitations. Here, our MindArm system utilizes widely accessible and low-cost surface electroencephalogram (EEG) electrodes coupled with an Open Brain Computer Interface and UDP networking for acquiring brain signals and transmitting them to the compute module for signal processing. In the compute module, we run a trained DNN model to interpret normalized micro-voltage of the brain signals, and then translate them into a prosthetic arm action via serial communication seamlessly. The experimental results on a fully working prototype demonstrate that, from the three defined actions, our MindArm system achieves positive success rates, i.e., 91\% for idle/stationary, 85\% for shake hand, and 84\% for pick-up cup. This demonstrates that our MindArm provides a novel approach for an alternate low-cost mind-controlled prosthetic devices for all patients.
翻訳日:2024-04-01 16:24:57 公開日:2024-03-29
# 対話型言語学習による構成性・一般化とロボットの行動

Development of Compositionality and Generalization through Interactive Learning of Language and Action of Robots ( http://arxiv.org/abs/2403.19995v1 )

ライセンス: Link先を確認
Prasanna Vijayaraghavan, Jeffrey Frederic Queisser, Sergio Verduzco Flores, Jun Tani, (参考訳) 人間は学習した振る舞いを未学習の状況に適用することに長けている。 この一般化行動の重要な要素は、全体の構成と分解を、構成性として知られる再利用可能な部分に分割する能力である。 ロボット工学における基本的な問題のひとつは、この特性に関するものである。 「各個人が部分的な言語構成とそれに対応する知覚的パターンしか学ばない場合、アソシエイト学習を通じて、言語構成と感覚的スキルを両立させるにはどうすればいいのか。」 この問題に対処するために、我々は、視覚、プロプレセプション、言語を自由エネルギー原理に基づく予測的コーディングとアクティブ推論の枠組みに統合する脳に触発されたニューラルネットワークモデルを提案する。 このモデルの有効性と能力は、ロボットアームを用いて様々なシミュレーション実験によって評価された。 その結果,課題構成の訓練変化が増大すると,未学習の動詞-名詞合成への学習の一般化が著しく向上することが示唆された。 我々は,言語潜在状態空間における自己組織的構成構造が,感性学習の影響を著しく受けていると考えている。 アブレーション研究により、視覚的注意と作業記憶は、言語的に表される目標を達成するために、正確にビジュオモトラーシーケンスを生成するために不可欠であることが示されている。 これらの知見は、言語的および感覚的経験の相互作用を通じて構成性の発達の基礎となるメカニズムの理解を深める。

Humans excel at applying learned behavior to unlearned situations. A crucial component of this generalization behavior is our ability to compose/decompose a whole into reusable parts, an attribute known as compositionality. One of the fundamental questions in robotics concerns this characteristic. "How can linguistic compositionality be developed concomitantly with sensorimotor skills through associative learning, particularly when individuals only learn partial linguistic compositions and their corresponding sensorimotor patterns?" To address this question, we propose a brain-inspired neural network model that integrates vision, proprioception, and language into a framework of predictive coding and active inference, based on the free-energy principle. The effectiveness and capabilities of this model were assessed through various simulation experiments conducted with a robot arm. Our results show that generalization in learning to unlearned verb-noun compositions, is significantly enhanced when training variations of task composition are increased. We attribute this to self-organized compositional structures in linguistic latent state space being influenced significantly by sensorimotor learning. Ablation studies show that visual attention and working memory are essential to accurately generate visuo-motor sequences to achieve linguistically represented goals. These insights advance our understanding of mechanisms underlying development of compositionality through interactions of linguistic and sensorimotor experience.
翻訳日:2024-04-01 16:24:57 公開日:2024-03-29
# DeepHeteroIoT - 異種IoTセンサデータによるローカルおよびグローバルな学習

DeepHeteroIoT: Deep Local and Global Learning over Heterogeneous IoT Sensor Data ( http://arxiv.org/abs/2403.19996v1 )

ライセンス: Link先を確認
Muhammad Sakib Khan Inan, Kewen Liao, Haifeng Shen, Prem Prakash Jayaraman, Dimitrios Georgakopoulos, Ming Jian Tang, (参考訳) モノのインターネット(IoT)センサーデータまたは読み取りは、タイムスタンプ範囲、サンプリング周波数、地理的位置、測定単位などの変動を発生させる。 このようなシーケンスデータの不均一性は、従来の時系列分類アルゴリズムをうまく動作させることを困難にしている。 したがって、不均一性問題に対処するには、サブパターン(ローカル特徴)だけでなく、全体的なパターン(グローバル特徴)も学習する必要がある。 異種IoTセンサデータ(温度や湿度などのセンサデータタイプを分類するなど)の分類の課題に対処するため,畳み込みニューラルネットワークと双方向Gated Recurrent Unitを組み合わせた新たなディープラーニングモデルを提案する。 異種IoTセンサデータセットの厳密な実験を通じて,提案モデルの有効性を検証する。 特に、このモデルはデータセット全体で平均3.37%の精度、F1スコアの2.85%の絶対的な改善を実現している。

Internet of Things (IoT) sensor data or readings evince variations in timestamp range, sampling frequency, geographical location, unit of measurement, etc. Such presented sequence data heterogeneity makes it difficult for traditional time series classification algorithms to perform well. Therefore, addressing the heterogeneity challenge demands learning not only the sub-patterns (local features) but also the overall pattern (global feature). To address the challenge of classifying heterogeneous IoT sensor data (e.g., categorizing sensor data types like temperature and humidity), we propose a novel deep learning model that incorporates both Convolutional Neural Network and Bi-directional Gated Recurrent Unit to learn local and global features respectively, in an end-to-end manner. Through rigorous experimentation on heterogeneous IoT sensor datasets, we validate the effectiveness of our proposed model, which outperforms recent state-of-the-art classification methods as well as several machine learning and deep learning baselines. In particular, the model achieves an average absolute improvement of 3.37% in Accuracy and 2.85% in F1-Score across datasets
翻訳日:2024-04-01 16:24:57 公開日:2024-03-29
# ニューラルネットワークのための格子モデルの構築と強化

Grounding and Enhancing Grid-based Models for Neural Fields ( http://arxiv.org/abs/2403.20002v1 )

ライセンス: Link先を確認
Zelin Zhao, Fenglei Fan, Wenlong Liao, Junchi Yan, (参考訳) 多くの現代研究では、ニューラルネットワーク表現にグリッドベースのモデルを使用しているが、グリッドベースのモデルの体系的な分析がいまだに欠けており、これらのモデルの改善を妨げている。 そこで本研究では,グリッドモデルに関する理論的枠組みを提案する。 この枠組みは、これらのモデルの近似と一般化の挙動をグリッドベースモデル固有の特性であるグリッド接カーネル(GTK)によって決定することを示している。 提案するフレームワークは,多種多様なグリッドベースモデルの一貫した系統的解析を容易にする。 さらに、導入されたフレームワークは、Multiplicative Fourier Adaptive Grid (MulFAGrid)と呼ばれる新しいグリッドベースのモデルの開発を動機付けている。 数値解析により、MulFAGridは前者よりも低い一般化値を示し、その堅牢な一般化性能を示している。 実験により,MulFAGridは2次元画像整合,3次元符号付き距離場(SDF)再構成,新しいビュー合成など,様々なタスクにおいて最先端のパフォーマンスを実現し,表現能力の向上を図っている。 プロジェクトのWebサイトはhttps://sites.google.com/view/cvpr24-2034-submission/homeで公開されている。

Many contemporary studies utilize grid-based models for neural field representation, but a systematic analysis of grid-based models is still missing, hindering the improvement of those models. Therefore, this paper introduces a theoretical framework for grid-based models. This framework points out that these models' approximation and generalization behaviors are determined by grid tangent kernels (GTK), which are intrinsic properties of grid-based models. The proposed framework facilitates a consistent and systematic analysis of diverse grid-based models. Furthermore, the introduced framework motivates the development of a novel grid-based model named the Multiplicative Fourier Adaptive Grid (MulFAGrid). The numerical analysis demonstrates that MulFAGrid exhibits a lower generalization bound than its predecessors, indicating its robust generalization performance. Empirical studies reveal that MulFAGrid achieves state-of-the-art performance in various tasks, including 2D image fitting, 3D signed distance field (SDF) reconstruction, and novel view synthesis, demonstrating superior representation ability. The project website is available at https://sites.google.com/view/cvpr24-2034-submission/home.
翻訳日:2024-04-01 16:24:57 公開日:2024-03-29
# 第二言語学習のための大規模言語モデルに基づく状況対話

Large Language Model based Situational Dialogues for Second Language Learning ( http://arxiv.org/abs/2403.20005v1 )

ライセンス: Link先を確認
Shuyao Xu, Long Qin, Tianyang Chen, Zhenzhou Zha, Bingxue Qiu, Weizhi Wang, (参考訳) 第二言語学習において、シナリオベースの会話実践は、言語学習者が話し言葉を流用する上で重要であるが、学生は、適格なインストラクターやネイティブスピーカーで会話スキルを実践する十分な機会を欠くことが多い。 このギャップを埋めるために,学生が会話の実践を行うための状況対話モデルを提案する。 我々の状況対話モデルは大規模言語モデル(LLM)に基づいて微調整されており、オープンエンド会話の係り受け性とシナリオベースタスクの焦点を合わせることを目的としている。 LLMの一般化機能を活用して、我々の状況対話モデルは、トレーニングトピックだけでなく、トレーニング中に遭遇しないトピックに対しても効果的に機能することを示した。 これは、広範囲な手作業なしに幅広い会話トピックをサポートする、有望なソリューションを提供する。 さらに、対話システム分野の研究には信頼性の高い自動評価指標が欠けており、一般的に高価である金本位制(Smith et al , 2022)としての人間の評価につながっている。 既存の評価手法の限界に対処するため, 微調整LDMを用いて, 状況対話モデルの性能を効率よく, 効果的に評価する新しい自動評価手法を提案する。

In second language learning, scenario-based conversation practice is important for language learners to achieve fluency in speaking, but students often lack sufficient opportunities to practice their conversational skills with qualified instructors or native speakers. To bridge this gap, we propose situational dialogue models for students to engage in conversational practice. Our situational dialogue models are fine-tuned on large language models (LLMs), with the aim of combining the engaging nature of an open-ended conversation with the focused practice of scenario-based tasks. Leveraging the generalization capabilities of LLMs, we demonstrate that our situational dialogue models perform effectively not only on training topics but also on topics not encountered during training. This offers a promising solution to support a wide range of conversational topics without extensive manual work. Additionally, research in the field of dialogue systems still lacks reliable automatic evaluation metrics, leading to human evaluation as the gold standard (Smith et al., 2022), which is typically expensive. To address the limitations of existing evaluation methods, we present a novel automatic evaluation method that employs fine-tuned LLMs to efficiently and effectively assess the performance of situational dialogue models.
翻訳日:2024-04-01 16:24:57 公開日:2024-03-29
# 大言語モデルの幻覚について : ファクトに関する考察

On Large Language Models' Hallucination with Regard to Known Facts ( http://arxiv.org/abs/2403.20009v1 )

ライセンス: Link先を確認
Che Jiang, Biqing Qi, Xiangyu Hong, Dayuan Fu, Yang Cheng, Fandong Meng, Mo Yu, Bowen Zhou, Jie Zhou, (参考訳) 大規模な言語モデルでは, ファクトイドな質問に答えることに成功したが, 幻覚化の傾向が強く, 推論力学の観点からもまだ幻覚的でない LLM の現象を考察する。 したがって、正しい出力と間違った出力のモデル行動の違いは、幻覚が起こる際のパターンを示唆する。 第二に、パターンを測定するために、残留ストリームから語彙空間へのマッピングを利用する。 本研究は,正しい場合と幻覚的な場合の層深さに沿った出力トークン確率の異なるダイナミクスを明らかにする。 幻覚の場合、出力トークンの情報は、モデルの後半段階で急激な増加と一貫した優位性を示すことはめったにない。 動的曲線を特徴として活用し,88%の成功率で幻覚予測を正確に検出できる分類器を構築する。 我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。

Large language models are successful in answering factoid questions but are also prone to hallucination.We investigate the phenomenon of LLMs possessing correct answer knowledge yet still hallucinating from the perspective of inference dynamics, an area not previously covered in studies on hallucinations.We are able to conduct this analysis via two key ideas.First, we identify the factual questions that query the same triplet knowledge but result in different answers. The difference between the model behaviors on the correct and incorrect outputs hence suggests the patterns when hallucinations happen. Second, to measure the pattern, we utilize mappings from the residual streams to vocabulary space. We reveal the different dynamics of the output token probabilities along the depths of layers between the correct and hallucinated cases. In hallucinated cases, the output token's information rarely demonstrates abrupt increases and consistent superiority in the later stages of the model. Leveraging the dynamic curve as a feature, we build a classifier capable of accurately detecting hallucinatory predictions with an 88\% success rate. Our study shed light on understanding the reasons for LLMs' hallucinations on their known facts, and more importantly, on accurately predicting when they are hallucinating.
翻訳日:2024-04-01 16:24:57 公開日:2024-03-29
# カラーフルカットアウト:カリキュラム学習による画像データの強化

Colorful Cutout: Enhancing Image Data Augmentation with Curriculum Learning ( http://arxiv.org/abs/2403.20012v1 )

ライセンス: Link先を確認
Juhwan Choi, YoungBin Kim, (参考訳) データ拡張は、ディープラーニングモデルのトレーニングのための正規化戦略の1つであり、一般化性を高め、過剰適合を防止し、パフォーマンス改善につながる。 研究者は様々なデータ拡張手法を提案しているが、拡張データの難しさを考慮していないことが多い。 近年,自然言語処理の分野において,カリキュラム学習の概念をデータ拡張に取り入れることが提案されている。 本研究では,画像データ拡張のためのカリキュラムデータ拡張を採用し,色とりどりのカットアウトを提案する。 実験結果は,画像データに対するカリキュラムデータ拡張の可能性を強調した。 私たちの研究の再現性を改善するために、ソースコードを公開しました。

Data augmentation is one of the regularization strategies for the training of deep learning models, which enhances generalizability and prevents overfitting, leading to performance improvement. Although researchers have proposed various data augmentation techniques, they often lack consideration for the difficulty of augmented data. Recently, another line of research suggests incorporating the concept of curriculum learning with data augmentation in the field of natural language processing. In this study, we adopt curriculum data augmentation for image data augmentation and propose colorful cutout, which gradually increases the noise and difficulty introduced in the augmented image. Our experimental results highlight the possibility of curriculum data augmentation for image data. We publicly released our source code to improve the reproducibility of our study.
翻訳日:2024-04-01 16:24:57 公開日:2024-03-29
# DerainNeRF:接着性水滴除去による3次元シーン推定

DerainNeRF: 3D Scene Estimation with Adhesive Waterdrop Removal ( http://arxiv.org/abs/2403.20013v1 )

ライセンス: Link先を確認
Yunhao Li, Jing Wu, Lingzhe Zhao, Peidong Liu, (参考訳) 雨や雪の天候下でガラスを通して画像を撮影する場合、結果として得られる画像は、しばしばガラス表面に付着した水滴を含み、これらの水滴は多くのコンピュータビジョンアルゴリズムの画質と性能を著しく低下させる。 これらの制約に対処するため,水滴により劣化した多視点画像から透明な3Dシーンを暗黙的に再構成する手法を提案する。 本手法は,水滴の位置を予測するためにアテンションネットワークを利用して,暗黙的に3Dシーンを復元するニューラルレージアンスフィールドを訓練する。 NeRFの強いシーン表現機能を活用することで,水滴を除去した高品質なノベルビュー画像をレンダリングすることができる。 合成データと実データの両方の大規模な実験結果から,本手法は鮮明な3次元シーンを生成でき,既存のSOTA画像の付着水滴除去法より優れることが示された。

When capturing images through the glass during rainy or snowy weather conditions, the resulting images often contain waterdrops adhered on the glass surface, and these waterdrops significantly degrade the image quality and performance of many computer vision algorithms. To tackle these limitations, we propose a method to reconstruct the clear 3D scene implicitly from multi-view images degraded by waterdrops. Our method exploits an attention network to predict the location of waterdrops and then train a Neural Radiance Fields to recover the 3D scene implicitly. By leveraging the strong scene representation capabilities of NeRF, our method can render high-quality novel-view images with waterdrops removed. Extensive experimental results on both synthetic and real datasets show that our method is able to generate clear 3D scenes and outperforms existing state-of-the-art (SOTA) image adhesive waterdrop removal methods.
翻訳日:2024-04-01 16:24:57 公開日:2024-03-29
# PURPLE: 大きな言語モデルをより良いSQLライタにする

PURPLE: Making a Large Language Model a Better SQL Writer ( http://arxiv.org/abs/2403.20014v1 )

ライセンス: Link先を確認
Tonghui Ren, Yuankai Fan, Zhenying He, Ren Huang, Jiaqi Dai, Can Huang, Yinan Jing, Kai Zhang, Yifan Yang, X. Sean Wang, (参考訳) 大規模言語モデル(LLM)技術は、自然言語からSQLへの変換(NL2SQL)において、ますます重要な役割を担っている。 大規模なコーパスによって訓練されたLLMは、NL2SQLタスクに特有の追加チューニングをせずに、強力な自然言語理解と基本的なSQL生成能力を持つ。 既存の LLM ベースの NL2SQL アプローチでは,ユーザ意図の理解を重視した LLM の拡張による翻訳の改善が試みられている。 しかし、LLMは複雑な論理演算子の構成を整理する知識が不足しているため、適切なSQLを生成することができないことがある。 有望な方法は、様々なデータベースからの既知のNL2SQL翻訳を含むデモでLLMを入力することである。 LLMは、与えられたタスクの入力デモから演算子構成を整理することを学ぶことができる。 本稿では,NL2SQLタスクに必要な論理演算子構成を含む実演を手作業で取得し,LLMを誘導してSQL翻訳を改善することにより,精度を向上させるPURPLE(Retrieve Prompts for Logical Enhancement)を提案する。 PURPLEは、一般的なNL2SQLベンチマークSpiderの検証セットで80.5%の精度と87.8%の精度で、最先端のパフォーマンスを実現している。 PURPLE は様々なベンチマーク、予算制約、様々な LLM にまたがって高い精度を維持しており、堅牢性と費用対効果を示している。

Large Language Model (LLM) techniques play an increasingly important role in Natural Language to SQL (NL2SQL) translation. LLMs trained by extensive corpora have strong natural language understanding and basic SQL generation abilities without additional tuning specific to NL2SQL tasks. Existing LLMs-based NL2SQL approaches try to improve the translation by enhancing the LLMs with an emphasis on user intention understanding. However, LLMs sometimes fail to generate appropriate SQL due to their lack of knowledge in organizing complex logical operator composition. A promising method is to input the LLMs with demonstrations, which include known NL2SQL translations from various databases. LLMs can learn to organize operator compositions from the input demonstrations for the given task. In this paper, we propose PURPLE (Pre-trained models Utilized to Retrieve Prompts for Logical Enhancement), which improves accuracy by retrieving demonstrations containing the requisite logical operator composition for the NL2SQL task on hand, thereby guiding LLMs to produce better SQL translation. PURPLE achieves a new state-of-the-art performance of 80.5% exact-set match accuracy and 87.8% execution match accuracy on the validation set of the popular NL2SQL benchmark Spider. PURPLE maintains high accuracy across diverse benchmarks, budgetary constraints, and various LLMs, showing robustness and cost-effectiveness.
翻訳日:2024-04-01 16:15:12 公開日:2024-03-29
# Adverbが鍵:Adverb削除によるシンプルなテキストデータ拡張

Adverb Is the Key: Simple Text Data Augmentation with Adverb Deletion ( http://arxiv.org/abs/2403.20015v1 )

ライセンス: Link先を確認
Juhwan Choi, YoungBin Kim, (参考訳) テキストデータ拡張の分野では、コスト効率のため、現実のアプリケーションにルールベースの手法が広く採用されている。 しかし、従来のルールベースのアプローチは、与えられたテキストの本来の意味論を失う可能性がある。 本稿では,文章の補助的役割を担う副詞の直接削除によって,このような現象を回避する新しいテキストデータ拡張戦略を提案する。 本研究の総合的な実験は,テキスト分類だけでなく,意味保存を必要とする自然言語推論に対しても,提案手法の有効性と有効性を示すものである。 再現性のためのソースコードを公開しました。

In the field of text data augmentation, rule-based methods are widely adopted for real-world applications owing to their cost-efficiency. However, conventional rule-based approaches suffer from the possibility of losing the original semantics of the given text. We propose a novel text data augmentation strategy that avoids such phenomena through a straightforward deletion of adverbs, which play a subsidiary role in the sentence. Our comprehensive experiments demonstrate the efficiency and effectiveness of our proposed approach for not just single text classification, but also natural language inference that requires semantic preservation. We publicly released our source code for reproducibility.
翻訳日:2024-04-01 16:15:12 公開日:2024-03-29
# EnCoMP:オフライン強化学習を用いたカバートマニキュア計画の強化

EnCoMP: Enhanced Covert Maneuver Planning using Offline Reinforcement Learning ( http://arxiv.org/abs/2403.20016v1 )

ライセンス: Link先を確認
Jumman Hossain, Abu-Zaher Faridee, Nirmalya Roy, (参考訳) 複雑な環境におけるカバーナビゲーションは、自律ロボットにとって重要な課題であり、効率的なナビゲーションを維持しながら、環境カバーの識別と利用が必要である。 本研究では,ロボットが自然環境や人工環境の特徴をカバーとして識別・活用し,潜在的な脅威への曝露を最小限に抑えるためのナビゲーションシステムを提案する。 我々の知覚パイプラインはLiDARデータを利用して高忠実度カバーマップと潜在的な脅威マップを生成し、周囲の環境を包括的に理解する。 実環境から収集した多様なデータセットを用いてオフラインの強化学習モデルをトレーニングし、カバー利用の最大化、脅威への曝露の最小化、目標達成の効率を高める能力に基づいて、候補行動の品質を評価する堅牢なポリシーを学習する。 広汎な実世界の実験は、最先端の手法と比較して、成功率、カバー利用率、露出最小化、ナビゲーション効率の観点から、我々のアプローチの優位性を実証している。

Cover navigation in complex environments is a critical challenge for autonomous robots, requiring the identification and utilization of environmental cover while maintaining efficient navigation. We propose an enhanced navigation system that enables robots to identify and utilize natural and artificial environmental features as cover, thereby minimizing exposure to potential threats. Our perception pipeline leverages LiDAR data to generate high-fidelity cover maps and potential threat maps, providing a comprehensive understanding of the surrounding environment. We train an offline reinforcement learning model using a diverse dataset collected from real-world environments, learning a robust policy that evaluates the quality of candidate actions based on their ability to maximize cover utilization, minimize exposure to threats, and reach the goal efficiently. Extensive real-world experiments demonstrate the superiority of our approach in terms of success rate, cover utilization, exposure minimization, and navigation efficiency compared to state-of-the-art methods.
翻訳日:2024-04-01 16:15:12 公開日:2024-03-29
# SCINeRF: スナップショット圧縮画像からのニューラル放射場

SCINeRF: Neural Radiance Fields from a Snapshot Compressive Image ( http://arxiv.org/abs/2403.20018v1 )

ライセンス: Link先を確認
Yunhao Li, Xiaodong Wang, Ping Wang, Xin Yuan, Peidong Liu, (参考訳) 本稿では,1つの時間圧縮画像から基礎となる3次元シーン表現を復元するSnapshot Compressive Imaging (SCI)技術の可能性について検討する。 SCIは、高スペクトルや時間情報などの高次元データを、低コストの2Dイメージングセンサーを用いて単一の画像に記録できるコスト効率のよい方法である。 これを実現するために、通常、一連の特別に設計された2Dマスクが採用され、ストレージの要求を減らし、潜在的なプライバシー保護を提供する。 これに触発されて、我々はNeRF(Near Radiance Field)の強力な3次元シーン表現能力を構築した。 具体的には、NeRFのトレーニングの一環としてSCIの物理画像処理を定式化し、複雑なシーン構造を捉えた際、その印象的な性能を利用する。 提案手法の有効性を評価するため,SCIシステムで収集した合成データと実データの両方を用いて広範囲な評価を行った。 画像再構成と新しいビュー画像合成の観点から,提案手法が最先端の手法を超越していることが実証された。 さらに,本手法では,SCIとNeRFのレンダリング機能を活用して,高フレームレートのマルチビュー一貫した画像の復元が可能となる。 コードはhttps://github.com/WU-CVGL/SCINeRFで公開されている。

In this paper, we explore the potential of Snapshot Compressive Imaging (SCI) technique for recovering the underlying 3D scene representation from a single temporal compressed image. SCI is a cost-effective method that enables the recording of high-dimensional data, such as hyperspectral or temporal information, into a single image using low-cost 2D imaging sensors. To achieve this, a series of specially designed 2D masks are usually employed, which not only reduces storage requirements but also offers potential privacy protection. Inspired by this, to take one step further, our approach builds upon the powerful 3D scene representation capabilities of neural radiance fields (NeRF). Specifically, we formulate the physical imaging process of SCI as part of the training of NeRF, allowing us to exploit its impressive performance in capturing complex scene structures. To assess the effectiveness of our method, we conduct extensive evaluations using both synthetic data and real data captured by our SCI system. Extensive experimental results demonstrate that our proposed approach surpasses the state-of-the-art methods in terms of image reconstruction and novel view image synthesis. Moreover, our method also exhibits the ability to restore high frame-rate multi-view consistent images by leveraging SCI and the rendering capabilities of NeRF. The code is available at https://github.com/WU-CVGL/SCINeRF.
翻訳日:2024-04-01 16:15:12 公開日:2024-03-29
# 強化学習のための非パラメトリックベルマン写像:ロバスト適応フィルタリングへの応用

Nonparametric Bellman Mappings for Reinforcement Learning: Application to Robust Adaptive Filtering ( http://arxiv.org/abs/2403.20020v1 )

ライセンス: Link先を確認
Yuki Akiyama, Minh Vu, Konstantinos Slavakis, (参考訳) 本稿では、強化学習(RL)のためのカーネルヒルベルト空間(RKHS)の新たな非パラメトリックベルマン写像を設計する。 提案したマッピングは、RKHSのリッチな近似特性の恩恵を受け、非パラメトリックな性質のためデータの統計に関する仮定を採用せず、マルコフ決定過程の遷移確率に関する知識も必要とせず、いかなる訓練データも必要とせず運用することができる。 さらに、軌道サンプルの設計によるオンザフライのサンプリング、経験的な再生による過去のテストデータの再使用、ランダムなフーリエ特徴による効果次元の削減、オンラインや時間順応的な学習に計算的に軽量な操作が適合することを可能にする。 提案したベルマン写像の自由パラメータを設計するための変分フレームワークも提供し、それらのパラメータの適切な選択がベルマンマッピングの設計に人気があることを示す。 応用として, 適応フィルタリングにおける外れ値の対応問題に対する新しい解決策を提供するために, 提案した写像を用いる。 より具体的には、アウトレーヤの統計に関する事前情報がなく、トレーニングデータもないため、最小平均pパワーエラー法における「最適」係数pをオンラインに選択するためのポリシイテレーションアルゴリズムが導入された。 合成データに関する数値実験では、ほとんどの場合、いくつかのRLおよび非RLスキームに対して提案された解の優れた性能を示す。

This paper designs novel nonparametric Bellman mappings in reproducing kernel Hilbert spaces (RKHSs) for reinforcement learning (RL). The proposed mappings benefit from the rich approximating properties of RKHSs, adopt no assumptions on the statistics of the data owing to their nonparametric nature, require no knowledge on transition probabilities of Markov decision processes, and may operate without any training data. Moreover, they allow for sampling on-the-fly via the design of trajectory samples, re-use past test data via experience replay, effect dimensionality reduction by random Fourier features, and enable computationally lightweight operations to fit into efficient online or time-adaptive learning. The paper offers also a variational framework to design the free parameters of the proposed Bellman mappings, and shows that appropriate choices of those parameters yield several popular Bellman-mapping designs. As an application, the proposed mappings are employed to offer a novel solution to the problem of countering outliers in adaptive filtering. More specifically, with no prior information on the statistics of the outliers and no training data, a policy-iteration algorithm is introduced to select online, per time instance, the ``optimal'' coefficient p in the least-mean-p-power-error method. Numerical tests on synthetic data showcase, in most of the cases, the superior performance of the proposed solution over several RL and non-RL schemes.
翻訳日:2024-04-01 16:15:12 公開日:2024-03-29
# 心理測定:人間の脳活動からの画像再構成のためのOmnifit Model

Psychometry: An Omnifit Model for Image Reconstruction from Human Brain Activity ( http://arxiv.org/abs/2403.20022v1 )

ライセンス: Link先を確認
Ruijie Quan, Wenguan Wang, Zhibo Tian, Fan Ma, Yi Yang, (参考訳) 人間の脳活動から見るイメージを再構築することで、人間とコンピュータのビジョンをBrain-Computer Interfaceを通して橋渡しする。 個人間の脳機能の固有のばらつきは、既存の文献において、それぞれの脳信号データを使用して個々の個体ごとに別々のモデルを取得することに集中し、それらのデータ間の共通点を無視している。 本稿では、異なる被験者から得られた機能的磁気共鳴画像(fMRI)から画像を再構成するための全能モデルであるサイコメトリを考案する。 心理測定にはOmni Mixed-of-experts (Omni MoE)モジュールが組み込まれており、すべての専門家が共同でオブジェクト間の共通点を捉え、各専門家が主題固有のパラメータに関連付けられている。 さらに、サイコメトリは、事前記憶した被写体固有の記憶から取り出すことにより、学習されたfMRI表現を強化することを目的とした、Ecphoryと呼ばれる検索強化推論戦略を備えている。 これらのデザインは、総合的に心理学的全能性と効率性を表現し、対象間の共通性と被写体間の個人的特異性の両方をキャプチャすることを可能にする。 その結果、fMRI表現の強化は、高品質でリアルなイメージを再構築するための世代モデルを誘導する条件信号として機能し、高レベルと低レベルの両方の観点から、サイコメトリを最先端のメトリクスとして確立した。

Reconstructing the viewed images from human brain activity bridges human and computer vision through the Brain-Computer Interface. The inherent variability in brain function between individuals leads existing literature to focus on acquiring separate models for each individual using their respective brain signal data, ignoring commonalities between these data. In this article, we devise Psychometry, an omnifit model for reconstructing images from functional Magnetic Resonance Imaging (fMRI) obtained from different subjects. Psychometry incorporates an omni mixture-of-experts (Omni MoE) module where all the experts work together to capture the inter-subject commonalities, while each expert associated with subject-specific parameters copes with the individual differences. Moreover, Psychometry is equipped with a retrieval-enhanced inference strategy, termed Ecphory, which aims to enhance the learned fMRI representation via retrieving from prestored subject-specific memories. These designs collectively render Psychometry omnifit and efficient, enabling it to capture both inter-subject commonality and individual specificity across subjects. As a result, the enhanced fMRI representations serve as conditional signals to guide a generation model to reconstruct high-quality and realistic images, establishing Psychometry as state-of-the-art in terms of both high-level and low-level metrics.
翻訳日:2024-04-01 16:15:12 公開日:2024-03-29
# FSMR: テキストと視覚の融合によるマルチモーダル推論手法

FSMR: A Feature Swapping Multi-modal Reasoning Approach with Joint Textual and Visual Clues ( http://arxiv.org/abs/2403.20026v1 )

ライセンス: Link先を確認
Shuang Li, Jiahua Wang, Lijie Wen, (参考訳) マルチモーダル推論は、テキスト情報と視覚情報のギャップを埋める上で重要な役割を担い、コンテキストのより深い理解を可能にする。 本稿では,機能スワッピングによるマルチモーダル推論の強化を目的としたFSMRモデルを提案する。 FSMRは、訓練済みの視覚言語モデルをエンコーダとして利用し、テキストと画像の両方の入力を調節して、両方のモダリティから効果的な特徴表現を行う。 ユニークな機能スワッピングモジュールを導入し、画像中の特定対象とテキスト中の対応する語彙語との間の特徴の交換を可能にし、画像とテキスト間の相互作用に関するモデルの理解を深める。 FSMRはマルチモーダルアライメント機能をさらに強化するため、多モーダル・クロスアテンション機構を導入し、テキスト情報と視覚情報の共同モデリングを容易にする。 トレーニング中、視覚的要素と言語要素のセマンティック一貫性を確保するために、画像テキストマッチングとクロスエントロピー損失を用いる。 PMRデータセットの大規模な実験は、FSMRが様々なパフォーマンス指標で最先端のベースラインモデルよりも優れていることを示している。

Multi-modal reasoning plays a vital role in bridging the gap between textual and visual information, enabling a deeper understanding of the context. This paper presents the Feature Swapping Multi-modal Reasoning (FSMR) model, designed to enhance multi-modal reasoning through feature swapping. FSMR leverages a pre-trained visual-language model as an encoder, accommodating both text and image inputs for effective feature representation from both modalities. It introduces a unique feature swapping module, enabling the exchange of features between identified objects in images and corresponding vocabulary words in text, thereby enhancing the model's comprehension of the interplay between images and text. To further bolster its multi-modal alignment capabilities, FSMR incorporates a multi-modal cross-attention mechanism, facilitating the joint modeling of textual and visual information. During training, we employ image-text matching and cross-entropy losses to ensure semantic consistency between visual and language elements. Extensive experiments on the PMR dataset demonstrate FSMR's superiority over state-of-the-art baseline models across various performance metrics.
翻訳日:2024-04-01 16:15:12 公開日:2024-03-29
# 時間最適化を用いた単調アルゴリズムによるオープン量子系のゲート生成

Gate generation for open quantum systems via a monotonic algorithm with time optimization ( http://arxiv.org/abs/2403.20028v1 )

ライセンス: Link先を確認
Paulo Sergio Pereira da Silva, Pierre Rouchon, (参考訳) オープンシステムのための量子ゲートを生成するための時間最適化を含む単調な数値アルゴリズムを提案する。 このような系は、大きなヒルベルト空間上の密度作用素に対するリンドブラッド・マスター方程式によって支配されるが、量子ゲートは小さな次元の部分空間に相対的である。 制御入力の最初のシードから、このアルゴリズムは次の2つのステップを繰り返して新しい制御入力を生成する: (A) 隣接したリンドブラッド・マスター方程式(ハイゼンベルク・ピクチャ内)を、生成する量子ゲートを符号化する最終条件の集合から後方に積分する; (B) リアプノフに基づく制御が新しい制御入力を生成する閉ループにおけるリンドブラッド・マスター方程式の前方積分。 数値安定性は, 閉ループ後続系と前方閉ループ系の双方の安定性によって確保される。 通常の制御入力にクロック制御入力を追加することができる。 得られた単調アルゴリズムは、制御インプットの形状だけでなく、ゲート時間も最適化することができる。 予備的な数値的な実装により、このアルゴリズムは、ヒルベルト空間次元(2次元はZゲート、4次元はCNOTゲート)が、主にフォック状態(典型的には1つのキャットキュービット)を含む物理ヒルベルト空間の次元よりもはるかに小さいキャットキュービットゲートに適していることが示されている。 定常条件は、量子状態の最終値に線形に依存するコストの1次最適条件と一致する。

We present a monotonic numerical algorithm including time optimization for generating quantum gates for open systems. Such systems are assumed to be governed by Lindblad master equations for the density operators on a large Hilbert-space whereas the quantum gates are relative to a sub-space of small dimension. Starting from an initial seed of the control input, this algorithm consists in the repetition of the following two steps producing a new control input: (A) backwards integration of adjoint Lindblad-Master equations (in the Heisenberg-picture) from a set of final conditions encoding the quantum gate to generate; (B) forward integration of Lindblad-Master equations in closed-loop where a Lyapunov based control produced the new control input. The numerical stability is ensured by the stability of both the open-loop adjoint backward system and the forward closed-loop system. A clock-control input can be added to the usual control input. The obtained monotonic algorithm allows then to optimise not only the shape of the control imput, but also the gate time. Preliminary numerical implementations indicate that this algorithm is well suited for cat-qubit gates, where Hilbert-space dimensions (2 for the Z-gate and 4 for the CNOT-gate) are much smaller than the dimension of the physical Hilbert-space involving mainly Fock-states (typically 20 or larger for a single cat-qubit). This monotonic algorithm, based on Lyapunov control techniques, is shown to have a straightforward interpretation in terms of optimal control: its stationary conditions coincides with the first-order optimality conditions for a cost depending linearly on the final values of the quantum states.
翻訳日:2024-04-01 16:15:12 公開日:2024-03-29
# 人間中心のポイントクラウドビデオ理解のための統一フレームワーク

A Unified Framework for Human-centric Point Cloud Video Understanding ( http://arxiv.org/abs/2403.20031v1 )

ライセンス: Link先を確認
Yiteng Xu, Kecheng Ye, Xiao Han, Yiming Ren, Xinge Zhu, Yuexin Ma, (参考訳) 人間中心のポイントクラウドビデオ理解(PVU)は、人間のポイントクラウドのシーケンスから人間関連の機能を抽出し、解釈することに焦点を当てた、新たな分野である。 従来の作業は通常、特定のタスクに取り組むことに集中しており、巨大なラベル付きデータに依存しており、一般化能力は乏しい。 人体の構造的意味論や人間の動作のダイナミクスなど,人間に特有の特徴があることを考慮し,従来の知識を十分に活用し,データ自体に固有の特徴を探求する統一的な枠組みを提案する。 大規模実験により,動作認識や3次元ポーズ推定など,多種多様なヒューマンタスクにおける最先端性能が得られた。 すべてのデータセットとコードはまもなくリリースされる。

Human-centric Point Cloud Video Understanding (PVU) is an emerging field focused on extracting and interpreting human-related features from sequences of human point clouds, further advancing downstream human-centric tasks and applications. Previous works usually focus on tackling one specific task and rely on huge labeled data, which has poor generalization capability. Considering that human has specific characteristics, including the structural semantics of human body and the dynamics of human motions, we propose a unified framework to make full use of the prior knowledge and explore the inherent features in the data itself for generalized human-centric point cloud video understanding. Extensive experiments demonstrate that our method achieves state-of-the-art performance on various human-related tasks, including action recognition and 3D pose estimation. All datasets and code will be released soon.
翻訳日:2024-04-01 16:15:12 公開日:2024-03-29
# HO-Gaussian:3次元ガウス平滑化のハイブリッド最適化

HO-Gaussian: Hybrid Optimization of 3D Gaussian Splatting for Urban Scenes ( http://arxiv.org/abs/2403.20032v1 )

ライセンス: Link先を確認
Zhuopeng Li, Yilin Zhang, Chenming Wu, Jianke Zhu, Liangjun Zhang, (参考訳) 3D Gaussian Splatting (3DGS)の急速な成長は、ニューラルネットワークレンダリングに革命をもたらし、高品質なレンダリングのリアルタイム生産を可能にした。 しかし, 従来の3DGS方式では, 初期のSfM(Structure-from-Motion)点に依存し, 遠隔地, 空地, 低テクスチャエリアのレンダリングが困難であったため, 都市景観に制限がある。 これらの課題を克服するために,グリッドベースボリュームと3DGSパイプラインを組み合わせたHO-Gaussianというハイブリッド最適化手法を提案する。 HO-Gaussianは、SfMポイントの初期化への依存を排除し、都市シーンのレンダリングを可能にし、ポイントデンシフィケーションを組み込んで、トレーニング中の問題領域のレンダリング品質を向上させる。 さらに、レンダリングパイプラインにおける球面調和の代替としてガウス方向符号化を導入し、ビュー依存色表現を可能にした。 マルチカメラシステムのために,異なるカメラ間でのオブジェクトの一貫性を高めるために,ニューラル・ワープを導入する。 広範に使用されている自律走行データセットの実験結果は、HO-Gaussianがマルチカメラ都市データセット上でリアルタイムにフォトリアリスティックレンダリングを実現することを示す。

The rapid growth of 3D Gaussian Splatting (3DGS) has revolutionized neural rendering, enabling real-time production of high-quality renderings. However, the previous 3DGS-based methods have limitations in urban scenes due to reliance on initial Structure-from-Motion(SfM) points and difficulties in rendering distant, sky and low-texture areas. To overcome these challenges, we propose a hybrid optimization method named HO-Gaussian, which combines a grid-based volume with the 3DGS pipeline. HO-Gaussian eliminates the dependency on SfM point initialization, allowing for rendering of urban scenes, and incorporates the Point Densitification to enhance rendering quality in problematic regions during training. Furthermore, we introduce Gaussian Direction Encoding as an alternative for spherical harmonics in the rendering pipeline, which enables view-dependent color representation. To account for multi-camera systems, we introduce neural warping to enhance object consistency across different cameras. Experimental results on widely used autonomous driving datasets demonstrate that HO-Gaussian achieves photo-realistic rendering in real-time on multi-camera urban datasets.
翻訳日:2024-04-01 16:15:12 公開日:2024-03-29
# Elastic Net と MOPSO を用いた価格予測のための新しい決定融合手法

A novel decision fusion approach for sale price prediction using Elastic Net and MOPSO ( http://arxiv.org/abs/2403.20033v1 )

ライセンス: Link先を確認
Amir Eshaghi Chaleshtori, (参考訳) 価格予測アルゴリズムは、市場動向、需要予測、政府規則、国際取引、投機と予測などの特性に応じて、すべての製品またはサービスの価格を提案する。 物価予測における依存変数として、物価予測に挑戦する可能性のあるいくつかの独立変数および相関変数に影響される。 この課題を克服するために、機械学習アルゴリズムは変数間の関連性を明示的にモデル化することなく、より正確な価格予測を可能にする。 しかし、入力が増加するにつれて、計算効率と予測効率に関する既存の機械学習アプローチに挑戦する。 そこで本研究では,価格予測において情報変数を選択するための新たな意思決定レベル融合手法を提案する。 提案したメタヒューリスティックアルゴリズムは、2つの競合対象関数のバランスを保ち、この関数は利用変数の予測を改善し、同時にエラー率を減少させる。 Paretoの最適解を生成するために、Elastic netアプローチを用いて無関係で冗長な変数を排除し、精度を高める。 その後、我々は、解を結合し、特徴のサブセットが最適であることを保証する新しい方法を提案する。 2つの実データセットが提案した価格予測手法を評価する。 その結果, 相対根平均二乗誤差と補正相関係数に関して, モデルが提案する優越性を支持した。

Price prediction algorithms propose prices for every product or service according to market trends, projected demand, and other characteristics, including government rules, international transactions, and speculation and expectation. As the dependent variable in price prediction, it is affected by several independent and correlated variables which may challenge the price prediction. To overcome this challenge, machine learning algorithms allow more accurate price prediction without explicitly modeling the relatedness between variables. However, as inputs increase, it challenges the existing machine learning approaches regarding computing efficiency and prediction effectiveness. Hence, this study introduces a novel decision level fusion approach to select informative variables in price prediction. The suggested metaheuristic algorithm balances two competitive objective functions, which are defined to improve the prediction utilized variables and reduce the error rate simultaneously. To generate Pareto optimal solutions, an Elastic net approach is employed to eliminate unrelated and redundant variables to increase the accuracy. Afterward, we propose a novel method for combining solutions and ensuring that a subset of features is optimal. Two various real datasets evaluate the proposed price prediction method. The results support the suggested superiority of the model concerning its relative root mean square error and adjusted correlation coefficient.
翻訳日:2024-04-01 16:15:12 公開日:2024-03-29
# NeSLAM:Depth CompletionとDenoisingによるニューラルインシシシトマッピングとセルフスーパービジョン機能追跡

NeSLAM: Neural Implicit Mapping and Self-Supervised Feature Tracking With Depth Completion and Denoising ( http://arxiv.org/abs/2403.20034v1 )

ライセンス: Link先を確認
Tianchen Deng, Yanbo Wang, Hongle Xie, Hesheng Wang, Jingchuan Wang, Danwei Wang, Weidong Chen, (参考訳) 近年,3次元再構成やRGB-D SLAMの高度化が進んでいる。 これらのシステムにNeural Radiance Fields (NeRF) を応用し、暗黙のニューラル表現を用いて3Dシーンをエンコードする。 この NeRF から SLAM への拡張は有望な結果を示している。 しかし、コンシューマグレードのRGB-Dセンサから得られる深度画像は、しばしば疎遠でノイズが多いため、3次元再構成には大きな課題があり、シーン形状の正確な表現に影響を及ぼす。 さらに、シーン幾何学表現において、占有価値を持つ元の階層的特徴グリッドが不正確である。 さらに,既存手法ではカメラトラッキングのためのランダム画素が選択されており,これは不正確な位置決めにつながり,現実世界の屋内環境では堅牢ではない。 そこで我々は,高精度で密度の高い深度推定,ロバストなカメラトラッキング,新しいビューの現実的な合成を実現する高度フレームワークNeSLAMを提案する。 第一に、深度補完・復調ネットワークは、事前に密な幾何を提供し、暗黙的表現最適化を導くように設計されている。 第二に、占有シーンの表現を、高品質な再構成とビュー合成のための手話距離場(Signed Distance Field, SDF)階層的なシーン表現に置き換える。 また,より堅牢なリアルタイムトラッキングを実現するために,NeRFに基づく自己教師型特徴追跡アルゴリズムを提案する。 各種屋内データセットを用いた実験は、再構築、品質追跡、新しいビュー合成におけるシステムの有効性と精度を示す。

In recent years, there have been significant advancements in 3D reconstruction and dense RGB-D SLAM systems. One notable development is the application of Neural Radiance Fields (NeRF) in these systems, which utilizes implicit neural representation to encode 3D scenes. This extension of NeRF to SLAM has shown promising results. However, the depth images obtained from consumer-grade RGB-D sensors are often sparse and noisy, which poses significant challenges for 3D reconstruction and affects the accuracy of the representation of the scene geometry. Moreover, the original hierarchical feature grid with occupancy value is inaccurate for scene geometry representation. Furthermore, the existing methods select random pixels for camera tracking, which leads to inaccurate localization and is not robust in real-world indoor environments. To this end, we present NeSLAM, an advanced framework that achieves accurate and dense depth estimation, robust camera tracking, and realistic synthesis of novel views. First, a depth completion and denoising network is designed to provide dense geometry prior and guide the neural implicit representation optimization. Second, the occupancy scene representation is replaced with Signed Distance Field (SDF) hierarchical scene representation for high-quality reconstruction and view synthesis. Furthermore, we also propose a NeRF-based self-supervised feature tracking algorithm for robust real-time tracking. Experiments on various indoor datasets demonstrate the effectiveness and accuracy of the system in reconstruction, tracking quality, and novel view synthesis.
翻訳日:2024-04-01 16:15:12 公開日:2024-03-29
# UltraLight VM-UNet: Parallel Vision Mamba が皮膚病変セグメンテーションのパラメータを著しく削減

UltraLight VM-UNet: Parallel Vision Mamba Significantly Reduces Parameters for Skin Lesion Segmentation ( http://arxiv.org/abs/2403.20035v1 )

ライセンス: Link先を確認
Renkai Wu, Yinghao Liu, Pengchen Liang, Qing Chang, (参考訳) 伝統的にモデルのセグメンテーション性能を改善するために、ほとんどのアプローチはより複雑なモジュールを追加することを好む。 また,これは医療分野,特にモバイル医療機器には適さない。計算負荷モデルでは,計算資源の制約により実際の臨床環境には適さない。 近年、Mambaによって代表される状態空間モデル(SSM)は、従来のCNNやTransformerと強力な競合関係にある。 本稿では,マンバにおけるパラメータの影響の鍵となる要素を深く探求し,これに基づくUltraLight Vision Mamba UNet(UltraLight VM-UNet)を提案する。 具体的には、処理チャネルの全体数を一定に保ちながら、最小の計算負荷で優れた性能を実現する、PVM Layerという並列ビジョン・マンバの並列処理手法を提案する。 以上の結果から,UltraLight VM-UNetは0.049M,GFLOPs 0.060のパラメータと同等の性能を示すことを示した。 さらに,本研究では,マンバのパラメータ影響の鍵となる要素を深く研究し,マンバが将来,軽量化のための新たなメインストリームモジュールとなるための理論的基盤となることを示唆する。 コードはhttps://github.com/wurenkai/UltraLight-VM-UNetから入手できる。

Traditionally for improving the segmentation performance of models, most approaches prefer to use adding more complex modules. And this is not suitable for the medical field, especially for mobile medical devices, where computationally loaded models are not suitable for real clinical environments due to computational resource constraints. Recently, state-space models (SSMs), represented by Mamba, have become a strong competitor to traditional CNNs and Transformers. In this paper, we deeply explore the key elements of parameter influence in Mamba and propose an UltraLight Vision Mamba UNet (UltraLight VM-UNet) based on this. Specifically, we propose a method for processing features in parallel Vision Mamba, named PVM Layer, which achieves excellent performance with the lowest computational load while keeping the overall number of processing channels constant. We conducted comparisons and ablation experiments with several state-of-the-art lightweight models on three skin lesion public datasets and demonstrated that the UltraLight VM-UNet exhibits the same strong performance competitiveness with parameters of only 0.049M and GFLOPs of 0.060. In addition, this study deeply explores the key elements of parameter influence in Mamba, which will lay a theoretical foundation for Mamba to possibly become a new mainstream module for lightweighting in the future. The code is available from https://github.com/wurenkai/UltraLight-VM-UNet .
翻訳日:2024-04-01 16:15:12 公開日:2024-03-29
# Transformer-Lite: 携帯電話GPU上での大規模言語モデルの高効率展開

Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs ( http://arxiv.org/abs/2403.20041v1 )

ライセンス: Link先を確認
Luchang Li, Sheng Qian, Jie Lu, Lunxi Yuan, Rui Wang, Qin Xie, (参考訳) 大規模言語モデル(LLM)は、インテリジェントアシスタント、テキスト要約、翻訳、携帯電話でのマルチモダリティといったタスクに広く使われている。 しかし、現在のデバイス上でのLCMデプロイメントの手法は推論速度を遅く保ち、ユーザエクスペリエンスを損なう。 デバイスGPU上でのLLMの高効率展開を容易にするため,我々は4つの最適化手法を提案する。 (a)動的形状モデル推論を支援する記号表現に基づくアプローチ b) 推測速度を向上し、通話遅延を低減するための演算子最適化及び実行優先設定 (c)M0E4と呼ばれるFP4量子化法により、復号化オーバーヘッドを低減する。 (d)LLM推論後にKVキャッシュをコピーする必要がないサブテンソルベースの手法。 さらに,これらの手法をモバイル推論エンジンであるTransformer-Liteに実装し,Qualcomm と MTK の両プロセッサに互換性を持たせた。 2Bから14Bまでの異なるアーキテクチャとパラメータを持つLLMを用いてTransformer-Liteの性能を評価した。 具体的には,ChatGLM2 6Bでは121トークン/s,ChatGLM2 6Bでは14トークン/s,Gemma 2Bでは330トークン/s,Gemma 2Bでは30トークン/sのプリフィルとデコードを実現した。 CPUベースのFastLLMやGPUベースのMLC-LLMと比較して、エンジンはプリフィル速度で10倍以上のスピードアップ、デコード速度で2~3倍のスピードアップを実現しています。

The Large Language Model (LLM) is widely employed for tasks such as intelligent assistants, text summarization, translation, and multi-modality on mobile phones. However, the current methods for on-device LLM deployment maintain slow inference speed, which causes poor user experience. To facilitate high-efficiency LLM deployment on device GPUs, we propose four optimization techniques: (a) a symbolic expression-based approach to support dynamic shape model inference; (b) operator optimizations and execution priority setting to enhance inference speed and reduce phone lagging; (c) an FP4 quantization method termed M0E4 to reduce dequantization overhead; (d) a sub-tensor-based technique to eliminate the need for copying KV cache after LLM inference. Furthermore, we implement these methods in our mobile inference engine, Transformer-Lite, which is compatible with both Qualcomm and MTK processors. We evaluated Transformer-Lite's performance using LLMs with varied architectures and parameters ranging from 2B to 14B. Specifically, we achieved prefill and decoding speeds of 121 token/s and 14 token/s for ChatGLM2 6B, and 330 token/s and 30 token/s for smaller Gemma 2B, respectively. Compared with CPU-based FastLLM and GPU-based MLC-LLM, our engine attains over 10x speedup for the prefill speed and 2~3x speedup for the decoding speed.
翻訳日:2024-04-01 16:15:12 公開日:2024-03-29
# LLMは過去の間違いから学ぶことができるか? LLMの誤りを調査し、推論に役立てる

Can LLMs Learn from Previous Mistakes? Investigating LLMs' Errors to Boost for Reasoning ( http://arxiv.org/abs/2403.20046v1 )

ライセンス: Link先を確認
Yongqi Tong, Dawei Li, Sizhe Wang, Yujia Wang, Fei Teng, Jingbo Shang, (参考訳) 最近の研究は、微調整された黄金標準のチェーン・オブ・ソート(CoT)の合理性や、数発のプロンプトで正しい例として使用することによるLCMの利点を示している。 人間は確かに正しい例を模倣することができるが、私たちのミスから学ぶことは人間の認知にとって重要な側面である。 したがって、自然に疑問が生じる: \textit{can LLMは、特に彼らの推論のために、自分のミスから学び、利益を得るのか? 本研究は, モデルチューニングとプロンプトの両面からこの問題を考察する。 このベンチマークには609,432の質問があり、それぞれが正しい参照とエラー参照の両方で設計されている。 これらの誤りの有効性を探るため,(1) \textbf{Self-rethinking} は LLM に対して,類似した誤りを犯したかどうかを再考するよう促すとともに,(2) 従来の手法で基礎的真実を学習するためにモデルを調整するのではなく,正しい推論領域と間違った推論領域の両方でモデルを微調整する。 我々は,LLMが両方向の誤りから利益を得ることができることを示す一連の実験を行った。 我々の2つの手法は、エラーを利用して推論能力を向上させることによって、潜在的にコスト効率のよい戦略を提供する。 最終的に、LLMの誤りの背景にある理由を徹底的に分析し、将来の研究が克服すべき方向性を提供する。 \textsc{CoTErrorSet} はもうすぐ \texttt{Anonymity Link} で公開される。

Recent works have shown the benefits to LLMs from fine-tuning golden-standard Chain-of-Thought (CoT) rationales or using them as correct examples in few-shot prompting. While humans can indeed imitate correct examples, learning from our mistakes is another vital aspect of human cognition. Hence, a question naturally arises: \textit{can LLMs learn and benefit from their mistakes, especially for their reasoning? } This study investigates this problem from both the prompting and model-tuning perspectives. We begin by introducing \textsc{CoTErrorSet}, a new benchmark with 609,432 questions, each designed with both correct and error references, and demonstrating the types and reasons for making such mistakes. To explore the effectiveness of those mistakes, we design two methods: (1) \textbf{Self-rethinking} prompting guides LLMs to rethink whether they have made similar previous mistakes; and (2) \textbf{Mistake tuning} involves finetuning models in both correct and incorrect reasoning domains, rather than only tuning models to learn ground truth in traditional methodology. We conduct a series of experiments to prove LLMs can obtain benefits from mistakes in both directions. Our two methods offer potentially cost-effective strategies by leveraging errors to enhance reasoning capabilities, which costs significantly less than creating meticulously hand-crafted golden references. We ultimately make a thorough analysis of the reasons behind LLMs' errors, which provides directions that future research needs to overcome. \textsc{CoTErrorSet} will be published soon on \texttt{Anonymity Link}.
翻訳日:2024-04-01 16:15:12 公開日:2024-03-29
# 未知のステップを段階的に受け入れる - 実世界での信頼性の高いスパーストレーニングを目指して

Embracing Unknown Step by Step: Towards Reliable Sparse Training in Real World ( http://arxiv.org/abs/2403.20047v1 )

ライセンス: Link先を確認
Bowen Lei, Dongkuan Xu, Ruqi Zhang, Bani Mallick, (参考訳) スパーストレーニングは、現実世界のアプリケーションにおいて、リソース効率の高いディープニューラルネットワーク(DNN)の有望な方法として登場した。 しかし、スパースモデルの信頼性は、特に未知のアウト・オブ・ディストリビューション(OOD)データを検出する上で重要な問題である。 本研究は, スパーストレーニングの信頼性をOODの観点から検証し, スパーストレーニングがOODの信頼性を悪化させることを明らかにすることにより, 知識ギャップを解消するものである。 未知の情報とスパース制約の欠如は、重量空間の効果的な探索と、未知の知識と未知の知識の正確な区別を妨げている。 これらの課題に対処するために、損失修正、オートチューニング戦略、投票方式を取り入れた未知のスパーストレーニング手法を提案する。 理論的洞察は、OODサンプルに直面した場合、我々の手法がモデルの信頼性をいかに低下させるかを示す。 複数のデータセット、モデルアーキテクチャ、スパーシティレベルにまたがる実証実験により、AUROC の \textbf{8.4\%} まで改善され、精度やキャリブレーションが向上した。 本研究は,資源制限されたアプリケーションに展開するスパースDNNの理解と準備性を高める。 我々のコードは以下の通りである。

Sparse training has emerged as a promising method for resource-efficient deep neural networks (DNNs) in real-world applications. However, the reliability of sparse models remains a crucial concern, particularly in detecting unknown out-of-distribution (OOD) data. This study addresses the knowledge gap by investigating the reliability of sparse training from an OOD perspective and reveals that sparse training exacerbates OOD unreliability. The lack of unknown information and the sparse constraints hinder the effective exploration of weight space and accurate differentiation between known and unknown knowledge. To tackle these challenges, we propose a new unknown-aware sparse training method, which incorporates a loss modification, auto-tuning strategy, and a voting scheme to guide weight space exploration and mitigate confusion between known and unknown information without incurring significant additional costs or requiring access to additional OOD data. Theoretical insights demonstrate how our method reduces model confidence when faced with OOD samples. Empirical experiments across multiple datasets, model architectures, and sparsity levels validate the effectiveness of our method, with improvements of up to \textbf{8.4\%} in AUROC while maintaining comparable or higher accuracy and calibration. This research enhances the understanding and readiness of sparse DNNs for deployment in resource-limited applications. Our code is available on: \url{https://github.com/StevenBoys/MOON}.
翻訳日:2024-04-01 16:04:00 公開日:2024-03-29
# 逆数データセット上の低リソース言語への言語間移動ロバスト性

Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets ( http://arxiv.org/abs/2403.20056v1 )

ライセンス: Link先を確認
Shadi Manafi, Nikhil Krishnaswamy, (参考訳) MLLM(Multilingual Language Models)は、ソース言語で取得した情報を活用してターゲット言語に適用する、堅牢な言語間転送機能を示す。 これらの機能は、名前付きエンティティ認識(NER)のような、確立された自然言語処理(NLP)タスクに実用的な応用を見出す。 本研究の目的は、特に入力テストセットの摂動状況において、対象言語に適用した場合のソース言語の有効性を検討することである。 1つの高リソース言語 (HRL) と1つの低リソース言語 (LRL) を含む13の言語について, 地理的, 遺伝的, 貸与的関係を持つ言語について検討した。 我々は,これら2組のMLLM--MBERTとXLM-R--を,母国語LRLと言語間移動設定において,異なる摂動条件の下で2つのタスクで評価した。 以上の結果から,NERの言語間移動はエンティティチャンクの重複に大きく依存していることが示唆された。 ソースとターゲット言語が共通のエンティティを持つ場合、転送能力はより強くなります。 言語間移動を用いたモデルは入力の摂動に対して多少頑健であり、おそらくHRLから派生したより強い表現を活用できることを示している。 本研究は,言語間移動とそのNLP応用への応用に関する貴重な知見を提供し,異なる言語間でMLLMを使用する場合の言語ニュアンスや潜在的な制限を検討する必要性を浮き彫りにしている。

Multilingual Language Models (MLLMs) exhibit robust cross-lingual transfer capabilities, or the ability to leverage information acquired in a source language and apply it to a target language. These capabilities find practical applications in well-established Natural Language Processing (NLP) tasks such as Named Entity Recognition (NER). This study aims to investigate the effectiveness of a source language when applied to a target language, particularly in the context of perturbing the input test set. We evaluate on 13 pairs of languages, each including one high-resource language (HRL) and one low-resource language (LRL) with a geographic, genetic, or borrowing relationship. We evaluate two well-known MLLMs--MBERT and XLM-R--on these pairs, in native LRL and cross-lingual transfer settings, in two tasks, under a set of different perturbations. Our findings indicate that NER cross-lingual transfer depends largely on the overlap of entity chunks. If a source and target language have more entities in common, the transfer ability is stronger. Models using cross-lingual transfer also appear to be somewhat more robust to certain perturbations of the input, perhaps indicating an ability to leverage stronger representations derived from the HRL. Our research provides valuable insights into cross-lingual transfer and its implications for NLP applications, and underscores the need to consider linguistic nuances and potential limitations when employing MLLMs across distinct languages.
翻訳日:2024-04-01 16:04:00 公開日:2024-03-29
# PET/MRと深部脳代謝・血行動態・灌流ネットワークを併用した再生性疾患診断

Revolutionizing Disease Diagnosis with simultaneous functional PET/MR and Deeply Integrated Brain Metabolic, Hemodynamic, and Perfusion Networks ( http://arxiv.org/abs/2403.20058v1 )

ライセンス: Link先を確認
Luoyu Wang, Yitian Tao, Qing Yang, Yan Liang, Siwei Liu, Hongcheng Shi, Dinggang Shen, Han Zhang, (参考訳) 同時機能PET/MR(sf-PET/MR)は、最先端のマルチモーダル・ニューロイメージング技術を示す。 これは、時空間的に共有された代謝活性、神経活動、脳血流(灌流)によって構築された多面脳ネットワークを同時に監視し統合する前例のない機会を提供する。 PET/MRのハードウェアアクセシビリティが不足しているにもかかわらず、科学的/臨床的な価値は、現代のAIベースのPET/MR融合モデルだけでなく、その応用を妨げる。 本研究の目的は, 単調入力(例, PETのみ)を可能とし, マルチモーダルベース精度を向上すると共に, インジェクション中の総合的なsf-PET/MRデータに基づいて訓練された, 臨床的に実現可能なAIベースの疾患診断モデルを開発することである。 そこで本研究では,マルチモーダルなMiXture-of-expertsアライメント・コンストラクションモデルであるMX-ARMを提案する。 モダリティは分離可能で交換可能であり、異なる多層パーセプトロン(「専門家の混合」)を学習可能な重みを通して動的に割り当て、異なるモダリティからそれぞれの表現を学ぶ。 このような設計は、ユニモーダルな状況下でのモデルパフォーマンスを犠牲にしません。 一様性推論の微細な表現を生成しながら、モダリティの固有の複素および非線形関係を完全に活用するために、その後、補助モダリティ(MR)の表現に支配的なモダリティ(eg, PET)をラインアップするモダリティアライメントモジュールを追加する。 また,学習特徴の質を高めるため,マルチモーダルな再構築も実施している。 軽度認知障害診断のための貴重なマルチモーダルsf-PET/MRデータを用いた実験は,本モデルが臨床的に実現可能な精度医療に有効であることを示す。

Simultaneous functional PET/MR (sf-PET/MR) presents a cutting-edge multimodal neuroimaging technique. It provides an unprecedented opportunity for concurrently monitoring and integrating multifaceted brain networks built by spatiotemporally covaried metabolic activity, neural activity, and cerebral blood flow (perfusion). Albeit high scientific/clinical values, short in hardware accessibility of PET/MR hinders its applications, let alone modern AI-based PET/MR fusion models. Our objective is to develop a clinically feasible AI-based disease diagnosis model trained on comprehensive sf-PET/MR data with the power of, during inferencing, allowing single modality input (e.g., PET only) as well as enforcing multimodal-based accuracy. To this end, we propose MX-ARM, a multimodal MiXture-of-experts Alignment and Reconstruction Model. It is modality detachable and exchangeable, allocating different multi-layer perceptrons dynamically ("mixture of experts") through learnable weights to learn respective representations from different modalities. Such design will not sacrifice model performance in uni-modal situation. To fully exploit the inherent complex and nonlinear relation among modalities while producing fine-grained representations for uni-modal inference, we subsequently add a modal alignment module to line up a dominant modality (e.g., PET) with representations of auxiliary modalities (MR). We further adopt multimodal reconstruction to promote the quality of learned features. Experiments on precious multimodal sf-PET/MR data for Mild Cognitive Impairment diagnosis showcase the efficacy of our model toward clinically feasible precision medicine.
翻訳日:2024-04-01 16:04:00 公開日:2024-03-29
# 代替操作に対する最適sボックス

Optimal s-boxes against alternative operations ( http://arxiv.org/abs/2403.20059v1 )

ライセンス: Link先を確認
Marco Calderini, Roberto Civino, Riccardo Invernizzi, (参考訳) Civinoらは、メッセージ空間上の翻訳グループに同型なグループから来る代替操作を利用する際に、差分暗号解析の脆弱性にSPNを露出する拡散層を特徴付けている。 本研究では,4ビットのs-boxを持つ暗号に対して,並列な代替操作において線形性を示す拡散層を分類し,ブロック内のすべてのs-boxを同時に対象とする別の差分攻撃が可能となることを示す。 さらに、Leander and Poschmann (2007) によって定義された最適4ビットs-ボックスの全クラスに対する代替演算に対する微分挙動について検討する。 本研究は,あるクラスが弱い置換を含むことを明らかにし,これらの脆弱性を活用して一連の実験を行う。

Civino et al. have characterised diffusion layers that expose an SPN to vulnerability from differential cryptanalysis when employing alternative operations coming from groups isomorphic to the translation group on the message space. In this study, we present a classification of diffusion layers that exhibit linearity in parallel alternative operations for ciphers with 4-bit s-boxes, enabling the possibility of an alternative differential attack simultaneously targeting all the s-boxes within the block. Furthermore, we investigate the differential behaviour with respect to alternative operations for all classes of optimal 4-bit s-boxes, as defined by Leander and Poschmann (2007). Our examination reveals that certain classes contain weak permutations w.r.t. alternative differential attacks, and we leverage these vulnerabilities to execute a series of experiments.
翻訳日:2024-04-01 16:04:00 公開日:2024-03-29
# 非可逆対称性は量子演算によって局所的に作用する

Non-invertible symmetries act locally by quantum operations ( http://arxiv.org/abs/2403.20062v1 )

ライセンス: Link先を確認
Masaki Okada, Yuji Tachikawa, (参考訳) 場の量子論と多体系の非可逆対称性は、群によって記述されるより通常の可逆なものに加えて、非可逆な操作を許容することによって対称性の概念を一般化する。 本研究の目的は、これらの非可逆対称性が量子演算によって局所作用素に作用する、すなわち密度行列間の正の正の写像であり、ユニタリ進化と測定の両方を含む自然な演算のクラスを形成し、量子情報理論において重要な役割を果たすことを指摘することである。 この観察は、一次元量子イジング鎖のクラマース-ワニエ双対性(英語版)(Kramers-Wannier duality)によって説明される。

Non-invertible symmetries of quantum field theories and many-body systems generalize the concept of symmetries by allowing non-invertible operations in addition to more ordinary invertible ones described by groups. The aim of this paper is to point out that these non-invertible symmetries act on local operators by quantum operations, i.e. completely positive maps between density matrices, which form a natural class of operations containing both unitary evolutions and measurements and play an important role in quantum information theory. This observation will be illustrated by the Kramers--Wannier duality of the one-dimensional quantum Ising chain, which is a prototypical example of non-invertible symmetry operations.
翻訳日:2024-04-01 16:04:00 公開日:2024-03-29
# エネルギー・遅延制約無線ネットワークにおける適応分散型フェデレーション学習

Adaptive Decentralized Federated Learning in Energy and Latency Constrained Wireless Networks ( http://arxiv.org/abs/2403.20075v1 )

ライセンス: Link先を確認
Zhigang Yan, Dong Li, (参考訳) 中央ノードで集約されたパラメータを持つフェデレートラーニング(FL)では、通信オーバーヘッドがかなり懸念される。 この制限を回避し、FLフレームワーク内の単一障害点を軽減するために、最近の研究では、分散フェデレートラーニング(DFL)を実行可能な代替手段として導入している。 本稿では,パラメータアグリゲーションに伴うデバイスの不均一性とエネルギーコストを考慮し,モデル性能を向上させるために利用可能な限られた資源を効率的に活用する方法について検討する。 具体的には、エネルギーと遅延の制約を考慮して、DFLの損失関数を最小化する問題を定式化する。 提案するソリューションでは,リソース予算の異なるさまざまなデバイスを対象としたローカルトレーニングラウンドの数を最適化する。 そこで我々はまず,DFLとエッジデバイスとの収束を局所的な学習の異なるラウンドで解析する。 導出収束境界は、局所訓練のラウンドがモデル性能に与える影響を明らかにする。 そして、導出境界に基づいて、異なる装置における局所訓練のラウンドの閉形式解を求める。 一方, 解法は, できるだけ低エネルギー化のエネルギーコストを必要とするため, 異なる通信シナリオに適用可能な, このエネルギー消費最小化問題を解決するために, グラフベースのアグリゲーションスキームを改良する。 最後に,局所訓練の最適化ラウンドと省エネアグリゲーションスキームを共同で検討したDFLフレームワークを提案する。 シミュレーションの結果,提案アルゴリズムは局所学習の固定ラウンド方式よりも優れた性能を示し,従来のアグリゲーション方式よりも少ないエネルギーを消費することがわかった。

In Federated Learning (FL), with parameter aggregated by a central node, the communication overhead is a substantial concern. To circumvent this limitation and alleviate the single point of failure within the FL framework, recent studies have introduced Decentralized Federated Learning (DFL) as a viable alternative. Considering the device heterogeneity, and energy cost associated with parameter aggregation, in this paper, the problem on how to efficiently leverage the limited resources available to enhance the model performance is investigated. Specifically, we formulate a problem that minimizes the loss function of DFL while considering energy and latency constraints. The proposed solution involves optimizing the number of local training rounds across diverse devices with varying resource budgets. To make this problem tractable, we first analyze the convergence of DFL with edge devices with different rounds of local training. The derived convergence bound reveals the impact of the rounds of local training on the model performance. Then, based on the derived bound, the closed-form solutions of rounds of local training in different devices are obtained. Meanwhile, since the solutions require the energy cost of aggregation as low as possible, we modify different graph-based aggregation schemes to solve this energy consumption minimization problem, which can be applied to different communication scenarios. Finally, a DFL framework which jointly considers the optimized rounds of local training and the energy-saving aggregation scheme is proposed. Simulation results show that, the proposed algorithm achieves a better performance than the conventional schemes with fixed rounds of local training, and consumes less energy than other traditional aggregation schemes.
翻訳日:2024-04-01 16:04:00 公開日:2024-03-29
# 事前学習型視覚言語モデルを用いた負ラベル誘導OOD検出

Negative Label Guided OOD Detection with Pretrained Vision-Language Models ( http://arxiv.org/abs/2403.20078v1 )

ライセンス: Link先を確認
Xue Jiang, Feng Liu, Zhen Fang, Hong Chen, Tongliang Liu, Feng Zheng, Bo Han, (参考訳) アウト・オブ・ディストリビューション(OOD)検出は、未知のクラスからのサンプルを識別することを目的としており、予期しない入力に対するエラーに対して信頼できるモデルにおいて重要な役割を果たす。 広汎な研究は、視力モダリティにおけるOOD検出の探索に費やされている。 視覚言語モデル(VLM)は、様々なマルチモーダルアプリケーションにおいて、テキスト情報と視覚情報の両方を利用することができるが、テキストモダリティからの情報を考慮に入れているOOD検出手法はほとんどない。 本稿では,大規模なコーパスデータベースから大量の負ラベルを抽出する,NegLabelと呼ばれるポストホックOOD検出手法を提案する。 我々は,OODスコアを負のラベルで協調する新しいスキームを設計する。 理論的分析は、負のラベルのメカニズムを理解するのに役立つ。 大規模な実験により,本手法は様々なOOD検出ベンチマークにおける最先端性能を実現し,複数のVLMアーキテクチャ上での一般化を実現している。 さらに,NegLabel法は多様なドメインシフトに対して顕著な堅牢性を示す。 コードはhttps://github.com/tmlr-group/NegLabel.comで公開されている。

Out-of-distribution (OOD) detection aims at identifying samples from unknown classes, playing a crucial role in trustworthy models against errors on unexpected inputs. Extensive research has been dedicated to exploring OOD detection in the vision modality. Vision-language models (VLMs) can leverage both textual and visual information for various multi-modal applications, whereas few OOD detection methods take into account information from the text modality. In this paper, we propose a novel post hoc OOD detection method, called NegLabel, which takes a vast number of negative labels from extensive corpus databases. We design a novel scheme for the OOD score collaborated with negative labels. Theoretical analysis helps to understand the mechanism of negative labels. Extensive experiments demonstrate that our method NegLabel achieves state-of-the-art performance on various OOD detection benchmarks and generalizes well on multiple VLM architectures. Furthermore, our method NegLabel exhibits remarkable robustness against diverse domain shifts. The codes are available at https://github.com/tmlr-group/NegLabel.
翻訳日:2024-04-01 16:04:00 公開日:2024-03-29
# SGD:ガウススプラッティングと拡散先行によるストリートビューの合成

SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior ( http://arxiv.org/abs/2403.20079v1 )

ライセンス: Link先を確認
Zhongrui Yu, Haoran Wang, Jinze Yang, Hanzhang Wang, Zeke Xie, Yunfeng Cai, Jiale Cao, Zhong Ji, Mingming Sun, (参考訳) ストリートシーンのための新しいビュー合成(NVS)は、自動運転シミュレーションにおいて重要な役割を果たす。 現在では、Neural Radiance Fields(NeRF)や3D Gaussian Splatting(3DGS)などのニューラルレンダリングが主流となっている。 ストリートシーンを扱う場合、現在の手法は、トレーニングの観点から大きく逸脱した視点でレンダリング品質を維持するのに苦労している。 この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。 そこで本研究では,拡散モデルと相補的なマルチモーダルデータとの相補性を利用して,3DGSのキャパシティを向上する手法を提案する。 具体的には、隣接するフレームから画像を条件として追加し、一方、LiDAR点雲からの深度データを利用して空間情報を付加することで拡散モデルを微調整する。 次に、ディフュージョンモデルを用いて、トレーニング中に見えない視点で3DGSを正規化する。 実験により,現在の最先端モデルと比較して,提案手法の有効性を検証し,より広い視点からの画像のレンダリングの進歩を実証した。

Novel View Synthesis (NVS) for street scenes play a critical role in the autonomous driving simulation. The current mainstream technique to achieve it is neural rendering, such as Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS). Although thrilling progress has been made, when handling street scenes, current methods struggle to maintain rendering quality at the viewpoint that deviates significantly from the training viewpoints. This issue stems from the sparse training views captured by a fixed camera on a moving vehicle. To tackle this problem, we propose a novel approach that enhances the capacity of 3DGS by leveraging prior from a Diffusion Model along with complementary multi-modal data. Specifically, we first fine-tune a Diffusion Model by adding images from adjacent frames as condition, meanwhile exploiting depth data from LiDAR point clouds to supply additional spatial information. Then we apply the Diffusion Model to regularize the 3DGS at unseen views during training. Experimental results validate the effectiveness of our method compared with current state-of-the-art models, and demonstrate its advance in rendering images from broader views.
翻訳日:2024-04-01 16:04:00 公開日:2024-03-29
# 低ランク適応器を用いた視覚基礎モデルからの混合精度スーパーネットトレーニング

Mixed-precision Supernet Training from Vision Foundation Models using Low Rank Adapter ( http://arxiv.org/abs/2403.20080v1 )

ライセンス: Link先を確認
Yuiko Sakuma, Masakazu Yoshimura, Junji Otsuka, Atsushi Irie, Takeshi Ohashi, (参考訳) 大規模かつ高性能な視覚基盤モデル(VFM)を任意のビット演算(BitOP)に圧縮することで、様々なハードウェアへの展開が可能になる。 混合精度量子化スーパーネットにVFMを微調整することを提案する。 この目的のために、スーパーネットベースのニューラルアーキテクチャサーチ(NAS)を採用することができ、スーパーネットをトレーニングし、任意のハードウェア予算内でサブネットを抽出することができる。 しかし、既存の手法では、混合精度探索空間の最適化と、トレーニング中に大きなメモリコストが発生するという困難に直面している。 これらの課題に対処するために、まず、各演算子(解像度、特徴サイズ、幅、深さ、ビット幅など)を、性能およびビットOP削減の観点から比較することにより、VFMを微調整するための効率的な検索空間設計について検討する。 次に,ローランクアダプタ(LoRA)とプログレッシブトレーニング戦略を用いたメモリ効率の高いスーパーネットトレーニングを提案する。 提案手法は,最近提案された VFM, Segment Anything Model に対して, セグメンテーションタスクを微調整して評価する。 探索されたモデルでは、パフォーマンス劣化を招くことなく、約95%のBitOPが減少する。

Compression of large and performant vision foundation models (VFMs) into arbitrary bit-wise operations (BitOPs) allows their deployment on various hardware. We propose to fine-tune a VFM to a mixed-precision quantized supernet. The supernet-based neural architecture search (NAS) can be adopted for this purpose, which trains a supernet, and then subnets within arbitrary hardware budgets can be extracted. However, existing methods face difficulties in optimizing the mixed-precision search space and incurring large memory costs during training. To tackle these challenges, first, we study the effective search space design for fine-tuning a VFM by comparing different operators (such as resolution, feature size, width, depth, and bit-widths) in terms of performance and BitOPs reduction. Second, we propose memory-efficient supernet training using a low-rank adapter (LoRA) and a progressive training strategy. The proposed method is evaluated for the recently proposed VFM, Segment Anything Model, fine-tuned on segmentation tasks. The searched model yields about a 95% reduction in BitOPs without incurring performance degradation.
翻訳日:2024-04-01 16:04:00 公開日:2024-03-29
# ベンガル文字のIPA転写

IPA Transcription of Bengali Texts ( http://arxiv.org/abs/2403.20084v1 )

ライセンス: Link先を確認
Kanij Fatema, Fazle Dawood Haider, Nirzona Ferdousi Turpa, Tanveer Azmal, Sourav Ahmed, Navid Hasan, Mohammad Akhlaqur Rahman, Biplab Kumar Sarkar, Afrar Jahin, Md. Rezuwan Hassan, Md Foriduzzaman Zihad, Rubayet Sabbir Faruque, Asif Sushmit, Mashrur Imtiaz, Farig Sadeque, Syed Shahrier Rahman, (参考訳) 国際音声アルファベット(IPA)は、音素を言語で体系化し、発音の正確なテキスト表現を可能にする。 ベンガル音韻学と音声学では、IPA標準とベンガル中核音素に関する学術的な議論が続いている。 本研究は、先行研究を検証し、現在および潜在的な問題を特定し、言語分析とNLP資源創出と下流技術開発を促進するベンガルIPA標準の枠組みを提案する。 本稿では,Bengali IPA転写の包括的研究を行い,DLベースのベンチマークを用いた新しいデータセットを組み込んだ新しいIPA転写フレームワークを提案する。

The International Phonetic Alphabet (IPA) serves to systematize phonemes in language, enabling precise textual representation of pronunciation. In Bengali phonology and phonetics, ongoing scholarly deliberations persist concerning the IPA standard and core Bengali phonemes. This work examines prior research, identifies current and potential issues, and suggests a framework for a Bengali IPA standard, facilitating linguistic analysis and NLP resource creation and downstream technology development. In this work, we present a comprehensive study of Bengali IPA transcription and introduce a novel IPA transcription framework incorporating a novel dataset with DL-based benchmarks.
翻訳日:2024-04-01 16:04:00 公開日:2024-03-29
# 連続学習のための選択的注意に基づく変調

Selective Attention-based Modulation for Continual Learning ( http://arxiv.org/abs/2403.20086v1 )

ライセンス: Link先を確認
Giovanni Bellitto, Federica Proietto Salanitri, Matteo Pennisi, Matteo Boschini, Angelo Porrello, Simone Calderara, Simone Palazzo, Concetto Spampinato, (参考訳) 本稿では,生物学的に評価可能な注意誘導変調手法SAMについて,連続的な学習環境における分類モデルの向上について述べる。 一次視覚野は分類のための対象多様体に寄与せず、初期注意バイアスが現代脳にまだ埋め込まれているという神経生理学的証拠に着想を得て、修飾信号として補助唾液濃度予測機能を用いて、非I.D.分類タスクの列の学習を駆動し、安定化させることを提案する。 実験の結果,SAMはクラス増分とタスク増分の両方において,最先端の継続的学習手法の性能(最大20%)を効果的に向上させることが確認された。 さらに,注意に基づく変調は,突発的特徴の存在や,ベースライン法よりも敵攻撃に強い特徴の学習を促進することが示唆された。 コードは、https://github.com/perceivelab/SAM.comで入手できる。

We present SAM, a biologically-plausible selective attention-driven modulation approach to enhance classification models in a continual learning setting. Inspired by neurophysiological evidence that the primary visual cortex does not contribute to object manifold untangling for categorization and that primordial attention biases are still embedded in the modern brain, we propose to employ auxiliary saliency prediction features as a modulation signal to drive and stabilize the learning of a sequence of non-i.i.d. classification tasks. Experimental results confirm that SAM effectively enhances the performance (in some cases up to about twenty percent points) of state-of-the-art continual learning methods, both in class-incremental and task-incremental settings. Moreover, we show that attention-based modulation successfully encourages the learning of features that are more robust to the presence of spurious features and to adversarial attacks than baseline methods. Code is available at: https://github.com/perceivelab/SAM.
翻訳日:2024-04-01 16:04:00 公開日:2024-03-29
# 月を観測しない:太陽ニュートリノアラゴ点による軌道離間の可能性

Unobserving the Moon: the spurious possibility of orbital decoupling due to solar neutrino Arago spot ( http://arxiv.org/abs/2403.20087v1 )

ライセンス: Link先を確認
Henrik Viitasaari, Oskari Färdig, Joona H. Siljander, A. Petrus Väisänen, Aapo S. Harju, Antti V. Nurminen, Jami J. Kinnunen, (参考訳) アラゴスポット(英: Arago spot)は、球状物体の周りの回折波の構成的干渉によって生じる影の中心における最大強度である。 回折パターンの研究は通常可視光に関するものであるが、デ・ブログリの波動特性はニュートリノのような粒子にも回折理論を適用している。 太陽の日食の間、太陽から放出されるニュートリノのいくつかは月によって回折され、地球上で観測できる回折パターンをもたらす。 本稿では、理論上出現する太陽ニュートリノのアラゴスポットを、高精度で月の位置を測定する手段とみなし、ハイゼンベルクの不確実性原理を考慮し、月の軌道にその意味を考察する。 この結果から、太陽ニュートリノアラゴ点の観測により、月はすぐに軌道離間するリスクはないことが示唆された。

The Arago spot is an intensity maximum at the center of a shadow created by constructive interference of diffracted waves around a spherical object. While the study of diffraction patterns usually concerns visible light, de Broglie's wave nature of matter makes diffraction theory applicable for particles, such as neutrinos, as well. During a solar eclipse, some of the neutrinos emitted by the Sun are diffracted by the Moon, resulting in a diffraction pattern that can be observed on Earth. In this paper we consider the theoretically emerging solar neutrino Arago spot as a means to measure the location of the Moon with high accuracy and consider its implication on the orbit of the Moon given Heisenberg's uncertainty principle. Our results indicate that the Moon is not at immediate risk of orbital decoupling due to the observation of a solar neutrino Arago spot.
翻訳日:2024-04-01 16:04:00 公開日:2024-03-29
# 多言語言語モデルにおける言語間移動の効率的な学習法

An Efficient Approach for Studying Cross-Lingual Transfer in Multilingual Language Models ( http://arxiv.org/abs/2403.20088v1 )

ライセンス: Link先を確認
Fahim Faisal, Antonios Anastasopoulos, (参考訳) ゼロショット多言語移動のための事前学習型多言語モデル(MLM)の能力と有効性はよく確立されている。 しかし、特に多言語LMの複雑な設定においては、正あるいは負の移動現象や言語選択の影響が完全に理解される必要がある。 本稿では,他の対象言語に対するゼロショット性能における転送言語の影響を研究するために,‘textit{efficient} 法を提案する。 従来の作業とは異なり、我々のアプローチは専用のアダプタユニットを使用して、下流のタスクを言語から切り離す。 以上の結果から,一部の言語は他言語に大きく影響していないことが示唆された。 すべてのターゲット言語にトランスファー言語が有益でないことが分かりました。 興味深いことに、MLMがこれまで見ていなかった言語を観察することは、ほぼすべての言語からの移行の恩恵を一貫して受けています。 さらに、モジュール方式を用いて、負の干渉を効率的に定量化し、それに応じて言語を分類する。 さらに,将来的なトランスファーターゲット言語構成のリストも提供します。 コードとデータが公開されている。 https://github.com/ffaisal93/neg_inf

The capacity and effectiveness of pre-trained multilingual models (MLMs) for zero-shot cross-lingual transfer is well established. However, phenomena of positive or negative transfer, and the effect of language choice still need to be fully understood, especially in the complex setting of massively multilingual LMs. We propose an \textit{efficient} method to study transfer language influence in zero-shot performance on another target language. Unlike previous work, our approach disentangles downstream tasks from language, using dedicated adapter units. Our findings suggest that some languages do not largely affect others, while some languages, especially ones unseen during pre-training, can be extremely beneficial or detrimental for different target languages. We find that no transfer language is beneficial for all target languages. We do, curiously, observe languages previously unseen by MLMs consistently benefit from transfer from almost any language. We additionally use our modular approach to quantify negative interference efficiently and categorize languages accordingly. Furthermore, we provide a list of promising transfer-target language configurations that consistently lead to target language performance improvements. Code and data are publicly available: https://github.com/ffaisal93/neg_inf
翻訳日:2024-04-01 16:04:00 公開日:2024-03-29
# 非差別法とアルゴリズムフェアネスにおけるAI法の役割

Implications of the AI Act for Non-Discrimination Law and Algorithmic Fairness ( http://arxiv.org/abs/2403.20089v1 )

ライセンス: Link先を確認
Luca Deck, Jan-Laurin Müller, Conradin Braun, Domenique Zipperling, Niklas Kühl, (参考訳) FATE(Fairness, Accountability, Transparency, Ethics in AI)コミュニティで議論されているように、AIの公平性というトピックは、ここ数年で有意義な議論を引き起こしている。 しかし、法的な観点から、特に欧州連合の法律では、多くのオープンな疑問が残る。 アルゴリズム的公正性は、設計レベルでの構造的不平等を軽減することを目的としているが、欧州の非差別法は、AIモデルがデプロイされた後、個別の差別ケースに適合している。 AI法は、非差別的な責任をAIモデルの設計段階に移すことで、これらの2つの概念をブリッジする大きな一歩を示すかもしれない。 AI法を総合的に読み取ることにより、法と技術執行の問題にコメントし、特定の技術的要件を特定し、遵守するためにバイアス検出とバイアス補正に実践的な影響を提案する。

The topic of fairness in AI, as debated in the FATE (Fairness, Accountability, Transparency, and Ethics in AI) communities, has sparked meaningful discussions in the past years. However, from a legal perspective, particularly from European Union law, many open questions remain. Whereas algorithmic fairness aims to mitigate structural inequalities at the design level, European non-discrimination law is tailored to individual cases of discrimination after an AI model has been deployed. The AI Act might present a tremendous step towards bridging these two concepts by shifting non-discrimination responsibilities into the design stage of AI models. Based on an integrative reading of the AI Act, we comment on legal as well as technical enforcement problems and propose practical implications on bias detection and bias correction in order to specify and comply with specific technical requirements.
翻訳日:2024-04-01 16:04:00 公開日:2024-03-29
# マルチウェザーコプレゼンス推定のための気象不確かさのモデル化

Modeling Weather Uncertainty for Multi-weather Co-Presence Estimation ( http://arxiv.org/abs/2403.20092v1 )

ライセンス: Link先を確認
Qi Bi, Shaodi You, Theo Gevers, (参考訳) 屋外のシーンの画像は、様々な気象条件下で撮影することができる。 気象がコンピュータビジョンアルゴリズムの性能に影響を与え、適切に処理する必要があることはよく研究されている。 しかし、既存のアルゴリズムは気象条件を離散的な状態としてモデル化し、マルチラベル分類を用いて推定する。 事実、物理的には、特に気象学において、気象は連続的かつ過渡的な状態としてモデル化されている。 既存のマルチウェザー分類法のようにハードな分類を直接実装するのではなく、マルチウェザー条件の物理的定式化を検討し、物理的パラメータが画像の外観から学習に与える影響をモデル化する。 本稿では、気象の物理的定義と、それを連続機械学習とコンピュータビジョンのタスクとして記述する方法を、よりしっかりと再考することから始める。 すなわち、複数の気象条件の確率と共存のレベルが共に考慮されるような気象の不確実性をモデル化することを提案する。 気象の不確実性をカプセル化するためにガウス混合モデルを用い, 事前学習に基づいて, 不確実性を考慮したマルチウェザー学習手法を提案する。 マルチウェザー共プレゼンス推定変換器(MeFormer)を提案する。 さらに,14の微粒な気象カテゴリと16,078のサンプルとともに,新しいマルチウェザーコプレゼンス推定(MePe)データセットを提案し,従来のマルチラベル気象分類タスクとマルチウェザーコプレゼンス推定タスクの両方をベンチマークした。 大規模実験により,提案手法は,従来のマルチラベル気象分類タスクと,提案したマルチウェザー共同プレゼンス推定タスクの両方において,最先端の性能と実質的な一般化能力を実現することが示された。 さらに、気象の不確実性のモデル化は、悪天候のセマンティックセグメンテーションにも効果がある。

Images from outdoor scenes may be taken under various weather conditions. It is well studied that weather impacts the performance of computer vision algorithms and needs to be handled properly. However, existing algorithms model weather condition as a discrete status and estimate it using multi-label classification. The fact is that, physically, specifically in meteorology, weather are modeled as a continuous and transitional status. Instead of directly implementing hard classification as existing multi-weather classification methods do, we consider the physical formulation of multi-weather conditions and model the impact of physical-related parameter on learning from the image appearance. In this paper, we start with solid revisit of the physics definition of weather and how it can be described as a continuous machine learning and computer vision task. Namely, we propose to model the weather uncertainty, where the level of probability and co-existence of multiple weather conditions are both considered. A Gaussian mixture model is used to encapsulate the weather uncertainty and a uncertainty-aware multi-weather learning scheme is proposed based on prior-posterior learning. A novel multi-weather co-presence estimation transformer (MeFormer) is proposed. In addition, a new multi-weather co-presence estimation (MePe) dataset, along with 14 fine-grained weather categories and 16,078 samples, is proposed to benchmark both conventional multi-label weather classification task and multi-weather co-presence estimation task. Large scale experiments show that the proposed method achieves state-of-the-art performance and substantial generalization capabilities on both the conventional multi-label weather classification task and the proposed multi-weather co-presence estimation task. Besides, modeling weather uncertainty also benefits adverse-weather semantic segmentation.
翻訳日:2024-04-01 16:04:00 公開日:2024-03-29
# 1原子メーザーの量子軌道

Quantum trajectory of the one atom maser ( http://arxiv.org/abs/2403.20094v1 )

ライセンス: Link先を確認
Tristan Benoist, Laurent Bruneau, Clément Pellegrini, (参考訳) 間接的測定を繰り返している量子系の進化は、自然に量子軌道と呼ばれる状態の集合上のマルコフ連鎖に繋がる。 本稿では,1原子メーザモデルに付随する量子軌道の特定のモデルについて考察する。 これは、2レベル原子と相互作用するキャビティにおける量子化された電磁場の1つのモードの進化を記述する。 系が非共鳴であるとき、このマルコフ連鎖が一意な不変確率測度を持つことを証明する。 さらに、ワッサーシュタイン計量の収束をこの不変測度に対して証明する。 これらの結果は純粋化定理に依存しており、ほぼ確実に系の状態は純粋状態の集合に近づく。 文献における同様の結果と比較すると、ここで考慮されたシステムは無限次元である。 不変測度の存在は有限次元における状態の集合のコンパクト性の結果であるが、不変測度の存在は自由ではない。 さらに、有限次元における通常の浄化基準は、無限次元において直接同値ではない。

The evolution of a quantum system undergoing repeated indirect measurements naturally leads to a Markov chain on the set of states which is called a quantum trajectory. In this paper we consider a specific model of such a quantum trajectory associated to the one-atom maser model. It describes the evolution of one mode of the quantized electromagnetic field in a cavity interacting with two-level atoms. When the system is non-resonant we prove that this Markov chain admits a unique invariant probability measure. We moreover prove convergence in the Wasserstein metric towards this invariant measure. These results rely on a purification theorem: almost surely the state of the system approaches the set of pure states. Compared to similar results in the literature, the system considered here is infinite dimensional. While existence of an invariant measure is a consequence of the compactness of the set of states in finite dimension, in infinite dimension existence of an invariant measure is not free. Furthermore usual purification criterions in finite dimension have no straightforward equivalent in infinite dimension.
翻訳日:2024-04-01 15:54:04 公開日:2024-03-29
# 散逸性空洞への結合による原子相関のダイナミクスの制御

Controlling the dynamics of atomic correlations via the coupling to a dissipative cavity ( http://arxiv.org/abs/2403.20096v1 )

ライセンス: Link先を確認
Catalin-Mihai Halati, Ameneh Sheikhan, Giovanna Morigi, Corinna Kollath, (参考訳) 本稿では、量子クエンチ後に共振器に結合した相互作用するボゾンガス中のコヒーレンスの周期的振動の開始について報告する。 この力学は、光学格子中の原子相関の崩壊と回復特性を散逸シナリオに拡張し、同期の目印を示す。 この挙動は、空洞場の量子散逸性の性質と、散逸系における(近似的な)強い対称性の存在の相互作用から生じ、量子力学を探求するエンジニアのための一般的なレシピを提供する。 さらに, 自己組織化中に近似対称性が動的に出現し, 長期間のコヒーレンスが得られることを示す。

In this Letter, we report the onset of periodic oscillations of coherences in an interacting bosonic gas coupled to a resonator after a quantum quench. This dynamics extends the collapse and revival features of atomic correlations in optical lattices to a dissipative scenario and exhibits hallmarks of synchronization. The behavior emerges from the interplay of the quantum dissipative nature of the cavity field and the presence of a (approximate) strong symmetry in the dissipative system, providing a general recipe to engineer intriguing quantum dynamics. Additionally, we show that the approximate symmetry can arise dynamically during self-organization and can be employed to obtain long-lived coherences.
翻訳日:2024-04-01 15:54:04 公開日:2024-03-29
# ITCMA:計算意識構造に基づく生成エージェント

ITCMA: A Generative Agent Based on a Computational Consciousness Structure ( http://arxiv.org/abs/2403.20097v1 )

ライセンス: Link先を確認
Hanzhong Zhang, Jibin Yin, Haoyang Wang, Ziwei Xiang, (参考訳) 大きな言語モデル(LLM)は、暗黙の命令を理解し、常識的な知識を適用することを必要とするタスクにおいて、依然として課題に直面している。 このようなシナリオでは、LLMは人間レベルのパフォーマンスを達成するために複数の試みを必要とする可能性がある。 本稿では,計算意識構造である内部時間意識機械(ITCM)を紹介する。 さらに,オープンワールド環境における行動生成と推論を支援するITCMベースのエージェント(ITCMA)を提案する。 ITCMAは、エージェントのインタラクションや環境への推論を考慮し、暗黙の指示を理解する能力を高め、常識的な知識を適用する。 Alfworld環境での評価によると、トレーニングされたITCMAは、そのセットで最先端(SOTA)を9%上回っている。 トレーニングされていないITCMAでさえ、そのセット上で96%のタスク完了率が達成され、SOTAよりも5%高い。 四足歩行ロボットを用いた実世界のタスクでは、トレーニングされていないITCMAは85%のタスク完了率を達成する。

Large Language Models (LLMs) still face challenges in tasks requiring understanding implicit instructions and applying common-sense knowledge. In such scenarios, LLMs may require multiple attempts to achieve human-level performance, potentially leading to inaccurate responses or inferences in practical environments, affecting their long-term consistency and behavior. This paper introduces the Internal Time-Consciousness Machine (ITCM), a computational consciousness structure. We further propose the ITCM-based Agent (ITCMA), which supports behavior generation and reasoning in open-world settings. ITCMA enhances LLMs' ability to understand implicit instructions and apply common-sense knowledge by considering agents' interaction and reasoning with the environment. Evaluations in the Alfworld environment show that trained ITCMA outperforms the state-of-the-art (SOTA) by 9% on the seen set. Even untrained ITCMA achieves a 96% task completion rate on the seen set, 5% higher than SOTA, indicating its superiority over traditional intelligent agents in utility and generalization. In real-world tasks with quadruped robots, the untrained ITCMA achieves an 85% task completion rate, which is close to its performance in the unseen set, demonstrating its comparable utility in real-world settings.
翻訳日:2024-04-01 15:54:04 公開日:2024-03-29
# RealKIE: エンタープライズキー情報抽出のための5つの新しいデータセット

RealKIE: Five Novel Datasets for Enterprise Key Information Extraction ( http://arxiv.org/abs/2403.20101v1 )

ライセンス: Link先を確認
Benjamin Townsend, Madison May, Christopher Wells, (参考訳) 企業アプリケーションに重点を置いたキー情報抽出手法の進歩を目的とした,5つの挑戦的データセットのベンチマークであるRealKIEを紹介する。 データセットには、SEC S1 Filings、US Non-disclosure Agreements、UK Charity Reports、FCC Invoices、Resource Contractsなど、さまざまなドキュメントが含まれている。 それぞれの課題は、テキストシリアライゼーションの貧弱さ、長いドキュメントのスパースアノテーション、複雑な表レイアウトである。 これらのデータセットは、投資分析や法的データ処理といった重要な情報抽出タスクの現実的なテスト基盤を提供する。 これらのデータセットの提示に加えて、アノテーションプロセス、文書処理技術、ベースラインモデリングアプローチの詳細な説明を提供する。 この貢献により、実践的な課題に対処できるNLPモデルの開発が促進され、産業固有の問題に適用可能な情報抽出技術のさらなる研究を支援する。 注釈付きデータとOCR出力はhttps://indicodatasolutions.github.io/RealKIE/コードからダウンロードできる。

We introduce RealKIE, a benchmark of five challenging datasets aimed at advancing key information extraction methods, with an emphasis on enterprise applications. The datasets include a diverse range of documents including SEC S1 Filings, US Non-disclosure Agreements, UK Charity Reports, FCC Invoices, and Resource Contracts. Each presents unique challenges: poor text serialization, sparse annotations in long documents, and complex tabular layouts. These datasets provide a realistic testing ground for key information extraction tasks like investment analysis and legal data processing. In addition to presenting these datasets, we offer an in-depth description of the annotation process, document processing techniques, and baseline modeling approaches. This contribution facilitates the development of NLP models capable of handling practical challenges and supports further research into information extraction technologies applicable to industry-specific problems. The annotated data and OCR outputs are available to download at https://indicodatasolutions.github.io/RealKIE/ code to reproduce the baselines will be available shortly.
翻訳日:2024-04-01 15:54:04 公開日:2024-03-29
# ヘイト対策のためのNLP:調査とハウツーガイド

NLP for Counterspeech against Hate: A Survey and How-To Guide ( http://arxiv.org/abs/2403.20103v1 )

ライセンス: Link先を確認
Helena Bonaldi, Yi-Ling Chung, Gavin Abercrombie, Marco Guerini, (参考訳) 近年、オンライン憎しみと戦う最も有望な戦略の1つとしてカウンタースピーチが出現している。 これらの非エスカレーション対応は、ユーザーの言論の自由を保ちながらオンラインでの虐待に取り組み、オンラインおよびオフラインの暴力を減らすことに明確な影響を与える可能性がある。 近年、自然言語処理(NLP)コミュニティが、手作業による膨大な負担を軽減するために、分析、収集、分類、自動生成といった課題に対処する関心が高まっている。 特に、研究者はこれらの課題に対処するために異なる方向を採っており、様々な関連するタスクやリソースを提供している。 本稿では,このトピックについてNLP研究から学ぶことができるベストプラクティスを,詳細な例で説明することによって,対音声の研究を行うためのガイドを提供する。 最後に,NLPにおける対音声研究の課題と今後の方向性について論じる。

In recent years, counterspeech has emerged as one of the most promising strategies to fight online hate. These non-escalatory responses tackle online abuse while preserving the freedom of speech of the users, and can have a tangible impact in reducing online and offline violence. Recently, there has been growing interest from the Natural Language Processing (NLP) community in addressing the challenges of analysing, collecting, classifying, and automatically generating counterspeech, to reduce the huge burden of manually producing it. In particular, researchers have taken different directions in addressing these challenges, thus providing a variety of related tasks and resources. In this paper, we provide a guide for doing research on counterspeech, by describing - with detailed examples - the steps to undertake, and providing best practices that can be learnt from the NLP studies on this topic. Finally, we discuss open challenges and future directions of counterspeech research in NLP.
翻訳日:2024-04-01 15:54:04 公開日:2024-03-29
# FreeSeg-Diff:拡散モデルによる学習自由な開語彙セグメンテーション

FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models ( http://arxiv.org/abs/2403.20105v1 )

ライセンス: Link先を確認
Barbara Toniella Corradini, Mustafa Shukor, Paul Couairon, Guillaume Couairon, Franco Scarselli, Matthieu Cord, (参考訳) ファンデーションモデルは、多くのドメインやタスクに取り組む上で、前例のない能力を示してきた。 CLIPのようなモデルは、現在、クロスモーダル表現のブリッジに広く使われており、テキスト・ツー・イメージ拡散モデルは、現実的な画像生成における主要なモデルであることは間違いない。 画像生成モデルは、強力な内部空間表現を提供する巨大なデータセットに基づいて訓練される。 本研究では,画像生成,特に高密度な視覚的予測タスクにおいて,このような表現の潜在的な利点について検討する。 画像のセグメンテーションは、従来、ピクセルレベルのアノテーションを用いて、クローズドボキャブラリデータセットのトレーニングモデルによって解決されてきた。 アノテーションのコストや大規模な拡散モデルのトレーニングを避けるため、セットアップをゼロショットでトレーニング不要にすることを制約します。 簡単に言うと、私たちのパイプラインは、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用しています。 画像はキャプタモデル(BLIP)と拡散モデル(安定拡散モデル)の両方に渡され、それぞれテキスト記述と視覚表現を生成する。 これらの特徴はクラスタ化され、2項化され、各オブジェクトのクラス非依存マスクを取得する。 これらのマスクは、オープン語彙をサポートするためにCLIPモデルを使用して、テキストクラスにマップされる。 最後に、より精密なセグメンテーションマスクを得るための洗練されたステップを追加します。 当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。 さらに、近年の弱い教師付きセグメンテーション手法と比較して、非常に競争力のある結果を示す。 我々は,他の事前学習モデルと比較して拡散モデルの特徴が優れていることを示す包括的実験を行った。 プロジェクトページ: https://bcorrad.github.io/freesegdiff/

Foundation models have exhibited unprecedented capabilities in tackling many domains and tasks. Models such as CLIP are currently widely used to bridge cross-modal representations, and text-to-image diffusion models are arguably the leading models in terms of realistic image generation. Image generative models are trained on massive datasets that provide them with powerful internal spatial representations. In this work, we explore the potential benefits of such representations, beyond image generation, in particular, for dense visual prediction tasks. We focus on the task of image segmentation, which is traditionally solved by training models on closed-vocabulary datasets, with pixel-level annotations. To avoid the annotation cost or training large diffusion models, we constraint our setup to be zero-shot and training-free. In a nutshell, our pipeline leverages different and relatively small-sized, open-source foundation models for zero-shot open-vocabulary segmentation. The pipeline is as follows: the image is passed to both a captioner model (i.e. BLIP) and a diffusion model (i.e., Stable Diffusion Model) to generate a text description and visual representation, respectively. The features are clustered and binarized to obtain class agnostic masks for each object. These masks are then mapped to a textual class, using the CLIP model to support open-vocabulary. Finally, we add a refinement step that allows to obtain a more precise segmentation mask. Our approach (dubbed FreeSeg-Diff), which does not rely on any training, outperforms many training-based approaches on both Pascal VOC and COCO datasets. In addition, we show very competitive results compared to the recent weakly-supervised segmentation approaches. We provide comprehensive experiments showing the superiority of diffusion model features compared to other pretrained models. Project page: https://bcorrad.github.io/freesegdiff/
翻訳日:2024-04-01 15:54:04 公開日:2024-03-29
# 効率的な画像分解のための選択状態空間モデルによる局所的・大域的特徴の集約

Aggregating Local and Global Features via Selective State Spaces Model for Efficient Image Deblurring ( http://arxiv.org/abs/2403.20106v1 )

ライセンス: Link先を確認
Hu Gao, Depeng Dang, (参考訳) 画像劣化は、対応するぼやけた画像から高品質な画像を復元する過程である。 この分野での重要な進歩は、CNNやTransformerなど、様々な効果的なディープラーニングモデルの出現によって実現されている。 しかし、これらの手法は、長距離のぼかし劣化の摂動を排除し、計算効率を維持するというジレンマに直面し、現実的な応用を妨げている。 この問題に対処するために、選択的な構造化状態空間モデルを利用して、リッチで正確な特徴を集約する効率的な画像デブロアリングネットワークを提案する。 具体的には局所的およびグローバルなブロック(ALGBlock)を設計し、局所的不変性と非局所的情報の両方を捕捉・融合する。 ALGBlockは2つのブロックから構成される: (1) ローカルブロックは、単純化されたチャンネルアテンションを用いたローカル接続をモデル化する。 2) グローバルブロックは, 選択的な構造化状態空間を通して, 線形複雑度を持つ長距離依存性特徴を捕捉する。 しかし,画像の局所的特徴は画像の局所的特徴であり,回復のために2つの枝を集約する際に重みを補正することにより局所的部分の復元をアクセント化する。 実験結果から,提案手法は広く使用されているベンチマークにおける最先端の手法よりも優れており,優れた性能を誇示している。

Image deblurring is a process of restoring a high quality image from the corresponding blurred image. Significant progress in this field has been made possible by the emergence of various effective deep learning models, including CNNs and Transformers. However, these methods often face the dilemma between eliminating long-range blur degradation perturbations and maintaining computational efficiency, which hinders their practical application. To address this issue, we propose an efficient image deblurring network that leverages selective structured state spaces model to aggregate enriched and accurate features. Specifically, we design an aggregate local and global block (ALGBlock) to capture and fuse both local invariant properties and non-local information. The ALGBlock consists of two blocks: (1) The local block models local connectivity using simplified channel attention. (2) The global block captures long-range dependency features with linear complexity through selective structured state spaces. Nevertheless, we note that the image details are local features of images, we accentuate the local part for restoration by recalibrating the weight when aggregating the two branches for recovery. Experimental results demonstrate that the proposed method outperforms state-of-the-art approaches on widely used benchmarks, highlighting its superior performance.
翻訳日:2024-04-01 15:54:04 公開日:2024-03-29
# Mol-AIR: ゴール指向分子生成のための適応型内因性逆流を用いた分子強化学習

Mol-AIR: Molecular Reinforcement Learning with Adaptive Intrinsic Rewards for Goal-directed Molecular Generation ( http://arxiv.org/abs/2403.20109v1 )

ライセンス: Link先を確認
Jinyeong Park, Jaegyoon Ahn, Jonghwan Choi, Jibum Kim, (参考訳) 望ましい性質を持つ分子構造を発見するための最適化技術は、人工知能(AI)に基づく薬物発見において不可欠である。 深層生成モデルと強化学習を組み合わせることは、特定の性質を持つ分子を生成するための効果的な戦略として現れている。 その可能性にもかかわらず、このアプローチは広大な化学空間を探索し、特定の化学的特性を最適化するのに効果がない。 これらの制約を克服するために,適応型固有報酬を用いた強化学習ベースのフレームワークであるMoll-AIRを提案する。 Mol-AIRは、ランダム蒸留ネットワークとカウントベースの戦略を活用することで、履歴ベースと学習ベースの本質的な報酬の両方の長所を活用する。 ベンチマークテストでは、Mol-AIRは、ペナル化LogP、QED、セロコキシブ類似性など、事前の知識を持たない所望の特性を持つ分子を生成する既存のアプローチよりも優れた性能を示す。 モル-AIRは薬物発見の著しい進歩であり、新しい治療法を発見するためのより効率的な道のりを提供すると我々は信じている。

Optimizing techniques for discovering molecular structures with desired properties is crucial in artificial intelligence(AI)-based drug discovery. Combining deep generative models with reinforcement learning has emerged as an effective strategy for generating molecules with specific properties. Despite its potential, this approach is ineffective in exploring the vast chemical space and optimizing particular chemical properties. To overcome these limitations, we present Mol-AIR, a reinforcement learning-based framework using adaptive intrinsic rewards for effective goal-directed molecular generation. Mol-AIR leverages the strengths of both history-based and learning-based intrinsic rewards by exploiting random distillation network and counting-based strategies. In benchmark tests, Mol-AIR demonstrates superior performance over existing approaches in generating molecules with desired properties without any prior knowledge, including penalized LogP, QED, and celecoxib similarity. We believe that Mol-AIR represents a significant advancement in drug discovery, offering a more efficient path to discovering novel therapeutics.
翻訳日:2024-04-01 15:54:04 公開日:2024-03-29
# Human-in-the-Loop Machine Learning を用いた乳癌医療画像の分離・分類・解釈

Segmentation, Classification and Interpretation of Breast Cancer Medical Images using Human-in-the-Loop Machine Learning ( http://arxiv.org/abs/2403.20112v1 )

ライセンス: Link先を確認
David Vázquez-Lema, Eduardo Mosqueira-Rey, Elena Hernández-Pereira, Carlos Fernández-Lozano, Fernando Seara-Romera, Jorge Pombo-Otero, (参考訳) 本稿では,医療領域における機械学習モデルのトレーニングにおけるHuman-in-the-Loop(HITL)戦略の適用について検討する。 この場合、大規模で複雑なデータを扱う際に、人間の専門知識を活用するために、Dr.-in-the-loopアプローチが提案される。 具体的には、乳癌のゲノムデータの統合と全スライドイメージング(WSI)解析について述べる。 病理組織像の分画,癌ゲノムサブタイプに関する分類,そして最後に機械学習の結果の解釈の3つの異なるタスクが開発された。 病理学者の関与は、より優れたセグメンテーションモデルの開発とモデルの説明能力の向上に役立ちましたが、分類結果は準最適であり、このアプローチの限界を強調しました。

This paper explores the application of Human-in-the-Loop (HITL) strategies in training machine learning models in the medical domain. In this case a doctor-in-the-loop approach is proposed to leverage human expertise in dealing with large and complex data. Specifically, the paper deals with the integration of genomic data and Whole Slide Imaging (WSI) analysis of breast cancer. Three different tasks were developed: segmentation of histopathological images, classification of this images regarding the genomic subtype of the cancer and, finally, interpretation of the machine learning results. The involvement of a pathologist helped us to develop a better segmentation model and to enhance the explainatory capabilities of the models, but the classification results were suboptimal, highlighting the limitations of this approach: despite involving human experts, complex domains can still pose challenges, and a HITL approach may not always be effective.
翻訳日:2024-04-01 15:54:04 公開日:2024-03-29
# 無線センサネットワークにおける高効率化とセキュリティのためのプライバシ保護データ集約手法:包括的分析と評価

Privacy-Preserving Data Aggregation Techniques for Enhanced Efficiency and Security in Wireless Sensor Networks: A Comprehensive Analysis and Evaluation ( http://arxiv.org/abs/2403.20120v1 )

ライセンス: Link先を確認
Ayush Rastogi, Harsh Rastogi, Yash Rastogi, Divyansh Dubey, (参考訳) 本稿では,プライバシを維持しつつ,無線センサネットワークのデータ収集を多次元かつ効果的に行う方法を提案する。 提案システムはデータ損失に耐性があり、ローグ基地局や誘拐されたセンサーノードからの連帯攻撃など、アクティブおよびパッシブなプライバシー侵害攻撃に対して安全である。 クラスタサイズに関しては、一貫した通信オーバーヘッドを達成し、大規模なWSNで役立ちます。 通信のオーバーヘッドが一定であるため、提案した戦略は、プライバシ保護だけでなく、通信の複雑さやエネルギーコストの観点からも、従来のプライバシ保護データアグリゲーション方式よりも優れている。

In this paper, we present a multidimensional, highly effective method for aggregating data for wireless sensor networks while maintaining privacy. The suggested system is resistant to data loss and secure against both active and passive privacy compromising attacks, such as the coalition attack from a rogue base station and kidnapped sensor nodes. With regard to cluster size, it achieves consistent communication overhead, which is helpful in large-scale WSNs. Due to its constant size communication overhead, the suggested strategy outperforms the previous privacy-preserving data aggregation scheme not only in terms of privacy preservation but also in terms of communication complexity and energy costs.
翻訳日:2024-04-01 15:54:04 公開日:2024-03-29
# 粒度統計不変量を用いた分類学習

Learning using granularity statistical invariants for classification ( http://arxiv.org/abs/2403.20122v1 )

ライセンス: Link先を確認
Ting-Ting Zhu, Yuan-Hai Shao, Chun-Na Li, Tian Liu, (参考訳) 統計不変量(LUSI)を用いた学習は、弱い収束機構を採用する新しい学習パラダイムであり、より広い範囲の分類問題に適用できる。 しかし、LUSIにおける不変行列の計算コストは、訓練中の大規模データセットに対して高い。 そこで本研究では,LUSIの粒度統計不変量を導入し,粒度統計不変量(LUGSI)を用いた学習という新たな学習パラダイムを開発する。 LUGSIは、期待されるリスクを最小限に抑えるため、強い収束機構と弱い収束機構の両方を採用している。 知る限りでは、粒度統計不変量を構成するのは初めてである。 LUSIと比較すると、この新しい統計不変性の導入には2つの利点がある。 まず、データの構造情報を強化する。 第2に、LUGSIは、クラス間の距離を最大化し、大規模データセット分類問題の実現可能性を実現し、モデル演算のトレーニング速度を大幅に向上することにより、大きな不変行列をより小さな行列に変換する。 実験結果から、LUGSIは一般化能力の向上だけでなく、特に大規模データセットのトレーニング速度の向上も示している。

Learning using statistical invariants (LUSI) is a new learning paradigm, which adopts weak convergence mechanism, and can be applied to a wider range of classification problems. However, the computation cost of invariant matrices in LUSI is high for large-scale datasets during training. To settle this issue, this paper introduces a granularity statistical invariant for LUSI, and develops a new learning paradigm called learning using granularity statistical invariants (LUGSI). LUGSI employs both strong and weak convergence mechanisms, taking a perspective of minimizing expected risk. As far as we know, it is the first time to construct granularity statistical invariants. Compared to LUSI, the introduction of this new statistical invariant brings two advantages. Firstly, it enhances the structural information of the data. Secondly, LUGSI transforms a large invariant matrix into a smaller one by maximizing the distance between classes, achieving feasibility for large-scale datasets classification problems and significantly enhancing the training speed of model operations. Experimental results indicate that LUGSI not only exhibits improved generalization capabilities but also demonstrates faster training speed, particularly for large-scale datasets.
翻訳日:2024-04-01 15:54:04 公開日:2024-03-29
# 代謝性脳血管外科手術における術後成功の分類における機械学習アルゴリズムの応用 : 総合的研究

Application of Machine Learning Algorithms in Classifying Postoperative Success in Metabolic Bariatric Surgery: A Comprehensive Study ( http://arxiv.org/abs/2403.20124v1 )

ライセンス: Link先を確認
José Alberto Benítez-Andrades, Camino Prada-García, Rubén García-Fernández, María D. Ballesteros-Pomar, María-Inmaculada González-Alonso, Antonio Serrano-García, (参考訳) 目的: 代謝性脳血管外科(MBS)は肥満と関連する健康問題を持つ患者に対する重要な介入である。 患者結果の正確な分類と予測は治療戦略の最適化に不可欠である。 本研究は, メタボリック・バリアント手術の文脈で患者を分類し, 異なるモデルと可変型の有効性について考察する。 方法: 73例のデータセットに対して, GaussianNB, ComplementNB, KNN, Decision Tree, RandomOverSamplerを用いたKNN, SMOTEを用いたKNNなどの機械学習モデルを適用した。 このデータセットは,心理学的,社会経済的,分析的変数から構成され,最も効率的な予測モデルを決定するために分析された。 この研究はまた、異なる可変グルーピングとオーバーサンプリング技術の影響についても検討した。 結果: 実験結果から, 最高のモデルでは平均精度が66.7%であった。 KNNとDecision Treeの強化されたバージョンは、RandomOverSamplerやSMOTEといったKNNのバリエーションとともに、最高の結果を得た。 結論: 本研究は, 代謝性肺外科領域で患者を分類するための, 有望な方法を明らかにする。 結果は、適切な変数を選択し、最適な性能を達成するために様々なアプローチを採用することの重要性を浮き彫りにした。 本システムは, 医療従事者の意思決定を支援するツールとしての可能性を持ち, メタボリックバリウム手術の結果の増大を図っている。 これらの知見は,機械学習アルゴリズムを活用した医療改善のための病院と医療機関の今後の連携の土台となった。 さらに、この結果から、より大きなデータセットと慎重なパラメータチューニングで達成可能な改善の余地が示唆されている。

Objectives: Metabolic Bariatric Surgery (MBS) is a critical intervention for patients living with obesity and related health issues. Accurate classification and prediction of patient outcomes are vital for optimizing treatment strategies. This study presents a novel machine learning approach to classify patients in the context of metabolic bariatric surgery, providing insights into the efficacy of different models and variable types. Methods: Various machine learning models, including GaussianNB, ComplementNB, KNN, Decision Tree, KNN with RandomOverSampler, and KNN with SMOTE, were applied to a dataset of 73 patients. The dataset, comprising psychometric, socioeconomic, and analytical variables, was analyzed to determine the most efficient predictive model. The study also explored the impact of different variable groupings and oversampling techniques. Results: Experimental results indicate average accuracy values as high as 66.7% for the best model. Enhanced versions of KNN and Decision Tree, along with variations of KNN such as RandomOverSampler and SMOTE, yielded the best results. Conclusions: The study unveils a promising avenue for classifying patients in the realm of metabolic bariatric surgery. The results underscore the importance of selecting appropriate variables and employing diverse approaches to achieve optimal performance. The developed system holds potential as a tool to assist healthcare professionals in decision-making, thereby enhancing metabolic bariatric surgery outcomes. These findings lay the groundwork for future collaboration between hospitals and healthcare entities to improve patient care through the utilization of machine learning algorithms. Moreover, the findings suggest room for improvement, potentially achievable with a larger dataset and careful parameter tuning.
翻訳日:2024-04-01 15:54:04 公開日:2024-03-29
# ECLIPSE:ビジュアル・プロンプト・チューニングによるパノプティック・セグメンテーションにおける効果的な継続的学習

ECLIPSE: Efficient Continual Learning in Panoptic Segmentation with Visual Prompt Tuning ( http://arxiv.org/abs/2403.20126v1 )

ライセンス: Link先を確認
Beomyoung Kim, Joonsang Yu, Sung Ju Hwang, (参考訳) セグメンテーションとインスタンスセグメンテーションを組み合わせたパノプティックセグメンテーションは、最先端のコンピュータビジョンタスクである。 ディープラーニングモデルの最近の進歩にもかかわらず、現実世界のアプリケーションの動的な性質は継続的な学習を必要とし、モデルは古いもの(破滅的な忘れ物)を忘れずに、時間とともに新しいクラス(塑性)に適応する。 現在の連続セグメンテーション法は、知識蒸留や擬似ラベル法のような蒸留戦略に頼っていることが多いが、これは効果的であるが、結果として訓練の複雑さと計算オーバーヘッドが増大する。 本稿では,Visual Prompt Tuningをベースとした新規かつ効率的なパノプティカルセグメンテーション手法について紹介する。 提案手法では, 基本モデルのパラメータを凍結し, 少量のプロンプト埋め込みのみを微調整し, 破滅的忘れと塑性の両方に対処し, トレーニング可能なパラメータを著しく削減する。 逐次セグメンテーションにおけるエラー伝播やセマンティックドリフトといった固有の課題を軽減するため,クラス間の共通知識を効果的に活用するためのロジット操作を提案する。 ADE20K連続パノプティクスセグメンテーションベンチマークの実験では、ESLIPSEの優位性、特に破滅的な忘れ方に対する頑丈さと合理的な可塑性が示され、新しい最先端技術が達成された。 コードはhttps://github.com/clovaai/ECLIPSEで公開されている。

Panoptic segmentation, combining semantic and instance segmentation, stands as a cutting-edge computer vision task. Despite recent progress with deep learning models, the dynamic nature of real-world applications necessitates continual learning, where models adapt to new classes (plasticity) over time without forgetting old ones (catastrophic forgetting). Current continual segmentation methods often rely on distillation strategies like knowledge distillation and pseudo-labeling, which are effective but result in increased training complexity and computational overhead. In this paper, we introduce a novel and efficient method for continual panoptic segmentation based on Visual Prompt Tuning, dubbed ECLIPSE. Our approach involves freezing the base model parameters and fine-tuning only a small set of prompt embeddings, addressing both catastrophic forgetting and plasticity and significantly reducing the trainable parameters. To mitigate inherent challenges such as error propagation and semantic drift in continual segmentation, we propose logit manipulation to effectively leverage common knowledge across the classes. Experiments on ADE20K continual panoptic segmentation benchmark demonstrate the superiority of ECLIPSE, notably its robustness against catastrophic forgetting and its reasonable plasticity, achieving a new state-of-the-art. The code is available at https://github.com/clovaai/ECLIPSE.
翻訳日:2024-04-01 15:54:04 公開日:2024-03-29
# AI生成テキストのゼロショット検出におけるプロンプトの影響

The Impact of Prompts on Zero-Shot Detection of AI-Generated Text ( http://arxiv.org/abs/2403.20127v1 )

ライセンス: Link先を確認
Kaito Taguchi, Yujie Gu, Kouichi Sakurai, (参考訳) 近年,Large Language Models (LLMs) の発展が著しい。 彼らの実践的応用は広く普及しているが、偽ニュースを発生させ、盗作を犯すといった誤用の可能性は、重大な懸念を招いている。 この問題に対処するため、与えられたテキストが人間生成されているか、AI生成されているかを評価するために検出器が開発された。 中でもゼロショット検出器は、追加のトレーニングデータを必要としない効果的なアプローチであり、しばしば確率ベースである。 チャットベースのアプリケーションでは、ユーザーは一般的にAI生成テキストのプロンプトを入力し、利用する。 しかし、ゼロショット検出器は典型的にはこれらのテキストを分離して分析し、元のプロンプトの影響を無視する。 このアプローチは、テキスト生成フェーズと検出フェーズの間の可能性評価の相違につながる可能性があると考えられる。 これまでのところ、プロンプトの有無がゼロショット検出器の検出精度にどのように影響するかについては、未確認のギャップが残っている。 本稿では,AI生成テキストの検出精度に対するプロンプトの影響を実証的に分析する評価フレームワークを提案する。 我々は、プロンプトを利用するホワイトボックス検出と、プロンプト情報なしで動作するブラックボックス検出の両方を用いて、様々なゼロショット検出器を評価する。 実験の結果,プロンプトが検出精度に与える影響が明らかとなった。 注目すべきは、プロンプトのないブラックボックス検出と比較して、プロンプトを用いたホワイトボックス法は、試験された全ゼロショット検出器で少なくとも0.1ドル以上のAUCの増加を示す。 コードは: \url{https://github.com/kaito25atugich/Detector} で入手できる。

In recent years, there have been significant advancements in the development of Large Language Models (LLMs). While their practical applications are now widespread, their potential for misuse, such as generating fake news and committing plagiarism, has posed significant concerns. To address this issue, detectors have been developed to evaluate whether a given text is human-generated or AI-generated. Among others, zero-shot detectors stand out as effective approaches that do not require additional training data and are often likelihood-based. In chat-based applications, users commonly input prompts and utilize the AI-generated texts. However, zero-shot detectors typically analyze these texts in isolation, neglecting the impact of the original prompts. It is conceivable that this approach may lead to a discrepancy in likelihood assessments between the text generation phase and the detection phase. So far, there remains an unverified gap concerning how the presence or absence of prompts impacts detection accuracy for zero-shot detectors. In this paper, we introduce an evaluative framework to empirically analyze the impact of prompts on the detection accuracy of AI-generated text. We assess various zero-shot detectors using both white-box detection, which leverages the prompt, and black-box detection, which operates without prompt information. Our experiments reveal the significant influence of prompts on detection accuracy. Remarkably, compared with black-box detection without prompts, the white-box methods using prompts demonstrate an increase in AUC of at least $0.1$ across all zero-shot detectors tested. Code is available: \url{https://github.com/kaito25atugich/Detector}.
翻訳日:2024-04-01 15:54:04 公開日:2024-03-29
# 屋外環境におけるWASNを用いた音事象の定位と分類

Sound event localization and classification using WASN in Outdoor Environment ( http://arxiv.org/abs/2403.20130v1 )

ライセンス: Link先を確認
Dongzhe Zhang, Jianfeng Chen, Jisheng Bai, Mou Wang, (参考訳) 深層学習に基づく音響イベントの局所化と分類は、無線音響センサネットワークにおける新たな研究領域である。 しかし、現在の音声イベントのローカライゼーションと分類法は、通常は単一のマイクロホンアレイに依存しており、信号減衰や環境騒音の影響を受けやすいため、監視範囲を制限している。 さらに、複数のマイクロホンアレイを用いる手法は、音事象分類の側面を無視して、ソースのローカライゼーションにのみ焦点をあてることが多い。 本稿では,複数の特徴と注意機構を用いて音源の位置とクラスを推定する深層学習手法を提案する。 複数の周波数帯域にまたがる空間情報をキャプチャするSoundmap機能を導入する。 また,Gammatoneフィルタを用いて,屋外環境に適した音響特性を生成する。 さらに,アコースティックな特徴の中でチャネル関係や時間的依存を学習するための注意機構を統合する。 提案手法を評価するために,異なるノイズレベルと監視領域の大きさのシミュレーションデータセットと,異なる配列とソース位置を用いて実験を行った。 実験により,提案手法の音響事象分類および音源定位作業における最先端手法よりも優れていることを示す。 そして、さらに分析を行い、観測された誤りの理由を説明します。

Deep learning-based sound event localization and classification is an emerging research area within wireless acoustic sensor networks. However, current methods for sound event localization and classification typically rely on a single microphone array, making them susceptible to signal attenuation and environmental noise, which limits their monitoring range. Moreover, methods using multiple microphone arrays often focus solely on source localization, neglecting the aspect of sound event classification. In this paper, we propose a deep learning-based method that employs multiple features and attention mechanisms to estimate the location and class of sound source. We introduce a Soundmap feature to capture spatial information across multiple frequency bands. We also use the Gammatone filter to generate acoustic features more suitable for outdoor environments. Furthermore, we integrate attention mechanisms to learn channel-wise relationships and temporal dependencies within the acoustic features. To evaluate our proposed method, we conduct experiments using simulated datasets with different levels of noise and size of monitoring areas, as well as different arrays and source positions. The experimental results demonstrate the superiority of our proposed method over state-of-the-art methods in both sound event classification and sound source localization tasks. And we provide further analysis to explain the reasons for the observed errors.
翻訳日:2024-04-01 15:54:04 公開日:2024-03-29
# QestOptPOVM: 量子パラメータ推定のための最適測度を求める反復アルゴリズム

QestOptPOVM: An iterative algorithm to find optimal measurements for quantum parameter estimation ( http://arxiv.org/abs/2403.20131v1 )

ライセンス: Link先を確認
Jianchao Zhang, Jun Suzuki, (参考訳) 量子パラメータ推定は、最も情報性の高い測定値を利用することで高精度を達成するための重要な約束を持っている。 推定値の最良の精度を評価するために、様々な下界が開発されたが、それらは厳密ではないし、一般に最適な測定値の構成を提供していない。 したがって、非自明な最適化のため、最適測定の明示的な形式を決定することは困難である。 本研究では,最急降下法を用いて最適正の演算子値(POVM)を直接同定するアルゴリズム,QestOptPOVMを提案する。 量子状態の複数コピー(最大6コピー)の厳密な試行を通じて,提案アルゴリズムの有効性と精度を実証した。 さらに, 数値計算結果と確立された下界の比較分析により, 有限サンプル量子メートル法における長岡-早石境界の厳密性の検証に有効である。 同時に,我々のアルゴリズムは最適なPOVMの明示的な形式を解明するためのツールとして機能し,量子パラメータ推定手法の理解を深める。

Quantum parameter estimation holds significant promise for achieving high precision through the utilization of the most informative measurements. While various lower bounds have been developed to assess the best accuracy for estimates, they are not tight, nor provide a construction of the optimal measurement in general. Thus, determining the explicit forms of optimal measurements has been challenging due to the non-trivial optimization. In this study, we introduce an algorithm, termed QestOptPOVM, designed to directly identify optimal positive operator-valued measure (POVM) using the steepest descent method. Through rigorous testing on several examples for multiple copies of qubit states (up to six copies), we demonstrate the efficiency and accuracy of our proposed algorithm. Moreover, a comparative analysis between numerical results and established lower bounds serves to validate the tightness of the Nagaoka-Hayashi bound in finite-sample quantum metrology for our examples. Concurrently, our algorithm functions as a tool for elucidating the explicit forms of optimal POVMs, thereby enhancing our understanding of quantum parameter estimation methodologies.
翻訳日:2024-04-01 15:44:18 公開日:2024-03-29
# 対話型AIアシスタントシステムにおけるユーザモデリングの課題

User Modeling Challenges in Interactive AI Assistant Systems ( http://arxiv.org/abs/2403.20134v1 )

ライセンス: Link先を確認
Megan Su, Yuwei Bao, (参考訳) Interactive Artificial Intelligent(AI)アシスタントシステムは、人間が様々なタスクを完了するのを助けるタイムリーなガイダンスを提供するように設計されている。 残りの課題の1つは、よりパーソナライズされたガイダンスのために、タスク中のユーザの精神状態を理解することである。 本研究では,タスク実行中のユーザの精神状態を分析し,よりパーソナライズされたユーザガイダンスのために,大規模言語モデルがユーザプロファイルを解釈する能力と課題について検討する。

Interactive Artificial Intelligent(AI) assistant systems are designed to offer timely guidance to help human users to complete a variety tasks. One of the remaining challenges is to understand user's mental states during the task for more personalized guidance. In this work, we analyze users' mental states during task executions and investigate the capabilities and challenges for large language models to interpret user profiles for more personalized user guidance.
翻訳日:2024-04-01 15:44:18 公開日:2024-03-29
# IoVネットワークにおけるセキュアかつ効率的な情報通信のための分散セキュリティアーキテクチャ

Differentiated Security Architecture for Secure and Efficient Infotainment Data Communication in IoV Networks ( http://arxiv.org/abs/2403.20136v1 )

ライセンス: Link先を確認
Jiani Fan, Lwin Khin Shar, Jiale Guo, Wenzhuo Yang, Dusit Niyato, Kwok-Yan Lam, (参考訳) 本稿では,インターネット・オブ・Vehicle(IoV)ネットワークにおけるインフォテインメントデータ通信に対するセキュリティ保護の差別化を図る。 IoVは、さまざまなセンサー、ソフトウェア、内蔵ハードウェア、通信技術を使って歩行者、車、都市インフラ間の情報交換を可能にする車両ネットワークである。 IoVネットワークにおけるインフォテインメントデータ通信の安全性の欠如は、社会的エンジニアリング攻撃の容易なアクセスポイントを意図せずに開放することができる。 攻撃者は、交通状況に関する誤った情報を拡散し、運転者の方向を誤解させ、交通管理を妨害することができる。 このような攻撃は運転者の注意をそらすこともでき、運転の安全性に影響を及ぼす可能性がある。 IoV通信とネットワークセキュリティに関する既存の文献は、主にジェネリックソリューションに焦点を当てている。 異なる種類の通信が共存する異種通信ネットワークでは、データ通信の異なるセキュリティと効率の要求を考慮し、セキュリティソリューションの効率を改善することができる。 そこで本稿では,IoVネットワークにおけるインフォテインメントデータ通信を保護するためのセキュリティ機構について述べる。 特に、まずIoVネットワークでデータ通信を分類し、各データ通信のセキュリティ焦点を調べ、その後、ファイル間通信でセキュリティ保護を提供するための異なるセキュリティアーキテクチャを開発する。 我々のアーキテクチャは、名前付きデータネットワーク(NDN)を活用して、任意のノードがファイルのコピーを所有できるネットワークを通してインフォテインメントファイルを効率よく循環できるようにし、ユーザファイル要求のヒット率を改善する。 さらに、サブスクリプションベースのインフォテインメントデータを共有するための、時間に敏感なKey-Policy Attribute-Based Encryption(KP-ABE)方式を提案する。

This paper aims to provide differentiated security protection for infotainment data communication in Internet-of-Vehicle (IoV) networks. The IoV is a network of vehicles that uses various sensors, software, built-in hardware, and communication technologies to enable information exchange between pedestrians, cars, and urban infrastructure. Negligence on the security of infotainment data communication in IoV networks can unintentionally open an easy access point for social engineering attacks. The attacker can spread false information about traffic conditions, mislead drivers in their directions, and interfere with traffic management. Such attacks can also cause distractions to the driver, which has a potential implication for the safety of driving. The existing literature on IoV communication and network security focuses mainly on generic solutions. In a heterogeneous communication network where different types of communication coexist, we can improve the efficiency of security solutions by considering the different security and efficiency requirements of data communications. Hence, we propose a differentiated security mechanism for protecting infotainment data communication in IoV networks. In particular, we first classify data communication in the IoV network, examine the security focus of each data communication, and then develop a differentiated security architecture to provide security protection on a file-to-file basis. Our architecture leverages Named Data Networking (NDN) so that infotainment files can be efficiently circulated throughout the network where any node can own a copy of the file, thus improving the hit ratio for user file requests. In addition, we propose a time-sensitive Key-Policy Attribute-Based Encryption (KP-ABE) scheme for sharing subscription-based infotainment data...
翻訳日:2024-04-01 15:44:18 公開日:2024-03-29
# 外周部を有するLDMにおける高精度ブロック量子化

Accurate Block Quantization in LLMs with Outliers ( http://arxiv.org/abs/2403.20137v1 )

ライセンス: Link先を確認
Nikita Trukhanov, Ilya Soloveychik, (参考訳) 極大規模LSMの推測需要はここ数カ月で大きく伸びている。 これは、計算とメモリの動きを効率よく高速に処理できる専用ハードウェアの余計な不足を明らかにした。 この問題は、列の長さに比例したサイズのKVキャッシュの効率的なオンチップストレージを必要とするため、処理中のシーケンスの長さが爆発的に増加することで増大する。 必要な計算を可能とし、関連するデータを利用可能なメモリに適合させるため、重みとアクティベーションの両方の正確な量子化を可能にする多くの量子化技術が提案されている。 この方向への大きなブレークスルーの1つは、共有スケールファクターを持つマティーサのブロックを特徴とするブロック浮動小数点(BFP)フォーマットのファミリーの導入である。 これらは、テンソル演算のメモリパワーと計算効率のハードウェアサポートを可能にし、非常に優れた量子化精度を提供する。 ブロック形式が広く適用されない主な問題は、同じブロック内の他の値の精度に影響を与えるため、重み付けやアクティベーションに外れ値が存在することが原因である。 本稿では,限られたKVキャッシュストレージの最も重要な問題に焦点をあてる。 そこで本研究では,モデル精度を損なうことなく,BFPフォーマットの低精度化を実現する手法を提案する。 我々は、オフレイアが示す共通チャネルワイドパターンを利用して、それらの量子化品質が大幅に改善されるように、それらを再構成する。 この手法はモデルの精度を大幅に低下させることなくメモリフットプリントを2倍節約する。 重要なことは、チャネルの再配置はコンパイル時に発生するため、推論のレイテンシには影響しない。

The demand for inference on extremely large scale LLMs has seen enormous growth in the recent months. It made evident the colossal shortage of dedicated hardware capable of efficient and fast processing of the involved compute and memory movement. The problem is aggravated by the exploding raise in the lengths of the sequences being processed, since those require efficient on-chip storage of the KV-cache of size proportional to the sequence length. To make the required compute feasible and fit the involved data into available memory, numerous quantization techniques have been proposed that allow accurate quantization for both weights and activations. One of the main recent breakthroughs in this direction was introduction of the family of Block Floating Point (BFP) formats characterized by a block of mantissas with a shared scale factor. These enable memory- power-, and compute- efficient hardware support of the tensor operations and provide extremely good quantization accuracy. The main issues preventing widespread application of block formats is caused by the presence of outliers in weights and activations since those affect the accuracy of the other values in the same block. In this paper, we focus on the most critical problem of limited KV-cache storage. We propose a novel approach enabling usage of low precision BFP formats without compromising the resulting model accuracy. We exploit the common channel-wise patterns exhibited by the outliers to rearrange them in such a way, that their quantization quality is significantly improved. The methodology yields 2x savings in the memory footprint without significant degradation of the model's accuracy. Importantly, the rearrangement of channels happens at the compile time and thus has no impact on the inference latency.
翻訳日:2024-04-01 15:44:18 公開日:2024-03-29
# 機械学習によるポアソン積分器の設計

Designing Poisson Integrators Through Machine Learning ( http://arxiv.org/abs/2403.20139v1 )

ライセンス: Link先を確認
Miguel Vaquero, David Martín de Diego, Jorge Cortés, (参考訳) 本稿では,ポアソン積分器,すなわち基礎となるポアソン幾何を保存する積分器を構成する一般的な方法を提案する。 ポアソン多様体は可積分であり、つまり、ポアソン多様体が単位の集合として機能する既知の局所シンプレクティック群が存在する。 我々の構成はポアソン微分同相写像とラグランジュ二項の対応の上に構築され、ポアソン積分器の設計をある種のPDE (Hamilton-Jacobi) の解として再構成することができる。 この研究の主な特徴は、ハミルトン・ヤコビ PDE を最適化問題として理解することであり、その解は機械学習関連の技術を用いて容易に近似できる。 この研究の方向性は、物理情報ニューラルネットワークによって始められたPDEと機械学習コミュニティの現在の傾向と一致しており、物理モデリング(ハミルトン・ヤコビPDE)とデータの両方を組み合わせた設計を提唱している。

This paper presents a general method to construct Poisson integrators, i.e., integrators that preserve the underlying Poisson geometry. We assume the Poisson manifold is integrable, meaning there is a known local symplectic groupoid for which the Poisson manifold serves as the set of units. Our constructions build upon the correspondence between Poisson diffeomorphisms and Lagrangian bisections, which allows us to reformulate the design of Poisson integrators as solutions to a certain PDE (Hamilton-Jacobi). The main novelty of this work is to understand the Hamilton-Jacobi PDE as an optimization problem, whose solution can be easily approximated using machine learning related techniques. This research direction aligns with the current trend in the PDE and machine learning communities, as initiated by Physics- Informed Neural Networks, advocating for designs that combine both physical modeling (the Hamilton-Jacobi PDE) and data.
翻訳日:2024-04-01 15:44:18 公開日:2024-03-29
# StegoGAN:非目的画像変換のためのステガノグラフィの活用

StegoGAN: Leveraging Steganography for Non-Bijective Image-to-Image Translation ( http://arxiv.org/abs/2403.20142v1 )

ライセンス: Link先を確認
Sidi Wu, Yizi Chen, Samuel Mermet, Lorenz Hurni, Konrad Schindler, Nicolas Gonthier, Loic Landrieu, (参考訳) ほとんどの画像から画像への変換モデルは、ソースとターゲットドメインのセマンティッククラスの間にユニークな対応があることを仮定している。 しかし、この仮定は、分散分布、異なるクラス集合、および非対称情報表現によって、現実のシナリオにおいて常に成り立つわけではない。 従来のGANは、対象領域の分布に一致した画像を生成するため、ソース領域から欠落したクラスの急激なインスタンスを幻覚させ、翻訳画像の有用性と信頼性を低下させる可能性がある。 CycleGANベースの手法は、生成した画像のミスマッチした情報を隠して、サイクル整合性(steganography)と呼ばれるプロセスをバイパスすることが知られている。 本研究では,非客観的画像翻訳の課題に応えて,ステガノグラフィーを応用して生成画像の突発的特徴を防止する新しいモデルであるStegoGANを紹介する。 我々のアプローチは、追加の後処理や監督を必要とすることなく、翻訳画像のセマンティック一貫性を高める。 実験により,StegoGANは既存のGANモデルよりも質的にも定量的にも,様々な非客観的な画像から画像への翻訳作業に優れることが示された。 私たちのコードと事前訓練されたモデルはhttps://github.com/sian-wusidi/StegoGAN.comでアクセスできます。

Most image-to-image translation models postulate that a unique correspondence exists between the semantic classes of the source and target domains. However, this assumption does not always hold in real-world scenarios due to divergent distributions, different class sets, and asymmetrical information representation. As conventional GANs attempt to generate images that match the distribution of the target domain, they may hallucinate spurious instances of classes absent from the source domain, thereby diminishing the usefulness and reliability of translated images. CycleGAN-based methods are also known to hide the mismatched information in the generated images to bypass cycle consistency objectives, a process known as steganography. In response to the challenge of non-bijective image translation, we introduce StegoGAN, a novel model that leverages steganography to prevent spurious features in generated images. Our approach enhances the semantic consistency of the translated images without requiring additional postprocessing or supervision. Our experimental evaluations demonstrate that StegoGAN outperforms existing GAN-based models across various non-bijective image-to-image translation tasks, both qualitatively and quantitatively. Our code and pretrained models are accessible at https://github.com/sian-wusidi/StegoGAN.
翻訳日:2024-04-01 15:44:18 公開日:2024-03-29
# 自動診断用サプライヤーのための微調整大言語モデル

Fine-tuning Large Language Models for Automated Diagnostic Screening Summaries ( http://arxiv.org/abs/2403.20145v1 )

ライセンス: Link先を確認
Manjeet Yadav, Nilesh Kumar Sahu, Mudita Chaturvedi, Snehil Gupta, Haroon R Lone, (参考訳) 発展途上国におけるメンタルヘルスサポートの改善は、強いニーズである。 潜在的な解決策の1つは、診断スクリーニングを行うスケーラブルで自動化されたシステムの開発であり、メンタルヘルスの専門家の負担を軽減するのに役立つ。 本研究では、精神状態検査から簡潔な要約を生成するためのカスタムデータセットを用いて、微調整の有無にかかわらず、いくつかの最先端のLarge Language Model (LLMs)を評価した。 確立されたROUGEメトリクスと人間評価器からの入力を用いて、要約生成のための4つの異なるモデルを厳格に評価する。 その結果,本モデルが既存のモデルより優れており,ROUGE-1とROUGE-Lはそれぞれ0.810と0.764であることがわかった。 さらに、利用可能なD4データセット上で、微調整されたモデルの一般化性を評価し、その結果が期待でき、私たちのカスタムデータセットを超えて、その潜在的な適用可能性を示した。

Improving mental health support in developing countries is a pressing need. One potential solution is the development of scalable, automated systems to conduct diagnostic screenings, which could help alleviate the burden on mental health professionals. In this work, we evaluate several state-of-the-art Large Language Models (LLMs), with and without fine-tuning, on our custom dataset for generating concise summaries from mental state examinations. We rigorously evaluate four different models for summary generation using established ROUGE metrics and input from human evaluators. The results highlight that our top-performing fine-tuned model outperforms existing models, achieving ROUGE-1 and ROUGE-L values of 0.810 and 0.764, respectively. Furthermore, we assessed the fine-tuned model's generalizability on a publicly available D4 dataset, and the outcomes were promising, indicating its potential applicability beyond our custom dataset.
翻訳日:2024-04-01 15:44:18 公開日:2024-03-29
# IndiBias:インドにおける言語モデルにおける社会的バイアスを測定するベンチマークデータセット

IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context ( http://arxiv.org/abs/2403.20147v1 )

ライセンス: Link先を確認
Nihar Ranjan Sahoo, Pranamya Prashant Kulkarni, Narjis Asad, Arif Ahmad, Tanu Goyal, Aparna Garimella, Pushpak Bhattacharyya, (参考訳) 言語データにおける社会的バイアスの広範的影響により、大規模言語モデル(LLM)において、これらのバイアスをキャプチャして評価するベンチマークデータセットの必要性が高まった。 既存の努力は主に英語と西洋の文脈に焦点を当てており、インド固有の社会文化的ニュアンスをカプセル化した信頼性の高いデータセットの空白を残している。 このギャップを埋めるために、インドにおける社会的バイアスを評価するために特別に設計された包括的なベンチマークデータセットであるIndiBiasを紹介します。 我々は、既存のCrowS-Pairsデータセットをフィルタリングして、ヒンディー語におけるインドの文脈に適したベンチマークデータセットを作成する。 さらに、ChatGPTやInstructGPTといったLCMを活用して、インドで広く普及している多様な社会的バイアスとステレオタイプでデータセットを拡大します。 バイアスの次元には、性別、宗教、キャスト、年齢、地域、身体的外観、職業が含まれる。 また、3つの交叉次元に沿った交叉バイアスに対処するリソースも構築する。 我々のデータセットには、CrowS-Pairsデータセットから800のフィルタリング文と、異なる人口層にわたるバイアス測定のためのタプルが含まれています。 英語とヒンディー語で利用可能であり、既存のベンチマークデータセットに匹敵するサイズを提供する。 さらに、IndiBiasを使用して、複数のバイアス測定メトリクスで10の異なる言語モデルを比較します。 その結果,言語モデルでは,交叉群の大部分に偏りが認められた。

The pervasive influence of social biases in language data has sparked the need for benchmark datasets that capture and evaluate these biases in Large Language Models (LLMs). Existing efforts predominantly focus on English language and the Western context, leaving a void for a reliable dataset that encapsulates India's unique socio-cultural nuances. To bridge this gap, we introduce IndiBias, a comprehensive benchmarking dataset designed specifically for evaluating social biases in the Indian context. We filter and translate the existing CrowS-Pairs dataset to create a benchmark dataset suited to the Indian context in Hindi language. Additionally, we leverage LLMs including ChatGPT and InstructGPT to augment our dataset with diverse societal biases and stereotypes prevalent in India. The included bias dimensions encompass gender, religion, caste, age, region, physical appearance, and occupation. We also build a resource to address intersectional biases along three intersectional dimensions. Our dataset contains 800 filtered sentences from the CrowS-Pairs dataset and tuples for bias measurement across different demographics. It is made available in English and Hindi languages, providing a size comparable to existing benchmark datasets. Furthermore, using IndiBias we compare ten different language models on multiple bias measurement metrics. We observed that the language models exhibit more bias across a majority of the intersectional groups.
翻訳日:2024-04-01 15:44:18 公開日:2024-03-29
# 電力市場におけるPV電力の確率的決定のコンフォーマル予測

Conformal Prediction for Stochastic Decision-Making of PV Power in Electricity Markets ( http://arxiv.org/abs/2403.20149v1 )

ライセンス: Link先を確認
Yvet Renkema, Nico Brinkel, Tarek Alskaif, (参考訳) 本稿では,電力市場への参入を促進するために,新たな確率予測手法であるコンフォメーション予測(CP)の日頭太陽光発電電力予測への応用について検討する。 まず、機械学習モデルを用いて点予測を構築する。 その後、CP間隔と累積分布関数を作成することにより、これらの予測の不確かさを定量化するために、いくつかのCPの変種が実装される。 電力市場のための最適な量入札は、不確実性下にあるいくつかの入札戦略、すなわち、信頼の予測、最悪のケース、ニューズベンダー、期待されるユーティリティ最大化(EUM)を用いて推定される。 その結果, CPとk-アネレスト近傍および/またはモンドリアン結合は, 対応する線形量子的回帰器よりも優れていた。 CPを特定の入札戦略と組み合わせることで、エネルギーの不均衡を最小限に抑えて高い利益を得ることができる。 具体的には、k-アネレスト近隣とモンドリアン林の無作為な回帰の後、共形予測システムを用いることで、意思決定戦略にかかわらず、最良の利益と不均衡が得られる。 この不確実性定量化法とEUM戦略とリスク条件値(CVaR)を組み合わせることで、エネルギー不均衡を最小限に抑え、潜在的利益の最大93%を得ることができる。

This paper studies the use of conformal prediction (CP), an emerging probabilistic forecasting method, for day-ahead photovoltaic power predictions to enhance participation in electricity markets. First, machine learning models are used to construct point predictions. Thereafter, several variants of CP are implemented to quantify the uncertainty of those predictions by creating CP intervals and cumulative distribution functions. Optimal quantity bids for the electricity market are estimated using several bidding strategies under uncertainty, namely: trust-the-forecast, worst-case, Newsvendor and expected utility maximization (EUM). Results show that CP in combination with k-nearest neighbors and/or Mondrian binning outperforms its corresponding linear quantile regressors. Using CP in combination with certain bidding strategies can yield high profit with minimal energy imbalance. In concrete, using conformal predictive systems with k-nearest neighbors and Mondrian binning after random forest regression yields the best profit and imbalance regardless of the decision-making strategy. Combining this uncertainty quantification method with the EUM strategy with conditional value at risk (CVaR) can yield up to 93\% of the potential profit with minimal energy imbalance.
翻訳日:2024-04-01 15:44:18 公開日:2024-03-29
# TFB:時系列予測手法の総合的・公正なベンチマークに向けて

TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods ( http://arxiv.org/abs/2403.20150v1 )

ライセンス: Link先を確認
Xiangfei Qiu, Jilin Hu, Lekui Zhou, Xingjian Wu, Junyang Du, Buang Zhang, Chenjuan Guo, Aoying Zhou, Christian S. Jensen, Zhenli Sheng, Bin Yang, (参考訳) 時系列は、経済、交通、健康、エネルギーといった様々な領域で生成され、将来の価値の予測には多くの重要な応用がある。 驚くことではないが、多くの予測方法が提案されている。 進展を確実にするためには、このような手法を包括的で信頼性の高い方法で実証的に研究・比較できることが不可欠である。 そこで本研究では,時系列予測(TSF)手法の自動ベンチマークであるTFBを提案する。 TFBは、データセット、比較方法、評価パイプラインに関連する欠点に対処することで、最先端の技術を進化させる。 1) データドメインのカバー不足。 2伝統的な方法に対するステレオタイプバイアス及び 3)無矛盾で柔軟性のないパイプライン。 よりよいドメインカバレッジを達成するために、トラフィック、電気、エネルギー、環境、自然、経済、株式市場、銀行、健康、ウェブの10の異なるドメインからのデータセットを含めます。 また、選択したデータセットが包括的であることを確実にするための時系列のキャラクタリゼーションも提供します。 いくつかの手法に対するバイアスを取り除くために,統計的学習,機械学習,深層学習など,さまざまな手法を含めるとともに,さまざまな評価戦略やメトリクスをサポートし,さまざまな手法のより包括的な評価を確実にする。 ベンチマークへのさまざまなメソッドの統合をサポートし、公正な比較を可能にするため、TFBは、バイアスを排除したフレキシブルでスケーラブルなパイプラインを備えている。 次に,21種類の一変量時系列予測(UTSF)法を8,068個の一変量時系列に対して,14個の多変量時系列予測(MTSF)法を25個のデータセット上で徹底的に評価するためにTFBを用いる。 ベンチマークコードとデータはhttps://github.com/decisionintelligence/TFBで公開されている。

Time series are generated in diverse domains such as economic, traffic, health, and energy, where forecasting of future values has numerous important applications. Not surprisingly, many forecasting methods are being proposed. To ensure progress, it is essential to be able to study and compare such methods empirically in a comprehensive and reliable manner. To achieve this, we propose TFB, an automated benchmark for Time Series Forecasting (TSF) methods. TFB advances the state-of-the-art by addressing shortcomings related to datasets, comparison methods, and evaluation pipelines: 1) insufficient coverage of data domains, 2) stereotype bias against traditional methods, and 3) inconsistent and inflexible pipelines. To achieve better domain coverage, we include datasets from 10 different domains: traffic, electricity, energy, the environment, nature, economic, stock markets, banking, health, and the web. We also provide a time series characterization to ensure that the selected datasets are comprehensive. To remove biases against some methods, we include a diverse range of methods, including statistical learning, machine learning, and deep learning methods, and we also support a variety of evaluation strategies and metrics to ensure a more comprehensive evaluations of different methods. To support the integration of different methods into the benchmark and enable fair comparisons, TFB features a flexible and scalable pipeline that eliminates biases. Next, we employ TFB to perform a thorough evaluation of 21 Univariate Time Series Forecasting (UTSF) methods on 8,068 univariate time series and 14 Multivariate Time Series Forecasting (MTSF) methods on 25 datasets. The benchmark code and data are available at https://github.com/decisionintelligence/TFB.
翻訳日:2024-04-01 15:44:18 公開日:2024-03-29
# 自動車の分散インターネットにおける移動型AIGCサービスのための学習型インセンティブメカニズム

A Learning-based Incentive Mechanism for Mobile AIGC Service in Decentralized Internet of Vehicles ( http://arxiv.org/abs/2403.20151v1 )

ライセンス: Link先を確認
Jiani Fan, Minrui Xu, Ziyao Liu, Huanyi Ye, Chaojie Gu, Dusit Niyato, Kwok-Yan Lam, (参考訳) AIGC(Artificial Intelligence-Generated Content)は、AIモデルを利用した自動コンテンツ生成のパラダイムである。 Internet of Vehicles(IoV)ネットワークのモバイルAIGCサービスは、ネットワーク効率の向上、再構成性の向上、データセキュリティとプライバシの向上など、従来のクラウドベースのAIGCサービスに対して、多くのアドバンテージを持っている。 それでも、AIGCサービスのプロビジョニングには、大きなリソースが頻繁に必要である。 その結果、リソース制約のあるロードサイドユニット(RSU)は、AIGCサービスの異種プールを維持し、全体的なパフォーマンスを低下させることなくすべてのユーザサービス要求に対処する上で、課題に直面します。 そこで本稿では,移動型AIGCサービスアロケーションのための分散化インセンティブ機構を提案し,RSUにおけるAIGCサービスの供給とIoVコンテキスト内のサービスに対するユーザ需要のバランスを把握し,ユーザエクスペリエンスの最適化と送信遅延の最小化を図る。 実験により,本手法は他のベースラインモデルと比較して優れた性能を示した。

Artificial Intelligence-Generated Content (AIGC) refers to the paradigm of automated content generation utilizing AI models. Mobile AIGC services in the Internet of Vehicles (IoV) network have numerous advantages over traditional cloud-based AIGC services, including enhanced network efficiency, better reconfigurability, and stronger data security and privacy. Nonetheless, AIGC service provisioning frequently demands significant resources. Consequently, resource-constrained roadside units (RSUs) face challenges in maintaining a heterogeneous pool of AIGC services and addressing all user service requests without degrading overall performance. Therefore, in this paper, we propose a decentralized incentive mechanism for mobile AIGC service allocation, employing multi-agent deep reinforcement learning to find the balance between the supply of AIGC services on RSUs and user demand for services within the IoV context, optimizing user experience and minimizing transmission latency. Experimental results demonstrate that our approach achieves superior performance compared to other baseline models.
翻訳日:2024-04-01 15:44:18 公開日:2024-03-29
# Talk3D: パーソナライズされた3D生成先行による画像合成

Talk3D: High-Fidelity Talking Portrait Synthesis via Personalized 3D Generative Prior ( http://arxiv.org/abs/2403.20153v1 )

ライセンス: Link先を確認
Jaehoon Ko, Kyusun Cho, Joungbin Lee, Heeji Yoon, Sangmin Lee, Sangjun Ahn, Seungryong Kim, (参考訳) 近年の音声駆動音声ヘッド合成法は,高忠実度・3D一貫性の新規視野フレームを描画する能力を活用して,単眼音声ポートレートビデオ上でのニューラルレイディアンス場(NeRF)を最適化することが多い。 しかし、入力されたモノクロビデオに包括的な3D情報がないため、完全な顔形状の再構築に苦慮することが多い。 本稿では,事前学習した3D認識生成手法を効果的に活用することにより,音声駆動型音声ヘッド合成フレームワークであるTalk3Dを提案する。 パーソナライズされた3D生成モデルを考えると、音声によって駆動されるNeRF空間の動的顔変化を予測する新しい音声誘導型注意U-Netアーキテクチャを提案する。 さらに,本モデルは,音声特徴と無関係な変動を効果的に解消する,音声関連条件付きトークンによってさらに変調される。 既存の手法と比較して,本手法は,極端な頭部ポーズ下であっても,現実的な顔のジオメトリーの生成に優れる。 また、定量評価と定性評価の両方の観点から、我々のアプローチが最先端のベンチマークを上回ることを示す広範な実験を行った。

Recent methods for audio-driven talking head synthesis often optimize neural radiance fields (NeRF) on a monocular talking portrait video, leveraging its capability to render high-fidelity and 3D-consistent novel-view frames. However, they often struggle to reconstruct complete face geometry due to the absence of comprehensive 3D information in the input monocular videos. In this paper, we introduce a novel audio-driven talking head synthesis framework, called Talk3D, that can faithfully reconstruct its plausible facial geometries by effectively adopting the pre-trained 3D-aware generative prior. Given the personalized 3D generative model, we present a novel audio-guided attention U-Net architecture that predicts the dynamic face variations in the NeRF space driven by audio. Furthermore, our model is further modulated by audio-unrelated conditioning tokens which effectively disentangle variations unrelated to audio features. Compared to existing methods, our method excels in generating realistic facial geometries even under extreme head poses. We also conduct extensive experiments showing our approach surpasses state-of-the-art benchmarks in terms of both quantitative and qualitative evaluations.
翻訳日:2024-04-01 15:44:18 公開日:2024-03-29
# パルス量子電池のエネルギー特性

Energetics of a pulsed quantum battery ( http://arxiv.org/abs/2403.20155v1 )

ライセンス: Link先を確認
C. A. Downing, M. S. Ukhtary, (参考訳) エネルギーを効率的かつ持続的に貯蔵するという課題は、現代の科学研究において顕著である。 小型化が進行中であるため、量子ストレージデバイスの設計は、それ自体が現在の量子技術研究において重要な課題である。 ここでは、短パルスで駆動されるチャージャーとエネルギホルダーからなる2成分量子電池の透過的解析モデルを提案する。 電池に蓄えられたエネルギー、抽出可能な最大作業量、即時および平均パワー、および関連する充電時間に関する簡単な表現を提供する。 これにより、パルスの駆動強度、充電器とホルダーの結合、環境への避けられないエネルギー損失の観点から、バッテリーの最適設計を明示的に議論できる。 我々は、我々の理論が、真に量子電池の第1世代を特徴づける、初期段階の実験的な構築のための有用なガイドとして機能することを期待している。

The challenge of storing energy efficiently and sustainably is highly prominent within modern scientific investigations. Due to the ongoing trend of miniaturization, the design of expressly quantum storage devices is itself a crucial task within current quantum technological research. Here we provide a transparent analytic model of a two-component quantum battery, composed of a charger and an energy holder, which is driven by a short laser pulse. We provide simple expressions for the energy stored in the battery, the maximum amount of work which can be extracted, both the instantaneous and the average powers, and the relevant charging times. This allows us to discuss explicitly the optimal design of the battery in terms of the driving strength of the pulse, the coupling between the charger and the holder, and the inevitable energy loss into the environment. We anticipate that our theory can act as a helpful guide for the nascent experimental work building and characterizing the first generation of truly quantum batteries.
翻訳日:2024-04-01 15:44:18 公開日:2024-03-29
# CAESAR:コンバージェンス・アウェア・サンプリングによる異種MDPのフェデレーションRL向上

CAESAR: Enhancing Federated RL in Heterogeneous MDPs through Convergence-Aware Sampling with Screening ( http://arxiv.org/abs/2403.20156v1 )

ライセンス: Link先を確認
Hei Yi Mak, Flint Xiaofeng Fan, Luca A. Lanzendörfer, Cheston Tan, Wei Tsang Ooi, Roger Wattenhofer, (参考訳) 本研究では,フェデレーション強化学習(FedRL)を多種多様なマルコフ決定プロセス(MDP)にまたがる価値ベースエージェントの文脈で探究する。 既存のFedRLメソッドは通常、エージェントの学習を、そのパフォーマンスを改善するために、それらの値関数の平均化によって集約する。 しかし、エージェントが多様な最適値関数に収束する異種環境においては、このアグリゲーション戦略は準最適である。 この問題に対処するために,多様なMDPを対象とした個別エージェントの学習を促進するために,CAESAR(Convergence-AwarE SAmpling with screening)アグリゲーション方式を導入する。 CAESARは、収束認識サンプリングとスクリーニングメカニズムを組み合わせた、サーバが使用する集約戦略である。 同一のMDPで学習するエージェントが同じ最適値関数に収束しているという事実を利用して、CAESARはより熟練したエージェントからの知識の選択的同化を可能にし、全体的な学習効率を大幅に向上させる。 この仮説を実証的に検証し,カスタム構築のGridWorld環境と古典的なFrozenLake-v1タスクの両方を用いて,エージェントの学習効率を高めるためのCAESARの有効性を実証した。

In this study, we delve into Federated Reinforcement Learning (FedRL) in the context of value-based agents operating across diverse Markov Decision Processes (MDPs). Existing FedRL methods typically aggregate agents' learning by averaging the value functions across them to improve their performance. However, this aggregation strategy is suboptimal in heterogeneous environments where agents converge to diverse optimal value functions. To address this problem, we introduce the Convergence-AwarE SAmpling with scReening (CAESAR) aggregation scheme designed to enhance the learning of individual agents across varied MDPs. CAESAR is an aggregation strategy used by the server that combines convergence-aware sampling with a screening mechanism. By exploiting the fact that agents learning in identical MDPs are converging to the same optimal value function, CAESAR enables the selective assimilation of knowledge from more proficient counterparts, thereby significantly enhancing the overall learning efficiency. We empirically validate our hypothesis and demonstrate the effectiveness of CAESAR in enhancing the learning efficiency of agents, using both a custom-built GridWorld environment and the classical FrozenLake-v1 task, each presenting varying levels of environmental heterogeneity.
翻訳日:2024-04-01 15:44:18 公開日:2024-03-29
# 多言語翻訳におけるサブワードの体系的解析と言語間移動

A Systematic Analysis of Subwords and Cross-Lingual Transfer in Multilingual Translation ( http://arxiv.org/abs/2403.20157v1 )

ライセンス: Link先を確認
Francois Meyer, Jan Buys, (参考訳) マルチ言語モデリングは、部分的には共有サブワード表現によって、低リソース言語のための機械翻訳を改善することができる。 本稿では,言語間移動におけるサブワードセグメンテーションの役割について検討する。 シナジーの促進と異なる言語型間の干渉を防止するために,いくつかのサブワード法の有効性を体系的に比較した。 以上の結果から,サブワード規則化は多言語モデルにおける相乗効果を高めるが,BPEは多言語間微調整においてより効果的に伝達を促進することが示唆された。 本研究の結果から, 言語的非関連性よりも, 言語間移動が著しく阻害されることが示唆された。 本研究は,サブワードモデリングに関する決定が,多言語モデリングの利点を最適化するための鍵となることを確認した。

Multilingual modelling can improve machine translation for low-resource languages, partly through shared subword representations. This paper studies the role of subword segmentation in cross-lingual transfer. We systematically compare the efficacy of several subword methods in promoting synergy and preventing interference across different linguistic typologies. Our findings show that subword regularisation boosts synergy in multilingual modelling, whereas BPE more effectively facilitates transfer during cross-lingual fine-tuning. Notably, our results suggest that differences in orthographic word boundary conventions (the morphological granularity of written words) may impede cross-lingual transfer more significantly than linguistic unrelatedness. Our study confirms that decisions around subword modelling can be key to optimising the benefits of multilingual modelling.
翻訳日:2024-04-01 15:44:18 公開日:2024-03-29
# ChatGPT対メディアバイアス: GPT-3.5と微調整言語モデルの比較研究

ChatGPT v.s. Media Bias: A Comparative Study of GPT-3.5 and Fine-tuned Language Models ( http://arxiv.org/abs/2403.20158v1 )

ライセンス: Link先を確認
Zehao Wen, Rabih Younes, (参考訳) 急速に進化するデジタル分野において、メディアバイアスを識別する能力は、大衆の感情を形作り、重要な決定に影響を及ぼすことができるため、不可欠である。 ChatGPTのような大規模言語モデル(LLM)の出現は、様々な自然言語処理(NLP)タスクにおける幅広い実用性で有名であり、メディアバイアス検出におけるその有効性を探究することを奨励している。 ChatGPTはメディアバイアスを検出するか? 本研究は,メディアバイアス同定ベンチマーク(MBIB)を用いて,BART,ConvBERT,GPT-2などの微調整モデルに対して,メディアバイアスの6つのカテゴリを識別するChatGPTの能力を評価することを目的とする。 ChatGPTはヘイトスピーチやテキストレベルの文脈バイアスの検出において、微調整されたモデルと同等に機能するが、他のバイアス検出、すなわちフェイクニュース、人種、性別、認知バイアスの微妙な要素で困難に直面している。

In our rapidly evolving digital sphere, the ability to discern media bias becomes crucial as it can shape public sentiment and influence pivotal decisions. The advent of large language models (LLMs), such as ChatGPT, noted for their broad utility in various natural language processing (NLP) tasks, invites exploration of their efficacy in media bias detection. Can ChatGPT detect media bias? This study seeks to answer this question by leveraging the Media Bias Identification Benchmark (MBIB) to assess ChatGPT's competency in distinguishing six categories of media bias, juxtaposed against fine-tuned models such as BART, ConvBERT, and GPT-2. The findings present a dichotomy: ChatGPT performs at par with fine-tuned models in detecting hate speech and text-level context bias, yet faces difficulties with subtler elements of other bias detections, namely, fake news, racial, gender, and cognitive biases.
翻訳日:2024-04-01 15:34:34 公開日:2024-03-29
# 都市景観におけるハイブリッドガウス表現を用いたHGSマッピング

HGS-Mapping: Online Dense Mapping Using Hybrid Gaussian Representation in Urban Scenes ( http://arxiv.org/abs/2403.20159v1 )

ライセンス: Link先を確認
Ke Wu, Kaizhao Zhang, Zhiwei Zhang, Shanshuai Yuan, Muer Tie, Julong Wei, Zijun Xu, Jieru Zhao, Zhongxue Gan, Wenchao Ding, (参考訳) 都市景観のオンライン密集マッピングは、自動運転車のシーン理解とナビゲーションの基盤となる。 近年のマッピング手法の進歩は主にNeRFに基づいており、レンダリング速度はオンライン要求を満たすには遅すぎる。 3D Gaussian Splatting (3DGS)は、NeRFよりも数百倍高速なレンダリング速度を持ち、オンラインの高密度マッピングにおいて大きな可能性を秘めている。 しかし、3DGSをストリートビューの高密度マッピングフレームワークに統合することは、LiDAR範囲を超える幾何学的情報が欠如していることや、大都市景観における復元のための広範囲な計算など、いまだに2つの課題に直面している。 この目的のために,大規模シーンにおけるオンライン高密度マッピングフレームワークであるHGS-Mappingを提案する。 完全な構築を実現するために,本フレームワークでは,異なる性質を持つガウス表現を用いてシーン全体の異なる部分をモデル化するハイブリッドガウス表現を導入している。 さらに,高忠実かつ迅速な再構築を実現するために,ハイブリッドガウス初期化機構と適応更新方式を用いる。 我々の知る限りでは、ガウスの表現を都市景観のオンライン密集地図に統合するのは初めてである。 提案手法は66%のガウスしか採用せず,SOTA再建精度が向上し,再建速度は20%向上した。

Online dense mapping of urban scenes forms a fundamental cornerstone for scene understanding and navigation of autonomous vehicles. Recent advancements in mapping methods are mainly based on NeRF, whose rendering speed is too slow to meet online requirements. 3D Gaussian Splatting (3DGS), with its rendering speed hundreds of times faster than NeRF, holds greater potential in online dense mapping. However, integrating 3DGS into a street-view dense mapping framework still faces two challenges, including incomplete reconstruction due to the absence of geometric information beyond the LiDAR coverage area and extensive computation for reconstruction in large urban scenes. To this end, we propose HGS-Mapping, an online dense mapping framework in unbounded large-scale scenes. To attain complete construction, our framework introduces Hybrid Gaussian Representation, which models different parts of the entire scene using Gaussians with distinct properties. Furthermore, we employ a hybrid Gaussian initialization mechanism and an adaptive update method to achieve high-fidelity and rapid reconstruction. To the best of our knowledge, we are the first to integrate Gaussian representation into online dense mapping of urban scenes. Our approach achieves SOTA reconstruction accuracy while only employing 66% number of Gaussians, leading to 20% faster reconstruction speed.
翻訳日:2024-04-01 15:34:34 公開日:2024-03-29
# 効果的な深層強化学習のためのスパイキング・アクター・ネットワークを改良した生物学的解析可能なトポロジー

Biologically-Plausible Topology Improved Spiking Actor Network for Efficient Deep Reinforcement Learning ( http://arxiv.org/abs/2403.20163v1 )

ライセンス: Link先を確認
Duzhen Zhang, Qingyu Wang, Tielin Zhang, Bo Xu, (参考訳) Deep Reinforcement Learning (DRL)の成功は主に、関数近似器としてArtificial Neural Networks (ANN)を活用することによる。 神経科学の最近の進歩により、人間の脳は、少なくともスパイキングニューロンを空間的時間的ダイナミクスとネットワークトポロジーを生物学的に解明可能な接続パターンと組み合わせることで、効果的な報酬ベースの学習を実現することが明らかにされた。 この統合プロセスにより、スパイクニューロンは非線形樹枝樹と横方向の相互作用を通じて、層内および層内情報を効率的に結合することができる。 これら2つのトポロジの融合により、ネットワークの情報処理能力が向上し、複雑な認識の把握と意思決定手順の導出に不可欠となる。 しかし、ANNと脳ネットワークは異なる。 ANNは複雑な動的ニューロンを欠き、層内接続なしで直接線形和によって達成される層間接続のみを特徴とする。 この制限は、制約付きネットワーク表現性につながる。 そこで本研究では,DRLにおける効率的な意思決定に適した機能近似手法であるBPT-SAN(Biological-Plausible Topology Improvement Spiking Actor Network)を提案する。 BPT-SANは、スパイキングニューロンに複雑な空間的時間的ダイナミクスを導入し、層内接続を導入し、空間的時間的状態の表現を高め、より正確な生物学的シミュレーションを容易にする。 BPT-SANは、従来の直線重み付け和から分岐し、層間接続内の樹状木の局所非線形性をモデル化する。 層内接続のために、BPT-SANは隣接ニューロン間の横方向の相互作用を導入し、それらを膜電位式に統合し、正確なスパイク発火を確実にする。

The success of Deep Reinforcement Learning (DRL) is largely attributed to utilizing Artificial Neural Networks (ANNs) as function approximators. Recent advances in neuroscience have unveiled that the human brain achieves efficient reward-based learning, at least by integrating spiking neurons with spatial-temporal dynamics and network topologies with biologically-plausible connectivity patterns. This integration process allows spiking neurons to efficiently combine information across and within layers via nonlinear dendritic trees and lateral interactions. The fusion of these two topologies enhances the network's information-processing ability, crucial for grasping intricate perceptions and guiding decision-making procedures. However, ANNs and brain networks differ significantly. ANNs lack intricate dynamical neurons and only feature inter-layer connections, typically achieved by direct linear summation, without intra-layer connections. This limitation leads to constrained network expressivity. To address this, we propose a novel alternative for function approximator, the Biologically-Plausible Topology improved Spiking Actor Network (BPT-SAN), tailored for efficient decision-making in DRL. The BPT-SAN incorporates spiking neurons with intricate spatial-temporal dynamics and introduces intra-layer connections, enhancing spatial-temporal state representation and facilitating more precise biological simulations. Diverging from the conventional direct linear weighted sum, the BPT-SAN models the local nonlinearities of dendritic trees within the inter-layer connections. For the intra-layer connections, the BPT-SAN introduces lateral interactions between adjacent neurons, integrating them into the membrane potential formula to ensure accurate spike firing.
翻訳日:2024-04-01 15:34:34 公開日:2024-03-29
# マルチモーダル脳画像翻訳のための教師なし腫瘍認識蒸留法

Unsupervised Tumor-Aware Distillation for Multi-Modal Brain Image Translation ( http://arxiv.org/abs/2403.20168v1 )

ライセンス: Link先を確認
Chuan Huang, Jia Wei, Rui Li, (参考訳) MRIスキャンによるマルチモーダル脳画像は、様々なモダリティから補完的な情報を提供するために臨床診断に広く用いられている。 しかし、時間、コスト、アーティファクトといった様々な要因により、実際に完全にペア化されたマルチモーダル画像を得るのは難しいため、モダリティを欠く脳画像が得られる。 この問題に対処するために、教師なしマルチモーダル脳画像翻訳が広く研究されている。 既存の方法は、画像全体を翻訳する際に腫瘍領域に集中できないため、翻訳中の脳腫瘍の変形の問題に悩まされている。 本稿では, 腫瘍領域を正確に知覚・翻訳できる, UTAD-Net と呼ばれる教師なしの蒸留指導者ネットワークを提案する。 具体的には,教師ネットワークと学生ネットワークの2つの部分から構成される。 教師ネットワークは、まず、未ペア画像と対応する腫瘍マスクを用いて、ソースからターゲットモダリティへのエンドツーエンドマッピングを学習する。 そして、翻訳知識を学生ネットワークに蒸留し、マスクなしでより現実的な腫瘍領域と画像全体を生成する。 実験により, 画像品質の定量評価と定性評価の両面において, 最先端の手法と比較して競合性能が得られた。 さらに、下流セグメンテーションタスクにおいて生成された画像の有効性を示す。 私たちのコードはhttps://github.com/scut-HC/UTAD-Net.orgで公開されています。

Multi-modal brain images from MRI scans are widely used in clinical diagnosis to provide complementary information from different modalities. However, obtaining fully paired multi-modal images in practice is challenging due to various factors, such as time, cost, and artifacts, resulting in modality-missing brain images. To address this problem, unsupervised multi-modal brain image translation has been extensively studied. Existing methods suffer from the problem of brain tumor deformation during translation, as they fail to focus on the tumor areas when translating the whole images. In this paper, we propose an unsupervised tumor-aware distillation teacher-student network called UTAD-Net, which is capable of perceiving and translating tumor areas precisely. Specifically, our model consists of two parts: a teacher network and a student network. The teacher network learns an end-to-end mapping from source to target modality using unpaired images and corresponding tumor masks first. Then, the translation knowledge is distilled into the student network, enabling it to generate more realistic tumor areas and whole images without masks. Experiments show that our model achieves competitive performance on both quantitative and qualitative evaluations of image quality compared with state-of-the-art methods. Furthermore, we demonstrate the effectiveness of the generated images on downstream segmentation tasks. Our code is available at https://github.com/scut-HC/UTAD-Net.
翻訳日:2024-04-01 15:34:34 公開日:2024-03-29
# 有限温度における量子臨界エンジン

Quantum critical engine at finite temperatures ( http://arxiv.org/abs/2403.20172v1 )

ライセンス: Link先を確認
Revathy B S, Victor Mukherjee, Uma Divakaran, (参考訳) 有限温度浴を動力とする量子臨界オットーエンジンを構築する。 エンジンの作業出力は, 作業媒質の臨界指数や冷水浴の温度に依存する普遍的な電力法則の挙動を示す。 さらに、冷湯の高温により、エンジンは減圧動作の限界に近づき、対応する電力は冷湯温度の中間値で最大となる。 これらの反直感的な結果は、高温で力学を支配する熱励起に由来する。

We construct a quantum critical Otto engine that is powered by finite temperature baths. We show that the work output of the engine shows universal power law behavior that depends on the critical exponents of the working medium, as well as on the temperature of the cold bath. Furthermore, higher temperatures of the cold bath allows the engine to approach the limit of adiabatic operation for smaller values of the time period, while the corresponding power shows a maximum at an intermediate value of the cold bath temperature. These counterintuitive results stems from thermal excitations dominating the dynamics at higher temperatures.
翻訳日:2024-04-01 15:34:34 公開日:2024-03-29
# MCNet:マルチスケールアテンションモジュールの統合に基づく群集密度推定ネットワーク

MCNet: A crowd denstity estimation network based on integrating multiscale attention module ( http://arxiv.org/abs/2403.20173v1 )

ライセンス: Link先を確認
Qiang Guo, Rubo Zhang, Di Zhao, (参考訳) このメトロ・ビデオ・監視システムでは,メトロ・クラウド・密度推定ネットワーク(MCNet)が,利用者の群衆密度を自動分類する手法として提案されている。 まず, 集合テクスチャの特徴に対応するために, 集合テクスチャの特徴を抽出するプレーン分類器の能力を高めるために, 統合型マルチスケールアテンション(IMA)モジュールを提案する。 IMAモジュールの革新は、拡張畳み込み、マルチスケールの特徴抽出、アテンション機構を融合させ、計算コストの低いより大きな受容場からマルチスケールの群集特徴活性化を得るとともに、上位層における畳み込み特徴の群集活性化状態を強化することである。 第二に、ビデオフレームを直接処理し、群衆密度推定のためのテクスチャ特徴を自動的に抽出できる軽量な群衆テクスチャ特徴抽出ネットワークが提案され、その高速な画像処理速度とネットワークパラメータの低減により、ハードウェアリソースが限られている組込みプラットフォームへの展開が柔軟になる。 最後に、IMAモジュールと軽量な群衆テクスチャ特徴抽出ネットワークを統合して、画像分類データセット(PETS2009, Mall, QUT, SH_METRO)を用いて、このネットワークの実現可能性を検証する。

Aiming at the metro video surveillance system has not been able to effectively solve the metro crowd density estimation problem, a Metro Crowd density estimation Network (called MCNet) is proposed to automatically classify crowd density level of passengers. Firstly, an Integrating Multi-scale Attention (IMA) module is proposed to enhance the ability of the plain classifiers to extract semantic crowd texture features to accommodate to the characteristics of the crowd texture feature. The innovation of the IMA module is to fuse the dilation convolution, multiscale feature extraction and attention mechanism to obtain multi-scale crowd feature activation from a larger receptive field with lower computational cost, and to strengthen the crowds activation state of convolutional features in top layers. Secondly, a novel lightweight crowd texture feature extraction network is proposed, which can directly process video frames and automatically extract texture features for crowd density estimation, while its faster image processing speed and fewer network parameters make it flexible to be deployed on embedded platforms with limited hardware resources. Finally, this paper integrates IMA module and the lightweight crowd texture feature extraction network to construct the MCNet, and validate the feasibility of this network on image classification dataset: Cifar10 and four crowd density datasets: PETS2009, Mall, QUT and SH_METRO to validate the MCNet whether can be a suitable solution for crowd density estimation in metro video surveillance where there are image processing challenges such as high density, high occlusion, perspective distortion and limited hardware resources.
翻訳日:2024-04-01 15:34:34 公開日:2024-03-29
# 人工意識 : いくつかの論理的・概念的前提

Artificial consciousness. Some logical and conceptual preliminaries ( http://arxiv.org/abs/2403.20177v1 )

ライセンス: Link先を確認
K. Evers, M. Farisco, R. Chatila, B. D. Earp, I. T. Freire, F. Hamker, E. Nemeth, P. F. M. J. Verschure, M. Khamassi, (参考訳) 人工意識は理論的に可能か? それは有り難いですか。 もしそうなら、技術的に実現可能だろうか? これらの課題を進展させるためには, 人工意識発生の論理的, 経験的条件と関連する用語の意味を明らかにすることが必要である。 意識(Consciousness)とは、神経科学、人工知能、ロボティクス、哲学など、さまざまな分野の研究者が、同じ現象や同じ用語を異なる現象を指すために、異なる用語を使うことがある、多義的な言葉である。 実際、私たちが人工意識を追求したいのであれば、重要な概念の適切な定義が必要である。 ここでは, 論理的, 概念的前提条件の後に, 人工システムにおける実現可能性に関するバランスのとれた議論のために, 意識の次元とプロファイルを用いることの必要性を論じる。 本論文の主目的は, 人工意識領域における理論的問題について概観することである。 本稿では,多次元会計における人工意識の問題を評価することを提案する。 人工意識の理論的可能性はすでにいくつかの理論的枠組みで推定されているが、これらの枠組みから経験的可能性を引き出すことはできないが、独立した経験的検証が必要である。 構成成分,構成要素,次元を同定することで,意識の複雑さを分解し,人工意識の創出に直面する一般的な課題を現実的に反映する。 これらの課題にもかかわらず、我々が提案する「認識」が人工システムにおいていかに実現可能かを示すための研究戦略を概説する。

Is artificial consciousness theoretically possible? Is it plausible? If so, is it technically feasible? To make progress on these questions, it is necessary to lay some groundwork clarifying the logical and empirical conditions for artificial consciousness to arise and the meaning of relevant terms involved. Consciousness is a polysemic word: researchers from different fields, including neuroscience, Artificial Intelligence, robotics, and philosophy, among others, sometimes use different terms in order to refer to the same phenomena or the same terms to refer to different phenomena. In fact, if we want to pursue artificial consciousness, a proper definition of the key concepts is required. Here, after some logical and conceptual preliminaries, we argue for the necessity of using dimensions and profiles of consciousness for a balanced discussion about their possible instantiation or realisation in artificial systems. Our primary goal in this paper is to review the main theoretical questions that arise in the domain of artificial consciousness. On the basis of this review, we propose to assess the issue of artificial consciousness within a multidimensional account. The theoretical possibility of artificial consciousness is already presumed within some theoretical frameworks; however, empirical possibility cannot simply be deduced from these frameworks but needs independent empirical validation. We break down the complexity of consciousness by identifying constituents, components, and dimensions, and reflect pragmatically about the general challenges confronting the creation of artificial consciousness. Despite these challenges, we outline a research strategy for showing how "awareness" as we propose to understand it could plausibly be realised in artificial systems.
翻訳日:2024-04-01 15:34:34 公開日:2024-03-29
# 台湾のマンダリン言語理解度の測定

Measuring Taiwanese Mandarin Language Understanding ( http://arxiv.org/abs/2403.20180v1 )

ライセンス: Link先を確認
Po-Heng Chen, Sijia Cheng, Wei-Lin Chen, Yen-Ting Lin, Yun-Nung Chen, (参考訳) 近年,大規模言語モデル (LLM) の評価が注目されている。 この研究は、中国の文脈、特に既存のベンチマークでほとんど表現されていない伝統的な中国語に対するLLMの評価に焦点を当てている。 台湾のマンダリンの文脈下で,LLMにおける高度な知識と推論能力を評価するための総合評価スーツTMLUを提案する。 TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。 さらに、複雑な推論スキルの評価を容易にするために、各被験者に対してチェーン・オブ・シンクのようないくつかの説明をキュレートする。 包括的ベースラインを確立するため,24基の先進LDMの広範な実験と解析を行った。 以上の結果から,中国のオープンウェイトモデルは多言語プロプライエタリモデルに比べて性能が劣り,台湾のマンダリンが簡素な中国モデルよりも遅れていることが示唆された。 本研究は, 台湾産マンダリン LLM の開発を促進すべく, TMLU の目標を立案した。 我々は,今後の研究を促進するため,コミュニティのためのベンチマークと評価スクリプトをリリースする。

The evaluation of large language models (LLMs) has drawn substantial attention in the field recently. This work focuses on evaluating LLMs in a Chinese context, specifically, for Traditional Chinese which has been largely underrepresented in existing benchmarks. We present TMLU, a holistic evaluation suit tailored for assessing the advanced knowledge and reasoning capability in LLMs, under the context of Taiwanese Mandarin. TMLU consists of an array of 37 subjects across social science, STEM, humanities, Taiwan-specific content, and others, ranging from middle school to professional levels. In addition, we curate chain-of-thought-like few-shot explanations for each subject to facilitate the evaluation of complex reasoning skills. To establish a comprehensive baseline, we conduct extensive experiments and analysis on 24 advanced LLMs. The results suggest that Chinese open-weight models demonstrate inferior performance comparing to multilingual proprietary ones, and open-weight models tailored for Taiwanese Mandarin lag behind the Simplified-Chinese counterparts. The findings indicate great headrooms for improvement, and emphasize the goal of TMLU to foster the development of localized Taiwanese-Mandarin LLMs. We release the benchmark and evaluation scripts for the community to promote future research.
翻訳日:2024-04-01 15:34:34 公開日:2024-03-29
# HARMamba:双方向選択SSMに基づく効率的なウェアラブルセンサヒューマンアクティビティ認識

HARMamba: Efficient Wearable Sensor Human Activity Recognition Based on Bidirectional Selective SSM ( http://arxiv.org/abs/2403.20183v1 )

ライセンス: Link先を確認
Shuangjian Li, Tao Zhu, Furong Duan, Liming Chen, Huansheng Ning, Yaping Wan, (参考訳) ウェアラブルセンサによる人間の活動認識(HAR)は、活動センシングにおいて重要な研究領域である。 トランスフォーマーに基づく時間的深層学習モデルは広く研究され実装されているが、その多くのパラメータはシステムコンピューティングの負荷とメモリ使用量において重大な課題を示しており、リアルタイムなモバイルアクティビティ認識アプリケーションには適さない。 近年,Mamba と呼ばれる効率的なハードウェア対応状態空間モデル (SSM) が有望な代替手段として登場している。 Mambaは、長いシーケンスモデリングにおいて強力なポテンシャルを示し、より単純なネットワークアーキテクチャを持ち、効率的なハードウェア・アウェア・デザインを提供する。 活動認識のためのSSMを活用することは、探索のための魅力的な道である。 本研究では,より軽量な選択的SSMをアクティビティ認識の基本モデルアーキテクチャとして採用したHARMambaを紹介する。 目標は、リアルタイムのアクティビティ認識シナリオで発生する計算リソースの制約に対処することである。 このアプローチでは、各チャネルを独立して学習し、データを“パッチ”に分割することで、センサデータフローを処理する。 マークされたセンサシーケンスの位置埋め込みは、双方向状態空間モデルの入力トークンとして機能し、最終的に分類ヘッドによるアクティビティの分類に繋がる。 Transformerベースのモデルのような既存のアクティビティ認識フレームワークと比較して、HARMambaは計算とメモリオーバーヘッドを低減しつつ、優れたパフォーマンスを実現している。 さらに,本手法は, PAMAP2, WISDM, UNIMIB, UCIの4つの公的な活動データセットに対して広範に検証され, 活動認識タスクにおける顕著な性能を示した。

Wearable sensor human activity recognition (HAR) is a crucial area of research in activity sensing. While transformer-based temporal deep learning models have been extensively studied and implemented, their large number of parameters present significant challenges in terms of system computing load and memory usage, rendering them unsuitable for real-time mobile activity recognition applications. Recently, an efficient hardware-aware state space model (SSM) called Mamba has emerged as a promising alternative. Mamba demonstrates strong potential in long sequence modeling, boasts a simpler network architecture, and offers an efficient hardware-aware design. Leveraging SSM for activity recognition represents an appealing avenue for exploration. In this study, we introduce HARMamba, which employs a more lightweight selective SSM as the foundational model architecture for activity recognition. The goal is to address the computational resource constraints encountered in real-time activity recognition scenarios. Our approach involves processing sensor data flow by independently learning each channel and segmenting the data into "patches". The marked sensor sequence's position embedding serves as the input token for the bidirectional state space model, ultimately leading to activity categorization through the classification head. Compared to established activity recognition frameworks like Transformer-based models, HARMamba achieves superior performance while also reducing computational and memory overhead. Furthermore, our proposed method has been extensively tested on four public activity datasets: PAMAP2, WISDM, UNIMIB, and UCI, demonstrating impressive performance in activity recognition tasks.
翻訳日:2024-04-01 15:34:34 公開日:2024-03-29
# ASR駆動型Wav2Vec2を用いたデータスカース文脈における病的音声品質評価

Exploring Pathological Speech Quality Assessment with ASR-Powered Wav2Vec2 in Data-Scarce Context ( http://arxiv.org/abs/2403.20184v1 )

ライセンス: Link先を確認
Tuan Nguyen, Corinne Fredouille, Alain Ghio, Mathieu Balaguer, Virginie Woisard, (参考訳) 音声品質の自動評価は、従来の知覚的臨床評価の代替や支援として注目されている。 しかし、これまでのほとんどの研究は、データ不足のため、バイナリ分類のような単純なタスクにおいて、良い結果しか得られていない。 この課題に対処するため、現在の研究は患者のオーディオファイルを多くのサンプルに分割してデータセットを拡大する傾向にある。 それでもこのアプローチには制限があり、オーディオスコアを個々のセグメントに間接的に関連付ける。 本稿では,データ不足にもかかわらずセグメントではなく,音声レベルで学習する手法を提案する。 本稿では,SSL と ASR の両方に事前学習した Wav2Vec2 アーキテクチャを特徴抽出器として用いることを提案する。 HNCデータセットに基づいて、我々のASR駆動のアプローチは、他のアプローチと比較して新しいベースラインを確立し、95のトレーニングサンプルを使用して、平均$MSE=0.73$と$MSE=1.15$を得た。 その結果, ASR に基づく Wav2Vec2 モデルが最高の結果をもたらし, ASR と音声品質評価との間に強い相関関係があることが示唆された。 また,変化セグメントの持続時間と音声内容に基づいて,その決定に影響を与える要因を探索する。

Automatic speech quality assessment has raised more attention as an alternative or support to traditional perceptual clinical evaluation. However, most research so far only gains good results on simple tasks such as binary classification, largely due to data scarcity. To deal with this challenge, current works tend to segment patients' audio files into many samples to augment the datasets. Nevertheless, this approach has limitations, as it indirectly relates overall audio scores to individual segments. This paper introduces a novel approach where the system learns at the audio level instead of segments despite data scarcity. This paper proposes to use the pre-trained Wav2Vec2 architecture for both SSL, and ASR as feature extractor in speech assessment. Carried out on the HNC dataset, our ASR-driven approach established a new baseline compared with other approaches, obtaining average $MSE=0.73$ and $MSE=1.15$ for the prediction of intelligibility and severity scores respectively, using only 95 training samples. It shows that the ASR based Wav2Vec2 model brings the best results and may indicate a strong correlation between ASR and speech quality assessment. We also measure its ability on variable segment durations and speech content, exploring factors influencing its decision.
翻訳日:2024-04-01 15:34:34 公開日:2024-03-29
# Sketch-to-Architecture: ジェネレーティブなAI支援アーキテクチャ設計

Sketch-to-Architecture: Generative AI-aided Architectural Design ( http://arxiv.org/abs/2403.20186v1 )

ライセンス: Link先を確認
Pengzhi Li, Baijuan Li, Zhiheng Li, (参考訳) 近年、大規模モデルの開発は、アーキテクチャを含む様々な学際的な研究の道を開いた。 生成AIを用いて、簡単なスケッチから概念的なフロアプランと3Dモデルを生成するために、AIモデルを利用した新しいワークフローを提案する。 我々の研究は、アーキテクチャ設計プロセスにおける生成AIの可能性を示し、コンピュータ支援アーキテクチャ設計の新しい方向性を指し示している。 プロジェクトのWebサイトは、https://zrealli.github.io/sketch2arc.comで公開されている。

Recently, the development of large-scale models has paved the way for various interdisciplinary research, including architecture. By using generative AI, we present a novel workflow that utilizes AI models to generate conceptual floorplans and 3D models from simple sketches, enabling rapid ideation and controlled generation of architectural renderings based on textual descriptions. Our work demonstrates the potential of generative AI in the architectural design process, pointing towards a new direction of computer-aided architectural design. Our project website is available at: https://zrealli.github.io/sketch2arc
翻訳日:2024-04-01 15:34:34 公開日:2024-03-29
# エッジIoTのための分散Swarm学習

Distributed Swarm Learning for Edge Internet of Things ( http://arxiv.org/abs/2403.20188v1 )

ライセンス: Link先を確認
Yue Wang, Zhi Tian, FXin Fan, Zhipeng Cai, Cameron Nowzari, Kai Zeng, (参考訳) IoT(Internet of Things)の急速な成長により、スマートIoTデバイスがワイヤレスエッジに広く展開され、コラボレーション機械学習タスクが実現し、エッジ学習の新しい時代が到来した。 リソース制限の無線ネットワークで動作するハードウェアに制約のあるIoTデバイスが多数存在するため、エッジ学習は、通信と計算のボトルネック、デバイスとデータの均一性、セキュリティリスク、プライバシリーク、非凸最適化、複雑な無線環境など、重大な課題に直面している。 これらの課題に対処するため,本稿では,人工知能と生物群知を総合的に組み合わせた分散群学習(DSL)と呼ばれる新しいフレームワークについて検討する。 高度な信号処理と通信を活用することにより、DSLは、無線ネットワークの端で大規模IoTのための効率的なソリューションと堅牢なツールを提供する。

The rapid growth of Internet of Things (IoT) has led to the widespread deployment of smart IoT devices at wireless edge for collaborative machine learning tasks, ushering in a new era of edge learning. With a huge number of hardware-constrained IoT devices operating in resource-limited wireless networks, edge learning encounters substantial challenges, including communication and computation bottlenecks, device and data heterogeneity, security risks, privacy leakages, non-convex optimization, and complex wireless environments. To address these issues, this article explores a novel framework known as distributed swarm learning (DSL), which combines artificial intelligence and biological swarm intelligence in a holistic manner. By harnessing advanced signal processing and communications, DSL provides efficient solutions and robust tools for large-scale IoT at the edge of wireless networks.
翻訳日:2024-04-01 15:34:34 公開日:2024-03-29
# ホモモルフィックWiSARD:暗号化データによる効率的な重みなしニューラルネットワークトレーニング

Homomorphic WiSARDs: Efficient Weightless Neural Network training over encrypted data ( http://arxiv.org/abs/2403.20190v1 )

ライセンス: Link先を確認
Leonardo Neumann, Antonio Guimarães, Diego F. Aranha, Edson Borin, (参考訳) 機械学習アルゴリズムの広範な適用は、データプライバシ研究コミュニティに対する関心が高まっている問題であり、その多くが、そのためのプライバシ保護技術を開発しようとしている。 既存のアプローチの中で、MLアルゴリズムの同型評価は、暗号化されたデータを直接操作することで、高い機密性を保証することで際立っている。 推論アルゴリズムの準同型評価は、比較的深い畳み込みニューラルネットワーク(CNN)においても実用的である。 しかし、トレーニングは依然として大きな課題であり、現在のソリューションは、画像認識のようなより複雑な問題を解決するのに適さない、軽量なアルゴリズムに頼っていることが多い。 本研究は,Wilkie,Stonham,Aleksander's Recognition Device (WiSARD) とその後のWeightless Neural Networks (WNN) の同型評価を導入し,暗号化データのトレーニングと推論を行う。 CNNと比較して、WNNは比較的少ない精度で性能が向上している。 独立した関心を持つことができるいくつかのビルディングブロックを含む、完全なフレームワークを開発しています。 我々のフレームワークは、暗号化トレーニングのたった3.5分(マルチスレッド)でMNISTデータセットの91.7%の精度を達成し、3.5時間で93.8%まで上昇した。 HAM10000データセットでは、わずか1.5分で67.9%の精度を達成し、1時間後に69.9%まで上昇した。 Glyph (Lou et al , NeurIPS 2020) によるCNNトレーニングの評価の最先端技術と比較すると, これらの結果は最大1200倍のスピードアップを示し, 精度は5.4%である。 HAM10000では、Glyphの60倍の速度で0.65%の精度向上を実現しました。 また、小規模な暗号化トレーニングのためのソリューションも提供します。 200MB未満のメモリを使用するデスクトップマシン上のシングルスレッドでは、1000MNISTイメージを12分でトレーニングし、ウィスコンシン乳がんデータセット全体をたった11秒でトレーニングします。

The widespread application of machine learning algorithms is a matter of increasing concern for the data privacy research community, and many have sought to develop privacy-preserving techniques for it. Among existing approaches, the homomorphic evaluation of ML algorithms stands out by performing operations directly over encrypted data, enabling strong guarantees of confidentiality. The homomorphic evaluation of inference algorithms is practical even for relatively deep Convolution Neural Networks (CNNs). However, training is still a major challenge, with current solutions often resorting to lightweight algorithms that can be unfit for solving more complex problems, such as image recognition. This work introduces the homomorphic evaluation of Wilkie, Stonham, and Aleksander's Recognition Device (WiSARD) and subsequent Weightless Neural Networks (WNNs) for training and inference on encrypted data. Compared to CNNs, WNNs offer better performance with a relatively small accuracy drop. We develop a complete framework for it, including several building blocks that can be of independent interest. Our framework achieves 91.7% accuracy on the MNIST dataset after only 3.5 minutes of encrypted training (multi-threaded), going up to 93.8% in 3.5 hours. For the HAM10000 dataset, we achieve 67.9% accuracy in just 1.5 minutes, going up to 69.9% after 1 hour. Compared to the state of the art on the HE evaluation of CNN training, Glyph (Lou et al., NeurIPS 2020), these results represent a speedup of up to 1200 times with an accuracy loss of at most 5.4%. For HAM10000, we even achieved a 0.65% accuracy improvement while being 60 times faster than Glyph. We also provide solutions for small-scale encrypted training. In a single thread on a desktop machine using less than 200MB of memory, we train over 1000 MNIST images in 12 minutes or over the entire Wisconsin Breast Cancer dataset in just 11 seconds.
翻訳日:2024-04-01 15:34:34 公開日:2024-03-29
# 動画カスタマイズのためのモーションインバージョン

Motion Inversion for Video Customization ( http://arxiv.org/abs/2403.20193v1 )

ライセンス: Link先を確認
Luozhou Wang, Guibao Shen, Yixun Liang, Xin Tao, Pengfei Wan, Di Zhang, Yijun Li, Yingcong Chen, (参考訳) 本研究では,映像生成モデルにおける映像表現の徹底的な探索において,映像生成における動きのカスタマイズという新たなアプローチを提案する。 ビデオの時空間的性質から生じる固有の課題を認識し,ビデオから得られる一次元の明示的で時間的に整合した埋め込みであるモーション・エンベディングを導入する。 これらの埋め込みは、ビデオ拡散モデルの時間変換モジュールとシームレスに統合され、空間的整合性を損なうことなくフレーム間の自己注意計算を変調するように設計されている。 提案手法は, 運動表現のコンパクトかつ効率的な解を提供し, 埋め込み空間におけるベクトル演算による運動特性の複雑な操作を可能にする。 さらに,映像生成モデルにおける時間差を同定し,異なる移動モジュールがフレーム間の時間的関係をどのように処理するかを示す。 この理解を活用して、モーション埋め込みの統合を最適化します。 コントリビューションには、カスタマイズタスクのための調整されたモーション埋め込みの導入、ビデオモデルにおける時間的処理の違いに関する洞察、広範囲な実験を通しての本手法の実用的メリットと有効性を実証することが含まれる。

In this research, we present a novel approach to motion customization in video generation, addressing the widespread gap in the thorough exploration of motion representation within video generative models. Recognizing the unique challenges posed by video's spatiotemporal nature, our method introduces Motion Embeddings, a set of explicit, temporally coherent one-dimensional embeddings derived from a given video. These embeddings are designed to integrate seamlessly with the temporal transformer modules of video diffusion models, modulating self-attention computations across frames without compromising spatial integrity. Our approach offers a compact and efficient solution to motion representation and enables complex manipulations of motion characteristics through vector arithmetic in the embedding space. Furthermore, we identify the Temporal Discrepancy in video generative models, which refers to variations in how different motion modules process temporal relationships between frames. We leverage this understanding to optimize the integration of our motion embeddings. Our contributions include the introduction of a tailored motion embedding for customization tasks, insights into the temporal processing differences in video models, and a demonstration of the practical advantages and effectiveness of our method through extensive experiments.
翻訳日:2024-04-01 15:34:34 公開日:2024-03-29
# 空間制約ベイズネットワーク(SCB-Net)によるリソロジーマッピングの強化:不確実性評価を伴うフィールドデータ制約予測へのアプローチ

Enhancing Lithological Mapping with Spatially Constrained Bayesian Network (SCB-Net): An Approach for Field Data-Constrained Predictions with Uncertainty Evaluation ( http://arxiv.org/abs/2403.20195v1 )

ライセンス: Link先を確認
Victor Silva dos Santos, Erwan Gloaguen, Shiva Tirdad, (参考訳) 地質地図は地球科学にとって非常に貴重な情報源である。 鉱物探査、自然災害への脆弱性、その他多くの応用に関する洞察を提供する。 これらの地図は、地質観測を用いてデータを外挿する数値モデルまたは概念モデルを用いて作成される。 測地学的手法は伝統的に、データに固有の空間パターンを考慮に入れた信頼性の高い予測を生成するために用いられてきた。 しかし、補助変数の数が増加するにつれて、これらの手法はより労働集約化される。 さらに、従来の機械学習手法は、空間的に相関したデータに苦しむことが多く、地質学的データセットから貴重な非線形情報を抽出する。 これらの制約に対処するため、空間制約ベイズネットワーク(SCB-Net)と呼ばれる新しいアーキテクチャが開発された。 SCB-Netは、空間的に制約された予測を生成しながら、補助変数からの情報を効果的に活用することを目的としている。 第1部は補助変数の下位パターンの学習に焦点をあて、第2部は接地構造データと第1部からの学習埋め込みを統合している。 さらに、モデルの不確実性を評価するために、モンテカルロ・ドロップアウトと呼ばれる手法がベイズ近似として用いられる。 SCB-Netは、カナダのケベック州北部で選択された2つの地域に適用され、フィールドデータに制約のあるリソロジーマップの生成と、意思決定における予測の不確実性の評価を可能にした。 本研究は、特に複雑な空間特徴学習タスクの処理において、統計学における深層ニューラルネットワークの有望な進歩を強調し、空間情報技術の改善につながった。

Geological maps are an extremely valuable source of information for the Earth sciences. They provide insights into mineral exploration, vulnerability to natural hazards, and many other applications. These maps are created using numerical or conceptual models that use geological observations to extrapolate data. Geostatistical techniques have traditionally been used to generate reliable predictions that take into account the spatial patterns inherent in the data. However, as the number of auxiliary variables increases, these methods become more labor-intensive. Additionally, traditional machine learning methods often struggle with spatially correlated data and extracting valuable non-linear information from geoscientific datasets. To address these limitations, a new architecture called the Spatially Constrained Bayesian Network (SCB-Net) has been developed. The SCB-Net aims to effectively exploit the information from auxiliary variables while producing spatially constrained predictions. It is made up of two parts, the first part focuses on learning underlying patterns in the auxiliary variables while the second part integrates ground-truth data and the learned embeddings from the first part. Moreover, to assess model uncertainty, a technique called Monte Carlo dropout is used as a Bayesian approximation. The SCB-Net has been applied to two selected areas in northern Quebec, Canada, and has demonstrated its potential in generating field-data-constrained lithological maps while allowing assessment of prediction uncertainty for decision-making. This study highlights the promising advancements of deep neural networks in geostatistics, particularly in handling complex spatial feature learning tasks, leading to improved spatial information techniques.
翻訳日:2024-04-01 15:34:34 公開日:2024-03-29
# 異なる談話アノテーション・フレームワークにおける談話関係の自動アライメント

Automatic Alignment of Discourse Relations of Different Discourse Annotation Frameworks ( http://arxiv.org/abs/2403.20196v1 )

ライセンス: Link先を確認
Yingxue Fu, (参考訳) 既存の談話コーパスは異なるフレームワークに基づいて注釈付けされており、議論や関係、構造的制約の定義において大きな相違が見られる。 表面的な違いにもかかわらず、これらのフレームワークは談話関係に関する基本的な理解を共有している。 これらのフレームワーク間の関係は、オープンな研究課題であり、特に異なるフレームワークで使用されている関係在庫間の関係性である。 この質問をよりよく理解することは、談話理論の統合と、異なるフレームワークで注釈付けされた談話コーパスの相互運用性の実現に役立ちます。 しかしながら、談話関係在庫間の相関関係を探求する研究は、談話セグメンテーションの異なる基準によって妨げられ、専門家の知識と手作業による検査が必要とされるのが一般的である。 いくつかのセミオートマチックな手法が提案されているが、複数のフレームワークで同時に注釈付けされたコーパスに依存している。 本稿では,課題に対処するための完全自動アプローチを提案する。 具体的には、Zhang et al (2022b) が導入したラベルアンコール型コントラスト学習法を拡張し、分類作業中にラベル埋め込みを学習する。 これらの埋め込みは、異なるフレームワークの談話関係をマッピングするために使われる。 RST-DT (Carlson et al , 2001) とPDTB 3.0 (Prasad et al , 2018) について検討した。

Existing discourse corpora are annotated based on different frameworks, which show significant dissimilarities in definitions of arguments and relations and structural constraints. Despite surface differences, these frameworks share basic understandings of discourse relations. The relationship between these frameworks has been an open research question, especially the correlation between relation inventories utilized in different frameworks. Better understanding of this question is helpful for integrating discourse theories and enabling interoperability of discourse corpora annotated under different frameworks. However, studies that explore correlations between discourse relation inventories are hindered by different criteria of discourse segmentation, and expert knowledge and manual examination are typically needed. Some semi-automatic methods have been proposed, but they rely on corpora annotated in multiple frameworks in parallel. In this paper, we introduce a fully automatic approach to address the challenges. Specifically, we extend the label-anchored contrastive learning method introduced by Zhang et al. (2022b) to learn label embeddings during a classification task. These embeddings are then utilized to map discourse relations from different frameworks. We show experimental results on RST-DT (Carlson et al., 2001) and PDTB 3.0 (Prasad et al., 2018).
翻訳日:2024-04-01 15:24:49 公開日:2024-03-29
# Simplex-Structured Matrix FactorizationのためのDual Simplex Volume Maximization

Dual Simplex Volume Maximization for Simplex-Structured Matrix Factorization ( http://arxiv.org/abs/2403.20197v1 )

ライセンス: Link先を確認
Maryam Abdolali, Giovanni Barbarino, Nicolas Gillis, (参考訳) Simplex-structured matrix factorization (SSMF) は、基本的な解釈可能なデータ解析モデルである非負行列分解の一般化であり、ハイパースペクトルアンミックスやトピックモデリングに応用されている。 同定可能な解を得るには、最小体積の解を見つけるのが標準的な方法である。 ポリトープの双対性/極性の概念を利用して、原始空間の最小体積 SSMF を双対空間の最大体積問題に変換する。 まず、この最大体積双対問題の同定可能性を証明する。 次に、この二重定式化を用いて、SSMFの既存の2種類のアルゴリズム、すなわちボリューム最小化とファセット識別のギャップを埋める新しい最適化手法を提案する。 数値実験により,提案手法は最先端のSSMFアルゴリズムと比較して好適に動作することが示された。

Simplex-structured matrix factorization (SSMF) is a generalization of nonnegative matrix factorization, a fundamental interpretable data analysis model, and has applications in hyperspectral unmixing and topic modeling. To obtain identifiable solutions, a standard approach is to find minimum-volume solutions. By taking advantage of the duality/polarity concept for polytopes, we convert minimum-volume SSMF in the primal space to a maximum-volume problem in the dual space. We first prove the identifiability of this maximum-volume dual problem. Then, we use this dual formulation to provide a novel optimization approach which bridges the gap between two existing families of algorithms for SSMF, namely volume minimization and facet identification. Numerical experiments show that the proposed approach performs favorably compared to the state-of-the-art SSMF algorithms.
翻訳日:2024-04-01 15:24:49 公開日:2024-03-29
# NeuraLunaDTNet:遅延耐性ルナー通信のためのフィードフォワードニューラルネットワークベースのルーティングプロトコル

NeuraLunaDTNet: Feedforward Neural Network-Based Routing Protocol for Delay-Tolerant Lunar Communication Networks ( http://arxiv.org/abs/2403.20199v1 )

ライセンス: Link先を確認
Parth Patel, Milena Radenkovic, (参考訳) 宇宙通信は、重大な遅延、予測の難しい経路、通信障害などの課題を提起する。 遅延耐性ネットワークアーキテクチャは、そのようなシナリオを念頭に置いて特別に設計されており、いくつかの課題に対処するのに適しています。 従来のDTNルーティングプロトコルは、空間通信の本質的な複雑さのため、最適なパフォーマンスを提供できない。 研究者は、最近のAIの進歩を使ってルーティングの課題を軽減することを目指している[9]。 動的に変化する時空間グラフにおける接触計画の学習により,月面通信のためのPRoPHETルーティングプロトコルの効率を向上させる新しいプロトコルであるNeuraLunaDTNetを開発するために,フィードフォワードニューラルネットワークの利用を提案する。

Space Communication poses challenges such as severe delays, hard-to-predict routes and communication disruptions. The Delay Tolerant Network architecture, having been specifically designed keeping such scenarios in mind, is suitable to address some challenges. The traditional DTN routing protocols fall short of delivering optimal performance, due to the inherent complexities of space communication. Researchers have aimed at using recent advancements in AI to mitigate some routing challenges [9]. We propose utilising a feedforward neural network to develop a novel protocol NeuraLunaDTNet, which enhances the efficiency of the PRoPHET routing protocol for lunar communication, by learning contact plans in dynamically changing spatio-temporal graph.
翻訳日:2024-04-01 15:24:49 公開日:2024-03-29
# 分散プロファイルを持つ不特定分散データに対するリッジ回帰の高次元解析

High-dimensional analysis of ridge regression for non-identically distributed data with a variance profile ( http://arxiv.org/abs/2403.20200v1 )

ライセンス: Link先を確認
Jérémie Bigot, Issa-Mbenard Dabo, Camille Male, (参考訳) 高次元線形回帰は、独立分布および同一分布データの文脈で徹底的に研究されている。 本稿では,独立な非独立分散データに対する高次元回帰モデルについて検討する。 この目的のために、観測された予測器(または特徴)の集合は、分散プロファイルを持ち、次元が比例的に増加するランダム行列であると仮定する。 ランダム・エフェクト・モデルと仮定し、そのような分散プロファイルを持つ線形回帰に対するリッジ推定器の予測リスクについて検討する。 この設定では、このリスクとリッジ推定子の自由度の決定論的等価性を提供する。 ある種の分散プロファイルでは、リッジ正規化パラメータがゼロとなるとき、最小ノルム最小二乗推定器の高次元回帰におけるよく知られた二重降下現象の出現が強調される。 また、この予測リスクの形状が二重降下と異なる分散プロファイルを示す。 この結果の証明は、回帰モデルを研究するためにこれまで検討されていない分散プロファイルの存在下でのランダム行列理論のツールに基づいている。 数値実験により、前述の決定論的等価性の精度を、リッジ回帰の予測リスクの計算結果に示す。 また、独立分散データと同一分散データの標準設定で存在する類似点と相違点についても検討する。

High-dimensional linear regression has been thoroughly studied in the context of independent and identically distributed data. We propose to investigate high-dimensional regression models for independent but non-identically distributed data. To this end, we suppose that the set of observed predictors (or features) is a random matrix with a variance profile and with dimensions growing at a proportional rate. Assuming a random effect model, we study the predictive risk of the ridge estimator for linear regression with such a variance profile. In this setting, we provide deterministic equivalents of this risk and of the degree of freedom of the ridge estimator. For certain class of variance profile, our work highlights the emergence of the well-known double descent phenomenon in high-dimensional regression for the minimum norm least-squares estimator when the ridge regularization parameter goes to zero. We also exhibit variance profiles for which the shape of this predictive risk differs from double descent. The proofs of our results are based on tools from random matrix theory in the presence of a variance profile that have not been considered so far to study regression models. Numerical experiments are provided to show the accuracy of the aforementioned deterministic equivalents on the computation of the predictive risk of ridge regression. We also investigate the similarities and differences that exist with the standard setting of independent and identically distributed data.
翻訳日:2024-04-01 15:24:49 公開日:2024-03-29
# 機械学習のための音声信号処理 -話者分離の場合-

Voice Signal Processing for Machine Learning. The Case of Speaker Isolation ( http://arxiv.org/abs/2403.20202v1 )

ライセンス: Link先を確認
Radan Ganchev, (参考訳) 近年の技術開発とともに、音声アシスタントの自動化が普及し、音声信号や人間の音声を処理するアプリケーションへの需要が高まっている。 音声認識タスクは通常、人工知能と機械学習モデルを使用して実行される。 エンドツーエンドモデルが存在するにもかかわらず、信号の適切な前処理はタスクの複雑さを大幅に減らし、より単純なMLモデルと少ない計算資源で解決することができる。 しかし、そのようなタスクに取り組んでいるMLエンジニアは、全く異なる専門分野である信号処理のバックグラウンドを持っていないかもしれない。 本研究の目的は、音声処理タスクの信号分解手法として最もよく用いられるフーリエ変換とウェーブレット変換の簡潔な比較分析を提供することである。 また,SDR(SI-SDR),PESQ(Perceptual Evaluation of Speech Quality),STOI(Short-Time Objective Intelligibility)についても検討した。 展示の詳細なレベルは、特定のMLモデルの分解方法を選択し、微調整し、評価する際に、MLエンジニアが情報的な決定を下すのに十分である。 この展示は、信号処理の深い専門知識のない技術者にテキストをアクセスできるようにするために、直観的な非数学的説明を伴う関連する概念の数学的定義を含んでいる。 形式的な数学的定義と定理の証明は、テキストの簡潔さを維持するために意図的に省略される。

The widespread use of automated voice assistants along with other recent technological developments have increased the demand for applications that process audio signals and human voice in particular. Voice recognition tasks are typically performed using artificial intelligence and machine learning models. Even though end-to-end models exist, properly pre-processing the signal can greatly reduce the complexity of the task and allow it to be solved with a simpler ML model and fewer computational resources. However, ML engineers who work on such tasks might not have a background in signal processing which is an entirely different area of expertise. The objective of this work is to provide a concise comparative analysis of Fourier and Wavelet transforms that are most commonly used as signal decomposition methods for audio processing tasks. Metrics for evaluating speech intelligibility are also discussed, namely Scale-Invariant Signal-to-Distortion Ratio (SI-SDR), Perceptual Evaluation of Speech Quality (PESQ), and Short-Time Objective Intelligibility (STOI). The level of detail in the exposition is meant to be sufficient for an ML engineer to make informed decisions when choosing, fine-tuning, and evaluating a decomposition method for a specific ML model. The exposition contains mathematical definitions of the relevant concepts accompanied with intuitive non-mathematical explanations in order to make the text more accessible to engineers without deep expertise in signal processing. Formal mathematical definitions and proofs of theorems are intentionally omitted in order to keep the text concise.
翻訳日:2024-04-01 15:24:49 公開日:2024-03-29
# 燃焼噂の将来 : 検索・識別・発生

The Future of Combating Rumors? Retrieval, Discrimination, and Generation ( http://arxiv.org/abs/2403.20204v1 )

ライセンス: Link先を確認
Junhao Xu, Longdi Xian, Zening Liu, Mingliang Chen, Qiuyang Yin, Fenghua Song, (参考訳) 人工知能生成コンテンツ(AIGC)技術開発は、誤情報による噂の創造を促進し、社会、経済、政治のエコシステムに影響を与え、民主主義に挑戦している。 現在のうわさ検出努力は、潜在的な誤情報(分類タスク)を単にラベル付けするだけでは不十分であり、問題に不適切な対処を行っており、権威ある機関がソーシャルメディア上の情報を全て取り除くことは現実的ではない。 提案手法は,噂を検知するだけでなく,情報の有効性を否定する説明的コンテンツも提供する。 筆者らが設計したECCW(Expert-Citizen Collective Wisdom)モジュールは,情報の信頼性を高精度に評価し,検索モジュールは情報キーワードに基づいたリアルタイム更新復号データベースから関連知識を検索する役割を担っている。 素早い工学的手法を用いて、結果と知識をLLM(Large Language Model)に供給し、微調整、計算コストの削減、分散化への貢献を省きながら、良好な識別と説明効果を達成する。

Artificial Intelligence Generated Content (AIGC) technology development has facilitated the creation of rumors with misinformation, impacting societal, economic, and political ecosystems, challenging democracy. Current rumor detection efforts fall short by merely labeling potentially misinformation (classification task), inadequately addressing the issue, and it is unrealistic to have authoritative institutions debunk every piece of information on social media. Our proposed comprehensive debunking process not only detects rumors but also provides explanatory generated content to refute the authenticity of the information. The Expert-Citizen Collective Wisdom (ECCW) module we designed aensures high-precision assessment of the credibility of information and the retrieval module is responsible for retrieving relevant knowledge from a Real-time updated debunking database based on information keywords. By using prompt engineering techniques, we feed results and knowledge into a LLM (Large Language Model), achieving satisfactory discrimination and explanatory effects while eliminating the need for fine-tuning, saving computational costs, and contributing to debunking efforts.
翻訳日:2024-04-01 15:24:49 公開日:2024-03-29
# データサイエンスにおける予測的語彙課題に対する大規模言語モデルの可能性

Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science ( http://arxiv.org/abs/2403.20208v1 )

ライセンス: Link先を確認
Yazheng Yang, Yuqi Wang, Sankalok Sen, Lei Li, Qi Liu, (参考訳) データサイエンスの分野において、欠落した値の分類、回帰、計算の予測タスクは、表型データに関連する問題によく遭遇する。 この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。 自然言語を解釈する能力にもかかわらず、LLMは構造化された表データを扱うには不十分である。 この制限は、基礎的なトレーニング中に表データの複雑さに欠けることに起因する。 本研究の目的は、この拡張データセット上で、注釈付きテーブルの包括的コーパスをコンパイルし、Llama-2の大規模トレーニングを実行することにより、このギャップを軽減することである。 さらに、訓練されたモデルをゼロショット予測、少数ショット予測、文脈内学習シナリオに適用する実践的応用について検討する。 大規模な実験を通じて、我々の方法論は既存のベンチマークよりも大幅に改善されている。 これらの進歩は、データサイエンスにおけるテーブル関連問題を解決するためのLLMトレーニングの調整の有効性を強調し、表知性を高めるためにLLMを利用するための新しいベンチマークを確立する。

In the domain of data science, the predictive tasks of classification, regression, and imputation of missing values are commonly encountered challenges associated with tabular data. This research endeavors to apply Large Language Models (LLMs) towards addressing these predictive tasks. Despite their proficiency in comprehending natural language, LLMs fall short in dealing with structured tabular data. This limitation stems from their lacking exposure to the intricacies of tabular data during their foundational training. Our research aims to mitigate this gap by compiling a comprehensive corpus of tables annotated with instructions and executing large-scale training of Llama-2 on this enriched dataset. Furthermore, we investigate the practical application of applying the trained model to zero-shot prediction, few-shot prediction, and in-context learning scenarios. Through extensive experiments, our methodology has shown significant improvements over existing benchmarks. These advancements highlight the efficacy of tailoring LLM training to solve table-related problems in data science, thereby establishing a new benchmark in the utilization of LLMs for enhancing tabular intelligence.
翻訳日:2024-04-01 15:24:49 公開日:2024-03-29
# 旅行セールスマン問題における教師なし学習におけるサイズとハードネスの一般化について

On Size and Hardness Generalization in Unsupervised Learning for the Travelling Salesman Problem ( http://arxiv.org/abs/2403.20212v1 )

ライセンス: Link先を確認
Yimeng Min, Carla P. Gomes, (参考訳) 本研究では,トラベリングセールスマン問題(TSP)における教師なし学習の一般化能力について検討する。 代理損失関数で訓練されたグラフニューラルネットワーク(GNN)を用いて各ノードに埋め込みを生成する。 これらの埋め込みを用いて、各エッジが最適経路の一部である可能性を示すヒートマップを構築する。 次に、最終予測を生成するために局所探索を適用する。 本研究は,教師なし学習手法の結果に異なるトレーニングインスタンスサイズ,埋め込み次元,分布がどう影響するかを考察する。 以上の結果から,より大きなインスタンスサイズでのトレーニングや埋め込み次元の増大により,より効率的な表現が実現され,TSPを解くモデルの能力が向上することが示唆された。 さらに、各分布の一般化を評価する際に、まず各分布の硬さを判定し、異なる硬さが最終結果にどう影響するかを考察する。 その結果,厳密なインスタンスでトレーニングされたモデルはより優れた一般化能力を示し,教師なし学習を用いたTSP解決における適切なトレーニングインスタンスの選択の重要性が示唆された。

We study the generalization capability of Unsupervised Learning in solving the Travelling Salesman Problem (TSP). We use a Graph Neural Network (GNN) trained with a surrogate loss function to generate an embedding for each node. We use these embeddings to construct a heat map that indicates the likelihood of each edge being part of the optimal route. We then apply local search to generate our final predictions. Our investigation explores how different training instance sizes, embedding dimensions, and distributions influence the outcomes of Unsupervised Learning methods. Our results show that training with larger instance sizes and increasing embedding dimensions can build a more effective representation, enhancing the model's ability to solve TSP. Furthermore, in evaluating generalization across different distributions, we first determine the hardness of various distributions and explore how different hardnesses affect the final results. Our findings suggest that models trained on harder instances exhibit better generalization capabilities, highlighting the importance of selecting appropriate training instances in solving TSP using Unsupervised Learning.
翻訳日:2024-04-01 15:24:49 公開日:2024-03-29
# H2RSVLM:大規模視覚言語モデルの構築に向けて

H2RSVLM: Towards Helpful and Honest Remote Sensing Large Vision Language Model ( http://arxiv.org/abs/2403.20213v1 )

ライセンス: Link先を確認
Chao Pang, Jiang Wu, Jiayu Li, Yi Liu, Jiaxing Sun, Weijia Li, Xingxing Weng, Shuai Wang, Litong Feng, Gui-Song Xia, Conghui He, (参考訳) 汎用的な大型ビジョン・ランゲージモデル(VLM)は急速に発展しているが、RS画像の特異性と特殊性、現在のVLMの空間的知覚の相対的制限により、リモートセンシング(RS)領域ではまだ性能が劣っている。 既存のリモートセンシング特定ビジョン言語モデル(RSVLM)は、主に大規模で高品質なRSビジョン言語データセットが欠如しているため、改善の可能性がある。 RSVLMのRS画像に対する理解を深めるだけでなく、局所化やカウントなどの空間認識能力を大幅に向上させ、RSVLMの有用性を高めた。 さらに, RSVLMにおける「ハロシン化」問題に対処するため, RSVLMの自己認識能力向上を目的とした最初のデータセットであるRSSAを開発した。 RSSAは、様々な未解決質問を一般的なRS視覚的質問応答タスクに組み込むことで、真理性を効果的に改善し、モデル出力の幻覚を低減し、RSVLMの誠実さを高める。 これらのデータセットに基づいて,H2RSVLM,Helpful and Honest Remote Sensing Vision Language Modelを提案する。 H2RSVLMは、複数のRSパブリックデータセットで優れたパフォーマンスを達成し、解決不可能な質問を認識し、拒否し、誤った世代を効果的に軽減することができる。 コード、データ、モデルの重み付けはhttps://github.com/opendatalab/H2RSVLM で公開します。

The generic large Vision-Language Models (VLMs) is rapidly developing, but still perform poorly in Remote Sensing (RS) domain, which is due to the unique and specialized nature of RS imagery and the comparatively limited spatial perception of current VLMs. Existing Remote Sensing specific Vision Language Models (RSVLMs) still have considerable potential for improvement, primarily owing to the lack of large-scale, high-quality RS vision-language datasets. We constructed HqDC-1.4M, the large scale High quality and Detailed Captions for RS images, containing 1.4 million image-caption pairs, which not only enhance the RSVLM's understanding of RS images but also significantly improve the model's spatial perception abilities, such as localization and counting, thereby increasing the helpfulness of the RSVLM. Moreover, to address the inevitable "hallucination" problem in RSVLM, we developed RSSA, the first dataset aimed at enhancing the Self-Awareness capability of RSVLMs. By incorporating a variety of unanswerable questions into typical RS visual question-answering tasks, RSSA effectively improves the truthfulness and reduces the hallucinations of the model's outputs, thereby enhancing the honesty of the RSVLM. Based on these datasets, we proposed the H2RSVLM, the Helpful and Honest Remote Sensing Vision Language Model. H2RSVLM has achieved outstanding performance on multiple RS public datasets and is capable of recognizing and refusing to answer the unanswerable questions, effectively mitigating the incorrect generations. We will release the code, data and model weights at https://github.com/opendatalab/H2RSVLM .
翻訳日:2024-04-01 15:24:49 公開日:2024-03-29
# アラビア語WordNetの進化:コンテンツ品質の向上

Advancing the Arabic WordNet: Elevating Content Quality ( http://arxiv.org/abs/2403.20215v1 )

ライセンス: Link先を確認
Abed Alhakim Freihat, Hadi Khalilia, Gábor Bella, Fausto Giunchiglia, (参考訳) 高品質なWordNetは、そのようなリソースに依存するNLPアプリケーションにおいて、高品質な結果を達成するために不可欠である。 しかし、ほとんどの言語のワードネットは、不正確な補題、失語、例文、形態学と言語の意味論の不十分で西洋中心の表現など、それらが定義する単語や単語の意味に関して、真正さと完全さの深刻な問題に悩まされている。 それまでの取り組みは、他の質的な側面を無視しながら、語彙的カバレッジの向上に重点を置いてきた。 本稿では,アラビア語に焦点をあて,複数次元のレキシコ・セマンティックな資源品質に対処するアラビア語WordNetの大規模な改訂を導入する。 その結果,既存のアラビア語のWordNetのシンセセットの58%以上を更新し,不足情報の追加と誤りの修正を行った。 言語多様性と非翻訳性の問題に対処するため,新しい要素であるフレーズと語彙のギャップによってワードネット構造を拡張した。

High-quality WordNets are crucial for achieving high-quality results in NLP applications that rely on such resources. However, the wordnets of most languages suffer from serious issues of correctness and completeness with respect to the words and word meanings they define, such as incorrect lemmas, missing glosses and example sentences, or an inadequate, Western-centric representation of the morphology and the semantics of the language. Previous efforts have largely focused on increasing lexical coverage while ignoring other qualitative aspects. In this paper, we focus on the Arabic language and introduce a major revision of the Arabic WordNet that addresses multiple dimensions of lexico-semantic resource quality. As a result, we updated more than 58% of the synsets of the existing Arabic WordNet by adding missing information and correcting errors. In order to address issues of language diversity and untranslatability, we also extended the wordnet structure by new elements: phrasets and lexical gaps.
翻訳日:2024-04-01 15:24:49 公開日:2024-03-29
# 第二言語学習における分散型エージェントと生成AIによる教育

Distributed agency in second language learning and teaching through generative AI ( http://arxiv.org/abs/2403.20216v1 )

ライセンス: Link先を確認
Robert Godwin-Jones, (参考訳) 生成AIは、言語学習に重要な機会を提供する。 ChatGPTのようなツールは、文章や音声形式のチャットを通じて非公式の第二言語プラクティスを提供することができ、学習者は習熟度、言語レジスタ、議論トピックなどの会話パラメータを指示する。 AIは、修正的なフィードバックを与えたり、実践演習を作成したり、拡張された研究計画を開発するように指示することができる。 インストラクタはAIを使って、さまざまなメディアで学習と評価材料を構築することができる。 AIは没入型技術をより強力で多用途にし、スクリプトによるインタラクションから遠ざかる可能性が高い。 学習者と教師の双方にとって、純粋に統計的に人間の言語モデルから生じるAIシステムの限界を理解することが重要である。 さらに、AIシステムの構築方法に関する倫理的な懸念や、その使用に関する実践的な制約、特に特権の少ない人口に対する懸念もある。 AIツールのパワーと汎用性は、多くの人々の生活において(スマートフォンと同じく)価値ある、絶え間ない仲間になり、単純なツールの使用以上の密接なつながりを生み出すだろう。 社会物質主義のような生態学理論は、密接なユーザーとAIの相互作用を通して発展する共有機関を調べるのに役立つ。

Generative AI offers significant opportunities for language learning. Tools like ChatGPT can provide informal second language practice through chats in written or voice forms, with the learner specifying through prompts conversational parameters such as proficiency level, language register, and discussion topics. AI can be instructed to give corrective feedback, create practice exercises, or develop an extended study plan. Instructors can use AI to build learning and assessment materials in a variety of media. AI is likely to make immersive technologies more powerful and versatile, moving away from scripted interactions. For both learners and teachers, it is important to understand the limitations of AI systems that arise from their purely statistical model of human language, which limits their ability to deal with nuanced social and cultural aspects of language use. Additionally, there are ethical concerns over how AI systems are created as well as practical constraints in their use, especially for less privileged populations. The power and versatility of AI tools are likely to turn them into valuable and constant companions in many peoples lives (akin to smartphones), creating a close connection that goes beyond simple tool use. Ecological theories such as sociomaterialism are helpful in examining the shared agency that develops through close user-AI interactions, as are the perspectives on human-object relations from Indigenous cultures.
翻訳日:2024-04-01 15:24:49 公開日:2024-03-29
# シュレーディンガー型方程式の量子化条件と可解性に関する研究

Study on a Quantization Condition and the Solvability of Schrödinger-type Equations ( http://arxiv.org/abs/2403.20217v1 )

ライセンス: Link先を確認
Yuta Nasuda, (参考訳) この論文では、Schr\"{o}dinger 方程式の可解性に関連する量子化条件について検討する。 この量子化条件はSWKB (supersymmetric Wentzel-Kramers-Brillouin) 量子化条件と呼ばれ、数十年にわたって超対称性量子力学の文脈で知られていた。 この論文の主な内容は次のように再カプセル化される: SWKB量子化条件の基礎と応用。 この論文の前半は、広範囲なケーススタディに基づいて、この状態の基本的な意味を理解することを目的としている。 SWKB量子化条件の正確性は、古典直交多項式による系の正確な可解性を示していることが判明した。 SWKB量子化条件は、SWKBの直接問題と呼ばれるエネルギーの量子化を提供する。 SWKBの逆問題(超ポテンシャルを与えられたエネルギースペクトルから決定する問題)を定式化する。 この定式化は、与えられたエネルギースペクトルから従来の形状不変ポテンシャルをすべて再構成することに成功した。 この定式化により、古典-直交-ポリノミカル準特殊可解な新しい可解ポテンシャルをさらに構成する。 さらに、古典-直交-ポリノミカル準特殊可解ポテンシャルを持つシュル'{o}ディンガー方程式のいくつかの明示的な解を示し、その族はこの理論において特異性関数を持つ調和振動子と呼ばれる。 ある場合、エネルギースペクトルはいくつかの固有状態を持つ等スペクトルとなり、パラメータの特別な選択のための通常の高調波発振器となる。 これにより、通常の高調波発振器と厳密な等角性を持つ無限個のポテンシャルを構成する体系的な方法が定式化される。

In this thesis, we study a quantization condition in relation to the solvability of Schr\"{o}dinger equations. This quantization condition is called the SWKB (supersymmetric Wentzel-Kramers-Brillouin) quantization condition and has been known in the context of supersymmetric quantum mechanics for decades. The main contents of this thesis are recapitulated as follows: the foundation and the application of the SWKB quantization condition. The first half of this thesis aims to understand the fundamental implications of this condition based on extensive case studies. It turns out that the exactness of the SWKB quantization condition indicates the exact solvability of a system via the classical orthogonal polynomials. The SWKB quantization condition provides quantizations of energy, which we call the direct problem of the SWKB. We formulate the inverse problem of the SWKB: the problem of determining the superpotential from a given energy spectrum. The formulation successfully reconstructs all conventional shape-invariant potentials from the given energy spectra. We further construct novel solvable potentials, which are classical-orthogonal-polynomially quasi-exactly solvable, by this formulation. We further demonstrate several explicit solutions of the Schr\"{o}dinger equations with the classical-orthogonal-polynomially quasi-exactly solvable potentials, whose family is referred to as a harmonic oscillator with singularity functions in this thesis. In one case, the energy spectra become isospectral, with several additional eigenstates, to the ordinary harmonic oscillator for special choices of a parameter. By virtue of this, we formulate a systematic way of constructing infinitely many potentials that are strictly isospectral to the ordinary harmonic oscillator.
翻訳日:2024-04-01 15:24:49 公開日:2024-03-29
# IoVにおける分散マルチメディアデータ共有 : 学習に基づく需給均衡

Decentralized Multimedia Data Sharing in IoV: A Learning-based Equilibrium of Supply and Demand ( http://arxiv.org/abs/2403.20218v1 )

ライセンス: Link先を確認
Jiani Fan, Minrui Xu, Jiale Guo, Lwin Khin Shar, Jiawen Kang, Dusit Niyato, Kwok-Yan Lam, (参考訳) インターネット・オブ・ビークルズ(IoV)は、道路の安全性を高め、交通渋滞を軽減し、インフォテインメントアプリケーションを通じてユーザーエクスペリエンスを向上させることにより、交通システムを変革する大きな可能性を秘めている。 分散データ共有は、セキュリティ、プライバシ、信頼性を改善し、IoVにおけるインフォテインメントデータの共有を容易にする。 しかし、分散化されたデータ共有は、共有データを消費するだけでなく、コミュニティにデータを提供したくないIoVユーザーがいれば、期待される効率を達成できない可能性がある。 そこで本稿では、データ共有エコシステムをデータ取引市場としてモデル化することにより、マルチインテリジェント強化学習に基づく分散データ共有インセンティブ機構を提案し、市場における需給バランスを学習し、送信遅延を最小限にする。 提案手法は、供給と需要の頻繁な変動を経験できるIoV市場のダイナミックな性質を考慮したものである。 我々は、IoV内のデータを保護するために、名前付きデータネットワーク(NDN)と組み合わせたKP-ABE(Key-Policy Attribute-Based Encryption)機構を提案する。 さらに、IoVにおける効率的なデータ共有のための分散市場を設計し、継続的な二重オークションを採用する。 提案手法は,市場における需給均衡を学習し,市場の効率性と持続可能性を向上させる。 理論的解析と実験結果から,提案した学習に基づくインセンティブ機構は,送電遅延を20%低減しつつ,供給と需要の均衡を判断する上で,ベースラインを10%向上させることが示された。

The Internet of Vehicles (IoV) has great potential to transform transportation systems by enhancing road safety, reducing traffic congestion, and improving user experience through onboard infotainment applications. Decentralized data sharing can improve security, privacy, reliability, and facilitate infotainment data sharing in IoVs. However, decentralized data sharing may not achieve the expected efficiency if there are IoV users who only want to consume the shared data but are not willing to contribute their own data to the community, resulting in incomplete information observed by other vehicles and infrastructure, which can introduce additional transmission latency. Therefore, in this article, by modeling the data sharing ecosystem as a data trading market, we propose a decentralized data-sharing incentive mechanism based on multi-intelligent reinforcement learning to learn the supply-demand balance in markets and minimize transmission latency. Our proposed mechanism takes into account the dynamic nature of IoV markets, which can experience frequent fluctuations in supply and demand. We propose a time-sensitive Key-Policy Attribute-Based Encryption (KP-ABE) mechanism coupled with Named Data Networking (NDN) to protect data in IoVs, which adds a layer of security to our proposed solution. Additionally, we design a decentralized market for efficient data sharing in IoVs, where continuous double auctions are adopted. The proposed mechanism based on multi-agent deep reinforcement learning can learn the supply-demand equilibrium in markets, thus improving the efficiency and sustainability of markets. Theoretical analysis and experimental results show that our proposed learning-based incentive mechanism outperforms baselines by 10% in determining the equilibrium of supply and demand while reducing transmission latency by 20%.
翻訳日:2024-04-01 15:24:49 公開日:2024-03-29
# 転移性を有するグラフニューラルアグリゲーション拡散

Graph Neural Aggregation-diffusion with Metastability ( http://arxiv.org/abs/2403.20221v1 )

ライセンス: Link先を確認
Kaiyuan Cui, Xinyan Wang, Zicheng Zhang, Weichen Zhao, (参考訳) 微分方程式に基づく連続グラフニューラルネットワークモデルは、グラフニューラルネットワーク(GNN)のアーキテクチャを拡張した。 グラフ拡散とメッセージパッシングの関連性から,拡散モデルが広く研究されている。 しかし、拡散は自然に系を平衡状態へと誘導し、過剰な平滑化のような問題を引き起こす。 この目的のために,相互作用ポテンシャルによって誘導される非線形拡散と凝集の微妙なバランスを含むグラフ集合拡散方程式に着想を得たGRADEを提案する。 集約拡散方程式により得られたノード表現は転移性を示し、特徴が複数のクラスタに集約可能であることを示す。 さらに、これらのクラスター内のダイナミクスは長期間持続し、過度なスムース効果を緩和する可能性がある。 この非線形拡散は、既存の拡散ベースモデルを一般化し、古典的なGNNとの接続を確立する。 我々はGRADEが様々なベンチマークで競合性能を達成し、拡張ディリクレエネルギーによって証明されたGNNの過度な問題を軽減することを証明した。

Continuous graph neural models based on differential equations have expanded the architecture of graph neural networks (GNNs). Due to the connection between graph diffusion and message passing, diffusion-based models have been widely studied. However, diffusion naturally drives the system towards an equilibrium state, leading to issues like over-smoothing. To this end, we propose GRADE inspired by graph aggregation-diffusion equations, which includes the delicate balance between nonlinear diffusion and aggregation induced by interaction potentials. The node representations obtained through aggregation-diffusion equations exhibit metastability, indicating that features can aggregate into multiple clusters. In addition, the dynamics within these clusters can persist for long time periods, offering the potential to alleviate over-smoothing effects. This nonlinear diffusion in our model generalizes existing diffusion-based models and establishes a connection with classical GNNs. We prove that GRADE achieves competitive performance across various benchmarks and alleviates the over-smoothing issue in GNNs evidenced by the enhanced Dirichlet energy.
翻訳日:2024-04-01 15:24:49 公開日:2024-03-29
# 低レイテンシ検索のための浅層クロスエンコーダ

Shallow Cross-Encoders for Low-Latency Retrieval ( http://arxiv.org/abs/2403.20222v1 )

ライセンス: Link先を確認
Aleksandr V. Petrov, Sean MacAvaney, Craig Macdonald, (参考訳) トランスフォーマーベースのクロスエンコーダは,テキスト検索における最先端の有効性を実現する。 しかし、BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しか得点できない。 しかし,検索遅延を低く保つことは,ユーザの満足度やエネルギー使用量にとって重要である。 本稿では, より弱い浅層変圧器モデル(すなわち, 層数に制限のある変圧器モデル)が, 実際の低レイテンシ設定に制約された場合, 同時に, より多くの文書の関連性を推定できるため, 実際の実測モデルよりも優れていることを示す。 さらに、浅層変圧器は、近年の推薦タスクの成功例である一般化されたバイナリクロスエントロピー(gBCE)トレーニングスキームの恩恵を受ける可能性があることを示す。 TRECディープラーニングパスランキングクエリセットを用いた実験により,低レイテンシシナリオにおける浅層モデルとフルスケールモデルの大幅な改善が示された。 例えば、クエリ毎のレイテンシ制限が25msである場合、MonoBERT-Large(フルスケールのBERTモデルに基づくクロスエンコーダ)は、TREC DL 2019で0.431のNDCG@10しか達成できず、TinyBERT-gBCE(gBCEでトレーニングされたTinyBERTをベースとしたクロスエンコーダ)は0.652のNDCG@10に達し、MonoBERT-Largeよりも51%も向上している。 また、GPUを使わずに使用しても浅いクロスエンコーダが有効であることを示す(例えば、CPU推論では、NDCG@10はGPU推論では50msレイテンシで3%しか低下しない)。

Transformer-based Cross-Encoders achieve state-of-the-art effectiveness in text retrieval. However, Cross-Encoders based on large transformer models (such as BERT or T5) are computationally expensive and allow for scoring only a small number of documents within a reasonably small latency window. However, keeping search latencies low is important for user satisfaction and energy usage. In this paper, we show that weaker shallow transformer models (i.e., transformers with a limited number of layers) actually perform better than full-scale models when constrained to these practical low-latency settings since they can estimate the relevance of more documents in the same time budget. We further show that shallow transformers may benefit from the generalized Binary Cross-Entropy (gBCE) training scheme, which has recently demonstrated success for recommendation tasks. Our experiments with TREC Deep Learning passage ranking query sets demonstrate significant improvements in shallow and full-scale models in low-latency scenarios. For example, when the latency limit is 25ms per query, MonoBERT-Large (a cross-encoder based on a full-scale BERT model) is only able to achieve NDCG@10 of 0.431 on TREC DL 2019, while TinyBERT-gBCE (a cross-encoder based on TinyBERT trained with gBCE) reaches NDCG@10 of 0.652, a +51% gain over MonoBERT-Large. We also show that shallow Cross-Encoders are effective even when used without a GPU (e.g., with CPU inference, NDCG@10 decreases only by 3% compared to GPU inference with 50ms latency), which makes Cross-Encoders practical to run even without specialized hardware acceleration.
翻訳日:2024-04-01 15:24:49 公開日:2024-03-29
# MTMMC: 大規模実世界のマルチモードカメラ追跡ベンチマーク

MTMMC: A Large-Scale Real-World Multi-Modal Camera Tracking Benchmark ( http://arxiv.org/abs/2403.20225v1 )

ライセンス: Link先を確認
Sanghyun Woo, Kwanyong Park, Inkyu Shin, Myungchul Kim, In So Kweon, (参考訳) マルチターゲットマルチカメラトラッキングは、複数のカメラからのビデオストリームを使用して個人を特定し、追跡する重要なタスクである。 このタスクは、視覚的監視、群衆行動分析、異常検出など、様々な分野で実用化されている。 しかし、データの収集とラベル付けの難しさとコストのため、既存のデータセットは、制御されたカメラネットワーク設定内で合成または人工的に構築され、現実世界のダイナミクスをモデル化し、多様なカメラ構成に一般化する能力を制限する。 この問題に対処するため、MTMMCは実世界の大規模データセットで、キャンパスと工場の2つの異なる環境で16台のマルチモーダルカメラが捉えた長いビデオシーケンスを含む。 このデータセットは、様々な実世界の複雑さの下でマルチカメラトラッキングを研究する上で困難なテストベッドを提供し、空間的に整列し、時間的に同期されたRGBとサーマルカメラの入力モードを追加し、マルチカメラトラッキングの精度を高める。 MTMMCは既存のデータセットのスーパーセットであり、人物検出、再識別、複数のオブジェクト追跡といった独立した分野の恩恵を受けている。 このデータセットにベースラインと新たな学習設定を提供し、将来の研究のための基準スコアを設定します。 データセット、モデル、テストサーバが公開される。

Multi-target multi-camera tracking is a crucial task that involves identifying and tracking individuals over time using video streams from multiple cameras. This task has practical applications in various fields, such as visual surveillance, crowd behavior analysis, and anomaly detection. However, due to the difficulty and cost of collecting and labeling data, existing datasets for this task are either synthetically generated or artificially constructed within a controlled camera network setting, which limits their ability to model real-world dynamics and generalize to diverse camera configurations. To address this issue, we present MTMMC, a real-world, large-scale dataset that includes long video sequences captured by 16 multi-modal cameras in two different environments - campus and factory - across various time, weather, and season conditions. This dataset provides a challenging test-bed for studying multi-camera tracking under diverse real-world complexities and includes an additional input modality of spatially aligned and temporally synchronized RGB and thermal cameras, which enhances the accuracy of multi-camera tracking. MTMMC is a super-set of existing datasets, benefiting independent fields such as person detection, re-identification, and multiple object tracking. We provide baselines and new learning setups on this dataset and set the reference scores for future studies. The datasets, models, and test server will be made publicly available.
翻訳日:2024-04-01 15:14:57 公開日:2024-03-29
# Convolution-Transformer Hybrid EfficientViTのためのFPGAによる再構成可能加速器

An FPGA-Based Reconfigurable Accelerator for Convolution-Transformer Hybrid EfficientViT ( http://arxiv.org/abs/2403.20230v1 )

ライセンス: Link先を確認
Haikuo Shao, Huihong Shi, Wendong Mao, Zhongfeng Wang, (参考訳) ビジョントランスフォーマー (ViT) はコンピュータビジョンにおいて大きな成功を収めた。 しかし、彼らの集約的な計算と大規模なメモリフットプリントは、ViTの組み込みデバイスへのデプロイに挑戦し、効率的なViTを要求する。 中でも最先端のEfficientViTは、Convolution-Transformerハイブリッドアーキテクチャを備え、精度とハードウェア効率の両面で向上している。 残念ながら、既存のアクセラレータは独自のアーキテクチャのため、EfficientViTのハードウェアメリットを完全に活用することはできない。 本稿では,VTのハードウェア効率フロンティアを向上するためのFPGAベースのEfficientViTアクセラレータを提案する。 具体的には、軽量な畳み込みや注意、ハードウェア利用の促進など、様々な操作タイプを効率的にサポートする再構成可能なアーキテクチャを設計する。 さらに、階層内および層間融合を容易にし、オフチップデータアクセスコストを低減するために、時間多重およびパイプラインデータフローを提案する。 実験の結果,Xilinx ZCU102 FPGAでは,スループット780.2 GOPS,エネルギー効率105.1 GOPS/Wを200MHzで達成した。

Vision Transformers (ViTs) have achieved significant success in computer vision. However, their intensive computations and massive memory footprint challenge ViTs' deployment on embedded devices, calling for efficient ViTs. Among them, EfficientViT, the state-of-the-art one, features a Convolution-Transformer hybrid architecture, enhancing both accuracy and hardware efficiency. Unfortunately, existing accelerators cannot fully exploit the hardware benefits of EfficientViT due to its unique architecture. In this paper, we propose an FPGA-based accelerator for EfficientViT to advance the hardware efficiency frontier of ViTs. Specifically, we design a reconfigurable architecture to efficiently support various operation types, including lightweight convolutions and attention, boosting hardware utilization. Additionally, we present a time-multiplexed and pipelined dataflow to facilitate both intra- and inter-layer fusions, reducing off-chip data access costs. Experimental results show that our accelerator achieves up to 780.2 GOPS in throughput and 105.1 GOPS/W in energy efficiency at 200MHz on the Xilinx ZCU102 FPGA, which significantly outperforms prior works.
翻訳日:2024-04-01 15:14:57 公開日:2024-03-29
# U-VAP:Decoupled Self Augmentationによるユーザ特定ビジュアル外観パーソナライゼーション

U-VAP: User-specified Visual Appearance Personalization via Decoupled Self Augmentation ( http://arxiv.org/abs/2403.20231v1 )

ライセンス: Link先を確認
You Wu, Kean Liu, Xiaoyue Mi, Fan Tang, Juan Cao, Jintao Li, (参考訳) 概念のパーソナライズ手法により、大きなテキスト・ツー・イメージモデルでは、特定の主題(例えば、オブジェクト/目的/3Dモデル)を学習し、新しい文脈における再帰を合成することができる。 画像参照が視覚特性に非常に偏りがあることを考えると、最先端のパーソナライズモデルでは被写体全体をオーバーフィットさせがちであり、画素空間における視覚特性を歪ませることができない。 本研究では,より難易度の高い視覚的外観のパーソナライゼーションを提案する。 既存の方法とは違って,所望の属性を記述した文をユーザに提供することができる。 ユーザ固有の視覚属性を学習するために,ターゲット関連および非ターゲットサンプルを生成するために,新たなデカップリング自己拡張戦略を提案する。 これらの強化されたデータは、無関係な属性の影響を緩和しながら、モデルが対象属性について理解を深めることを可能にする。 推論段階では、学習対象と非対象埋め込みを通した意味空間の調整を行い、対象属性の絡み合いをさらに高める。 SOTAパーソナライズ手法を用いた様々な視覚特性に関する広範囲な実験は、新規な文脈における対象の視覚的外観を模倣する手法の能力を示し、パーソナライゼーションの制御性と柔軟性を向上させる。

Concept personalization methods enable large text-to-image models to learn specific subjects (e.g., objects/poses/3D models) and synthesize renditions in new contexts. Given that the image references are highly biased towards visual attributes, state-of-the-art personalization models tend to overfit the whole subject and cannot disentangle visual characteristics in pixel space. In this study, we proposed a more challenging setting, namely fine-grained visual appearance personalization. Different from existing methods, we allow users to provide a sentence describing the desired attributes. A novel decoupled self-augmentation strategy is proposed to generate target-related and non-target samples to learn user-specified visual attributes. These augmented data allow for refining the model's understanding of the target attribute while mitigating the impact of unrelated attributes. At the inference stage, adjustments are conducted on semantic space through the learned target and non-target embeddings to further enhance the disentanglement of target attributes. Extensive experiments on various kinds of visual attributes with SOTA personalization methods show the ability of the proposed method to mimic target visual appearance in novel contexts, thus improving the controllability and flexibility of personalization.
翻訳日:2024-04-01 15:14:57 公開日:2024-03-29
# 機械学習のための機能バイレベル最適化

Functional Bilevel Optimization for Machine Learning ( http://arxiv.org/abs/2403.20233v1 )

ライセンス: Link先を確認
Ieva Petrulionyte, Julien Mairal, Michael Arbel, (参考訳) 本稿では,関数空間上での内的目的を最小化する機械学習における二段階最適化問題に対する新たな機能的視点を提案する。 これらの問題は、パラメータ関数のパラメータに関して内的目的が強く凸であるパラメトリック設定で開発された手法を用いることで、最もよく解決される。 機能的な視点は、この仮定に頼らず、特に内部予測関数として過度にパラメータ化されたニューラルネットワークを使用できる。 本稿では,機能的二レベル最適化問題に対するスケーラブルで効率的なアルゴリズムを提案し,自然な機能的二レベル構造を持つインストゥルメンタルレグレッションおよび強化学習タスクに対するアプローチの利点を解説する。

In this paper, we introduce a new functional point of view on bilevel optimization problems for machine learning, where the inner objective is minimized over a function space. These types of problems are most often solved by using methods developed in the parametric setting, where the inner objective is strongly convex with respect to the parameters of the prediction function. The functional point of view does not rely on this assumption and notably allows using over-parameterized neural networks as the inner prediction function. We propose scalable and efficient algorithms for the functional bilevel optimization problem and illustrate the benefits of our approach on instrumental regression and reinforcement learning tasks, which admit natural functional bilevel structures.
翻訳日:2024-04-01 15:14:57 公開日:2024-03-29
# 人工ニューラルネットワークを用いた人工神経インタフェースのためのENG信号のリアルタイム分類

Artificial Neural Networks-based Real-time Classification of ENG Signals for Implanted Nerve Interfaces ( http://arxiv.org/abs/2403.20234v1 )

ライセンス: Link先を確認
ntonio Coviello, Francesco Linsalata, Umberto Spagnolini, Maurizio Magarini, (参考訳) 神経病理は、患者の生活を永久に危険にさらすリスクがあるため、臨床環境では高い関連性が高まっている。 患者の回復を支援するために、完全に移植されたデバイスの使用が、最も有望な解決策の1つとして浮上している。 しかしながら、これらのデバイスは、完全に複雑な神経ナノネットワークシステムの一部となるとしても、多くの課題を生じさせる。 本稿では,運動・感覚刺激の分類からなり,その1つに対処する。 この課題は、ラットの坐骨神経で測定された心電図(ENG)信号から4種類の人工ニューラルネットワーク(ANN)を抽出し、様々な感覚刺激を抽出することによって行われる。 各データセットの異なるサイズは, 精度, F1スコア, 予測時間の比較により, リアルタイム分類におけるANNの有効性を解析できると考えられる。 ANNの設計では、ENG信号をMIMO(Multiple-input multiple-output)システムとしてモデル化し、最先端の人工神経インタフェースによる計測を記述している。 これらは、神経活動のナノスケール空間的識別を実現するための多接触カフ電極の使用に基づいている。 MIMO ENG信号モデルも本論文の貢献である。 以上の結果から,ANNはリアルタイムアプリケーションに適しており,100ドルおよび200ドル以上の信号ウィンドウに対して90 %以上のアキュラシーを達成できる。

Neuropathies are gaining higher relevance in clinical settings, as they risk permanently jeopardizing a person's life. To support the recovery of patients, the use of fully implanted devices is emerging as one of the most promising solutions. However, these devices, even if becoming an integral part of a fully complex neural nanonetwork system, pose numerous challenges. In this article, we address one of them, which consists of the classification of motor/sensory stimuli. The task is performed by exploring four different types of artificial neural networks (ANNs) to extract various sensory stimuli from the electroneurographic (ENG) signal measured in the sciatic nerve of rats. Different sizes of the data sets are considered to analyze the feasibility of the investigated ANNs for real-time classification through a comparison of their performance in terms of accuracy, F1-score, and prediction time. The design of the ANNs takes advantage of the modelling of the ENG signal as a multiple-input multiple-output (MIMO) system to describe the measures taken by state-of-the-art implanted nerve interfaces. These are based on the use of multi-contact cuff electrodes to achieve nanoscale spatial discrimination of the nerve activity. The MIMO ENG signal model is another contribution of this paper. Our results show that some ANNs are more suitable for real-time applications, being capable of achieving accuracies over $90\%$ for signal windows of $100$ and $200\,$ms with a low enough processing time to be effective for pathology recovery.
翻訳日:2024-04-01 15:14:57 公開日:2024-03-29
# 学習可能なクラス名を用いた長距離異常検出

Long-Tailed Anomaly Detection with Learnable Class Names ( http://arxiv.org/abs/2403.20236v1 )

ライセンス: Link先を確認
Chih-Hui Ho, Kuan-Chuan Peng, Nuno Vasconcelos, (参考訳) 異常検出(AD)は、欠陥画像を特定し、その欠陥を(もしあれば)ローカライズすることを目的としている。 理想的には、ADモデルは、多くのイメージクラスにまたがる欠陥を検出でき、データセット間で非形式的または一貫性のないハードコードされたクラス名に頼ることなく、異常な監視なしに学習し、現実世界のアプリケーションの長い尾の分布に対して堅牢であるべきである。 これらの課題に対処するために、クラス不均衡のレベルが異なる複数のデータセットを導入し、パフォーマンス評価のためのメトリクスを導入することで、長期ADの問題を定式化する。 次に、データセットのクラス名に頼ることなく、複数の長い尾を持つクラスから欠陥を検出する新しい手法LTADを提案する。 LTADは、再構築と意味的なADモジュールによってADを結合する。 AD を変換器ベースの再構成モジュールで実装する。 セマンティックADは、学習された擬似クラス名と事前訓練された基礎モデルに依存するバイナリ分類器で実装される。 これらのモジュールは2つのフェーズで学習される。 フェーズ1は擬似クラス名と変分オートエンコーダ(VAE)を学習し、ロングテールと戦うためにトレーニングデータを増強する特徴合成を行う。 フェーズ2では、LTADの再構成および分類モジュールのパラメータを学習する。 提案した長い尾のデータセットを用いた大規模な実験は、LTADがほとんどの形式のデータセットの不均衡に対して最先端の手法を大幅に上回っていることを示している。 長い尾のデータセットの分割はhttps://zenodo.org/records/10854201で公開されている。

Anomaly detection (AD) aims to identify defective images and localize their defects (if any). Ideally, AD models should be able to detect defects over many image classes; without relying on hard-coded class names that can be uninformative or inconsistent across datasets; learn without anomaly supervision; and be robust to the long-tailed distributions of real-world applications. To address these challenges, we formulate the problem of long-tailed AD by introducing several datasets with different levels of class imbalance and metrics for performance evaluation. We then propose a novel method, LTAD, to detect defects from multiple and long-tailed classes, without relying on dataset class names. LTAD combines AD by reconstruction and semantic AD modules. AD by reconstruction is implemented with a transformer-based reconstruction module. Semantic AD is implemented with a binary classifier, which relies on learned pseudo class names and a pretrained foundation model. These modules are learned over two phases. Phase 1 learns the pseudo-class names and a variational autoencoder (VAE) for feature synthesis that augments the training data to combat long-tails. Phase 2 then learns the parameters of the reconstruction and classification modules of LTAD. Extensive experiments using the proposed long-tailed datasets show that LTAD substantially outperforms the state-of-the-art methods for most forms of dataset imbalance. The long-tailed dataset split is available at https://zenodo.org/records/10854201 .
翻訳日:2024-04-01 15:14:57 公開日:2024-03-29
# クラスおよび特徴セントロイドを用いた次元誘導散乱プロットの強化

Enhancing Dimension-Reduced Scatter Plots with Class and Feature Centroids ( http://arxiv.org/abs/2403.20246v1 )

ライセンス: Link先を確認
Daniel B. Hier, Tayo Obafemi-Ajayi, Gayla R. Olbricht, Devin M. Burns, Sasha Petrenko, Donald C. Wunsch II, (参考訳) 次元減少は、その解釈性を改善するために、高次元の生医学データにますます適用される。 データセットが2次元に縮小されると、各観測は x と y の座標に割り当てられ、散乱プロット上の点として表される。 重要な課題は、次元減少に固有の複雑さのため、x と y の軸の意味を解釈することである。 本研究は, 次元減少から導出されるx, y座標を用いて, 散乱プロット上にオーバーレイ可能なクラスおよび特徴セントロイドを計算することで, この課題に対処する。 この方法は、低次元空間を元の高次元空間に接続する。 本稿では,3つの神経遺伝疾患の表現型から得られたデータを用いて,本手法の有用性について述べる。

Dimension reduction is increasingly applied to high-dimensional biomedical data to improve its interpretability. When datasets are reduced to two dimensions, each observation is assigned an x and y coordinates and is represented as a point on a scatter plot. A significant challenge lies in interpreting the meaning of the x and y axes due to the complexities inherent in dimension reduction. This study addresses this challenge by using the x and y coordinates derived from dimension reduction to calculate class and feature centroids, which can be overlaid onto the scatter plots. This method connects the low-dimension space to the original high-dimensional space. We illustrate the utility of this approach with data derived from the phenotypes of three neurogenetic diseases and demonstrate how the addition of class and feature centroids increases the interpretability of scatter plots.
翻訳日:2024-04-01 15:14:57 公開日:2024-03-29
# 拡散モデルにおける関係の定式化

Relation Rectification in Diffusion Model ( http://arxiv.org/abs/2403.20249v1 )

ライセンス: Link先を確認
Yinwei Wu, Xingyi Yang, Xinchao Wang, (参考訳) 例外的な生成能力にもかかわらず、大きなテキストと画像の拡散モデルは、熟練したが不注意な芸術家のように、しばしばオブジェクト間の視覚的関係を正確に描写するのに苦労する。 この問題は、慎重に分析することで、特定の関係を解釈し、関連するオブジェクトの論理的順序を区別するのに苦労する、不整合テキストエンコーダから生じる。 そこで本研究では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを提案する。 そこで我々は,HGCN (Heterogeneous Graph Convolutional Network) を用いた革新的な手法を提案する。 入力プロンプト内の関係項と対応するオブジェクト間の方向関係をモデル化する。 具体的には、HGCNを2つのプロンプトに最適化し、同一のリレーショナルワードを持つが、いくつかの参照画像で補足されたオブジェクト順序を反転させる。 軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。 重要なことは、本手法はテキストエンコーダと拡散モデルのパラメータを保持し、無関係な記述に対するモデルの頑健な性能を保っている。 我々は,画像生成における定量的・質的な拡張と,正確な視覚的関係を持つ画像生成の両面を実証し,多種多様な関係データの新たに収集したデータセットに対するアプローチを検証した。 プロジェクトページ:https://wuyinwei-hah.github.io/rrnet.github.io/

Despite their exceptional generative abilities, large text-to-image diffusion models, much like skilled but careless artists, often struggle with accurately depicting visual relationships between objects. This issue, as we uncover through careful analysis, arises from a misaligned text encoder that struggles to interpret specific relationships and differentiate the logical order of associated objects. To resolve this, we introduce a novel task termed Relation Rectification, aiming to refine the model to accurately represent a given relationship it initially fails to generate. To address this, we propose an innovative solution utilizing a Heterogeneous Graph Convolutional Network (HGCN). It models the directional relationships between relation terms and corresponding objects within the input prompts. Specifically, we optimize the HGCN on a pair of prompts with identical relational words but reversed object orders, supplemented by a few reference images. The lightweight HGCN adjusts the text embeddings generated by the text encoder, ensuring the accurate reflection of the textual relation in the embedding space. Crucially, our method retains the parameters of the text encoder and diffusion model, preserving the model's robust performance on unrelated descriptions. We validated our approach on a newly curated dataset of diverse relational data, demonstrating both quantitative and qualitative enhancements in generating images with precise visual relations. Project page: https://wuyinwei-hah.github.io/rrnet.github.io/.
翻訳日:2024-04-01 15:14:57 公開日:2024-03-29
# マルチアクションシナリオにおける観測データを用いた最適政策学習:推定、リスク優先、潜在的な失敗

Optimal Policy Learning with Observational Data in Multi-Action Scenarios: Estimation, Risk Preference, and Potential Failures ( http://arxiv.org/abs/2403.20250v1 )

ライセンス: Link先を確認
Giovanni Cerulli, (参考訳) 本稿では,観測データを用いた最適政策学習(OPL)をマルチアクション(あるいはマルチアーム)設定で扱う。 それは、見積もり、リスク優先、潜在的な失敗の3つの部分に分かれています。 第1部では、この分析の文脈における報酬(または価値)関数と最適ポリシーを推定するための重要なアプローチについて、簡単なレビューを提供している。 ここでは、オフライン最適政策学習推定器に関する識別仮定と統計特性について述べる。 第2部では、意思決定リスクの分析を掘り下げます。 この分析から, 最適選択は, リスクに対する意思決定者の態度, 特に報酬条件平均と条件変数のトレードオフに影響を及ぼす可能性が示唆された。 本稿では,提案手法を実データに適用し,多値化政策に対する平均的後悔はリスクに対する意思決定者の態度に起因していることを示す。 論文の第3部では、意思決定が困難となる条件を強調することにより、最適なデータ駆動型意思決定の限界について論じる。 この側面は、最適選択を特定するのに不可欠な2つの基本的な仮定の失敗と関連している。 (i)重なり、そして (二)未定。 いくつかの結論が論文を締めくくった。

This paper deals with optimal policy learning (OPL) with observational data, i.e. data-driven optimal decision-making, in multi-action (or multi-arm) settings, where a finite set of decision options is available. It is organized in three parts, where I discuss respectively: estimation, risk preference, and potential failures. The first part provides a brief review of the key approaches to estimating the reward (or value) function and optimal policy within this context of analysis. Here, I delineate the identification assumptions and statistical properties related to offline optimal policy learning estimators. In the second part, I delve into the analysis of decision risk. This analysis reveals that the optimal choice can be influenced by the decision maker's attitude towards risks, specifically in terms of the trade-off between reward conditional mean and conditional variance. Here, I present an application of the proposed model to real data, illustrating that the average regret of a policy with multi-valued treatment is contingent on the decision-maker's attitude towards risk. The third part of the paper discusses the limitations of optimal data-driven decision-making by highlighting conditions under which decision-making can falter. This aspect is linked to the failure of the two fundamental assumptions essential for identifying the optimal choice: (i) overlapping, and (ii) unconfoundedness. Some conclusions end the paper.
翻訳日:2024-04-01 15:14:57 公開日:2024-03-29
# Occlusion Robust Head Pose 推定のための潜伏埋め込みクラスタリング

Latent Embedding Clustering for Occlusion Robust Head Pose Estimation ( http://arxiv.org/abs/2403.20251v1 )

ライセンス: Link先を確認
José Celestino, Manuel Marques, Jacinto C. Nascimento, (参考訳) 頭部ポーズ推定は、ロボット工学、監視、運転注意監視など幅広い用途で有用であることを考えると、コンピュータビジョンにおいて重要な研究領域となっている。 この分野で最も難しい課題の1つは、現実世界のシナリオで頻繁に発生するヘッドオクルージョンの管理である。 本稿では,現実の頭部閉塞のシナリオにおいて頑健な,新規で効率的な枠組みを提案する。 特に,各ポーズ角に対して回帰成分と分類成分を有する非教師なし潜在埋め込みクラスタリングを提案する。 このモデルは、クラスタリング項を通して、隠蔽画像と非隠蔽画像の潜在特徴表現を最適化し、きめ細かい角度予測を改善した。 In-theld Head poseベンチマークデータセットの実験的評価により、最先端の手法と比較して競争性能が向上し、データ量の大幅な削減が期待できる。 我々は,隠蔽頭部ポーズ推定の大幅な改善を観察した。 また,提案フレームワークにおけるクラスタリング項の影響を確認するため,アブレーション実験を行った。

Head pose estimation has become a crucial area of research in computer vision given its usefulness in a wide range of applications, including robotics, surveillance, or driver attention monitoring. One of the most difficult challenges in this field is managing head occlusions that frequently take place in real-world scenarios. In this paper, we propose a novel and efficient framework that is robust in real world head occlusion scenarios. In particular, we propose an unsupervised latent embedding clustering with regression and classification components for each pose angle. The model optimizes latent feature representations for occluded and non-occluded images through a clustering term while improving fine-grained angle predictions. Experimental evaluation on in-the-wild head pose benchmark datasets reveal competitive performance in comparison to state-of-the-art methodologies with the advantage of having a significant data reduction. We observe a substantial improvement in occluded head pose estimation. Also, an ablation study is conducted to ascertain the impact of the clustering term within our proposed framework.
翻訳日:2024-04-01 15:14:57 公開日:2024-03-29
# LLMを用いた目標人口の信念と嗜好のモデル化

Using LLMs to Model the Beliefs and Preferences of Targeted Populations ( http://arxiv.org/abs/2403.20252v1 )

ライセンス: Link先を確認
Keiichi Namikoshi, Alex Filipowicz, David A. Shamma, Rumen Iliev, Candice L. Hogan, Nikos Arechiga, (参考訳) 本研究では,人間の嗜好をモデル化する大規模言語モデル (LLM) の整合性について考察する。 特定の集団の信念、嗜好、行動のモデル化は、新製品のシミュレートされたフォーカスグループの実行、バーチャルサーベイの実行、行動介入のテスト、特に高価で非現実的で非倫理的な介入など、様々な応用に有用である。 既存の作業は、異なるコンテキストにおける人間の振る舞いを正確にモデル化するために、LLMを使用して混合的に成功している。 電池電気自動車(BEV)の選好調査において,2つのよく知られた微調整手法のベンチマークと評価を行い,実際の人間の嗜好に合致する集団の評価を行った。 本研究は, 人口統計の整合性, 個々の反応の整合性, および両者のトレードオフ制御における温度の役割について検討した。 さらに,数値応答を必要とする応答に対するモデル性能を向上させるために,新しい損失項を提案し,評価する。

We consider the problem of aligning a large language model (LLM) to model the preferences of a human population. Modeling the beliefs, preferences, and behaviors of a specific population can be useful for a variety of different applications, such as conducting simulated focus groups for new products, conducting virtual surveys, and testing behavioral interventions, especially for interventions that are expensive, impractical, or unethical. Existing work has had mixed success using LLMs to accurately model human behavior in different contexts. We benchmark and evaluate two well-known fine-tuning approaches and evaluate the resulting populations on their ability to match the preferences of real human respondents on a survey of preferences for battery electric vehicles (BEVs). We evaluate our models against their ability to match population-wide statistics as well as their ability to match individual responses, and we investigate the role of temperature in controlling the trade-offs between these two. Additionally, we propose and evaluate a novel loss term to improve model performance on responses that require a numeric response.
翻訳日:2024-04-01 15:14:57 公開日:2024-03-29
# MedCLIP-SAM:Universal Medical Image Segmentationに向けたテキストと画像のブリッジ

MedCLIP-SAM: Bridging Text and Image Towards Universal Medical Image Segmentation ( http://arxiv.org/abs/2403.20253v1 )

ライセンス: Link先を確認
Taha Koleilat, Hojat Asgariandehkordi, Hassan Rivaz, Yiming Xiao, (参考訳) 解剖学的構造と病理の医学的イメージセグメンテーションは、現代の臨床診断、疾患研究、治療計画において重要である。 これまで、ディープラーニングベースのセグメンテーション技術は大きな進歩を遂げてきたが、ほとんどの手法はデータ効率、一般化可能性、相互作用性に欠けていた。 したがって、ラベル付きデータセットの少ない新しい正確なセグメンテーション手法の開発は、医療画像解析において非常に重要である。 近年、CLIPやSAM(Segment-Anything-Model)などの基盤モデルが出現し、包括的なクロスドメイン表現が登場し、インタラクティブで普遍的なイメージセグメンテーションの扉が開かれた。 しかし、これらのデータ効率の良い医用画像分割のためのモデル探索は依然として限られているが、非常に必要である。 本稿では,CLIPモデルとSAMモデルを組み合わせて,ゼロショットと弱教師付き設定の両方でテキストプロンプトを用いて臨床スキャンのセグメンテーションを生成する,MedCLIP-SAMという新しいフレームワークを提案する。 そこで我々は,BiomedCLIPモデルと最新のgScoreCAMを微調整するためにDHN-NCE(Decoupled Hard Negative Noise Contrastive Estimation)を新たに導入し,ゼロショット設定でSAMからセグメンテーションマスクを得るプロンプトを生成する。 さらに,ゼロショットセグメンテーションラベルを弱教師付きパラダイムで使用して,セグメンテーションの品質をさらに向上する方法について検討した。 胸部超音波検査,脳腫瘍MRI検査,肺X線検査の3つのタスクと医用画像モダリティを広範囲にテストすることにより,提案手法の精度が向上した。

Medical image segmentation of anatomical structures and pathology is crucial in modern clinical diagnosis, disease study, and treatment planning. To date, great progress has been made in deep learning-based segmentation techniques, but most methods still lack data efficiency, generalizability, and interactability. Consequently, the development of new, precise segmentation methods that demand fewer labeled datasets is of utmost importance in medical image analysis. Recently, the emergence of foundation models, such as CLIP and Segment-Anything-Model (SAM), with comprehensive cross-domain representation opened the door for interactive and universal image segmentation. However, exploration of these models for data-efficient medical image segmentation is still limited, but is highly necessary. In this paper, we propose a novel framework, called MedCLIP-SAM that combines CLIP and SAM models to generate segmentation of clinical scans using text prompts in both zero-shot and weakly supervised settings. To achieve this, we employed a new Decoupled Hard Negative Noise Contrastive Estimation (DHN-NCE) loss to fine-tune the BiomedCLIP model and the recent gScoreCAM to generate prompts to obtain segmentation masks from SAM in a zero-shot setting. Additionally, we explored the use of zero-shot segmentation labels in a weakly supervised paradigm to improve the segmentation quality further. By extensively testing three diverse segmentation tasks and medical image modalities (breast tumor ultrasound, brain tumor MRI, and lung X-ray), our proposed framework has demonstrated excellent accuracy.
翻訳日:2024-04-01 15:14:57 公開日:2024-03-29
# 時間的破壊に対する時間的行動検出モデルのロバスト性の評価

Benchmarking the Robustness of Temporal Action Detection Models Against Temporal Corruptions ( http://arxiv.org/abs/2403.20254v1 )

ライセンス: Link先を確認
Runhao Zeng, Xiaoyong Chen, Jiaming Liang, Huisi Wu, Guangzhong Cao, Yong Guo, (参考訳) 時間的行動検出(TAD)は、アクションの位置を特定し、長期的な未トリミングビデオでアクションカテゴリを認識することを目的としている。 多くの手法が有望な結果を得たが、その堅牢性は十分に研究されていない。 実際には、ビデオ内の時間情報は、欠落やぼやけたフレームなど、時々破損する可能性がある。 興味深いことに、既存のメソッドは、たとえ1つのフレームだけが影響を受けるとしても、大きなパフォーマンス低下を引き起こすことが多い。 このロバスト性を正式に評価するため,THUMOS14-CとActivityNet-v1.3-Cという2つの時間的腐敗ロバスト性ベンチマークを構築した。 本稿では,7つの主要なTAD手法のロバスト性を網羅的に分析し,いくつかの興味深い知見を得た。 1) 既存手法は,特に時間的腐敗に対して脆弱であり,かつ,エンド・ツー・エンド方式は,事前訓練された特徴抽出器よりも受容性が高い場合が多い。 2) 脆弱性は主に,分類誤差ではなく,局所化誤差から生じる。 3)アクションインスタンスの中央で汚職が発生した場合、TADモデルは最大のパフォーマンス低下をもたらす傾向があります。 ベンチマーク作成の他に、FrameDropの強化と時間-ロバスト整合性損失を通じて、時間的腐敗から守るためのシンプルで効果的な堅牢なトレーニング手法を更に開発する。 注目すべきは、私たちのアプローチは堅牢性を改善するだけでなく、クリーンなデータにも有望な改善をもたらします。 我々はこの研究が、ロバストビデオ分析における将来の研究のベンチマークとなると信じている。 ソースコードとモデルはhttps://github.com/Alvin-Zeng/temporal-robustness-benchmarkで公開されている。

Temporal action detection (TAD) aims to locate action positions and recognize action categories in long-term untrimmed videos. Although many methods have achieved promising results, their robustness has not been thoroughly studied. In practice, we observe that temporal information in videos can be occasionally corrupted, such as missing or blurred frames. Interestingly, existing methods often incur a significant performance drop even if only one frame is affected. To formally evaluate the robustness, we establish two temporal corruption robustness benchmarks, namely THUMOS14-C and ActivityNet-v1.3-C. In this paper, we extensively analyze the robustness of seven leading TAD methods and obtain some interesting findings: 1) Existing methods are particularly vulnerable to temporal corruptions, and end-to-end methods are often more susceptible than those with a pre-trained feature extractor; 2) Vulnerability mainly comes from localization error rather than classification error; 3) When corruptions occur in the middle of an action instance, TAD models tend to yield the largest performance drop. Besides building a benchmark, we further develop a simple but effective robust training method to defend against temporal corruptions, through the FrameDrop augmentation and Temporal-Robust Consistency loss. Remarkably, our approach not only improves robustness but also yields promising improvements on clean data. We believe that this study will serve as a benchmark for future research in robust video analysis. Source code and models are available at https://github.com/Alvin-Zeng/temporal-robustness-benchmark.
翻訳日:2024-04-01 15:14:57 公開日:2024-03-29
# プロトタイプに基づく乳がん予測モデルの解析と課題

Prototype-based Interpretable Breast Cancer Prediction Models: Analysis and Challenges ( http://arxiv.org/abs/2403.20260v1 )

ライセンス: Link先を確認
Shreyasi Pathak, Jörg Schlötterer, Jeroen Veltman, Jeroen Geerdink, Maurice van Keulen, Christin Seifert, (参考訳) 深層学習モデルは医学的応用において高いパフォーマンスを達成しているが、そのブラックボックスの性質から臨床実践への導入は妨げられている。 プロトタイプベースのモデルのような自己説明可能なモデルは、設計によって解釈できるため、特に有益である。 しかし、学習したプロトタイプが低品質であれば、プロトタイプベースのモデルはブラックボックスと同じくらいよい。 高品質のプロトタイプを持つことは、真に解釈可能なモデルの前提条件である。 本研究では,ドメイン知識に基づいてプロトタイプの品質を定量的に評価する,コヒーレンス評価フレームワーク(PEF-C)を提案する。 乳がん予測におけるPEF-Cの有用性について,マンモグラフィーを用いて検討した。 マンモグラフィーを用いた乳がん予測のプロトタイプベースモデルに関する既存の研究は,ブラックボックスモデルと比較してプロトタイプベースモデルの分類性能の向上に重点を置いており,逸話的証拠を通じてプロトタイプの品質評価を行っている。 PEF-Cを用いたマンモグラフィーの試作機の品質評価を初めて行った。 具体的には、乳がん予測のためのマンモグラフィー画像にProtoPNet、BRAIxProtoPNet++、PIP-Netの3つの最先端プロトタイプベースモデルを適用し、これらのモデルw.r.tを評価する。 一 分類性能、及び 二 公開データセットの試作機の品質 その結果,プロトタイプモデルとブラックボックスモデルとの分類性能は比較可能であり,ROIの検出において高いスコアが得られた。 しかし、プロトタイプの品質はまだ不十分であり、さまざまなプロトタイプの妥当性、純度、学習の面で改善することができる。 我々はXAIコミュニティに、プロトタイプの品質を体系的に評価して、高い利害関係の決定における真のユーザビリティを確認し、そのようなモデルをさらに改善するよう呼びかけます。

Deep learning models have achieved high performance in medical applications, however, their adoption in clinical practice is hindered due to their black-box nature. Self-explainable models, like prototype-based models, can be especially beneficial as they are interpretable by design. However, if the learnt prototypes are of low quality then the prototype-based models are as good as black-box. Having high quality prototypes is a pre-requisite for a truly interpretable model. In this work, we propose a prototype evaluation framework for coherence (PEF-C) for quantitatively evaluating the quality of the prototypes based on domain knowledge. We show the use of PEF-C in the context of breast cancer prediction using mammography. Existing works on prototype-based models on breast cancer prediction using mammography have focused on improving the classification performance of prototype-based models compared to black-box models and have evaluated prototype quality through anecdotal evidence. We are the first to go beyond anecdotal evidence and evaluate the quality of the mammography prototypes systematically using our PEF-C. Specifically, we apply three state-of-the-art prototype-based models, ProtoPNet, BRAIxProtoPNet++ and PIP-Net on mammography images for breast cancer prediction and evaluate these models w.r.t. i) classification performance, and ii) quality of the prototypes, on three public datasets. Our results show that prototype-based models are competitive with black-box models in terms of classification performance, and achieve a higher score in detecting ROIs. However, the quality of the prototypes are not yet sufficient and can be improved in aspects of relevance, purity and learning a variety of prototypes. We call the XAI community to systematically evaluate the quality of the prototypes to check their true usability in high stake decisions and improve such models further.
翻訳日:2024-04-01 15:14:57 公開日:2024-03-29
# FABind+: 改良されたポケット予測とポース生成による分子ドッキングの強化

FABind+: Enhancing Molecular Docking through Improved Pocket Prediction and Pose Generation ( http://arxiv.org/abs/2403.20261v1 )

ライセンス: Link先を確認
Kaiyuan Gao, Qizhi Pei, Jinhua Zhu, Tao Qin, Kun He, Tie-Yan Liu, Lijun Wu, (参考訳) 分子ドッキングは薬物発見の重要な過程である。 従来のテクニックは、物理的な原則によって管理される広範囲なサンプリングとシミュレーションに依存しているが、これらの手法は、しばしば遅くてコストがかかる。 ディープラーニングベースのアプローチの出現は、正確性と効率の両面において、大きな可能性を秘めている。 スピードと精度を重視したモデルであるFABindの基本的な作業に基づいて,FABind+を改良し,前機種の性能を大幅に向上させる。 分子ドッキングにおいて,ポケット予測が重要なボトルネックであると認識し,ポケット予測を大幅に洗練し,ドッキングプロセスの合理化を図る手法を提案する。 さらに,ドッキングモジュールを改良し,ポーズ生成能力を向上する。 従来のサンプリング/生成手法とギャップを埋めるために,FABindの回帰フレームワークを微調整するだけで,信頼性モデルと組み合わせて,単純かつ効果的なサンプリング手法を導入する。 実験結果と解析結果から,FABind+は元々のFABindを著しく上回り,最先端の競争性能を達成し,洞察に富んだモデリング戦略を提供することが明らかとなった。 このことは、FABind+が分子ドッキングと薬物発見において大きな進歩を示していることを示している。 私たちのコードはhttps://github.com/QizhiPei/FABind.orgにある。

Molecular docking is a pivotal process in drug discovery. While traditional techniques rely on extensive sampling and simulation governed by physical principles, these methods are often slow and costly. The advent of deep learning-based approaches has shown significant promise, offering increases in both accuracy and efficiency. Building upon the foundational work of FABind, a model designed with a focus on speed and accuracy, we present FABind+, an enhanced iteration that largely boosts the performance of its predecessor. We identify pocket prediction as a critical bottleneck in molecular docking and propose a novel methodology that significantly refines pocket prediction, thereby streamlining the docking process. Furthermore, we introduce modifications to the docking module to enhance its pose generation capabilities. In an effort to bridge the gap with conventional sampling/generative methods, we incorporate a simple yet effective sampling technique coupled with a confidence model, requiring only minor adjustments to the regression framework of FABind. Experimental results and analysis reveal that FABind+ remarkably outperforms the original FABind, achieves competitive state-of-the-art performance, and delivers insightful modeling strategies. This demonstrates FABind+ represents a substantial step forward in molecular docking and drug discovery. Our code is in https://github.com/QizhiPei/FABind.
翻訳日:2024-04-01 15:14:57 公開日:2024-03-29
# ELITR-Bench: 長期言語モデルのための会議アシスタントベンチマーク

ELITR-Bench: A Meeting Assistant Benchmark for Long-Context Language Models ( http://arxiv.org/abs/2403.20262v1 )

ライセンス: Link先を確認
Thibaut Thonet, Jos Rozen, Laurent Besacier, (参考訳) 大規模言語モデル(LLMs)の研究は、長いドキュメント内の依存関係をよりよく捉えるために、モデルのコンテキストサイズを拡張することへの関心が高まっているのを最近目撃した。 ベンチマークは長距離能力を評価するために提案されているが、既存の取り組みは、必ずしも現実世界のアプリケーションと一致しない汎用的なタスクを主に検討している。 対照的に,本研究では,現実的な会議支援シナリオに着目した長文LLMのための新しいベンチマークを提案する。 このシナリオでは、長いコンテキストは自動音声認識によって得られた転写物から成り、そのようなデータの本質的なノイズと口頭における性質から、LSMに固有の課題を提示する。 ELITR-Benchという名前のベンチマークでは、既存のERLITRコーパスの書き起こしを271の手作業による質問と、その真真正な回答で強化しています。 ELITR-Bench上でのLLMによる最近の実験は、オープンソースモデルとプロプライエタリモデルとのギャップを浮き彫りにした。 また,クラウドソーシング研究から得られた知見を包含して,GPT-4に基づく評価手法の徹底的な分析を行った。 以上の結果から,GPT-4の評価スコアは人間の判断値と相関するが,3つ以上の評価値と区別できる能力は限定的である可能性が示唆された。

Research on Large Language Models (LLMs) has recently witnessed an increasing interest in extending models' context size to better capture dependencies within long documents. While benchmarks have been proposed to assess long-range abilities, existing efforts primarily considered generic tasks that are not necessarily aligned with real-world applications. In contrast, our work proposes a new benchmark for long-context LLMs focused on a practical meeting assistant scenario. In this scenario, the long contexts consist of transcripts obtained by automatic speech recognition, presenting unique challenges for LLMs due to the inherent noisiness and oral nature of such data. Our benchmark, named ELITR-Bench, augments the existing ELITR corpus' transcripts with 271 manually crafted questions and their ground-truth answers. Our experiments with recent long-context LLMs on ELITR-Bench highlight a gap between open-source and proprietary models, especially when questions are asked sequentially within a conversation. We also provide a thorough analysis of our GPT-4-based evaluation method, encompassing insights from a crowdsourcing study. Our findings suggest that while GPT-4's evaluation scores are correlated with human judges', its ability to differentiate among more than three score levels may be limited.
翻訳日:2024-04-01 15:05:12 公開日:2024-03-29
# Latxa: バスクのオープン言語モデルと評価スイート

Latxa: An Open Language Model and Evaluation Suite for Basque ( http://arxiv.org/abs/2403.20266v1 )

ライセンス: Link先を確認
Julen Etxaniz, Oscar Sainz, Naiara Perez, Itziar Aldabe, German Rigau, Eneko Agirre, Aitor Ormazabal, Mikel Artetxe, Aitor Soroa, (参考訳) 私たちはLatxaを紹介します。Latxaは、70億から700億のパラメータからなるバスクの大規模言語モデルのファミリーです。 LatxaはLlama 2をベースにしており、我々は4.3Mの文書と4.2Bのトークンからなる新しいバスクのコーパスで事前訓練を続けている。 バスク語検定の5,169問からなるEus Proficiency,352問からなるEusReading,5つの知識領域から1,715問からなるEusTrivia,公試から16,774問からなるEusExamsの4つの選択肢評価データセットを紹介する。 広範囲な評価において、Latxaは、私たちが比較した過去のすべてのオープンモデルよりも大きなマージンで優れています。 さらに、言語能力と理解力はGPT-4 Turboと競合するが、理解力と知識集約的なタスクは遅れている。 Latxaのモデルファミリと、新たな事前トレーニングコーパスと評価データセットは、https://github.com/hitz-zentroa/latxa.comで公開されている。 我々のスイートは、低リソース言語のためのLLMを構築する方法の再現可能な研究を可能にする。

We introduce Latxa, a family of large language models for Basque ranging from 7 to 70 billion parameters. Latxa is based on Llama 2, which we continue pretraining on a new Basque corpus comprising 4.3M documents and 4.2B tokens. Addressing the scarcity of high-quality benchmarks for Basque, we further introduce 4 multiple choice evaluation datasets: EusProficiency, comprising 5,169 questions from official language proficiency exams; EusReading, comprising 352 reading comprehension questions; EusTrivia, comprising 1,715 trivia questions from 5 knowledge areas; and EusExams, comprising 16,774 questions from public examinations. In our extensive evaluation, Latxa outperforms all previous open models we compare to by a large margin. In addition, it is competitive with GPT-4 Turbo in language proficiency and understanding, despite lagging behind in reading comprehension and knowledge-intensive tasks. Both the Latxa family of models, as well as our new pretraining corpora and evaluation datasets, are publicly available under open licenses at https://github.com/hitz-zentroa/latxa. Our suite enables reproducible research on methods to build LLMs for low-resource languages.
翻訳日:2024-04-01 15:05:12 公開日:2024-03-29
# 反断熱, 改善, 高速, 強靭性: 近似反断熱駆動の最適制御

Counterdiabatic, Better, Faster, Stronger: Optimal control for approximate counterdiabatic driving ( http://arxiv.org/abs/2403.20267v1 )

ライセンス: Link先を確認
Ieva Čepaitė, (参考訳) アディバティックプロトコルは、大規模デバイスのブロックを構成する状態準備や個々の操作の実装から、量子アニーリングやアディバティック量子計算における高レベルのプロトコルまで、さまざまな量子技術で採用されている。 しかし、断熱的なプロセスの主な欠点は、それらが違法に長い時間スケールを必要とすることである。 これは一般に、脱コヒーレンスと加熱プロセスによる損失につながる。 断熱状態を維持しながらシステムダイナミクスを高速化する問題は、多くの関心を集めており、その結果、この目的のために行われた様々な方法やアプローチがホストされている。 この論文は、最適制御技術とSTAの普遍的手法である反断熱駆動(CD)を組み合わせた新しい方法の発見に向けられている。 CDアプローチは、プロセスの速度に関係なく、時間依存ハミルトニアンによって駆動されるシステムによって経験される全ての非断熱効果を完璧に抑制する。 しかし実際には、正確なCDはより実装が難しい場合が多い。 この論文で示された主な結果は、非断熱効果の抑制を最大化する方法で、正確なCDの 'emph{approximations} と接点で最適な制御技術を実装する、反断熱最適化局所駆動 (COLD) と呼ばれる新しい方法の開発である。

Adiabatic protocols are employed across a variety of quantum technologies, from implementing state preparation and individual operations that are building blocks of larger devices, to higher-level protocols in quantum annealing and adiabatic quantum computation. The main drawback of adiabatic processes, however, is that they require prohibitively long timescales. This generally leads to losses due to decoherence and heating processes. The problem of speeding up system dynamics while retaining the adiabatic condition has garnered a large amount of interest, resulting in a whole host of diverse methods and approaches made for this purpose. This thesis is dedicated to the discovery of new ways to combine optimal control techniques with a universal method from STA: counterdiabatic driving (CD). The CD approach offers perfect suppression of all non-adiabatic effects experienced by a system driven by a time-dependent Hamiltonian regardless of how fast the process occurs. In practice, however, exact CD is difficult to derive often even more difficult to implement. The main result presented in the thesis is thus the development of a new method called counterdiabatic optimized local driving (COLD), which implements optimal control techniques in tandem with \emph{approximations} of exact CD in a way that maximises suppression of non-adiabatic effects.
翻訳日:2024-04-01 15:05:12 公開日:2024-03-29
# 図面と理解: Visual Promptsを活用してMLLMで必要なものを理解する

Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want ( http://arxiv.org/abs/2403.20271v1 )

ライセンス: Link先を確認
Weifeng Lin, Xinyu Wei, Ruichuan An, Peng Gao, Bocheng Zou, Yulin Luo, Siyuan Huang, Shanghang Zhang, Hongsheng Li, (参考訳) 人間と人工知能(AI)の相互作用は、マルチモーダル大言語モデル(MLLM)の有効性を反映する重要な要素である。 しかし、現在のMLLMは主に画像レベルの理解とテキスト命令との相互作用の制限に重点を置いており、それによって使用量や応答深さの柔軟性を制限している。 本稿では、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、視覚的プロンプトのための挑戦的なベンチマークを紹介する。 具体的には、視覚的エンコーダ、視覚的プロンプトエンコーダ、および様々な視覚的プロンプト(ポイント、バウンディングボックス、フリーフォーム形状)と言語理解のためのLLMを接続する、新しいエンドツーエンド訓練型マルチモーダル言語モデル(MLLM)であるSPHINX-Vを提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。 MDVP-Dataは、自然画像、ドキュメントイメージ、OCRイメージ、モバイルスクリーンショット、Webスクリーンショット、マルチパネルイメージを含む1.6Mのユニークな画像-視覚的プロンプト-テキスト命令-フォローのサンプルを含むマルチドメインデータセットを備えている。 さらに、MDVP-Benchは、視覚的プロンプト命令を理解するためのモデルの能力を評価するために、包括的で挑戦的なベンチマークである。 我々は,SPHINX-Vの視覚的プロンプトによる印象的なマルチモーダルインタラクション能力を示し,詳細な画素レベルの記述と質問応答能力の大幅な向上を明らかにした。

The interaction between humans and artificial intelligence (AI) is a crucial factor that reflects the effectiveness of multimodal large language models (MLLMs). However, current MLLMs primarily focus on image-level comprehension and limit interaction to textual instructions, thereby constraining their flexibility in usage and depth of response. In this paper, we introduce the Draw-and-Understand project: a new model, a multi-domain dataset, and a challenging benchmark for visual prompting. Specifically, we propose SPHINX-V, a new end-to-end trained Multimodal Large Language Model (MLLM) that connects a vision encoder, a visual prompt encoder and an LLM for various visual prompts (points, bounding boxes, and free-form shape) and language understanding. To advance visual prompting research for MLLMs, we introduce MDVP-Data and MDVP-Bench. MDVP-Data features a multi-domain dataset containing 1.6M unique image-visual prompt-text instruction-following samples, including natural images, document images, OCR images, mobile screenshots, web screenshots, and multi-panel images. Furthermore, we present MDVP-Bench, a comprehensive and challenging benchmark to assess a model's capability in understanding visual prompting instructions. Our experiments demonstrate SPHINX-V's impressive multimodal interaction capabilities through visual prompting, revealing significant improvements in detailed pixel-level description and question-answering abilities.
翻訳日:2024-04-01 15:05:12 公開日:2024-03-29
# 大学生実験室用光ファイバの超高感度Hong-Ou-Mandel干渉実験

A Versatile Hong-Ou-Mandel Interference Experiment in Optical Fiber for the Undergraduate Laboratory ( http://arxiv.org/abs/2403.20272v1 )

ライセンス: Link先を確認
Cyrus Bjurlin, Theresa Chmiel, (参考訳) ホン・ウー・マンデル干渉(Hong-Ou-Mandel、HOM)は量子光学研究所の実験で、近年、学部生がよりアクセスしやすくなっている。 この実験は、2つの同一の光子が同時に非偏光ビームスプリッターに入る。 波動関数は破壊的に干渉し、光子対は出力を束ねるが、古典的には異なる出力を放出する可能性が高い。 不明瞭性を達成するのに必要な精度のため、この実験のセットアップとアライメントは、単にHOM干渉のディップを実証することだけを目的とし、学部の研究室に適当であるには難しすぎると判断されることが多い。 そこで本研究では,従来のビームスプリッタではなく,フューズファイバ結合器で発生する干渉を再現可能な一貫した実験を行う光ファイバベース装置を提案する。 我々は、最小のアライメントを必要とし、干渉のコヒーレンス長を増大させる、市販のファイバー結合双光子源を使用する。 さらに,両光子源は生成した光子対の周波数デジェネティクスを直接制御し,コヒーレンス長や干渉可視性などのHOM干渉の物理的特性を調べることができる。 標準オプトメカニカル部品と市販のファイバ集積バイフォトン源とレーザーを組み合わせることで,本装置はスクラッチとプリアライメントの中間地点となる。

Hong-Ou-Mandel (HOM) interference is a quantum optics laboratory experiment that has recently become more accessible to undergraduate students. The experiment consists of two identical photons simultaneously entering a non-polarizing beam splitter. The wavefunctions destructively interfere and the photon pairs bunch at the outputs whereas classically they are equally likely to exit different outputs. Due to the precision needed to achieve indistinguishability, setup and alignment of this experiment is often considered to be too difficult and time consuming to be appropriate for an undergraduate lab, with an end goal of merely demonstrating the HOM interference dip. Here, we present an alternative optical fiber-based apparatus that gives a consistently reproducible experiment with interference occurring in a fused-fiber coupler instead of a traditional beam splitter. We use a commercially available fiber coupled biphoton source that requires minimal alignment and increases coherence length of the interference. In addition, our biphoton source provides direct temperature based control of the frequency degeneracy of the photon pairs produced, allowing for students to investigate physical properties of HOM interference such as coherence length and interference visibility. Through use of standard opto-mechanical parts combined with the commercially available fiber integrated biphoton source and laser, our apparatus is a middle ground between built-from-scratch and pre-aligned setups.
翻訳日:2024-04-01 15:05:12 公開日:2024-03-29
# CATSNet : Pol-TomoSARデータに基づく森林地帯における高度推定のための文脈認識ネットワーク

CATSNet: a context-aware network for Height Estimation in a Forested Area based on Pol-TomoSAR data ( http://arxiv.org/abs/2403.20273v1 )

ライセンス: Link先を確認
Wenyu Yang, Sergio Vitale, Hossein Aghababaei, Giampaolo Ferraioli, Vito Pascazio, Gilda Schirinzi, (参考訳) 熱帯林は地球規模の炭素循環の重要な要素である。 BIOMASSのような宇宙からの森林監視ミッションの計画により、トロピSARやAfriSARなどの飛行ミッションは成功し、実験されている。 典型的な合成開口レーダトモグラフィ(TomoSAR)法は、精度が低く計算コストが高い複雑なモデルを含む。 近年,TtomoSARフレームワークにもディープラーニング手法が注目されており,興味深い性能を示している。 近年,TtomoSARデータから得られた共分散行列の画素単位の要素を利用して,森林と地盤の高さを正確に推定する手法の有効性が実証されている。 この作業は、CATSNetというコンテキスト対応のディープラーニングベースのソリューションを定義するために、ピクセルワイズアプローチを越えている。 畳み込みニューラルネットワークは、パッチベースの情報を活用し、単一のピクセルに注目するのではなく、近隣から特徴を抽出すると考えられる。 このトレーニングは、TtomoSARデータを入力とし、LiDAR(Light Detection and Ranging)値を基底真理とする。 実験結果から,複数基線(MB)のTtomoSARデータ内のコンテキスト情報を活用することで,従来の手法を超越して,性能と一般化の両面で有意な優位性を示した。

Tropical forests are a key component of the global carbon cycle. With plans for upcoming space-borne missions like BIOMASS to monitor forestry, several airborne missions, including TropiSAR and AfriSAR campaigns, have been successfully launched and experimented. Typical Synthetic Aperture Radar Tomography (TomoSAR) methods involve complex models with low accuracy and high computation costs. In recent years, deep learning methods have also gained attention in the TomoSAR framework, showing interesting performance. Recently, a solution based on a fully connected Tomographic Neural Network (TSNN) has demonstrated its effectiveness in accurately estimating forest and ground heights by exploiting the pixel-wise elements of the covariance matrix derived from TomoSAR data. This work instead goes beyond the pixel-wise approach to define a context-aware deep learning-based solution named CATSNet. A convolutional neural network is considered to leverage patch-based information and extract features from a neighborhood rather than focus on a single pixel. The training is conducted by considering TomoSAR data as the input and Light Detection and Ranging (LiDAR) values as the ground truth. The experimental results show striking advantages in both performance and generalization ability by leveraging context information within Multiple Baselines (MB) TomoSAR data across different polarimetric modalities, surpassing existing techniques.
翻訳日:2024-04-01 15:05:12 公開日:2024-03-29
# Snap-it, Tap-it, Splat-it: 触覚インフォームド3Dガウススプレイティング

Snap-it, Tap-it, Splat-it: Tactile-Informed 3D Gaussian Splatting for Reconstructing Challenging Surfaces ( http://arxiv.org/abs/2403.20275v1 )

ライセンス: Link先を確認
Mauro Comi, Alessio Tonioni, Max Yang, Jonathan Tremblay, Valts Blukis, Yijiong Lin, Nathan F. Lepora, Laurence Aitchison, (参考訳) 触覚と視覚は手をつないで、世界を理解する能力を相互に強化します。 研究の観点からは、タッチとビジョンの混在という問題が過小評価され、興味深い課題が提示されている。 そこで本研究では,触覚データ(局所深度マップ)を多視点視覚データと組み合わせ,表面再構成と新しいビュー合成を実現する新しいアプローチである,触覚インフォームド3DGSを提案する。 本手法は3次元ガウス原始体を最適化し,接触点における物体の形状を正確にモデル化する。 タッチ位置の透過率を低下させる枠組みを作成することにより,表面の微細化を実現し,均一に滑らかな深度マップを実現する。 タッチは非ランベルト的対象(例えば光沢や反射面)を考える際に特に有用である。 視覚と触覚センサを組み合わせることで,従来の手法よりも少ない画像でより正確な形状復元を行うことができる。 我々は光沢と反射面を有する物体に対して評価を行い,提案手法の有効性を実証し,再現性の向上を図っている。

Touch and vision go hand in hand, mutually enhancing our ability to understand the world. From a research perspective, the problem of mixing touch and vision is underexplored and presents interesting challenges. To this end, we propose Tactile-Informed 3DGS, a novel approach that incorporates touch data (local depth maps) with multi-view vision data to achieve surface reconstruction and novel view synthesis. Our method optimises 3D Gaussian primitives to accurately model the object's geometry at points of contact. By creating a framework that decreases the transmittance at touch locations, we achieve a refined surface reconstruction, ensuring a uniformly smooth depth map. Touch is particularly useful when considering non-Lambertian objects (e.g. shiny or reflective surfaces) since contemporary methods tend to fail to reconstruct with fidelity specular highlights. By combining vision and tactile sensing, we achieve more accurate geometry reconstructions with fewer images than prior methods. We conduct evaluation on objects with glossy and reflective surfaces and demonstrate the effectiveness of our approach, offering significant improvements in reconstruction quality.
翻訳日:2024-04-01 15:05:12 公開日:2024-03-29
# LUQ:LLMの長期不確実性定量化

LUQ: Long-text Uncertainty Quantification for LLMs ( http://arxiv.org/abs/2403.20279v1 )

ライセンス: Link先を確認
Caiqi Zhang, Fangyu Liu, Marco Basaldella, Nigel Collier, (参考訳) 大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な能力を示した。 有効性にもかかわらず、これらのモデルは非現実的なコンテンツを生成する傾向にある。 不確実性定量化(Uncertainty Quantification, UQ)は、モデルが生成したコンテンツに対する信頼度を高めるために重要な要素であり、非実効出力の緩和を支援する。 UQに関する既存の研究は、主に短いテキスト生成をターゲットとしており、通常は短い、単語限定の応答をもたらす。 しかし、現実世界のアプリケーションは、より長いレスポンスを必要とすることが多い。 本研究はまず,長文生成処理における現在のUQ手法の限界について述べる。 次に、長いテキストに特化して設計された新しいサンプリングベースのUQアプローチである‘textsc{Luq} を紹介する。 以上の結果から,<textsc{Luq} はモデル事実性スコア(Gemini Pro で観測された-0.85 の負係数)と相関して,既存のベースライン法よりも優れていることがわかった。 UQ のツールとして \textsc{Luq} を用いると、いくつかの人気のある LLM の応答信頼スペクトルの行動パターンと、それが応答の事実とどのように相互作用するかを考察する。 LLMは稀な事実に対する長文生成の信頼性に欠けており、事実的に強いモデル(GPT-4)は、不確実な質問を拒否する傾向にある。 LLM応答の現実的精度をさらに向上するため,複数のモデルからの応答をアンサンブルし,不確実性を最小限に選択する「textsc{Luq-Ensemble}」という手法を提案する。 アンサンブル法は、最高のスタンドアロンLCMに対する応答事実性を大幅に改善する。

Large Language Models (LLMs) have demonstrated remarkable capability in a variety of NLP tasks. Despite their effectiveness, these models are prone to generate nonfactual content. Uncertainty Quantification (UQ) is pivotal in enhancing our understanding of a model's confidence in its generated content, thereby aiding in the mitigation of nonfactual outputs. Existing research on UQ predominantly targets short text generation, typically yielding brief, word-limited responses. However, real-world applications frequently necessitate much longer responses. Our study first highlights the limitations of current UQ methods in handling long text generation. We then introduce \textsc{Luq}, a novel sampling-based UQ approach specifically designed for long text. Our findings reveal that \textsc{Luq} outperforms existing baseline methods in correlating with the model's factuality scores (negative coefficient of -0.85 observed for Gemini Pro). With \textsc{Luq} as the tool for UQ, we investigate behavior patterns of several popular LLMs' response confidence spectrum and how that interplays with the response' factuality. We identify that LLMs lack confidence in generating long text for rare facts and a factually strong model (i.e. GPT-4) tends to reject questions it is not sure about. To further improve the factual accuracy of LLM responses, we propose a method called \textsc{Luq-Ensemble} that ensembles responses from multiple models and selects the response with the least uncertainty. The ensembling method greatly improves the response factuality upon the best standalone LLM.
翻訳日:2024-04-01 15:05:12 公開日:2024-03-29
# モーダルチャネルアテンションを有するスパースマルチモーダルフュージョン

Sparse multimodal fusion with modal channel attention ( http://arxiv.org/abs/2403.20280v1 )

ライセンス: Link先を確認
Josiah Bjorgaard, (参考訳) マスク付きマルチモーダル変圧器アーキテクチャは、モダリティサンプルが疎結合であるときにロバストな埋め込み空間を学習する能力について、モーダル空間の関数として生成された埋め込み空間の品質を測定することによって研究する。 モーダルチャネルアテンション(MCA)と呼ばれるマルチヘッドアテンション機構にモーダル不完全チャネルを組み込んだマスク型マルチモーダルトランスフォーマーモデルの拡張を提案する。 4つのモダリティを持つ2つのデータセット、マルチモーダル感情認識のためのCMU-MOSEI、マルチオミクスのためのTCGAが使用される。 モデルは、ほとんどのサンプルにおいて4つのモードのうち2つしか持たない均一で整列した埋め込み空間を学習することが示されている。 その結果、モーダルな間隔がなくても、提案したMCA機構は、生成された埋め込み空間、リコールメトリクス、下流タスクにおけるその後のパフォーマンスを改善していることがわかった。

The ability of masked multimodal transformer architectures to learn a robust embedding space when modality samples are sparsely aligned is studied by measuring the quality of generated embedding spaces as a function of modal sparsity. An extension to the masked multimodal transformer model is proposed which incorporates modal-incomplete channels in the multihead attention mechanism called modal channel attention (MCA). Two datasets with 4 modalities are used, CMU-MOSEI for multimodal sentiment recognition and TCGA for multiomics. Models are shown to learn uniform and aligned embedding spaces with only two out of four modalities in most samples. It was found that, even with no modal sparsity, the proposed MCA mechanism improves the quality of generated embedding spaces, recall metrics, and subsequent performance on downstream tasks.
翻訳日:2024-04-01 15:05:12 公開日:2024-03-29
# LayerNorm: パラメータ効率の良い微調整における重要なコンポーネント

LayerNorm: A key component in parameter-efficient fine-tuning ( http://arxiv.org/abs/2403.20284v1 )

ライセンス: Link先を確認
Taha ValizadehAslani, Hualou Liang, (参考訳) BERT(Bidirectional Encoder Representations from Transformers)のような事前学習モデルの微調整は、多くの自然言語処理(NLP)タスクを解決する効果的な方法であることが証明されている。 しかし、BERTを含む多くの最先端NLPモデルではパラメータが多すぎるため、微調整のプロセスは計算コストがかかる。 この問題に対する魅力的な解決策の1つはパラメータ効率の細かいチューニングであり、残余を変更せずに最小限のセグメントだけを変更することである。 しかし、BERTモデルのどの部分が微調整に欠かせないのかは不明だ。 本稿では、まずBERTモデルの異なる成分を分析し、微調整後の最も重要な変化をピンポイントで検出する。 共通言語理解評価(GLUE)タスクを微調整すると,LayerNormの出力は他のどのコンポーネントよりも大きく変化することがわかった。 次に、LayerNormの微調整だけが、完全な微調整や他のパラメータ効率の良い微調整メソッドのパフォーマンスに匹敵する、あるいは、場合によっては、より良く到達できることを示します。 さらに、Fisher情報を用いてLayerNormの最も重要なサブセットを決定し、GLUEベンチマークにおける多くのNLPタスクが、LayerNormのごく一部だけを無視可能な性能劣化で微調整することで解決できることを実証する。

Fine-tuning a pre-trained model, such as Bidirectional Encoder Representations from Transformers (BERT), has been proven to be an effective method for solving many natural language processing (NLP) tasks. However, due to the large number of parameters in many state-of-the-art NLP models, including BERT, the process of fine-tuning is computationally expensive. One attractive solution to this issue is parameter-efficient fine-tuning, which involves modifying only a minimal segment of the model while keeping the remainder unchanged. Yet, it remains unclear which segment of the BERT model is crucial for fine-tuning. In this paper, we first analyze different components in the BERT model to pinpoint which one undergoes the most significant changes after fine-tuning. We find that output LayerNorm changes more than any other components when fine-tuned for different General Language Understanding Evaluation (GLUE) tasks. Then we show that only fine-tuning the LayerNorm can reach comparable, or in some cases better, performance to full fine-tuning and other parameter-efficient fine-tuning methods. Moreover, we use Fisher information to determine the most critical subset of LayerNorm and demonstrate that many NLP tasks in the GLUE benchmark can be solved by fine-tuning only a small portion of LayerNorm with negligible performance degradation.
翻訳日:2024-04-01 15:05:12 公開日:2024-03-29
# 対実画像生成のベンチマーク

Benchmarking Counterfactual Image Generation ( http://arxiv.org/abs/2403.20287v1 )

ライセンス: Link先を確認
Thomas Melistas, Nikos Spyrou, Nefeli Gkouti, Pedro Sanchez, Athanasios Vlontzos, Giorgos Papanastasiou, Sotirios A. Tsaftaris, (参考訳) 画像生成は変数の因果関係を理解する上で重要な要素であり、解釈可能性と非バイアス合成データの生成への応用がある。 しかし、画像生成を評価することは、それ自体が長年の課題である。 この課題において、反事実生成化合物を評価する必要性は、正確には、反事実は、定義上、観測可能な基底真理を持たない仮説上のシナリオであるからである。 本稿では,デファクト画像生成手法のベンチマークを目的とした,新しい包括的枠組みを提案する。 我々は、構成、有効性、介入の最小限性、イメージリアリズムなど、カウンターファクトの多様な側面を評価することに焦点を当てたメトリクスを組み込んだ。 構造因果モデルに基づく3種類の条件付き画像生成モデルの性能評価を行った。 我々の作業にはユーザフレンドリなPythonパッケージが伴い、既存のおよび将来の偽物画像生成手法のさらなる評価とベンチマークを可能にします。 我々のフレームワークは、追加のSCMや他の因果的手法、生成モデル、データセットに拡張可能である。

Counterfactual image generation is pivotal for understanding the causal relations of variables, with applications in interpretability and generation of unbiased synthetic data. However, evaluating image generation is a long-standing challenge in itself. The need to evaluate counterfactual generation compounds on this challenge, precisely because counterfactuals, by definition, are hypothetical scenarios without observable ground truths. In this paper, we present a novel comprehensive framework aimed at benchmarking counterfactual image generation methods. We incorporate metrics that focus on evaluating diverse aspects of counterfactuals, such as composition, effectiveness, minimality of interventions, and image realism. We assess the performance of three distinct conditional image generation model types, based on the Structural Causal Model paradigm. Our work is accompanied by a user-friendly Python package which allows to further evaluate and benchmark existing and future counterfactual image generation methods. Our framework is extendable to additional SCM and other causal methods, generative models, and datasets.
翻訳日:2024-04-01 15:05:12 公開日:2024-03-29
# LLMは正しい医師になれるか? : 医学領域における効果的な相互作用方法の検討

Can LLMs Correct Physicians, Yet? Investigating Effective Interaction Methods in the Medical Domain ( http://arxiv.org/abs/2403.20288v1 )

ライセンス: Link先を確認
Burcu Sayin, Pasquale Minervini, Jacopo Staiano, Andrea Passerini, (参考訳) 我々は,医学的意思決定タスクにおいて,医師を支援・修正するためのLarge Language Models(LLMs)の可能性を探る。 我々は,メディトロン,Llama2,MistralなどいくつかのLSMを評価し,これらのモデルが様々なシナリオで医師と効果的に相互作用する能力について分析した。 我々は、PubMedQAからの質問や、バイナリ(yes/no)応答から長解生成まで、いくつかのタスクについて検討する。 以上の結果から,LCMの下流の精度に急激な設計が大きな影響を与えることが示唆され,LCMは医師に貴重なフィードバックを与え,誤診断に挑戦し,より正確な意思決定に寄与することが示唆された。 例えば、医師が正確な38%の時間で正しい答えを得られる場合、Mistralは使用するプロンプトに応じて精度を最大74%向上させ、一方Llama2とMeditronモデルは選択を早めるための感度が向上する。 我々の分析は、LLM生成提案が適切かつ有用であることを保証する上での課題を明らかにし、この分野におけるさらなる研究の必要性を強調している。

We explore the potential of Large Language Models (LLMs) to assist and potentially correct physicians in medical decision-making tasks. We evaluate several LLMs, including Meditron, Llama2, and Mistral, to analyze the ability of these models to interact effectively with physicians across different scenarios. We consider questions from PubMedQA and several tasks, ranging from binary (yes/no) responses to long answer generation, where the answer of the model is produced after an interaction with a physician. Our findings suggest that prompt design significantly influences the downstream accuracy of LLMs and that LLMs can provide valuable feedback to physicians, challenging incorrect diagnoses and contributing to more accurate decision-making. For example, when the physician is accurate 38% of the time, Mistral can produce the correct answer, improving accuracy up to 74% depending on the prompt being used, while Llama2 and Meditron models exhibit greater sensitivity to prompt choice. Our analysis also uncovers the challenges of ensuring that LLM-generated suggestions are pertinent and useful, emphasizing the need for further research in this area.
翻訳日:2024-04-01 15:05:12 公開日:2024-03-29
# 会話における感情認識のための感情認識型コントラスト学習フレームワーク

Emotion-Anchored Contrastive Learning Framework for Emotion Recognition in Conversation ( http://arxiv.org/abs/2403.20289v1 )

ライセンス: Link先を確認
Fangxu Yu, Junjie Guo, Zhen Wu, Xinyu Dai, (参考訳) 会話における感情認識(英: Emotion Recognition in Conversation、ERC)とは、会話の中で各発話の背後にある感情を検出することである。 発話表現を効果的に生成することは、この課題において重要な課題である。 近年の研究では、この問題に対処する様々なモデルが提案されているが、興奮や幸福といった同様の感情の差別化に苦慮している。 この問題を軽減するために、類似した感情に対してより識別可能な発話表現を生成できる感情アンコール型コントラスト学習(EACL)フレームワークを提案する。 これを実現するために、ラベルエンコーディングをアンカーとして利用し、発話表現の学習を誘導し、補助的損失を設計し、類似した感情に対する効果的なアンカー分離を確保する。 さらに, アンカーを適応して効果的な分類器として機能し, 分類性能を向上させるための追加適応法を提案する。 広範囲にわたる実験を通じて,提案したEACLは,最先端の感情認識性能を達成し,類似した感情に対して優れた性能を示す。 私たちのコードはhttps://github.com/Yu-Fangxu/EACLで公開されています。

Emotion Recognition in Conversation (ERC) involves detecting the underlying emotion behind each utterance within a conversation. Effectively generating representations for utterances remains a significant challenge in this task. Recent works propose various models to address this issue, but they still struggle with differentiating similar emotions such as excitement and happiness. To alleviate this problem, We propose an Emotion-Anchored Contrastive Learning (EACL) framework that can generate more distinguishable utterance representations for similar emotions. To achieve this, we utilize label encodings as anchors to guide the learning of utterance representations and design an auxiliary loss to ensure the effective separation of anchors for similar emotions. Moreover, an additional adaptation process is proposed to adapt anchors to serve as effective classifiers to improve classification performance. Across extensive experiments, our proposed EACL achieves state-of-the-art emotion recognition performance and exhibits superior performance on similar emotions. Our code is available at https://github.com/Yu-Fangxu/EACL.
翻訳日:2024-04-01 15:05:12 公開日:2024-03-29
# ハイパーボリック・エンベディングと階層型ドメイン・ディスタングルを用いたレビューベースのクロスドメイン・レコメンデーション

Review-Based Cross-Domain Recommendation via Hyperbolic Embedding and Hierarchy-Aware Domain Disentanglement ( http://arxiv.org/abs/2403.20298v1 )

ライセンス: Link先を確認
Yoonhyuk Choi, (参考訳) データスパシティーの問題は、システムを推薦する上で大きな課題となる。 これに対し、レビューテキストなどのサイド情報を活用するアルゴリズムが提案されている。 さらに、ドメイン共有可能な知識をキャプチャし、それをリッチなドメイン(ソース)からスパサー(ターゲット)に転送するクロスドメイン勧告(CDR)も注目されている。 それにもかかわらず、既存の方法論の大半はユークリッドの埋め込み空間を前提としており、よりリッチなテキスト情報を正確に表現し、ユーザとアイテム間の複雑な相互作用を管理するのに困難に直面している。 本稿では,ユーザ・イテム関係をモデル化するためのレビューテキストに基づく双曲型CDR手法を提案する。 まず、従来の距離ベース領域アライメント技術は、双曲幾何学の小さな修正によって大きな摂動が生じ、最終的には階層構造が崩壊するので、問題を引き起こす可能性があることを強調した。 この課題に対処するために、構造形式を乱すことなく、ドメイン共有情報を抽出するスケールを調整する階層型埋め込みとドメインアライメント方式を提案する。 このプロセスは、双曲空間にレビューテキストを埋め込んだ後、次数に基づく正規化と構造アライメントを取り入れた特徴抽出を含む。 提案モデルの有効性, 堅牢性, スケーラビリティを, 最先端のベースラインと比較して検証するために, 広範囲な実験を行った。

The issue of data sparsity poses a significant challenge to recommender systems. In response to this, algorithms that leverage side information such as review texts have been proposed. Furthermore, Cross-Domain Recommendation (CDR), which captures domain-shareable knowledge and transfers it from a richer domain (source) to a sparser one (target), has received notable attention. Nevertheless, the majority of existing methodologies assume a Euclidean embedding space, encountering difficulties in accurately representing richer text information and managing complex interactions between users and items. This paper advocates a hyperbolic CDR approach based on review texts for modeling user-item relationships. We first emphasize that conventional distance-based domain alignment techniques may cause problems because small modifications in hyperbolic geometry result in magnified perturbations, ultimately leading to the collapse of hierarchical structures. To address this challenge, we propose hierarchy-aware embedding and domain alignment schemes that adjust the scale to extract domain-shareable information without disrupting structural forms. The process involves the initial embedding of review texts in hyperbolic space, followed by feature extraction incorporating degree-based normalization and structure alignment. We conducted extensive experiments to substantiate the efficiency, robustness, and scalability of our proposed model in comparison to state-of-the-art baselines.
翻訳日:2024-04-01 15:05:12 公開日:2024-03-29
# ヒューリスティック検索による学習型ローカルMAPFポリシーの改善

Improving Learnt Local MAPF Policies with Heuristic Search ( http://arxiv.org/abs/2403.20300v1 )

ライセンス: Link先を確認
Rishi Veerapaneni, Qian Wang, Kevin Ren, Arthur Jakobsson, Jiaoyang Li, Maxim Likhachev, (参考訳) MAPF (Multi-Adnt Path Finding) は、エージェントのチームが目標地点に到達するための衝突のない経路を見つける問題である。 最先端の古典的MAPFソルバは通常、数百のエージェントのソリューションを見つけるためにヒューリスティック検索を採用するが、通常は集中型であり、短いタイムアウトで実行するとスケールするのに苦労する。 各エージェントのポリシーを学習する機械学習(ML)アプローチは、優れたソリューション品質を維持しながら、分散システムを有効にし、適切にスケールできることをアピールしている。 MAPFに対する現在のMLアプローチでは、このポテンシャルの表面を掻き傷始めた手法が提案されている。 しかし、最先端のMLアプローチは、単一のタイムステップのみを計画し、成功率とスケーラビリティが劣る"ローカル"なポリシーを生成します。 本研究の主な考え方は,出力確率分布のヒューリスティックな探索手法を用いて,デッドロックを解消し,完全な地平線計画を可能にすることにより,ML局所ポリシーを改善することである。 学習ポリシーを用いたヒューリスティック検索のモデルに依存しないいくつかの方法を示し,政策の成功率と拡張性を大幅に向上させる。 我々の知る限り、MLベースのMAPFアプローチが初めて、高い混雑シナリオ(エージェント密度の20%など)にスケールしたことを実証する。

Multi-agent path finding (MAPF) is the problem of finding collision-free paths for a team of agents to reach their goal locations. State-of-the-art classical MAPF solvers typically employ heuristic search to find solutions for hundreds of agents but are typically centralized and can struggle to scale when run with short timeouts. Machine learning (ML) approaches that learn policies for each agent are appealing as these could enable decentralized systems and scale well while maintaining good solution quality. Current ML approaches to MAPF have proposed methods that have started to scratch the surface of this potential. However, state-of-the-art ML approaches produce "local" policies that only plan for a single timestep and have poor success rates and scalability. Our main idea is that we can improve a ML local policy by using heuristic search methods on the output probability distribution to resolve deadlocks and enable full horizon planning. We show several model-agnostic ways to use heuristic search with learnt policies that significantly improve the policies' success rates and scalability. To our best knowledge, we demonstrate the first time ML-based MAPF approaches have scaled to high congestion scenarios (e.g. 20% agent density).
翻訳日:2024-04-01 15:05:12 公開日:2024-03-29
# グリーン化をめざして : LLM推論の最前線にエネルギー効率をもたらす

Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference ( http://arxiv.org/abs/2403.20306v1 )

ライセンス: Link先を確認
Jovan Stojkovic, Esha Choukse, Chaojie Zhang, Inigo Goiri, Josep Torrellas, (参考訳) 業界全体で近代的な大規模言語モデル(LLM)が広く使われるようになると、これらのモデルに対する推論はますます拡大している。 現代のLLMの高い計算とメモリ要件を考えると、これらのモデルを提供するために、上位のGPUがますます多くデプロイされている。 データセンターがこれらのモデルを提供する最大の課題として、エネルギーの可用性が最前線に現れている。 本稿では,エネルギー効率をLLMの主目的とする性能SLOにおけるトレードオフについて述べる。 入力,モデル,サービスレベルの合意によっては,LLM推論プロバイダがエネルギー効率を高めるために利用できるノブがいくつか存在することを示す。 これらのノブがレイテンシ、スループット、およびエネルギーに与える影響を特徴付ける。 これらのトレードオフを探索することにより、パフォーマンスを損なうことなく、エネルギー使用量の最適化に関する貴重な洞察を提供する。

With the ubiquitous use of modern large language models (LLMs) across industries, the inference serving for these models is ever expanding. Given the high compute and memory requirements of modern LLMs, more and more top-of-the-line GPUs are being deployed to serve these models. Energy availability has come to the forefront as the biggest challenge for data center expansion to serve these models. In this paper, we present the trade-offs brought up by making energy efficiency the primary goal of LLM serving under performance SLOs. We show that depending on the inputs, the model, and the service-level agreements, there are several knobs available to the LLM inference provider to use for being energy efficient. We characterize the impact of these knobs on the latency, throughput, as well as the energy. By exploring these trade-offs, we offer valuable insights into optimizing energy usage without compromising on performance, thereby paving the way for sustainable and cost-effective LLM deployment in data center environments.
翻訳日:2024-04-01 14:55:26 公開日:2024-03-29
# ChainNet: WordNetにおける構造化メタファーとMetonymy

ChainNet: Structured Metaphor and Metonymy in WordNet ( http://arxiv.org/abs/2403.20308v1 )

ライセンス: Link先を確認
Rowan Hall Maudslay, Simone Teufel, Francis Bond, James Pustejovsky, (参考訳) 単語の感覚は、豊富な内部構造を示す。 典型的な辞書では、この構造は見落とされ、単語の感覚は意味関係のないリストとしてエンコードされる。 ChainNet(リンク)は、これらの構造を初めて明確に識別する語彙リソースである。 ChainNetは、オープン・イングリッシュ・ワーネットにおける感覚が、いかに互いに由来しているかを表現している: 単語のすべての名目上の感覚は、比喩やメトニミーによって他の感覚と結びついているか、ホモニミーの場合には切り離されているかである。 WordNetのセンスは、その意味に関する情報をキャプチャするリソースにリンクされているため、ChainNetは、グラウンドド・メタファーとメトニミーの最初のデータセットである。

The senses of a word exhibit rich internal structure. In a typical lexicon, this structure is overlooked: a word's senses are encoded as a list without inter-sense relations. We present ChainNet, a lexical resource which for the first time explicitly identifies these structures. ChainNet expresses how senses in the Open English Wordnet are derived from one another: every nominal sense of a word is either connected to another sense by metaphor or metonymy, or is disconnected in the case of homonymy. Because WordNet senses are linked to resources which capture information about their meaning, ChainNet represents the first dataset of grounded metaphor and metonymy.
翻訳日:2024-04-01 14:55:26 公開日:2024-03-29
# InstantSplat:40秒でスパースビューのないガウススプラッティング

InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds ( http://arxiv.org/abs/2403.20309v1 )

ライセンス: Link先を確認
Zhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang, (参考訳) 新規ビュー合成(NVS)は3次元コンピュータビジョンにおいてかなりの進歩を遂げてきたが、通常、密集した視点からカメラの内在と外在を推定する必要がある。 この前処理は通常、遅くて信頼性の低いStructure-from-Motion (SfM)パイプラインを通して行われる。 本研究では,非制約条件下でのNVSの複雑かつ未解決問題に対処するために,ポイントベース表現(例えば,3Dガウス版,3D-GS)とエンドツーエンドの高密度ステレオモデル(DUSt3R)を統合する。 我々のフレームワークであるInstantSplatは、3D-GSと密集したステレオを統一し、スパースビューとポーズフリーの画像から大規模シーンの3Dガウスアンを1分以内で作る。 具体的には、InstantSplatは、事前訓練された高密度ステレオパイプラインから導出されたグローバルに整列した3Dポイントマップを利用して、すべてのトレーニングビューにわたる予備的なシーン構造とカメラパラメータを迅速に確立する粗い幾何学的初期化(CGI)モジュールを備える。 続くFast 3D-Gaussian Optimization (F-3DGO)モジュールは、3Dガウス属性と初期化ポーズを連立最適化し、ポーズ正則化を行う。 大規模な屋外タンク&テンプルスデータセットで行った実験では、InstantSplatはSSIMを大幅に改善し(32%)、絶対軌道誤差(ATE)を80%削減した。 これらは、ポーズフリーおよびスパースビュー条件を含むシナリオの実行可能なソリューションとしてInstantSplatを確立する。 プロジェクトページ: instantsplat.github.io

While novel view synthesis (NVS) has made substantial progress in 3D computer vision, it typically requires an initial estimation of camera intrinsics and extrinsics from dense viewpoints. This pre-processing is usually conducted via a Structure-from-Motion (SfM) pipeline, a procedure that can be slow and unreliable, particularly in sparse-view scenarios with insufficient matched features for accurate reconstruction. In this work, we integrate the strengths of point-based representations (e.g., 3D Gaussian Splatting, 3D-GS) with end-to-end dense stereo models (DUSt3R) to tackle the complex yet unresolved issues in NVS under unconstrained settings, which encompasses pose-free and sparse view challenges. Our framework, InstantSplat, unifies dense stereo priors with 3D-GS to build 3D Gaussians of large-scale scenes from sparseview & pose-free images in less than 1 minute. Specifically, InstantSplat comprises a Coarse Geometric Initialization (CGI) module that swiftly establishes a preliminary scene structure and camera parameters across all training views, utilizing globally-aligned 3D point maps derived from a pre-trained dense stereo pipeline. This is followed by the Fast 3D-Gaussian Optimization (F-3DGO) module, which jointly optimizes the 3D Gaussian attributes and the initialized poses with pose regularization. Experiments conducted on the large-scale outdoor Tanks & Temples datasets demonstrate that InstantSplat significantly improves SSIM (by 32%) while concurrently reducing Absolute Trajectory Error (ATE) by 80%. These establish InstantSplat as a viable solution for scenarios involving posefree and sparse-view conditions. Project page: instantsplat.github.io.
翻訳日:2024-04-01 14:55:26 公開日:2024-03-29
# No" を学習して "Yes" を良く言う - 否定を通じて視覚言語モデルを改善する

Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations ( http://arxiv.org/abs/2403.20312v1 )

ライセンス: Link先を確認
Jaisidh Singh, Ishaan Shrivastava, Mayank Vatsa, Richa Singh, Aparna Bharati, (参考訳) 既存の視覚言語モデル(VLM)は、テキスト記述を単位として扱い、個々の概念を即座に混乱させ、視覚的セマンティックマッチングと推論を損なう。 論理学と言語における推論の重要な側面は否定である。 本稿では,CLIP などの一般的な VLM の限界,すなわち,あるプロンプトにおける "not" という単語の効果を理解することを目的とした。 228,246の画像,真のキャプション,それに対応する否定的なキャプションを含むデータセットであるCC-Negを提案する。 提案するCoN-CLIPフレームワークであるCLIPの対照的な損失に対する修正とともにCC-Negを用いることで,否定の理解が向上した。 このトレーニングパラダイムは、CoN-CLIPのセマンティクスを確実にエンコードする能力を改善し、8つのデータセットでゼロショット画像分類を行う場合、トップ1の精度が平均3.85%向上する。 さらに、CoN-CLIPは、SugarCREPEのような難しい構成性ベンチマークにおいてCLIPよりも4.4%優れており、テキスト内のオブジェクト、関係、属性の創発的な構成的理解を示している。 全体として、画像とテキストのセマンティックな関連性を強化するデータセットとフレームワークを導入し、計算コストを大幅に削減し、効率とアクセシビリティを向上させる大規模基盤モデルの改善を実証し、VLMの限界に対処する。

Existing vision-language models (VLMs) treat text descriptions as a unit, confusing individual concepts in a prompt and impairing visual semantic matching and reasoning. An important aspect of reasoning in logic and language is negations. This paper highlights the limitations of popular VLMs such as CLIP, at understanding the implications of negations, i.e., the effect of the word "not" in a given prompt. To enable evaluation of VLMs on fluent prompts with negations, we present CC-Neg, a dataset containing 228,246 images, true captions and their corresponding negated captions. Using CC-Neg along with modifications to the contrastive loss of CLIP, our proposed CoN-CLIP framework, has an improved understanding of negations. This training paradigm improves CoN-CLIP's ability to encode semantics reliably, resulting in 3.85% average gain in top-1 accuracy for zero-shot image classification across 8 datasets. Further, CoN-CLIP outperforms CLIP on challenging compositionality benchmarks such as SugarCREPE by 4.4%, showcasing emergent compositional understanding of objects, relations, and attributes in text. Overall, our work addresses a crucial limitation of VLMs by introducing a dataset and framework that strengthens semantic associations between images and text, demonstrating improved large-scale foundation models with significantly reduced computational cost, promoting efficiency and accessibility.
翻訳日:2024-04-01 14:55:26 公開日:2024-03-29
# Convolutional Promptingが継続的学習のための言語モデルに到達

Convolutional Prompting meets Language Models for Continual Learning ( http://arxiv.org/abs/2403.20317v1 )

ライセンス: Link先を確認
Anurag Roy, Riddhiman Moulick, Vinay K. Verma, Saptarshi Ghosh, Abir Das, (参考訳) 継続学習(CL)により、機械学習モデルは、古いタスクからのデータなしで、新しいトレーニングデータを継続的にシフトすることから学ぶことができる。 近年、事前訓練された視覚変換器と即時チューニングを組み合わせることで、CLにおける破滅的な忘れを克服する可能性が示されている。 これらのアプローチは学習可能なプロンプトのプールに依存しており、パフォーマンスの低下につながるタスク間で知識を共有するのに非効率である。 さらに、きめ細かい層特異的プロンプトの欠如により、CLのプロンプトの強さを完全に表現することはできない。 ConvPromptは、階層的に共有された埋め込みを維持し、層固有の学習とタスク間のより良い概念伝達を可能にする、新しい畳み込みプロンプト生成メカニズムである。 畳み込みのインテリジェントな利用により、パフォーマンスを損なうことなく、低パラメータのオーバーヘッドを維持することができます。 さらに、大規模言語モデルを用いて各カテゴリの詳細なテキスト記述を生成し、タスクの類似性を取得し、学習すべきプロンプトの数を動的に決定する。 大規模な実験は、ConvPromptの優位性を実証し、パラメータのオーバーヘッドを大幅に減らして、SOTAを約3%改善する。 また、様々なモジュールに対して強いアブレーションを行い、異なるコンポーネントの重要性を歪めます。

Continual Learning (CL) enables machine learning models to learn from continuously shifting new training data in absence of data from old tasks. Recently, pretrained vision transformers combined with prompt tuning have shown promise for overcoming catastrophic forgetting in CL. These approaches rely on a pool of learnable prompts which can be inefficient in sharing knowledge across tasks leading to inferior performance. In addition, the lack of fine-grained layer specific prompts does not allow these to fully express the strength of the prompts for CL. We address these limitations by proposing ConvPrompt, a novel convolutional prompt creation mechanism that maintains layer-wise shared embeddings, enabling both layer-specific learning and better concept transfer across tasks. The intelligent use of convolution enables us to maintain a low parameter overhead without compromising performance. We further leverage Large Language Models to generate fine-grained text descriptions of each category which are used to get task similarity and dynamically decide the number of prompts to be learned. Extensive experiments demonstrate the superiority of ConvPrompt and improves SOTA by ~3% with significantly less parameter overhead. We also perform strong ablation over various modules to disentangle the importance of different components.
翻訳日:2024-04-01 14:55:26 公開日:2024-03-29
# SeaBird:大きな物体の単眼的3次元検出を改良したDice Lossによる鳥の視界のセグメンテーション

SeaBird: Segmentation in Bird's View with Dice Loss Improves Monocular 3D Detection of Large Objects ( http://arxiv.org/abs/2403.20318v1 )

ライセンス: Link先を確認
Abhinav Kumar, Yuliang Guo, Xinyu Huang, Liu Ren, Xiaoming Liu, (参考訳) 単眼の3D検出器は、車や小さな物体で顕著な性能を発揮する。 しかし、その性能は大きな物体に低下し、致命的な事故を引き起こした。 データの不足や、大きなオブジェクトの受容的フィールド要件のトレーニングに失敗する、という意見もある。 本稿では,大物体への一般化に関するこの未研究の問題を取り上げる。 現代の正面検出器は、ほぼバランスの取れたデータセット上でも、大きな物体に一般化するのに苦労している。 障害の原因は, 大きな物体の騒音に対する深さ回帰損失の感度である。 このギャップを埋めるために、回帰とダイス損失を包括的に調査し、その頑健さを様々な誤差レベルとオブジェクトサイズで検証する。 簡単な場合の回帰損失と比較して, ダイス損失が大きな物体に対して優れたノイズ・ロバスト性およびモデル収束をもたらすことを数学的に証明する。 理論的な洞察を生かして,大型物体への一般化に向けた第一歩としてSeaBird (Segmentation in Bird's View)を提案する。 SeaBirdは、3D検出のために前景オブジェクトにBEVセグメンテーションを効果的に統合する。 SeaBirdは、KITTI-360のリーダーボード上でSoTAの結果を達成し、特に大きな物体のために、nuScenesのリーダーボード上の既存の検出器を改善している。 https://github.com/abhi1kumar/SeaBirdのコードとモデル

Monocular 3D detectors achieve remarkable performance on cars and smaller objects. However, their performance drops on larger objects, leading to fatal accidents. Some attribute the failures to training data scarcity or their receptive field requirements of large objects. In this paper, we highlight this understudied problem of generalization to large objects. We find that modern frontal detectors struggle to generalize to large objects even on nearly balanced datasets. We argue that the cause of failure is the sensitivity of depth regression losses to noise of larger objects. To bridge this gap, we comprehensively investigate regression and dice losses, examining their robustness under varying error levels and object sizes. We mathematically prove that the dice loss leads to superior noise-robustness and model convergence for large objects compared to regression losses for a simplified case. Leveraging our theoretical insights, we propose SeaBird (Segmentation in Bird's View) as the first step towards generalizing to large objects. SeaBird effectively integrates BEV segmentation on foreground objects for 3D detection, with the segmentation head trained with the dice loss. SeaBird achieves SoTA results on the KITTI-360 leaderboard and improves existing detectors on the nuScenes leaderboard, particularly for large objects. Code and models at https://github.com/abhi1kumar/SeaBird
翻訳日:2024-04-01 14:55:26 公開日:2024-03-29
# フォールトインジェクションベンチマークスイートを目指して

Towards a Fault-Injection Benchmarking Suite ( http://arxiv.org/abs/2403.20319v1 )

ライセンス: Link先を確認
Tianhao Wang, Robin Thunig, Horst Schirmeier, (参考訳) メモリや論理回路のソフトエラーはプログラムの実行を妨害することが知られている。 この文脈では、研究コミュニティは、過去数十年にわたって多くのフォールトトレランス(FT)ソリューションと、それらをテスト、測定、比較するためのフォールトインジェクション(FI)アプローチを提案してきた。 しかし、FTやFIのアプローチを示すためのベンチマークスイートは合意されていない。 代替として、著者は他のドメイン、例えば組み込みシステムからベンチマークを選択する。 これにより、出版物間での互換性がほとんどなく、FT/FIドメインの直交性のために選択されなかったベンチマーク内での振る舞いの重なりが生じる。 本稿では、FT/FIドメインのベンチマークスイートがどのようなものになるべきかについて議論し、ベンチマーク選択の基準を提案する。

Soft errors in memories and logic circuits are known to disturb program execution. In this context, the research community has been proposing a plethora of fault-tolerance (FT) solutions over the last decades, as well as fault-injection (FI) approaches to test, measure and compare them. However, there is no agreed-upon benchmarking suite for demonstrating FT or FI approaches. As a replacement, authors pick benchmarks from other domains, e.g. embedded systems. This leads to little comparability across publications, and causes behavioral overlap within benchmarks that were not selected for orthogonality in the FT/FI domain. In this paper, we want to initiate a discussion on what a benchmarking suite for the FT/FI domain should look like, and propose criteria for benchmark selection.
翻訳日:2024-04-01 14:55:26 公開日:2024-03-29
# MTLoRA:効率的なマルチタスク学習のための低ランク適応手法

MTLoRA: A Low-Rank Adaptation Approach for Efficient Multi-Task Learning ( http://arxiv.org/abs/2403.20320v1 )

ライセンス: Link先を確認
Ahmed Agiza, Marina Neseem, Sherief Reda, (参考訳) 大規模データセットに事前トレーニングされたモデルを、さまざまな下流タスクに適応させることは、ディープラーニングにおける一般的な戦略である。 その結果、パラメータ効率のよい微調整手法が、最小限のパラメータのみを訓練しながら、事前訓練されたモデルを異なるタスクに適応させる有望な方法として登場した。 これらの手法の多くはシングルタスク適応のために設計されているが、マルチタスク学習(MTL)アーキテクチャにおけるパラメータ効率のトレーニングはまだ未検討である。 本稿では,MTLモデルのパラメータ効率向上のための新しいフレームワークであるMTLoRAを紹介する。 MTLoRAはタスク非依存およびタスク特化低ランク適応モジュールを採用しており、MTL微調整においてパラメータ空間を効果的に切り離すことで、MTLコンテキスト内でのタスクの特殊化とインタラクションの両処理を可能にする。 MTLoRAを階層変換器ベースMTLアーキテクチャに適用し,複数の下流密度予測タスクに適用した。 PASCALデータセットに関する広範な実験により、MTLoRAは、トレーニング可能なパラメータの数を3.6倍に減らしながら、MTLモデルを完全に微調整するよりも、下流タスクの精度が高いことが示された。 さらに、MTLoRAは、トレーニング可能なパラメータの数と下流タスクの精度との間のパレート最適トレードオフを確立し、現在の最先端パラメータ効率のトレーニング手法を精度と効率の両方で上回る。 私たちのコードは公開されています。

Adapting models pre-trained on large-scale datasets to a variety of downstream tasks is a common strategy in deep learning. Consequently, parameter-efficient fine-tuning methods have emerged as a promising way to adapt pre-trained models to different tasks while training only a minimal number of parameters. While most of these methods are designed for single-task adaptation, parameter-efficient training in Multi-Task Learning (MTL) architectures is still unexplored. In this paper, we introduce MTLoRA, a novel framework for parameter-efficient training of MTL models. MTLoRA employs Task-Agnostic and Task-Specific Low-Rank Adaptation modules, which effectively disentangle the parameter space in MTL fine-tuning, thereby enabling the model to adeptly handle both task specialization and interaction within MTL contexts. We applied MTLoRA to hierarchical-transformer-based MTL architectures, adapting them to multiple downstream dense prediction tasks. Our extensive experiments on the PASCAL dataset show that MTLoRA achieves higher accuracy on downstream tasks compared to fully fine-tuning the MTL model while reducing the number of trainable parameters by 3.6x. Furthermore, MTLoRA establishes a Pareto-optimal trade-off between the number of trainable parameters and the accuracy of the downstream tasks, outperforming current state-of-the-art parameter-efficient training methods in both accuracy and efficiency. Our code is publicly available.
翻訳日:2024-04-01 14:55:26 公開日:2024-03-29
# 自動ファクト検証における説明評価フレームワークの実現に向けて

Towards a Framework for Evaluating Explanations in Automated Fact Verification ( http://arxiv.org/abs/2403.20322v1 )

ライセンス: Link先を確認
Neema Kotonya, Francesca Toni, (参考訳) NLPの深いニューラルモデルがより複雑になり、結果として不透明になるにつれて、それらを解釈する必要がある。 急激な関心は、予測の簡潔で一貫性のある正当化を提供するための合理的な説明に現れている。 本稿では,それらの評価を体系的に支援するための説明の合理化に関する重要な概念と特性に関する公式な枠組みを提唱する。 また、自由形式の説明から導出的説明、(最も豊かな構造を持つ)議論的説明まで、ますます複雑な構造の説明を合理化するのに適した形式的な枠組みを概説する。 自動事実検証タスクに焦点をあてて,多様構造に合わせた説明文の評価に形式化の利用と有用性を示す。

As deep neural models in NLP become more complex, and as a consequence opaque, the necessity to interpret them becomes greater. A burgeoning interest has emerged in rationalizing explanations to provide short and coherent justifications for predictions. In this position paper, we advocate for a formal framework for key concepts and properties about rationalizing explanations to support their evaluation systematically. We also outline one such formal framework, tailored to rationalizing explanations of increasingly complex structures, from free-form explanations to deductive explanations, to argumentative explanations (with the richest structure). Focusing on the automated fact verification task, we provide illustrations of the use and usefulness of our formalization for evaluating explanations, tailored to their varying structures.
翻訳日:2024-04-01 14:55:26 公開日:2024-03-29
# 変圧器を用いた単パルス電気刺激応答からの静電オンセットゾーンの定位

Localising the Seizure Onset Zone from Single-Pulse Electrical Stimulation Responses with a Transformer ( http://arxiv.org/abs/2403.20324v1 )

ライセンス: Link先を確認
Jamie Norris, Aswin Chari, Gerald Cooray, Martin Tisdall, Karl Friston, Richard Rosch, (参考訳) てんかんは最も一般的な神経疾患の1つであり、多くの患者は発作を制御できない場合に外科的治療を必要とする。 効果的な外科的結果を得るためには、てんかん原性焦点の正確な局所化は、しばしばセイズーレ・オンセット・ゾーン(SOZ)を通して近似されるが、依然として重要な課題である。 電気刺激による能動的プローブは、すでにてんかん原性領域を特定するための標準的な臨床実践である。 本稿では,Single Pulse Electro Stimulation (SPES) 応答を用いたSOZローカライゼーションのための深層学習の応用を推し進める。 チャネル間アテンションを組み込んだTransformerモデルを導入することで、これを実現する。 本研究は, これらのモデルを用いて, 既往の患者に対する汎用性や電極配置の評価を行う。 まず,2つのSPES分析パラダイム,すなわち発散性と収束性を比較するために,既存のディープラーニングモデルを実装した。 これらのパラダイムは、それぞれ外向きと内向きの効果的な接続を評価する。 AUROC:0.574) から収束アプローチ (AUROC: 0.666) への移行において顕著な改善が見られ, この文脈で後者を最初に適用した。 第2に、異種電極配置の処理におけるトランスフォーマーモデルの有効性を示し、AUROCを0.730に増やした。 最後に、心房間変動を取り入れることで、AUROCの0.745でTransformerモデルをさらに洗練し、患者間でより一貫した予測をもたらす。 これらの進歩は、SOZの局在に関する深い洞察を与え、SPESにおける患者固有の頭蓋内脳波電極配置をモデル化する重要なステップを示す。 今後は、これらのモデルを臨床意思決定プロセスに統合して、ディープラーニング研究と実用的な医療応用のギャップを埋めていく予定だ。

Epilepsy is one of the most common neurological disorders, and many patients require surgical intervention when medication fails to control seizures. For effective surgical outcomes, precise localisation of the epileptogenic focus - often approximated through the Seizure Onset Zone (SOZ) - is critical yet remains a challenge. Active probing through electrical stimulation is already standard clinical practice for identifying epileptogenic areas. This paper advances the application of deep learning for SOZ localisation using Single Pulse Electrical Stimulation (SPES) responses. We achieve this by introducing Transformer models that incorporate cross-channel attention. We evaluate these models on held-out patient test sets to assess their generalisability to unseen patients and electrode placements. Our study makes three key contributions: Firstly, we implement an existing deep learning model to compare two SPES analysis paradigms - namely, divergent and convergent. These paradigms evaluate outward and inward effective connections, respectively. Our findings reveal a notable improvement in moving from a divergent (AUROC: 0.574) to a convergent approach (AUROC: 0.666), marking the first application of the latter in this context. Secondly, we demonstrate the efficacy of the Transformer models in handling heterogeneous electrode placements, increasing the AUROC to 0.730. Lastly, by incorporating inter-trial variability, we further refine the Transformer models, with an AUROC of 0.745, yielding more consistent predictions across patients. These advancements provide a deeper insight into SOZ localisation and represent a significant step in modelling patient-specific intracranial EEG electrode placements in SPES. Future work will explore integrating these models into clinical decision-making processes to bridge the gap between deep learning research and practical healthcare applications.
翻訳日:2024-04-01 14:55:26 公開日:2024-03-29
# Gecko: 大規模言語モデルからダイオードしたテキスト埋め込み

Gecko: Versatile Text Embeddings Distilled from Large Language Models ( http://arxiv.org/abs/2403.20327v1 )

ライセンス: Link先を確認
Jinhyuk Lee, Zhuyun Dai, Xiaoqi Ren, Blair Chen, Daniel Cer, Jeremy R. Cole, Kai Hui, Michael Boratko, Rajvi Kapadia, Wen Ding, Yi Luan, Sai Meher Karthik Duddu, Gustavo Hernandez Abrego, Weiqiang Shi, Nithi Gupta, Aditya Kusupati, Prateek Jain, Siddhartha Reddy Jonnalagadda, Ming-Wei Chang, Iftekhar Naim, (参考訳) 本稿では,コンパクトで汎用的なテキスト埋め込みモデルであるGeckoを紹介する。 Geckoは,大規模な言語モデル(LLM)から知識を抽出する,というキーアイデアを活用することで,強力な検索性能を実現する。 我々の2段階蒸留プロセスは、LSMを用いて多種多様な合成ペアデータを生成することから始まります。 次に、各クエリの候補パスの集合を検索し、同じLSMを用いて正負のパスと強負のパスを解放することにより、データ品質をさらに改善する。 提案手法の有効性は, ゲコのコンパクト性によって実証される。 MTEB (Massive Text Embedding Benchmark) では、256の埋め込み次元を持つ Gecko が 768 の埋め込みサイズで既存のエントリを上回ります。 768の埋め込み次元を持つゲコは平均スコア66.31に達し、7倍のモデルと5倍の高次元埋め込みと競合する。

We present Gecko, a compact and versatile text embedding model. Gecko achieves strong retrieval performance by leveraging a key idea: distilling knowledge from large language models (LLMs) into a retriever. Our two-step distillation process begins with generating diverse, synthetic paired data using an LLM. Next, we further refine the data quality by retrieving a set of candidate passages for each query, and relabeling the positive and hard negative passages using the same LLM. The effectiveness of our approach is demonstrated by the compactness of the Gecko. On the Massive Text Embedding Benchmark (MTEB), Gecko with 256 embedding dimensions outperforms all existing entries with 768 embedding size. Gecko with 768 embedding dimensions achieves an average score of 66.31, competing with 7x larger models and 5x higher dimensional embeddings.
翻訳日:2024-04-01 14:55:26 公開日:2024-03-29
# デモから視覚的四足歩行操作を学習する

Learning Visual Quadrupedal Loco-Manipulation from Demonstrations ( http://arxiv.org/abs/2403.20328v1 )

ライセンス: Link先を確認
Zhengmao He, Kun Lei, Yanjie Ze, Koushil Sreenath, Zhongyu Li, Huazhe Xu, (参考訳) 四足歩行ロボットは徐々に人間環境に統合されている。 四足歩行ロボットの移動能力の増大にもかかわらず、現実的な場面での物体との相互作用はまだ限られている。 四足歩行ロボットにロボットアームを追加することで、物体を操作することができるが、四足歩行ロボットは基本的に4つの手足を備えた移動ユニットであり、それぞれが3自由度(DoF)を持つことを考えると、しばしば冗長である。 そこで,本研究の目的は,四足歩行ロボットを足のみを用いて実世界の操作タスクの実行に活用することである。 我々はロコ操作プロセスを低レベル強化学習(RL)ベースのコントローラと高レベル行動クローン(BC)ベースのプランナに分解する。 操作軌跡をパラメータ化することにより,上層と下層の努力を同期させ,RLとBCの利点を活用する。 提案手法はシミュレーションや実世界の実験を通じて検証され,移動中にバスケットを持ち上げる,食器洗い機を閉じる,ボタンを押す,ドアを押すなど,移動性や高精度な作業を行うロボットの能力を実証した。 プロジェクトウェブサイト: https://zhengmaohe.github.io/leg-manip

Quadruped robots are progressively being integrated into human environments. Despite the growing locomotion capabilities of quadrupedal robots, their interaction with objects in realistic scenes is still limited. While additional robotic arms on quadrupedal robots enable manipulating objects, they are sometimes redundant given that a quadruped robot is essentially a mobile unit equipped with four limbs, each possessing 3 degrees of freedom (DoFs). Hence, we aim to empower a quadruped robot to execute real-world manipulation tasks using only its legs. We decompose the loco-manipulation process into a low-level reinforcement learning (RL)-based controller and a high-level Behavior Cloning (BC)-based planner. By parameterizing the manipulation trajectory, we synchronize the efforts of the upper and lower layers, thereby leveraging the advantages of both RL and BC. Our approach is validated through simulations and real-world experiments, demonstrating the robot's ability to perform tasks that demand mobility and high precision, such as lifting a basket from the ground while moving, closing a dishwasher, pressing a button, and pushing a door. Project website: https://zhengmaohe.github.io/leg-manip
翻訳日:2024-04-01 14:55:26 公開日:2024-03-29
# ReALM: 言語モデリングとしての参照解決

ReALM: Reference Resolution As Language Modeling ( http://arxiv.org/abs/2403.20329v1 )

ライセンス: Link先を確認
Joel Ruben Antony Moniz, Soundarya Krishnan, Melis Ozyildirim, Prathamesh Saraf, Halim Cagri Ates, Yuan Zhang, Hong Yu, Nidhi Rajshree, (参考訳) 参照解決は重要な問題であり、異なる種類のコンテキストを理解し、うまく扱うことが不可欠である。 このコンテキストには、ユーザの画面上のエンティティやバックグラウンドで実行されるエンティティなど、非会話エンティティに関連する以前のターンとコンテキストの両方が含まれている。 LLMは様々なタスクで非常に強力であることが示されているが、参照分解能、特に非会話的なエンティティでの使用は未利用のままである。 本稿では,従来のテキストのみのモダリティに還元できない画面上のオブジェクトのようなエンティティの形式を伴っても,参照解決が言語モデリング問題にどのように変換されるかを示すことによって,様々なタイプの参照を解決するための極めて効率的なシステムを構築する方法を示す。 画面上の参照に対して5%以上の絶対的なゲインが得られる最小のモデルで、異なるタイプの参照にまたがって同様の機能を持つ既存システムに対する大幅な改善を実証します。 また,GPT-3.5 と GPT-4 をベンチマークし,GPT-4 に匹敵する性能を達成した最小モデルと,それを上回る性能を示した。

Reference resolution is an important problem, one that is essential to understand and successfully handle context of different kinds. This context includes both previous turns and context that pertains to non-conversational entities, such as entities on the user's screen or those running in the background. While LLMs have been shown to be extremely powerful for a variety of tasks, their use in reference resolution, particularly for non-conversational entities, remains underutilized. This paper demonstrates how LLMs can be used to create an extremely effective system to resolve references of various types, by showing how reference resolution can be converted into a language modeling problem, despite involving forms of entities like those on screen that are not traditionally conducive to being reduced to a text-only modality. We demonstrate large improvements over an existing system with similar functionality across different types of references, with our smallest model obtaining absolute gains of over 5% for on-screen references. We also benchmark against GPT-3.5 and GPT-4, with our smallest model achieving performance comparable to that of GPT-4, and our larger models substantially outperforming it.
翻訳日:2024-04-01 14:55:26 公開日:2024-03-29
# 大規模ビジョンランゲージモデルの評価は正しいのか?

Are We on the Right Way for Evaluating Large Vision-Language Models? ( http://arxiv.org/abs/2403.20330v1 )

ライセンス: Link先を確認
Lin Chen, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Jiaqi Wang, Yu Qiao, Dahua Lin, Feng Zhao, (参考訳) 大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。 しかし、現在の評価作業を調べ、主要な2つの課題を特定します。 1)多くのサンプルでは視覚的内容は不要である。 答えは、質問や選択肢、あるいはLLMに埋め込まれた世界的知識から直接推測することができる。 この現象は現在のベンチマークでよく見られる。 例えば、GeminiProは、視覚的な入力なしでMMMUベンチマークで42.9%を達成し、平均20%以上の6ベンチマークでランダム選択ベースラインを上回っている。 2)LLMおよびLVLMトレーニングには意図しないデータ漏洩が存在する。 LLMとLVLMは、視覚的内容のないいくつかの視覚的必要質問に答えることができ、大規模なトレーニングデータの中でこれらのサンプルを記憶していることを示している。 例えば、Sphinx-X-MoE は画像にアクセスせずに MMMU で43.6% を獲得し、LLM のバックボーンを17.9% で上回っている。 どちらの問題も実際のマルチモーダルゲインの誤認を招き、LVLMの研究を誤認する可能性がある。 この目的のために,人間によって精巧に選択された1,500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。 MMStarは6つのコア能力と18の詳細な軸をベンチマークし、注意深くバランスと精製されたサンプルを用いてLVLMのマルチモーダル容量を評価することを目的としている。 これらのサンプルは、まず、自動化パイプラインを備えた現在のベンチマークから大まかに選択され、その後、各キュレーションされたサンプルが視覚的依存を示し、データリークを最小限に抑え、高度なマルチモーダル機能を必要とすることを保証するために、ヒューマンレビューが関与する。 さらに、マルチモーダルトレーニングにおいて、データの漏洩と実際のパフォーマンス向上を測定するために、2つのメトリクスが開発されている。 我々はMMStar上で16個のLVLMを評価し、そのマルチモーダル能力を評価し、7つのベンチマークでデータ漏洩と実際のマルチモーダルゲインを調査した。

Large vision-language models (LVLMs) have recently achieved rapid progress, sparking numerous studies to evaluate their multi-modal capabilities. However, we dig into current evaluation works and identify two primary issues: 1) Visual content is unnecessary for many samples. The answers can be directly inferred from the questions and options, or the world knowledge embedded in LLMs. This phenomenon is prevalent across current benchmarks. For instance, GeminiPro achieves 42.9% on the MMMU benchmark without any visual input, and outperforms the random choice baseline across six benchmarks over 20% on average. 2) Unintentional data leakage exists in LLM and LVLM training. LLM and LVLM could still answer some visual-necessary questions without visual content, indicating the memorizing of these samples within large-scale training data. For example, Sphinx-X-MoE gets 43.6% on MMMU without accessing images, surpassing its LLM backbone with 17.9%. Both problems lead to misjudgments of actual multi-modal gains and potentially misguide the study of LVLM. To this end, we present MMStar, an elite vision-indispensable multi-modal benchmark comprising 1,500 samples meticulously selected by humans. MMStar benchmarks 6 core capabilities and 18 detailed axes, aiming to evaluate LVLMs' multi-modal capacities with carefully balanced and purified samples. These samples are first roughly selected from current benchmarks with an automated pipeline, human review is then involved to ensure each curated sample exhibits visual dependency, minimal data leakage, and requires advanced multi-modal capabilities. Moreover, two metrics are developed to measure data leakage and actual performance gain in multi-modal training. We evaluate 16 leading LVLMs on MMStar to assess their multi-modal capabilities, and on 7 benchmarks with the proposed metrics to investigate their data leakage and actual multi-modal gain.
翻訳日:2024-04-01 14:55:26 公開日:2024-03-29
# 解決不可能な問題検出:視覚言語モデルの信頼性を評価する

Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models ( http://arxiv.org/abs/2403.20331v1 )

ライセンス: Link先を確認
Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu, Go Irie, Yixuan Li, Hai Li, Ziwei Liu, Kiyoharu Aizawa, (参考訳) 本稿では,Unsolvable Problem Detection (UPD) と呼ばれるビジョン言語モデル(VLM)の新規かつ重要な課題を紹介する。 UPDは、VQA(Visual Question Answering)タスクのコンテキストにおいて、解決不可能な問題に直面したときのVLMの回答を抑える能力について検討している。 UPDには、AAD(Absent Answer Detection)、IASD(Incompatible Answer Set Detection)、IVQD(Incompatible Visual Question Detection)の3つの異なる設定が含まれている。 UPD問題を深く研究するため, GPT-4V や LLaVA-Next-34B を含むほとんどの VLM は, 様々な範囲でベンチマークに苦慮し, 改善の余地があることが示唆された。 UPDに対処するため、トレーニングフリーとトレーニングベースの両方のソリューションを検討し、その有効性と制限に関する新たな洞察を提供する。 我々は,提案されているUDD設定における今後の取り組みとともに,より実用的で信頼性の高いVLMのより広範な理解と開発を促進することを願っている。

This paper introduces a novel and significant challenge for Vision Language Models (VLMs), termed Unsolvable Problem Detection (UPD). UPD examines the VLM's ability to withhold answers when faced with unsolvable problems in the context of Visual Question Answering (VQA) tasks. UPD encompasses three distinct settings: Absent Answer Detection (AAD), Incompatible Answer Set Detection (IASD), and Incompatible Visual Question Detection (IVQD). To deeply investigate the UPD problem, extensive experiments indicate that most VLMs, including GPT-4V and LLaVA-Next-34B, struggle with our benchmarks to varying extents, highlighting significant room for the improvements. To address UPD, we explore both training-free and training-based solutions, offering new insights into their effectiveness and limitations. We hope our insights, together with future efforts within the proposed UPD settings, will enhance the broader understanding and development of more practical and reliable VLMs.
翻訳日:2024-04-01 14:55:26 公開日:2024-03-29
# 直接スーパーポイントマッチングによるポイントクラウド登録のための強力なベースライン

A Strong Baseline for Point Cloud Registration via Direct Superpoints Matching ( http://arxiv.org/abs/2307.01362v4 )

ライセンス: Link先を確認
Aniket Gupta, Yiming Xie, Hanumant Singh, Huaizu Jiang, (参考訳) ディープニューラルネットワークは、高度に識別可能な特徴表現で、サンプリングされたスーパーポイントを許容する。 以前の支配的なクラウド登録アプローチは、Sinkhornアルゴリズムを使用した最初のステップとして、これらの特徴表現と一致している。 その後、RANSACライクな手法が後処理の改良として採用され、オプティラをフィルタする。 その他の支配的な方法は、学習したMLP層を用いてスーパーポイントマッチングを直接予測することである。 RANSACベースのメソッドは計算集約的で、予測ベースのメソッドは、ポイントクラウド内の既存のポイントを出力するのに苦しむ。 本稿では,グローバルなマッチング方式でスーパーポイントの対応を見つけるための,単純で効果的なベースラインを提案する。 正規化マッチングスコアを各対応の重みとして使用し、不規則なRANSACを使わずに変換行列を適合させる際には、アウトレーヤを拒否し、残りのインレーヤを重み付けすることができる。 さらに、モデル全体がエンドツーエンドでトレーニングできるため、精度が向上する。 我々の単純で効果的なベースラインは、ModelNet、3DMatch、KITTIを含む3つのデータセットの最先端メソッドと同等あるいはそれ以上の結果を示している。 私たちは、ポイントクラウド登録のためのemph{the}ソリューションへのアプローチを提唱しませんが、ポイントクラウド登録のためのマッチング戦略の役割を強調するために結果を使用します。 コードとモデルはhttps://github.com/neu-vi/Superpoints_Registrationで公開されている。

Deep neural networks endow the downsampled superpoints with highly discriminative feature representations. Previous dominant point cloud registration approaches match these feature representations as the first step, e.g., using the Sinkhorn algorithm. A RANSAC-like method is then usually adopted as a post-processing refinement to filter the outliers. Other dominant method is to directly predict the superpoint matchings using learned MLP layers. Both of them have drawbacks: RANSAC-based methods are computationally intensive and prediction-based methods suffer from outputing non-existing points in the point cloud. In this paper, we propose a straightforward and effective baseline to find correspondences of superpoints in a global matching manner. We employ the normalized matching scores as weights for each correspondence, allowing us to reject the outliers and further weigh the rest inliers when fitting the transformation matrix without relying on the cumbersome RANSAC. Moreover, the entire model can be trained in an end-to-end fashion, leading to better accuracy. Our simple yet effective baseline shows comparable or even better results than state-of-the-art methods on three datasets including ModelNet, 3DMatch, and KITTI. We do not advocate our approach to be \emph{the} solution for point cloud registration but use the results to emphasize the role of matching strategy for point cloud registration. The code and models are available at https://github.com/neu-vi/Superpoints_Registration.
翻訳日:2024-04-01 11:12:51 公開日:2024-03-29
# トランスモン量子ビット設計パラメータの電荷-パリティ切替効果と最適化

Charge-parity switching effects and optimisation of transmon-qubit design parameters ( http://arxiv.org/abs/2309.17168v4 )

ライセンス: Link先を確認
Miha Papič, Jani Tuorila, Adrian Auer, Inés de Vega, Amin Hosseinkhani, (参考訳) ノイズの多い量子プロセッサの性能向上には、エラーメカニズムの理解と克服方法の改善が必要です。 本研究では,包括的雑音モデルに基づく量子ビット設計パラメータの最適範囲を同定する。 この目的のために、準粒子による電荷パリティスイッチによる2量子ゲートの摂動が可能な、未探索の誤差機構も分析する。 電荷分散が著しく大きいトランスモンの高レベルの利用により、電荷パリティスイッチは2量子ゲートの条件相に影響を与える。 我々は、ダイアバティック制御Zゲートの不完全性の解析式を導出し、調整可能なカプラ構造における断熱制御相ゲートにおける同様の大きさの影響を見いだす。 さらに、電荷パリティスイッチの効果が、2量子ゲートの準粒子関連誤差源となることを示す。 また、チャージパリティスイッチは、チューナブルカップラー回路におけるキュービット間の残留長手相互作用を誘導することを示した。 本稿では, 量子回路実行のための性能指標として, アルゴリズムにおける単一および2量子ゲートの忠実度と個数, および状態準備忠実度について述べる。 この包括的メトリックと詳細なノイズモデルを組み合わせることで、量子ビット設計パラメーターの最適範囲を決定することができる。正確な数値シミュレーションにより、この最適パラメーター範囲内で量子チップを作製することは、性能指標を増大させるだけでなく、個々の量子ビットコヒーレンス特性の向上とともに、その継続的な改善を確実にする。 我々の系統分析は洞察を与え、次世代のトランスモンベースの量子プロセッサの開発のための指針となる。

Enhancing the performance of noisy quantum processors requires improving our understanding of error mechanisms and the ways to overcome them. In this study, we identify optimal ranges for qubit design parameters, grounded in comprehensive noise modeling. To this end, we also analyze a previously unexplored error mechanism that can perturb two-qubit gates due to charge-parity switches caused by quasiparticles. Due to the utilization of the higher levels of a transmon, where the charge dispersion is significantly larger, a charge-parity switch will affect the conditional phase of the two-qubit gate. We derive an analytical expression for the infidelity of a diabatic controlled-Z gate and see effects of similar magnitude in adiabatic controlled phase gates in the tunable coupler architecture. Moreover, we show that the effect of a charge-parity switch can be the dominant quasiparticle-related error source of a two-qubit gate. We also demonstrate that charge-parity switches induce a residual longitudinal interaction between qubits in a tunable-coupler circuit. We present a performance metric for quantum circuit execution, encompassing the fidelity and number of single and two-qubit gates in an algorithm, as well as the state preparation fidelity. This comprehensive metric, coupled with a detailed noise model, empowers us to determine an optimal range for the qubit design parameters Substantiating our findings through exact numerical simulations, we establish that fabricating quantum chips within this optimal parameter range not only augments the performance metric but also ensures its continued improvement with the enhancement of individual qubit coherence properties. Our systematic analysis offers insights and serves as a guiding framework for the development of the next generation of transmon-based quantum processors.
翻訳日:2024-04-01 11:12:51 公開日:2024-03-29
# PEMA: 言語モデルのための外部変更可能なプラグイン外部メモリ適応

PEMA: An Offsite-Tunable Plug-in External Memory Adaptation for Language Models ( http://arxiv.org/abs/2311.08590v3 )

ライセンス: Link先を確認
HyunJin Kim, Young Jin Kim, JinYeong Bak, (参考訳) プレトレーニング言語モデル (PLM) は、様々な下流のNLPタスクにおいて顕著な性能を示す。 しかし、事前学習された大きな言語モデルには、かなりのメモリとトレーニング計算が必要である。 さらに、大量の資源を必要とするため、多くのPLM重みは機密である。 その結果、ユーザーは特定のタスクを微調整するために、モデルオーナーとデータを共有せざるを得なくなる。 この制限を克服するために,パラメータ効率の良い微細チューニング (PEFT) 法であるプラグイン外部メモリ適応 (PEMA) を導入する。 PEMAは、ダウンストリームタスクを実行するために、推論中のテストデータからコンテキスト表現を統合する。 外部メモリを使用して、ターゲットトークンでマップされたPLM生成コンテキスト表現を格納する。 本手法は,PLMの最終層におけるLoRA様ボトルネックアダプタの重量行列を利用して効率を向上する。 我々のアプローチには、生成品質を改善するための新しい補間戦略であるGradual Unrollingも含まれている。 我々はPEMAの有効性を,機械翻訳とスタイル転送のための構文および実データセットの実験を通じて検証する。 本研究により,PEMAは,学習におけるメモリと遅延効率において他のPEFTアプローチよりも優れており,文の意味の維持や適切な言語やスタイルの生成に優れることがわかった。

Pre-trained language models (PLMs) show impressive performance in various downstream NLP tasks. However, pre-training large language models demands substantial memory and training compute. Furthermore, due to the substantial resources required, many PLM weights are confidential. Consequently, users are compelled to share their data with model owners for fine-tuning specific tasks. To overcome the limitations, we introduce Plug-in External Memory Adaptation (PEMA), a Parameter-Efficient Fine-Tuning (PEFT) method, enabling PLM fine-tuning without requiring access to all the weights. PEMA integrates with context representations from test data during inference to perform downstream tasks. It uses external memory to store PLM-generated context representations mapped with target tokens. Our method utilizes weight matrices of LoRA-like bottlenecked adapter in the PLM's final layer to enhance efficiency. Our approach also includes Gradual Unrolling, a novel interpolation strategy to improve generation quality. We validate PEMA's effectiveness through experiments on syntactic and real datasets for machine translation and style transfer. Our findings show that PEMA outperforms other PEFT approaches in memory and latency efficiency for training, and also excels in maintaining sentence meaning and generating appropriate language and styles.
翻訳日:2024-04-01 11:12:51 公開日:2024-03-29
# 2次元3次元平面と3次元ウェーブレット表現を用いたハイブリッドビデオ拡散モデル

Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation ( http://arxiv.org/abs/2402.13729v3 )

ライセンス: Link先を確認
Kihong Kim, Haneol Lee, Jihye Park, Seyeon Kim, Kwanghee Lee, Seungryong Kim, Jaejun Yoo, (参考訳) 要求されるリアルなコンテンツを合成する高品質なビデオを生成することは、ビデオの複雑な高次元性と複雑さのために難しい課題である。 最近の拡散法では、従来のビデオオートエンコーダアーキテクチャを用いて、動画を低次元の潜在空間に圧縮することで、同等の性能を示す。 しかし、標準的なフレームワイド2Dと3Dコンボリューションを利用するこのような手法は、ビデオの時空間特性を完全に活用することができない。 この問題に対処するために,時空間依存性をより効果的にキャプチャできるHVDMと呼ばれるハイブリッドビデオ拡散モデルを提案する。 HVDMはハイブリッドビデオオートエンコーダによってトレーニングされ、ビデオの非絡み合った表現を抽出する。 (i)2次元投影潜水士が捉えたグローバルな文脈情報 (ii)ウェーブレット分解を伴う3次元畳み込みによる局所体積情報 三 映像再生を改善するための周波数情報 この不整合表現に基づいて、我々のハイブリッドオートエンコーダは、生成されたビデオに微細な構造と詳細を付加したより包括的なビデオラテントを提供する。 ビデオ生成ベンチラマーク(UCF101, SkyTimelapse, TaiChi)の実験は,提案手法が最先端のビデオ生成品質を達成し,幅広いビデオアプリケーション(例えば,長時間ビデオ生成,画像から映像への変換,動画のダイナミックス制御)を示すことを示した。

Generating high-quality videos that synthesize desired realistic content is a challenging task due to their intricate high-dimensionality and complexity of videos. Several recent diffusion-based methods have shown comparable performance by compressing videos to a lower-dimensional latent space, using traditional video autoencoder architecture. However, such method that employ standard frame-wise 2D and 3D convolution fail to fully exploit the spatio-temporal nature of videos. To address this issue, we propose a novel hybrid video diffusion model, called HVDM, which can capture spatio-temporal dependencies more effectively. The HVDM is trained by a hybrid video autoencoder which extracts a disentangled representation of the video including: (i) a global context information captured by a 2D projected latent (ii) a local volume information captured by 3D convolutions with wavelet decomposition (iii) a frequency information for improving the video reconstruction. Based on this disentangled representation, our hybrid autoencoder provide a more comprehensive video latent enriching the generated videos with fine structures and details. Experiments on video generation benchamarks (UCF101, SkyTimelapse, and TaiChi) demonstrate that the proposed approach achieves state-of-the-art video generation quality, showing a wide range of video applications (e.g., long video generation, image-to-video, and video dynamics control).
翻訳日:2024-04-01 11:12:51 公開日:2024-03-29
# Dual-Channel Multiplex Graph Neural Networks for Recommendation

Dual-Channel Multiplex Graph Neural Networks for Recommendation ( http://arxiv.org/abs/2403.11624v3 )

ライセンス: Link先を確認
Xiang Li, Chaofan Fu, Zhongying Zhao, Guanjie Zheng, Chao Huang, Junyu Dong, Yanwei Yu, (参考訳) 効率的なレコメンデータシステムは、個人の好みを反映したユーザ属性とアイテム属性を正確にキャプチャする上で重要な役割を果たす。 既存のレコメンデーション技術は、クリック、お気に入りのマーク付け、オンラインショッピングプラットフォームでの購入など、現実のレコメンデーションシナリオにおけるユーザとアイテム間のさまざまなタイプのインタラクション関係のモデリングに焦点を移し始めている。 しかし,これらの手法は,(1)ユーザとアイテム間の多重関係が表現学習に与える影響のモデルと活用の不十分さ,(2)レコメンダシステムシナリオにおける対象関係に対する行動パターンの異なる関係の影響を無視すること,の2つの重大な欠点を伴っている。 本研究では,上記の課題に対処する新しい推薦フレームワークであるDual-Channel Multiplex Graph Neural Network (DCMGNN)を紹介する。 マルチプレックスユーザ・イテム相互作用関係からなる行動パターンを抽出する明示的な行動パターン表現学習装置を内蔵し、関係連鎖表現学習と関係連鎖認識エンコーダを備え、対象関係、異なる関係間の依存関係、行動パターンにおける適切な関係順序のマイニングを行う。 3つの実世界のデータセットに対する大規模な実験により、我々の \model は様々な最先端のレコメンデーション手法を超越していることが示された。 R@10とN@10では、全データセットの平均で10.06\%と12.15\%で最高のベースラインを上回っている。

Efficient recommender systems play a crucial role in accurately capturing user and item attributes that mirror individual preferences. Some existing recommendation techniques have started to shift their focus towards modeling various types of interaction relations between users and items in real-world recommendation scenarios, such as clicks, marking favorites, and purchases on online shopping platforms. Nevertheless, these approaches still grapple with two significant shortcomings: (1) Insufficient modeling and exploitation of the impact of various behavior patterns formed by multiplex relations between users and items on representation learning, and (2) ignoring the effect of different relations in the behavior patterns on the target relation in recommender system scenarios. In this study, we introduce a novel recommendation framework, Dual-Channel Multiplex Graph Neural Network (DCMGNN), which addresses the aforementioned challenges. It incorporates an explicit behavior pattern representation learner to capture the behavior patterns composed of multiplex user-item interaction relations, and includes a relation chain representation learning and a relation chain-aware encoder to discover the impact of various auxiliary relations on the target relation, the dependencies between different relations, and mine the appropriate order of relations in a behavior pattern. Extensive experiments on three real-world datasets demonstrate that our \model surpasses various state-of-the-art recommendation methods. It outperforms the best baselines by 10.06\% and 12.15\% on average across all datasets in terms of R@10 and N@10 respectively.
翻訳日:2024-04-01 11:08:03 公開日:2024-03-29
# WoLF: CXR理解のための広スコープ大言語モデルフレームワーク

WoLF: Wide-scope Large Language Model Framework for CXR Understanding ( http://arxiv.org/abs/2403.15456v3 )

ライセンス: Link先を確認
Seil Kang, Donghyun Kim, Junhyeok Kim, Hyo Kyung Lee, Seong Jae Hwang, (参考訳) 最新の視覚言語モデル(VLM)による胸部X線(CXR)の理解に向けた重要な手法が開発され、視覚質問応答(VQA)とCXRレポート生成能力が目覚ましい。 しかし、既存のCXR理解フレームワークには、手続き上の注意事項がいくつか残っている。 1) 総合的視覚質問応答 (VQA) には不十分なCXRレポートのみを使用する従来手法では, 薬物歴や先行診断などの健康関連データが必要であった。 2) 従来の手法では生のCXRレポートを使用しており, 任意に構造化されることが多い。 現代の言語モデルは、様々なテキスト形式を理解できるが、より明確で組織化された解剖学的情報のためのレポートの再構築は、それらの有用性を高めることができる。 3) CXR-VQAの現在の評価手法は, 主に言語的正当性を重視しており, 生成した回答の微妙な評価を行う能力は欠如している。 本稿では,CXR理解のための広スコープ大言語モデルフレームワークであるWoLFを紹介する。 1) 実際の臨床シナリオにおいて, 正確な診断に利用される多面的な患者の記録を収集する。 具体的には、電子健康記録(EHR)を用いて、CXR理解に適した指示追従データを生成する。 2)CXRレポートでは,注意ステップ内においても注意を隠蔽して,解剖学的構造に基づく知識の疎結合化によるレポート生成性能の向上が図られている。 (3)に対処するため,LLMの性能評価に最適化されたAI評価プロトコルを提案する。 大規模な実験的検証を通じて、WoLFはVQA(平均スコア+9.47%まで)とレポート生成(+7.3%p BLEU-1まで)に関するAI評価領域におけるMIMIC-CXRの他のモデルよりも優れた性能を示す。

Significant methodological strides have been made toward Chest X-ray (CXR) understanding via modern vision-language models (VLMs), demonstrating impressive Visual Question Answering (VQA) and CXR report generation abilities. However, existing CXR understanding frameworks still possess several procedural caveats. (1) Previous methods solely use CXR reports, which are insufficient for comprehensive Visual Question Answering (VQA), especially when additional health-related data like medication history and prior diagnoses are needed. (2) Previous methods use raw CXR reports, which are often arbitrarily structured. While modern language models can understand various text formats, restructuring reports for clearer, organized anatomy-based information could enhance their usefulness. (3) Current evaluation methods for CXR-VQA primarily emphasize linguistic correctness, lacking the capability to offer nuanced assessments of the generated answers. In this work, to address the aforementioned caveats, we introduce WoLF, a Wide-scope Large Language Model Framework for CXR understanding. To resolve (1), we capture multi-faceted records of patients, which are utilized for accurate diagnoses in real-world clinical scenarios. Specifically, we adopt the Electronic Health Records (EHR) to generate instruction-following data suited for CXR understanding. Regarding (2), we enhance report generation performance by decoupling knowledge in CXR reports based on anatomical structure even within the attention step via masked attention. To address (3), we introduce an AI-evaluation protocol optimized for assessing the capabilities of LLM. Through extensive experimental validations, WoLF demonstrates superior performance over other models on MIMIC-CXR in the AI-evaluation arena about VQA (up to +9.47%p mean score) and by metrics about report generation (+7.3%p BLEU-1).
翻訳日:2024-04-01 11:08:03 公開日:2024-03-29
# 資源制約デバイスのための低エネルギー適応型パーソナライズに向けて

Towards Low-Energy Adaptive Personalization for Resource-Constrained Devices ( http://arxiv.org/abs/2403.15905v4 )

ライセンス: Link先を確認
Yushan Huang, Josh Millar, Yuxuan Long, Yuchen Zhao, Hamed Haddadi, (参考訳) データドリフトに対処するための機械学習(ML)モデルのパーソナライズは、IoT(Internet of Things)アプリケーションにおける重要な課題である。 現在、ほとんどのアプローチは、エネルギーコストを無視しながら、新しいデータに適応するために、完全なベースモデルまたは最後の数層を微調整することに焦点を当てている。 しかし、様々な種類のデータドリフトが存在し、完全なベースモデルや最後の数層を微調整しても、特定のシナリオでは最適なパフォーマンスが得られない。 資源制約のあるデバイス向けに設計された低エネルギー適応型パーソナライズフレームワークであるTarget Block Fine-Tuning (TBFT)を提案する。 データのドリフトとパーソナライゼーションを,入力レベル,特徴レベル,出力レベルという3つのタイプに分類する。 各タイプに対して、エネルギーコストを削減して最適な性能を達成するために、モデルの異なるブロックを微調整する。 具体的には、入力レベル、特徴レベル、出力レベルは、モデルのフロント、ミドル、リアブロックの微調整に対応する。 TBFTをResNetモデル,3つのデータセット,3つのトレーニングサイズ,Raspberry Piで評価した。 Block Avg$と比較すると、各ブロックは個別に微調整され、その性能は平均で15.30%向上し、フル微調整と比較して41.57%のエネルギー消費を節約している。

The personalization of machine learning (ML) models to address data drift is a significant challenge in the context of Internet of Things (IoT) applications. Presently, most approaches focus on fine-tuning either the full base model or its last few layers to adapt to new data, while often neglecting energy costs. However, various types of data drift exist, and fine-tuning the full base model or the last few layers may not result in optimal performance in certain scenarios. We propose Target Block Fine-Tuning (TBFT), a low-energy adaptive personalization framework designed for resource-constrained devices. We categorize data drift and personalization into three types: input-level, feature-level, and output-level. For each type, we fine-tune different blocks of the model to achieve optimal performance with reduced energy costs. Specifically, input-, feature-, and output-level correspond to fine-tuning the front, middle, and rear blocks of the model. We evaluate TBFT on a ResNet model, three datasets, three different training sizes, and a Raspberry Pi. Compared with the $Block Avg$, where each block is fine-tuned individually and their performance improvements are averaged, TBFT exhibits an improvement in model accuracy by an average of 15.30% whilst saving 41.57% energy consumption on average compared with full fine-tuning.
翻訳日:2024-04-01 11:08:03 公開日:2024-03-29
# Elysium:MLLMによるビデオのオブジェクトレベルの知覚の探索

Elysium: Exploring Object-level Perception in Videos via MLLM ( http://arxiv.org/abs/2403.16558v2 )

ライセンス: Link先を確認
Han Wang, Yanjie Wang, Yongjie Ye, Yuxiang Nie, Can Huang, (参考訳) MLLM(Multi-modal Large Language Models)は、静止画像中のオブジェクトを知覚する能力を示したが、オブジェクト追跡などのビデオ関連タスクへの応用はまだ検討されていない。 この探索の欠如は、主に2つの主要な課題に起因する。 第一に、大規模なビデオデータセットに対する広範な事前トレーニングは、MLLMに複数のフレームにわたるオブジェクトを知覚し、フレーム間の関係を理解する能力を持たせるために必要である。 第二に、LLM(Large Language Models)のコンテキストウィンドウ内で多数のフレームを処理することは、かなりの計算負担を負う可能性がある。 最初の課題に対処するために、ElysiumTrack-1Mという、SOT(Single Object Tracking)、RSOT(Referring Single Object Tracking)、Video Referring Expression Generation(Video-REG)の3つのタスクをサポートする大規模なビデオデータセットを紹介した。 ElysiumTrack-1Mは127万の注釈付きビデオフレームと対応するオブジェクトボックスと記述を含んでいる。 このデータセットを活用することで,MLLMのトレーニングを行い,トークン圧縮モデルTセレクタを提案する。 提案手法であるElysium: Exploring Object-level Perception in Videos via MLLMは,追加のプラグインやエキスパートモデルを必要としない,エンドツーエンドのトレーニング可能なMLLMである。 すべてのコードとデータセットはhttps://github.com/Hon-Wong/Elysiumで公開されている。

Multi-modal Large Language Models (MLLMs) have demonstrated their ability to perceive objects in still images, but their application in video-related tasks, such as object tracking, remains understudied. This lack of exploration is primarily due to two key challenges. Firstly, extensive pretraining on large-scale video datasets is required to equip MLLMs with the capability to perceive objects across multiple frames and understand inter-frame relationships. Secondly, processing a large number of frames within the context window of Large Language Models (LLMs) can impose a significant computational burden. To address the first challenge, we introduce ElysiumTrack-1M, a large-scale video dataset supported for three tasks: Single Object Tracking (SOT), Referring Single Object Tracking (RSOT), and Video Referring Expression Generation (Video-REG). ElysiumTrack-1M contains 1.27 million annotated video frames with corresponding object boxes and descriptions. Leveraging this dataset, we conduct training of MLLMs and propose a token-compression model T-Selector to tackle the second challenge. Our proposed approach, Elysium: Exploring Object-level Perception in Videos via MLLM, is an end-to-end trainable MLLM that attempts to conduct object-level tasks in videos without requiring any additional plug-in or expert models. All codes and datasets are available at https://github.com/Hon-Wong/Elysium.
翻訳日:2024-04-01 11:08:03 公開日:2024-03-29
# Dr.Hair:ラインセグメントの微分レンダリングによる事前トレーニングのないスカルプ接続型ヘアストランドの再構築

Dr.Hair: Reconstructing Scalp-Connected Hair Strands without Pre-training via Differentiable Rendering of Line Segments ( http://arxiv.org/abs/2403.17496v2 )

ライセンス: Link先を確認
Yusuke Takimoto, Hikari Takehara, Hiroyuki Sato, Zihao Zhu, Bo Zheng, (参考訳) 映画やゲーム業界では、現実的な髪型を達成するには、頭皮由来の鎖を使うのが一般的である。 しかし、観察された毛髪の表面像からこれらのストランドを再構築することは大きな課題である。 地上真実(GT)データを取得することの難しさは、手作業による合成CGデータによる事前学習に依存する最先端の学習ベースの手法を導いた。 このプロセスは、労働集約的でコストがかかるだけでなく、実際のデータと比較した場合のドメインギャップによる複雑さも引き起こす。 本研究では,事前学習の必要性を解消する最適化手法を提案する。 本手法は,頭皮から成長する線分としてヘアストランドを表現し,新しい微分可能レンダリングアルゴリズムを用いて最適化する。 大域的最適化を用いた3次元配向推定,ラプラス方程式に基づくストランド初期化,幾何学的接続性および空間的近接性を利用した再パラメータ化を導入する。 既存の最適化手法とは異なり,本手法は内毛髪の流れを絶対方向に再構築することができる。 提案手法は,既存の手法の精度を越え,処理速度を大幅に向上させるとともに,堅牢かつ高精度な逆レンダリングを実現する。

In the film and gaming industries, achieving a realistic hair appearance typically involves the use of strands originating from the scalp. However, reconstructing these strands from observed surface images of hair presents significant challenges. The difficulty in acquiring Ground Truth (GT) data has led state-of-the-art learning-based methods to rely on pre-training with manually prepared synthetic CG data. This process is not only labor-intensive and costly but also introduces complications due to the domain gap when compared to real-world data. In this study, we propose an optimization-based approach that eliminates the need for pre-training. Our method represents hair strands as line segments growing from the scalp and optimizes them using a novel differentiable rendering algorithm. To robustly optimize a substantial number of slender explicit geometries, we introduce 3D orientation estimation utilizing global optimization, strand initialization based on Laplace's equation, and reparameterization that leverages geometric connectivity and spatial proximity. Unlike existing optimization-based methods, our method is capable of reconstructing internal hair flow in an absolute direction. Our method exhibits robust and accurate inverse rendering, surpassing the quality of existing methods and significantly improving processing speed.
翻訳日:2024-04-01 11:08:03 公開日:2024-03-29
# ガンバ:マムバとマーリー・ガウシアン・スプレイティング シングルビュー3D再構築

Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction ( http://arxiv.org/abs/2403.18795v2 )

ライセンス: Link先を確認
Qiuhong Shen, Xuanyu Yi, Zike Wu, Pan Zhou, Hanwang Zhang, Shuicheng Yan, Xinchao Wang, (参考訳) 我々は,自動化された3Dコンテンツ作成パイプラインの需要が増大する中で,単一の画像から3Dアセットを効率的に再構築する課題に取り組む。 従来はSDS(Score Distillation Smpling)とNeural Radiance Fields(NeRF)が主流であった。 その大きな成功にもかかわらず、これらのアプローチは、長い最適化とかなりのメモリ使用量のために、実用的な制限に直面している。 本報告では, 単一視点画像からエンド・ツー・エンドの3次元再構成モデルであるガンバについて述べる。(1) 多数の3次元ガウス表現を効率的に3次元ガウス分割プロセスに活用すること,(2) バックボーン設計: コンテキスト依存推論と線形スケーラビリティをシーケンス(token)長で実現し, 相当数のガウスを収容すること。 Gambaは、データ前処理、正規化設計、トレーニング方法論の大幅な進歩を取り入れている。 我々は,実世界のOmniObject3Dデータセットを用いて,既存の最適化ベースおよびフィードフォワード3D生成手法に対するガンバの評価を行った。 ここでGambaは、定性的かつ定量的に競合生成能力を示しながら、1つのNVIDIA A100 GPUで約0.6秒の驚くべき速度を実現している。

We tackle the challenge of efficiently reconstructing a 3D asset from a single image with growing demands for automated 3D content creation pipelines. Previous methods primarily rely on Score Distillation Sampling (SDS) and Neural Radiance Fields (NeRF). Despite their significant success, these approaches encounter practical limitations due to lengthy optimization and considerable memory usage. In this report, we introduce Gamba, an end-to-end amortized 3D reconstruction model from single-view images, emphasizing two main insights: (1) 3D representation: leveraging a large number of 3D Gaussians for an efficient 3D Gaussian splatting process; (2) Backbone design: introducing a Mamba-based sequential network that facilitates context-dependent reasoning and linear scalability with the sequence (token) length, accommodating a substantial number of Gaussians. Gamba incorporates significant advancements in data preprocessing, regularization design, and training methodologies. We assessed Gamba against existing optimization-based and feed-forward 3D generation approaches using the real-world scanned OmniObject3D dataset. Here, Gamba demonstrates competitive generation capabilities, both qualitatively and quantitatively, while achieving remarkable speed, approximately 0.6 second on a single NVIDIA A100 GPU.
翻訳日:2024-04-01 11:08:03 公開日:2024-03-29
# RL駆動コンパニオンロボット「Human-Centered Construction Robotics」

Towards Human-Centered Construction Robotics: An RL-Driven Companion Robot For Contextually Assisting Carpentry Workers ( http://arxiv.org/abs/2403.19060v2 )

ライセンス: Link先を確認
Yuning Wu, Jiaying Wei, Jean Oh, Daniel Cardoso Llach, (参考訳) 動的建設業界では、従来のロボット統合は主に特定のタスクを自動化することに焦点を当てており、建設ワークフローにおける人間の側面の複雑さと多様性を見越すことが多い。 本稿では,建設作業の熟練した性質を尊重しつつ,安全性とワークフローの流布性を高めることを目的として,既存の作業における作業者を支援する「作業仲間ローバー」による人間中心のアプローチを提案する。 我々は,ロボットシステムを大工のフォームワークに導入するための詳細な研究を行い,コンテキスト強化学習(RL)駆動のモジュラーフレームワークを通じて,動的環境における移動性,安全性,快適な作業ロボットコラボレーションを強調するプロトタイプを紹介した。 我々の研究は建設におけるロボットの応用を前進させ、人間を置き換えるのではなく、適応ロボットが支援するコラボレーティブモデルを提案し、対話的で協調的な人間ロボットの労働力の可能性を強調している。

In the dynamic construction industry, traditional robotic integration has primarily focused on automating specific tasks, often overlooking the complexity and variability of human aspects in construction workflows. This paper introduces a human-centered approach with a "work companion rover" designed to assist construction workers within their existing practices, aiming to enhance safety and workflow fluency while respecting construction labor's skilled nature. We conduct an in-depth study on deploying a robotic system in carpentry formwork, showcasing a prototype that emphasizes mobility, safety, and comfortable worker-robot collaboration in dynamic environments through a contextual Reinforcement Learning (RL)-driven modular framework. Our research advances robotic applications in construction, advocating for collaborative models where adaptive robots support rather than replace humans, underscoring the potential for an interactive and collaborative human-robot workforce.
翻訳日:2024-04-01 11:08:03 公開日:2024-03-29
# MMCert:マルチモーダルモデルに対する敵対的攻撃に対する防御の可能性

MMCert: Provable Defense against Adversarial Attacks to Multi-modal Models ( http://arxiv.org/abs/2403.19080v2 )

ライセンス: Link先を確認
Yanting Wang, Hongye Fu, Wei Zou, Jinyuan Jia, (参考訳) 単一のモダリティから入力されるユニモーダルモデルとは異なり、マルチモーダルモデルの入力(マルチモーダル入力と呼ばれる)は、画像、3Dポイント、オーディオ、テキストなどの複数のモダリティからである。 ユニモーダルモデルと同様に、多くの既存研究では、攻撃者がマルチモーダルモデルが誤った予測を行うように、マルチモーダル入力のすべてのモダリティに小さな摂動を加えることができるような、敵の摂動にも弱いことが示されている。 既存の認証された防御は, 実験結果に示すようなマルチモーダルモデルに拡張した場合に, 準最適認証された堅牢性を保証するために設計されている。 本研究は,マルチモーダルモデルに対する敵攻撃に対する最初の認証された防御であるMCCertを提案する。 両モードに有界な摂動を持つ任意対向攻撃(例えば、自動運転の文脈では、RGB画像と深度画像の両方において変化画素の数)下でのMMCertの性能の低下を導出する。 我々は,マルチモーダル道路セグメンテーションタスクとマルチモーダル道路セグメンテーションタスクと,マルチモーダル感情認識タスクの2つのベンチマークデータセットを用いて,MCCertを評価した。 さらに,MMCertを,一様モデルから拡張した最先端の防御技術と比較した。 実験の結果,MMCertはベースラインよりも優れていた。

Different from a unimodal model whose input is from a single modality, the input (called multi-modal input) of a multi-modal model is from multiple modalities such as image, 3D points, audio, text, etc. Similar to unimodal models, many existing studies show that a multi-modal model is also vulnerable to adversarial perturbation, where an attacker could add small perturbation to all modalities of a multi-modal input such that the multi-modal model makes incorrect predictions for it. Existing certified defenses are mostly designed for unimodal models, which achieve sub-optimal certified robustness guarantees when extended to multi-modal models as shown in our experimental results. In our work, we propose MMCert, the first certified defense against adversarial attacks to a multi-modal model. We derive a lower bound on the performance of our MMCert under arbitrary adversarial attacks with bounded perturbations to both modalities (e.g., in the context of auto-driving, we bound the number of changed pixels in both RGB image and depth image). We evaluate our MMCert using two benchmark datasets: one for the multi-modal road segmentation task and the other for the multi-modal emotion recognition task. Moreover, we compare our MMCert with a state-of-the-art certified defense extended from unimodal models. Our experimental results show that our MMCert outperforms the baseline.
翻訳日:2024-04-01 11:08:03 公開日:2024-03-29
# STaR-GATE: 言語モデルによる質問の明確化

STaR-GATE: Teaching Language Models to Ask Clarifying Questions ( http://arxiv.org/abs/2403.19154v2 )

ライセンス: Link先を確認
Chinmaya Andukuri, Jan-Philipp Fränken, Tobias Gerstenberg, Noah D. Goodman, (参考訳) 言語モデルにタスクを完了するよう促すと、ユーザーはしばしば重要な側面を残します。 質問は曖昧さ(GATE; Li et al , 2023)を解消する可能性があるが、モデルはしばしば良い質問をするのに苦労する。 本稿では,言語モデルの自己改善能力(STaR, Zelikman et al , 2022)について検討する。 本研究では,事前学習した言語モデル-質問者-とロールプレイヤ間の会話をシミュレートするために,25,500のユニークなペルソナタスクの合成データセットを生成する。 質問によって、質問者はロールプレイヤから好みを導き出す。 質問者は、そのタスクに対する高品質なレスポンスの確率を増加させる質問を反復的に微調整します。 2回の自己改善の後、質問者はより良い質問をし、タスクの72%で初期モデルからのレスポンスよりも好まれる回答を生成する。 以上の結果から,より良い質問をするために言語モデルを教えることで,よりパーソナライズされた回答が得られることが示唆された。

When prompting language models to complete a task, users often leave important aspects unsaid. While asking questions could resolve this ambiguity (GATE; Li et al., 2023), models often struggle to ask good questions. We explore a language model's ability to self-improve (STaR; Zelikman et al., 2022) by rewarding the model for generating useful questions-a simple method we dub STaR-GATE. We generate a synthetic dataset of 25,500 unique persona-task prompts to simulate conversations between a pretrained language model-the Questioner-and a Roleplayer whose preferences are unknown to the Questioner. By asking questions, the Questioner elicits preferences from the Roleplayer. The Questioner is iteratively finetuned on questions that increase the probability of high-quality responses to the task, which are generated by an Oracle with access to the Roleplayer's latent preferences. After two iterations of self-improvement, the Questioner asks better questions, allowing it to generate responses that are preferred over responses from the initial model on 72% of tasks. Our results indicate that teaching a language model to ask better questions leads to better personalized responses.
翻訳日:2024-04-01 11:08:03 公開日:2024-03-29
# 死亡調査ノートにおける注釈の不整合検出による自殺原因の発見

Uncovering Misattributed Suicide Causes through Annotation Inconsistency Detection in Death Investigation Notes ( http://arxiv.org/abs/2403.19432v2 )

ライセンス: Link先を確認
Song Wang, Yiliang Zhou, Ziqiang Han, Cui Tao, Yunyu Xiao, Ying Ding, Joydeep Ghosh, Yifan Peng, (参考訳) データ正確性は科学研究と政策開発に不可欠である。 NVDRS(National Violent Death Reporting System)のデータは、死のパターンや原因を発見するために広く利用されている。 最近の研究では、NVDRS内のアノテーションの不整合と誤った自殺原因の帰属に対する潜在的影響が示唆されている。 本稿では,アノテーションの不整合を検知し,問題のある事例を識別するためにクロスバリデーションのようなパラダイムを採用する,経験的自然言語処理(NLP)アプローチを提案する。 2003年から2020年にかけての267,804件の自殺事故をNVDRSから分析した。 その結果, 目標状態のデータを訓練に組み込むことで, 目標状態のF-1得点が5.4%増加し, 他状態のF-1得点が1.1%減少した。 結論として,NVDRSの死亡調査ノートにおけるアノテーションの不整合を実証し,問題事例を特定し,問題事例の修正の有効性を評価し,最終的にNLP改善ソリューションを提案した。

Data accuracy is essential for scientific research and policy development. The National Violent Death Reporting System (NVDRS) data is widely used for discovering the patterns and causes of death. Recent studies suggested the annotation inconsistencies within the NVDRS and the potential impact on erroneous suicide-cause attributions. We present an empirical Natural Language Processing (NLP) approach to detect annotation inconsistencies and adopt a cross-validation-like paradigm to identify problematic instances. We analyzed 267,804 suicide death incidents between 2003 and 2020 from the NVDRS. Our results showed that incorporating the target state's data into training the suicide-crisis classifier brought an increase of 5.4% to the F-1 score on the target state's test set and a decrease of 1.1% on other states' test set. To conclude, we demonstrated the annotation inconsistencies in NVDRS's death investigation notes, identified problematic instances, evaluated the effectiveness of correcting problematic instances, and eventually proposed an NLP improvement solution.
翻訳日:2024-04-01 11:08:03 公開日:2024-03-29
# BAMM:双方向自己回帰運動モデル

BAMM: Bidirectional Autoregressive Motion Model ( http://arxiv.org/abs/2403.19435v2 )

ライセンス: Link先を確認
Ekkasit Pinyoanuntapong, Muhammad Usama Saleem, Pu Wang, Minwoo Lee, Srijan Das, Chen Chen, (参考訳) テキストから人間の動きを生成することは、拡散または生成マスキングのプロセスを通じて、動きモデルを認知させることによって支配されている。 しかし、これらのモデルは、運動長に関する事前の知識を必要とすることによって、ユーザビリティに大きな制限に直面している。 逆に、自己回帰運動モデルは、劣化した生成品質と編集能力を犠牲にして、動きの終端を適応的に予測することで、この制限に対処する。 これらの課題に対処するために,新たなテキスト・ツー・モーション生成フレームワークである双方向自動回帰運動モデル(BAMM)を提案する。 BAMMは,(1)3次元の人間の動きを潜在空間の離散トークンに変換するモーション・トークンライザ,(2)ハイブリット・アテンション・マスキング戦略によってランダムにマスクされたトークンを自動予測するマスキング・セルフアテンション・トランスフォーマーの2つの重要な構成要素から構成される。 生成マスクモデリングと自己回帰モデリングを統一することにより、BAMMはモーショントークン間のリッチで双方向な依存関係をキャプチャし、テキスト入力から動的に調整されたモーションシーケンス長のモーション出力への確率的マッピングを学習する。 この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。 HumanML3DとKIT-MLデータセットの大規模な実験により、BAMMは定性的および定量的な測定において現在の最先端の手法を超越していることが示された。 私たちのプロジェクトページはhttps://github.com/exitudio/BAMM-pageで公開されています。

Generating human motion from text has been dominated by denoising motion models either through diffusion or generative masking process. However, these models face great limitations in usability by requiring prior knowledge of the motion length. Conversely, autoregressive motion models address this limitation by adaptively predicting motion endpoints, at the cost of degraded generation quality and editing capabilities. To address these challenges, we propose Bidirectional Autoregressive Motion Model (BAMM), a novel text-to-motion generation framework. BAMM consists of two key components: (1) a motion tokenizer that transforms 3D human motion into discrete tokens in latent space, and (2) a masked self-attention transformer that autoregressively predicts randomly masked tokens via a hybrid attention masking strategy. By unifying generative masked modeling and autoregressive modeling, BAMM captures rich and bidirectional dependencies among motion tokens, while learning the probabilistic mapping from textual inputs to motion outputs with dynamically-adjusted motion sequence length. This feature enables BAMM to simultaneously achieving high-quality motion generation with enhanced usability and built-in motion editability. Extensive experiments on HumanML3D and KIT-ML datasets demonstrate that BAMM surpasses current state-of-the-art methods in both qualitative and quantitative measures. Our project page is available at https://github.com/exitudio/BAMM-page.
翻訳日:2024-04-01 11:08:03 公開日:2024-03-29
# 変圧器の非線形動作に対する遺伝的量子化対応近似

Genetic Quantization-Aware Approximation for Non-Linear Operations in Transformers ( http://arxiv.org/abs/2403.19591v2 )

ライセンス: Link先を確認
Pingcheng Dong, Yonghao Tan, Dong Zhang, Tianwei Ni, Xuejiao Liu, Yu Liu, Peng Luo, Luhong Liang, Shih-Yang Liu, Xijie Huang, Huaiyu Zhu, Yun Pan, Fengwei An, Kwang-Ting Cheng, (参考訳) 非線形関数はトランスフォーマーとその軽量な変種で広く使われており、ハードウェアコストは大幅に過小評価される。 従来の最先端の作業では、これらの操作を1次線形近似により最適化し、ルックアップテーブル(LUT)にパラメータを格納するが、その多くはFP/INT 32のような非フレンドリな高精度演算を必要とし、整数のみのINT量子化を考慮しない。 本稿では,量子化認識を用いたパラメータの自動決定が可能な遺伝的LUT近似アルゴリズムGQA-LUTを提案する。 その結果、GQA-LUTは、バニラモデルと線形トランスフォーマーモデルの両方において、難解なセマンティックセグメンテーションタスクにおいて、無視可能な劣化を達成できることを示した。 さらに、提案されたGQA-LUTは、精度の高いFP/INT 32の代替よりも81.3〜81.7%の省電力と79.3~80.2%の省電力を実現するINT8ベースのLUT近似を使用できる。 コードはhttps:// github.com/PingchengDong/GQA-LUT.comで入手できる。

Non-linear functions are prevalent in Transformers and their lightweight variants, incurring substantial and frequently underestimated hardware costs. Previous state-of-the-art works optimize these operations by piece-wise linear approximation and store the parameters in look-up tables (LUT), but most of them require unfriendly high-precision arithmetics such as FP/INT 32 and lack consideration of integer-only INT quantization. This paper proposed a genetic LUT-Approximation algorithm namely GQA-LUT that can automatically determine the parameters with quantization awareness. The results demonstrate that GQA-LUT achieves negligible degradation on the challenging semantic segmentation task for both vanilla and linear Transformer models. Besides, proposed GQA-LUT enables the employment of INT8-based LUT-Approximation that achieves an area savings of 81.3~81.7% and a power reduction of 79.3~80.2% compared to the high-precision FP/INT 32 alternatives. Code is available at https:// github.com/PingchengDong/GQA-LUT.
翻訳日:2024-04-01 11:08:03 公開日:2024-03-29