このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230325となっている論文です。

PDF登録状況(公開日: 20230325)

TitleAuthorsAbstract論文公表日・翻訳日
# LVQAC:効率的な学習画像圧縮のための空間適応補償と格子ベクトル量子化

LVQAC: Lattice Vector Quantization Coupled with Spatially Adaptive Companding for Efficient Learned Image Compression ( http://arxiv.org/abs/2304.12319v1 )

ライセンス: Link先を確認
Xi Zhang and Xiaolin Wu(参考訳) 近年、多くのエンドツーエンド最適化画像圧縮ニューラルネットワークが開発され、レート歪み性能のリーダーとして証明されている。 これらの学習圧縮法の主な強みは、ディープニューラルネットワークによって容易に実現できる強力な非線形解析と合成変換である。 しかし、これらのエンドツーエンド手法の多くは、情報理論上最適であるベクトル量子化器ではなく、一様スカラー量子化器を採用する。 本稿では,空間適応型コンパウンディング(LVQAC)マッピングを併用した新しい格子ベクトル量子化方式を提案する。 LVQはスカラー均一量子化よりも機能間の依存関係をうまく利用でき、計算は後者と同じくらい単純である。 さらに,LVQの情報源統計への適応性を向上させるため,空間適応型コンパイル(AC)マッピングをLVQと組み合わせた。 結果として得られるLVQAC設計は、エンドツーエンドの最適化された画像圧縮システムに容易に組み込むことができる。 拡張実験により、任意のエンドツーエンドCNN画像圧縮モデルに対して、一様量子化器をLVQACで置き換えることにより、モデルの複雑さを大幅に増大させることなく、より優れた速度歪み性能が得られることが示された。

Recently, numerous end-to-end optimized image compression neural networks have been developed and proved themselves as leaders in rate-distortion performance. The main strength of these learnt compression methods is in powerful nonlinear analysis and synthesis transforms that can be facilitated by deep neural networks. However, out of operational expediency, most of these end-to-end methods adopt uniform scalar quantizers rather than vector quantizers, which are information-theoretically optimal. In this paper, we present a novel Lattice Vector Quantization scheme coupled with a spatially Adaptive Companding (LVQAC) mapping. LVQ can better exploit the inter-feature dependencies than scalar uniform quantization while being computationally almost as simple as the latter. Moreover, to improve the adaptability of LVQ to source statistics, we couple a spatially adaptive companding (AC) mapping with LVQ. The resulting LVQAC design can be easily embedded into any end-to-end optimized image compression system. Extensive experiments demonstrate that for any end-to-end CNN image compression models, replacing uniform quantizer by LVQAC achieves better rate-distortion performance without significantly increasing the model complexity.
翻訳日:2023-04-30 07:40:35 公開日:2023-03-25
# 2つの頭部は1つより優れている:脳波データの分類を改善するバイオインスパイア法

Two Heads are Better than One: A Bio-inspired Method for Improving Classification on EEG-ET Data ( http://arxiv.org/abs/2304.06471v1 )

ライセンス: Link先を確認
Eric Modesitt, Ruiqi Yang, Qi Liu(参考訳) EEGデータの分類は、Brain Computer Interfaces(BCI)とそのアプリケーションのパフォーマンスに不可欠である。 しかし、外部ノイズは、その生物学的性質と複雑なデータ収集プロセスのため、しばしば脳波データを妨げる。 特に分類タスクを扱う場合、標準のEEG前処理アプローチはデータセット全体から関連するイベントや特徴を抽出する。 しかしながら、これらのアプローチはすべての関連する認知イベントを平等に扱い、時間の経過とともに脳のダイナミックな性質を見落としている。 対照的に、我々は脳波データの特徴選択と時間分割を統合する新しいアプローチを使うために神経科学研究にインスピレーションを受けています。 EEGEyeNetデータセットでテストすると,提案手法は機械学習分類器の性能を大幅に向上させ,計算複雑性を低減させる。

Classifying EEG data is integral to the performance of Brain Computer Interfaces (BCI) and their applications. However, external noise often obstructs EEG data due to its biological nature and complex data collection process. Especially when dealing with classification tasks, standard EEG preprocessing approaches extract relevant events and features from the entire dataset. However, these approaches treat all relevant cognitive events equally and overlook the dynamic nature of the brain over time. In contrast, we are inspired by neuroscience studies to use a novel approach that integrates feature selection and time segmentation of EEG data. When tested on the EEGEyeNet dataset, our proposed method significantly increases the performance of Machine Learning classifiers while reducing their respective computational complexity.
翻訳日:2023-04-16 21:58:11 公開日:2023-03-25
# デバイスフリー屋内ローカライゼーションのための新しいパラダイム:Wi-Fiシステムにおける誤差ベクトルスペクトルを用いたディープラーニング

A New Paradigm for Device-free Indoor Localization: Deep Learning with Error Vector Spectrum in Wi-Fi Systems ( http://arxiv.org/abs/2304.06490v1 )

ライセンス: Link先を確認
Wen Liu, An-Hung Hsiao, Li-Hsiang Shen, Kai-Ten Feng(参考訳) 商用Wi-Fiデバイスを用いたデバイスフリー屋内ローカライゼーションの需要は、その利便性と汎用性から、様々な分野で急速に増加している。 しかし、無線チャネルにおけるランダム周波数オフセット(RFO)は、変動チャネル状態情報(CSI)を使用する場合の屋内位置決めの精度に課題をもたらす。 RFO問題を軽減するために、信号の高分解能とRFOに対するロバスト性によりエラーベクトルスペクトル(EVS)が考案される。 これらの課題に対処するために,デバイスレス屋内ローカライゼーションのための新しいエラーベクトル支援学習(EVAL)を提案する。 提案手法では,物理層信号から十分なチャネル特徴を抽出することにより,深層ニューラルネットワークを用いて屋内環境における人物の位置を分類する。 我々は,OpenWiFiプロジェクトに基づく実測実験を行い,ESVとCSIの双方を抽出し,デバイスフリーのローカライゼーション技術の性能について検討した。 実験の結果,提案手法はCSI振幅および位相情報を利用した従来の機械学習手法やベンチマークよりも優れていた。 既存のcsiベースのローカライズ方式と比較して,evsの採用による位置決め精度の高い新しいパラダイムが提案されている。

The demand for device-free indoor localization using commercial Wi-Fi devices has rapidly increased in various fields due to its convenience and versatile applications. However, random frequency offset (RFO) in wireless channels poses challenges to the accuracy of indoor localization when using fluctuating channel state information (CSI). To mitigate the RFO problem, an error vector spectrum (EVS) is conceived thanks to its higher resolution of signal and robustness to RFO. To address these challenges, this paper proposed a novel error vector assisted learning (EVAL) for device-free indoor localization. The proposed EVAL scheme employs deep neural networks to classify the location of a person in the indoor environment by extracting ample channel features from the physical layer signals. We conducted realistic experiments based on OpenWiFi project to extract both EVS and CSI to examine the performance of different device-free localization techniques. Experimental results show that our proposed EVAL scheme outperforms conventional machine learning methods and benchmarks utilizing either CSI amplitude or phase information. Compared to most existing CSI-based localization schemes, a new paradigm with higher positioning accuracy by adopting EVS is revealed by our proposed EVAL system.
翻訳日:2023-04-16 21:47:36 公開日:2023-03-25
# アンサンブル学習による受動的高周波3次元屋内測位システム

Passive Radio Frequency-based 3D Indoor Positioning System via Ensemble Learning ( http://arxiv.org/abs/2304.06513v1 )

ライセンス: Link先を確認
Liangqi Yuan, Houlin Chen, Robert Ewing, Jia Li(参考訳) パッシブ無線周波数(PRF)に基づく屋内測位システム(IPS)は、低コストで、カスタマイズが容易で、非侵襲的な設計のために研究者の注目を集めている。 本稿では,psfを用いた3次元屋内位置決めシステム(pips)を提案し,位置決めにsoop(signal of opportunity)を活用し,シナリオシグネチャをキャプチャする。 PIPSは1つの受信機を通してシナリオシグネチャを含むSoOPを受動的にモニタする。 さらに、PIPSはDynamic Data Driven Applications System (DDDAS)フレームワークを利用してサンプリング周波数を考案し、カスタマイズし、最も影響の大きい周波数帯域を評価周波数帯域として使用できる。 3つのアンサンブル学習戦略内の様々な回帰手法を用いて、受信者の位置を訓練し予測する。 実験シナリオでは,60位置のRFスペクトルを収集し,PIPSの性能を評価するために3つの基準を適用した。 実験の結果,提案したPIPSは高い精度, 構成性, 堅牢性の利点を有することがわかった。

Passive radio frequency (PRF)-based indoor positioning systems (IPS) have attracted researchers' attention due to their low price, easy and customizable configuration, and non-invasive design. This paper proposes a PRF-based three-dimensional (3D) indoor positioning system (PIPS), which is able to use signals of opportunity (SoOP) for positioning and also capture a scenario signature. PIPS passively monitors SoOPs containing scenario signatures through a single receiver. Moreover, PIPS leverages the Dynamic Data Driven Applications System (DDDAS) framework to devise and customize the sampling frequency, enabling the system to use the most impacted frequency band as the rated frequency band. Various regression methods within three ensemble learning strategies are used to train and predict the receiver position. The PRF spectrum of 60 positions is collected in the experimental scenario, and three criteria are applied to evaluate the performance of PIPS. Experimental results show that the proposed PIPS possesses the advantages of high accuracy, configurability, and robustness.
翻訳日:2023-04-16 21:39:21 公開日:2023-03-25
# ニューラルネットワークのサイドチャネル解析に対する非同期化に基づく対策

A Desynchronization-Based Countermeasure Against Side-Channel Analysis of Neural Networks ( http://arxiv.org/abs/2303.18132v1 )

ライセンス: Link先を確認
Jakub Breier, Dirmanto Jap, Xiaolu Hou, Shivam Bhasin(参考訳) モデル抽出攻撃は広く適用されており、通常は複数の層に対するニューラルネットワークの機密パラメータの復元に使用できる。 近年,ニューラルネットワークのサイドチャネル解析により,複数の深層を有するニューラルネットワークにおいてもパラメータ抽出が可能となった。 したがって、これらの攻撃に対して一定のレベルの保護を実施することは興味深い。 本稿では,アクティベーション機能のタイミング解析を困難にするデシンクロナイゼーションに基づく対策を提案する。 本研究では,複数のアクティベーション関数のタイミング特性を解析し,入力とアクティベーションタイプへの依存性を隠蔽する方法で非同期化を設計する。 我々は、32ビットARM Cortex-M4マイクロコントローラに対する対策の有効性を実験的に検証し、Tテストを用いてサイドチャネル情報漏洩を示す。 例えば、VGG-19の4096ニューロンの場合、オーバーヘッドは2.8%から11%である。

Model extraction attacks have been widely applied, which can normally be used to recover confidential parameters of neural networks for multiple layers. Recently, side-channel analysis of neural networks allows parameter extraction even for networks with several multiple deep layers with high effectiveness. It is therefore of interest to implement a certain level of protection against these attacks. In this paper, we propose a desynchronization-based countermeasure that makes the timing analysis of activation functions harder. We analyze the timing properties of several activation functions and design the desynchronization in a way that the dependency on the input and the activation type is hidden. We experimentally verify the effectiveness of the countermeasure on a 32-bit ARM Cortex-M4 microcontroller and employ a t-test to show the side-channel information leakage. The overhead ultimately depends on the number of neurons in the fully-connected layer, for example, in the case of 4096 neurons in VGG-19, the overheads are between 2.8% and 11%.
翻訳日:2023-04-09 05:54:25 公開日:2023-03-25
# AdvCheck: 局所勾配チェックによる逆例の特徴付け

AdvCheck: Characterizing Adversarial Examples via Local Gradient Checking ( http://arxiv.org/abs/2303.18131v1 )

ライセンス: Link先を確認
Ruoxi Chen, Haibo Jin, Jinyin Chen, Haibin Zheng(参考訳) ディープニューラルネットワーク(DNN)は、敵の例に弱いため、セキュリティクリティカルドメインのカタストロフィを引き起こす可能性がある。 対向例の特徴的特徴を特徴付けるために, 対向例によって活性化されるDNNの挙動を識別するために, 多数の検出手法を提案する。 特徴に基づく検出は、大きな摂動を伴う敵の例を扱えない。 さらに、それらは多くの特定の敵の例を必要とする。 モデルの振る舞いによって入力特性を特徴付ける他の主流のモデルベース検出は、重い計算コストに悩まされる。 この問題に対処するため,我々は局所勾配の概念を導入し,逆の例は良性勾配よりもかなり大きな局所勾配を持つことを明らかにした。 この観察に触発されて,局所勾配を逆例の検出に活用し,advcheckの汎用フレームワークを提案する。 具体的には、いくつかの良性例とノイズ付加誤分類例から局所勾配を計算して検出器を訓練することにより、逆例や誤分類された自然入力を良性例と正確に区別することができる。 より広範な実験により,AdvCheckの最先端SOTA(State-of-the-art)ベースラインに対する優れた性能を検証し,一般的な攻撃に対する検出率(\sim \times 1.2$)と,誤分類された自然入力に対して平均1/500の時間コストで(\sim \times 1.4$)と検証した。 検出に成功するための解釈可能な結果も提供します。

Deep neural networks (DNNs) are vulnerable to adversarial examples, which may lead to catastrophe in security-critical domains. Numerous detection methods are proposed to characterize the feature uniqueness of adversarial examples, or to distinguish DNN's behavior activated by the adversarial examples. Detections based on features cannot handle adversarial examples with large perturbations. Besides, they require a large amount of specific adversarial examples. Another mainstream, model-based detections, which characterize input properties by model behaviors, suffer from heavy computation cost. To address the issues, we introduce the concept of local gradient, and reveal that adversarial examples have a quite larger bound of local gradient than the benign ones. Inspired by the observation, we leverage local gradient for detecting adversarial examples, and propose a general framework AdvCheck. Specifically, by calculating the local gradient from a few benign examples and noise-added misclassified examples to train a detector, adversarial examples and even misclassified natural inputs can be precisely distinguished from benign ones. Through extensive experiments, we have validated the AdvCheck's superior performance to the state-of-the-art (SOTA) baselines, with detection rate ($\sim \times 1.2$) on general adversarial attacks and ($\sim \times 1.4$) on misclassified natural inputs on average, with average 1/500 time cost. We also provide interpretable results for successful detection.
翻訳日:2023-04-09 05:54:09 公開日:2023-03-25
# AI-XR手術のメタバースでインターベンショナルヘルスケアを活性化できるか?

Can We Revitalize Interventional Healthcare with AI-XR Surgical Metaverses? ( http://arxiv.org/abs/2304.00007v1 )

ライセンス: Link先を確認
Adnan Qayyum, Muhammad Bilal, Muhammad Hadi, Pawe{\l} Capik, Massimo Caputo, Hunaid Vohra, Ala Al-Fuqaha, and Junaid Qadir(参考訳) 近年の技術進歩、特に機械学習(ML)、ディープラーニング(DL)、メタバースは、外科科学に革命をもたらす大きな可能性を秘めている。 人工知能と拡張現実(AI-XR)技術の組み合わせは、手術を計画し実行可能な仮想環境である外科的メタバースを作成する可能性を秘めている。 本稿では,AI-XR外科用メタバースの様々な応用の可能性と,その潜在能力を最大限に活用するために対処しなければならない課題について考察する。 AI-XR手術のメタバースの可能性を完全に実現するためには,コミュニティがこれらの課題に集中することが重要である。 さらに,安全でロバストなai-xr手術用メタバースの必要性を強調するとともに,ai-xr手術用メタバースに対するセキュリティ脅威の実世界的意義を示すために,手術用メタバースにおける術前計画の文脈において切開点位置に対する'an immersive surgical attack'を行うケーススタディを提案する。

Recent advancements in technology, particularly in machine learning (ML), deep learning (DL), and the metaverse, offer great potential for revolutionizing surgical science. The combination of artificial intelligence and extended reality (AI-XR) technologies has the potential to create a surgical metaverse, a virtual environment where surgeries can be planned and performed. This paper aims to provide insight into the various potential applications of an AI-XR surgical metaverse and the challenges that must be addressed to bring its full potential to fruition. It is important for the community to focus on these challenges to fully realize the potential of the AI-XR surgical metaverses. Furthermore, to emphasize the need for secure and robust AI-XR surgical metaverses and to demonstrate the real-world implications of security threats to the AI-XR surgical metaverses, we present a case study in which the ``an immersive surgical attack'' on incision point localization is performed in the context of preoperative planning in a surgical metaverse.
翻訳日:2023-04-09 05:43:30 公開日:2023-03-25
# IEEE 802.11ax Wi-Fiシステムにおける高速ローミングのための分散マルチエージェント深層学習

Distributed Multi-Agent Deep Q-Learning for Fast Roaming in IEEE 802.11ax Wi-Fi Systems ( http://arxiv.org/abs/2304.01210v1 )

ライセンス: Link先を確認
Ting-Hui Wang, Li-Hsiang Shen, Kai-Ten Feng(参考訳) Wi-Fi 6 IEEE 802.11ax の革新は、無線ローカルエリアネットワーク(WLAN)の次の6世代 (6G) 技術として、レイテンシ、スループットなどの基本的な性能を改善することで承認された。 直交周波数分割多重アクセス(OFDMA)の主な技術的特徴は、複数のユーザが対応するアクセスポイント(AP)を介して各データを同時に送信できることである。 しかし、従来のWi-Fiローミング用IEEE 802.11プロトコルは、受信した応答フレームから取得した受信信号強度表示(RSSI)に応じてターゲットAPを選択する。 長期的には、密集したユーザのシナリオ下での単一チャネルの混雑により、関連遅延やパケットのドロップレートがさらに増加し、システム全体のサービス品質(QoS)が低下する可能性がある。 本稿では,Wi-Fi 6 システムにおける Smart Warehouse 用ステーションローミングにおける遅延を効果的に抑えるために,高速ローミング (MADAR) アルゴリズムのためのマルチエージェント深層Q-ラーニングを提案する。 MADARアルゴリズムはRSSIだけでなくチャネル状態情報(CSI)も考慮し、オンラインニューラルネットワーク学習と重み付け調整を通じてEpsilon-Greedyから選択したアクションの報酬を最大化する。 従来のベンチマーク手法と比較して,MADARアルゴリズムはシミュレーション結果と現実的なデータセットを分析し,ローミング遅延を改善することが実証されている。

The innovation of Wi-Fi 6, IEEE 802.11ax, was be approved as the next sixth-generation (6G) technology of wireless local area networks (WLANs) by improving the fundamental performance of latency, throughput, and so on. The main technical feature of orthogonal frequency division multiple access (OFDMA) supports multi-users to transmit respective data concurrently via the corresponding access points (APs). However, the conventional IEEE 802.11 protocol for Wi-Fi roaming selects the target AP only depending on received signal strength indication (RSSI) which is obtained by the received Response frame from the APs. In the long term, it may lead to congestion in a single channel under the scenarios of dense users further increasing the association delay and packet drop rate, even reducing the quality of service (QoS) of the overall system. In this paper, we propose a multi-agent deep Q-learning for fast roaming (MADAR) algorithm to effectively minimize the latency during the station roaming for Smart Warehouse in Wi-Fi 6 system. The MADAR algorithm considers not only RSSI but also channel state information (CSI), and through online neural network learning and weighting adjustments to maximize the reward of the action selected from Epsilon-Greedy. Compared to existing benchmark methods, the MADAR algorithm has been demonstrated for improved roaming latency by analyzing the simulation result and realistic dataset.
翻訳日:2023-04-09 05:34:36 公開日:2023-03-25
# CADM:チャンクデータストリームにおける実ドリフトの融合モデルに基づく検出法

CADM: Confusion Model-based Detection Method for Real-drift in Chunk Data Stream ( http://arxiv.org/abs/2303.16906v1 )

ライセンス: Link先を確認
Songqiao Hu and Zeyi Liu and Xiao He(参考訳) コンセプトドリフト検出は、健康モニタリングや故障診断といった現実の多くの応用において重要であることから、かなりの注目を集めている。 従来、ほとんどの先進的なアプローチは、仮想ドリフトのみの検出と適応が可能な環境評価基準(すなわち概念ドリフト)が変更された場合、パフォーマンスが低下する。 本稿では,概念的混乱に基づく限定アノテーションを用いて,チャンクデータストリームのリアルタイムドリフトを検出する手法を提案する。 新しいデータチャンクが到着すると、実際のラベルと擬似ラベルの両方を使用して、予測とドリフト検出後にモデルを更新する。 この文脈では、モデルが混乱し、ドリフトが発生すると予測差が生じる。 次に、その差を測定するためにコサイン類似性を採用する。 また,異常値を求めるために適応しきい値法を提案する。 実験により,本手法は異なる分類器を用いて誤警報率と偽陰性率を有することが示された。

Concept drift detection has attracted considerable attention due to its importance in many real-world applications such as health monitoring and fault diagnosis. Conventionally, most advanced approaches will be of poor performance when the evaluation criteria of the environment has changed (i.e. concept drift), either can only detect and adapt to virtual drift. In this paper, we propose a new approach to detect real-drift in the chunk data stream with limited annotations based on concept confusion. When a new data chunk arrives, we use both real labels and pseudo labels to update the model after prediction and drift detection. In this context, the model will be confused and yields prediction difference once drift occurs. We then adopt cosine similarity to measure the difference. And an adaptive threshold method is proposed to find the abnormal value. Experiments show that our method has a low false alarm rate and false negative rate with the utilization of different classifiers.
翻訳日:2023-04-02 18:16:36 公開日:2023-03-25
# グラフニューラルネットワーク(gnn)を用いた輸送ネットワークにおけるグラフのエッジランキング

Edge Ranking of Graphs in Transportation Networks using a Graph Neural Network (GNN) ( http://arxiv.org/abs/2303.17485v1 )

ライセンス: Link先を確認
Debasish Jana, Sven Malama, Sriram Narasimhan, Ertugrul Taciroglu(参考訳) 輸送、電力、水の分配などの多くのネットワークはグラフとして表現できる。 グラフ表現における重要な課題は、グラフエッジの重要性と、ネットワーク全体の効率と情報フローパフォーマンスへの影響を特定することである。 例えば、交通ネットワークにおける重要なエッジは、影響を受けるとネットワーク全体の効率を大きく変える道路である。 このような重要なエッジを見つけるための一般的なアプローチは、接続性と情報拡散に基づいてグラフの影響力のあるエッジを決定するためのエッジランキング尺度である ''edge betweenness centrality' (EBC) である。 共通ブランドアルゴリズムを用いたEBCの計算には、計算コストが高く制限的なノードペアごとの最も短いパスを計算する必要がある。 グラフパラメータの変化、例えばエッジウェイトの変化やノードやエッジの追加や削除は、ebcの再計算を必要とする。 本研究の主な貢献として,深層学習に基づくアプローチであるグラフニューラルネットワーク(GNN)を用いてEBCを推定する近似手法を提案する。 特に大規模グラフの場合,従来の手法と比較して計算効率がよいことを示す。 提案手法は,複数の合成グラフと実世界の輸送データセットを用いて,GNNに基づくエッジランキングの評価を行う。 本手法は,従来の手法に比べて,近似エッジランキングをはるかに高速に推定できることを示す。 このアプローチは帰納的であり、すなわち、異なるノード数とエッジ数の異なるグラフ集合上でトレーニングとテストが行われる。 提案手法は, 都市インフラ整備プロジェクト, 電力, 水道網のレジリエンス解析, エンジニアリングネットワークにおける資源配分の最適化など, エッジ情報が必要な場合の大規模ネットワークへの適用に特に適している。

Many networks, such as transportation, power, and water distribution, can be represented as graphs. Crucial challenge in graph representations is identifying the importance of graph edges and their influence on overall network efficiency and information flow performance. For example, important edges in a transportation network are those roads that, when affected, will significantly alter the network's overall efficiency. Commonly used approach to finding such important edges is ``edge betweenness centrality'' (EBC), an edge ranking measure to determine the influential edges of the graph based on connectivity and information spread. Computing the EBC utilizing the common Brandes algorithm involves calculating the shortest paths for every node pair, which can be computationally expensive and restrictive, especially for large graphs. Changes in the graph parameters, e.g., in the edge weight or the addition and deletion of nodes or edges, require the recalculation of the EBC. As the main contribution, we propose an approximate method to estimate the EBC using a Graph Neural Network (GNN), a deep learning-based approach. We show that it is computationally efficient compared to the conventional method, especially for large graphs. The proposed method of GNN-based edge ranking is evaluated on several synthetic graphs and a real-world transportation data set. We show that this framework can estimate the approximate edge ranking much faster compared to the conventional method. This approach is inductive, i.e., training and testing are performed on different sets of graphs with varying numbers of nodes and edges. The proposed method is especially suitable for applications on large-scale networks when edge information is desired, for example, in urban infrastructure improvement projects, power, and water network resilience analyses, and optimizing resource allocations in engineering networks.
翻訳日:2023-04-02 18:10:45 公開日:2023-03-25
# 量子ゲートを用いた生成モデリング手法

A Generative Modeling Approach Using Quantum Gates ( http://arxiv.org/abs/2303.16955v1 )

ライセンス: Link先を確認
Soumyadip Sarkar(参考訳) 近年、量子コンピューティングは複雑な計算問題を解くための有望な技術として出現している。 生成モデリング(generative modeling)は、元のデータセットに似た新しいデータサンプルを学習し、生成するテクニックである。 本稿では,与えられたデータセットから新しいサンプルを生成するために,量子ゲートを用いた生成モデリング手法を提案する。 まず量子コンピューティングと生成モデリングの簡単な紹介から始める。 提案手法では,データセットを量子状態に符号化し,量子ゲートを用いてこれらの状態を操作して新しいサンプルを生成する。 また,本手法の数学的詳細も提示し,各種データセットに対する実験結果を通じてその有効性を示す。

In recent years, quantum computing has emerged as a promising technology for solving complex computational problems. Generative modeling is a technique that allows us to learn and generate new data samples similar to the original dataset. In this paper, we propose a generative modeling approach using quantum gates to generate new samples from a given dataset. We start with a brief introduction to quantum computing and generative modeling. Then, we describe our proposed approach, which involves encoding the dataset into quantum states and using quantum gates to manipulate these states to generate new samples. We also provide mathematical details of our approach and demonstrate its effectiveness through experimental results on various datasets.
翻訳日:2023-04-02 18:09:42 公開日:2023-03-25
# Thistle: Rustのベクトルデータベース

Thistle: A Vector Database in Rust ( http://arxiv.org/abs/2303.16780v1 )

ライセンス: Link先を確認
Brad Windsor, Kevin Choi(参考訳) 完全関数型ベクトルデータベースであるThistleを提案する。 Thistleは、スタートアップと検索エンジン企業の両方で進行中の研究トピックである検索クェリに答えるために使われる潜伏した知識の分野への参入である。 我々は,いくつかのよく知られたアルゴリズムを用いて thistle を実装し,ms marco データセット上でベンチマーク結果を得た。 結果として、潜在知識ドメインと成長を続けるrust mlエコシステムが明確になる。

We present Thistle, a fully functional vector database. Thistle is an entry into the domain of latent knowledge use in answering search queries, an ongoing research topic at both start-ups and search engine companies. We implement Thistle with several well-known algorithms, and benchmark results on the MS MARCO dataset. Results help clarify the latent knowledge domain as well as the growing Rust ML ecosystem.
翻訳日:2023-03-30 14:13:15 公開日:2023-03-25
# グラディエントフィルタによるデバイス教育の効率化

Efficient On-device Training via Gradient Filtering ( http://arxiv.org/abs/2301.00330v2 )

ライセンス: Link先を確認
Yuedong Yang, Guihong Li, Radu Marculescu(参考訳) フェデレーション学習、継続的学習、その他多くのアプリケーションにおいて重要であるにもかかわらず、デバイス上でのトレーニングはEdgeAIにとってオープンな問題である。 この問題は、大量の演算(浮動小数点乗算や加算など)と、バックプロパゲーションアルゴリズムによるトレーニングに必要なメモリ消費に起因している。 そこで本研究では,デバイス上でのcnnモデルトレーニングを可能にする新しい勾配フィルタリング手法を提案する。 より正確には,本手法は勾配マップの特異な要素が少なく,学習中のバック伝搬の計算複雑性とメモリ消費を著しく低減する特別な構造を生成する。 複数のCNNモデル(MobileNet、DeepLabV3、UPerNetなど)とデバイス(Raspberry PiやJetson Nanoなど)による画像分類とセマンティックセグメンテーションに関する広範な実験は、このアプローチの有効性と幅広い適用性を示している。 例えば、SOTAと比較して、ImageNet分類で最大19$\times$スピードアップと77.1%のメモリ節約を達成でき、精度はわずか0.1%である。 NVIDIA Jetson Nano上でのMKLDNNとCUDNNの高度に最適化されたベースラインと比較して,20ドル以上のスピードアップと90%の省エネが観測されている。 その結果,本手法はデバイス上でのトレーニングに大きな可能性を持つ新たな研究の方向性を開く。

Despite its importance for federated learning, continuous learning and many other applications, on-device training remains an open problem for EdgeAI. The problem stems from the large number of operations (e.g., floating point multiplications and additions) and memory consumption required during training by the back-propagation algorithm. Consequently, in this paper, we propose a new gradient filtering approach which enables on-device CNN model training. More precisely, our approach creates a special structure with fewer unique elements in the gradient map, thus significantly reducing the computational complexity and memory consumption of back propagation during training. Extensive experiments on image classification and semantic segmentation with multiple CNN models (e.g., MobileNet, DeepLabV3, UPerNet) and devices (e.g., Raspberry Pi and Jetson Nano) demonstrate the effectiveness and wide applicability of our approach. For example, compared to SOTA, we achieve up to 19$\times$ speedup and 77.1% memory savings on ImageNet classification with only 0.1% accuracy loss. Finally, our method is easy to implement and deploy; over 20$\times$ speedup and 90% energy savings have been observed compared to highly optimized baselines in MKLDNN and CUDNN on NVIDIA Jetson Nano. Consequently, our approach opens up a new direction of research with a huge potential for on-device training.
翻訳日:2023-03-29 18:59:38 公開日:2023-03-25
# Affordance Diffusion: ハンドオブジェクトインタラクションの合成

Affordance Diffusion: Synthesizing Hand-Object Interactions ( http://arxiv.org/abs/2303.12538v2 )

ライセンス: Link先を確認
Yufei Ye, Xueting Li, Abhinav Gupta, Shalini De Mello, Stan Birchfield, Jiaming Song, Shubham Tulsiani, Sifei Liu(参考訳) 最近の画像合成の成功は大規模拡散モデルに支えられている。 しかし、現在ほとんどのメソッドは、画像全体を合成したり、テクスチャ転送したり、ユーザが指定した領域にオブジェクトを挿入するために、テキストまたはイメージコンディショニング生成に制限されている。 これとは対照的に、この研究では、与えられた対象と複雑な相互作用(つまり手)を合成することに焦点を当てる。 対象物のRGB画像が与えられた場合、我々はそれと相互作用する人間の手の可視像を幻覚化する。 本稿では,2段階の合成手法を提案する: 触覚に依存しない手オブジェクトインタラクションレイアウトをサンプリングするLayoutNetと,予測されたレイアウトからオブジェクトをつかむ手の画像を生成するContentNetである。 どちらも、潜在表現を利用するために、大規模な事前訓練された拡散モデル上に構築されている。 提案手法は, ベースラインと比較すると, 斬新なオブジェクトへの汎用性が向上し, ポータブルサイズのオブジェクトの分散性が驚くほど良好であることが示される。 その結果,手話の明瞭化や方向への接近といった記述的余裕情報を予測することができる。 プロジェクトページ: https://judyye.github.io/affordiffusion-www

Recent successes in image synthesis are powered by large-scale diffusion models. However, most methods are currently limited to either text- or image-conditioned generation for synthesizing an entire image, texture transfer or inserting objects into a user-specified region. In contrast, in this work we focus on synthesizing complex interactions (ie, an articulated hand) with a given object. Given an RGB image of an object, we aim to hallucinate plausible images of a human hand interacting with it. We propose a two-step generative approach: a LayoutNet that samples an articulation-agnostic hand-object-interaction layout, and a ContentNet that synthesizes images of a hand grasping the object given the predicted layout. Both are built on top of a large-scale pretrained diffusion model to make use of its latent representation. Compared to baselines, the proposed method is shown to generalize better to novel objects and perform surprisingly well on out-of-distribution in-the-wild scenes of portable-sized objects. The resulting system allows us to predict descriptive affordance information, such as hand articulation and approaching orientation. Project page: https://judyye.github.io/affordiffusion-www
翻訳日:2023-03-29 18:02:31 公開日:2023-03-25
# 大規模言語モデルは危険分析に役立つか?

Can Large Language Models assist in Hazard Analysis? ( http://arxiv.org/abs/2303.15473v1 )

ライセンス: Link先を確認
Simon Diemert, Jens H Weber(参考訳) GPT-3のような大規模言語モデル(LLM)は、顕著な自然言語処理と生成能力を示し、ソースコード生成など様々なタスクに適用されている。 本稿では,コハザード分析(CoHA)と呼ばれる安全クリティカルシステムのハザード解析におけるLSMの統合の可能性について検討する。 CoHAでは、人間アナリストがコンテキスト対応のチャットセッションを通じてLLMと対話し、その応答を使用して、潜在的な危険原因の誘発を支援する。 本実験では,Open AIのChatGPTサービスを用いて,より複雑な3つの単純なシステムのCoHAを探索する。 LLM技術の現状を踏まえ、ChatGPTの応答の質を体系的に評価し、CoHAの有効性を判定した。 その結果,llmはハザード分析を行う人の分析支援に有用である可能性が示唆された。

Large Language Models (LLMs), such as GPT-3, have demonstrated remarkable natural language processing and generation capabilities and have been applied to a variety tasks, such as source code generation. This paper explores the potential of integrating LLMs in the hazard analysis for safety-critical systems, a process which we refer to as co-hazard analysis (CoHA). In CoHA, a human analyst interacts with an LLM via a context-aware chat session and uses the responses to support elicitation of possible hazard causes. In this experiment, we explore CoHA with three increasingly complex versions of a simple system, using Open AI's ChatGPT service. The quality of ChatGPT's responses were systematically assessed to determine the feasibility of CoHA given the current state of LLM technology. The results suggest that LLMs may be useful for supporting human analysts performing hazard analysis.
翻訳日:2023-03-29 17:55:52 公開日:2023-03-25
# 視覚対応のための回転同変特徴の学習

Learning Rotation-Equivariant Features for Visual Correspondence ( http://arxiv.org/abs/2303.15472v1 )

ライセンス: Link先を確認
Jongmin Lee, Byungjin Kim, Seungwook Kim, Minsu Cho(参考訳) 画像変化に不変な識別的局所特徴の抽出は、画像間の対応を確立する上で不可欠な部分である。 本研究では,グループ同変CNNを用いて識別的回転不変記述子を抽出する自己教師型学習フレームワークを提案する。 グループ同変CNNを用いることで, 高精度なデータ拡張を行うことなく, 回転同変の特徴とその向きを明確に把握する。 結果として得られる特徴とその配向は群整列によってさらに処理され、群次元に沿ってその配向によって群同変特徴をシフトする新しい不変写像技術である。 群整列法は群次元の崩壊を伴わずに回転不変性を達成し,判別可能性の喪失を招いた。 提案手法は, 向き推定に配向アライメント損失, およびロバストな局所記述子を幾何的・測光的変動に向けたコントラッシブな記述子損失を用いて, 自己教師方式でエンドツーエンドに訓練する。 提案手法は,既存の回転不変ディスクリプタの回転の異なる状態のマッチング精度を示すとともに,キーポイントマッチングとカメラポーズ推定のタスクに移行した際の競合結果を示す。

Extracting discriminative local features that are invariant to imaging variations is an integral part of establishing correspondences between images. In this work, we introduce a self-supervised learning framework to extract discriminative rotation-invariant descriptors using group-equivariant CNNs. Thanks to employing group-equivariant CNNs, our method effectively learns to obtain rotation-equivariant features and their orientations explicitly, without having to perform sophisticated data augmentations. The resultant features and their orientations are further processed by group aligning, a novel invariant mapping technique that shifts the group-equivariant features by their orientations along the group dimension. Our group aligning technique achieves rotation-invariance without any collapse of the group dimension and thus eschews loss of discriminability. The proposed method is trained end-to-end in a self-supervised manner, where we use an orientation alignment loss for the orientation estimation and a contrastive descriptor loss for robust local descriptors to geometric/photometric variations. Our method demonstrates state-of-the-art matching accuracy among existing rotation-invariant descriptors under varying rotation and also shows competitive results when transferred to the task of keypoint matching and camera pose estimation.
翻訳日:2023-03-29 17:55:26 公開日:2023-03-25
# マルチエージェント学習におけるリワードシェイピングによる文脈情報の埋め込み:Google Footballを事例として

Embedding Contextual Information through Reward Shaping in Multi-Agent Learning: A Case Study from Google Football ( http://arxiv.org/abs/2303.15471v1 )

ライセンス: Link先を確認
Chaoyi Gu, Varuna De Silva, Corentin Artaud, Rafael Pina(参考訳) 人工知能は、意思決定や手作業の置き換えのために最適化された戦略を提供することによって、複雑な環境で人間の困難なタスクを完遂するのに役立つ。 サッカーのような複数のエージェントを含む環境では、エージェントを訓練する最も一般的な方法は模倣学習とマルチエージェント強化学習(marl)である。 しかし、イミテーション・ラーニングによって訓練されたエージェントは、専門家のデモレーターを上回り得ないため、学習方針から新たな洞察を得られることはほとんどない。 さらに、marlはクレジット割り当ての問題に陥りやすい。 スパース報酬信号を持つ環境では、この方法は非効率である。 本研究の目的は、上記の課題を解決するために、報酬関数に文脈情報を埋め込むことにより、新たな報酬形成手法を作ることである。 Google Research Football (GRF) 環境でこれを実証する。 ゲーム状態観測から抽出した文脈情報を定量化し、この定量化と元のスパース報酬を併用して、形状の報酬を生成する。 GRF環境における実験結果から,報奨信号の少ない環境下でのトレーニングエージェントのための最先端のMARLアルゴリズムに,報奨形状法が有用であることを証明した。

Artificial Intelligence has been used to help human complete difficult tasks in complicated environments by providing optimized strategies for decision-making or replacing the manual labour. In environments including multiple agents, such as football, the most common methods to train agents are Imitation Learning and Multi-Agent Reinforcement Learning (MARL). However, the agents trained by Imitation Learning cannot outperform the expert demonstrator, which makes humans hardly get new insights from the learnt policy. Besides, MARL is prone to the credit assignment problem. In environments with sparse reward signal, this method can be inefficient. The objective of our research is to create a novel reward shaping method by embedding contextual information in reward function to solve the aforementioned challenges. We demonstrate this in the Google Research Football (GRF) environment. We quantify the contextual information extracted from game state observation and use this quantification together with original sparse reward to create the shaped reward. The experiment results in the GRF environment prove that our reward shaping method is a useful addition to state-of-the-art MARL algorithms for training agents in environments with sparse reward signal.
翻訳日:2023-03-29 17:54:49 公開日:2023-03-25
# 遷移金属ジカルコゲナイド単分子膜の励起子ダイナミクスと時間分解蛍光

Exciton Dynamics and Time-Resolved Fluorescence in Nanocavity-Integrated Monolayers of Transition-Metal Dichalcogenides ( http://arxiv.org/abs/2303.15470v1 )

ライセンス: Link先を確認
Kewei Sun, Kaijun Shen, Maxim F. Gelin and Yang Zhao(参考訳) キャビティ制御された2次元材料の励起子力学と時間分解蛍光スペクトルを有限温度でシミュレーションするためのab-initio-based fully-quantum numerically-curate methodを開発し、この手法を単層WSe2システムに適用した。 これにより、偏光効果と偏光効果の動的および分光的なシグネチャを確立し、関連する温度範囲におけるそれらの特徴的な時間スケールを明らかにすることができた。

We have developed an ab-initio-based fully-quantum numerically-accurate methodology for the simulation of the exciton dynamics and time- and frequency-resolved fluorescence spectra of the cavity-controlled two-dimensional materials at finite temperature and applied this methodology to the single-layer WSe2 system. This allowed us to establish dynamical and spectroscopic signatures of the polaronic and polaritonic effects as well as uncover their characteristic timescales in the relevant range of temperatures.
翻訳日:2023-03-29 17:54:20 公開日:2023-03-25
# CAMS:カテゴリーレベル関数型ハンドオブジェクトマニピュレーション合成のためのカノニカル化操作空間

CAMS: CAnonicalized Manipulation Spaces for Category-Level Functional Hand-Object Manipulation Synthesis ( http://arxiv.org/abs/2303.15469v1 )

ライセンス: Link先を確認
Juntian Zheng, Qingyuan Zheng, Lixing Fang, Yun Liu, Li Yi(参考訳) 本研究では,厳密な対象と明瞭な対象の両方をカバーするカテゴリーレベルの機能的手対象操作合成の課題に焦点を当てる。 オブジェクトの形状を考えると、初期の人間の手は、オブジェクトのスパースな制御シーケンスと同様に、人間のように振る舞う物理的に合理的なハンドオブジェクト操作シーケンスを生成することが目標です。 このような課題に対処するために,まず,物体中心かつ接触中心の視点で手の動きを正準化する2段階の空間階層である正準化操作空間 (cams) を設計した。 そこで我々は,CAMSの表現能力から,人間のような操作アニメーションを合成するための2段階のフレームワークを提案する。 本フレームワークは,視覚効果のある剛性カテゴリと調音カテゴリの両方において,最先端のパフォーマンスを実現する。 コードとビデオの結果はプロジェクトのホームページで確認できます。

In this work, we focus on a novel task of category-level functional hand-object manipulation synthesis covering both rigid and articulated object categories. Given an object geometry, an initial human hand pose as well as a sparse control sequence of object poses, our goal is to generate a physically reasonable hand-object manipulation sequence that performs like human beings. To address such a challenge, we first design CAnonicalized Manipulation Spaces (CAMS), a two-level space hierarchy that canonicalizes the hand poses in an object-centric and contact-centric view. Benefiting from the representation capability of CAMS, we then present a two-stage framework for synthesizing human-like manipulation animations. Our framework achieves state-of-the-art performance for both rigid and articulated categories with impressive visual effects. Codes and video results can be found at our project homepage: https://cams-hoi.github.io/
翻訳日:2023-03-29 17:54:10 公開日:2023-03-25
# オープンセット行動認識のためのインスタンス固有・クラス固有情報の拡張

Enlarging Instance-specific and Class-specific Information for Open-set Action Recognition ( http://arxiv.org/abs/2303.15467v1 )

ライセンス: Link先を確認
Jun Cen, Shiwei Zhang, Xiang Wang, Yixuan Pei, Zhiwu Qing, Yingya Zhang, Qifeng Chen(参考訳) オープンセットアクション認識とは、トレーニングセットの分布外にある未知の人間のアクションケースを拒絶することである。 既存の手法は主に不確実性スコアの学習に重点を置いているが、特徴表現の重要性は無視している。 セマンティクスの多様性が豊かな機能は、同じ不確実性スコアの下で、オープンセットのパフォーマンスを大幅に改善できることが分かりました。 本稿では,情報ボトルネック(ib)理論に基づくオープンセット行動認識(osar)問題における特徴表現挙動の解析から始め,その特徴に含まれるインスタンス固有(is)情報とクラス固有(cs)情報を拡張して性能を向上させることを提案する。 この目的のために、新しいPSL(Prototypeal similarity Learning)フレームワークが提案され、よりIS情報を保持するために、インスタンスの分散を同じクラス内に保持する。 さらに、既知のサンプルと類似した外観を共有する未知のサンプルは、容易に既知のクラスとして分類される。 この問題を緩和するため、PSLではビデオシャッフルがさらに導入され、元のサンプルとシャッフルされたサンプルの時間的情報を学習し、CS情報を拡大する。 広汎な実験により,提案したPSLはオープンセットとクローズセットの両方のパフォーマンスを大幅に向上し,複数のベンチマークで最先端の結果が得られた。 コードはhttps://github.com/Jun-CEN/PSLで入手できる。

Open-set action recognition is to reject unknown human action cases which are out of the distribution of the training set. Existing methods mainly focus on learning better uncertainty scores but dismiss the importance of feature representations. We find that features with richer semantic diversity can significantly improve the open-set performance under the same uncertainty scores. In this paper, we begin with analyzing the feature representation behavior in the open-set action recognition (OSAR) problem based on the information bottleneck (IB) theory, and propose to enlarge the instance-specific (IS) and class-specific (CS) information contained in the feature for better performance. To this end, a novel Prototypical Similarity Learning (PSL) framework is proposed to keep the instance variance within the same class to retain more IS information. Besides, we notice that unknown samples sharing similar appearances to known samples are easily misclassified as known classes. To alleviate this issue, video shuffling is further introduced in our PSL to learn distinct temporal information between original and shuffled samples, which we find enlarges the CS information. Extensive experiments demonstrate that the proposed PSL can significantly boost both the open-set and closed-set performance and achieves state-of-the-art results on multiple benchmarks. Code is available at https://github.com/Jun-CEN/PSL.
翻訳日:2023-03-29 17:53:54 公開日:2023-03-25
# Few-Shot 変圧器の仮設知識蒸留

Supervised Masked Knowledge Distillation for Few-Shot Transformers ( http://arxiv.org/abs/2303.15466v1 )

ライセンス: Link先を確認
Han Lin, Guangxing Han, Jiawei Ma, Shiyuan Huang, Xudong Lin, Shih-Fu Chang(参考訳) 視覚トランスフォーマー(vits)は、ローカル機能間の長距離依存関係をキャプチャすることで、多くのデータ冗長なコンピュータビジョンタスクで印象的なパフォーマンスを実現する。 しかし、少数のラベル付きデータしか持たない小さなデータセットのFSL設定では、ViTは過度に適合する傾向にあり、CNNのような誘導バイアスがないため、パフォーマンスが著しく低下する傾向にある。 FSLの以前の作業は、自己監督的な補助的損失の助けによって、または、監督された設定の下でラベル情報のデキスタイル的利用によって、そのような問題を避ける。 しかし、自己監督トランスフォーマーと監督された少数のトランスフォーマーの間のギャップは未埋めだ。 近年の自己監督型知識蒸留とマスク画像モデリング(MIM)の進歩に触発されて,ラベル情報を自己蒸留フレームワークに組み込んだ数ショットトランスフォーマーのための新しいスーパーバイザードマスケド知識蒸留モデル(SMKD)を提案する。 従来の自己監督手法と比較して,クラスおよびパッチトークンの双方において,クラス内知識の蒸留を可能にするとともに,クラス内画像間でのマスク付きパッチトークン再構築の課題を導入する。 4つの数ショット分類ベンチマークデータセットにおける実験結果から,単純な設計による手法は,従来の手法よりも大きなマージンを示し,新たな技術開始を達成した。 詳細なアブレーション研究により, モデルの各成分の有効性が確認された。 この論文のコードは、https://github.com/HL-hanlin/SMKD.comにある。

Vision Transformers (ViTs) emerge to achieve impressive performance on many data-abundant computer vision tasks by capturing long-range dependencies among local features. However, under few-shot learning (FSL) settings on small datasets with only a few labeled data, ViT tends to overfit and suffers from severe performance degradation due to its absence of CNN-alike inductive bias. Previous works in FSL avoid such problem either through the help of self-supervised auxiliary losses, or through the dextile uses of label information under supervised settings. But the gap between self-supervised and supervised few-shot Transformers is still unfilled. Inspired by recent advances in self-supervised knowledge distillation and masked image modeling (MIM), we propose a novel Supervised Masked Knowledge Distillation model (SMKD) for few-shot Transformers which incorporates label information into self-distillation frameworks. Compared with previous self-supervised methods, we allow intra-class knowledge distillation on both class and patch tokens, and introduce the challenging task of masked patch tokens reconstruction across intra-class images. Experimental results on four few-shot classification benchmark datasets show that our method with simple design outperforms previous methods by a large margin and achieves a new start-of-the-art. Detailed ablation studies confirm the effectiveness of each component of our model. Code for this paper is available here: https://github.com/HL-hanlin/SMKD.
翻訳日:2023-03-29 17:53:30 公開日:2023-03-25
# 厳密にマージ可能な要約

Exactly mergeable summaries ( http://arxiv.org/abs/2303.15465v1 )

ライセンス: Link先を確認
Vladimir Batagelj(参考訳) 大規模/大規模データセットの解析において、アグリゲーション(単一の値でグループ上の変数の値を返す)は、データのサイズ(複雑度)を減らす標準的な方法である。 データ解析プログラムは異なる集約機能を提供します。 近年、従来の集約関数の理論的背景とアルゴリズム的背景を扱う本が出版された。 従来のアグリゲーションの問題は、しばしば多くの情報が破棄され、その結果の精度が低下することである。 より優れた情報保存により、選択された複雑なデータを用いて集約されたデータを表現することで、元のデータの要約を実現することができる。 複素データ解析では、選択されたグループ$A$の値が複素オブジェクト$\Sigma(A)$に集約され、単一の値にはならない。 集約関数論の大部分は直接適用されない。 本稿では,複雑な集約の理論的背景の構築に着手する試みについて述べる。 単位の非連結集合 \[ \sigma(a \cup b) = f( \sigma(a),\sigma(b)),\qquad \mbox{ for } \quad a\cap b = \emptyset をマージするためのマージ可能なサマリーを紹介し、議論する。 \]

In the analysis of large/big data sets, aggregation (replacing values of a variable over a group by a single value) is a standard way of reducing the size (complexity) of the data. Data analysis programs provide different aggregation functions. Recently some books dealing with the theoretical and algorithmic background of traditional aggregation functions were published. A problem with traditional aggregation is that often too much information is discarded thus reducing the precision of the obtained results. A much better, preserving more information, summarization of original data can be achieved by representing aggregated data using selected types of complex data. In complex data analysis the measured values over a selected group $A$ are aggregated into a complex object $\Sigma(A)$ and not into a single value. Most of the aggregation functions theory does not apply directly. In our contribution, we present an attempt to start building a theoretical background of complex aggregation. We introduce and discuss exactly mergeable summaries for which it holds for merging of disjoint sets of units \[ \Sigma(A \cup B) = F( \Sigma(A),\Sigma(B)),\qquad \mbox{ for } \quad A\cap B = \emptyset .\]
翻訳日:2023-03-29 17:53:01 公開日:2023-03-25
# 光leo衛星星座におけるフェデレーション学習のためのエッジ選択とクラスタリング

Edge Selection and Clustering for Federated Learning in Optical Inter-LEO Satellite Constellation ( http://arxiv.org/abs/2303.16071v1 )

ライセンス: Link先を確認
Chih-Yu Chen, Li-Hsiang Shen, Kai-Ten Feng, Lie-Liang Yang, and Jen-Ming Wu(参考訳) 低地球軌道(LEO)衛星は、大量の画像やセンサーデータを収集できるため、様々な地球観測ミッションのために順調に展開されている。 しかしながら、伝統的に、データトレーニングプロセスは地上のクラウドサーバで実行されるため、送信オーバーヘッドが高くなる。 近年のLEOの発展により、超高密度LEOコンステレーションを車載計算能力の強化で実現することが不可欠である。 そこで我々は、LEO衛星コンステレーション(FedLEO)上での協調的な連合学習を提案する。 我々は、低遅延地上ゲートウェイサーバ(GS)が初期信号制御のみを行うのに対し、低ペイロードの衛星間伝送でLEOに全処理を割り当てる。 GSは当初LEOサーバを選択し、LEOクライアントは光衛星間リンク(ISL)を介してクラスタリング機構と通信能力によって決定される。 変更するLEOサーバの再クラスタ化は、FedLEOの通信品質が低い場合に一度実行される。 シミュレーションでは,実際のウォーカー型LEO星座構成とMNISTによる分類ミッションのトレーニングデータセットを用いて,提案したFedLEOを数値解析した。 提案するfeedleoは、従来の集中型および分散型のアーキテクチャよりも高い分類精度と、統合通信とコンピューティングのレイテンシーを両立するほど低めている。

Low-Earth orbit (LEO) satellites have been prosperously deployed for various Earth observation missions due to its capability of collecting a large amount of image or sensor data. However, traditionally, the data training process is performed in the terrestrial cloud server, which leads to a high transmission overhead. With the recent development of LEO, it is more imperative to provide ultra-dense LEO constellation with enhanced on-board computation capability. Benefited from it, we have proposed a collaborative federated learning over LEO satellite constellation (FedLEO). We allocate the entire process on LEOs with low payload inter-satellite transmissions, whilst the low-delay terrestrial gateway server (GS) only takes care for initial signal controlling. The GS initially selects an LEO server, whereas its LEO clients are all determined by clustering mechanism and communication capability through the optical inter-satellite links (ISLs). The re-clustering of changing LEO server will be executed once with low communication quality of FedLEO. In the simulations, we have numerically analyzed the proposed FedLEO under practical Walker-based LEO constellation configurations along with MNIST training dataset for classification mission. The proposed FedLEO outperforms the conventional centralized and distributed architectures with higher classification accuracy as well as comparably lower latency of joint communication and computing.
翻訳日:2023-03-29 14:41:54 公開日:2023-03-25
# two-cavity optomechanicsにおける完全光力学誘起透過性

Perfect optomechanically induced transparency in two-cavity optomechanics ( http://arxiv.org/abs/2303.16069v1 )

ライセンス: Link先を確認
Lai-Bin Qian and Xiao-Bo Yan(参考訳) 本稿では,2つのキャビティ光力学系における制御可能な光学応答,特に,これまで研究されていないモデルにおける光機械的誘起透過性(omit)について検討する。 その結果,機械的減衰率が大きくても完全 OMIT は依然として発生し得ることを示し,完全透明窓では長寿命の遅い光が達成できることがわかった。 さらに,第2空洞の駆動場強度を調整するだけで,完全OMITと光学的に誘起される吸収との変換が容易に実現できることがわかった。 この結果は、現代の光ネットワークにおける光伝送の制御に利用できると信じている。

Here, we study the controllable optical responses in a two-cavity optomechanical system, especially on the $\mathit{perfect}$ optomechanically induced transparency (OMIT) in the model which has never been studied before. The results show that the perfect OMIT can still occur even with a large mechanical damping rate, and at the perfect transparency window the long-lived slow light can be achieved. In addition, we find that the conversion between the perfect OMIT and optomechanically induced absorption can be easily achieved just by adjusting the driving field strength of the second cavity. We believe that the results can be used to control optical transmission in modern optical networks.
翻訳日:2023-03-29 14:41:34 公開日:2023-03-25
# 異種メモリアーキテクチャを用いたnlpエッジ推論のための省エネルギータスク適応

Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures ( http://arxiv.org/abs/2303.16100v1 )

ライセンス: Link先を確認
Zirui Fu, Aleksandre Avaliani, Marco Donato(参考訳) リソース制約のあるエッジデバイス上で機械学習推論タスクを実行するには、注意深いハードウェアとソフトウェアの共同設計最適化が必要だ。 最近の例では、ALBERTのようなトランスフォーマーベースのディープニューラルネットワークモデルを使用して、モバイルシステム上での自然言語処理(NLP)推論の実行を可能にする方法が示されている。 しかしながら、これらの既存のソリューションは単一のnlpタスクの実行のレイテンシ、エネルギー、面積コストの軽減に効果的であるが、マルチタスク推論を実現するには、対象とするタスク毎に調整されたモデルパラメータの複数の変種で計算を実行する必要がある。 このアプローチはオンチップのメモリ要求を禁ずるか、オフチップメモリアクセスのコストを支払うかのいずれかにつながる。 本稿では,タスク間の最大データ再利用のための効率的なモデル最適化であるAdapter-ALBERTを提案する。 提案したモデルの性能とデータ圧縮手法の堅牢性は,GLUEベンチマークから複数の言語タスクにわたって評価される。 さらに、検証済みのNLPエッジアクセラレータ上でシミュレーションを行い、同じハードウェアプラットフォーム上での従来のALBERTモデルの実行に対する性能、パワー、面積の改善を概説することで、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を示す。

Executing machine learning inference tasks on resource-constrained edge devices requires careful hardware-software co-design optimizations. Recent examples have shown how transformer-based deep neural network models such as ALBERT can be used to enable the execution of natural language processing (NLP) inference on mobile systems-on-chip housing custom hardware accelerators. However, while these existing solutions are effective in alleviating the latency, energy, and area costs of running single NLP tasks, achieving multi-task inference requires running computations over multiple variants of the model parameters, which are tailored to each of the targeted tasks. This approach leads to either prohibitive on-chip memory requirements or paying the cost of off-chip memory access. This paper proposes adapter-ALBERT, an efficient model optimization for maximal data reuse across different tasks. The proposed model's performance and robustness to data compression methods are evaluated across several language tasks from the GLUE benchmark. Additionally, we demonstrate the advantage of mapping the model to a heterogeneous on-chip memory architecture by performing simulations on a validated NLP edge accelerator to extrapolate performance, power, and area improvements over the execution of a traditional ALBERT model on the same hardware platform.
翻訳日:2023-03-29 14:32:50 公開日:2023-03-25
# 行動機械学習? 企業利益のコンピューター予測も過度に反応する

Behavioral Machine Learning? Computer Predictions of Corporate Earnings also Overreact ( http://arxiv.org/abs/2303.16158v1 )

ライセンス: Link先を確認
Murray Z. Frank, Jing Gao, Keer Yang(参考訳) 機械学習アルゴリズムは、様々な金融環境において人間よりも予測能力が優れているという証拠がかなりある。 しかし、これらのアルゴリズムによる予測が人間の予測よりも合理的かどうかについては研究されていない。 本稿では,いくつかのアルゴリズム,特に線形回帰と,GBRT(Gradient Boosted Regression Trees)と呼ばれる人気アルゴリズムから企業利益を予測する。 平均してGBRTは線形回帰と人的株価アナリストの両方を上回ったが、それでもニュースに過度に反応し、通常定義された合理的な期待を満たさなかった。 学習率を下げることにより、過剰反応の規模を最小化することができるが、サンプル外予測の精度が低下するコストが伴う。 機械学習の手法で訓練を受けた人間の株アナリストは、従来の訓練済みのアナリストよりも過度に反応している。 さらに、株価アナリストの予測は、機械アルゴリズムでは利用できない情報を反映している。

There is considerable evidence that machine learning algorithms have better predictive abilities than humans in various financial settings. But, the literature has not tested whether these algorithmic predictions are more rational than human predictions. We study the predictions of corporate earnings from several algorithms, notably linear regressions and a popular algorithm called Gradient Boosted Regression Trees (GBRT). On average, GBRT outperformed both linear regressions and human stock analysts, but it still overreacted to news and did not satisfy rational expectation as normally defined. By reducing the learning rate, the magnitude of overreaction can be minimized, but it comes with the cost of poorer out-of-sample prediction accuracy. Human stock analysts who have been trained in machine learning methods overreact less than traditionally trained analysts. Additionally, stock analyst predictions reflect information not otherwise available to machine algorithms.
翻訳日:2023-03-29 14:14:11 公開日:2023-03-25
# 多様体データのカーネル2サンプルテスト

Kernel Two-Sample Tests for Manifold Data ( http://arxiv.org/abs/2105.03425v3 )

ライセンス: Link先を確認
Xiuyuan Cheng, Yao Xie(参考訳) 本稿では,高次元の観測が低次元の多様体に近いことを前提として,最大平均離散性(MMD)に関連するカーネルベースの2サンプルテスト統計量について述べる。 本稿では, カーネル帯域幅, サンプル数, 多様体の内在的次元性に関して, テストレベルとパワーを特徴付ける。 具体的には、$m$-次元空間に埋め込まれた$d$-dimensional sub-manifold $\mathcal{m}$ でデータ密度がサポートされると、$p$ と $q$ のペアからサンプリングされたデータのカーネル2-サンプルテストが h\"older で$\beta$ (up to 2) のオーダーを持つ場合、$n$ のサンプル数が$\delta_2 \gtrsim n^{- { 2 \beta/(d + 4 \beta ) }}$であり、$\delta_2$ は多様体上の $p$ と $q$ の2乗 $l^2$-divergenceである。 十分に大きい有限$n$に対してテストパワーの低い境界を確立し、カーネル帯域幅パラメータ$\gamma$は$n^{-1/(d+4\beta)}$としてスケールする。 解析は多様体が境界を持つ場合にまで拡張され、データサンプルは高次元の付加雑音を含む。 この結果は,低次元多様体上あるいは近傍にデータを置く場合,カーネルの2サンプルテストは,次元の呪いを伴わないことを示す。 我々は, 数値実験により, 多様体データに対するカーネルテストの理論と特性を検証した。

We present a study of a kernel-based two-sample test statistic related to the Maximum Mean Discrepancy (MMD) in the manifold data setting, assuming that high-dimensional observations are close to a low-dimensional manifold. We characterize the test level and power in relation to the kernel bandwidth, the number of samples, and the intrinsic dimensionality of the manifold. Specifically, we show that when data densities are supported on a $d$-dimensional sub-manifold $\mathcal{M}$ embedded in an $m$-dimensional space, the kernel two-sample test for data sampled from a pair of distributions $p$ and $q$ that are H\"older with order $\beta$ (up to 2) is powerful when the number of samples $n$ is large such that $\Delta_2 \gtrsim n^{- { 2 \beta/( d + 4 \beta ) }}$, where $\Delta_2$ is the squared $L^2$-divergence between $p$ and $q$ on manifold. We establish a lower bound on the test power for finite $n$ that is sufficiently large, where the kernel bandwidth parameter $\gamma$ scales as $n^{-1/(d+4\beta)}$. The analysis extends to cases where the manifold has a boundary, and the data samples contain high-dimensional additive noise. Our results indicate that the kernel two-sample test does not have a curse-of-dimensionality when the data lie on or near a low-dimensional manifold. We validate our theory and the properties of the kernel test for manifold data through a series of numerical experiments.
翻訳日:2023-03-29 05:07:04 公開日:2023-03-25
# ディープラーニングによるデータ隠蔽: デジタル透かしとステガノグラフィの統合調査

Data Hiding with Deep Learning: A Survey Unifying Digital Watermarking and Steganography ( http://arxiv.org/abs/2107.09287v2 )

ライセンス: Link先を確認
Zihan Wang, Olivia Byrnes, Hu Wang, Ruoxi Sun, Congbo Ma, Huaming Chen, Qi Wu, Minhui Xue(参考訳) データ隠蔽は、音声、ビデオ、画像などの耐雑音性信号に情報を埋め込むプロセスであり、堅牢なアイデンティティ検証のためのデジタル透かしや、セキュアで秘密の通信を目的としたデータ埋め込みのためのステガノグラフィーである。 本研究では,ウォーターマーキングとステガノグラフィにおけるデータ隠蔽のためのディープラーニング技術の最近の進歩を要約し,モデルアーキテクチャとノイズ注入法に基づいて分類する。 これらのデータ隠蔽モデルのトレーニングに使用される客観的関数、評価メトリクス、データセットは、包括的に要約される。 最後に,ソフトウェア工学における電子透かしとステガノグラフィの統合に向けた将来的な方向性を提案し,議論する。

Data hiding is the process of embedding information into a noise-tolerant signal such as a piece of audio, video, or an image, including Digital Watermarking for robust identity verification and Steganography to embed data for the purpose of secure and secret communication. This survey provides a summary of recent advancements in deep learning techniques for data hiding in watermarking and steganography, and categorizes them based on model architectures and noise injection methods. The objective functions, evaluation metrics, and datasets used for training these data hiding models are comprehensively summarised. Finally, we propose and discuss possible future directions for the unification of digital watermarking and steganography in software engineering to promote Responsible AI.
翻訳日:2023-03-29 04:10:11 公開日:2023-03-25
# ビデオ超解像トランス

Video Super-Resolution Transformer ( http://arxiv.org/abs/2106.06847v2 )

ライセンス: Link先を確認
Jiezhang Cao, Yawei Li, Kai Zhang, Jingyun Liang, Luc Van Gool(参考訳) ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。 近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが普及している。 したがって、視覚変換器をVSRの解法に適用することは容易である。 しかしながら、完全接続された自己接続層とトークン指向のフィードフォワード層を持つトランスの典型的なブロック設計は、以下の2つの理由からvsrには適さない。 第一に、完全接続されたセルフアテンション層は、注意マップを計算するために線形層に依存するため、データの局所性を利用するのを怠る。 第2に、トークンワイドフィードフォワード層は、VSRにとって重要な特徴アライメントを欠いている。 本稿では,VSR に Transformer を適用するための最初の試みを行う。 具体的には,まず,局所性情報を利用した理論的理解を伴う空間的時間的畳み込み自己認識層を提案する。 第2の課題として,双方向光フロー型フィードフォワード層をデザインし,異なる映像フレーム間の相関を探索し,特徴を整合させる。 いくつかのベンチマークデータセットに対する大規模な実験により,提案手法の有効性が示された。 コードはhttps://github.com/caojiezhang/vsr-transformerで入手できる。

Video super-resolution (VSR), with the aim to restore a high-resolution video from its corresponding low-resolution version, is a spatial-temporal sequence prediction problem. Recently, Transformer has been gaining popularity due to its parallel computing ability for sequence-to-sequence modeling. Thus, it seems to be straightforward to apply the vision Transformer to solve VSR. However, the typical block design of Transformer with a fully connected self-attention layer and a token-wise feed-forward layer does not fit well for VSR due to the following two reasons. First, the fully connected self-attention layer neglects to exploit the data locality because this layer relies on linear layers to compute attention maps. Second, the token-wise feed-forward layer lacks the feature alignment which is important for VSR since this layer independently processes each of the input token embeddings without any interaction among them. In this paper, we make the first attempt to adapt Transformer for VSR. Specifically, to tackle the first issue, we present a spatial-temporal convolutional self-attention layer with a theoretical understanding to exploit the locality information. For the second issue, we design a bidirectional optical flow-based feed-forward layer to discover the correlations across different video frames and also align features. Extensive experiments on several benchmark datasets demonstrate the effectiveness of our proposed method. The code will be available at https://github.com/caojiezhang/VSR-Transformer.
翻訳日:2023-03-29 04:09:11 公開日:2023-03-25
# 3dポイントクラウドドメイン適応のための自己センシング

Self-Ensemling for 3D Point Cloud Domain Adaption ( http://arxiv.org/abs/2112.05301v2 )

ライセンス: Link先を確認
Qing Li, Xiaojiang Peng, Chuan Yan, Pan Gao, Qi Hao(参考訳) 最近の3d point cloud learningは、コンピュータビジョンと自動運転でホットな話題になっている。 定性的な大規模3Dポイントクラウドデータセットを手動でアノテートすることは難しいため、ラベル付きソースドメインからラベル付きターゲットドメインへの学習知識の転送を目的とした3Dポイントクラウドラーニングでは、教師なしドメイン適応(UDA)が一般的である。 しかし、単純学習モデルによるドメインシフトによる一般化と再構成エラーは避けられないため、良い表現の学習からモデルの能力を実質的に妨げている。 これらの問題に対処するため,我々は3dポイントクラウドドメイン適応タスクのためのエンドツーエンドの自己センシングネットワーク (sen) を提案する。 一般に, 平均教師と半教師学習の利点を活かし, ソフト分類損失と一貫性損失を導入し, 一貫した一般化と正確な再構築を目指す。 senでは,教師ネットワークは教師学習と自己教師学習とを協調的に保持し,教師ネットワークは時間的一貫性を保ち,有用な表現を学習し,ポイントクラウドの再構築の質を保証する。 いくつかの3Dポイントクラウド UDA ベンチマークでの大規模な実験により、SEN は分類タスクとセグメンテーションタスクの両方において最先端の手法より優れていることが示された。 さらに, さらなる解析により, SEN の再現性も向上することが示された。

Recently 3D point cloud learning has been a hot topic in computer vision and autonomous driving. Due to the fact that it is difficult to manually annotate a qualitative large-scale 3D point cloud dataset, unsupervised domain adaptation (UDA) is popular in 3D point cloud learning which aims to transfer the learned knowledge from the labeled source domain to the unlabeled target domain. However, the generalization and reconstruction errors caused by domain shift with simply-learned model are inevitable which substantially hinder the model's capability from learning good representations. To address these issues, we propose an end-to-end self-ensembling network (SEN) for 3D point cloud domain adaption tasks. Generally, our SEN resorts to the advantages of Mean Teacher and semi-supervised learning, and introduces a soft classification loss and a consistency loss, aiming to achieve consistent generalization and accurate reconstruction. In SEN, a student network is kept in a collaborative manner with supervised learning and self-supervised learning, and a teacher network conducts temporal consistency to learn useful representations and ensure the quality of point clouds reconstruction. Extensive experiments on several 3D point cloud UDA benchmarks show that our SEN outperforms the state-of-the-art methods on both classification and segmentation tasks. Moreover, further analysis demonstrates that our SEN also achieves better reconstruction results.
翻訳日:2023-03-29 04:00:49 公開日:2023-03-25
# 分布ロバストなマルチクラス分類と深部画像分類への応用

Distributionally Robust Multiclass Classification and Applications in Deep Image Classifiers ( http://arxiv.org/abs/2109.12772v2 )

ライセンス: Link先を確認
Ruidi Chen, Boran Hao, Ioannis Paschalidis(参考訳) 分散ロバスト最適化 (DRO) によるマルチクラスロジスティック回帰 (MLR) の定式化を行い, 異常値によるデータの汚染を許容する。 DROフレームワークは、ワッサーシュタイン計量の意味でのトレーニングセットの経験的分布に近い分布の球として定義される確率的曖昧性集合を使用する。 我々は DRO の定式化を、正則化が係数行列のノルムである正規化学習問題に緩和する。 予測誤差の制御における正則化器の役割についての洞察を提供するとともに,本モデルに対する解の正当性を保証する。 提案手法は,ランダムおよび敵対的攻撃に頑健なdeep vision transformer (vit)ベースの画像分類器のレンダリングに応用する。 具体的には、MNISTとCIFAR-10データセットを用いて、新しいランダムトレーニング手法を採用することにより、試験誤差率を83.5%、損失を91.3%削減することを示した。

We develop a Distributionally Robust Optimization (DRO) formulation for Multiclass Logistic Regression (MLR), which could tolerate data contaminated by outliers. The DRO framework uses a probabilistic ambiguity set defined as a ball of distributions that are close to the empirical distribution of the training set in the sense of the Wasserstein metric. We relax the DRO formulation into a regularized learning problem whose regularizer is a norm of the coefficient matrix. We establish out-of-sample performance guarantees for the solutions to our model, offering insights on the role of the regularizer in controlling the prediction error. We apply the proposed method in rendering deep Vision Transformer (ViT)-based image classifiers robust to random and adversarial attacks. Specifically, using the MNIST and CIFAR-10 datasets, we demonstrate reductions in test error rate by up to 83.5% and loss by up to 91.3% compared with baseline methods, by adopting a novel random training method.
翻訳日:2023-03-29 03:59:23 公開日:2023-03-25
# 量子コンピューティングの概念を理解するためのステップバイステップHHLアルゴリズムのウォークスルー

Step-by-Step HHL Algorithm Walkthrough to Enhance the Understanding of Critical Quantum Computing Concepts ( http://arxiv.org/abs/2108.09004v4 )

ライセンス: Link先を確認
Hector Jose Morrell Jr, Anika Zaman, and Hiu Yung Wong(参考訳) 基本的な量子コンピューティングの概念を学習した後、学生が量子ビットがどのように進化し相互に相互作用するかを観察し評価できる、重要で比較的複雑なアルゴリズムを用いて学習を強化することが望ましい。 harrow-hassidim-lloyd(hhl)量子アルゴリズムは、古典的な方法よりも指数関数的なスピードアップで線形系問題を解くことができ、多くの重要な量子計算アルゴリズムの基本である。 HHLアルゴリズムは、ブラケット表記法で4キュービットの数値例で解析的に説明される。 数値的な例に対応するMatlabコードは、純粋な行列の観点からHHLアルゴリズムをより深く理解するために学生に利用可能である。 Qiskitを用いてプログラムされた量子回路も提供され、IBM量子コンピュータにおける実際のハードウェア実行に使用できる。 基礎変換、ブラケットおよび行列表現、重ね合わせ、絡み合い、制御操作、測定、量子フーリエ変換、量子位相推定、量子プログラミングといった概念をより良く理解することが期待されている。 これらの基本的な概念をレビューするために、本文のHHL数値例で拡張した簡単な説明がAppendixで提供されている。

After learning basic quantum computing concepts, it is desirable to reinforce the learning using an important and relatively complex algorithm through which the students can observe and appreciate how the qubits evolve and interact with each other. Harrow-Hassidim-Lloyd (HHL) quantum algorithm, which can solve Linear System Problems with exponential speed-up over the classical method and is the basic of many important quantum computing algorithms, is used to serve this purpose. The HHL algorithm is explained analytically followed by a 4-qubit numerical example in bra-ket notation. Matlab code corresponding to the numerical example is available for students to gain a deeper understanding of the HHL algorithm from a pure matrix point of view. A quantum circuit programmed using qiskit is also provided which can be used for real hardware execution in IBM quantum computers. After going through the material, students are expected to have a better appreciation of the concepts such as basis transformation, bra-ket and matrix representations, superposition, entanglement, controlled operations, measurement, Quantum Fourier Transformation, Quantum Phase Estimation, and quantum programming. To help readers review these basic concepts, brief explanations augmented by the HHL numerical examples in the main text are provided in the Appendix.
翻訳日:2023-03-29 03:58:31 公開日:2023-03-25
# PROMPT: ネットワークアプリケーションのための動的リソース割り当てポリシーの学習

PROMPT: Learning Dynamic Resource Allocation Policies for Network Applications ( http://arxiv.org/abs/2201.07916v2 )

ライセンス: Link先を確認
Drew Penney, Bin Li, Jaroslaw Sydir, Lizhong Chen, Charlie Tai, Stefan Lee, Eoin Walsh, Thomas Long(参考訳) 多くのサービスプロバイダが、最高のワークロードで高優先度のレイテンシクリティカルなワークロードをスケジュールすることで、サーバの利用を改善し、消費電力を削減する方法を模索している。 このプラクティスでは、競合を減らし、qos(quality-of-service)の保証を維持するために、ワークロード間の厳格なリソース割り当てが必要です。 以前の作業は、ワークロード要求に基づいてリソースを動的に割り当てる有望な機会を示したが、リソース割り当ての崖、ワークロードパフォーマンスの過渡的変動、リソース需要の急激な変化などにより、より厳密な運用環境でqosの目標を満たせなかった可能性がある。 そこで本研究では,プロアクティブqos予測を用いた新しい資源割当フレームワークであるprompiveを提案する。 PROMPTは、より正確なリソース最適化、過渡的な振る舞いのより一貫性のある処理、ポリシートレーニング中に遭遇しない新しいベストプラクティスワークロードを共スケジューリングする場合のより堅牢な一般化を可能にする。 評価の結果,提案手法はQoS違反を4.2倍減らし,QoS違反の深刻度を12.7倍に低減し,作業負荷性能を向上し,作業前よりも全体の電力効率を向上させる。

A growing number of service providers are exploring methods to improve server utilization and reduce power consumption by co-scheduling high-priority latency-critical workloads with best-effort workloads. This practice requires strict resource allocation between workloads to reduce contention and maintain Quality-of-Service (QoS) guarantees. Prior work demonstrated promising opportunities to dynamically allocate resources based on workload demand, but may fail to meet QoS objectives in more stringent operating environments due to the presence of resource allocation cliffs, transient fluctuations in workload performance, and rapidly changing resource demand. We therefore propose PROMPT, a novel resource allocation framework using proactive QoS prediction to guide a reinforcement learning controller. PROMPT enables more precise resource optimization, more consistent handling of transient behaviors, and more robust generalization when co-scheduling new best-effort workloads not encountered during policy training. Evaluation shows that the proposed method incurs 4.2x fewer QoS violations, reduces severity of QoS violations by 12.7x, improves best-effort workload performance, and improves overall power efficiency over prior work.
翻訳日:2023-03-29 03:49:36 公開日:2023-03-25
# 低線量CTのための物理・モデルに基づくデータ駆動法:サーベイ

Physics-/Model-Based and Data-Driven Methods for Low-Dose Computed Tomography: A survey ( http://arxiv.org/abs/2203.15725v2 )

ライセンス: Link先を確認
Wenjun Xia, Hongming Shan, Ge Wang and Yi Zhang(参考訳) 2016年以降,低線量CT(LDCT)画像において,深部CT(Deep Learning, DL)が顕著な成功を収めている。 LDCTはビッグデータによって駆動されているにもかかわらず、ブラックボックスの性質や不安定性などの大きな問題に悩まされることが多く、低用量CTアプリケーションにディープラーニングを適用する上で大きな障壁となっている。 新たなトレンドは、イメージング物理学とモデルをディープネットワークに統合し、物理/モデルベースおよびデータ駆動要素のハイブリッド化を可能にすることだ。 %) のハイブリッド手法がますます影響力を増している。 本稿では,LDCTの物理モデルに基づくデータ駆動方式を体系的に検討し,損失関数とトレーニング戦略を要約し,異なる手法の性能評価を行い,関連する問題と今後の方向性について議論する。

Since 2016, deep learning (DL) has advanced tomographic imaging with remarkable successes, especially in low-dose computed tomography (LDCT) imaging. Despite being driven by big data, the LDCT denoising and pure end-to-end reconstruction networks often suffer from the black box nature and major issues such as instabilities, which is a major barrier to apply deep learning methods in low-dose CT applications. An emerging trend is to integrate imaging physics and model into deep networks, enabling a hybridization of physics/model-based and data-driven elements. %This type of hybrid methods has become increasingly influential. In this paper, we systematically review the physics/model-based data-driven methods for LDCT, summarize the loss functions and training strategies, evaluate the performance of different methods, and discuss relevant issues and future directions.
翻訳日:2023-03-29 03:41:29 公開日:2023-03-25
# 領域一般化のための深部周波数フィルタ

Deep Frequency Filtering for Domain Generalization ( http://arxiv.org/abs/2203.12198v2 )

ライセンス: Link先を確認
Shiqi Lin, Zhizheng Zhang, Zhipeng Huang, Yan Lu, Cuiling Lan, Peng Chu, Quanzeng You, Jiang Wang, Zicheng Liu, Amey Parulkar, Viraj Navkal, Zhibo Chen(参考訳) ディープニューラルネットワーク(DNN)の一般化能力の向上は,長年にわたる課題である実用上重要な課題である。 いくつかの理論的研究は、DNNが学習過程の周波数成分を好んでいることを発見し、これが学習特徴の堅牢性に影響を与える可能性があることを示した。 本稿では,学習中に潜在空間内の領域間で異なる伝達困難の周波数成分を明示的に変調する最初の試みである,領域一般化型特徴を学習するための深部周波数フィルタリング(dff)を提案する。 そこで我々は,異なる層における特徴写像に対する高速フーリエ変換(FFT)を行い,FFT以降の周波数表現から注目マスクを学習するための軽量モジュールを導入し,一般化を伴わないコンポーネントを抑えながら,転送可能なコンポーネントを強化する。 さらに,dffの実装に異なるタイプの注意設計を適用する効果を実証的に比較した。 実験の結果,提案したDFFの有効性を実証し,DFFをベースラインに適用することで,近集合分類やオープンセット検索など,異なる領域の一般化タスクにおける最先端の手法よりも優れていることを示した。

Improving the generalization ability of Deep Neural Networks (DNNs) is critical for their practical uses, which has been a longstanding challenge. Some theoretical studies have uncovered that DNNs have preferences for some frequency components in the learning process and indicated that this may affect the robustness of learned features. In this paper, we propose Deep Frequency Filtering (DFF) for learning domain-generalizable features, which is the first endeavour to explicitly modulate the frequency components of different transfer difficulties across domains in the latent space during training. To achieve this, we perform Fast Fourier Transform (FFT) for the feature maps at different layers, then adopt a light-weight module to learn attention masks from the frequency representations after FFT to enhance transferable components while suppressing the components not conducive to generalization. Further, we empirically compare the effectiveness of adopting different types of attention designs for implementing DFF. Extensive experiments demonstrate the effectiveness of our proposed DFF and show that applying our DFF on a plain baseline outperforms the state-of-the-art methods on different domain generalization tasks, including close-set classification and open-set retrieval.
翻訳日:2023-03-29 03:41:13 公開日:2023-03-25
# rgb-dスキャンにおける部分ベースオブジェクト補完の最適化のための学習

Neural Part Priors: Learning to Optimize Part-Based Object Completion in RGB-D Scans ( http://arxiv.org/abs/2203.09375v2 )

ライセンス: Link先を確認
Alexey Bokhovkin, Angela Dai(参考訳) 近年、3dオブジェクト認識は大幅に進歩しており、実世界の3dスキャンベンチマークでは印象的なパフォーマンスを示しているが、オブジェクト部分推論には欠けており、オブジェクト間の類似性やオブジェクト機能といった高レベルなシーン理解の基盤となっている。 そこで本研究では,3次元形状の大規模合成データセットを部品情報に付加して,幾何学的部分前処理を特徴付ける最適化可能な空間であるNPP(Neural Part Priors)を学習する。 重要なことは、実空間でスキャンされた実世界の3Dシーンに適合するように、学習した部分の事前を最適化し、これらのシーンにおける実際のオブジェクトの堅牢な部分分解を可能にし、観測された実際の幾何学に正確に適合しながら、オブジェクトの完全な幾何学を推定する。 さらに、これはシーン内の幾何学的に類似した検出されたオブジェクトに対するグローバル最適化を可能にし、しばしば強い幾何学的共通性を共有し、シーン一貫性のある部分分解を可能にする。 ScanNetデータセットの実験では、NPPは実世界のシーンにおける部分分解とオブジェクト補完において、芸術の状態を著しく上回ります。

3D object recognition has seen significant advances in recent years, showing impressive performance on real-world 3D scan benchmarks, but lacking in object part reasoning, which is fundamental to higher-level scene understanding such as inter-object similarities or object functionality. Thus, we propose to leverage large-scale synthetic datasets of 3D shapes annotated with part information to learn Neural Part Priors (NPPs), optimizable spaces characterizing geometric part priors. Crucially, we can optimize over the learned part priors in order to fit to real-world scanned 3D scenes at test time, enabling robust part decomposition of the real objects in these scenes that also estimates the complete geometry of the object while fitting accurately to the observed real geometry. Moreover, this enables global optimization over geometrically similar detected objects in a scene, which often share strong geometric commonalities, enabling scene-consistent part decompositions. Experiments on the ScanNet dataset demonstrate that NPPs significantly outperforms state of the art in part decomposition and object completion in real-world scenes.
翻訳日:2023-03-29 03:40:34 公開日:2023-03-25
# gsda: 生成型adversarial networkに基づく半教師付きデータ拡張法

GSDA: A Generative Adversarial Network-based Semi-Supervised Data Augmentation Method ( http://arxiv.org/abs/2203.06184v3 )

ライセンス: Link先を確認
Zhaoshan Liu, Qiujie Lv, Chau Hung Lee, Lei Shen(参考訳) 医用超音波(英語版)(us)は、臨床でもっとも広く使われているイメージングモードの1つである。 しかし、その使用は可変撮像品質などのユニークな課題を呈する。 ディープラーニング(dl)モデルは、高度な医療用us画像分析ツールとして使用できるが、ビッグデータセットの不足は、そのパフォーマンスを大幅に制限している。 そこで我々は,GANに基づく半教師付きデータ拡張手法GSDAを開発した。 GSDA は GAN と Convolutional Neural Network (CNN) から構成されており、GAN は高解像度で高画質で米国イメージを合成し、擬似ラベル付けし、実画像と合成画像の両方を CNN の訓練に使用する。 小さいデータ体制下でのGANとCNNの訓練難を克服するため,両者にトランスファー学習技術を適用した。 また,分類精度と時間消費のバランスをとるための新しい評価基準を提案する。 本手法をBUSIデータセット上で評価し,GSDAが既存の最先端手法より優れていることを示す。 高解像度で高品質な画像が合成され、GSDAは780枚の画像を使って97.9%の精度を得る。 その結果,GSDAは医療用US分析の補助ツールとして期待できると考えられた。

Medical Ultrasound (US) is one of the most widely used imaging modalities in clinical practice. However, its use presents unique challenges such as variable imaging quality. The deep learning (DL) model can be used as an advanced medical US image analysis tool, while the scarcity of big datasets greatly limits its performance. To solve the common data shortage, we develop a Generative Adversarial Network (GAN)-based semi-supervised data augmentation method GSDA. The GSDA is composed of the GAN and Convolutional Neural Network (CNN), in which GAN synthesizes and pseudo-labeled the US images with high resolution and high quality, and both real and synthesized images are employed to train CNN. To overcome the training difficulty for GAN and CNN under the small data regime, we employ the transfer learning technique for both of them. We also propose a novel evaluation standard to balance the classification accuracy and the time consumption. We evaluate our method on the BUSI dataset and GSDA outperforms existing state-of-the-art methods. With high-resolution and high-quality images synthesized, GSDA obtain a 97.9% accuracy using merely 780 images. With the promising results, we believe GSDA can be regarded as a potential auxiliary tool for medical US analysis.
翻訳日:2023-03-29 03:40:14 公開日:2023-03-25
# CLIP-Dissect:ディープビジョンネットワークにおけるニューロン表現の自動記述

CLIP-Dissect: Automatic Description of Neuron Representations in Deep Vision Networks ( http://arxiv.org/abs/2204.10965v4 )

ライセンス: Link先を確認
Tuomas Oikarinen, Tsui-Wei Weng(参考訳) 本稿では,視覚ネットワーク内の個々の隠れニューロンの機能を自動的に記述する新しい手法であるCLIP-Dissectを提案する。 CLIP-Dissectは、マルチモーダル視覚/言語モデルの最近の進歩を活用して、ラベル付きデータや人間の例を必要とせずに、内部ニューロンをオープンな概念でラベル付けする。 この結果から,CLIP-Dissectは最終層ニューロンに対する既存の方法よりも正確な記述と,隠れ層ニューロンに対する質的によい記述を提供することがわかった。 さらに,本手法は非常に柔軟であり,モデル非依存であり,新しい概念を容易に扱えるとともに,将来より優れたマルチモーダルモデルを活用するために拡張することができる。 最後にclip-dissectは計算効率が高く、resnet-50の5つの層からすべてのニューロンをわずか4分でラベル付けできる。 私たちのコードはhttps://github.com/Trustworthy-ML-Lab/CLIP-dissect.comで公開されています。

In this paper, we propose CLIP-Dissect, a new technique to automatically describe the function of individual hidden neurons inside vision networks. CLIP-Dissect leverages recent advances in multimodal vision/language models to label internal neurons with open-ended concepts without the need for any labeled data or human examples. We show that CLIP-Dissect provides more accurate descriptions than existing methods for last layer neurons where the ground-truth is available as well as qualitatively good descriptions for hidden layer neurons. In addition, our method is very flexible: it is model agnostic, can easily handle new concepts and can be extended to take advantage of better multimodal models in the future. Finally CLIP-Dissect is computationally efficient and can label all neurons from five layers of ResNet-50 in just 4 minutes, which is more than 10 times faster than existing methods. Our code is available at https://github.com/Trustworthy-ML-Lab/CLIP-dissect.
翻訳日:2023-03-29 03:32:19 公開日:2023-03-25
# CgAT:Deep Hashing-based Retrievalのためのセンターガイド型対人訓練

CgAT: Center-Guided Adversarial Training for Deep Hashing-Based Retrieval ( http://arxiv.org/abs/2204.10779v6 )

ライセンス: Link先を確認
Xunguang Wang, Yiqun Lin, Xiaomeng Li(参考訳) ディープハッシュは、その効率性と有効性のため、大規模な画像検索に広く利用されている。 しかし, 深層ハッシュモデルは, 敵の例に弱いため, 画像検索のための敵防衛手法の開発が不可欠である。 既存のソリューションは、訓練に弱い敵のサンプルを使用し、頑健な特徴を学習するために差別的最適化目標を欠いたため、防御性能が限界であった。 本稿では,Min-maxをベースとしたCgAT(Center-guided Adversarial Training)を提案する。 具体的には、まず、入力画像コンテンツの意味的判別表現として中心コードを定式化し、正のサンプルと意味的類似性と負の例との類似性を保持する。 数学式が中心符号を即座に計算できることを証明した。 ディープハッシュネットワークの各最適化イテレーションにおいて中心符号を得た後、敵のトレーニングプロセスをガイドするために採用する。 一方、CgATは、逆例のハッシュ符号と中心符号とのハミング距離を最大化することにより、拡張データとして最悪の逆例を生成する。 一方、CgATはハミング距離を中心符号に最小化することで、敵対サンプルの効果を緩和することを学ぶ。 ベンチマークデータセットに関する広範囲な実験は、ディープハッシュに基づく検索に対する敵意攻撃に対する防御における、我々の敵意訓練アルゴリズムの有効性を実証する。 現在の防御方法と比較して,flickr-25k,nus-wide,ms-cocoでは,防御性能が18.61\%,12.35\%,11.56\%と有意に向上した。 コードはhttps://github.com/xunguangwang/cgatで入手できる。

Deep hashing has been extensively utilized in massive image retrieval because of its efficiency and effectiveness. However, deep hashing models are vulnerable to adversarial examples, making it essential to develop adversarial defense methods for image retrieval. Existing solutions achieved limited defense performance because of using weak adversarial samples for training and lacking discriminative optimization objectives to learn robust features. In this paper, we present a min-max based Center-guided Adversarial Training, namely CgAT, to improve the robustness of deep hashing networks through worst adversarial examples. Specifically, we first formulate the center code as a semantically-discriminative representative of the input image content, which preserves the semantic similarity with positive samples and dissimilarity with negative examples. We prove that a mathematical formula can calculate the center code immediately. After obtaining the center codes in each optimization iteration of the deep hashing network, they are adopted to guide the adversarial training process. On the one hand, CgAT generates the worst adversarial examples as augmented data by maximizing the Hamming distance between the hash codes of the adversarial examples and the center codes. On the other hand, CgAT learns to mitigate the effects of adversarial samples by minimizing the Hamming distance to the center codes. Extensive experiments on the benchmark datasets demonstrate the effectiveness of our adversarial training algorithm in defending against adversarial attacks for deep hashing-based retrieval. Compared with the current state-of-the-art defense method, we significantly improve the defense performance by an average of 18.61\%, 12.35\%, and 11.56\% on FLICKR-25K, NUS-WIDE, and MS-COCO, respectively. The code is available at https://github.com/xunguangwang/CgAT.
翻訳日:2023-03-29 03:32:01 公開日:2023-03-25
# 効率的なビデオ超解像のための構造空間学習

Structured Sparsity Learning for Efficient Video Super-Resolution ( http://arxiv.org/abs/2206.07687v3 )

ライセンス: Link先を確認
Bin Xia, Jingwen He, Yulun Zhang, Yitong Wang, Yapeng Tian, Wenming Yang, and Luc Van Gool(参考訳) ビデオ超解像度(VSR)モデルの高計算コストは、リソース制限されたデバイス(スマートフォンやドローンなど)への展開を妨げる。 既存のVSRモデルにはかなりの冗長なフィルタが含まれており、推論効率を低下させる。 これらの重要でないフィルタをpruneするために、vsrの特性に従って構造化スパルニティ学習(ssl)と呼ばれる構造的プルーニングスキームを開発した。 SSLでは,残差ブロック,リカレントネットワーク,アップサンプリングネットワークなど,VSRモデルのいくつかの重要なコンポーネントに対するプルーニングスキームを設計する。 具体的には,再帰ネットワークの残余ブロックに対する残余スパーシティ接続(rsc)スキームを開発し,刈取制限を緩和し,復元情報を保存する。 アップサンプリングネットワークでは,特徴チャネル空間変換の精度を保証するために,画素シャッフルプルーニング方式を設計する。 さらに、隠れ状態が繰り返しネットワークと共に伝播するにつれて、プルーニングエラーが増幅されることを観察する。 この問題を軽減するため、時間的微調整(TF)を設計する。 大規模な実験により、SSLは最近の手法を定量的かつ質的に大幅に上回っていることが示された。

The high computational costs of video super-resolution (VSR) models hinder their deployment on resource-limited devices, (e.g., smartphones and drones). Existing VSR models contain considerable redundant filters, which drag down the inference efficiency. To prune these unimportant filters, we develop a structured pruning scheme called Structured Sparsity Learning (SSL) according to the properties of VSR. In SSL, we design pruning schemes for several key components in VSR models, including residual blocks, recurrent networks, and upsampling networks. Specifically, we develop a Residual Sparsity Connection (RSC) scheme for residual blocks of recurrent networks to liberate pruning restrictions and preserve the restoration information. For upsampling networks, we design a pixel-shuffle pruning scheme to guarantee the accuracy of feature channel-space conversion. In addition, we observe that pruning error would be amplified as the hidden states propagate along with recurrent networks. To alleviate the issue, we design Temporal Finetuning (TF). Extensive experiments show that SSL can significantly outperform recent methods quantitatively and qualitatively.
翻訳日:2023-03-29 03:24:22 公開日:2023-03-25
# コンシスタントアタック: 身体視ナビゲーションにおける普遍的対人摂動

Consistent Attack: Universal Adversarial Perturbation on Embodied Vision Navigation ( http://arxiv.org/abs/2206.05751v4 )

ライセンス: Link先を確認
Chengyang Ying, You Qiaoben, Xinning Zhou, Hang Su, Wenbo Ding, Jianyong Ai(参考訳) 深層ニューラルネットワークと組み合わされた視覚ナビゲーションの具体化エージェントが注目を集めている。 しかし、ディープニューラルネットワークは悪意のある敵のノイズに弱いことが示されており、これは身体視覚ナビゲーションの破滅的な障害を引き起こす可能性がある。 様々な逆方向ノイズの中で、普遍的逆方向摂動(UAP)、すなわちエージェントの入力フレームに印加される一定の画像非依存の摂動は、攻撃中は計算効率が高く、応用実践的であるため、身体的視覚ナビゲーションにおいて重要な役割を果たす。 しかし、既存のUAP手法は、エンボディード・ビジョン・ナビゲーションのシステムの力学を無視し、準最適かもしれない。 uap をシーケンシャルな決定設定に拡張するために、普遍ノイズ$\delta$ の下で乱れた環境を$\delta$-disturbed markov 決定プロセス ($\delta$-mdp) として定式化する。 この定式化に基づいて、$\delta$-MDPの特性を分析し、乱れ分布と乱れQ関数を推定することにより、MDPのダイナミクスを考慮し、普遍的な雑音を計算する、Reward UAP と Trajectory UAP という2つの新しい Consistent Attack法を提案する。 さまざまな犠牲者モデルに対して、当社のConsistent Attackは、さまざまなデータセットと異なるシーンで、HabitatのPointGoalタスクのパフォーマンスが大幅に低下する可能性がある。 広汎な実験結果から,実世界への身体的視覚ナビゲーション手法の適用には重大なリスクが存在することが示唆された。

Embodied agents in vision navigation coupled with deep neural networks have attracted increasing attention. However, deep neural networks have been shown vulnerable to malicious adversarial noises, which may potentially cause catastrophic failures in Embodied Vision Navigation. Among different adversarial noises, universal adversarial perturbations (UAP), i.e., a constant image-agnostic perturbation applied on every input frame of the agent, play a critical role in Embodied Vision Navigation since they are computation-efficient and application-practical during the attack. However, existing UAP methods ignore the system dynamics of Embodied Vision Navigation and might be sub-optimal. In order to extend UAP to the sequential decision setting, we formulate the disturbed environment under the universal noise $\delta$, as a $\delta$-disturbed Markov Decision Process ($\delta$-MDP). Based on the formulation, we analyze the properties of $\delta$-MDP and propose two novel Consistent Attack methods, named Reward UAP and Trajectory UAP, for attacking Embodied agents, which consider the dynamic of the MDP and calculate universal noises by estimating the disturbed distribution and the disturbed Q function. For various victim models, our Consistent Attack can cause a significant drop in their performance in the PointGoal task in Habitat with different datasets and different scenes. Extensive experimental results indicate that there exist serious potential risks for applying Embodied Vision Navigation methods to the real world.
翻訳日:2023-03-29 03:23:33 公開日:2023-03-25
# 局所性から不規則性へ:大規模スカラー場理論における局所クエンチの導入

From locality to irregularity: Introducing local quenches in massive scalar field theory ( http://arxiv.org/abs/2205.12290v3 )

ライセンス: Link先を確認
Dmitry S. Ageev, Aleksandr I. Belokon, Vasilii V. Pushkarev(参考訳) 本稿では,非コンフォーマル場理論における演算子局所クエンチの研究を開始する。 任意の時空次元における大規模スカラー場理論における励起局所状態のダイナミクスを考察し、よく知られた2次元CFT結果を一般化する。 エネルギー密度, u(1) チャージ密度, および $\phi^2(x)$-condensate post-quench dynamics を導出し, 電界質量とクエンチ正規化パラメータの値に応じて, その進化の異なるレジームを同定する。 高次元自由質量スカラー理論における局所クエンチに対しては、利用可能なホログラフィック結果の構造を再現する。 また,シリンダー上の大規模スカラー場理論の局所クエンチについて検討し,それらが複雑な局所化/非局在化パターンを持つ可観測物の不安定でカオス的な進化を引き起こすことを示した。

In this paper, we initiate the study of operator local quenches in non-conformal field theories. We consider the dynamics of excited local states in massive scalar field theory in an arbitrary spacetime dimension and generalize the well-known two-dimensional CFT results. We derive the energy density, $U(1)$-charge density and $\phi^2(x)$-condensate post-quench dynamics, and identify different regimes of their evolution depending on the values of the field mass and the quench regularization parameter. For local quenches in higher-dimensional free massless scalar theories, we reproduce the structure of the available holographic results. We also investigate the local quenches in massive scalar field theory on a cylinder and show that they cause an erratic and chaotic-like evolution of observables with a complicated localization/delocalization pattern.
翻訳日:2023-03-29 03:21:43 公開日:2023-03-25
# 制約付きハミルトン系としての格子上の有限群ゲージ理論

Finite-group gauge theories on lattices as Hamiltonian systems with constraints ( http://arxiv.org/abs/2206.09775v6 )

ライセンス: Link先を確認
M. F. Araujo de Resende(参考訳) 本研究では、有限ゲージ群を用いて$n $-次元格子上で定義されるゲージ理論について、古典的(連続的な)ゲージ(場)理論と類似した制約を持つハミルトン系としてどのように解釈できるかを示すために、簡潔ながら洞察に富んだ概要を示す。 この解釈は、格子ゲージ理論の概念を論じ、導入する文献では一般的には研究されていないが、ある種の量子計算をサポートするためにハミルトニアン模型を探求する最近の研究がいくつかあるので、例えば、これらのモデルの1つのクラスであるキタエフ量子二重モデルについての簡単な幾何学的見解を示すために、この解釈を用いる。

In this work, we present a brief but insightful overview of the gauge theories, which are defined on $ n $-dimensional lattices by using finite gauge groups, in order to show how they can be interpreted as a Hamiltonian system with constraints, analogous to what happens with the classical (continuous) gauge (field) theories. As this interpretation is not usually explored in the literature that discusses/introduces the concept of lattice gauge theory, but some recent works have been exploring Hamiltonian models in order to support some kind of quantum computation, we use this interpretation to, for example, present a brief geometric view of one class of these models: the Kitaev Quantum Double Models.
翻訳日:2023-03-29 03:12:32 公開日:2023-03-25
# 投射d波超伝導状態:フェルミイオン投射エンタングル対状態の研究

Projected d-wave superconducting state: a fermionic projected entangled pair state study ( http://arxiv.org/abs/2208.04566v2 )

ライセンス: Link先を確認
Qi Yang, Xing-Yu Zhang, Hai-Jun Liao, Hong-Hao Tu, Lei Wang(参考訳) フェルミオン射影エンタングル対状態 (fpeps) 表現を用いて, 投影d波対状態の物理について検討した。 まず、ガウス fPEPS を用いた d-wave Bardeen-Cooper-Schrieffer 状態の近似を行う。 次に、得られた状態をfPEPSテンソルに変換し、局所テンソル要素を変更することによって二重占有を除去するGutzwillerプロジェクションを実装する。 投影されたd波対状態のテンソルネットワーク表現は、ガッツウィラー近似を用いることなく、熱力学的極限の物理量を評価することができる。 変分パラメータが非常に少ないにもかかわらず、物理的に動機付けられたテンソルネットワーク状態は、ドープされたt-Jモデルに対する競合エネルギーを示す。 このような構造は、変分テンソルネットワーク計算のための有用な初期状態とガイダンスを提供することを期待している。

We investigate the physics of projected d-wave pairing states using their fermionic projected entangled pair state (fPEPS) representation. First, we approximate a d-wave Bardeen-Cooper-Schrieffer state using the Gaussian fPEPS. Next, we translate the resulting state into fPEPS tensors and implement the Gutzwiller projection which removes double occupancy by modifying the local tensor elements. The tensor network representation of the projected d-wave pairing state allows us to evaluate physical quantities in the thermodynamic limit without employing the Gutzwiller approximation. Despite having very few variational parameters, such physically motivated tensor network states are shown to exhibit competitive energies for the doped t-J model. We expect that such construction offers useful initial states and guidance for variational tensor network calculations.
翻訳日:2023-03-29 03:04:38 公開日:2023-03-25
# 量子化階層vaesによる損失画像圧縮

Lossy Image Compression with Quantized Hierarchical VAEs ( http://arxiv.org/abs/2208.13056v2 )

ライセンス: Link先を確認
Zhihao Duan, Ming Lu, Zhan Ma, Fengqing Zhu(参考訳) 近年の研究では、変分オートエンコーダ(VAE)と速度歪み理論の強い関係が示されている。 そこで本研究では,画像圧縮の問題点について,生成モデルの観点から考察する。 もともとデータ(画像)の分散モデリング用に設計されたResNet VAEsから始まり、量子化を意識した後方および事前の変数モデルを再設計し、テスト時に容易に量子化およびエントロピー符号化を可能にする。 ニューラルネットワークアーキテクチャの改善とともに、従来の自然画像損失圧縮の手法に匹敵する、強力で効率的なモデルを提案する。 本モデルでは,画像を粗い方法で圧縮し,並列エンコーディングとデコードをサポートし,gpu上での実行を高速化する。 コードはhttps://github.com/duanzhiihao/lossy-vaeで入手できる。

Recent research has shown a strong theoretical connection between variational autoencoders (VAEs) and the rate-distortion theory. Motivated by this, we consider the problem of lossy image compression from the perspective of generative modeling. Starting with ResNet VAEs, which are originally designed for data (image) distribution modeling, we redesign their latent variable model using a quantization-aware posterior and prior, enabling easy quantization and entropy coding at test time. Along with improved neural network architecture, we present a powerful and efficient model that outperforms previous methods on natural image lossy compression. Our model compresses images in a coarse-to-fine fashion and supports parallel encoding and decoding, leading to fast execution on GPUs. Code is available at https://github.com/duanzhiihao/lossy-vae.
翻訳日:2023-03-29 02:56:02 公開日:2023-03-25
# 合成・実映像デノイジングにおける特徴アライメントの相互誘導のためのタスク指向フローの学習

Learning Task-Oriented Flows to Mutually Guide Feature Alignment in Synthesized and Real Video Denoising ( http://arxiv.org/abs/2208.11803v3 )

ライセンス: Link先を確認
Jiezhang Cao, Qin Wang, Jingyun Liang, Yulun Zhang, Kai Zhang, Radu Timofte, Luc Van Gool(参考訳) video denoisingは、ビデオからノイズを取り除いてクリーンなものを復元することを目的としている。 既存の研究によっては、近辺のフレームから追加の空間的時間的手がかりを利用することで、光学的流れがノイズ発生を助けることが示されている。 しかしながら、フロー推定自体もノイズに敏感であり、大きなノイズレベルでは使用できない。 そこで本研究では,様々なノイズレベルに対してより堅牢なマルチスケール光フロー誘導型ビデオデノナイズ手法を提案する。 本手法は主に,DFRモジュールとFMDPモジュールからなる。 市販のフローソリューションを直接使用する以前の作品とは異なり、dfrはまず堅牢な多スケール光フローを学習し、fmdpは低解像度から高精細なフロー情報を徐々に導入し改善することでフローガイダンスを利用する。 提案手法は, 実雑音劣化合成とともに, 合成ガウス音化と実映像音化の両方において最先端の性能を実現する。 コードは公開される予定だ。

Video denoising aims at removing noise from videos to recover clean ones. Some existing works show that optical flow can help the denoising by exploiting the additional spatial-temporal clues from nearby frames. However, the flow estimation itself is also sensitive to noise, and can be unusable under large noise levels. To this end, we propose a new multi-scale refined optical flow-guided video denoising method, which is more robust to different noise levels. Our method mainly consists of a denoising-oriented flow refinement (DFR) module and a flow-guided mutual denoising propagation (FMDP) module. Unlike previous works that directly use off-the-shelf flow solutions, DFR first learns robust multi-scale optical flows, and FMDP makes use of the flow guidance by progressively introducing and refining more flow information from low resolution to high resolution. Together with real noise degradation synthesis, the proposed multi-scale flow-guided denoising network achieves state-of-the-art performance on both synthetic Gaussian denoising and real video denoising. The codes will be made publicly available.
翻訳日:2023-03-29 02:55:47 公開日:2023-03-25
# アクティブ電力配電網における脆弱ノードの同定によるエネルギー回復型スマートマイクログリッド形成のためのデータ駆動アプローチ

Data-Driven Approach to form Energy Resilient Smart Microgrids with Identification of Vulnerable Nodes in Active Electrical Distribution Network ( http://arxiv.org/abs/2208.11682v2 )

ライセンス: Link先を確認
D Maneesh Reddy, Divyanshi Dwivedi, Pradeep Kumar Yemula, Mayukha Pal(参考訳) 気候へのコミットメントにより、世界中の多くの国がブラウンフィールドエネルギー生産を減らし、グリーンエネルギー資源を強く選択し始めた。 しかし, 配電系統における分散型エネルギー資源(der)の最適配分は, 最大利益を達成するための課題である。 これはシステムの複雑な振る舞いと、分散グリッドに悪影響を及ぼすderの不適切な統合によって起こる。 本研究では,アクティブな電気配信ネットワークにおいて,脆弱なノード識別を伴うDERを最適に割り当てる手法を提案する。 脆弱なノードでの障害や極端なイベントは、分散ネットワーク内の電力の流れを中断する。 また、これらの脆弱なノードの電力変動は他の連結ノードの動作に大きく影響する。 したがって、これらのノードはDERの最適配置に適している。 本稿では,IEEE-123バステストの標準供給装置にデータ駆動方式を提案する。 まず,分布系をグラフ理論とグラフニューラルネットワーク(gnn)アーキテクチャを用いて最適マイクログリッドに分割した。 さらに,Granger因果解析を用いて,パーティショニングされたマイクログリッド内の脆弱なノードを同定した。 脆弱なノード上のDERの配置により、ネットワークの信頼性とレジリエンスが向上した。 マイクログリッドネットワークのパーコレーションしきい値を計算することでレジリエンスの改善を検証する。 その結果,dersの最適配置により,システムの弾力性が20.45%向上した。

With the commitment to climate, globally many countries started reducing brownfield energy production and strongly opting towards green energy resources. However, the optimal allocation of distributed energy resources (DERs) in electrical distribution systems still pertains as a challenging issue to attain the maximum benefits. It happens due to the systems complex behaviour and inappropriate integration of DERs that adversely affects the distribution grid. In this work, we propose a methodology for the optimal allocation of DERs with vulnerable node identification in active electrical distribution networks. A failure or extreme event at the vulnerable node would interrupt the power flow in the distribution network. Also, the power variation in these vulnerable nodes would significantly affect the operation of other linked nodes. Thus, these nodes are found suitable for the optimal placement of DERs. We demonstrate the proposed data-driven approach on a standard IEEE-123 bus test feeder. Initially, we partitioned the distribution system into optimal microgrids using graph theory and graph neural network (GNN) architecture. Further, using Granger causality analysis, we identified vulnerable nodes in the partitioned microgrid; suitable for DERs integration. The placement of DERs on the vulnerable nodes enhanced network reliability and resilience. Improvement in resilience is validated by computing the percolation threshold for the microgrid networks. The results show a 20.45% improvement in the resilience of the system due to the optimal allocation of DERs.
翻訳日:2023-03-29 02:55:27 公開日:2023-03-25
# k$-body相互作用を持つ埋め込みガウスユニタリアンサンブルにおける2点相関関数の2変量モーメント

Bivariate moments of the two-point correlation function for embedded Gaussian unitary ensemble with $k$-body interactions ( http://arxiv.org/abs/2208.11312v2 )

ライセンス: Link先を確認
V.K.B. Kota(参考訳) k$-body相互作用を持つ組込みランダム行列アンサンブルは、多くの量子系に適するよう十分に確立されている。 これらのアンサンブルに対して、2点相関関数はまだ導出されていないが、これらのアンサンブルは50年前に導入された。 ランダム行列アンサンブルの固有値における2点相関関数は、2つの固有値における固有値の密度の積のアンサンブル平均である。 数分散やDyson-Mehta $\Delta_3$ statisticといった変動測度は、2点関数とアンサンブルにおけるレベル運動のばらつきによって定義される。 近年、k$-ボディー相互作用を持つ組込みアンサンブルでは、一点関数(固有値の平均密度)はいわゆる$q$正規分布に従うことが認識されている。 これにより、固有値密度は、$q$-正規形式から始まり、関連する$q$-ヘルマイト多項式$he_\zeta(x|q)$を用いて拡張できる。 拡張係数 $s_\zeta$ と $\zeta \ge 1$ の共分散$\overline{s_\zeta s_{\zeta^\prime}}$(アンサンブル平均を表すオーバーライン)は、2点関数の2変数モーメント $\sigma_{pq}$ の線形結合であるので、2点関数を決定する。 これら全てを説明するのに加えて、この論文で導出された式は、2点相関関数の2点相関関数の2変量モーメント$\Sigma_{PQ}$と$P+Q \le 8$の式であり、$k$ボディ相互作用を持つ埋め込みガウスユニタリアンアンサンブルは$N$単一粒子状態における$m$フェルミオンを持つシステムに適している。 公式を得るために使われるのは、$SU(N)$ Wigner-Racah環である。 有限の$N$補正を持つこれらの公式は、漸近極限における共変式$\overline{S_\zeta S_{\zeta^\prime}}$を導出するために用いられる。

Embedded random matrix ensembles with $k$-body interactions are well established to be appropriate for many quantum systems. For these ensemble the two point correlation function is not yet derived though these ensembles are introduced 50 years back. Two-point correlation function in eigenvalues of a random matrix ensemble is the ensemble average of the product of the density of eigenvalues at two eigenvalues say $E$ and $E^\prime$. Fluctuation measures such as the number variance and Dyson-Mehta $\Delta_3$ statistic are defined by the two-point function and so also the variance of the level motion in the ensemble. Recently, it is recognized that for the embedded ensembles with $k$-body interactions the one-point function (ensemble averaged density of eigenvalues) follows the so called $q$-normal distribution. With this, the eigenvalue density can be expanded by starting with the $q$-normal form and using the associated $q$-Hermite polynomials $He_\zeta(x|q)$. Covariances $\overline{S_\zeta S_{\zeta^\prime}}$ (overline representing ensemble average) of the expansion coefficients $S_\zeta$ with $\zeta \ge 1$ here determine the two-point function as they are a linear combination of the bivariate moments $\Sigma_{PQ}$ of the two-point function. Besides describing all these, in this paper derived are formulas for the bivariate moments $\Sigma_{PQ}$ with $P+Q \le 8$, of the two-point correlation function, for the embedded Gaussian unitary ensembles with $k$-body interactions [EGUE($k$)] as appropriate for systems with $m$ fermions in $N$ single particle states. Used for obtaining the formulas is the $SU(N)$ Wigner-Racah algebra. These formulas with finite $N$ corrections are used to derive formulas for the covariances $\overline{S_\zeta S_{\zeta^\prime}}$ in the asymptotic limit.
翻訳日:2023-03-29 02:55:09 公開日:2023-03-25
# プリスタンケージ化合物FeGa$_3$における抗サイト障害の役割に関する研究

Investigation of role of antisite disorder in the pristine cage compound FeGa$_3$ ( http://arxiv.org/abs/2208.09064v2 )

ライセンス: Link先を確認
C. Kaufmann Ribeiro, L. Mello, V. Martelli, D. Cornejo, M. B. Silva Neto, E. Fogh, H. M. R{\o}nnow and J. Larrea Jim\'enez(参考訳) 強相関狭ギャップ半導体候補FeGa$_3$における制御障害の役割について検討した。 多結晶試料をアーク溶融炉と連続焼鈍プロセスを組み合わせて合成した。 プリスチン化合物からのFeおよびGaの占有数の変化をX線分析により定量した。 さらに、電気輸送および磁化測定により、FeおよびGaサイト障害の階層構造が、常磁性半導体から磁性金属へのFeGa$_3$の基底状態を調整することが明らかとなった。 これらの結果はアンダーソン金属-絶縁体転移とスピン揺らぎの枠組みの中で議論されている。

The role of controlled disorder in the strong correlated narrow gap semiconductor candidate FeGa$_3$ has been investigated. Polycrystalline samples were synthesized by the combination of arc-melting furnace and successive annealing processes. Deviations of the occupation number of Fe and Ga sites from those expected in the pristine compound were quantified with X-ray analysis. Besides that, electrical transport and magnetization measurements reveal that hierarchy in Fe and Ga site disorder tunes the ground state of FeGa$_3$ from paramagnetic semiconducting to a magnetic metal. These findings are discussed within the framework of Anderson metal-insulator transitions and spin fluctuations.
翻訳日:2023-03-29 02:53:48 公開日:2023-03-25
# 時間依存複素リッカティ方程式の量子解

Quantum-based solution of time-dependent complex Riccati equations ( http://arxiv.org/abs/2209.03504v3 )

ライセンス: Link先を確認
D. Mart\'inez-Tibaduiza, C. Gonz\'alez-Arciniegas, C. Farina, A. Cavalcanti-Duriez and A. Z. Khoury(参考訳) Wei-Norman 理論を用いて、時間依存型複素リカティ方程式 (TDCRE) を、時間依存型 (TD) ハミルトニアンによって記述される量子系の時間発展作用素 (TEO) の解として、$\mathfrak{su}(1,1)$, $\mathfrak{su}(2)$, $\mathfrak{so}(2,1)$ Lie 代数の生成子の線型結合である。 これらの量子系の時間発展のために最近開発された解を用いて、TDCREを数値的な実装に最適な一般化連続分数として再帰的に解き、分解された表現におけるTEOのユニタリティに必要な十分な条件を確立する。 量子系の継承対称性はTDCREの簡単な検査によって認識でき、リー代数 $\mathfrak{su}(2)$ の一般 TD 系に対応するブロッホ・リカティ方程式(英語版)(Bloch-Riccati equation)に示すように、有効量子ハミルトニアンをそれと関連付けることができる。 応用として、かつ整合性試験として、複素双曲型セカントパルス発生スピンインバージョンによって駆動されるラビ周波数を考慮したブロッホ・リカティ方程式の解析結果と比較し、良好な一致を示した。

Using the Wei-Norman theory we obtain a time-dependent complex Riccati equation (TDCRE) as the solution of the time evolution operator (TEO) of quantum systems described by time-dependent (TD) Hamiltonians that are linear combinations of the generators of the $\mathfrak{su}(1,1)$, $\mathfrak{su}(2)$ and $\mathfrak{so}(2,1)$ Lie algebras. Using a recently developed solution for the time evolution of these quantum systems we solve the TDCRE recursively as generalized continued fractions, which are optimal for numerical implementations, and establish the necessary and sufficient conditions for the unitarity of the TEO in the factorized representation. The inherited symmetries of quantum systems can be recognized by a simple inspection of the TDCRE, allowing effective quantum Hamiltonians to be associated with it, as we show for the Bloch-Riccati equation whose Hamiltonian corresponds to that of a generic TD system of the Lie algebra $\mathfrak{su}(2)$. As an application, but also as a consistency test, we compare our solution with the analytic one for the Bloch-Riccati equation considering the Rabi frequency driven by a complex hyperbolic secant pulse generating spin inversion, showing an excellent agreement.
翻訳日:2023-03-29 02:46:39 公開日:2023-03-25
# 図形上の人物図からのインプシット3次元表現の推測

Inferring Implicit 3D Representations from Human Figures on Pictorial Maps ( http://arxiv.org/abs/2209.02385v2 )

ライセンス: Link先を確認
Raimund Schn\"urer, A. Cengiz \"Oztireli, Magnus Heitzler, Ren\'e Sieber, Lorenz Hurni(参考訳) 本研究では,画像地図上で最も頻繁に現れる人物である人物を3次元化するための自動ワークフローを提案する。 我々のワークフローは、写真から実際の人間の1次元再構築のためのトレーニングデータとニューラルネットワークに基づいている。 まず,完全連結層からなるネットワークに2次元ポーズ点の深さ座標を推定させる。 得られた3Dポーズポイントは、本体部の2Dマスクと共に深暗面ネットワークに入力され、3D符号距離場(SDF)を推定する。 すべての身体部位を組み立てることで、全体像の2次元深度画像と身体部分マスクを導出し、それを完全な畳み込みネットワークに入力して紫外線画像を予測する。 これらの紫外線画像と所定の視点のテクスチャを生成ネットワークに挿入し、他のビューのテクスチャをインペイントする。 テクスチャは漫画化ネットワークによって強化され、顔の詳細はオートエンコーダによって合成される。 そして、生成されたテクスチャを、レイマーチ装置内の推定体部に割り当てる。 我々は、複数のネットワーク構成を検証した後、12人の人物でワークフローをテストする。 特にsilhouetteベースの3dリカバリと暗黙のsdfsのリアルタイムレンダリングの課題を考慮すると、生成された3dモデルは一般的に有望である。 また、体部間の隙間を小さくし、テクスチャに絵の細部を加えるため、さらなる改善が必要となる。 全体として、構築された図形はデジタル3Dマップのアニメーションやストーリーテリングに使用することができる。

In this work, we present an automated workflow to bring human figures, one of the most frequently appearing entities on pictorial maps, to the third dimension. Our workflow is based on training data and neural networks for single-view 3D reconstruction of real humans from photos. We first let a network consisting of fully connected layers estimate the depth coordinate of 2D pose points. The gained 3D pose points are inputted together with 2D masks of body parts into a deep implicit surface network to infer 3D signed distance fields (SDFs). By assembling all body parts, we derive 2D depth images and body part masks of the whole figure for different views, which are fed into a fully convolutional network to predict UV images. These UV images and the texture for the given perspective are inserted into a generative network to inpaint the textures for the other views. The textures are enhanced by a cartoonization network and facial details are resynthesized by an autoencoder. Finally, the generated textures are assigned to the inferred body parts in a ray marcher. We test our workflow with 12 pictorial human figures after having validated several network configurations. The created 3D models look generally promising, especially when considering the challenges of silhouette-based 3D recovery and real-time rendering of the implicit SDFs. Further improvement is needed to reduce gaps between the body parts and to add pictorial details to the textures. Overall, the constructed figures may be used for animation and storytelling in digital 3D maps.
翻訳日:2023-03-29 02:45:33 公開日:2023-03-25
# schr\"odinger方程式による共量子力学を用いた frisch と segr\``e による多段stern$\unicode{x2013}$gerlach 実験の数値モデリング

Numerical modeling of the multi-stage Stern$\unicode{x2013}$Gerlach experiment by Frisch and Segr\`e using co-quantum dynamics via the Schr\"odinger equation ( http://arxiv.org/abs/2208.14588v2 )

ライセンス: Link先を確認
Zhe He, Kelvin Titimbo, David C. Garrett, S. Suleyman Kahraman, and Lihong V. Wang(参考訳) 我々は、R. Frisch と E. Segr\`e が行ったマルチステージ Stern$\unicode{x2013}$Gerlach (SG) 実験でスピンフリップを数値的にモデル化するために、共量子力学 (CQD) と呼ばれる理論を用いる。 この実験は、2つのstern$\unicode{x2013}$gerlach装置からなり、スピンフリップの分数を変化させる内回転室によって分離される。 今日まで、量子力学的処理はフリッシュ$\unicode{x2013}$Segr\`e実験を不適切に予測する。 ここでは、CQDによる電子-核相互作用を説明し、関連するシュリンガー方程式を解く。 我々のシミュレーション結果は、Frisch$\unicode{x2013}$Segr\`eの実験観測と一致し、電子スピンの進化と崩壊のポテンシャルモデルとしてCQDを支持する。

We use a theory termed co-quantum dynamics (CQD) to numerically model spin flip in the multi-stage Stern$\unicode{x2013}$Gerlach (SG) experiment conducted by R. Frisch and E. Segr\`e. This experiment consists of two Stern$\unicode{x2013}$Gerlach apparatuses separated by an inner rotation chamber that varies the fraction of spin flip. To this day, quantum mechanical treatments inadequately predict the Frisch$\unicode{x2013}$Segr\`e experiment. Here, we account for electron-nuclear interactions according to CQD and solve the associated Schr\"odinger equation. Our simulation outcome agrees with the Frisch$\unicode{x2013}$Segr\`e experimental observation and supports CQD as a potential model for electron spin evolution and collapse.
翻訳日:2023-03-29 02:44:23 公開日:2023-03-25
# すべて価値ある単語:拡散モデルのためのViTバックボーン

All are Worth Words: A ViT Backbone for Diffusion Models ( http://arxiv.org/abs/2209.12152v4 )

ライセンス: Link先を確認
Fan Bao, Shen Nie, Kaiwen Xue, Yue Cao, Chongxuan Li, Hang Su, Jun Zhu(参考訳) 視覚変換器(ViT)は様々な視覚タスクにおいて有望であるが、畳み込みニューラルネットワーク(CNN)に基づくU-Netは拡散モデルにおいて支配的である。 拡散モデルを用いた画像生成のための単純で汎用的なViTアーキテクチャ(U-ViT)を設計する。 U-ViTは、時間、条件、ノイズの多い画像パッチを含む全ての入力をトークンとして扱い、浅い層と深い層の間の長いスキップ接続を利用する。 非条件およびクラス条件の画像生成におけるU-ViTの評価と,CNNベースのU-Netと比較した場合のテキスト・画像生成タスクについて検討した。 特に、U-ViTを用いた潜伏拡散モデルは、画像Net 256x256のクラス条件画像生成で2.29点、MS-COCOのテキスト画像生成で5.48点という記録破りのFIDスコアを達成している。 その結果,拡散に基づく画像モデリングでは長いスキップ接続が不可欠であるが,cnnベースのu-netではダウンサンプリングやアップサンプリング演算子が必ずしも必要ではないことが示唆された。 U-ViTは、拡散モデルにおけるバックボーンの今後の研究への洞察を与え、大規模なクロスモダリティデータセットにおける生成的モデリングに役立てることができると信じている。

Vision transformers (ViT) have shown promise in various vision tasks while the U-Net based on a convolutional neural network (CNN) remains dominant in diffusion models. We design a simple and general ViT-based architecture (named U-ViT) for image generation with diffusion models. U-ViT is characterized by treating all inputs including the time, condition and noisy image patches as tokens and employing long skip connections between shallow and deep layers. We evaluate U-ViT in unconditional and class-conditional image generation, as well as text-to-image generation tasks, where U-ViT is comparable if not superior to a CNN-based U-Net of a similar size. In particular, latent diffusion models with U-ViT achieve record-breaking FID scores of 2.29 in class-conditional image generation on ImageNet 256x256, and 5.48 in text-to-image generation on MS-COCO, among methods without accessing large external datasets during the training of generative models. Our results suggest that, for diffusion-based image modeling, the long skip connection is crucial while the down-sampling and up-sampling operators in CNN-based U-Net are not always necessary. We believe that U-ViT can provide insights for future research on backbones in diffusion models and benefit generative modeling on large scale cross-modality datasets.
翻訳日:2023-03-29 02:38:38 公開日:2023-03-25
# 拡張ディッケ模型における「バウンド光度」状態

"Bound luminosity" state in the extended Dicke model ( http://arxiv.org/abs/2209.11273v4 )

ライセンス: Link先を確認
Seidov S. S. and Mukhin S. I(参考訳) 拡張ディックモデルは、単一モード電磁共振器と相互作用する2レベル系のアンサンブルとの相互作用を記述する。 本論文では,拡張ディックモデルの運動の準古典方程式を求める。 特定の初期条件とパラメータの範囲について、運動方程式はジャコビ楕円関数を通じて解析的に解くことができる。 この解は「有界光度」状態であり、以前は通常のディックモデルのために著者によって記述され、拡張ディックモデルの場合、現在では一般化されている。 この状態では、電磁場の周期的なビートは、2レベル系のアンサンブルで満たされたマイクロ波空洞で発生し、その期間の初めには、そのエネルギーを空洞内の電磁場に蓄え、その後、2レベル系のアンサンブルによって吸収され、その後、その期間の終わりに空洞に放出される。 また, 半古典モデルのカオス特性を数値的に検討した。

The extended Dicke model describes interaction of the single--mode electromagnetic resonator with an ensemble of interacting two--level systems. In this paper we obtain quasiclassical equations of motion of the extended Dicke model. For certain initial conditions and range of parameters the equations of motion can be solved analytically via Jacobi elliptic functions. The solution is a "bound luminosity" state, which was described by the authors previously for ordinary Dicke model and now is generalized for the case of the extended Dicke model. In this state the periodic beatings of the electromagnetic field occur in the microwave cavity filled with the ensemble of two--level systems. At the beginning of the time period the energy is stored in the electromagnetic field in the cavity, then it is absorbed by the ensemble of two--level systems, being afterwards released back to the cavity in the end of the period. Also the chaotic properties of the semiclassical model are investigated numerically.
翻訳日:2023-03-29 02:38:11 公開日:2023-03-25
# MaPLe: マルチモーダル・プロンプト学習

MaPLe: Multi-modal Prompt Learning ( http://arxiv.org/abs/2210.03117v2 )

ライセンス: Link先を確認
Muhammad Uzair Khattak, Hanoona Rasheed, Muhammad Maaz, Salman Khan, Fahad Shahbaz Khan(参考訳) CLIPのような事前学習された視覚言語(V-L)モデルは、下流タスクに優れた一般化能力を示している。 しかし、それらは入力テキストのプロンプトの選択に敏感であり、うまく機能するにはプロンプトテンプレートを慎重に選択する必要がある。 自然言語処理(NLP)の文献に触発された最近のCLIP適応アプローチは、下流タスクのための微調整CLIPへのテキスト入力として、プロンプトを学ぶ。 ここでは,CLIPの単一ブランチ(言語や視覚)で表現を適応させるプロンプトが,下流タスク上で両方の表現空間を動的に調整できないため,準最適である点に留意する。 本研究では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。 我々の設計は、視覚言語プロンプト間の強い結合を促進し、相互の相乗効果と独立なユニモーダル解の学習を阻害する。 さらに、異なる初期段階の異なるプロンプトを学習し、段階的特徴関係を段階的にモデル化し、リッチな文脈学習を可能にする。 本稿では,新しいクラス,新しいターゲットデータセット,目に見えないドメインシフトの3つのタスクに対するアプローチの有効性を評価する。 state-of-the-artメソッドと比べ、mapleは優れたパフォーマンスを示し、11種類の画像認識データセットの平均で、新規クラスでは3.45%、総合調和平均では2.72%という絶対的なゲインを達成している。 私たちのコードと事前トレーニングされたモデルは、https://github.com/muzairkhattak/multimodal-prompt-learningで利用可能です。

Pre-trained vision-language (V-L) models such as CLIP have shown excellent generalization ability to downstream tasks. However, they are sensitive to the choice of input text prompts and require careful selection of prompt templates to perform well. Inspired by the Natural Language Processing (NLP) literature, recent CLIP adaptation approaches learn prompts as the textual inputs to fine-tune CLIP for downstream tasks. We note that using prompting to adapt representations in a single branch of CLIP (language or vision) is sub-optimal since it does not allow the flexibility to dynamically adjust both representation spaces on a downstream task. In this work, we propose Multi-modal Prompt Learning (MaPLe) for both vision and language branches to improve alignment between the vision and language representations. Our design promotes strong coupling between the vision-language prompts to ensure mutual synergy and discourages learning independent uni-modal solutions. Further, we learn separate prompts across different early stages to progressively model the stage-wise feature relationships to allow rich context learning. We evaluate the effectiveness of our approach on three representative tasks of generalization to novel classes, new target datasets and unseen domain shifts. Compared with the state-of-the-art method Co-CoOp, MaPLe exhibits favorable performance and achieves an absolute gain of 3.45% on novel classes and 2.72% on overall harmonic-mean, averaged over 11 diverse image recognition datasets. Our code and pre-trained models are available at https://github.com/muzairkhattak/multimodal-prompt-learning.
翻訳日:2023-03-29 02:27:56 公開日:2023-03-25
# Bias Mimicking: Bias緩和のための簡単なサンプリングアプローチ

Bias Mimicking: A Simple Sampling Approach for Bias Mitigation ( http://arxiv.org/abs/2209.15605v7 )

ライセンス: Link先を確認
Maan Qraitem, Kate Saenko, Bryan A. Plummer(参考訳) 以前の研究では、視覚認識データセットがクラスラベルの$y$(\egプログラマ)内でバイアスグループを過小表現していることが示されている。 このデータセットバイアスは、クラスラベルと年齢、性別、人種などのバイアスグループの間の急激な相関を学習するモデルにつながる可能性がある。 この問題に対処する最も最近の手法は、アーキテクチャの変更や、よりハイパーパラメータチューニングを必要とする追加の損失関数を必要とする。 あるいは、クラスのアンバランスな文献(\eg Undersampling, Upweighting)からのデータサンプリングベースラインも、単一のコード行で実装され、ハイパーパラメータを持たないことが多いため、より安価で効率的なソリューションを提供する。 しかし、これらの手法には重大な欠点がある。 例えば、アンダーサンプリングはエポック毎の入力分布の重要な部分を落とし、オーバーサンプリングはサンプルを繰り返す。 これらの欠点に対処するため,新しいクラス条件サンプリング手法であるバイアスミミキングを導入する。 この方法は、クラス $c$ のバイアス分布である \ie $p_d(b|y=c)$ が $c^{\prime}\neq c$ ごとに模倣された場合、$y$ と $b$ は統計的に独立である。 この概念を用いて、bmは、新しいトレーニング手順を通じて、サンプルを繰り返すことなく、モデルがエポック当たりの分布全体に露出することを保証する。 その結果、Bias Mimickingは4つのベンチマークに対して3倍の精度でサンプリング方法の表現不足のグループの精度を向上し、非サンプリング手法よりもパフォーマンスを維持、時には改善する。 コード: \url{https://github.com/mqraitem/Bias-Mimicking}

Prior work has shown that Visual Recognition datasets frequently underrepresent bias groups $B$ (\eg Female) within class labels $Y$ (\eg Programmers). This dataset bias can lead to models that learn spurious correlations between class labels and bias groups such as age, gender, or race. Most recent methods that address this problem require significant architectural changes or additional loss functions requiring more hyper-parameter tuning. Alternatively, data sampling baselines from the class imbalance literature (\eg Undersampling, Upweighting), which can often be implemented in a single line of code and often have no hyperparameters, offer a cheaper and more efficient solution. However, these methods suffer from significant shortcomings. For example, Undersampling drops a significant part of the input distribution per epoch while Oversampling repeats samples, causing overfitting. To address these shortcomings, we introduce a new class-conditioned sampling method: Bias Mimicking. The method is based on the observation that if a class $c$ bias distribution, \ie $P_D(B|Y=c)$ is mimicked across every $c^{\prime}\neq c$, then $Y$ and $B$ are statistically independent. Using this notion, BM, through a novel training procedure, ensures that the model is exposed to the entire distribution per epoch without repeating samples. Consequently, Bias Mimicking improves underrepresented groups' accuracy of sampling methods by 3\% over four benchmarks while maintaining and sometimes improving performance over nonsampling methods. Code: \url{https://github.com/mqraitem/Bias-Mimicking}
翻訳日:2023-03-29 02:26:17 公開日:2023-03-25
# 機械学習と不変理論

Machine learning and invariant theory ( http://arxiv.org/abs/2209.14991v3 )

ライセンス: Link先を確認
Ben Blum-Smith and Soledad Villar(参考訳) 等変機械学習は、物理法則からの制約に触発され、ある群作用に関して全ての関数が等変である仮説クラスに学習を制限する。 既約表現や不変理論は、典型的にはそのような函数の空間をパラメータ化するために用いられる。 本稿では、このトピックを紹介し、機械学習アプリケーションで使われている同変関数を明示的にパラメータ化する方法について説明する。 特に、より大きい空間上の不変多項式の特徴づけが与えられたとき、群$G$の作用の下で同変である線型空間の間のすべての多項式写像を表現するために、マルグランジュの帰属する一般手順を説明できる。 この方法はまた、$G$ がコンパクトリー群である場合の滑らかな同変写像をパラメトリゼーションする。

Inspired by constraints from physical law, equivariant machine learning restricts the learning to a hypothesis class where all the functions are equivariant with respect to some group action. Irreducible representations or invariant theory are typically used to parameterize the space of such functions. In this article, we introduce the topic and explain a couple of methods to explicitly parameterize equivariant functions that are being used in machine learning applications. In particular, we explicate a general procedure, attributed to Malgrange, to express all polynomial maps between linear spaces that are equivariant under the action of a group $G$, given a characterization of the invariant polynomials on a bigger space. The method also parametrizes smooth equivariant maps in the case that $G$ is a compact Lie group.
翻訳日:2023-03-29 02:25:49 公開日:2023-03-25
# ProposerとRegressorによるエンドツーエンドエンティティ検出

End-to-End Entity Detection with Proposer and Regressor ( http://arxiv.org/abs/2210.10260v3 )

ライセンス: Link先を確認
Xueru Wen, Changjiang Zhou, Haotian Tang, Luguang Liang, Yu Jiang, Hong Qi(参考訳) 名前付きエンティティ認識は、自然言語処理における伝統的なタスクである。 特にネストされたエンティティ認識は、ネストシナリオが広く存在することに広く注目されている。 最新の研究は、オブジェクト検出における集合予測の確立したパラダイムを、エンティティのネストに対処するために移行した。 しかし、コンテキスト内のリッチなセマンティック情報に適応できないクエリベクトルを手動で作成することで、これらのアプローチは制限される。 本稿では,提案手法と回帰器を用いたエンドツーエンドのエンティティ検出手法を提案する。 まず,特徴ピラミッドネットワークを用いて高品質なエンティティの提案を行う。 そして、回帰器は最終予測を生成するための提案を洗練する。 このモデルはエンコーダのみのアーキテクチャを採用し、クエリセマンティクスの豊かさ、エンティティローカライゼーションの高精度化、モデルトレーニングの容易性といった利点を享受する。 さらに,新たな空間変調注意と漸進的洗練を導入し,さらなる改善を図る。 広汎な実験により、我々のモデルは平らでネストしたNERで高度な性能を達成し、GENIAデータセットでは80.74、WeiboNERデータセットでは72.38という新しい最先端のF1スコアを達成した。

Named entity recognition is a traditional task in natural language processing. In particular, nested entity recognition receives extensive attention for the widespread existence of the nesting scenario. The latest research migrates the well-established paradigm of set prediction in object detection to cope with entity nesting. However, the manual creation of query vectors, which fail to adapt to the rich semantic information in the context, limits these approaches. An end-to-end entity detection approach with proposer and regressor is presented in this paper to tackle the issues. First, the proposer utilizes the feature pyramid network to generate high-quality entity proposals. Then, the regressor refines the proposals for generating the final prediction. The model adopts encoder-only architecture and thus obtains the advantages of the richness of query semantics, high precision of entity localization, and easiness of model training. Moreover, we introduce the novel spatially modulated attention and progressive refinement for further improvement. Extensive experiments demonstrate that our model achieves advanced performance in flat and nested NER, achieving a new state-of-the-art F1 score of 80.74 on the GENIA dataset and 72.38 on the WeiboNER dataset.
翻訳日:2023-03-29 02:19:11 公開日:2023-03-25
# TFAD:時間周波数解析を用いた分解時系列異常検出アーキテクチャ

TFAD: A Decomposition Time Series Anomaly Detection Architecture with Time-Frequency Analysis ( http://arxiv.org/abs/2210.09693v2 )

ライセンス: Link先を確認
Chaoli Zhang and Tian Zhou and Qingsong Wen and Liang Sun(参考訳) 時系列異常検出は、複雑な時間的依存と限られたラベルデータのために難しい問題である。 従来のモデルとディープモデルの両方を含むいくつかのアルゴリズムが提案されているが、そのほとんどは時間領域モデリングに重点を置いており、時系列データの周波数領域の情報を十分に活用していない。 本稿では,時間領域と周波数領域の両方を性能改善のために活用するために,時系列解析に基づく時系列異常検出モデル(tfad)を提案する。 さらに,設計した時間周波数アーキテクチャに時系列分解とデータ拡張機構を組み込むことにより,性能と解釈能力のさらなる向上を図る。 広範に使用されているベンチマークデータセットの実証研究により,一変量および多変量時系列異常検出タスクにおける最先端性能が得られた。 コードはhttps://github.com/DAMO-DI-ML/CIKM22-TFADで提供されている。

Time series anomaly detection is a challenging problem due to the complex temporal dependencies and the limited label data. Although some algorithms including both traditional and deep models have been proposed, most of them mainly focus on time-domain modeling, and do not fully utilize the information in the frequency domain of the time series data. In this paper, we propose a Time-Frequency analysis based time series Anomaly Detection model, or TFAD for short, to exploit both time and frequency domains for performance improvement. Besides, we incorporate time series decomposition and data augmentation mechanisms in the designed time-frequency architecture to further boost the abilities of performance and interpretability. Empirical studies on widely used benchmark datasets show that our approach obtains state-of-the-art performance in univariate and multivariate time series anomaly detection tasks. Code is provided at https://github.com/DAMO-DI-ML/CIKM22-TFAD.
翻訳日:2023-03-29 02:18:51 公開日:2023-03-25
# 分布ロバストなマルチクラス分類と深部画像分類への応用

Distributionally Robust Multiclass Classification and Applications in Deep Image Classifiers ( http://arxiv.org/abs/2210.08198v2 )

ライセンス: Link先を確認
Ruidi Chen, Boran Hao, Ioannis Ch. Paschalidis(参考訳) 分散ロバスト最適化 (DRO) によるマルチクラスロジスティック回帰 (MLR) の定式化を行い, 異常値によるデータの汚染を許容する。 DROフレームワークは、ワッサーシュタイン計量の意味でのトレーニングセットの経験的分布に近い分布の球として定義される確率的曖昧性集合を使用する。 我々は DRO の定式化を、正則化が係数行列のノルムである正規化学習問題に緩和する。 予測誤差の制御における正則化器の役割についての洞察を提供するとともに,本モデルに対する解の正当性を保証する。 提案手法は,ランダムおよび敵対的攻撃に頑健なdeep vision transformer (vit)ベースの画像分類器のレンダリングに応用する。 具体的には、MNISTとCIFAR-10データセットを用いて、新しいランダムトレーニング手法を採用することにより、試験誤差率を83.5%、損失を91.3%削減することを示した。

We develop a Distributionally Robust Optimization (DRO) formulation for Multiclass Logistic Regression (MLR), which could tolerate data contaminated by outliers. The DRO framework uses a probabilistic ambiguity set defined as a ball of distributions that are close to the empirical distribution of the training set in the sense of the Wasserstein metric. We relax the DRO formulation into a regularized learning problem whose regularizer is a norm of the coefficient matrix. We establish out-of-sample performance guarantees for the solutions to our model, offering insights on the role of the regularizer in controlling the prediction error. We apply the proposed method in rendering deep Vision Transformer (ViT)-based image classifiers robust to random and adversarial attacks. Specifically, using the MNIST and CIFAR-10 datasets, we demonstrate reductions in test error rate by up to 83.5% and loss by up to 91.3% compared with baseline methods, by adopting a novel random training method.
翻訳日:2023-03-29 02:18:00 公開日:2023-03-25
# シンボリック回帰法による原子間ポテンシャルモデルの汎化可能性

Generalizability of Functional Forms for Interatomic Potential Models Discovered by Symbolic Regression ( http://arxiv.org/abs/2210.15124v2 )

ライセンス: Link先を確認
Alberto Hernandez, Tim Mueller(参考訳) 近年、原子間ポテンシャルモデルを開発するために機械学習アルゴリズムの利用が大きな進歩を遂げている。 機械学習ポテンシャルモデルは一般に密度汎関数理論よりも桁違いに速いが、埋め込み原子法のような物理学由来のモデルよりも桁違いに遅い。 これまでの研究では、シンボリック回帰を用いて、埋め込み原子法に類似した新しい機能形式を持つ銅の高速で正確で転送可能な原子間ポテンシャルモデルを開発した。 これらの形態が銅にどう影響するかを明らかにするため, これらのモデルが他の面中心立方体遷移金属に一般化可能であるか検討し, 様々な材料特性のサンプル外性能を解析した。 これらの形状は銅と化学的に類似した元素に特によく作用することがわかった。 類似した複雑さを持つ最適化されたサットン・シェンモデルと比較すると、シンボリック回帰を用いて発見された関数形式は、類似した性能を持つ金を除く全ての要素でより良く機能する。 それらは、訓練された性質上の適度に複雑な埋め込み原子形式と類似し、他の性質について平均的により正確である。 一般化された精度の向上は、記号回帰を用いて発見されたモデルの相対的単純さに起因している。 遺伝的プログラミングモデルは、様々な特性予測において、50%の確率で他のモデルよりも優れており、モデルの複雑さの約1/10である。 これらの結果が新たなポテンシャルの発達へのシンボル回帰の広範な応用にもたらす影響を論じ、ある要素で発見されたモデルを用いて異なる要素の新しい探索を行う方法について述べる。

In recent years there has been great progress in the use of machine learning algorithms to develop interatomic potential models. Machine-learned potential models are typically orders of magnitude faster than density functional theory but also orders of magnitude slower than physics-derived models such as the embedded atom method. In our previous work, we used symbolic regression to develop fast, accurate and transferrable interatomic potential models for copper with novel functional forms that resemble those of the embedded atom method. To determine the extent to which the success of these forms was specific to copper, here we explore the generalizability of these models to other face-centered cubic transition metals and analyze their out-of-sample performance on several material properties. We found that these forms work particularly well on elements that are chemically similar to copper. When compared to optimized Sutton-Chen models, which have similar complexity, the functional forms discovered using symbolic regression perform better across all elements considered except gold where they have a similar performance. They perform similarly to a moderately more complex embedded atom form on properties on which they were trained, and they are more accurate on average on other properties. We attribute this improved generalized accuracy to the relative simplicity of the models discovered using symbolic regression. The genetic programming models are found to outperform other models from the literature about 50% of the time in a variety of property predictions, with about 1/10th the model complexity on average. We discuss the implications of these results to the broader application of symbolic regression to the development of new potentials and highlight how models discovered for one element can be used to seed new searches for different elements.
翻訳日:2023-03-29 02:08:57 公開日:2023-03-25
# マルチモーダルトランスを用いた指示追従エージェント

Instruction-Following Agents with Multimodal Transformer ( http://arxiv.org/abs/2210.13431v4 )

ライセンス: Link先を確認
Hao Liu, Lisa Lee, Kimin Lee, Pieter Abbeel(参考訳) 人間は言語やビジョンを理解するのに優れており、幅広いタスクをこなす。 対照的に、一般的な指示追従型エージェントの作成は難しい課題である。 純粋言語のみのモデルを使用する以前の作業では、視覚的な接地が欠如しており、言語命令と視覚的な観察をつなぐことが困難になっている。 一方で、事前学習されたマルチモーダルモデルを使用するメソッドは、通常、分割された言語と視覚的表現を持ち、それらを融合するために特別なネットワークアーキテクチャを設計する必要がある。 本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。 我々のShaours法は、視覚観察と言語指示を符号化するマルチモーダルトランスフォーマーと、符号化された表現に基づいてアクションを予測するトランスフォーマーベースのポリシーで構成されている。 マルチモーダル変換器は、数百万のイメージテキストペアと自然言語テキストで事前訓練され、観察と指示の一般的なクロスモーダル表現を生成する。 トランスフォーマーベースのポリシーは、観測と行動の全履歴を追跡し、自己回帰的に行動を予測する。 その単純さにもかかわらず、この統一トランスフォーマーモデルは、シングルタスクとマルチタスクの両方で、最先端のトレーニング済みまたは訓練済みのスクラッチメソッドよりも優れていることを示す。 我々のモデルは、事前の作業よりも優れたモデルスケーラビリティと一般化能力を示す。

Humans are excellent at understanding language and vision to accomplish a wide range of tasks. In contrast, creating general instruction-following embodied agents remains a difficult challenge. Prior work that uses pure language-only models lack visual grounding, making it difficult to connect language instructions with visual observations. On the other hand, methods that use pre-trained multimodal models typically come with divided language and visual representations, requiring designing specialized network architecture to fuse them together. We propose a simple yet effective model for robots to solve instruction-following tasks in vision-based environments. Our \ours method consists of a multimodal transformer that encodes visual observations and language instructions, and a transformer-based policy that predicts actions based on encoded representations. The multimodal transformer is pre-trained on millions of image-text pairs and natural language text, thereby producing generic cross-modal representations of observations and instructions. The transformer-based policy keeps track of the full history of observations and actions, and predicts actions autoregressively. Despite its simplicity, we show that this unified transformer model outperforms all state-of-the-art pre-trained or trained-from-scratch methods in both single-task and multi-task settings. Our model also shows better model scalability and generalization ability than prior work.
翻訳日:2023-03-29 02:08:13 公開日:2023-03-25
# 文法的誤り訂正 : 美術の現状調査

Grammatical Error Correction: A Survey of the State of the Art ( http://arxiv.org/abs/2211.05166v3 )

ライセンス: Link先を確認
Christopher Bryant, Zheng Yuan, Muhammad Reza Qorib, Hannan Cao, Hwee Tou Ng, Ted Briscoe(参考訳) 文法的誤り訂正(英: grammatical error correction、gec)は、テキスト中の誤りを自動的に検出し修正する作業である。 このタスクには、前置詞の欠如や主語-動詞の一致の誤りなどの文法的誤りの修正だけでなく、スペルミスや単語選択エラーなどの正書法と意味的誤りも含んでいる。 この分野は過去10年間に顕著な進歩を遂げており、一部にはルールベースの手法、統計分類器、統計機械翻訳、そして芸術の現在の支配的な状態を表すニューラルネットワーク翻訳システムの開発を推進した5つの共有タスクが動機となっている。 本稿では,この分野を一つの記事にまとめ,まず,課題の言語的課題について概説し,研究者が利用可能な最も一般的なデータセット(英語と他言語)を紹介し,特に人工的エラー生成に焦点を当てた様々な手法とテクニックを要約する。 次に,評価に対する様々なアプローチについて述べるとともに,特に主観的人間の判断に関して,メートル法信頼性に関する懸念について述べるとともに,最近の進歩と今後の課題への提言の概要をまとめる。 この調査が、この分野に新しい研究者や、最近の進歩を評価され続けたい研究者にとって、包括的なリソースになることを期待しています。

Grammatical Error Correction (GEC) is the task of automatically detecting and correcting errors in text. The task not only includes the correction of grammatical errors, such as missing prepositions and mismatched subject-verb agreement, but also orthographic and semantic errors, such as misspellings and word choice errors respectively. The field has seen significant progress in the last decade, motivated in part by a series of five shared tasks, which drove the development of rule-based methods, statistical classifiers, statistical machine translation, and finally neural machine translation systems which represent the current dominant state of the art. In this survey paper, we condense the field into a single article and first outline some of the linguistic challenges of the task, introduce the most popular datasets that are available to researchers (for both English and other languages), and summarise the various methods and techniques that have been developed with a particular focus on artificial error generation. We next describe the many different approaches to evaluation as well as concerns surrounding metric reliability, especially in relation to subjective human judgements, before concluding with an overview of recent progress and suggestions for future work and remaining challenges. We hope that this survey will serve as comprehensive resource for researchers who are new to the field or who want to be kept apprised of recent developments.
翻訳日:2023-03-29 02:00:07 公開日:2023-03-25
# thzスピントロニクスにおけるスピン・電荷励起の量子古典的アプローチ--超高速ワイル反強磁性体mn$_3$snの例

Quantum-classical approach to spin and charge pumping and the ensuing radiation in THz spintronics: Example of ultrafast-light-driven Weyl antiferromagnet Mn$_3$Sn ( http://arxiv.org/abs/2211.03645v2 )

ライセンス: Link先を確認
Abhin Suresh, Branislav K. Nikolic(参考訳) fs光パルスと磁気材料との相互作用は、単一磁性層における超高速脱磁や2層からのthz放出を非磁性スピン軌道(so)材料と理解するために、20年以上にわたって激しく研究されてきた。 Here we develop a multiscale quantum-classical formalism -- where conduction electrons are described by quantum master equation of the Lindblad type; classical dynamics of local magnetization is described by the Landau-Lifshitz-Gilbert (LLG) equation; and incoming light is described by classical vector potential while outgoing electromagnetic radiation is computed using Jefimenko equations for retarded electric and magnetic fields -- and apply it a bilayer of antiferromagnetic Weyl semimetal Mn$_3$Sn with noncollinear local magnetization in contact with SO-coupled nonmagnetic material. 我々のQME+LLG+Jefimenko方式は、fs光パルスが直接スピンと電荷ポンプと電磁放射を後者によってどのように生成するかを理解することができる。 直接励起されたスピン電流は局所磁化にスピントルクを作用させ、そのダイナミクスはTHz範囲で放射される追加のスピンと電荷電流を励起する。 llgダイナミックスおよびsoカップリングをオン・オフすることで、その内部にmn$_3$snの局所磁化によるチャージポンプ機構が、隣り合う非磁性のsoカップリング材料におけるスピンポンプおよびその後のスピン・ツー・チャージ変換よりも極めて重要であることを解明する。

The interaction of fs light pulses with magnetic materials has been intensely studied for more than two decades in order to understand ultrafast demagnetization in single magnetic layers or THz emission from their bilayers with nonmagnetic spin-orbit (SO) materials. Here we develop a multiscale quantum-classical formalism -- where conduction electrons are described by quantum master equation of the Lindblad type; classical dynamics of local magnetization is described by the Landau-Lifshitz-Gilbert (LLG) equation; and incoming light is described by classical vector potential while outgoing electromagnetic radiation is computed using Jefimenko equations for retarded electric and magnetic fields -- and apply it a bilayer of antiferromagnetic Weyl semimetal Mn$_3$Sn with noncollinear local magnetization in contact with SO-coupled nonmagnetic material. Our QME+LLG+Jefimenko scheme makes it possible to understand how fs light pulse generates directly spin and charge pumping and electromagnetic radiation by the latter, including both odd and even high harmonics (of the pulse center frequency) up to order $n \le 7$. The directly pumped spin current then exert spin torque on local magnetization whose dynamics, in turn, pumps additional spin and charge currents radiating in the THz range. By switching on and off LLG dynamics and SO couplings, we unravel which microscopic mechanism contribute the most to emitted THz radiation -- charge pumping by local magnetization of Mn$_3$Sn in the presence of its intrinsic SO coupling is far more important than standardly assumed (for other types of magnetic layers) spin pumping and subsequent spin-to-charge conversion within the neighboring nonmagnetic SO-coupled material.
翻訳日:2023-03-29 01:58:47 公開日:2023-03-25
# MIMT:マルチタスク学習による多照度カラーコンテント

MIMT: Multi-Illuminant Color Constancy via Multi-Task Learning ( http://arxiv.org/abs/2211.08772v2 )

ライセンス: Link先を確認
Shuwei Li, Jikai Wang, Michael S. Brown, Robby T. Tan(参考訳) 単一の光色シーンで真となる均一な光色分布の仮定は、複数の光色を持つシーンではもはや適用できない。 複数の光色の空間変動は、色構成問題をより困難にし、局所的な表面/光情報の抽出を必要とする。 そこで本研究では,1つの入力画像から複数の光色を推定するマルチタスク学習手法を提案する。 複数の明色条件下での局所的表面/光色の手がかりをより良くするため,無彩色画素検出と表面色類似性予測を補助タスクとしてマルチタスク学習フレームワークを設計した。 これらのタスクは、局所的な光色情報と表面色相関の取得を促進する。 また, 色の違いにかかわらず, モデルが表面色のコンタンスを維持することを保証するため, 局所的な表面色特徴も保存する。 マルチイルミナントデータセット (LSMI) 上で, 最先端のマルチイルミナントカラーコンスタンス法と比較して, 47.1%の改善が得られた。 シングルライトカラーは我々の主な焦点ではないが、我々のモデルは単一の照度データセット(NUS-8)で堅牢な性能を維持しており、最先端のシングルカラーコンステンシー法では18.5%改善されている。

The assumption of a uniform light color distribution, which holds true in single light color scenes, is no longer applicable in scenes that have multiple light colors. The spatial variability in multiple light colors causes the color constancy problem to be more challenging and requires the extraction of local surface/light information. Motivated by this, we introduce a multi-task learning method to estimate multiple light colors from a single input image. To have better cues of the local surface/light colors under multiple light color conditions, we design a multi-task learning framework with achromatic-pixel detection and surface-color similarity prediction as our auxiliary tasks. These tasks facilitate the acquisition of local light color information and surface color correlations. Moreover, to ensure that our model maintains the constancy of surface colors regardless of the variations of light colors, we also preserve local surface color features in our model. We demonstrate that our model achieves 47.1% improvement compared to a state-of-the-art multi-illuminant color constancy method on a multi-illuminant dataset (LSMI). While single light colors are not our main focus, our model also maintains a robust performance on the single illuminant dataset (NUS-8) and provides 18.5% improvement on the state-of-the-art single color constancy method.
翻訳日:2023-03-29 01:50:06 公開日:2023-03-25
# ソーシャルメディアテキストによる臨床うつ病の深部時間的モデリング

Deep Temporal Modelling of Clinical Depression through Social Media Text ( http://arxiv.org/abs/2211.07717v2 )

ライセンス: Link先を確認
Nawshad Farruque, Randy Goebel, Sudhakar Sivapalan and Osmar R. Za\"iane(参考訳) 本稿では,ユーザの時間的ソーシャルメディア投稿に基づいて,ユーザレベルの臨床うつ病を検出するモデルの開発について述べる。 本モデルでは,うつ病症状に対する医用注釈付きツイートの最大のサンプルをもとに訓練した,うつ病症状検出(DSD)分類器を用いた。 その後,DSDモデルを用いて,うつ病スコアとその関連時間パターンの抽出や,ユーザの投稿行動パターンの定量化,例えば「活動なし」や「サイレンス」などの臨床的特徴を抽出する。 さらに,抽出された特徴の有効性を評価するために,既存の2つのベンチマークデータセットから,テストデータセットを含む3種類のデータセットを作成し,ユーザレベルの抑うつ検出を行う。 次に,異なる時間的粒度レベルにおいて,単一特徴量,ベースライン特徴量,特徴アブレーションテストに基づいて精度測定を行う。 関連するデータ分布と臨床うつ病検出関連設定を利用して、作成したデータセット間で異なる特徴の影響の完全な図を作成することができる。 最後に、一般に、意味指向表現モデルのみがうまく機能することを示す。 しかし、トレーニングとテストの分布が似ており、ユーザのタイムラインにより多くのデータがあるため、臨床機能により全体的なパフォーマンスが向上する可能性がある。 その結果, より敏感な臨床うつ病検出設定において, うつ病スコアの予測能力は有意に増大した。

We describe the development of a model to detect user-level clinical depression based on a user's temporal social media posts. Our model uses a Depression Symptoms Detection (DSD) classifier, which is trained on the largest existing samples of clinician annotated tweets for clinical depression symptoms. We subsequently use our DSD model to extract clinically relevant features, e.g., depression scores and their consequent temporal patterns, as well as user posting activity patterns, e.g., quantifying their ``no activity'' or ``silence.'' Furthermore, to evaluate the efficacy of these extracted features, we create three kinds of datasets including a test dataset, from two existing well-known benchmark datasets for user-level depression detection. We then provide accuracy measures based on single features, baseline features and feature ablation tests, at several different levels of temporal granularity. The relevant data distributions and clinical depression detection related settings can be exploited to draw a complete picture of the impact of different features across our created datasets. Finally, we show that, in general, only semantic oriented representation models perform well. However, clinical features may enhance overall performance provided that the training and testing distribution is similar, and there is more data in a user's timeline. The consequence is that the predictive capability of depression scores increase significantly while used in a more sensitive clinical depression detection settings.
翻訳日:2023-03-29 01:49:15 公開日:2023-03-25
# Exact-NeRF:ニューラルラジアンス場のための精密体積パラメタライゼーションの探索

Exact-NeRF: An Exploration of a Precise Volumetric Parameterization for Neural Radiance Fields ( http://arxiv.org/abs/2211.12285v2 )

ライセンス: Link先を確認
Brian K. S. Isaac-Medina, Chris G. Willcocks, Toby P. Breckon(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は,新しいシーンビューを高精度に合成する能力によって注目されている。 しかしながら、その基礎となる定式化に固有の点のサンプリングは、最終シーンにおけるエイリアシングのようなさらなる描画成果をもたらす曖昧な表現をもたらす可能性がある。 この問題に対処するため、近年のmip-NeRFは円錐型ビューフラストラムに基づく統合的位置エンコーディング(IPE)を提案する。 これは積分定式化で表されるが、mip-NeRF はこの積分を多変量ガウス分布の期待値として近似する。 この近似は短いフラストラムに信頼性があるが、遠距離のシーンオブジェクトを被写界深度で扱う際に発生する、非常に長い領域で劣化する。 本稿では,近似円錐型ではなくピラミッド型積分定式化を用いて,IPEの正確な計算手法について検討する。 我々は、この定式化をExact-NeRFと表現し、NeRF領域内のIPEに正確な解析解を提供するための最初のアプローチに貢献する。 このような正確な定式化の正確なナーフがmip-nerfの正確さに合致していることを示し,さらに,境界のないシーンの場合など,さらに修正を加えることなく,より困難なシナリオへの自然な拡張を提供する。 我々の貢献は、初期のNeRF研究におけるフラストタル近似の未解明問題に対処することと、将来のNeRF拡張における解析的解決の可能性についての洞察を提供することである。

Neural Radiance Fields (NeRF) have attracted significant attention due to their ability to synthesize novel scene views with great accuracy. However, inherent to their underlying formulation, the sampling of points along a ray with zero width may result in ambiguous representations that lead to further rendering artifacts such as aliasing in the final scene. To address this issue, the recent variant mip-NeRF proposes an Integrated Positional Encoding (IPE) based on a conical view frustum. Although this is expressed with an integral formulation, mip-NeRF instead approximates this integral as the expected value of a multivariate Gaussian distribution. This approximation is reliable for short frustums but degrades with highly elongated regions, which arises when dealing with distant scene objects under a larger depth of field. In this paper, we explore the use of an exact approach for calculating the IPE by using a pyramid-based integral formulation instead of an approximated conical-based one. We denote this formulation as Exact-NeRF and contribute the first approach to offer a precise analytical solution to the IPE within the NeRF domain. Our exploratory work illustrates that such an exact formulation Exact-NeRF matches the accuracy of mip-NeRF and furthermore provides a natural extension to more challenging scenarios without further modification, such as in the case of unbounded scenes. Our contribution aims to both address the hitherto unexplored issues of frustum approximation in earlier NeRF work and additionally provide insight into the potential future consideration of analytical solutions in future NeRF extensions.
翻訳日:2023-03-29 01:42:47 公開日:2023-03-25
# 視覚的に接地したコモンセンス知識獲得

Visually Grounded Commonsense Knowledge Acquisition ( http://arxiv.org/abs/2211.12054v2 )

ライセンス: Link先を確認
Yuan Yao, Tianyu Yu, Ao Zhang, Mengdi Li, Ruobing Xie, Cornelius Weber, Zhiyuan Liu, Hai-Tao Zheng, Stefan Wermter, Tat-Seng Chua, Maosong Sun(参考訳) 大規模なコモンセンス知識ベースは、コモンセンス知識の自動抽出(CKE)が基本的で困難な問題である幅広いAIアプリケーションを促進する。 テキストからのCKEは、テキスト内のコモンセンスの本質的な疎さと報告バイアスに悩まされていることで知られている。 一方、視覚知覚には、現実世界のエンティティ(人、can_hold、 bottle)に関する豊富なコモンセンス知識が含まれており、基礎となるコモンセンス知識を取得するための有望な情報源となる。 本稿では,ckeを遠方の教師付きマルチインスタンス学習問題として定式化し,モデルが画像インスタンスに人間のアノテーションを使わずにエンティティペアに関するイメージの袋から常識関係を要約する手法を提案する。 この問題に対処するために、CLEVERは、バッグ内の各画像の深い理解に視覚言語事前学習モデルを活用し、バッグから情報的インスタンスを選択して、新しいコントラスト的注意機構を通じて常識的エンティティ関係を要約する。 CLEVERは有望な品質でコモンセンスの知識を抽出し,3.9AUCと6.4mAUCで事前学習した言語モデルに基づく手法より優れていることを示す。 予測されたコモンセンススコアは、0.78のスピアマン係数を持つ人間の判断と強い相関を示す。 さらに、抽出したコモンセンスを合理的な解釈性のある画像にグラウンド化することもできる。 データとコードはhttps://github.com/thunlp/CLEVERで取得できる。

Large-scale commonsense knowledge bases empower a broad range of AI applications, where the automatic extraction of commonsense knowledge (CKE) is a fundamental and challenging problem. CKE from text is known for suffering from the inherent sparsity and reporting bias of commonsense in text. Visual perception, on the other hand, contains rich commonsense knowledge about real-world entities, e.g., (person, can_hold, bottle), which can serve as promising sources for acquiring grounded commonsense knowledge. In this work, we present CLEVER, which formulates CKE as a distantly supervised multi-instance learning problem, where models learn to summarize commonsense relations from a bag of images about an entity pair without any human annotation on image instances. To address the problem, CLEVER leverages vision-language pre-training models for deep understanding of each image in the bag, and selects informative instances from the bag to summarize commonsense entity relations via a novel contrastive attention mechanism. Comprehensive experimental results in held-out and human evaluation show that CLEVER can extract commonsense knowledge in promising quality, outperforming pre-trained language model-based methods by 3.9 AUC and 6.4 mAUC points. The predicted commonsense scores show strong correlation with human judgment with a 0.78 Spearman coefficient. Moreover, the extracted commonsense can also be grounded into images with reasonable interpretability. The data and codes can be obtained at https://github.com/thunlp/CLEVER.
翻訳日:2023-03-29 01:42:19 公開日:2023-03-25
# Magic3D:高解像度テキストから3Dコンテンツ作成

Magic3D: High-Resolution Text-to-3D Content Creation ( http://arxiv.org/abs/2211.10440v2 )

ライセンス: Link先を確認
Chen-Hsuan Lin, Jun Gao, Luming Tang, Towaki Takikawa, Xiaohui Zeng, Xun Huang, Karsten Kreis, Sanja Fidler, Ming-Yu Liu, Tsung-Yi Lin(参考訳) DreamFusionは先日,Neural Radiance Fields (NeRF) を最適化するための事前訓練されたテキスト・ツー・イメージ拡散モデルの有用性を実証した。 しかし、この方法には2つの固有の制限がある。 (a)NeRFの極端に遅い最適化 (b)NeRFにおける低解像度画像空間の監視により,低品質な3次元モデルが長い処理時間で実現された。 本稿では,2段階最適化フレームワークを用いて,これらの制約に対処する。 まず,低分解能拡散を先行して粗いモデルを求め,スパース3次元ハッシュグリッド構造を用いて高速化する。 粗い表現を初期化として、高分解能潜伏拡散モデルと相互作用する効率的な微分可能レンダラを用いて、さらにテクスチャ付き3dメッシュモデルを最適化する。 Magic3Dと呼ばれる私たちの方法は、40分で高品質な3Dメッシュモデルを作成することができ、DreamFusion(平均1.5時間)よりも2倍高速で、高解像度を実現しています。 ユーザ調査では、61.7%がDreamFusionよりも私たちのアプローチを好んでいる。 イメージコンディショニング生成機能と合わせて、3d合成を制御する新しい方法を提供し、様々なクリエイティブなアプリケーションに新しい道を開く。

DreamFusion has recently demonstrated the utility of a pre-trained text-to-image diffusion model to optimize Neural Radiance Fields (NeRF), achieving remarkable text-to-3D synthesis results. However, the method has two inherent limitations: (a) extremely slow optimization of NeRF and (b) low-resolution image space supervision on NeRF, leading to low-quality 3D models with a long processing time. In this paper, we address these limitations by utilizing a two-stage optimization framework. First, we obtain a coarse model using a low-resolution diffusion prior and accelerate with a sparse 3D hash grid structure. Using the coarse representation as the initialization, we further optimize a textured 3D mesh model with an efficient differentiable renderer interacting with a high-resolution latent diffusion model. Our method, dubbed Magic3D, can create high quality 3D mesh models in 40 minutes, which is 2x faster than DreamFusion (reportedly taking 1.5 hours on average), while also achieving higher resolution. User studies show 61.7% raters to prefer our approach over DreamFusion. Together with the image-conditioned generation capabilities, we provide users with new ways to control 3D synthesis, opening up new avenues to various creative applications.
翻訳日:2023-03-29 01:38:57 公開日:2023-03-25
# 信頼度対応グラフニューラルネットワークによる信頼性評価

Confidence-Aware Graph Neural Networks for Learning Reliability Assessment Commitments ( http://arxiv.org/abs/2211.15755v2 )

ライセンス: Link先を確認
Seonho Park, Wenbo Chen, Dahye Han, Mathieu Tanneau, and Pascal Van Hentenryck(参考訳) 信頼度評価コミットメント(RAC)最適化は, 再生可能世代の増加と予測誤差の増加により, グリッド運用においてますます重要になっている。 独立系演算子(isos)はまた、より細かい時間的粒度、より長い時間的地平線、そしてさらなる経済的および信頼性の利益のために確率的定式化を使用することを目標としている。 本論文の目的は, rac定式化の範囲拡大に伴う計算上の課題を解決することである。 本論文は,(1)グラフニューラルネットワーク(gnn)を基盤として,生成者のコミットメントとアクティブラインの制約を予測すること,(2)信頼度値を各コミットメント予測に関連付けること,(3)信頼性の高い予測のサブセットを選択すること,(4)実現可能性のために修復されたこと,(5)実現可能な予測とアクティブ制約を備えた最先端最適化アルゴリズムをシードすることを提案する。 ミドルコンチネント・インディペンデント・システム・オペレーター(MISO)と実際の送信ネットワーク(8965の送信線、6708のバス、1890の発電機、6262の負荷ユニット)が使用する正確なRACの定式化実験の結果、RACLearnフレームワークは、解品質が2~4の要因でRAC最適化を高速化できることが示された。

Reliability Assessment Commitment (RAC) Optimization is increasingly important in grid operations due to larger shares of renewable generations in the generation mix and increased prediction errors. Independent System Operators (ISOs) also aim at using finer time granularities, longer time horizons, and possibly stochastic formulations for additional economic and reliability benefits. The goal of this paper is to address the computational challenges arising in extending the scope of RAC formulations. It presents RACLearn that (1) uses a Graph Neural Network (GNN) based architecture to predict generator commitments and active line constraints, (2) associates a confidence value to each commitment prediction, (3) selects a subset of the high-confidence predictions, which are (4) repaired for feasibility, and (5) seeds a state-of-the-art optimization algorithm with feasible predictions and active constraints. Experimental results on exact RAC formulations used by the Midcontinent Independent System Operator (MISO) and an actual transmission network (8965 transmission lines, 6708 buses, 1890 generators, and 6262 load units) show that the RACLearn framework can speed up RAC optimization by factors ranging from 2 to 4 with negligible loss in solution quality.
翻訳日:2023-03-29 01:32:02 公開日:2023-03-25
# 意図に基づく深層学習モデルによる太陽電池パネルと風車ブレードの表面欠陥の同定

Identification of Surface Defects on Solar PV Panels and Wind Turbine Blades using Attention based Deep Learning Model ( http://arxiv.org/abs/2211.15374v2 )

ライセンス: Link先を確認
Divyanshi Dwivedi, K. Victor Sam Moses Babu, Pradeep Kumar Yemula, Pratyush Chakraborty, Mayukha Pal(参考訳) 2022年のGlobal Electricity Reviewによると、世界の再生可能エネルギー発電は、主に大規模再生可能エネルギー発電所の設置により20%増加した。 しかし、これらの大規模プラントにおける再生可能エネルギー資産のモニタリングは、発電、故障、資産寿命の低下をもたらす環境要因のため、依然として困難である。 したがって, 再生可能エネルギー資産の表面欠陥の検出は, これらのプラントの性能と効率の維持に不可欠である。 本稿では,再生可能エネルギー資産の経済面モニタリングシステムを実現するための革新的な検出手法を提案する。 資産の高解像度画像は定期的に撮影され、ソーラーパネルや風力タービンブレードの表面や構造上の損傷を特定するために検査される。 コンピュータビジョンにおける最新の注目型ディープラーニング(DL)モデルの1つである視覚変換器(ViT)を用いて表面欠陥を分類する。 ViTモデルは、MobileNet、VGG16、Xception、EfficientNetB7、ResNet50など他のDLモデルよりも優れており、風力およびソーラープラントの資産の97%以上の精度のスコアを得た。 提案モデルにより, 再生可能エネルギー資産の損傷をモニタリングし, 検出し, 効率よくかつ信頼性の高い発電プラントを運用できる可能性が示された。

According to the Global Electricity Review 2022, worldwide renewable energy generation has increased by 20\% primarily due to the installation of large renewable energy power plants. However, monitoring renewable energy assets in these large plants remains challenging due to environmental factors that can result in reduced power generation, malfunctioning, and degradation of asset life. Therefore, the detection of surface defects on renewable energy assets is crucial for maintaining the performance and efficiency of these plants. This paper proposes an innovative detection framework to achieve an economical surface monitoring system for renewable energy assets. High-resolution images of the assets are captured regularly and inspected to identify surface or structural damages on solar panels and wind turbine blades. We use the Vision Transformer (ViT), one of the latest attention-based deep learning (DL) models in computer vision, to classify surface defects. The ViT model outperformed other DL models, including MobileNet, VGG16, Xception, EfficientNetB7, and ResNet50, achieving high accuracy scores above 97% for both wind and solar plant assets. From the results, our proposed model demonstrates its potential for monitoring and detecting damages in renewable energy assets for efficient and reliable operation of renewable power plants.
翻訳日:2023-03-29 01:31:06 公開日:2023-03-25
# n$-qubit近似量子誤差補正のための忠実度に基づく距離境界

Fidelity-based distance bounds for $N$-qubit approximate quantum error correction ( http://arxiv.org/abs/2212.04368v2 )

ライセンス: Link先を確認
Guilherme Fiusa, Diogo O. Soares-Pinto, Diego Paiva Pires(参考訳) イージン・クニルの定理は量子誤り訂正理論の中心的な結果であり、量子コードは正確に誤りを訂正することができず、連続対称性を持ち、また普遍的なゲートの集合を横方向に実装する。 この結果を回避する方法として、正確な誤り訂正または連続対称性のいずれかを諦めるいくつかのアプローチがある。 この文脈では、量子状態の区別可能性と誤差補正におけるベンチマーク近似を定量化する手段として、忠実度を補完的に測定することが一般的である。 有用な特性を持つにもかかわらず、忠実度尺度の評価は、多くのエンタングル量子ビットを持つ量子状態にとって難しい課題である。 このことを念頭に置いて、誤差近似をバウンドする方法として、部分係数と超忠実度に基づく2つの距離測度に対処し、計算コストを下げる。 我々は,1つの重み付きチャネルの動作と等価となる正確な誤り訂正の欠如をモデル化し,解析的にも数値的にも提案された忠実度に基づく距離を評価し,一般の$N$量子状態に対する閉形式式を得る。 N$-qubit 混合 GHZ 状態と$N$-qubit 混合 W$ 状態の2つのパラダイム的な例を例証する。

The Eastin-Knill theorem is a central result of quantum error correction theory and states that a quantum code cannot correct errors exactly, possess continuous symmetries, and implement a universal set of gates transversely. As a way to circumvent this result, there are several approaches in which one gives up on either exact error correction or continuous symmetries. In this context, it is common to employ a complementary measure of fidelity as a way to quantify quantum state distinguishability and benchmark approximations in error correction. Despite having useful properties, evaluating fidelity measures stands as a challenging task for quantum states with a large number of entangled qubits. With that in mind, we address two distance measures based on the sub- and superfidelities as a way to bound error approximations, which in turn require a lower computational cost. We model the lack of exact error correction to be equivalent to the action of a single dephasing channel, evaluate the proposed fidelity-based distances both analytically and numerically, and obtain a closed-form expression for a general $N$-qubit quantum state. We illustrate our bounds with two paradigmatic examples, an $N$-qubit mixed GHZ state and an $N$-qubit mixed $W$ state.
翻訳日:2023-03-29 01:23:00 公開日:2023-03-25
# RepMode: 細胞構造予測のための様々な専門家の再パラメータ化の学習

RepMode: Learning to Re-parameterize Diverse Experts for Subcellular Structure Prediction ( http://arxiv.org/abs/2212.10066v2 )

ライセンス: Link先を確認
Donghao Zhou, Chunbin Gu, Junde Xu, Furui Liu, Qiong Wang, Guangyong Chen, Pheng-Ann Heng(参考訳) 生物研究において、蛍光染色は細胞内構造の位置と形態を明らかにする重要な技術である。 しかし、ゆっくりと、高価で、細胞に有害である。 本稿では,3次元透過光画像から複数の細胞内構造の3次元蛍光画像を予測することを目的とした,ssp(subcellular structure prediction)と呼ばれる深層学習タスクとしてモデル化する。 残念ながら、現在のバイオテクノロジーの限界により、各画像は部分的にSSPにラベル付けされている。 さらに、自然界では、細胞内構造は大きく異なり、SSPのマルチスケール問題を引き起こす。 これらの課題を克服するために,特定の単一ラベル予測タスクを処理するために,タスク対応の事前処理でパラメータを動的に整理するネットワークRepModeを提案する。 repmodeでは、mixed-of-diverse-experts(mode)ブロックは、すべてのタスクの一般化パラメータを学習するために設計され、gating re-parameterization(gatrep)は、各タスクの特別なパラメータを生成するために行われ、repmodeはプレーンネットワークのようにコンパクトな実用トポロジを維持でき、一方で強力な理論的トポロジーを達成する。 総合的な実験により、RepModeはSSPで最先端の全体的なパフォーマンスを達成できることが示された。

In biological research, fluorescence staining is a key technique to reveal the locations and morphology of subcellular structures. However, it is slow, expensive, and harmful to cells. In this paper, we model it as a deep learning task termed subcellular structure prediction (SSP), aiming to predict the 3D fluorescent images of multiple subcellular structures from a 3D transmitted-light image. Unfortunately, due to the limitations of current biotechnology, each image is partially labeled in SSP. Besides, naturally, subcellular structures vary considerably in size, which causes the multi-scale issue of SSP. To overcome these challenges, we propose Re-parameterizing Mixture-of-Diverse-Experts (RepMode), a network that dynamically organizes its parameters with task-aware priors to handle specified single-label prediction tasks. In RepMode, the Mixture-of-Diverse-Experts (MoDE) block is designed to learn the generalized parameters for all tasks, and gating re-parameterization (GatRep) is performed to generate the specialized parameters for each task, by which RepMode can maintain a compact practical topology exactly like a plain network, and meanwhile achieves a powerful theoretical topology. Comprehensive experiments show that RepMode can achieve state-of-the-art overall performance in SSP.
翻訳日:2023-03-29 01:13:17 公開日:2023-03-25
# NaQ: エピソード記憶を監督するためのクエリとしてナレーションを活用する

NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory ( http://arxiv.org/abs/2301.00746v2 )

ライセンス: Link先を確認
Santhosh Kumar Ramakrishnan, Ziad Al-Halah, Kristen Grauman(参考訳) 自然言語クエリ(nlq: natural language query)で長いエゴセントリックなビデオを探すことは、拡張現実とロボティクスにおいて魅力的な応用だ。 しかし、学習問題(自由形式のテキストクエリ入力、ローカライズされたビデオ時間窓出力)の構造的性質と、そのニードル・イン・ア・ヘイスタックの性質は、技術的に困難かつ高価である。 ビデオクエリローカライズモデルのための標準ビデオテキストナレーションをトレーニングデータに変換するデータ拡張戦略であるnaq(narrations-as-queries)を提案する。 Ego4Dベンチマークで私たちのアイデアを検証すると、実際に非常に大きな影響を与えます。 NaQは複数のトップモデルを実質的なマージン(精度を倍増させる)で改善し、Ego4D NLQチャレンジでこれまでで最高の結果を得る。 NLQの最先端化に加えて、ゼロショットおよび少数ショットNLQの実行能力や、ロングテールオブジェクトカテゴリに関するクエリのパフォーマンス向上など、我々のアプローチのユニークな特性も示す。 コードとモデル: {\small\url{http://vision.cs.utexas.edu/projects/naq}}。

Searching long egocentric videos with natural language queries (NLQ) has compelling applications in augmented reality and robotics, where a fluid index into everything that a person (agent) has seen before could augment human memory and surface relevant information on demand. However, the structured nature of the learning problem (free-form text query inputs, localized video temporal window outputs) and its needle-in-a-haystack nature makes it both technically challenging and expensive to supervise. We introduce Narrations-as-Queries (NaQ), a data augmentation strategy that transforms standard video-text narrations into training data for a video query localization model. Validating our idea on the Ego4D benchmark, we find it has tremendous impact in practice. NaQ improves multiple top models by substantial margins (even doubling their accuracy), and yields the very best results to date on the Ego4D NLQ challenge, soundly outperforming all challenge winners in the CVPR and ECCV 2022 competitions and topping the current public leaderboard. Beyond achieving the state-of-the-art for NLQ, we also demonstrate unique properties of our approach such as the ability to perform zero-shot and few-shot NLQ, and improved performance on queries about long-tail object categories. Code and models: {\small\url{http://vision.cs.utexas.edu/projects/naq}}.
翻訳日:2023-03-29 01:03:59 公開日:2023-03-25
# 事前学習型視覚言語モデルを用いたビデオ認識のための双方向クロスモーダル知識探索

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models ( http://arxiv.org/abs/2301.00182v2 )

ライセンス: Link先を確認
Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli Ouyang(参考訳) 大規模画像テキストペア上で事前訓練された視覚言語モデル(VLM)は、様々な視覚的タスクにおいて印象的な伝達性を示す。 このような強力なVLMから知識を伝達することは、効果的なビデオ認識モデルを構築する上で有望な方向である。 しかし、この分野での現在の探検は限られている。 事前学習されたVLMの最大の価値は、ビジュアルドメインとテキストドメインの間のブリッジを構築することであると信じている。 本稿では,双方向の知識を探索するクロスモーダルブリッジを用いたBIKEと呼ばれる新しいフレームワークを提案する。 i)ビデオ属性アソシエーション機構を導入し,ビデオからテキストへの知識を活用し,映像認識を補完する補助属性を生成する。 また,テキストからビデオへの専門知識を用いて,パラメータフリーな時間的サリエンシーをキャプチャする時間的概念スポッティング機構を提案し,映像表現の強化に繋がる。 Kinetics-400 & 600, UCF-101, HMDB-51, ActivityNet, Charades など6つの人気ビデオデータセットを網羅的に研究した結果, 一般, ゼロショット, 少数ショットビデオ認識など, 様々な認識シナリオにおいて, 最先端のパフォーマンスを実現することができた。 私たちの最善のモデルは、リリースするクリップモデルを用いて、挑戦的なkinetics-400の88.6%の精度を達成しています。 コードはhttps://github.com/whwu95/bikeで入手できる。

Vision-language models (VLMs) pre-trained on large-scale image-text pairs have demonstrated impressive transferability on various visual tasks. Transferring knowledge from such powerful VLMs is a promising direction for building effective video recognition models. However, current exploration in this field is still limited. We believe that the greatest value of pre-trained VLMs lies in building a bridge between visual and textual domains. In this paper, we propose a novel framework called BIKE, which utilizes the cross-modal bridge to explore bidirectional knowledge: i) We introduce the Video Attribute Association mechanism, which leverages the Video-to-Text knowledge to generate textual auxiliary attributes for complementing video recognition. ii) We also present a Temporal Concept Spotting mechanism that uses the Text-to-Video expertise to capture temporal saliency in a parameter-free manner, leading to enhanced video representation. Extensive studies on six popular video datasets, including Kinetics-400 & 600, UCF-101, HMDB-51, ActivityNet and Charades, show that our method achieves state-of-the-art performance in various recognition scenarios, such as general, zero-shot, and few-shot video recognition. Our best model achieves a state-of-the-art accuracy of 88.6% on the challenging Kinetics-400 using the released CLIP model. The code is available at https://github.com/whwu95/BIKE .
翻訳日:2023-03-29 01:03:00 公開日:2023-03-25
# 各種ネットワークのパーコレーション閾値の精度予測器としての機械学習

Machine Learning as an Accurate Predictor for Percolation Threshold of Diverse Networks ( http://arxiv.org/abs/2212.14694v2 )

ライセンス: Link先を確認
Siddharth Patwardhan, Utso Majumder, Aditya Das Sarma, Mayukha Pal, Divyanshi Dwivedi and Prasanta K. Panigrahi(参考訳) パーコレーション閾値は、大きなネットワークの固有の剛性を決定する重要な尺度である。 大規模ネットワークのパーコレーションしきい値の予測者は計算量が非常に強いため、数値シミュレーションに依存しないネットワークのパーコレーションしきい値の予測子を開発する必要がある。 パーコレーション閾値の精度予測に機械学習を用いた5つの回帰手法の有効性を実証する。 機械学習モデルをトレーニングするために生成されたデータセットには、合計777の実ネットワークと合成ネットワークが含まれている。 ネットワークの特徴として5つの統計的および構造的性質と、出力属性として数値計算されたパーコレーションしきい値からなる。 本研究では,既存の3種類のボンドパーコレーションしきい値よりも機械学習モデルの方が優れており,この実験を現場および爆発的パーコレーション予測に拡張する。 さらに, RMSE値を用いたパーコレーション閾値の予測において, モデルの性能を比較した。 勾配促進回帰器, 多層パーセプトロン, ランダム森林回帰モデルは, 検討されたモデルの中で最低RMSE値を達成する。

The percolation threshold is an important measure to determine the inherent rigidity of large networks. Predictors of the percolation threshold for large networks are computationally intense to run, hence it is a necessity to develop predictors of the percolation threshold of networks, that do not rely on numerical simulations. We demonstrate the efficacy of five machine learning-based regression techniques for the accurate prediction of the percolation threshold. The dataset generated to train the machine learning models contains a total of 777 real and synthetic networks. It consists of 5 statistical and structural properties of networks as features and the numerically computed percolation threshold as the output attribute. We establish that the machine learning models outperform three existing empirical estimators of bond percolation threshold, and extend this experiment to predict site and explosive percolation. Further, we compared the performance of our models in predicting the percolation threshold using RMSE values. The gradient boosting regressor, multilayer perceptron and random forests regression models achieve the least RMSE values among considered models.
翻訳日:2023-03-29 01:02:33 公開日:2023-03-25
# 放射場の対話的セグメンテーション

Interactive Segmentation of Radiance Fields ( http://arxiv.org/abs/2212.13545v2 )

ライセンス: Link先を確認
Rahul Goel, Dhawal Sirikonda, Saurabh Saini and PJ Narayanan(参考訳) RF(Radiance Fields)は、新しいビュー合成のためのカジュアルにキャプチャされたシーンと、それを超えるいくつかのアプリケーションを表すために人気がある。 個人空間における混合現実は、オブジェクトの意味的セグメンテーションを重要なステップとして、RFとして表現されるシーンを理解し、操作する必要がある。 事前のセグメンテーションの取り組みは約束を示しますが、さまざまな外観を持つ複雑なオブジェクトにはスケールしません。 オブジェクトを細かな構造と外観で対話的に分割するISRF法を提案する。 蒸留セマンティック特徴を用いた最も近い近傍特徴マッチングは高信頼種子領域を同定する。 共役空間における両側探索は領域を成長させ、正確なセグメンテーションを回復する。 RFからオブジェクトを分割し、それを別のシーンに合成したり、外観を変えたり、インタラクティブなセグメンテーションツールなど、最先端の結果を示す。 プロジェクトページ: https://rahul-goel.github.io/isrf/

Radiance Fields (RF) are popular to represent casually-captured scenes for new view synthesis and several applications beyond it. Mixed reality on personal spaces needs understanding and manipulating scenes represented as RFs, with semantic segmentation of objects as an important step. Prior segmentation efforts show promise but don't scale to complex objects with diverse appearance. We present the ISRF method to interactively segment objects with fine structure and appearance. Nearest neighbor feature matching using distilled semantic features identifies high-confidence seed regions. Bilateral search in a joint spatio-semantic space grows the region to recover accurate segmentation. We show state-of-the-art results of segmenting objects from RFs and compositing them to another scene, changing appearance, etc., and an interactive segmentation tool that others can use. Project Page: https://rahul-goel.github.io/isrf/
翻訳日:2023-03-29 01:02:03 公開日:2023-03-25
# オープン語彙オブジェクト検出のための検出とセグメントの学習

Learning to Detect and Segment for Open Vocabulary Object Detection ( http://arxiv.org/abs/2212.12130v3 )

ライセンス: Link先を確認
Tao Wang(参考訳) オープンボキャブラリのオブジェクト検出は,最近開発された視覚言語事前学習モデルによって,意味カテゴリーのみを持つ新規なオブジェクトの認識を支援することで,大きく進歩している。 先行研究は、主にオブジェクト提案分類への知識伝達に焦点をあて、クラスに依存しないボックスとマスク予測を採用する。 本研究では,オープン語彙設定のためのボックス回帰とマスクセグメンテーションをより一般化する,原理的動的ネットワーク設計であるCondHeadを提案する。 中心となる考え方は、セマンティック埋め込みに基づいてネットワークヘッドを条件付きパラメータ化することで、新しいカテゴリをよりよく検出するために、クラス固有の知識でモデルが導かれることである。 特に、condheadは、動的に集約されたヘッドと動的に生成されたヘッドの2つのネットワークヘッドからなる。 前者は条件付き集約された静的なヘッドでインスタンス化され、これらのヘッドはエキスパートとして最適化され、洗練された予測を学ぶことが期待されている。 後者は動的に生成されたパラメータでインスタンス化し、一般的なクラス固有の情報をエンコードする。 このような条件付き設計により、検出モデルは意味埋め込みによって橋渡しされ、強い一般化可能なクラスワイズボックスとマスク予測を提供する。 提案手法は,最先端のオープンボキャブラリオブジェクト検出手法に非常に小さなオーバーヘッドで大幅な改善をもたらす。例えば,新しいカテゴリのAPを3.0で検出し,計算量はわずか1.1%に留まる。

Open vocabulary object detection has been greatly advanced by the recent development of vision-language pretrained model, which helps recognize novel objects with only semantic categories. The prior works mainly focus on knowledge transferring to the object proposal classification and employ class-agnostic box and mask prediction. In this work, we propose CondHead, a principled dynamic network design to better generalize the box regression and mask segmentation for open vocabulary setting. The core idea is to conditionally parameterize the network heads on semantic embedding and thus the model is guided with class-specific knowledge to better detect novel categories. Specifically, CondHead is composed of two streams of network heads, the dynamically aggregated head and the dynamically generated head. The former is instantiated with a set of static heads that are conditionally aggregated, these heads are optimized as experts and are expected to learn sophisticated prediction. The latter is instantiated with dynamically generated parameters and encodes general class-specific information. With such a conditional design, the detection model is bridged by the semantic embedding to offer strongly generalizable class-wise box and mask prediction. Our method brings significant improvement to the state-of-the-art open vocabulary object detection methods with very minor overhead, e.g., it surpasses a RegionClip model by 3.0 detection AP on novel categories, with only 1.1% more computation.
翻訳日:2023-03-29 01:01:49 公開日:2023-03-25
# セマンティックセグメンテーションモデルの校正について:分析とアルゴリズム

On Calibrating Semantic Segmentation Models: Analyses and An Algorithm ( http://arxiv.org/abs/2212.12053v4 )

ライセンス: Link先を確認
Dongdong Wang and Boqing Gong and Liqiang Wang(参考訳) セマンティックセグメンテーションキャリブレーションの問題について検討する。 画像分類の信頼性の誤解にアプローチするために、多くのソリューションが提案されている。 しかし,今日まで意味セグメンテーションに関する信頼度校正研究は限られている。 セマンティクスセグメンテーションモデルのキャリブレーションに関する体系的な研究を行い,単純かつ効果的なアプローチを提案する。 まず, モデル容量, 作物サイズ, マルチスケールテスト, 予測精度がキャリブレーションに影響を及ぼすことがわかった。 それらの中で、予測の正しさ、特に誤予測は、過信による誤判定にとってより重要である。 次に,スケーリングの正確かつ不正確な予測を分離し,不正確なロジット平滑化に重点を置くことにより,簡便で統一的で効果的な手法,すなわち選択的スケーリングを提案する。 次に,既存のキャリブレーション手法について検討し,セマンティクスセグメンテーションキャリブレーションにおける選択的スケーリングと比較した。 ドメイン内キャリブレーションとドメインシフトキャリブレーションの両方に関する様々なベンチマークを用いて広範な実験を行い、選択スケーリングが他の手法より一貫して優れていることを示す。

We study the problem of semantic segmentation calibration. Lots of solutions have been proposed to approach model miscalibration of confidence in image classification. However, to date, confidence calibration research on semantic segmentation is still limited. We provide a systematic study on the calibration of semantic segmentation models and propose a simple yet effective approach. First, we find that model capacity, crop size, multi-scale testing, and prediction correctness have impact on calibration. Among them, prediction correctness, especially misprediction, is more important to miscalibration due to over-confidence. Next, we propose a simple, unifying, and effective approach, namely selective scaling, by separating correct/incorrect prediction for scaling and more focusing on misprediction logit smoothing. Then, we study popular existing calibration methods and compare them with selective scaling on semantic segmentation calibration. We conduct extensive experiments with a variety of benchmarks on both in-domain and domain-shift calibration and show that selective scaling consistently outperforms other methods.
翻訳日:2023-03-29 01:01:23 公開日:2023-03-25
# Hi-LASSIE:スパース・イメージ・アンサンブルによる高密度人工形状と骨格発見

Hi-LASSIE: High-Fidelity Articulated Shape and Skeleton Discovery from Sparse Image Ensemble ( http://arxiv.org/abs/2212.11042v4 )

ライセンス: Link先を確認
Chun-Han Yao, Wei-Chih Hung, Yuanzhen Li, Michael Rubinstein, Ming-Hsuan Yang, Varun Jampani(参考訳) 3dスケルトン、形状、カメラの視点、部分の明瞭度を自動的に推定することは、厳密で困難な問題である。 従来の手法では、大規模な画像データセット、密接な時間対応、カメラポーズ、2dキーポイント、形状テンプレートなどの人間のアノテーションに依存する。 ユーザが定義した形状や骨格のテンプレートを使わずに,野生の20~30のオンライン画像のみを3Dで再現するHi-LASSIEを提案する。 我々はlassieの最近の作業に従い、同様の問題に取り組み、2つの大きな進歩を遂げている。 まず,手動でアノテートした3Dスケルトンに頼る代わりに,選択した基準画像からクラス固有のスケルトンを自動的に推定する。 第2に,すべての画像で学習されるクラス固有の優先度を維持しつつ,各インスタンスに適合する新たなインスタンス固有の最適化戦略により,形状復元を改善する。 Hi-LASSIEは最小限のユーザ入力を必要とせず,高忠実度3D再構成を実現する。

Automatically estimating 3D skeleton, shape, camera viewpoints, and part articulation from sparse in-the-wild image ensembles is a severely under-constrained and challenging problem. Most prior methods rely on large-scale image datasets, dense temporal correspondence, or human annotations like camera pose, 2D keypoints, and shape templates. We propose Hi-LASSIE, which performs 3D articulated reconstruction from only 20-30 online images in the wild without any user-defined shape or skeleton templates. We follow the recent work of LASSIE that tackles a similar problem setting and make two significant advances. First, instead of relying on a manually annotated 3D skeleton, we automatically estimate a class-specific skeleton from the selected reference image. Second, we improve the shape reconstructions with novel instance-specific optimization strategies that allow reconstructions to faithful fit on each instance while preserving the class-specific priors learned across all images. Experiments on in-the-wild image ensembles show that Hi-LASSIE obtains higher fidelity state-of-the-art 3D reconstructions despite requiring minimum user input.
翻訳日:2023-03-29 01:01:06 公開日:2023-03-25
# 並列化ブースティングの可能性

The Impossibility of Parallelizing Boosting ( http://arxiv.org/abs/2301.09627v2 )

ライセンス: Link先を確認
Amin Karbasi, Kasper Green Larsen(参考訳) 強化の目的は、弱い学習者の列を強い学習者に変換することである。 彼らの心では、これらの方法は完全にシーケンシャルです。 本稿では,並列化促進の可能性を検討する。 私たちの主な貢献は強い負の結果であり、トレーニングに必要なコンピューティングリソースの総量に対して、大幅な並列化が必要であることを示唆している。

The aim of boosting is to convert a sequence of weak learners into a strong learner. At their heart, these methods are fully sequential. In this paper, we investigate the possibility of parallelizing boosting. Our main contribution is a strong negative result, implying that significant parallelization of boosting requires an exponential blow-up in the total computing resources needed for training.
翻訳日:2023-03-29 00:54:40 公開日:2023-03-25
# DiffusionCT:CT画像標準化のための潜時拡散モデル

DiffusionCT: Latent Diffusion Model for CT Image Standardization ( http://arxiv.org/abs/2301.08815v2 )

ライセンス: Link先を確認
Md Selim, Jie Zhang, Michael A. Brooks, Ge Wang, Jin Chen(参考訳) CT(Computed tomography)は, 肺癌検診, 診断, 治療, 予後の指標の1つである。 ct画像から抽出された特徴は、現在、腫瘍の空間的および時間的変化を定量するために使用されている。 しかし,スキャンプロトコルをカスタマイズした各種スキャナから得られたCT画像は,同一患者であってもテクスチャ特性にかなりの変化をもたらす可能性がある。 これは、一貫した信頼性のある特徴分析を必要とする下流の研究に根本的な課題をもたらす。 既存のCT画像調和モデルは、GANベースの教師付きまたは半教師付き学習に依存しており、性能は限られている。 この研究は、異なるベンダーやプロトコルから取得したCT画像を標準化するために、DiffusionCTと呼ばれる新しい拡散ベースモデルを用いたCT画像調和の問題に対処する。 DiffusionCTは、潜在非標準分布を標準分布にマッピングすることで、潜時空間で動作する。 diffusionctには、unetベースのエンコーダ-デコーダが組み込まれており、ボトルネック部分に統合された拡散モデルによって拡張されている。 モデルは2つのトレーニングフェーズで設計されている。 エンコーダ-デコーダは、まず拡散モデルを埋め込むことなく、入力データの潜在表現を学ぶために訓練される。 次に、エンコーダ-デコーダを固定しながら、潜在拡散モデルを次のトレーニングフェーズで訓練する。 最後に、デコーダは変換された潜在表現で標準化された画像を合成する。 実験の結果,DiffusionCTを用いた標準化タスクの性能が大幅に向上した。

Computed tomography (CT) is one of the modalities for effective lung cancer screening, diagnosis, treatment, and prognosis. The features extracted from CT images are now used to quantify spatial and temporal variations in tumors. However, CT images obtained from various scanners with customized acquisition protocols may introduce considerable variations in texture features, even for the same patient. This presents a fundamental challenge to downstream studies that require consistent and reliable feature analysis. Existing CT image harmonization models rely on GAN-based supervised or semi-supervised learning, with limited performance. This work addresses the issue of CT image harmonization using a new diffusion-based model, named DiffusionCT, to standardize CT images acquired from different vendors and protocols. DiffusionCT operates in the latent space by mapping a latent non-standard distribution into a standard one. DiffusionCT incorporates an Unet-based encoder-decoder, augmented by a diffusion model integrated into the bottleneck part. The model is designed in two training phases. The encoder-decoder is first trained, without embedding the diffusion model, to learn the latent representation of the input data. The latent diffusion model is then trained in the next training phase while fixing the encoder-decoder. Finally, the decoder synthesizes a standardized image with the transformed latent representation. The experimental results demonstrate a significant improvement in the performance of the standardization task using DiffusionCT.
翻訳日:2023-03-29 00:54:34 公開日:2023-03-25
# 専用ハードウェアを用いたセキュアビデオストリーミング

Secure Video Streaming Using Dedicated Hardware ( http://arxiv.org/abs/2301.06180v2 )

ライセンス: Link先を確認
Nicholas Murray-Hill, Laura Fontes, Pedro Machado, Isibor Kennedy Ihianle(参考訳) 目的: 本論文の目的は, 監視・監視に使用されるIoT(Internet-of-Things)システムのセキュリティ, 効率, 再構成性を向上させるシステムを提案することである。 方法: スマートIoTエッジデバイスのセキュリティとフレームレートを高めるために,CPU(CPU)とFPGA(Field-Programmable Gate Array)で構成されるマルチプロセッサシステムオンチップ(MPSoC)を提案する。 秘密鍵はFPGAユニットに安全に埋め込まれ、ランダムアクセスメモリ(RAM)に露出することを避ける。 これにより、エッジデバイスはキーを安全に保存し、認証し、同じ集積回路(IC)から送信されたデータを保護することができる。 さらに、エッジ装置は、軽量通信プロトコルを用いてカメラストリームを同時にパブリッシュおよびルーティングすることができ、毎秒14フレーム(fps)のフレームレートを実現する。 mpsocの性能はnvidia jetson nano(njn)とraspberry pi 4(rpi4)と比較され、rpi4は最もコスト効率の高いソリューションであるが、フレームレートが低いため、njnはフレームレートが高いが安全ではないため最速であり、mpsocはフレームレートのバランスがあり、セキュアなキーをメモリに公開しないため、最適なソリューションである。 結果: 提案システムは,監視と監視に使用されるIoTシステムのセキュリティ,スケーラビリティ,効率性の課題に,うまく対処する。 暗号化キーをセキュアに保存して認証し、エッジ装置は、カメラストリームが高精細画像を14fpsで同時にパブリッシュしてルーティングすることができる。

Purpose: The purpose of this article is to present a system that enhances the security, efficiency, and reconfigurability of an Internet-of-Things (IoT) system used for surveillance and monitoring. Methods: A Multi-Processor System-On-Chip (MPSoC) composed of Central Processor Unit (CPU) and Field-Programmable Gate Array (FPGA) is proposed for increasing the security and the frame rate of a smart IoT edge device. The private encryption key is safely embedded in the FPGA unit to avoid being exposed in the Random Access Memory (RAM). This allows the edge device to securely store and authenticate the key, protecting the data transmitted from the same Integrated Circuit (IC). Additionally, the edge device can simultaneously publish and route a camera stream using a lightweight communication protocol, achieving a frame rate of 14 frames per Second (fps). The performance of the MPSoC is compared to a NVIDIA Jetson Nano (NJN) and a Raspberry Pi 4 (RPI4) and it is found that the RPI4 is the most cost-effective solution but with lower frame rate, the NJN is the fastest because it can achieve higher frame-rate but it is not secure, and the MPSoC is the optimal solution because it offers a balanced frame rate and it is secure because it never exposes the secure key into the memory. Results: The proposed system successfully addresses the challenges of security, scalability, and efficiency in an IoT system used for surveillance and monitoring. The encryption key is securely stored and authenticated, and the edge device is able to simultaneously publish and route a camera stream feed high-definition images at 14 fps.
翻訳日:2023-03-29 00:52:52 公開日:2023-03-25
# テスト・オブ・タイム:時間感のあるビデオ言語モデル

Test of Time: Instilling Video-Language Models with a Sense of Time ( http://arxiv.org/abs/2301.02074v2 )

ライセンス: Link先を確認
Piyush Bagad and Makarand Tapaswi and Cees G. M. Snoek(参考訳) 現代のビデオ理解モデルでは、モデリングと時間理解が課題となっている。 言語が強力な一般化への鍵となるため、基礎的なビデオ言語モデルには時間感覚が不可欠である。 本稿では時間的理解の特定の側面について考察する:時間秩序の整合性は前/後の関係によって引き起こされる。 既存の7つのビデオ言語モデルでは、そのような単純な時間関係を理解するのに苦労している。 次に、これらの基礎モデルに時間的意識を持たせることが、スクラッチから再学習することなしに可能かどうかを問う。 そこで本研究では,少量のビデオテキストデータに対する事前学習に基づく,そのようなモデルであるvideoclip上での時間適応レシピを提案する。 我々は、6つのデータセット上で、異なる時間意識を必要とする3つの下流タスクに対して、適応モデルのゼロショット評価を行う。 タスクにより高い時間意識を必要とする場合,特にパフォーマンス向上の促進を観察する。 私たちの研究は、データやコンピュートインテンストレーニングをスクラッチから必要とせずに、既存のビデオ言語モデルで時間の感覚を探索し、植え込むための第一歩として役立ちます。

Modelling and understanding time remains a challenge in contemporary video understanding models. With language emerging as a key driver towards powerful generalization, it is imperative for foundational video-language models to have a sense of time. In this paper, we consider a specific aspect of temporal understanding: consistency of time order as elicited by before/after relations. We establish that seven existing video-language models struggle to understand even such simple temporal relations. We then question whether it is feasible to equip these foundational models with temporal awareness without re-training them from scratch. Towards this, we propose a temporal adaptation recipe on top of one such model, VideoCLIP, based on post-pretraining on a small amount of video-text data. We conduct a zero-shot evaluation of the adapted models on six datasets for three downstream tasks which require varying degrees of time awareness. We observe encouraging performance gains especially when the task needs higher time awareness. Our work serves as a first step towards probing and instilling a sense of time in existing video-language models without the need for data and compute-intense training from scratch.
翻訳日:2023-03-29 00:51:42 公開日:2023-03-25
# 言語モデルに基づく知識グラフ埋め込みの編集

Editing Language Model-based Knowledge Graph Embeddings ( http://arxiv.org/abs/2301.10405v4 )

ライセンス: Link先を確認
Siyuan Cheng, Ningyu Zhang, Bozhong Tian, Zelin Dai, Feiyu Xiong, Wei Guo, Huajun Chen(参考訳) 近年では言語モデルによる知識グラフ(kg)埋め込みが実証的に成功している。 しかし、言語モデルに基づくkg埋め込みは通常、静的アーティファクトとしてデプロイされる。 そこで本稿では,言語モデルに基づくKG埋め込みを編集する新しいタスクを提案する。 提案手法は,kg組込みの性能を損なうことなく,データ効率の高い高速更新を実現することを目的とする。 e-fb15k237,a-fb15k237,e-wn18rr,a-wn18rrの4つの新しいデータセットを構築し,提案課題に対処するための既存モデルの限られた能力を示す,いくつかの知識編集ベースラインを評価した。 さらに,ハイパーネットワークのパラメトリック層を追加して事実の編集・追加を行う,シンプルかつ強力なベースラインであるkgeditorを提案する。 総合的な実験結果から、KGEditorは、トレーニングリソースの少ない他の部分に影響を与えることなく、特定の事実を更新する際のパフォーマンスが向上することを示した。 コードとデータセットはhttps://github.com/zjunlp/PromptKG/tree/main/deltaKGで提供される。

Recently decades have witnessed the empirical success of framing Knowledge Graph (KG) embeddings via language models. However, language model-based KG embeddings are usually deployed as static artifacts, which are challenging to modify without re-training after deployment. To address this issue, we propose a new task of editing language model-based KG embeddings in this paper. The proposed task aims to enable data-efficient and fast updates to KG embeddings without damaging the performance of the rest. We build four new datasets: E-FB15k237, A-FB15k237, E-WN18RR, and A-WN18RR, and evaluate several knowledge editing baselines demonstrating the limited ability of previous models to handle the proposed challenging task. We further propose a simple yet strong baseline dubbed KGEditor, which utilizes additional parametric layers of the hyper network to edit/add facts. Comprehensive experimental results demonstrate that KGEditor can perform better when updating specific facts while not affecting the rest with low training resources. Code and datasets will be available in https://github.com/zjunlp/PromptKG/tree/main/deltaKG.
翻訳日:2023-03-29 00:43:49 公開日:2023-03-25
# ロバスト確率逆グラフのための3次元ニューラルネットワーク

3D Neural Embedding Likelihood for Robust Probabilistic Inverse Graphics ( http://arxiv.org/abs/2302.03744v2 )

ライセンス: Link先を確認
Guangyao Zhou, Nishad Gothoskar, Lirui Wang, Joshua B. Tenenbaum, Dan Gutfreund, Miguel L\'azaro-Gredilla, Dileep George, Vikash K. Mansinghka(参考訳) 3dシーンを知覚し理解する能力は、コンピュータビジョンやロボット工学の多くの応用に不可欠である。 逆グラフィックスは,2次元画像から3次元シーン構造を推測することを目的とした,3次元シーン理解への魅力的なアプローチである。 本稿では,不確かさを定量化し,6次元ポーズ推定タスクにおけるロバスト性を達成するために,逆グラフィックスフレームワークに確率的モデリングを導入する。 具体的には,RGB-D画像上の統一確率モデルとして3D Neural Embedding Likelihood (3DNEL)を提案する。 3DNELは、RGBから学習した神経埋め込みと深度情報を組み合わせて、RGB-D画像からのsim-to-real 6Dオブジェクトのポーズ推定の堅牢性を改善する。 YCB-Videoデータセットのパフォーマンスは最先端と同等だが、挑戦的なレシエーションではずっと堅牢だ。 識別的アプローチとは対照的に、3DNELの確率的生成的定式化は多目的シーンを共同でモデル化し、原理的な方法で不確実性を定量化し、重閉塞下でオブジェクトのポーズ追跡を処理する。 最後に、3dnelは、シーンとオブジェクトに関する事前知識を組み込むための原則付きフレームワークを提供し、ビデオからのカメラポーズ追跡のような追加タスクへの自然な拡張を可能にする。

The ability to perceive and understand 3D scenes is crucial for many applications in computer vision and robotics. Inverse graphics is an appealing approach to 3D scene understanding that aims to infer the 3D scene structure from 2D images. In this paper, we introduce probabilistic modeling to the inverse graphics framework to quantify uncertainty and achieve robustness in 6D pose estimation tasks. Specifically, we propose 3D Neural Embedding Likelihood (3DNEL) as a unified probabilistic model over RGB-D images, and develop efficient inference procedures on 3D scene descriptions. 3DNEL effectively combines learned neural embeddings from RGB with depth information to improve robustness in sim-to-real 6D object pose estimation from RGB-D images. Performance on the YCB-Video dataset is on par with state-of-the-art yet is much more robust in challenging regimes. In contrast to discriminative approaches, 3DNEL's probabilistic generative formulation jointly models multi-object scenes, quantifies uncertainty in a principled way, and handles object pose tracking under heavy occlusion. Finally, 3DNEL provides a principled framework for incorporating prior knowledge about the scene and objects, which allows natural extension to additional tasks like camera pose tracking from video.
翻訳日:2023-03-29 00:34:20 公開日:2023-03-25
# フィードバックを伴う隠れたアライメント言語モデルの連鎖

Chain of Hindsight Aligns Language Models with Feedback ( http://arxiv.org/abs/2302.02676v6 )

ライセンス: Link先を確認
Hao Liu, Carmelo Sferrazza, Pieter Abbeel(参考訳) 人間の好みから学ぶことは、言語モデルが人間にとって有益で役に立つこと、そして人間と社会の価値観に合わせるために重要である。 これまでの作業は、人間のフィードバックから学び、指示を理解し、従うことで、目覚ましい成功を収めてきました。 それにもかかわらず、これらの手法は人間のアノテータに好まれる手書きモデル世代に基づいて構築され、データ利用の面では効果が無く、一般に適用が難しいか、あるいは報酬関数や強化学習に依存している。 本研究では,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。 私たちのアイデアは、人間が言語形式で提示された広範なフィードバックから学ぶ方法にインスピレーションを受けています。 我々は、あらゆる種類のフィードバックを文に変換し、それをモデルを微調整するために使用し、言語モデルの言語理解能力を活用できるようにする。 フィードバックとペアリングしたモデル生成のシーケンス上でモデルを条件付けする。 そうすることで、モデルはフィードバックに基づいてアウトプットを生成するように訓練され、モデルは負の属性やエラーを識別し、修正することを学ぶことができる。 提案手法を大規模言語モデルに適用することにより,Hendsight の Chain が従来の手法をはるかに上回り,言語モデルと人間の嗜好の整合を図った。 要約と対話のタスクにおいて有意な改善がみられ,人間評価ではそのアプローチが顕著に好まれる。

Learning from human preferences is important for language models to be helpful and useful for humans, and to align with human and social values. Prior work have achieved remarkable successes by learning from human feedback to understand and follow instructions. Nonetheless, these methods are either founded on hand-picked model generations that are favored by human annotators, rendering them ineffective in terms of data utilization and challenging to apply in general, or they depend on reward functions and reinforcement learning, which are prone to imperfect reward function and extremely challenging to optimize. In this work, we propose a novel technique, Chain of Hindsight, that is easy to optimize and can learn from any form of feedback, regardless of its polarity. Our idea is inspired by how humans learn from extensive feedback presented in the form of languages. We convert all types of feedback into sentences, which are then used to fine-tune the model, allowing us to take advantage of the language comprehension capabilities of language models. We condition the model on a sequence of model generations paired with feedback. By doing so, models are trained to generate outputs based on feedback, and models can learn to identify and correct negative attributes or errors. Applying our method to large language models, we observed that Chain of Hindsight significantly surpasses previous methods in aligning language models with human preferences. We observed significant improvements on summarization and dialogue tasks and our approach is markedly preferred in human evaluations.
翻訳日:2023-03-29 00:33:38 公開日:2023-03-25
# shiftddpms:shifting diffusion trajectoriesによる条件拡散モデルの検討

ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion Trajectories ( http://arxiv.org/abs/2302.02373v3 )

ライセンス: Link先を確認
Zijian Zhang, Zhou Zhao, Jun Yu, Qi Tian(参考訳) 拡散モデルは最近、拡散確率モデル(DDPM)の導入以来、印象的な画像サンプルの合成能力を示した。 彼らのキーとなるアイデアは、固定された前方プロセスを通じて画像をノイズに分解し、その逆プロセスを学び、ノイズからサンプルを生成することである。 条件付きDDPMでは、ほとんどの既存のプラクティスは、逆プロセスのみに関係し、非条件付きフォワードプロセスの反転に適合する。 これは、小さな時間ウィンドウにおける条件モデリングと生成を制限することになる。 本稿では,前処理に条件を導入することで,新しいフレキシブルな条件拡散モデルを提案する。 我々は余剰潜在空間を利用して各条件の排他的拡散軌跡をシフト規則に基づいて割り当て、条件モデリングをすべての時間ステップに分散させ、モデルの学習能力を向上させる。 我々は,<textbf{ShiftDDPMs} と呼ぶメソッドを定式化し,既存のメソッドの統一的な視点を提供する。 画像合成に関する大規模定性的および定量的実験は、ShiftDDPMの有効性と有効性を示す。

Diffusion models have recently exhibited remarkable abilities to synthesize striking image samples since the introduction of denoising diffusion probabilistic models (DDPMs). Their key idea is to disrupt images into noise through a fixed forward process and learn its reverse process to generate samples from noise in a denoising way. For conditional DDPMs, most existing practices relate conditions only to the reverse process and fit it to the reversal of unconditional forward process. We find this will limit the condition modeling and generation in a small time window. In this paper, we propose a novel and flexible conditional diffusion model by introducing conditions into the forward process. We utilize extra latent space to allocate an exclusive diffusion trajectory for each condition based on some shifting rules, which will disperse condition modeling to all timesteps and improve the learning capacity of model. We formulate our method, which we call \textbf{ShiftDDPMs}, and provide a unified point of view on existing related methods. Extensive qualitative and quantitative experiments on image synthesis demonstrate the feasibility and effectiveness of ShiftDDPMs.
翻訳日:2023-03-29 00:33:11 公開日:2023-03-25
# BLiRF:動的シーンモデリングのための帯域制限放射場

BLiRF: Bandlimited Radiance Fields for Dynamic Scene Modeling ( http://arxiv.org/abs/2302.13543v3 )

ライセンス: Link先を確認
Sameera Ramasinghe, Violetta Shevchenko, Gil Avraham, Anton Van Den Hengel(参考訳) 単一の移動カメラから非剛性動的シーンの3d構造を推論することは、制約の少ない問題である。 静的シーンのフォトリアリスティックな新規ビュー合成におけるニューラルラジアンス場(NeRF)の顕著な進歩に触発されて、動的設定のための拡張が提案されている。 これらの手法は問題を正規化するために神経先行性に大きく依存する。 本稿では,現在の実装では,表現力の制限,光・密度場の絡み合い,光学的動作の局所化など,有害な効果が伴う可能性について再検討する。 治療として,従来の非剛体構造からの橋渡し (\nrsfm) とNeRF (NeRF) の橋渡しを提唱する。 そこで本稿では,帯域制限された高次元信号の合成としてシーンを定式化し,時間と空間を分解する枠組みを提案する。 照明, テクスチャ, 長距離ダイナミックスの変化を伴う, 複雑な動的シーンにまたがる説得力のある結果を示す。

Reasoning the 3D structure of a non-rigid dynamic scene from a single moving camera is an under-constrained problem. Inspired by the remarkable progress of neural radiance fields (NeRFs) in photo-realistic novel view synthesis of static scenes, extensions have been proposed for dynamic settings. These methods heavily rely on neural priors in order to regularize the problem. In this work, we take a step back and reinvestigate how current implementations may entail deleterious effects, including limited expressiveness, entanglement of light and density fields, and sub-optimal motion localization. As a remedy, we advocate for a bridge between classic non-rigid-structure-from-motion (\nrsfm) and NeRF, enabling the well-studied priors of the former to constrain the latter. To this end, we propose a framework that factorizes time and space by formulating a scene as a composition of bandlimited, high-dimensional signals. We demonstrate compelling results across complex dynamic scenes that involve changes in lighting, texture and long-range dynamics.
翻訳日:2023-03-29 00:27:02 公開日:2023-03-25
# 量子ステアリングによる量子コンピュータの状態形成

State Preparation on Quantum Computers via Quantum Steering ( http://arxiv.org/abs/2302.13518v2 )

ライセンス: Link先を確認
Daniel Volya and Prabhat Mishra(参考訳) 量子コンピュータを実現するための主要な構成要素の1つは、コンピュータを既知の状態(状態準備)に初期化する能力である。 パッシブとアクティブリセットに基づく有望な状態初期化アプローチがあるが、大きな量子システムでは受け入れられないオーバーヘッドを導入するか、任意の量子状態を作成することができない。 ディジタル量子コンピュータにおける新しい計測誘導ステアリングプロトコルによる状態形成法を示す。 任意量子状態は、絡み合った状態の一部を測定することで引き起こされるバックアクションを利用する量子回路を適用することで作られる。 ancilla qubitsとsystem qubitsを委譲することにより、(1)指定されたsystem-ancilla entangling回路の実行、(2)ancilla qubitsの測定、(3)ancilla qubitsをアクティブリセットにより既知の状態に再初期化する、というステップを繰り返し実行する初期状態を作成する。 アンシラ量子ビットは既知の状態に測定および再初期化されるが、システム量子ビットは任意の初期状態から望ましい最終状態へとステアリングされる。 量子コンピュータ上で任意の量子ビット状態と任意の量子ビット状態(3レベル)を準備することにより,この手法の結果を示す。 また,アンシラキュービットの読み出しを利用して,非盲目的にプロトコルをガイドすることにより,状態収束を促進できることを示す。

One of the major components for realizing quantum computers is the ability to initialize the computer to a known fiducial state, also known as state preparation. While there are promising state initialization approaches based on passive as well as active reset, they either introduce unacceptable overhead for large quantum systems or are unable to prepare an arbitrary quantum state. We demonstrate a state preparation method via the novel measurement-induced steering protocol on digital quantum computers. Arbitrary quantum states are prepared by applying quantum circuits that exploit the back-action caused by measuring part of an entangled state. By delegating ancilla qubits and systems qubits, the initial states are prepared by repeatedly performing the following steps: (1) executing a designated system-ancilla entangling circuit, (2) measuring the ancilla qubits, and (3) re-initializing ancilla qubits to known states through active reset. While the ancilla qubits are measured and reinitialized to known states, the system qubits are steered from arbitrary initial states to desired final states. We show results of the method by preparing arbitrary qubit states and arbitrary qutrit (three-level) states on contemporary, cloud-accessible, quantum computers. We also demonstrate that the state convergence can be accelerated by utilizing the readouts of the ancilla qubits to guide the protocol in a non-blind manner.
翻訳日:2023-03-29 00:26:40 公開日:2023-03-25
# VoxFormer:3Dセマンティックシーンコンプリートのためのスパースボクセルトランス

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion ( http://arxiv.org/abs/2302.12251v2 )

ライセンス: Link先を確認
Yiming Li and Zhiding Yu and Christopher Choy and Chaowei Xiao and Jose M. Alvarez and Sanja Fidler and Chen Feng and Anima Anandkumar(参考訳) 人間は、隠された物体やシーンの完全な3D幾何学を想像することができる。 この魅力ある能力は認識と理解に不可欠である。 本稿では,aiシステムにおいてこのような機能を実現するために,トランスフォーマティブベースの意味シーン補完フレームワークvoxformerを提案する。 私たちのフレームワークは、2段階の設計を採用しており、深さ推定から可視および占有されたvoxelクエリのスパースセットから始まり、さらにスパースクエリから高密度な3dvoxelを生成するデンシフィケーションステージから始めます。 このデザインの重要な考え方は、2d画像の視覚的な特徴が、オクルードまたは空っぽの空間ではなく、可視的なシーン構造にのみ対応していることである。 したがって、可視構造の実現と予測から始めると、より信頼性が高い。 スパースクエリの集合が得られたら、マスク付きオートエンコーダの設計を適用して、情報を全ボクセルに自己注意で伝達する。 SemanticKITTIの実験では、VoxFormerは20.0%の幾何学的改善と18.1%のセマンティクスにより芸術の状態を上回り、トレーニング中のGPUメモリを16GB未満に削減している。 私たちのコードはhttps://github.com/NVlabs/VoxFormerで利用可能です。

Humans can easily imagine the complete 3D geometry of occluded objects and scenes. This appealing ability is vital for recognition and understanding. To enable such capability in AI systems, we propose VoxFormer, a Transformer-based semantic scene completion framework that can output complete 3D volumetric semantics from only 2D images. Our framework adopts a two-stage design where we start from a sparse set of visible and occupied voxel queries from depth estimation, followed by a densification stage that generates dense 3D voxels from the sparse ones. A key idea of this design is that the visual features on 2D images correspond only to the visible scene structures rather than the occluded or empty spaces. Therefore, starting with the featurization and prediction of the visible structures is more reliable. Once we obtain the set of sparse queries, we apply a masked autoencoder design to propagate the information to all the voxels by self-attention. Experiments on SemanticKITTI show that VoxFormer outperforms the state of the art with a relative improvement of 20.0% in geometry and 18.1% in semantics and reduces GPU memory during training to less than 16GB. Our code is available on https://github.com/NVlabs/VoxFormer.
翻訳日:2023-03-29 00:25:32 公開日:2023-03-25
# 半教師付きセマンティックセグメンテーションのための衝突型クロスビュー整合性

Conflict-Based Cross-View Consistency for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2303.01276v3 )

ライセンス: Link先を確認
Zicheng Wang, Zhen Zhao, Xiaoxia Xing, Dong Xu, Xiangyu Kong, Luping Zhou(参考訳) 半教師付きセマンティクスセグメンテーション(sss)は、大規模な完全注釈トレーニングデータの必要性を低減できるため、近年研究の関心が高まっている。 現在の手法は、しばしば擬似ラベルプロセスからの確認バイアスに苦しむが、これは共学習フレームワークによって軽減される。 現在の共同学習ベースのSSS法は、異なるサブネットが互いに衝突することを防ぐために手作りの摂動に依存しているが、これらの人工摂動は最適解をもたらすことはできない。 本研究では,2つのサブネットに関連のない視点から情報的特徴を学習させることを目的とした,2分岐協調学習フレームワークに基づく新しいコンフリクトベースクロスビュー整合(CCVC)手法を提案する。 特に,2つのサブネットが特徴差損失を導入して同一入力から異なる特徴を学習することを奨励する新たなクロスビュー整合性(CVC)戦略を提案し,これらの特徴は入力の一貫性のある予測スコアを生成することが期待されている。 CVC戦略は、2つのサブネットが崩壊するのを防ぐのに役立つ。 さらに,コンフリクトベースの擬似ラベリング(CPL)手法を提案し,モデルが競合予測からより有用な情報を学ぶことを保証し,安定したトレーニングプロセスを実現する。 我々は,本手法が新しい最先端性能を実現するSSSベンチマークデータセットに対して,新しいCCVCアプローチを検証する。 私たちのコードはhttps://github.com/xiaoyao3302/ccvcで利用可能です。

Semi-supervised semantic segmentation (SSS) has recently gained increasing research interest as it can reduce the requirement for large-scale fully-annotated training data. The current methods often suffer from the confirmation bias from the pseudo-labelling process, which can be alleviated by the co-training framework. The current co-training-based SSS methods rely on hand-crafted perturbations to prevent the different sub-nets from collapsing into each other, but these artificial perturbations cannot lead to the optimal solution. In this work, we propose a new conflict-based cross-view consistency (CCVC) method based on a two-branch co-training framework which aims at enforcing the two sub-nets to learn informative features from irrelevant views. In particular, we first propose a new cross-view consistency (CVC) strategy that encourages the two sub-nets to learn distinct features from the same input by introducing a feature discrepancy loss, while these distinct features are expected to generate consistent prediction scores of the input. The CVC strategy helps to prevent the two sub-nets from stepping into the collapse. In addition, we further propose a conflict-based pseudo-labelling (CPL) method to guarantee the model will learn more useful information from conflicting predictions, which will lead to a stable training process. We validate our new CCVC approach on the SSS benchmark datasets where our method achieves new state-of-the-art performance. Our code is available at https://github.com/xiaoyao3302/CCVC.
翻訳日:2023-03-29 00:17:10 公開日:2023-03-25
# unidexgrasp: 多様な提案生成と目標条件による学習による汎用ロボットデキスタラス把握

UniDexGrasp: Universal Robotic Dexterous Grasping via Learning Diverse Proposal Generation and Goal-Conditioned Policy ( http://arxiv.org/abs/2303.00938v2 )

ライセンス: Link先を確認
Yinzhen Xu, Weikang Wan, Jialiang Zhang, Haoran Liu, Zikang Shan, Hao Shen, Ruicheng Wang, Haoran Geng, Yijia Weng, Jiayi Chen, Tengyu Liu, Li Yi, He Wang(参考訳) 本研究では,テーブル上環境下での点雲観測から万能ロボットによるデクスタース把持を学習する問題に取り組む。 目標は、高品質で多様な方法でオブジェクトをつかんで持ち上げ、何百ものカテゴリや目に見えないものまで一般化することだ。 並列グリッパーグラッシングで成功したパイプラインに触発されて、タスクを2つのステージに分割しました。 1)提案(目的)の生成と取得 2)目標条件の把握実行。 第1段階では,翻訳と調音から回転を分解する点雲観測に条件付きグリップポーズの新しい確率モデルを提案する。 本モデルでは,多種多様で高品位なデクタラス・グラブ・ポーズを対象点の雲に対してサンプリングすることが可能であり,第2段階では,ディクタラス・グラブ・実行の複雑さから,パラレル・グリッパー・グラブに使用されるモーション・プランニングを目標条件のグラブ・ポリシーに置き換える手法を提案する。 オラクル状態なしに現実的な入力しか受け取らないこの非常に一般化可能な把握ポリシーを学ぶことは極めて困難である。 そこで本稿では, 状態標準化, 対象カリキュラム, 教師・学生蒸留など, 重要な技術革新を提案する。 この2つの段階を統合することで、最終的なパイプラインは、数千のオブジェクトインスタンスに対して平均60倍以上の成功率を示すとともに、すべてのベースラインを著しく上回る一方、最小の一般化ギャップしか示さない、デクスタラス把握のための普遍的な一般化を初めて達成した。

In this work, we tackle the problem of learning universal robotic dexterous grasping from a point cloud observation under a table-top setting. The goal is to grasp and lift up objects in high-quality and diverse ways and generalize across hundreds of categories and even the unseen. Inspired by successful pipelines used in parallel gripper grasping, we split the task into two stages: 1) grasp proposal (pose) generation and 2) goal-conditioned grasp execution. For the first stage, we propose a novel probabilistic model of grasp pose conditioned on the point cloud observation that factorizes rotation from translation and articulation. Trained on our synthesized large-scale dexterous grasp dataset, this model enables us to sample diverse and high-quality dexterous grasp poses for the object point cloud.For the second stage, we propose to replace the motion planning used in parallel gripper grasping with a goal-conditioned grasp policy, due to the complexity involved in dexterous grasping execution. Note that it is very challenging to learn this highly generalizable grasp policy that only takes realistic inputs without oracle states. We thus propose several important innovations, including state canonicalization, object curriculum, and teacher-student distillation. Integrating the two stages, our final pipeline becomes the first to achieve universal generalization for dexterous grasping, demonstrating an average success rate of more than 60\% on thousands of object instances, which significantly outperforms all baselines, meanwhile showing only a minimal generalization gap.
翻訳日:2023-03-29 00:16:11 公開日:2023-03-25
# Parachute: インタラクティブなヒューマン-LMコライティングシステムの評価

Parachute: Evaluating Interactive Human-LM Co-writing Systems ( http://arxiv.org/abs/2303.06333v2 )

ライセンス: Link先を確認
Hua Shen, Tongshuang Wu(参考訳) 言語モデル(LM)の進歩は、人間とLMが相互に相互に共筆の成果物に貢献するコライティングシステムを構築するために、LMを使うことに大きな関心を惹き付けている。 しかし、インタラクティブな環境での協調書記システムを評価する研究は乏しい。 本研究では,対話型コライトシステムのための人間中心評価フレームワークであるParachuteを提案する。 パラシュートは相互作用評価の総合的な視点を示し、それぞれの評価側面は、分類された実践的指標から構成される。 さらに,Parachuteを用いた共筆システムの評価と比較を行うために,Parachuteをユースケースとして提示する。

A surge of advances in language models (LMs) has led to significant interest in using LMs to build co-writing systems, in which humans and LMs interactively contribute to a shared writing artifact. However, there is a lack of studies assessing co-writing systems in interactive settings. We propose a human-centered evaluation framework, Parachute, for interactive co-writing systems. Parachute showcases an integrative view of interaction evaluation, where each evaluation aspect consists of categorized practical metrics. Furthermore, we present Parachute with a use case to demonstrate how to evaluate and compare co-writing systems using Parachute.
翻訳日:2023-03-29 00:07:55 公開日:2023-03-25
# 単一波動関数から高次中心電荷を抽出する

Extracting higher central charge from a single wave function ( http://arxiv.org/abs/2303.04822v2 )

ライセンス: Link先を確認
Ryohei Kobayashi, Taige Wang, Tomohiro Soejima, Roger S. K. Mong, Shinsei Ryu(参考訳) 2+1)Dトポロジカル秩序相は、キラル中心電荷$c_-$が消滅しても、ギャップ可能なエッジを持つかもしれない。 近年,キラル中心電荷の'higher'バージョンと見なされる量によって,先端を突き出すのに$c_-$を超えるさらなる障害が生じることが判明した。 この手紙では、高次中心電荷は位相的に順序付けられた状態の波動関数に作用する \textit{partial rotation} 作用素の期待値によって特徴づけられることを示した。 これにより、1つの波動関数から高い中心電荷を抽出し、量子コンピュータで評価することができる。 高次中心電荷のキャラクタリゼーションは、エッジ共形場理論のモジュラー特性と、それぞれ$\mathrm{U}(1)_2$およびIsingトポロジカルオーダーに対応する、$\nu=1/2$bosonic Laughlin状態とKITEの非アベリアギャップ位相による数値結果から解析的に導かれる。 この文字は、(2+1) 次元ボソニック位相次数が $c_-$ を超えるガッパブルエッジへの一連の障害を得るための数値的方法を確立している。 また、単一波動関数上の部分回転の期待値は、リーブ・シュルツ・マティス型定理を思わせる (2+1)D ボソニックトポロジー次数のバルク境界系の低エネルギースペクトルに制約を与えることを指摘した。

A (2+1)D topologically ordered phase may or may not have a gappable edge, even if its chiral central charge $c_-$ is vanishing. Recently, it is discovered that a quantity regarded as a ``higher'' version of chiral central charge gives a further obstruction beyond $c_-$ to gapping out the edge. In this Letter, we show that the higher central charges can be characterized by the expectation value of the \textit{partial rotation} operator acting on the wavefunction of the topologically ordered state. This allows us to extract the higher central charge from a single wavefunction, which can be evaluated on a quantum computer. Our characterization of the higher central charge is analytically derived from the modular properties of edge conformal field theory, as well as the numerical results with the $\nu=1/2$ bosonic Laughlin state and the non-Abelian gapped phase of the Kitaev honeycomb model, which corresponds to $\mathrm{U}(1)_2$ and Ising topological order respectively. The letter establishes a numerical method to obtain a set of obstructions to the gappable edge of (2+1)D bosonic topological order beyond $c_-$. We also point out that the expectation values of the partial rotation on a single wavefunction put a constraint on the low-energy spectrum of the bulk-boundary system of (2+1)D bosonic topological order, reminiscent of the Lieb-Schultz-Mattis type theorems.
翻訳日:2023-03-29 00:06:29 公開日:2023-03-25
# 拡張貯留層アプローチによる周期駆動傾斜格子の輸送:連続体限界の回復のための安定性基準

Transport in a periodically--driven tilted lattice via the extended reservoir approach: Stability criterion for recovering the continuum limit ( http://arxiv.org/abs/2303.04160v2 )

ライセンス: Link先を確認
Bitan De, Gabriela Wojtowicz, Jakub Zakrzewski, Michael Zwolak, Marek M. Rams(参考訳) 拡張された貯水池は、ナノスケールの接触、不純物、または材料を介して電流を駆動する金属電極のような、マクロな連続的な環境を捉えるための枠組みを提供する。 We examine the application of this approach to periodically--driven systems, specifically in the context of quantum transport. As with non--equilibrium steady states in time--independent scenarios, the current displays a Kramers' turnover including the formation of a plateau region that captures the physical, continuum limit response. We demonstrate that a simple stability criteria identifies an appropriate relaxation rate to target this physical plateau. Using this approach, we study quantum transport through a periodically--driven tilted lattice coupled to two metallic reservoirs held at a finite bias and temperature. このモデルを用いて拡張貯留層アプローチのベンチマークを行い,安定性評価を行った。 系と貯水池が弱結合すると、この極限において十分に理解された物理的挙動を回復する。拡張された貯水池は強い結合と非線形応答にも対処できる。そこで、駆動格子内の力学に輸送がどのように反応するかを分析する。 これらの結果は、多体浮動小数点状態のような周期的に駆動される量子システムに拡張貯水池アプローチを使用するための基礎を定めている。

Extended reservoirs provide a framework for capturing macroscopic, continuum environments, such as metallic electrodes driving a current through a nanoscale contact, impurity, or material. We examine the application of this approach to periodically--driven systems, specifically in the context of quantum transport. As with non--equilibrium steady states in time--independent scenarios, the current displays a Kramers' turnover including the formation of a plateau region that captures the physical, continuum limit response. We demonstrate that a simple stability criteria identifies an appropriate relaxation rate to target this physical plateau. Using this approach, we study quantum transport through a periodically--driven tilted lattice coupled to two metallic reservoirs held at a finite bias and temperature. We use this model to benchmark the extended reservoir approach and assess the stability criteria. When the system and reservoir are weakly coupled, the approach recovers well--understood physical behavior in this limit. Extended reservoirs enable addressing strong coupling and non--linear response as well, where we analyze how transport responds to the dynamics inside the driven lattice. These results set the foundations for the use of extended reservoir approach for periodically-driven, quantum systems, such as many--body Floquet states.
翻訳日:2023-03-29 00:05:45 公開日:2023-03-25
# 光媒体におけるコヒーレントおよびフォック状態符号化による量子ステレオグラフィ

Quantum Steganography via Coherent and Fock State Encoding in an Optical Medium ( http://arxiv.org/abs/2303.02307v2 )

ライセンス: Link先を確認
Bruno Avritzer and Todd Brun(参考訳) ステガノグラフィーは暗号の代替手段であり、情報が秘密裏に保護され、無実のコミュニケーションやノイズに変装される。 本研究では,光通信におけるフォックとコヒーレント状態を用いたステガノグラフィー通信のスキームを開発した。 我々は,全能な盗聴器の場合の効率の限界を導出し,ノイズレスチャネルの場合の符号化と誤り訂正の明確な方法を提供する。

Steganography is an alternative to cryptography, where information is protected by secrecy -- being disguised as innocent communication or noise -- rather than being scrambled. In this work we develop schemes for steganographic communication using Fock and coherent states in optical channels based on disguising the communications as thermal noise. We derive bounds on their efficiency in the case of an all-powerful eavesdropper, and provide explicit methods of encoding and error correction for the noiseless channel case.
翻訳日:2023-03-29 00:04:47 公開日:2023-03-25
# 点雲マッチングのための回転不変変圧器

Rotation-Invariant Transformer for Point Cloud Matching ( http://arxiv.org/abs/2303.08231v2 )

ライセンス: Link先を確認
Hao Yu, Zheng Qin, Ji Hou, Mahdi Saleh, Dongsheng Li, Benjamin Busam, Slobodan Ilic(参考訳) 内在的な回転不変性は、手作りのディスクリプタと一致する点雲の中核にある。 しかし、データ拡張によって外在的に回転不変性を得る最近のディープマッカーによって広く軽蔑されている。 有限個の増進回転が連続な SO(3) 空間にまたがることができないので、これらの方法は通常、まれに見られるような対向回転の不安定性を示す。 そこで,本稿では,ポイントクラウドマッチングタスクのポーズ変化に対応する回転不変変圧器roitrを紹介する。 我々は地域レベルとグローバルレベルの両方に貢献する。 局所レベルから,新しいアテンションベースのエンコーダデコーダアーキテクチャを構築したポーズ不変幾何を記述するために,ポイントペア特徴(PPF)ベースの座標を組み込んだアテンション機構を導入する。 さらに,自己認識機構によって学習された回転不変なクロスフレーム空間認識を備えたグローバルトランスフォーマーを提案する。 厳密なベンチマークと非厳密なベンチマークの両方で実験が行われ、RoITrは低い重なり合いのシナリオにおいて、すべての最先端モデルよりかなり優れている。 特に、挑戦的な3dlomatchベンチマークで回転が拡大されると、roitrは、それぞれ、異常率と登録リコールの点で、既存の手法を少なくとも13ポイントと5ポイント上回る。

The intrinsic rotation invariance lies at the core of matching point clouds with handcrafted descriptors. However, it is widely despised by recent deep matchers that obtain the rotation invariance extrinsically via data augmentation. As the finite number of augmented rotations can never span the continuous SO(3) space, these methods usually show instability when facing rotations that are rarely seen. To this end, we introduce RoITr, a Rotation-Invariant Transformer to cope with the pose variations in the point cloud matching task. We contribute both on the local and global levels. Starting from the local level, we introduce an attention mechanism embedded with Point Pair Feature (PPF)-based coordinates to describe the pose-invariant geometry, upon which a novel attention-based encoder-decoder architecture is constructed. We further propose a global transformer with rotation-invariant cross-frame spatial awareness learned by the self-attention mechanism, which significantly improves the feature distinctiveness and makes the model robust with respect to the low overlap. Experiments are conducted on both the rigid and non-rigid public benchmarks, where RoITr outperforms all the state-of-the-art models by a considerable margin in the low-overlapping scenarios. Especially when the rotations are enlarged on the challenging 3DLoMatch benchmark, RoITr surpasses the existing methods by at least 13 and 5 percentage points in terms of Inlier Ratio and Registration Recall, respectively.
翻訳日:2023-03-28 23:58:03 公開日:2023-03-25
# エージェントベース市場モデルと相互作用する多くの学習エージェント

Many learning agents interacting with an agent-based market model ( http://arxiv.org/abs/2303.07393v2 )

ライセンス: Link先を確認
Matthew Dicks, Andrew Paskaramoothy, Tim Gebbie(参考訳) 我々は,金融市場のリアクティブエージェントベースモデル(ABM)とイベント時に相互作用する複数の強化学習最適実行取引エージェントのダイナミクスと相互作用を考察する。 このモデルは、最適な実行学習エージェント、最小限の知的流動性テイカー、高速な電子流動性プロバイダによって表される3つの栄養レベルを持つ市場エコロジーを表している。 最適な実行エージェントクラスには、制限注文と市場注文の組み合わせを使用できる購入および販売エージェント、または市場注文を使用した貿易のみが含まれる。 報酬関数は、注文をタイムリーに実行しないペナルティに対して、取引実行スリップを明示的にバランスさせる。 この研究は、エージェントの数、エージェントの初期注文のサイズ、学習に使用される状態空間の関数として、複数の競合する学習エージェントが、最小限のインテリジェントな市場シミュレーションにどのように影響するかを示す。 我々は、様々な学習エージェントの仕様が含まれている場合、abmのダイナミクスを調べるために位相空間プロットを用いる。 さらに、学習可能な最適な実行エージェントが、経験的データと同じ複雑さでダイナミクスを生み出すことができるかどうかについて検討する。 最適な実行エージェントを組み込むことで、ABMが作り出したスタイル化された事実を経験的データに適合させることができ、市場マイクロ構造を調査する上で必要となるものとなる。 しかし, 実験データから得られた複雑性を回復するには, チャート-基礎-ノイズABMの実行エージェントを含めるには不十分である。

We consider the dynamics and the interactions of multiple reinforcement learning optimal execution trading agents interacting with a reactive Agent-Based Model (ABM) of a financial market in event time. The model represents a market ecology with 3-trophic levels represented by: optimal execution learning agents, minimally intelligent liquidity takers, and fast electronic liquidity providers. The optimal execution agent classes include buying and selling agents that can either use a combination of limit orders and market orders, or only trade using market orders. The reward function explicitly balances trade execution slippage against the penalty of not executing the order timeously. This work demonstrates how multiple competing learning agents impact a minimally intelligent market simulation as functions of the number of agents, the size of agents' initial orders, and the state spaces used for learning. We use phase space plots to examine the dynamics of the ABM, when various specifications of learning agents are included. Further, we examine whether the inclusion of optimal execution agents that can learn is able to produce dynamics with the same complexity as empirical data. We find that the inclusion of optimal execution agents changes the stylised facts produced by ABM to conform more with empirical data, and are a necessary inclusion for ABMs investigating market micro-structure. However, including execution agents to chartist-fundamentalist-noise ABMs is insufficient to recover the complexity observed in empirical data.
翻訳日:2023-03-28 23:56:26 公開日:2023-03-25
# フラットトップレーザービームを用いた原子超ヘテロダイン受信機の雑音解析

Noise analysis of the atomic superheterodyne receiver based on flat-top laser beams ( http://arxiv.org/abs/2303.06421v2 )

ライセンス: Link先を確認
Zheng Wang, Mingyong Jing, Peng Zhang, Shaoxin Yuan, Hao Zhang, Linjie Zhang, Liantuan Xiao, Suotang Jia(参考訳) 理論的感度は量子ノイズによって制限されるため、リドバーグ原子に基づく電波センシングは、従来の感度で置き換える可能性があり、近年急速に発展している。 しかし、最も感度の高い原子電波センサとして、原子超ヘテロダイン受信機は、理論的感度を達成するための詳細なノイズ解析を欠いている。 本研究では, 平面励起レーザ光の直径を変化させて原子数を精密に制御する原子数に対して, 原子受信機のノイズパワースペクトルを定量的に検討した。 その結果、励起ビームの直径が2mm以下で読み出し周波数が70khz以上である実験条件下では、原子受信機の感度は量子ノイズのみに制限され、その他の条件では古典ノイズに制限されることが示されている。 しかし、この原子受信機が到達する実験的量子射影-ノイズ制限感度は理論感度とはかけ離れたものである。 これは、光と原子の相互作用に関与する全ての原子がノイズに寄与するからであるが、電波遷移に関与している原子のほんの一部だけが貴重な信号を提供することができるからである。 同時に、理論感度の計算は、ノイズと信号の両方が同じ量の原子によって寄与されると考えている。 この研究は原子レシーバーの感度を究極の限界に達するのに不可欠であり、量子精度測定において重要である。

Since its theoretical sensitivity is limited by quantum noise, radio wave sensing based on Rydberg atoms has the potential to replace its traditional counterparts with higher sensitivity and has developed rapidly in recent years. However, as the most sensitive atomic radio wave sensor, the atomic superheterodyne receiver lacks a detailed noise analysis to pave its way to achieve theoretical sensitivity. In this work, we quantitatively study the noise power spectrum of the atomic receiver versus the number of atoms, where the number of atoms is precisely controlled by changing the diameters of flat-top excitation laser beams. The results show that under the experimental conditions that the diameters of excitation beams are less than or equal to 2 mm and the read-out frequency is larger than 70 kHz, the sensitivity of the atomic receiver is limited only by the quantum noise and, in the other conditions, limited by classical noises. However, the experimental quantum-projection-noise-limited sensitivity this atomic receiver reaches is far from the theoretical sensitivity. This is because all atoms involved in light-atom interaction will contribute to noise, but only a fraction of them participating in the radio wave transition can provide valuable signals. At the same time, the calculation of the theoretical sensitivity considers both the noise and signal are contributed by the same amount of atoms. This work is essential in making the sensitivity of the atomic receiver reach its ultimate limit and is significant in quantum precision measurement.
翻訳日:2023-03-28 23:55:44 公開日:2023-03-25
# 一般化可能な人文推定のための自己補正可能で適応可能な推論

Self-Correctable and Adaptable Inference for Generalizable Human Pose Estimation ( http://arxiv.org/abs/2303.11180v2 )

ライセンス: Link先を確認
Zhehan Kan, Shuoshuo Chen, Ce Zhang, Yushun Tang, Zhihai He(参考訳) 人間のポーズ推定や、他の多くの機械学習や予測タスクにおける中心的な課題は、一般化の問題である。 学習したネットワークは、予測誤差を特徴付ける能力を持たず、テストサンプルからフィードバック情報を生成し、個々のテストサンプルごとにフライ上の予測誤差を補正し、一般化における性能を低下させる。 本研究では,ネットワーク予測の一般化課題に対処する自己補正型適応型推論(SCAI)手法を導入し,その効果と性能を示す例として人間のポーズ推定を用いる。 我々は、フィットネスフィードバックエラーによって条件付けられた予測結果を補正する修正ネットワークを学習する。 このフィードバックエラーは、予測結果を元の入力領域にマッピングし、元の入力と比較する学習型フィットネスフィードバックネットワークによって生成される。 興味深いことに、この自己参照フィードバックエラーは実際の予測誤差と非常に相関している。 この強い相関関係は、この誤りを補正プロセスを導くフィードバックとして使用できることを示唆している。 また、推論プロセス中に修正ネットワークを迅速に適応し最適化するための損失関数としても使用できる。 ヒトのポーズ推定に関する広範な実験結果から,提案手法は人間のポーズ推定の一般化能力と性能を大幅に向上させることができることが示された。

A central challenge in human pose estimation, as well as in many other machine learning and prediction tasks, is the generalization problem. The learned network does not have the capability to characterize the prediction error, generate feedback information from the test sample, and correct the prediction error on the fly for each individual test sample, which results in degraded performance in generalization. In this work, we introduce a self-correctable and adaptable inference (SCAI) method to address the generalization challenge of network prediction and use human pose estimation as an example to demonstrate its effectiveness and performance. We learn a correction network to correct the prediction result conditioned by a fitness feedback error. This feedback error is generated by a learned fitness feedback network which maps the prediction result to the original input domain and compares it against the original input. Interestingly, we find that this self-referential feedback error is highly correlated with the actual prediction error. This strong correlation suggests that we can use this error as feedback to guide the correction process. It can be also used as a loss function to quickly adapt and optimize the correction network during the inference process. Our extensive experimental results on human pose estimation demonstrate that the proposed SCAI method is able to significantly improve the generalization capability and performance of human pose estimation.
翻訳日:2023-03-28 23:39:22 公開日:2023-03-25
# 変形可能な物体マニピュレーションのための目視の精度の学習

Learning Foresightful Dense Visual Affordance for Deformable Object Manipulation ( http://arxiv.org/abs/2303.11057v2 )

ライセンス: Link先を確認
Ruihai Wu, Chuanruo Ning, Hao Dong(参考訳) 変形可能な物体(例えばロープや布地)の理解と操作は、幅広い応用において不可欠だが困難な課題である。 困難は複雑な状態とダイナミクス、多様な構成、変形可能な物体の高次元の作用空間から生じる。 さらに、操作タスクは通常、達成するために複数のステップを必要とし、欲求的なポリシーは容易に局所的な最適状態につながる可能性がある。 既存の研究は通常、強化学習や専門家のデモンストレーションを模倣してこの問題に取り組み、複雑な状態をモデル化したり、手作りのエキスパートポリシーを必要とする。 本稿では,多種多様な状態への一般化をめざして,高密度な視覚能力を用いた変形可能な物体の操作について検討し,長期的操作のための状態値の推定により局所的最適性を回避する新しい種類の高密度物体の操作法を提案する。 本稿では,多段階安定学習や効率的な自己教師付きデータ収集など,専門家のいない新しい設計を用いて,この表現を学習するためのフレームワークを提案する。 提案した高密度化の優位性を示す実験を行った。 プロジェクトページ: https://hyperplane-lab.github.io/deformableaffordance

Understanding and manipulating deformable objects (e.g., ropes and fabrics) is an essential yet challenging task with broad applications. Difficulties come from complex states and dynamics, diverse configurations and high-dimensional action space of deformable objects. Besides, the manipulation tasks usually require multiple steps to accomplish, and greedy policies may easily lead to local optimal states. Existing studies usually tackle this problem using reinforcement learning or imitating expert demonstrations, with limitations in modeling complex states or requiring hand-crafted expert policies. In this paper, we study deformable object manipulation using dense visual affordance, with generalization towards diverse states, and propose a novel kind of foresightful dense affordance, which avoids local optima by estimating states' values for long-term manipulation. We propose a framework for learning this representation, with novel designs such as multi-stage stable learning and efficient self-supervised data collection without experts. Experiments demonstrate the superiority of our proposed foresightful dense affordance. Project page: https://hyperplane-lab.github.io/DeformableAffordance
翻訳日:2023-03-28 23:39:01 公開日:2023-03-25
# リアルタイム3次元セマンティックシーン補完 -特徴集約と条件付き予測-

Real-time 3D Semantic Scene Completion Via Feature Aggregation and Conditioned Prediction ( http://arxiv.org/abs/2303.10967v2 )

ライセンス: Link先を確認
Xiaokang Chen, Yajie Xing and Gang Zeng(参考訳) semantic scene completion (ssc) は、3dシーンの体積占有率と意味カテゴリーを同時に予測することを目的としている。 本稿では,特徴集約戦略と条件付き予測モジュールを用いたリアルタイムなセマンティックシーン補完手法を提案する。 特徴集約は、異なる受容フィールドで機能を融合し、コンテキストを収集してシーン完了のパフォーマンスを改善する。 そして、条件付き予測モジュールは、2段階の予測スキームを採用し、容積占有をセマンティックコンプリート予測を強化する条件とする。 我々は,NYU,NYUCAD,SUNCGの3つの評価ベンチマーク実験を行った。 提案手法は,GTX 1080 Ti GPU上で110FPSの速度で競合性能を実現する。

Semantic Scene Completion (SSC) aims to simultaneously predict the volumetric occupancy and semantic category of a 3D scene. In this paper, we propose a real-time semantic scene completion method with a feature aggregation strategy and conditioned prediction module. Feature aggregation fuses feature with different receptive fields and gathers context to improve scene completion performance. And the conditioned prediction module adopts a two-step prediction scheme that takes volumetric occupancy as a condition to enhance semantic completion prediction. We conduct experiments on three recognized benchmarks NYU, NYUCAD, and SUNCG. Our method achieves competitive performance at a speed of 110 FPS on one GTX 1080 Ti GPU.
翻訳日:2023-03-28 23:38:19 公開日:2023-03-25
# 視覚プロンプトマルチモーダルトラッキング

Visual Prompt Multi-Modal Tracking ( http://arxiv.org/abs/2303.10826v2 )

ライセンス: Link先を確認
Jiawen Zhu, Simiao Lai, Xin Chen, Dong Wang, Huchuan Lu(参考訳) Visible-Modalオブジェクトトラッキングは、一連の下流のマルチモーダルトラッキング支流を引き起こす。 基礎モデルの強力な表現を継承するために、マルチモーダルトラッキングのための自然なモードオペランドディは、RGBベースのパラメータをフルチューニングする。 効果はあるものの、下流データの不足や転送性が低いなど、この方法は最適ではない。 本稿では,近年の言語モデルにおけるプロンプト学習の成功に触発されて,様々な下流のマルチモーダル追跡タスクに凍った基礎モデルを適用するためのモーダル関連プロンプトを学習する視覚プロンプトマルチモーダルトラッキング(vipt)を開発した。 ViPTは、スケールで事前トレーニングされているRGBベースのモデルの知識を刺激するより良い方法を見つける一方で、トレーニング可能なパラメータ(モデルのパラメータの1%未満)をわずかに導入する。 viptは、rgb+depth、rgb+thermal、rgb+event trackingなど、複数のダウンストリームトラッキングタスクの完全な微調整パラダイムを上回る。 広範囲な実験により、マルチモーダルトラッキングのための視覚的プロンプト学習の可能性を示し、viptはパラメータ効率を満足しながら最先端のパフォーマンスを達成できる。 コードとモデルはhttps://github.com/jiawen-zhu/viptで入手できる。

Visible-modal object tracking gives rise to a series of downstream multi-modal tracking tributaries. To inherit the powerful representations of the foundation model, a natural modus operandi for multi-modal tracking is full fine-tuning on the RGB-based parameters. Albeit effective, this manner is not optimal due to the scarcity of downstream data and poor transferability, etc. In this paper, inspired by the recent success of the prompt learning in language models, we develop Visual Prompt multi-modal Tracking (ViPT), which learns the modal-relevant prompts to adapt the frozen pre-trained foundation model to various downstream multimodal tracking tasks. ViPT finds a better way to stimulate the knowledge of the RGB-based model that is pre-trained at scale, meanwhile only introducing a few trainable parameters (less than 1% of model parameters). ViPT outperforms the full fine-tuning paradigm on multiple downstream tracking tasks including RGB+Depth, RGB+Thermal, and RGB+Event tracking. Extensive experiments show the potential of visual prompt learning for multi-modal tracking, and ViPT can achieve state-of-the-art performance while satisfying parameter efficiency. Code and models are available at https://github.com/jiawen-zhu/ViPT.
翻訳日:2023-03-28 23:37:09 公開日:2023-03-25
# 勾配類似性を用いたデータ効率の高い大規模位置認識

Data-efficient Large Scale Place Recognition with Graded Similarity Supervision ( http://arxiv.org/abs/2303.11739v2 )

ライセンス: Link先を確認
Maria Leyva-Vallina, Nicola Strisciuglio, Nicolai Petkov(参考訳) 視覚的位置認識(VPR)はコンピュータビジョンの基本課題である。 既存の方法は、同じ場所を描いていないイメージペアを使って訓練される。 このような二項表示は、カメラポーズの連続性によって決定される、異なる位置から取られた同じ場所の画像間の類似性の連続関係を考慮しない。 バイナリ類似性は、局所的なミニマで停止し、収束を保証するために高価なハードマイニングアルゴリズムを必要とするvpr法のトレーニングにノイズの多い監視信号を誘導する。 同じ場所にある2つの画像が、カメラの違いによる視覚的な手がかりを部分的に共有しているという事実に動機づけられ、vprデータセットを再ラベルする自動再注釈戦略を展開する。 利用可能なローカライゼーションメタデータに基づいて画像ペアのグレードの類似度ラベルを計算する。 さらに,コントラストネットワークの学習に段階的類似性ラベルを用いた新しい一般化コントラスト損失(gcl)を提案する。 新しいラベルとgclを使用することで、ハードペアマイニングを不要にし、近接探索によってvprで優れた画像記述子を訓練し、高価なハードペアマイニングと再ランク付け技術を必要とする方法よりも優れた結果を得ることができる。 https://github.com/marialeyvallina/generalized_contrastive_loss

Visual place recognition (VPR) is a fundamental task of computer vision for visual localization. Existing methods are trained using image pairs that either depict the same place or not. Such a binary indication does not consider continuous relations of similarity between images of the same place taken from different positions, determined by the continuous nature of camera pose. The binary similarity induces a noisy supervision signal into the training of VPR methods, which stall in local minima and require expensive hard mining algorithms to guarantee convergence. Motivated by the fact that two images of the same place only partially share visual cues due to camera pose differences, we deploy an automatic re-annotation strategy to re-label VPR datasets. We compute graded similarity labels for image pairs based on available localization metadata. Furthermore, we propose a new Generalized Contrastive Loss (GCL) that uses graded similarity labels for training contrastive networks. We demonstrate that the use of the new labels and GCL allow to dispense from hard-pair mining, and to train image descriptors that perform better in VPR by nearest neighbor search, obtaining superior or comparable results than methods that require expensive hard-pair mining and re-ranking techniques. Code and models available at: https://github.com/marialeyvallina/generalized_contrastive_loss
翻訳日:2023-03-28 23:30:55 公開日:2023-03-25
# 離散極座標方程式解に基づくアンカーフリーリモートセンシング検出器

Anchor Free remote sensing detector based on solving discrete polar coordinate equation ( http://arxiv.org/abs/2303.11694v2 )

ライセンス: Link先を確認
Linfeng Shi, Yan Li, Xi Zhu(参考訳) 近年、深度学習の急速な発展に伴い、アビアティックなリモートセンシング画像における物体検出が普及している。 現在のアンカーフリー検出器のほとんどは、水平境界ボックスに基づく物体損失関数を設計し、キーポイント検出サンプリングによる直接回帰と分類特性に基づいている。 複雑で多様なリモートセンシングオブジェクトにとって、より困難である。 本稿では,回転および多スケール物体を検出するためのアンカーフリーアビアティックリモートセンシング物体検出器(bwp-det)を提案する。 具体的には,一方の枝を徐々にアップサンプリングしてヒートマップの予測を行い,もう一方の枝を境界ボックスパラメータの回帰に使用する対話型ダブルブランチ(idb)アップサンプリングネットワークを設計する。 前景と背景の違いを強調するために,重み付きマルチスケール畳み込み(wmconv)を改善した。 中層からPixelレベルの注目特徴を抽出し、2つのブランチを誘導し、サンプリングプロセスにおいて有効なオブジェクト情報に注意を払う。 最後に、水平IoUの計算アイデアを参考に、分割極座標平面に基づいて回転IoUを設計し、回転有界箱の内楕円の離散化にともなう交叉比として表現し、回転有界箱の回帰過程における角度と側長の相関を解く。 最終的に、DOTA、UCAS-AOD、NWPU VHR-10データセットに関する実験であるBWP-Detは、より単純なモデルとより少ない回帰パラメータで高度な性能を実現する。

As the rapid development of depth learning, object detection in aviatic remote sensing images has become increasingly popular in recent years. Most of the current Anchor Free detectors based on key point detection sampling directly regression and classification features, with the design of object loss function based on the horizontal bounding box. It is more challenging for complex and diverse aviatic remote sensing object. In this paper, we propose an Anchor Free aviatic remote sensing object detector (BWP-Det) to detect rotating and multi-scale object. Specifically, we design a interactive double-branch(IDB) up-sampling network, in which one branch gradually up-sampling is used for the prediction of Heatmap, and the other branch is used for the regression of boundary box parameters. We improve a weighted multi-scale convolution (WmConv) in order to highlight the difference between foreground and background. We extracted Pixel level attention features from the middle layer to guide the two branches to pay attention to effective object information in the sampling process. Finally, referring to the calculation idea of horizontal IoU, we design a rotating IoU based on the split polar coordinate plane, namely JIoU, which is expressed as the intersection ratio following discretization of the inner ellipse of the rotating bounding box, to solve the correlation between angle and side length in the regression process of the rotating bounding box. Ultimately, BWP-Det, our experiments on DOTA, UCAS-AOD and NWPU VHR-10 datasets show, achieves advanced performance with simpler models and fewer regression parameters.
翻訳日:2023-03-28 23:30:17 公開日:2023-03-25
# 訓練効率を最大化するスパースIso-FLOP変換

Sparse Iso-FLOP Transformations for Maximizing Training Efficiency ( http://arxiv.org/abs/2303.11525v2 )

ライセンス: Link先を確認
Shreyas Saxena, Vithursan Thangarasa, Abhay Gupta, Sean Lie(参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)のトレーニング効率(テスト精度w.r.tトレーニングFLOPs)を改善するために重量空間の利用について検討されている。 これらの作業は、FLOPのトレーニングを減らすことを目的としているが、低重量のトレーニングは、しばしば精度の低下につながるか、より長いトレーニングスケジュールを必要とする。 対照的に,密度モデルと同じフラップを用いて精度を高めるためにsparsityを使用し,高い精度でトレーニング効率の向上を示すことに着目した。 本研究では,Sparse-IFT(Sparse-Iso-FLOP変換系)を導入し,Sparse-IFTを高密度層へのドロップイン置換として使用することにより,表現能力とFLOP効率を向上させる。 各変換は単一のハイパーパラメータ(スパースレベル)でパラメータ化され、最適なスパースマスクを見つけるための大きな探索空間を提供する。 トレーニングハイパーパラメータを変更することなく、密度の高い層をSparse-IFTに置き換えることで、コンピュータビジョン(CV)と自然言語処理(NLP)タスク間で大幅に改善され、ImageNetのResNet-18(+3.5%)とWikiText-103のGPT-3 Small(-0.4 PPL)はどちらも2x以上のFLOPを使用する大型の高密度モデル変種と一致する。 我々の知る限り、これはスパース変換の単純対用セットを通して密度モデルの精度を向上させるためにスパース性を利用する最初の研究である。 コードはhttps://github.com/cerebrasresearch/sparse-ift。

Recent works have explored the use of weight sparsity to improve the training efficiency (test accuracy w.r.t training FLOPs) of deep neural networks (DNNs). These works aim to reduce training FLOPs but training with sparse weights often leads to accuracy loss or requires longer training schedules, making the resulting training efficiency less clear. In contrast, we focus on using sparsity to increase accuracy while using the same FLOPs as the dense model and show training efficiency gains through higher accuracy. In this work, we introduce Sparse-IFT, a family of Sparse Iso-FLOP Transformations which are used as drop-in replacements for dense layers to improve their representational capacity and FLOP efficiency. Each transformation is parameterized by a single hyperparameter (sparsity level) and provides a larger search space to find optimal sparse masks. Without changing any training hyperparameters, replacing dense layers with Sparse-IFT leads to significant improvements across computer vision (CV) and natural language processing (NLP) tasks, including ResNet-18 on ImageNet (+3.5%) and GPT-3 Small on WikiText-103 (-0.4 PPL), both matching larger dense model variants that use 2x or more FLOPs. To our knowledge, this is the first work to demonstrate the use of sparsity for improving the accuracy of dense models via a simple-to-use set of sparse transformations. Code is available at: https://github.com/CerebrasResearch/Sparse-IFT.
翻訳日:2023-03-28 23:29:16 公開日:2023-03-25
# stdlens: オブジェクト検出のためのモデルハイジャック・レジリエントな連合学習

STDLens: Model Hijacking-Resilient Federated Learning for Object Detection ( http://arxiv.org/abs/2303.11511v2 )

ライセンス: Link先を確認
Ka-Ho Chow, Ling Liu, Wenqi Wei, Fatih Ilhan, Yanzhao Wu(参考訳) Federated Learning (FL)は、ディープラーニングに基づくオブジェクト検出モデルをクライアントの分散集団でトレーニングするための協調学習フレームワークとして人気を集めている。 その利点にもかかわらず、FLはモデルハイジャックに弱い。 攻撃者は、協調学習プロセスにおいて、少数の妥協されたクライアントのみを使用して、トロイの木馬勾配を埋め込むことで、オブジェクト検出システムがどう振る舞うべきかを制御できる。 本稿では,このような攻撃に対してFLを保護するための原則的アプローチであるSTDLensを紹介する。 まず,既存の緩和機構を調査し,勾配上の空間クラスタリング解析における固有誤差による障害の解析を行う。 この知見に基づいて, トロイの木馬の勾配を識別し, 駆除し, flにおける性能を回復するための三層法医学的枠組みを提案する。 3種類のアダプティブアタックを考慮し,STDLの高度な敵に対する堅牢性を示す。 広汎な実験により、STDLensはFLを異なるモデルハイジャック攻撃から保護し、より高精度で偽陽性率の低いトロイの木馬勾配を識別・除去する既存の方法より優れていた。

Federated Learning (FL) has been gaining popularity as a collaborative learning framework to train deep learning-based object detection models over a distributed population of clients. Despite its advantages, FL is vulnerable to model hijacking. The attacker can control how the object detection system should misbehave by implanting Trojaned gradients using only a small number of compromised clients in the collaborative learning process. This paper introduces STDLens, a principled approach to safeguarding FL against such attacks. We first investigate existing mitigation mechanisms and analyze their failures caused by the inherent errors in spatial clustering analysis on gradients. Based on the insights, we introduce a three-tier forensic framework to identify and expel Trojaned gradients and reclaim the performance over the course of FL. We consider three types of adaptive attacks and demonstrate the robustness of STDLens against advanced adversaries. Extensive experiments show that STDLens can protect FL against different model hijacking attacks and outperform existing methods in identifying and removing Trojaned gradients with significantly higher precision and much lower false-positive rates.
翻訳日:2023-03-28 23:28:42 公開日:2023-03-25
# False Negative Aware Contrastive Learning を用いたオーディオ・ビジュアル・ソース・ローカライゼーションの学習

Learning Audio-Visual Source Localization via False Negative Aware Contrastive Learning ( http://arxiv.org/abs/2303.11302v2 )

ライセンス: Link先を確認
Weixuan Sun and Jiayi Zhang and Jianyuan Wang and Zheyuan Liu and Yiran Zhong and Tianpeng Feng and Yandong Guo and Yanhao Zhang and Nick Barnes(参考訳) self-supervised audio-visual source localizationは、追加のアノテーションなしでビデオフレーム内の音源オブジェクトを見つけることを目的としている。 最近の手法では、同じビデオの音声と視覚のみが互いに正のサンプルであると仮定したコントラスト学習の助けを借りて、この目標にしばしばアプローチしている。 しかし、この仮定は現実世界のトレーニングにおいて誤った負のサンプルに悩まされる。 例えば、オーディオサンプルの場合、同じオーディオクラスのフレームを負のサンプルとして扱うと、モデルを誤解させ、学習された表現を傷つける可能性がある。 そこで本研究では,このような偽陰性サンプルを用いた学習を誤解させる問題を軽減すべく,fnac(false negative aware contrastive)という新しい学習戦略を提案する。 具体的には、モーダル内類似性を利用して、潜在的に類似するサンプルを同定し、それに対応する隣接行列を構築し、コントラスト学習を導く。 さらに,音源の視覚的特徴を明示的に活用し,真正な音源領域の分化を促進することにより,真負のサンプルの役割を強化することを提案する。 FNACはFlickr-SoundNet, VGG-Sound, AVSBenchの最先端性能を実現し, 偽陰性問題を緩和する手法の有効性を実証する。 コードは \url{https://github.com/opennlplab/fnac_avl} で入手できる。

Self-supervised audio-visual source localization aims to locate sound-source objects in video frames without extra annotations. Recent methods often approach this goal with the help of contrastive learning, which assumes only the audio and visual contents from the same video are positive samples for each other. However, this assumption would suffer from false negative samples in real-world training. For example, for an audio sample, treating the frames from the same audio class as negative samples may mislead the model and therefore harm the learned representations e.g., the audio of a siren wailing may reasonably correspond to the ambulances in multiple images). Based on this observation, we propose a new learning strategy named False Negative Aware Contrastive (FNAC) to mitigate the problem of misleading the training with such false negative samples. Specifically, we utilize the intra-modal similarities to identify potentially similar samples and construct corresponding adjacency matrices to guide contrastive learning. Further, we propose to strengthen the role of true negative samples by explicitly leveraging the visual features of sound sources to facilitate the differentiation of authentic sounding source regions. FNAC achieves state-of-the-art performances on Flickr-SoundNet, VGG-Sound, and AVSBench, which demonstrates the effectiveness of our method in mitigating the false negative issue. The code is available at \url{https://github.com/OpenNLPLab/FNAC_AVL}.
翻訳日:2023-03-28 23:28:23 公開日:2023-03-25
# 教師なし領域適応セグメンテーションのための分布配向拡散とプロトタイプ誘導ネットワーク

Distribution Aligned Diffusion and Prototype-guided network for Unsupervised Domain Adaptive Segmentation ( http://arxiv.org/abs/2303.12313v2 )

ライセンス: Link先を確認
Haipeng Zhou, Lei Zhu, Yuyin Zhou(参考訳) 拡散確率モデル(DPM)はコンピュータビジョンの分野で非常に効果的な生成モデルとして登場した。 中間潜在ベクトルはリッチなセマンティック情報を提供し、セグメンテーションや検出といった下流タスクには魅力的な選択肢である。 その可能性をさらに探究するため、我々は一歩前進し、医療画像領域、特に教師なし適応条件下でのより複雑なシナリオを検討した。 そこで本研究では,非教師付きドメイン適応セグメンテーションのための拡散型およびプロトタイプ誘導型ネットワーク(DP-Net)を提案する。 具体的には、DP-Netは2つの段階から構成される。 1)DPMが生成する中間特徴の差を最小限に抑え、ドメイン間分布を整合させるために、ドメイン識別器を訓練することを含む分布調整拡散(DADiff) 2) 機能センタロイドをプロトタイプとして用いたpcl(prototype-guided consistency learning)は,セグメンタがソース領域とターゲット領域の両方から一貫性のあるコンテントを学習することを保証する。 本手法は,提案手法の性能が信頼性が高く,最先端手法よりも優れていることを示す一連の実験を通じて,基礎データセット上で評価される。 本研究は, 複雑な医用画像シナリオにおけるdpmの利用に有望な方向性を示し, 医用画像研究の新たな可能性を開く。

The Diffusion Probabilistic Model (DPM) has emerged as a highly effective generative model in the field of computer vision. Its intermediate latent vectors offer rich semantic information, making it an attractive option for various downstream tasks such as segmentation and detection. In order to explore its potential further, we have taken a step forward and considered a more complex scenario in the medical image domain, specifically, under an unsupervised adaptation condition. To this end, we propose a Diffusion-based and Prototype-guided network (DP-Net) for unsupervised domain adaptive segmentation. Concretely, our DP-Net consists of two stages: 1) Distribution Aligned Diffusion (DADiff), which involves training a domain discriminator to minimize the difference between the intermediate features generated by the DPM, thereby aligning the inter-domain distribution; and 2) Prototype-guided Consistency Learning (PCL), which utilizes feature centroids as prototypes and applies a prototype-guided loss to ensure that the segmentor learns consistent content from both source and target domains. Our approach is evaluated on fundus datasets through a series of experiments, which demonstrate that the performance of the proposed method is reliable and outperforms state-of-the-art methods. Our work presents a promising direction for using DPM in complex medical image scenarios, opening up new possibilities for further research in medical imaging.
翻訳日:2023-03-28 23:21:44 公開日:2023-03-25
# 重音を用いた確率的非平滑凸最適化

Stochastic Nonsmooth Convex Optimization with Heavy-Tailed Noises ( http://arxiv.org/abs/2303.12277v2 )

ライセンス: Link先を確認
Zijian Liu, Zhengyuan Zhou(参考訳) 近年、確率的最適化問題を考える研究がいくつかあるが、重み付きノイズレジーム、すなわち、確率的勾配と真の勾配の差は、(例えば、いくつかの$\sigma\geq0$ に対して$\sigma^{p}$ で上限されるような)有限の$p$-th モーメント(例えば、$p\in(1,2]$)を持つと仮定される。 この挑戦的な仮定の下では、凸問題や非凸問題に対して多くの新しい進歩がなされてきたが、そのほとんどは滑らかな目的しか考慮していない。 対照的に、関数が不眠である場合、人々はこの問題を十分に探求し、よく理解していない。 本稿では,重み付き雑音を用いた確率的非滑らか凸最適化の包括的解析により,この重要なギャップを埋めることを目的とする。 単純なクリッピングに基づくアルゴリズムを再検討するが、これは期待値に収束するだけでなく、さらに強い凸性仮定の下でも証明される。 パラメータの適切な選択の下では、凸関数と強凸関数の両方に対して、最初の高確率率を確立するだけでなく、既存の研究と比較して洗練された内部予測境界を与える。 驚くべきことに、すべての結果は、事前に$t$が不明であっても、時間軸$t$に関して最適(または対数係数までほぼ最適)である。 さらに、$\sigma$に対してアルゴリズムをパラメータフリーにする方法を示し、言い換えれば、$\sigma$の事前知識なしでも収束を保証することができる。

Recently, several studies consider the stochastic optimization problem but in a heavy-tailed noise regime, i.e., the difference between the stochastic gradient and the true gradient is assumed to have a finite $p$-th moment (say being upper bounded by $\sigma^{p}$ for some $\sigma\geq0$) where $p\in(1,2]$, which not only generalizes the traditional finite variance assumption ($p=2$) but also has been observed in practice for several different tasks. Under this challenging assumption, lots of new progress has been made for either convex or nonconvex problems, however, most of which only consider smooth objectives. In contrast, people have not fully explored and well understood this problem when functions are nonsmooth. This paper aims to fill this crucial gap by providing a comprehensive analysis of stochastic nonsmooth convex optimization with heavy-tailed noises. We revisit a simple clipping-based algorithm, whereas, which is only proved to converge in expectation but under the additional strong convexity assumption. Under appropriate choices of parameters, for both convex and strongly convex functions, we not only establish the first high-probability rates but also give refined in-expectation bounds compared with existing works. Remarkably, all of our results are optimal (or nearly optimal up to logarithmic factors) with respect to the time horizon $T$ even when $T$ is unknown in advance. Additionally, we show how to make the algorithm parameter-free with respect to $\sigma$, in other words, the algorithm can still guarantee convergence without any prior knowledge of $\sigma$.
翻訳日:2023-03-28 23:21:20 公開日:2023-03-25
# 数値計算のためのChatGPT

ChatGPT for Programming Numerical Methods ( http://arxiv.org/abs/2303.12093v2 )

ライセンス: Link先を確認
Ali Kashefi, Tapan Mukerji(参考訳) ChatGPTはOpenAI社によって最近リリースされた大きな言語モデルである。 本稿では,ChatGPTによる数値アルゴリズムのプログラミング能力について検討する。 具体的には,異なるプログラミング言語における数値アルゴリズムのコード生成,ユーザによる記述コードのデバッグと改善,数値コードの欠落部分の完了,他のプログラミング言語で利用可能なコード書き直し,シリアルコードの並列化など,GhatGPTの能力について検討する。 さらに、ChatGPTが人間や機械によって書かれたコードかどうかを評価する。 この目的を達成するために,ポアソン方程式,拡散方程式,非圧縮ナビエ-ストークス方程式,圧縮不可視流,固有値問題,方程式の線形系の解法,スパース行列の保存など,様々な数学的問題を考える。 さらに、物理インフォームドニューラルネットワークや畳み込みニューラルネットワークなどの科学機械学習と計算物理学への応用を実証する。 これらの例を通して、ChatGPTの成功、失敗、課題について調査する。 障害の例としては、特異行列の生成、非互換サイズの配列上の演算、比較的長いコードに対するプログラミング割り込みなどがある。 その結果、chatgptは異なるプログラミング言語で数値アルゴリズムをうまくプログラムできることが示唆されたが、この機械学習モデルのさらなる改善を必要とするいくつかの制限と課題が存在する。

ChatGPT is a large language model recently released by the OpenAI company. In this technical report, we explore for the first time the capability of ChatGPT for programming numerical algorithms. Specifically, we examine the capability of GhatGPT for generating codes for numerical algorithms in different programming languages, for debugging and improving written codes by users, for completing missed parts of numerical codes, rewriting available codes in other programming languages, and for parallelizing serial codes. Additionally, we assess if ChatGPT can recognize if given codes are written by humans or machines. To reach this goal, we consider a variety of mathematical problems such as the Poisson equation, the diffusion equation, the incompressible Navier-Stokes equations, compressible inviscid flow, eigenvalue problems, solving linear systems of equations, storing sparse matrices, etc. Furthermore, we exemplify scientific machine learning such as physics-informed neural networks and convolutional neural networks with applications to computational physics. Through these examples, we investigate the successes, failures, and challenges of ChatGPT. Examples of failures are producing singular matrices, operations on arrays with incompatible sizes, programming interruption for relatively long codes, etc. Our outcomes suggest that ChatGPT can successfully program numerical algorithms in different programming languages, but certain limitations and challenges exist that require further improvement of this machine learning model.
翻訳日:2023-03-28 23:20:21 公開日:2023-03-25
# 潜在グラフ推論のためのモデル空間の投影

Projections of Model Spaces for Latent Graph Inference ( http://arxiv.org/abs/2303.11754v2 )

ライセンス: Link先を確認
Haitz S\'aez de Oc\'ariz Borde, \'Alvaro Arroyo, Ingmar Posner(参考訳) グラフニューラルネットワークは、グラフの接続構造を帰納バイアスとして利用する。 潜在グラフ推論は、適切なグラフ構造を学習して、モデルの下流のパフォーマンスを拡散し改善することに焦点を当てる。 本研究では,双曲型および球面型モデル空間の立体射影とリーマン多様体の積を用いて,潜在グラフ推論を行う。 立体射影モデル空間は、曲率が0になる場合の空間の分岐を避ける理論的保証を提供しながら、その非射影モデル空間と同等の性能を達成する。 ホモフィルグラフとヘテロフィルグラフの両方で実験を行う。

Graph Neural Networks leverage the connectivity structure of graphs as an inductive bias. Latent graph inference focuses on learning an adequate graph structure to diffuse information on and improve the downstream performance of the model. In this work we employ stereographic projections of the hyperbolic and spherical model spaces, as well as products of Riemannian manifolds, for the purpose of latent graph inference. Stereographically projected model spaces achieve comparable performance to their non-projected counterparts, while providing theoretical guarantees that avoid divergence of the spaces when the curvature tends to zero. We perform experiments on both homophilic and heterophilic graphs.
翻訳日:2023-03-28 23:18:22 公開日:2023-03-25
# DPPMask:決定点プロセスを用いたマスク画像モデリング

DPPMask: Masked Image Modeling with Determinantal Point Processes ( http://arxiv.org/abs/2303.12736v2 )

ライセンス: Link先を確認
Junde Xu, Zikai Lin, Donghao Zhou, Yaodong Yang, Xiangyun Liao, Bian Wu, Guangyong Chen, Pheng-Ann Heng(参考訳) Masked Image Modeling (MIM)は、ランダムにマスキングされた画像の再構成を目的として、印象的な代表的性能を達成した。 実証的な成功にもかかわらず、過去のほとんどの研究は、モデルにマスクされた物体のような回復以上のものを再構築させるのは理にかなわないという重要な事実を無視してきた。 本研究では,従来研究で広く用いられてきた一様ランダムマスキングが,必然的に重要な対象をなくし,本来の意味情報を変更し,不整合問題を引き起こし,最終的には代表的学習を損なうことを示す。 この問題に対処するために,ランダムプロセスを行列点過程(dpps)で置換することで,マスキング後の画像の意味変化を低減し,新たなマスキング戦略(dppmask)をmimに導入する。 本手法は単純かつ効果的であり,様々なフレームワークに実装した場合,追加の学習パラメータは必要としない。 特に,本手法をMAEとiBOTの2つの代表的なMIMフレームワーク上で評価した。 DPPMaskは, マスキング比の低値と高値の両方でランダムサンプリングを上回り, DPPMaskが再構成作業をより合理的に行うことを示す。 また,本手法は様々なタスクにおいてより堅牢であることを示すため,背景課題と多クラス分類タスクでさらにテストを行った。

Masked Image Modeling (MIM) has achieved impressive representative performance with the aim of reconstructing randomly masked images. Despite the empirical success, most previous works have neglected the important fact that it is unreasonable to force the model to reconstruct something beyond recovery, such as those masked objects. In this work, we show that uniformly random masking widely used in previous works unavoidably loses some key objects and changes original semantic information, resulting in a misalignment problem and hurting the representative learning eventually. To address this issue, we augment MIM with a new masking strategy namely the DPPMask by substituting the random process with Determinantal Point Process (DPPs) to reduce the semantic change of the image after masking. Our method is simple yet effective and requires no extra learnable parameters when implemented within various frameworks. In particular, we evaluate our method on two representative MIM frameworks, MAE and iBOT. We show that DPPMask surpassed random sampling under both lower and higher masking ratios, indicating that DPPMask makes the reconstruction task more reasonable. We further test our method on the background challenge and multi-class classification tasks, showing that our method is more robust at various tasks.
翻訳日:2023-03-28 21:36:31 公開日:2023-03-25
# ビデオキャプションのための知識グラフ拡張トランスフォーマー付きテキスト

Text with Knowledge Graph Augmented Transformer for Video Captioning ( http://arxiv.org/abs/2303.12423v2 )

ライセンス: Link先を確認
Xin Gu, Guang Chen, Yufei Wang, Libo Zhang, Tiejian Luo, Longyin Wen(参考訳) ビデオキャプションは、自然言語を用いてビデオの内容を記述することを目的としている。 大幅な進展はあったが、主に長い単語の難しさのために、現実世界のアプリケーションの性能を改善する余地がまだたくさんある。 本稿では,ビデオキャプションのための知識グラフ付テキスト変換器(TextKG)を提案する。 特にTextKGは、外部ストリームと内部ストリームによって形成される2ストリームトランスフォーマーである。 外部ストリームは、事前構築された知識グラフなどの追加知識とビデオの内蔵情報、例えば、有能なオブジェクト領域、音声書き起こし、ビデオキャプションの間の相互作用をモデル化し、長い尾の単語の課題を軽減するために、追加知識を吸収するように設計されている。 一方、内部ストリームは、ビデオ中のマルチモダリティ情報(例えば、ビデオフレーム、音声転写、ビデオキャプションの出現)を利用して、キャプション結果の品質を保証するように設計されている。 また、2つのストリーム間の情報共有には、クロスアテンション機構も使用されている。 このようにして、2つのストリームは互いにより正確な結果を得るのに役立つ。 YouCookII, ActivityNet Captions, MSRVTT, MSVD の4つの挑戦的ビデオキャプションデータセットを用いた大規模な実験により,提案手法が最先端の手法に対して良好に動作することを示す。 具体的には、提案したTextKG法は、YouCookIIデータセットの18.7%の絶対CIDErスコアを改善して、最高の結果よりも優れている。

Video captioning aims to describe the content of videos using natural language. Although significant progress has been made, there is still much room to improve the performance for real-world applications, mainly due to the long-tail words challenge. In this paper, we propose a text with knowledge graph augmented transformer (TextKG) for video captioning. Notably, TextKG is a two-stream transformer, formed by the external stream and internal stream. The external stream is designed to absorb additional knowledge, which models the interactions between the additional knowledge, e.g., pre-built knowledge graph, and the built-in information of videos, e.g., the salient object regions, speech transcripts, and video captions, to mitigate the long-tail words challenge. Meanwhile, the internal stream is designed to exploit the multi-modality information in videos (e.g., the appearance of video frames, speech transcripts, and video captions) to ensure the quality of caption results. In addition, the cross attention mechanism is also used in between the two streams for sharing information. In this way, the two streams can help each other for more accurate results. Extensive experiments conducted on four challenging video captioning datasets, i.e., YouCookII, ActivityNet Captions, MSRVTT, and MSVD, demonstrate that the proposed method performs favorably against the state-of-the-art methods. Specifically, the proposed TextKG method outperforms the best published results by improving 18.7% absolute CIDEr scores on the YouCookII dataset.
翻訳日:2023-03-28 21:35:23 公開日:2023-03-25
# 安定性は安定 - 再現性、プライバシ、適応的一般化のつながり

Stability is Stable: Connections between Replicability, Privacy, and Adaptive Generalization ( http://arxiv.org/abs/2303.12921v2 )

ライセンス: Link先を確認
Mark Bun, Marco Gaboardi, Max Hopkins, Russell Impagliazzo, Rex Lei, Toniann Pitassi, Satchit Sivakumar, Jessica Sorrell(参考訳) レプリカブルアルゴリズムの概念は、Impagliazzo et alで導入された。 [STOC '22]は入力の再サンプリングの下で安定なランダム化アルゴリズムを記述する。 より正確には、replicableアルゴリズムは、ランダム性が固定され、同じ分布から新しいi.i.d.サンプル上で実行される場合に、高い確率で同じ出力を与える。 データ解析にレプリカブルアルゴリズムを用いることで、新たなデータセット上で解析を行う場合でも、分析結果が高い確率で同じになるようにして、公開結果の検証を容易にすることができる。 本研究では,複製性とアルゴリズム安定性の標準概念との新たな接続と分離を確立する。 特に、完全な一般化、近似微分プライバシー、幅広い統計問題に対する再現性の間のサンプル効率の高いアルゴリズム還元を与える。 逆に、そのような等価性は計算的に分解しなければならない: 差分プライバシー下では容易であるが、公開鍵暗号を破ることなく複製的に解決できない統計問題が存在する。 さらに、これらの結果は、統計的に最適であり、DPと複製性の間の計算的分離が一方向関数の存在を示唆していることを示す。 我々の統計的削減は、安定性の概念を翻訳するための新しいアルゴリズムの枠組みを与え、複製性とプライバシに関するいくつかのオープンな疑問に即座に答えられるようにします。 これには、様々なpac学習、分布推定、分布テスト問題のためのサンプル効率の高いレプリカブルアルゴリズム、近似dpにおける$\delta$のアルゴリズム増幅、アイテムレベルからユーザレベルのプライバシへの変換、構造化分布下での非依存から実現可能な学習削減の存在が含まれる。

The notion of replicable algorithms was introduced in Impagliazzo et al. [STOC '22] to describe randomized algorithms that are stable under the resampling of their inputs. More precisely, a replicable algorithm gives the same output with high probability when its randomness is fixed and it is run on a new i.i.d. sample drawn from the same distribution. Using replicable algorithms for data analysis can facilitate the verification of published results by ensuring that the results of an analysis will be the same with high probability, even when that analysis is performed on a new data set. In this work, we establish new connections and separations between replicability and standard notions of algorithmic stability. In particular, we give sample-efficient algorithmic reductions between perfect generalization, approximate differential privacy, and replicability for a broad class of statistical problems. Conversely, we show any such equivalence must break down computationally: there exist statistical problems that are easy under differential privacy, but that cannot be solved replicably without breaking public-key cryptography. Furthermore, these results are tight: our reductions are statistically optimal, and we show that any computational separation between DP and replicability must imply the existence of one-way functions. Our statistical reductions give a new algorithmic framework for translating between notions of stability, which we instantiate to answer several open questions in replicability and privacy. This includes giving sample-efficient replicable algorithms for various PAC learning, distribution estimation, and distribution testing problems, algorithmic amplification of $\delta$ in approximate DP, conversions from item-level to user-level privacy, and the existence of private agnostic-to-realizable learning reductions under structured distributions.
翻訳日:2023-03-28 21:25:00 公開日:2023-03-25
# 不完全データからのコーンビームCT再構成のためのサブボリュームベースデノイング拡散確率モデル

Sub-volume-based Denoising Diffusion Probabilistic Model for Cone-beam CT Reconstruction from Incomplete Data ( http://arxiv.org/abs/2303.12861v2 )

ライセンス: Link先を確認
Wenjun Xia, Chuang Niu, Wenxiang Cong, Ge Wang(参考訳) 深層学習(DL)はCT(Computerd tomography)分野における新たなアプローチとして,多くの応用例が登場している。 主な例は、スパースビュー画像再構成のような不完全なデータからのCT再構成である。 しかし,Sparse-view cone-beam CT (CBCT) に対するDLの適用は依然として困難である。 多くのモデルは、スパースビューct画像から基底真理へのマッピングを学習するが、しばしば十分な性能を達成できない。 シンノグラムデータを組み込んでデュアルドメイン再構築を行うことで、アーティファクト抑圧による画質の向上が図れるが、簡単な3d実装では3dシンノグラム全体をメモリに格納し、多くのパラメータをデュアルドメインネットワークに格納する必要がある。 これは依然として大きな課題であり、さらなる研究、開発、応用を制限する。 本稿では,ダウンサンプリングデータからのCBCT画像再構成のためのサブボリュームベース3次元拡散確率モデル(DDPM)を提案する。 完全にサンプリングされたシンノグラムとダウンサンプリングされたシンノグラムから抽出されたデータキューブに基づいてトレーニングされたddpmネットワークは、ダウンサンプリングされたシンノグラムを塗りつぶすために使用される。 提案手法はシンノグラム全体を重なり合う立方体に分割し、複数のgpu上で並列に処理し、メモリ制限を克服する。 実験結果から,本手法はテクストの細部を忠実に保存しながら,少数視点のアーティファクトを効果的に抑制することを示した。

Deep learning (DL) has emerged as a new approach in the field of computed tomography (CT) with many applicaitons. A primary example is CT reconstruction from incomplete data, such as sparse-view image reconstruction. However, applying DL to sparse-view cone-beam CT (CBCT) remains challenging. Many models learn the mapping from sparse-view CT images to the ground truth but often fail to achieve satisfactory performance. Incorporating sinogram data and performing dual-domain reconstruction improve image quality with artifact suppression, but a straightforward 3D implementation requires storing an entire 3D sinogram in memory and many parameters of dual-domain networks. This remains a major challenge, limiting further research, development and applications. In this paper, we propose a sub-volume-based 3D denoising diffusion probabilistic model (DDPM) for CBCT image reconstruction from down-sampled data. Our DDPM network, trained on data cubes extracted from paired fully sampled sinograms and down-sampled sinograms, is employed to inpaint down-sampled sinograms. Our method divides the entire sinogram into overlapping cubes and processes them in parallel on multiple GPUs, successfully overcoming the memory limitation. Experimental results demonstrate that our approach effectively suppresses few-view artifacts while preserving textural details faithfully.
翻訳日:2023-03-28 21:24:09 公開日:2023-03-25
# 対人攻撃に対する試験時間防御:マスクオートエンコーダによる対人攻撃の検出と再構築

Test-time Defense against Adversarial Attacks: Detection and Reconstruction of Adversarial Examples via Masked Autoencoder ( http://arxiv.org/abs/2303.12848v2 )

ライセンス: Link先を確認
Yun-Yun Tsai, Ju-Chin Chao, Albert Wen, Zhaoyuan Yang, Chengzhi Mao, Tapan Shah, Junfeng Yang(参考訳) 敵の攻撃に対する既存の防御方法は、訓練時間とテスト時間に分類できる。 訓練時間防衛、すなわち敵の訓練は、訓練にかなりの時間を要するため、しばしば目に見えない攻撃に一般化できない。 一方、試験時間重み適応による試験時間防御では、(一部)モデルの重量に対して勾配降下を行う必要があり、凍結重量を持つモデルでは不可能である。 これらの課題に対処するため,我々は,Masked Autoencoder (MAE) を介して複数種類の敵攻撃を検知・再構成する新しい防御手法であるDRAMを提案する。 我々は、敵攻撃を検出するためのKSテストを構築するためにMAE損失を利用する方法を示す。 さらに、MAE損失は、見えない攻撃タイプからの敵のサンプルの修復に使用できる。 この意味で、DRAMはテスト時間におけるモデルウェイト更新も必要とせず、より敵対的なサンプルでトレーニングセットを増強する。 大規模画像ネットデータを用いたDRAMの評価では,8種類の攻撃に対して,他の検出基準に比べて平均82%の検出率が得られる。 再構築のために、DRAMは、回転予測やコントラスト学習のような他の自己超越的なタスクと比較して、Standard ResNet50の6%~41%、Robost ResNet50の3%~8%の堅牢な精度を改善する。

Existing defense methods against adversarial attacks can be categorized into training time and test time defenses. Training time defense, i.e., adversarial training, requires a significant amount of extra time for training and is often not able to be generalized to unseen attacks. On the other hand, test time defense by test time weight adaptation requires access to perform gradient descent on (part of) the model weights, which could be infeasible for models with frozen weights. To address these challenges, we propose DRAM, a novel defense method to Detect and Reconstruct multiple types of Adversarial attacks via Masked autoencoder (MAE). We demonstrate how to use MAE losses to build a KS-test to detect adversarial attacks. Moreover, the MAE losses can be used to repair adversarial samples from unseen attack types. In this sense, DRAM neither requires model weight updates in test time nor augments the training set with more adversarial samples. Evaluating DRAM on the large-scale ImageNet data, we achieve the best detection rate of 82% on average on eight types of adversarial attacks compared with other detection baselines. For reconstruction, DRAM improves the robust accuracy by 6% ~ 41% for Standard ResNet50 and 3% ~ 8% for Robust ResNet50 compared with other self-supervision tasks, such as rotation prediction and contrastive learning.
翻訳日:2023-03-28 21:23:45 公開日:2023-03-25
# 効率的な物体検出のための2面視点事前画像サンプリングの学習

Learned Two-Plane Perspective Prior based Image Resampling for Efficient Object Detection ( http://arxiv.org/abs/2303.14311v1 )

ライセンス: Link先を確認
Anurag Ghosh, N. Dinesh Reddy, Christoph Mertz, Srinivasa G. Narasimhan(参考訳) 自律的ナビゲーションと都市スケールセンシングにはリアルタイムの効率的な認識が不可欠である。 アーキテクチャの改善に直交するストリーミング知覚アプローチは、リアルタイム検出性能を改善する適応サンプリングを活用している。 本研究では, 3次元シーン(地上面と上面)の粗い形状を取り入れ, 画像を再サンプリングして, 効率的な物体検出を行う, 学習可能な幾何学誘導手法を提案する。 これにより、小さくて遠方のオブジェクト検出性能が大幅に向上すると同時に、レイテンシとメモリの両面で効率が向上する。 自律ナビゲーションでは,同じ検出器とスケールを用いて,検出速度を+4.1$AP_{S}$または+39%,リアルタイム性能を+5.3$sAP_{S}$または+63%向上させる。 固定トラヒックカメラでは,他の手法ではできないような小さな物体を検知する。 同じ規模で、本手法は、ナイーブダウンサンプリングで195%(+12.5 $AP_{S}$)、SOTAで63%(+4.2 $AP_{S}$)の小さな物体の検出を改善する。

Real-time efficient perception is critical for autonomous navigation and city scale sensing. Orthogonal to architectural improvements, streaming perception approaches have exploited adaptive sampling improving real-time detection performance. In this work, we propose a learnable geometry-guided prior that incorporates rough geometry of the 3D scene (a ground plane and a plane above) to resample images for efficient object detection. This significantly improves small and far-away object detection performance while also being more efficient both in terms of latency and memory. For autonomous navigation, using the same detector and scale, our approach improves detection rate by +4.1 $AP_{S}$ or +39% and in real-time performance by +5.3 $sAP_{S}$ or +63% for small objects over state-of-the-art (SOTA). For fixed traffic cameras, our approach detects small objects at image scales other methods cannot. At the same scale, our approach improves detection of small objects by 195% (+12.5 $AP_{S}$) over naive-downsampling and 63% (+4.2 $AP_{S}$) over SOTA.
翻訳日:2023-03-28 20:48:52 公開日:2023-03-25
# GPTはチューリングマシンになりつつある:プログラミングにはいくつかの方法がある

GPT is becoming a Turing machine: Here are some ways to program it ( http://arxiv.org/abs/2303.14310v1 )

ライセンス: Link先を確認
Ana Jojic, Zhen Wang, Nebojsa Jojic(参考訳) 適切なプロンプトによって、GPT-3モデルのファミリーは、コンピュータサイエンスカリキュラムやソフトウェア開発者インタビューに見られるいくつかの一般的なアルゴリズムを含むループを含むプログラム(単に書き起こしやリコールではなく)を実行するのに必要な反復的な動作をトリガーできることを実証する。 我々は3つの方法の1つ(または1つの組み合わせ)で、IRSAによる反復の実行と記述をトリガーする。 1)特定の入力に対してターゲットプログラムの実行パスの例において、強い繰り返し構造を使用する。 2)実行経路の断片による証明,及び 3) 生成されたテキストの一部に対する自己意図の明示的な禁止(スキップ)。 動的プログラム実行では、IRSAはモデルをより強力なGPT-4に置き換えるよりも精度が向上する。 IRSAは、データ構造とアルゴリズムのクラスにおける学生の割り当てに似たプロンプトと応答が、教育における有望な応用を持っている。 本研究の結果は,LLMの評価に意味があり,通常は文脈内学習を対象とする。1つのタスクの例をカバーすることさえできないプロンプトは,アルゴリズム的な動作を誘発し,論理パズルのような従来のLLMでは難しいと思われていた問題を解けることを示す。 その結果, プロンプト設計はLLMの性能において, 従来よりも重要な役割を担っている。

We demonstrate that, through appropriate prompting, GPT-3 family of models can be triggered to perform iterative behaviours necessary to execute (rather than just write or recall) programs that involve loops, including several popular algorithms found in computer science curricula or software developer interviews. We trigger execution and description of Iterations by Regimenting Self-Attention (IRSA) in one (or a combination) of three ways: 1) Using strong repetitive structure in an example of an execution path of a target program for one particular input, 2) Prompting with fragments of execution paths, and 3) Explicitly forbidding (skipping) self-attention to parts of the generated text. On a dynamic program execution, IRSA leads to larger accuracy gains than replacing the model with the much more powerful GPT-4. IRSA has promising applications in education, as the prompts and responses resemble student assignments in data structures and algorithms classes. Our findings hold implications for evaluating LLMs, which typically target the in-context learning: We show that prompts that may not even cover one full task example can trigger algorithmic behaviour, allowing solving problems previously thought of as hard for LLMs, such as logical puzzles. Consequently, prompt design plays an even more critical role in LLM performance than previously recognized.
翻訳日:2023-03-28 20:48:28 公開日:2023-03-25
# 危機時・大量収束時におけるビデオ共有プラットフォームにおける誤情報調査の課題

The Challenges of Studying Misinformation on Video-Sharing Platforms During Crises and Mass-Convergence Events ( http://arxiv.org/abs/2303.14309v1 )

ライセンス: Link先を確認
Sukrit Venkatagiri, Joseph S. Schafer, Stephen Prochaska(参考訳) 誤報や誤報はビデオ共有プラットフォーム(vsps)で急速に広まる。 VSPの利用が増加しているにもかかわらず、この媒体とそれを通して伝達されるメッセージを理解する能力は比例的に増加していない。 本研究は,VSPを高度かつ高速な環境で研究する上で直面する3つの課題について概説する。(1)VSPの独特な余裕をナビゲートすること,(2)VSPの内容を理解し,その信頼性を判断すること,(3)誤情報を広めるための新しいユーザ行動。 これらの課題を強調することで、研究者は既存の研究手法やツールをこれらの新しい状況に適応させる方法や、全く新しいものを開発する方法を反映できることを期待しています。

Mis- and disinformation can spread rapidly on video-sharing platforms (VSPs). Despite the growing use of VSPs, there has not been a proportional increase in our ability to understand this medium and the messages conveyed through it. In this work, we draw on our prior experiences to outline three core challenges faced in studying VSPs in high-stakes and fast-paced settings: (1) navigating the unique affordances of VSPs, (2) understanding VSP content and determining its authenticity, and (3) novel user behaviors on VSPs for spreading misinformation. By highlighting these challenges, we hope that researchers can reflect on how to adapt existing research methods and tools to these new contexts, or develop entirely new ones.
翻訳日:2023-03-28 20:48:06 公開日:2023-03-25
# Auto-AVSR: 自動ラベルによる音声認識

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels ( http://arxiv.org/abs/2303.14307v1 )

ライセンス: Link先を確認
Pingchuan Ma, Alexandros Haliassos, Adriana Fernandez-Lopez, Honglie Chen, Stavros Petridis, Maja Pantic(参考訳) 音響雑音に対する頑健性から,音声認識には多くの注目を集めている。 近年,大規模モデルとトレーニングセットの使用を中心に,自動・視覚的・音声視覚的音声認識(ASR,VSR,AV-ASR)の性能が大幅に向上している。 しかし、データセットの正確なラベル付けには時間と費用がかかる。 そこで本研究では,ラベルなしデータセットの自動生成転写を用いて,トレーニングセットのサイズを増加させる方法について検討する。 この目的のために、AVSpeechやVoxCeleb2といった非競合データセットを自動的に書き起こすために、公開トレーニング済みのASRモデルを使用します。 そして、ARS、VSR、AV-ASRのモデルを拡張トレーニングセットでトレーニングし、LSS2とLSS3のデータセットと追加の自動転写データからなる。 近年の文献的傾向であるトレーニングセットのサイズが大きくなると,ノイズによる書き起こしにもかかわらずWERが減少することが示されている。 提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。 特に、現在の最先端アプローチよりも30%向上したRS3で0.9%のWERを達成し、26倍のトレーニングデータを持つ非公開データセットでトレーニングされたメソッドを上回ります。

Audio-visual speech recognition has received a lot of attention due to its robustness against acoustic noise. Recently, the performance of automatic, visual, and audio-visual speech recognition (ASR, VSR, and AV-ASR, respectively) has been substantially improved, mainly due to the use of larger models and training sets. However, accurate labelling of datasets is time-consuming and expensive. Hence, in this work, we investigate the use of automatically-generated transcriptions of unlabelled datasets to increase the training set size. For this purpose, we use publicly-available pre-trained ASR models to automatically transcribe unlabelled datasets such as AVSpeech and VoxCeleb2. Then, we train ASR, VSR and AV-ASR models on the augmented training set, which consists of the LRS2 and LRS3 datasets as well as the additional automatically-transcribed data. We demonstrate that increasing the size of the training set, a recent trend in the literature, leads to reduced WER despite using noisy transcriptions. The proposed model achieves new state-of-the-art performance on AV-ASR on LRS2 and LRS3. In particular, it achieves a WER of 0.9% on LRS3, a relative improvement of 30% over the current state-of-the-art approach, and outperforms methods that have been trained on non-publicly available datasets with 26 times more training data.
翻訳日:2023-03-28 20:47:50 公開日:2023-03-25
# 量子力学における概念図

Conceptual diagrams in Quantum Mechanics ( http://arxiv.org/abs/2303.14306v1 )

ライセンス: Link先を確認
Jorge E. Horvath and Rodrigo Rosas Fernandes(参考訳) 量子力学(QM)は(非常に)成功した物理理論として単独で立つが、その変数の意味と数式論における多くの量の状態は明らかではない。 この独特の状況は、解釈として知られる手続きである後者への物理的意味の帰属の必要性を引き起こした。 一方、qmの研究は通常、ボーアとコペンハーゲンの研究者によって開発されたコペンハーゲン解釈と呼ばれる唯一の枠組みの中で、将来の科学者にさえ提示される。 As a contribution to the understanding and teaching of Quantum Mechanics, aimed to a broader and deeper appreciation of its fundamentals, including contemplating alternatives and updated interpretations for physicists and philosophers interested in the study of exact sciences (through Ontology, Epistemology, Logic or the Theory of Knowledge), we present a set of Conceptual Diagrams elaborated and designed to expose and facilitate the visualization of elements intervening in any interpretation of Quantum Mechanics and apply them to several well-developed cases of the latter.

Quantum Mechanics (QM) stands alone as a (very) successful physical theory, but the meaning of its variables and the status of many quantities in the mathematical formalism is obscure. This unique situation prompted the need for attribution of a physical meaning to the latter, a procedure known as interpretation. On the other hand, the study of QM is usually presented, even to future scientists, within the only framework developed by Bohr and the Copenhagen researchers, known as the Copenhagen interpretation. As a contribution to the understanding and teaching of Quantum Mechanics, aimed to a broader and deeper appreciation of its fundamentals, including contemplating alternatives and updated interpretations for physicists and philosophers interested in the study of exact sciences (through Ontology, Epistemology, Logic or the Theory of Knowledge), we present a set of Conceptual Diagrams elaborated and designed to expose and facilitate the visualization of elements intervening in any interpretation of Quantum Mechanics and apply them to several well-developed cases of the latter.
翻訳日:2023-03-28 20:47:27 公開日:2023-03-25
# デンス予測に基づくアンサンブルベースのブラックボックス攻撃

Ensemble-based Blackbox Attacks on Dense Prediction ( http://arxiv.org/abs/2303.14304v1 )

ライセンス: Link先を確認
Zikui Cai, Yaoteng Tan, M. Salman Asif(参考訳) 本稿では,物体検出器やセグメンテーションなどの高密度予測モデルに対する敵攻撃に対するアプローチを提案する。 単一の代理モデルによって生成された攻撃は、任意の(ブラックボックス)犠牲者モデルに転送されないことはよく知られている。 さらに、標的攻撃は未標的攻撃よりも難しいことが多い。 本稿では,注意深い設計を施したアンサンブルが,多数の被害者モデルに対して効果的に攻撃できることを示す。 特に,個々のモデルに対する重み付けの正規化が,攻撃の成功に重要な役割を担っていることを示す。 次に,被害者モデルに従ってアンサンブルの重みを調整することにより,攻撃性能をさらに向上させることができることを示す。 提案手法の意義を明らかにするため,対象検出器とセグメンテーションについて多数の実験を行った。 提案手法は,既存のブラックボックス攻撃法よりオブジェクト検出やセグメンテーションに優れる。 最後に,提案手法は同時に複数のブラックボックス検出とセグメンテーションモデルを騙すことができる単一摂動を生成することができることを示す。 コードはhttps://github.com/CSIPlab/EBADで入手できる。

We propose an approach for adversarial attacks on dense prediction models (such as object detectors and segmentation). It is well known that the attacks generated by a single surrogate model do not transfer to arbitrary (blackbox) victim models. Furthermore, targeted attacks are often more challenging than the untargeted attacks. In this paper, we show that a carefully designed ensemble can create effective attacks for a number of victim models. In particular, we show that normalization of the weights for individual models plays a critical role in the success of the attacks. We then demonstrate that by adjusting the weights of the ensemble according to the victim model can further improve the performance of the attacks. We performed a number of experiments for object detectors and segmentation to highlight the significance of the our proposed methods. Our proposed ensemble-based method outperforms existing blackbox attack methods for object detection and segmentation. Finally we show that our proposed method can also generate a single perturbation that can fool multiple blackbox detection and segmentation models simultaneously. Code is available at https://github.com/CSIPlab/EBAD.
翻訳日:2023-03-28 20:47:13 公開日:2023-03-25
# 機械学習のための重要なICD-10コード同定のための教師なし特徴選択:冠状動脈疾患患者コホートを事例として

Unsupervised Feature Selection to Identify Important ICD-10 Codes for Machine Learning: A Case Study on a Coronary Artery Disease Patient Cohort ( http://arxiv.org/abs/2303.14303v1 )

ライセンス: Link先を確認
Peyman Ghasemi and Joon Lee(参考訳) 医療における国際疾患分類(ICD)コードの使用は、このシステムの多数のコードのために、機械学習モデルの機能として関連するコードを選択することの難しさを示している。 本研究では,カナダアルバータ州で発症した冠動脈疾患49,075例のICDコードデータベースについて,教師なしの特徴選択法を比較した。 具体的には,マルチクラスタデータに対する教師なし特徴選択,オートエンコーダによる教師なし特徴選択,主特徴解析,icd木重み調整なしの具体的オートエンコーダを用いた。 初期特徴空間を再構築し,退院後90日間の死亡率を予測する能力に基づいて,選択した特徴を評価した。 その結果, コンクリートオートエンコーダ法は, 両タスクの他の手法よりも優れていた。 さらに, コンクリートオートエンコーダ法の重量調整により, 特性の複雑さが減少した。

The use of International Classification of Diseases (ICD) codes in healthcare presents a challenge in selecting relevant codes as features for machine learning models due to this system's large number of codes. In this study, we compared several unsupervised feature selection methods for an ICD code database of 49,075 coronary artery disease patients in Alberta, Canada. Specifically, we employed Laplacian Score, Unsupervised Feature Selection for Multi-Cluster Data, Autoencoder Inspired Unsupervised Feature Selection, Principal Feature Analysis, and Concrete Autoencoders with and without ICD tree weight adjustment to select the 100 best features from over 9,000 codes. We assessed the selected features based on their ability to reconstruct the initial feature space and predict 90-day mortality following discharge. Our findings revealed that the Concrete Autoencoder methods outperformed all other methods in both tasks. Furthermore, the weight adjustment in the Concrete Autoencoder method decreased the complexity of features.
翻訳日:2023-03-28 20:46:56 公開日:2023-03-25
# 検索による列車・テスト時間適応

Train/Test-Time Adaptation with Retrieval ( http://arxiv.org/abs/2303.14333v1 )

ライセンス: Link先を確認
Luca Zancato, Alessandro Achille, Tian Yu Liu, Matthew Trager, Pramuditha Perera, Stefano Soatto(参考訳) 検索モジュールと検索可能な外部サンプルのプールを用いて,列車時とテスト時の両方でモデルを適用する手法であるTrain/Test-Time Adaptation with Retrieval({\rm T^3AR}$)を紹介する。 推定に先立ち、${\rm T^3AR}$は、修正された擬似ラベルと、抽出した実サンプルを利用した自己教師付きコントラスト目的関数を用いて、所定のモデルを下流タスクに適応させ、ターゲットデータ多様体の特徴適応を改善する。 実際の画像の検索は${\rm t^3ar}$の鍵であり、それは他の適応アルゴリズムが行うように、適応データの欠如を補うために合成データ拡張のみに依存しないからである。 さらに,検索モジュールのおかげで,ユーザやサービスプロバイダは,追加の関連データを組み込んだり,デプロイ後のユーザの嗜好の変化により利用できなくなったサンプルを完全に削除することで,ダウンストリームタスクのモデル適応を改善することができる。 まず, 訓練時間に${\rm t^3ar}$を用いて, 標準微調整ベースラインに対する下流細粒度分類を改善し, 適応データが少ないほど, 相対的改善率 (最大13%) が向上することを示した。 次に、テスト時適応に${\rm T^3AR}$を適用し、テスト時に外部画像のプールを利用すると、DomainNet-126とVISDA-Cの既存のメソッドよりもロバストな表現が得られることを示す。

We introduce Train/Test-Time Adaptation with Retrieval (${\rm T^3AR}$), a method to adapt models both at train and test time by means of a retrieval module and a searchable pool of external samples. Before inference, ${\rm T^3AR}$ adapts a given model to the downstream task using refined pseudo-labels and a self-supervised contrastive objective function whose noise distribution leverages retrieved real samples to improve feature adaptation on the target data manifold. The retrieval of real images is key to ${\rm T^3AR}$ since it does not rely solely on synthetic data augmentations to compensate for the lack of adaptation data, as typically done by other adaptation algorithms. Furthermore, thanks to the retrieval module, our method gives the user or service provider the possibility to improve model adaptation on the downstream task by incorporating further relevant data or to fully remove samples that may no longer be available due to changes in user preference after deployment. First, we show that ${\rm T^3AR}$ can be used at training time to improve downstream fine-grained classification over standard fine-tuning baselines, and the fewer the adaptation data the higher the relative improvement (up to 13%). Second, we apply ${\rm T^3AR}$ for test-time adaptation and show that exploiting a pool of external images at test-time leads to more robust representations over existing methods on DomainNet-126 and VISDA-C, especially when few adaptation data are available (up to 8%).
翻訳日:2023-03-28 20:40:42 公開日:2023-03-25
# 簡易インセンティブによるライドシェアリングシステムの2面公正性向上

Using Simple Incentives to Improve Two-Sided Fairness in Ridesharing Systems ( http://arxiv.org/abs/2303.14332v1 )

ライセンス: Link先を確認
Ashwin Kumar, Yevgeniy Vorobeychik, William Yeoh(参考訳) 配車バッチの乗客要求を集中的に処理し、各乗用車マッチングの推定値を整数線形計画(ilp)を用いて最適化する、最先端の配車アルゴリズム。 将来の価値を適切に見積もることで、ICPベースのアプローチは、固定された車両のサービスレート(要求のパーセント)を大幅に向上させることができる。 しかし、効率の最大化にのみ焦点をあてるそのようなアプローチは、ドライバー(例えば、所得不平等)と乗客(例えば、異なるグループのサービス不平等)の両方に格差をもたらす可能性がある。 公平性を検討する既存のアプローチは、素直な割り当てポリシーのみしか行わないし、広範なトレーニングを必要とするし、一方的な公平性だけを見る必要がある。 我々は,このirpの定式化の一環として,オンライン上で実装可能な簡易なインセンティブに基づく公平性スキームを提案する。 分散最小化のレンズから導かれるこのフェアネスインセンティブは、乗客グループとドライバーフェアネスの2つの異なるユースケースに対してどのように定式化されるかを記述する。 穏やかな条件下では、このアプローチは最悪の個人に対して選択された指標の改善を保証できることを示します。 また、私たちのSimple Incentivesアプローチは、再トレーニングを必要とせず、先行技術よりも大幅に優れており、実際、サービス率と公正性の両方において、最先端の公正なアプローチよりも大幅に改善されていることも実証的に示しています。

State-of-the-art order dispatching algorithms for ridesharing batch passenger requests and allocate them to a fleet of vehicles in a centralized manner, optimizing over the estimated values of each passenger-vehicle matching using integer linear programming (ILP). Using good estimates of future values, such ILP-based approaches are able to significantly increase the service rates (percentage of requests served) for a fixed fleet of vehicles. However, such approaches that focus solely on maximizing efficiency can lead to disparities for both drivers (e.g., income inequality) and passengers (e.g., inequality of service for different groups). Existing approaches that consider fairness only do it for naive assignment policies, require extensive training, or look at only single-sided fairness. We propose a simple incentive-based fairness scheme that can be implemented online as a part of this ILP formulation that allows us to improve fairness over a variety of fairness metrics. Deriving from a lens of variance minimization, we describe how these fairness incentives can be formulated for two distinct use cases for passenger groups and driver fairness. We show that under mild conditions, our approach can guarantee an improvement in the chosen metric for the worst-off individual. We also show empirically that our Simple Incentives approach significantly outperforms prior art, despite requiring no retraining; indeed, it often leads to a large improvement over the state-of-the-art fairness-aware approach in both overall service rate and fairness.
翻訳日:2023-03-28 20:40:11 公開日:2023-03-25
# エッジベースのビデオ分析:調査

Edge-Based Video Analytics: A Survey ( http://arxiv.org/abs/2303.14329v1 )

ライセンス: Link先を確認
Miao Hu, Zhenxiao Luo, Amirmohammad Pasdar, Young Choon Lee, Yipeng Zhou, and Di Wu(参考訳) エッジコンピューティングは、ネットワークのエッジにおけるデータの増加によって勢いを増している。 特に、大量のビデオデータとそのリアルタイム処理要件は、帯域幅の消費と高いレイテンシのために、従来のクラウドコンピューティングアプローチをますます妨げている。 エッジコンピューティングの本質は、ほとんどのビデオデータを、小規模のオンプレミスサーバクラスタ、モバイルベースステーションにおけるサーバグレードのコンピューティングリソース、さらにはスマートフォンやタブレットのようなモバイルデバイスなど、エッジサーバを使って処理することで、この障害を克服することにある。 しかし、そのような分析の実際の実現には、単純な総合的なエッジサーバの使用以上のものが必要である。 本稿では,アプリケーション,アーキテクチャ,技術,リソース管理,セキュリティ,プライバシに関して,エッジベースのビデオ分析に関する最先端技術について調査する。 私たちは、何が機能するのか、何がうまくいかなかったのか、その理由について、包括的で詳細なレビューを行っています。 これらの発見は、次世代のエッジベースのビデオ分析に洞察と提案を与える。 オープンな問題や研究の方向性も確認します。

Edge computing has been getting a momentum with ever-increasing data at the edge of the network. In particular, huge amounts of video data and their real-time processing requirements have been increasingly hindering the traditional cloud computing approach due to high bandwidth consumption and high latency. Edge computing in essence aims to overcome this hindrance by processing most video data making use of edge servers, such as small-scale on-premises server clusters, server-grade computing resources at mobile base stations and even mobile devices like smartphones and tablets; hence, the term edge-based video analytics. However, the actual realization of such analytics requires more than the simple, collective use of edge servers. In this paper, we survey state-of-the-art works on edge-based video analytics with respect to applications, architectures, techniques, resource management, security and privacy. We provide a comprehensive and detailed review on what works, what doesn't work and why. These findings give insights and suggestions for next generation edge-based video analytics. We also identify open issues and research directions.
翻訳日:2023-03-28 20:39:40 公開日:2023-03-25
# プロセスマイニングにおけるヒューリスティックス法によるセプシスケアの最適化:軌道解析

Optimizing Sepsis Care through Heuristics Methods in Process Mining: A Trajectory Analysis ( http://arxiv.org/abs/2303.14328v1 )

ライセンス: Link先を確認
Alireza Bakhshi, Erfan Hassannayebi, Amir Hossein Sadeghi(参考訳) プロセスマイニングは洞察力のある知識を獲得し、システムのパフォーマンスを高めるのに役立つ。 本研究は,オランダの地域病院における敗血症患者1050名を対象に,登録から退院までの軌跡を調査した。 この実世界のケーススタディに基づいて、イベントログは、救急病棟に関するイベントやアクティビティ、病院病棟への入院、ラボ実験やトリアージチェックリストから得られたデータに富んだ退院を含む。 まず,Heristics Miner (HM) 法と Inductive Miner (IM) 法を用いて,このプロセスの発見を目指す。 次に,組織的情報と知識に基づいて体系的なプロセスモデルを分析する。 さらに,これらの患者に対する医療ガイドラインの適合性チェックに対処し,関連フローを系統的プロセスモデルで監視する。 その結果,HMとIMは関連プロセスの同定に不十分であることが示唆された。 しかし、専門知識と組織情報に基づく体系的プロセスモデルを用いることで、平均適合度は97.8%、単純度77.7%、一般化度80.2%となった。 分析の結果, プロセスマイニングは病院内の患者フローに光を当て, 日々の臨床成績と医療ガイドラインを検査できることがわかった。 また、HM法とIM法で得られたプロセスモデルは、体系的なプロセスモデルと比較して利害関係者のプロセス構造を具体的に理解することはできない。 その結果,医療サービスの品質向上,資源配分の最適化,コスト削減といったプロセスマイニングの可能性が示唆された。 また,効果的なプロセスモデルを構築する上で,専門家の知識と組織的情報を考慮することの重要性を強調する。

Process mining can help acquire insightful knowledge and heighten the system's performance. In this study, we surveyed the trajectories of 1050 sepsis patients in a regional hospital in the Netherlands from the registration to the discharge phase. Based on this real-world case study, the event log comprises events and activities related to the emergency ward, admission to hospital wards, and discharge enriched with data from lab experiments and triage checklists. At first, we aim to discover this process through Heuristics Miner (HM) and Inductive Miner (IM) methods. Then, we analyze a systematic process model based on organizational information and knowledge. Besides, we address conformance checking given medical guidelines for these patients and monitor the related flows on the systematic process model. The results show that HM and IM are inadequate in identifying the relevant process. However, using a systematic process model based on expert knowledge and organizational information resulted in an average fitness of 97.8%, a simplicity of 77.7%, and a generalization of 80.2%. The analyses demonstrate that process mining can shed light on the patient flow in the hospital and inspect the day-to-day clinical performance versus medical guidelines. Also, the process models obtained by the HM and IM methods cannot provide a concrete comprehension of the process structure for stakeholders compared to the systematic process model. The implications of our findings include the potential for process mining to improve the quality of healthcare services, optimize resource allocation, and reduce costs. Our study also highlights the importance of considering expert knowledge and organizational information in developing effective process models.
翻訳日:2023-03-28 20:39:26 公開日:2023-03-25
# 量子モンテカルロと相互作用するフェルミオンの絡み合いエントロピー:なぜ失敗したのか

Computing entanglement entropy of interacting fermions with quantum Monte Carlo: Why we failed and how to get it right ( http://arxiv.org/abs/2303.14326v1 )

ライセンス: Link先を確認
Gaopei Pan, Yuan Da Liao, Weilun Jiang, Jonathan D'Emidio, Yang Qi and Zi Yang Meng(参考訳) 量子エンタングルメントに隠された情報は、自発的対称性の破れ相、量子臨界点から位相的に順序付けられた状態まで、様々な物質の量子相の組織化原理を推測するために使用できることは疑いない。 しかし、エンタングルメントエントロピー(EE)のようなエンタングルメント測度が、高エンタングルド量子物質においてこれらの微妙な特徴(通常、普遍的な有限サイズのスケーリング挙動の形で)を観測するために必要な精度で実際に得られるかどうかは、明らかになっていない。 ハバードモデルのようなギャップのないスペクトルを持つ2次元相互作用型フェルミオン格子モデルの場合、eeの計算は厳しい制限を受けており、既存のすべての数値アルゴリズムに対する普遍的スケーリング法における信頼性の高いデータをオフにしている。 ここでは、量子モンテカルロシミュレーションにおける、以前失敗したEE計算の試みの理由と、さらに重要なことは、インクリメンタルアルゴリズム[1,2]で概念的および計算上の障壁を克服する方法を示し、最終的に2次元相互作用するフェルミオン系におけるEEの計算が簡単で信頼性の高いものになる。

There is no doubt that the information hidden in quantum entanglement can be used to infer the organizing principle of various quantum phases of matter, ranging from spontaneous symmetry breaking phases, quantum critical points to topologically ordered states. It is far from clear, however, whether entanglement measures, such as the entanglement entropy (EE), can actually be obtained with the precision required to observe these subtle features -- usually in the form of universal finite size scaling behavior -- in highly entangled quantum matter. In the case of 2D interacting fermionic lattice models with gapless spectra, such as in the Hubbard model, the computation of the EE has faced severe limitations, making reliable data in the universal scaling regime off limits to all existing numerical algorithms. Here we explain the reason for the previously unsuccessful attempts in EE computations in quantum Monte Carlo simulations and more importantly, show how to overcome the conceptual and computational barrier with the incremental algorithm[1,2], such that the computation of the EE in 2D interacting fermion systems finally becomes easy and reliable.
翻訳日:2023-03-28 20:39:00 公開日:2023-03-25
# NLPにおける入出力トリガーによるバックドア攻撃

Backdoor Attacks with Input-unique Triggers in NLP ( http://arxiv.org/abs/2303.14325v1 )

ライセンス: Link先を確認
Xukun Zhou, Jiwei Li, Tianwei Zhang, Lingjuan Lyu, Muqiao Yang, Jun He(参考訳) Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測をし、クリーンデータセットの予測は変更せず、現在の自然言語処理(NLP)システムにかなりの脅威をもたらすことを目的としている。 既存のバックドア攻撃システムは2つの深刻な問題に直面している: まず、ほとんどのバックドアトリガーは、一様で通常は入力に依存しないパターンに従う。 これにより攻撃モデルのステルス性が著しく損なわれ、訓練されたバックドアモデルはモデルプローブによって簡単に悪意のあるものと識別される。 第二に、トリガーインサートされた有毒な文は、通常、非文法的、あるいは意味を原文から変更し、前処理の段階で簡単にフィルタリングされる。 本稿では,この2つの問題を解決するために,入力に固有のバックドアトリガーを生成する入力不応バックドア攻撃(nura)を提案する。 IDBAは、GPT2のような言語モデルで入力を書き続けることで、コンテキスト関連のトリガを生成する。 生成された文はバックドアトリガーとして使用される。 この戦略は入力共通のバックドアトリガを生成するだけでなく、元の入力の意味を保存し、上記の2つの問題を同時に解決する。 実験の結果,IDBA攻撃は攻撃に有効であり,防御が困難であることが明らかとなった。 さらに、人間の検査によって認識されにくい、流動的で文法的で多様なバックドア入力を生成することができる。

Backdoor attack aims at inducing neural models to make incorrect predictions for poison data while keeping predictions on the clean dataset unchanged, which creates a considerable threat to current natural language processing (NLP) systems. Existing backdoor attacking systems face two severe issues:firstly, most backdoor triggers follow a uniform and usually input-independent pattern, e.g., insertion of specific trigger words, synonym replacement. This significantly hinders the stealthiness of the attacking model, leading the trained backdoor model being easily identified as malicious by model probes. Secondly, trigger-inserted poisoned sentences are usually disfluent, ungrammatical, or even change the semantic meaning from the original sentence, making them being easily filtered in the pre-processing stage. To resolve these two issues, in this paper, we propose an input-unique backdoor attack(NURA), where we generate backdoor triggers unique to inputs. IDBA generates context-related triggers by continuing writing the input with a language model like GPT2. The generated sentence is used as the backdoor trigger. This strategy not only creates input-unique backdoor triggers, but also preserves the semantics of the original input, simultaneously resolving the two issues above. Experimental results show that the IDBA attack is effective for attack and difficult to defend: it achieves high attack success rate across all the widely applied benchmarks, while is immune to existing defending methods. In addition, it is able to generate fluent, grammatical, and diverse backdoor inputs, which can hardly be recognized through human inspection.
翻訳日:2023-03-28 20:38:35 公開日:2023-03-25
# 軽量画像超解像のための変換器設計の畳み込み

Incorporating Transformer Designs into Convolutions for Lightweight Image Super-Resolution ( http://arxiv.org/abs/2303.14324v1 )

ライセンス: Link先を確認
Gang Wu, Junjun Jiang, Yuanchao Bai, and Xianming Liu(参考訳) 近年、大規模な畳み込みカーネルの使用は、長距離依存を捕捉し、大きな受容場を提供する能力により、畳み込みニューラルネットワークの設計において人気が高まっている。 しかし、カーネルのサイズが大きくなるとパラメータの数が2倍に増加し、計算量やメモリの要求も大きくなる。 この課題に対処するため,我々は,標準畳み込みを自己着脱機構でアップグレードするneighborion attention (na)モジュールを提案する。 NAモジュールは、スライディングウインドウパターンの長距離依存性を効率的に抽出し、大きな畳み込みカーネルと同等の性能を得るが、パラメータが少ない。 NAモジュールをベースとして,TSRと呼ばれる軽量単一画像超解像(SISR)ネットワークを提案する。 さらに, SISRの性能向上のために, TCSR に拡張フィードフォワードネットワーク (EFFN) を導入する。 EFFNはパラメータフリーな空間シフト演算を用いて効率的な特徴集約を行う。 我々の広範な実験とアブレーション研究により、TCSRは既存の軽量SISR法より優れ、最先端の性能を実現していることが示された。 我々のコードは \url{https://github.com/Aitical/TCSR} で入手できる。

In recent years, the use of large convolutional kernels has become popular in designing convolutional neural networks due to their ability to capture long-range dependencies and provide large receptive fields. However, the increase in kernel size also leads to a quadratic growth in the number of parameters, resulting in heavy computation and memory requirements. To address this challenge, we propose a neighborhood attention (NA) module that upgrades the standard convolution with a self-attention mechanism. The NA module efficiently extracts long-range dependencies in a sliding window pattern, thereby achieving similar performance to large convolutional kernels but with fewer parameters. Building upon the NA module, we propose a lightweight single image super-resolution (SISR) network named TCSR. Additionally, we introduce an enhanced feed-forward network (EFFN) in TCSR to improve the SISR performance. EFFN employs a parameter-free spatial-shift operation for efficient feature aggregation. Our extensive experiments and ablation studies demonstrate that TCSR outperforms existing lightweight SISR methods and achieves state-of-the-art performance. Our codes are available at \url{https://github.com/Aitical/TCSR}.
翻訳日:2023-03-28 20:38:07 公開日:2023-03-25
# ブロック隣接行列(STAG-NN-BA)を用いた時空間注意グラフニューラルネットワーク

Spatio-Temporal driven Attention Graph Neural Network with Block Adjacency matrix (STAG-NN-BA) ( http://arxiv.org/abs/2303.14322v1 )

ライセンス: Link先を確認
U. Nazir, W. Islam, M. Taj(参考訳) ディープニューラルネットワークの最近の進歩にもかかわらず、標準畳み込みカーネルはこれらのネットワークのユークリッド領域への応用を制限している。 地球表面の測定の測地学的性質を考えると、リモートセンシングは非ユークリッド領域と球面領域の恩恵を受けることのできる領域の1つである。 本研究では,衛星画像を用いた空間的・時空間的分類のための新しいグラフニューラルネットワークアーキテクチャを提案する。 リモートセンシングデータにおける不規則な隣人の相対的重要性を学習するためのハイブリッドアテンション手法を提案する。 本稿では,各画素を分類する代わりに,単純な線形反復クラスタリング(SLIC)画像分割とグラフ注意GATに基づく手法を提案する。 SLICから得られたスーパーピクセルは、私たちのGraph Convolution Network(GCN)のノードになります。 次に、各スーパーピクセルが画像内の他の隣接スーパーピクセルと接続される領域隣接グラフ(rag)を構築し、情報をグローバルに伝播させる。 最後に、各RAGを分類するための空間駆動型注意グラフニューラルネットワーク(SAG-NN)を提案する。 また,時空間データに対するSAG-NNの拡張を提案する。 画像中の通常のピクセルグリッドとは異なり、スーパーピクセルは本質的に不規則であり、時空間グラフの作成には使用できない。 各画像からの無連結RAGを1つのスーパーグラフに組み合わせて時間バイアスを導入する。 これは、ブロック隣接行列(stag-nn-ba)を持つ新しい時空間駆動注意グラフニューラルネットワークをもたらすブロック隣接行列を導入することによって達成される。 提案手法は, asia14 と c2d2 の2つのリモートセンシングデータセット上で評価する。 SAG-NNとSTAG-NN-BAは非グラフおよびグラフベースのアプローチと比較して,計算コストの低減を図りながら,全てのデータセットに対して優れた精度を実現した。 コードとデータセットはGitHubリポジトリ経由で公開されます。

Despite the recent advances in deep neural networks, standard convolutional kernels limit the applications of these networks to the Euclidean domain only. Considering the geodesic nature of the measurement of the earth's surface, remote sensing is one such area that can benefit from non-Euclidean and spherical domains. For this purpose, we propose a novel Graph Neural Network architecture for spatial and spatio-temporal classification using satellite imagery. We propose a hybrid attention method to learn the relative importance of irregular neighbors in remote sensing data. Instead of classifying each pixel, we propose a method based on Simple Linear Iterative Clustering (SLIC) image segmentation and Graph Attention GAT. The superpixels obtained from SLIC become the nodes of our Graph Convolution Network (GCN). We then construct a region adjacency graph (RAG) where each superpixel is connected to every other adjacent superpixel in the image, enabling information to propagate globally. Finally, we propose a Spatially driven Attention Graph Neural Network (SAG-NN) to classify each RAG. We also propose an extension to our SAG-NN for spatio-temporal data. Unlike regular grids of pixels in images, superpixels are irregular in nature and cannot be used to create spatio-temporal graphs. We introduce temporal bias by combining unconnected RAGs from each image into one supergraph. This is achieved by introducing block adjacency matrices resulting in novel Spatio-Temporal driven Attention Graph Neural Network with Block Adjacency matrix (STAG-NN-BA). We evaluate our proposed methods on two remote sensing datasets namely Asia14 and C2D2. In comparison with both non-graph and graph-based approaches our SAG-NN and STAG-NN-BA achieved superior accuracy on all the datasets while incurring less computation cost. The code and dataset will be made public via our GitHub repository.
翻訳日:2023-03-28 20:37:48 公開日:2023-03-25
# 不均一領域適応型IoT侵入検出のための適応的2勧告と自己改善ネットワーク

Adaptive Bi-Recommendation and Self-Improving Network for Heterogeneous Domain Adaptation-Assisted IoT Intrusion Detection ( http://arxiv.org/abs/2303.14317v1 )

ライセンス: Link先を確認
Jiashu Wu, Yang Wang, Hao Dai, Chengzhong Xu, Kenneth B. Kent(参考訳) Internet of Thingsデバイスが普及するにつれて、悪意のある侵入からIoTを保護する侵入検出が重要になる。 しかし、IoTのデータ不足は、従来の侵入検出方法の有効性を妨げる。 本稿では,非教師付き不均質領域適応(hda)に基づく適応型bi-recommendation and self-improving network (abrsi)を提案する。 ABRSIは、データ豊富なネットワーク侵入源ドメインから豊富な侵入知識を転送し、データスカースIoTターゲットドメインの効果的な侵入検出を容易にする。 ABRSIは、適応的バイレコメンデーションマッチングにより、きめ細かい侵入知識の伝達を実現する。 2つのレコメンダシステムのbi-recommendation利益と共有特徴空間における侵入カテゴリのアラインメントとのマッチングは相互に有利なループを形成する。 さらに、ABRSIは自己改善機構を使用し、侵入知識の移動を4つの方法から自律的に改善する。 ハード擬似ラベル投票機構は、より正確なハード擬似ラベル割り当てを促進するために、リコメンダシステム決定とラベル関係情報を共同で検討する。 侵入知識転送中に多様性と目標データ参加を促進するため、ハード擬似ラベルに割り当てられていないターゲットインスタンスには確率的ソフト擬似ラベルが割り当てられ、ハイブリッド擬似ラベル戦略が形成される。 一方、abrsiはソフトな擬似ラベルをグローバルに多様かつ個別に確実にしている。 最後に、誤り知識学習機構を用いて、検出曖昧性を引き起こし、現在および過去のエラー知識の両方を通して学習し、誤り知識の忘れやすさを防止する。 理論的には、これらのメカニズムはABRSIモデルを形成し、HDAによる侵入知識伝達を通じてIoT侵入検出精度を高める。

As Internet of Things devices become prevalent, using intrusion detection to protect IoT from malicious intrusions is of vital importance. However, the data scarcity of IoT hinders the effectiveness of traditional intrusion detection methods. To tackle this issue, in this paper, we propose the Adaptive Bi-Recommendation and Self-Improving Network (ABRSI) based on unsupervised heterogeneous domain adaptation (HDA). The ABRSI transfers enrich intrusion knowledge from a data-rich network intrusion source domain to facilitate effective intrusion detection for data-scarce IoT target domains. The ABRSI achieves fine-grained intrusion knowledge transfer via adaptive bi-recommendation matching. Matching the bi-recommendation interests of two recommender systems and the alignment of intrusion categories in the shared feature space form a mutual-benefit loop. Besides, the ABRSI uses a self-improving mechanism, autonomously improving the intrusion knowledge transfer from four ways. A hard pseudo label voting mechanism jointly considers recommender system decision and label relationship information to promote more accurate hard pseudo label assignment. To promote diversity and target data participation during intrusion knowledge transfer, target instances failing to be assigned with a hard pseudo label will be assigned with a probabilistic soft pseudo label, forming a hybrid pseudo-labelling strategy. Meanwhile, the ABRSI also makes soft pseudo-labels globally diverse and individually certain. Finally, an error knowledge learning mechanism is utilised to adversarially exploit factors that causes detection ambiguity and learns through both current and previous error knowledge, preventing error knowledge forgetfulness. Holistically, these mechanisms form the ABRSI model that boosts IoT intrusion detection accuracy via HDA-assisted intrusion knowledge transfer.
翻訳日:2023-03-28 20:37:22 公開日:2023-03-25
# 特徴トラックはゼロ平均ガウスではない

Feature Tracks are not Zero-Mean Gaussian ( http://arxiv.org/abs/2303.14315v1 )

ライセンス: Link先を確認
Stephanie Tsuei, Wenjie Mo, Stefano Soatto(参考訳) 特徴トラックを入力として使用する状態推定アルゴリズムでは、特徴トラック位置の誤差がゼロ平均ガウスであると仮定するのが慣例である。 キャリブレーションされたカメラ固有物、地中カメラポーズ、深度画像を組み合わせて、画像処理アルゴリズムを用いて抽出された特徴トラックの地中位置を計算することができる。 特徴トラックの誤差はゼロ平均ガウス的ではなく, 誤差の分布は動きの種類, 動きの速度, トラックの抽出に使用される画像処理アルゴリズムによって条件づけられていることがわかった。

In state estimation algorithms that use feature tracks as input, it is customary to assume that the errors in feature track positions are zero-mean Gaussian. Using a combination of calibrated camera intrinsics, ground-truth camera pose, and depth images, it is possible to compute ground-truth positions for feature tracks extracted using an image processing algorithm. We find that feature track errors are not zero-mean Gaussian and that the distribution of errors is conditional on the type of motion, the speed of motion, and the image processing algorithm used to extract the tracks.
翻訳日:2023-03-28 20:36:54 公開日:2023-03-25
# 3次元脳MRIの因果画像合成

Causal Image Synthesis of Brain MR in 3D ( http://arxiv.org/abs/2303.14349v1 )

ライセンス: Link先を確認
Yujia Li and Jiong Shi and S. Kevin Zhou(参考訳) 臨床意思決定は、事実的な医療画像に基づく偽りの推論を必要とするため、因果画像合成が必要となる。 そこで本研究では,アルツハイマー病の統計変数,臨床指標,脳MR画像の因果関係をモデル化する新しい手法を提案する。 具体的には,構造因果モデルを用いて因果関係を表現し,画像の合成を行う。 さらに,モデリングの複雑さを減らし,学習を容易なものにするための重要なステップとして,高次元3次元画像の低次元潜在特徴表現と外因性雑音を用いて,画像と非画像変数の因果関係を構築することを提案する。 提案手法は1586名の被験者と3683名の3d画像に基づいて実験を行い、年齢、脳容積、認知検査スコアなどの特定の属性に介入した偽脳mr画像を合成する。 偽画像の定量的指標と質的評価は,生成画像の優越性を示す。

Clinical decision making requires counterfactual reasoning based on a factual medical image and thus necessitates causal image synthesis. To this end, we present a novel method for modeling the causality between demographic variables, clinical indices and brain MR images for Alzheimer's Diseases. Specifically, we leverage a structural causal model to depict the causality and a styled generator to synthesize the image. Furthermore, as a crucial step to reduce modeling complexity and make learning tractable, we propose the use of low dimensional latent feature representation of a high-dimensional 3D image, together with exogenous noise, to build causal relationship between the image and non image variables. We experiment the proposed method based on 1586 subjects and 3683 3D images and synthesize counterfactual brain MR images intervened on certain attributes, such as age, brain volume and cognitive test score. Quantitative metrics and qualitative evaluation of counterfactual images demonstrates the superiority of our generated images.
翻訳日:2023-03-28 20:31:01 公開日:2023-03-25
# ゼロショットによる画像検索と説明可能なスタイル

Zero-Shot Everything Sketch-Based Image Retrieval, and in Explainable Style ( http://arxiv.org/abs/2303.14348v1 )

ライセンス: Link先を確認
Fengyin Lin, Mingkang Li, Da Li, Timothy Hospedales, Yi-Zhe Song, Yonggang Qi(参考訳) 本稿では,ゼロショートスケッチに基づく画像検索(ZS-SBIR)の問題について検討する。 i)ZS-SBIRのすべての変種(インターカテゴリ、インターカテゴリ、クロスデータセット)を1つのネットワーク(`everything'')で処理し、 (ii) このスケッチ写真マッチングがどのように機能するかを本当に理解したい(``explainable'')。 私たちの重要なイノベーションは、このようなクロスモーダルマッチング問題は、'bag-of-words'パラダイムに類似した、キーローカルパッチのグループの比較に還元できる、という認識にあります。 この変更によって、私たちは上記の2つの目標を達成できます。 技術的には、3つの新しいコンポーネントを持つトランスフォーマーベースのクロスモーダルネットワークである。 (i)最も有意義な地域に対応する視覚トークンを作成するための学習可能なトークン化器を備えた自己照応モジュール (ii)2つのモードにわたる視覚トークン間の局所的な対応を計算し、最終的に (iii)局所的適合関係を組み立て、スケッチと写真対の全体的な類似度指標を作成するカーネルベースの関係ネットワーク。 実験では、ZS-SBIRのすべての設定で優れたパフォーマンスを実現しています。 すべて重要な説明可能なゴールは、クロスモーダルなトークン対応を可視化することでエレガントに達成され、そして初めて、一致するすべての写真パッチを普遍的に置き換えることで、スケッチから写真合成に至る。 コードとモデルは \url{https://github.com/buptLinfy/ZSE-SBIR} で公開されている。

This paper studies the problem of zero-short sketch-based image retrieval (ZS-SBIR), however with two significant differentiators to prior art (i) we tackle all variants (inter-category, intra-category, and cross datasets) of ZS-SBIR with just one network (``everything''), and (ii) we would really like to understand how this sketch-photo matching operates (``explainable''). Our key innovation lies with the realization that such a cross-modal matching problem could be reduced to comparisons of groups of key local patches -- akin to the seasoned ``bag-of-words'' paradigm. Just with this change, we are able to achieve both of the aforementioned goals, with the added benefit of no longer requiring external semantic knowledge. Technically, ours is a transformer-based cross-modal network, with three novel components (i) a self-attention module with a learnable tokenizer to produce visual tokens that correspond to the most informative local regions, (ii) a cross-attention module to compute local correspondences between the visual tokens across two modalities, and finally (iii) a kernel-based relation network to assemble local putative matches and produce an overall similarity metric for a sketch-photo pair. Experiments show ours indeed delivers superior performances across all ZS-SBIR settings. The all important explainable goal is elegantly achieved by visualizing cross-modal token correspondences, and for the first time, via sketch to photo synthesis by universal replacement of all matched photo patches. Code and model are available at \url{https://github.com/buptLinfy/ZSE-SBIR}.
翻訳日:2023-03-28 20:30:43 公開日:2023-03-25
# 自動アノテーションを用いた視覚型ヴィニヤードナビゲーションソリューション

Vision-based Vineyard Navigation Solution with Automatic Annotation ( http://arxiv.org/abs/2303.14347v1 )

ライセンス: Link先を確認
Ertai Liu, Josephine Monica, Kaitlin Gold, Lance Cadle-Davidson, David Combs, Yu Jiang(参考訳) 自律ナビゲーションは、農業ロボットを用いて農業研究と生産管理(例えば、疾病管理と収量予測)の完全な自動化を達成するための鍵である。 本稿では,ブドウ畑などのトレル化収穫システムにおける農業ロボットのための視覚に基づく自律ナビゲーションフレームワークを提案する。 そこで本研究では,RGB-D画像から直接経路トラバーサビリティ・ヒートマップを推定し,その熱マップを所望の経路に変換する新たな学習手法を提案する。 RGB-D画像の最初のセットアップ中に収集したRTK GPSパスを接地木道アノテーションとして投影し,高速なモデルトレーニングと微調整を人体アノテーションなしで行うことで,自動アノテーションパイプラインを構築してトレーニングデータセットを構築した。 訓練された経路検出モデルは、行追跡と行切替モジュールからなる完全なナビゲーションフレームワークの開発に利用され、ロボットが作物列内を横断し、作物列間を移動してブドウ畑全体を自律的にカバーできるようになった。 3つの異なるブドウ畑で広範囲の試験が行われ、開発された経路検出モデルとナビゲーションフレームワークが、ブドウ畑でコスト効率が高く、正確で頑健な自律ナビゲーションソリューションを提供し、安定した性能を持つ未発見のブドウ畑に一般化できることを実証した。

Autonomous navigation is the key to achieving the full automation of agricultural research and production management (e.g., disease management and yield prediction) using agricultural robots. In this paper, we introduced a vision-based autonomous navigation framework for agriculture robots in trellised cropping systems such as vineyards. To achieve this, we proposed a novel learning-based method to estimate the path traversibility heatmap directly from an RGB-D image and subsequently convert the heatmap to a preferred traversal path. An automatic annotation pipeline was developed to form a training dataset by projecting RTK GPS paths collected during the first setup in a vineyard in corresponding RGB-D images as ground-truth path annotations, allowing a fast model training and fine-tuning without costly human annotation. The trained path detection model was used to develop a full navigation framework consisting of row tracking and row switching modules, enabling a robot to traverse within a crop row and transit between crop rows to cover an entire vineyard autonomously. Extensive field trials were conducted in three different vineyards to demonstrate that the developed path detection model and navigation framework provided a cost-effective, accurate, and robust autonomous navigation solution in the vineyard and could be generalized to unseen vineyards with stable performance.
翻訳日:2023-03-28 20:30:17 公開日:2023-03-25
# 等角不確かさ伝播を用いた協調的多物体追跡

Collaborative Multi-Object Tracking with Conformal Uncertainty Propagation ( http://arxiv.org/abs/2303.14346v1 )

ライセンス: Link先を確認
Sanbao Su, Songyang Han, Yiming Li, Zhili Zhang, Chen Feng, Caiwen Ding, Fei Miao(参考訳) オブジェクト検出と複数のオブジェクト追跡(mot)は、自動運転システムの必須コンポーネントである。 正確な検出と不確かさの定量化は、自動運転車の安全性と堅牢性を改善するために、知覚、予測、計画といったオンボードモジュールにおいて重要である。 協調物体検出(COD)は,複数エージェントの視点を利用して,検出精度の向上と不確実性を低減するために提案されている。 しかし,MOT性能を向上させるため,CODからの不確実性定量化を活用する方法についてはほとんど注目されていない。 本稿では,本研究の最初の試みとして,この課題に対処するための不確実性伝播フレームワークであるmot-cupを設計した。 本フレームワークは, 直接モデリングと共形予測によりCODの不確かさを定量化し, 動き予測とアソシエーションの段階において, この不確かさ情報を伝達する。 MOT-CUPは、異なる協調オブジェクト検出器とベースラインMOTアルゴリズムで動作するように設計されている。 総合的なコラボレーティブ知覚データセットであるv2x-simのmot-cupを評価し,精度が2%向上し,不確実性が2.67倍低減することを示した。 MOT-CUPはCODとMOTの両方において不確かさの定量化の重要性を示し、不確かさの伝播による精度の向上とCODに基づくMOTの不確かさの低減を初めて試みている。

Object detection and multiple object tracking (MOT) are essential components of self-driving systems. Accurate detection and uncertainty quantification are both critical for onboard modules, such as perception, prediction, and planning, to improve the safety and robustness of autonomous vehicles. Collaborative object detection (COD) has been proposed to improve detection accuracy and reduce uncertainty by leveraging the viewpoints of multiple agents. However, little attention has been paid on how to leverage the uncertainty quantification from COD to enhance MOT performance. In this paper, as the first attempt, we design the uncertainty propagation framework to address this challenge, called MOT-CUP. Our framework first quantifies the uncertainty of COD through direct modeling and conformal prediction, and propogates this uncertainty information during the motion prediction and association steps. MOT-CUP is designed to work with different collaborative object detectors and baseline MOT algorithms. We evaluate MOT-CUP on V2X-Sim, a comprehensive collaborative perception dataset, and demonstrate a 2% improvement in accuracy and a 2.67X reduction in uncertainty compared to the baselines, e.g., SORT and ByteTrack. MOT-CUP demonstrates the importance of uncertainty quantification in both COD and MOT, and provides the first attempt to improve the accuracy and reduce the uncertainty in MOT based on COD through uncertainty propogation.
翻訳日:2023-03-28 20:29:53 公開日:2023-03-25
# 文法的誤り訂正におけるGPT-3の性能解析

An Analysis of GPT-3's Performance in Grammatical Error Correction ( http://arxiv.org/abs/2303.14342v1 )

ライセンス: Link先を確認
Steven Coyne, Keisuke Sakaguchi(参考訳) GPT-3モデルは非常に強力で、様々な自然言語処理タスクで高い性能を実現する。 しかし, 文法的誤り訂正(GEC)の課題において, どのように振る舞うかに関する詳細な分析が比較的不十分である。 そこで我々は,gpt-3モデル(text-davinci-003)とgecベンチマークの比較実験を行い,ゼロショット設定と少数ショット設定の比較を含む複数のプロンプトのパフォーマンスを比較した。 異なるプロンプト形式に遭遇する興味深く、あるいは問題のあるアウトプットを分析した。 BEA-2019 と JFLEG データセットにおける最良プロンプトの性能を自動測定と人的評価の組み合わせを用いて報告し、人間のレーダの嗜好と基準に基づく自動測定との興味深い相違を明らかにした。

GPT-3 models are very powerful, achieving high performance on a variety of natural language processing tasks. However, there is a relative lack of detailed published analysis on how well they perform on the task of grammatical error correction (GEC). To address this, we perform experiments testing the capabilities of a GPT-3 model (text-davinci-003) against major GEC benchmarks, comparing the performance of several different prompts, including a comparison of zero-shot and few-shot settings. We analyze intriguing or problematic outputs encountered with different prompt formats. We report the performance of our best prompt on the BEA-2019 and JFLEG datasets using a combination of automatic metrics and human evaluations, revealing interesting differences between the preferences of human raters and the reference-based automatic metrics.
翻訳日:2023-03-28 20:29:29 公開日:2023-03-25
# ビジョントランスの精度向上に向けて

Towards Accurate Post-Training Quantization for Vision Transformer ( http://arxiv.org/abs/2303.14341v1 )

ライセンス: Link先を確認
Yifu Ding, Haotong Qin, Qinghua Yan, Zhenhua Chai, Junjie Liu, Xiaolin Wei, Xianglong Liu(参考訳) ビジョントランスフォーマーは、ビジョンタスクの潜在的なアーキテクチャとして現れる。 しかし、激しい計算と無視できない遅延は、実世界での応用を妨げる。 モデル圧縮技術として、既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こす。 その結果,(1)既存の校正基準が極めて低ビット表現に対する量子化の影響を測定するのに不正確であり,(2)既存の量子化パラダイムはソフトマックスのパワーロー分布には不向きであることがわかった。 そこで,本研究では視覚トランスフォーマーのための高精度後訓練量子化フレームワークapq-vitを提案する。 まず, ボトム除去ブロックワイズキャリブレーション方式を提案し, キャリブレーション基準を最適化し, ブロックワイズ方式で全体の量子化障害を知覚し, 最終出力に影響を及ぼす重要な量子化誤差を優先順位付けする。 次に, パワーローキャラクタの維持と注意機構の維持のために, ソフトマックスのマシュー効果保存量子化をデザインする。 大規模な分類と検出データセットに関する総合的な実験は、APQ-ViTが既存のトレーニング後の量子化手法を、特に低ビット幅設定(例えば、分類における平均5.17%の改善とW4A4における検出に対する24.43%)で、マージンを証明していることを示している。 また,apq-vitは汎用性が高く,多種多様な変圧器でも機能する点を強調する。

Vision transformer emerges as a potential architecture for vision tasks. However, the intense computation and non-negligible delay hinder its application in the real world. As a widespread model compression technique, existing post-training quantization methods still cause severe performance drops. We find the main reasons lie in (1) the existing calibration metric is inaccurate in measuring the quantization influence for extremely low-bit representation, and (2) the existing quantization paradigm is unfriendly to the power-law distribution of Softmax. Based on these observations, we propose a novel Accurate Post-training Quantization framework for Vision Transformer, namely APQ-ViT. We first present a unified Bottom-elimination Blockwise Calibration scheme to optimize the calibration metric to perceive the overall quantization disturbance in a blockwise manner and prioritize the crucial quantization errors that influence more on the final output. Then, we design a Matthew-effect Preserving Quantization for Softmax to maintain the power-law character and keep the function of the attention mechanism. Comprehensive experiments on large-scale classification and detection datasets demonstrate that our APQ-ViT surpasses the existing post-training quantization methods by convincing margins, especially in lower bit-width settings (e.g., averagely up to 5.17% improvement for classification and 24.43% for detection on W4A4). We also highlight that APQ-ViT enjoys versatility and works well on diverse transformer variants.
翻訳日:2023-03-28 20:29:13 公開日:2023-03-25
# g\"odelの不完全性定理からボット宗教の完全性(拡張抽象)へ

From G\"odel's Incompleteness Theorem to the completeness of bot religions (Extended abstract) ( http://arxiv.org/abs/2303.14338v1 )

ライセンス: Link先を確認
Dusko Pavlovic and Temra Pavlovic(参考訳) ヒルベルトとアッカーマンは不完全理論を完備理論に一貫して拡張する方法を求めた。 g\"odel は本質的に、自身の言明とその証明を符号化できる理論が真であるが証明できない言明を含むことを証明した。 ヒルベルトは、g\"odel の構成が彼の質問に答えることを受け入れず、彼の後期の著作や講義の中で、g\"odel は、理論は漸進的に完成できるので、科学が通常行うように、より真のステートメントを証明する公理を追加することによって、完備性が消滅点として加えることは不可能であると同意した。 この現実的な妥当性の見解は、仮説を推測する科学者だけでなく、不動産業者や他のディーラーにも親しみがあり、契約を締結するために必要であれば無効であるとして、最初の主張を有効にするためには、他の主張を無効にすることができると確信する。 本稿では,その基礎となる論理過程を考察し,ボットや他の自動学習者が収束しそうな検証不可能な理論へと導く軌道について述べる。

Hilbert and Ackermann asked for a method to consistently extend incomplete theories to complete theories. G\"odel essentially proved that any theory capable of encoding its own statements and their proofs contains statements that are true but not provable. Hilbert did not accept that G\"odel's construction answered his question, and in his late writings and lectures, G\"odel agreed that it did not, since theories can be completed incrementally, by adding axioms to prove ever more true statements, as science normally does, with completeness as the vanishing point. This pragmatic view of validity is familiar not only to scientists who conjecture test hypotheses but also to real estate agents and other dealers, who conjure claims, albeit invalid, as necessary to close a deal, confident that they will be able to conjure other claims, albeit invalid, sufficient to make the first claims valid. We study the underlying logical process and describe the trajectories leading to testable but unfalsifiable theories to which bots and other automated learners are likely to converge.
翻訳日:2023-03-28 20:28:45 公開日:2023-03-25
# SmartBook:AI支援の状況報告生成

SmartBook: AI-Assisted Situation Report Generation ( http://arxiv.org/abs/2303.14337v1 )

ライセンス: Link先を確認
Revanth Gangi Reddy, Yi R. Fung, Qi Zeng, Manling Li, Ziqi Wang, Paul Sullivan and Heng J(参考訳) 新型コロナウイルスのパンデミックやウクライナ危機などの新興イベントでは、適切な意思決定と効果的な行動対応を可能にするために、状況に関する時間に敏感な包括的な理解が必要である。 状況報告の自動生成は、公式のヒューマンキュレートレポートを作成する際に、ドメインエキスパートの時間、労力、コストを大幅に削減することができる。 しかし、この目標に向けたAI研究は非常に限られており、そのようなレポート生成を自動化するための試験がまだ成功していない。 本研究では,大量のニュースデータを消費し,複数の仮説(主張)を要約した構造化状況報告を作成し,事実証拠との豊かなリンクを基礎とする,新しいタスク定式化手法であるsmartbookを提案する。 我々は,専門家分析支援のための情報分析レポートを自動生成することにより,ウクライナ・ロシア危機に対するスマートブックを実現する。 マシン生成レポートはタイムライン形式で構成され、それぞれのタイムラインは主要なイベント(あるいは章)、対応する戦略的質問(セクション)、およびそれらの接頭辞(セクション内容)によって構成される。 提案するフレームワークは,リアルタイムのイベント関連の戦略的質問を自動的に検出する。これは,手作業によるアナリストの質問よりも指示的であり,複雑すぎる,解析が難しい,曖昧でハイレベルであることが多い。 徹底的な質的評価の結果、Smartbookの質問の約82%が戦略的に重要であり、レポートの少なくとも93%が戦術的に有用であることがわかった。 さらに、実験によれば、専門家のアナリストはsmartbookレポートにより多くの情報を追加する傾向があり、既存のトークンの2.3%しか削除されていない。

Emerging events, such as the COVID pandemic and the Ukraine Crisis, require a time-sensitive comprehensive understanding of the situation to allow for appropriate decision-making and effective action response. Automated generation of situation reports can significantly reduce the time, effort, and cost for domain experts when preparing their official human-curated reports. However, AI research toward this goal has been very limited, and no successful trials have yet been conducted to automate such report generation. We propose SmartBook, a novel task formulation targeting situation report generation, which consumes large volumes of news data to produce a structured situation report with multiple hypotheses (claims) summarized and grounded with rich links to factual evidence. We realize SmartBook for the Ukraine-Russia crisis by automatically generating intelligence analysis reports to assist expert analysts. The machine-generated reports are structured in the form of timelines, with each timeline organized by major events (or chapters), corresponding strategic questions (or sections) and their grounded summaries (or section content). Our proposed framework automatically detects real-time event-related strategic questions, which are more directed than manually-crafted analyst questions, which tend to be too complex, hard to parse, vague and high-level. Results from thorough qualitative evaluations show that roughly 82% of the questions in Smartbook have strategic importance, with at least 93% of the sections in the report being tactically useful. Further, experiments show that expert analysts tend to add more information into the SmartBook reports, with only 2.3% of the existing tokens being deleted, meaning SmartBook can serve as a useful foundation for analysts to build upon when creating intelligence reports.
翻訳日:2023-03-28 20:28:21 公開日:2023-03-25
# マルチパターンレイアウト分解のためのGPU加速行列被覆アルゴリズム

GPU-accelerated Matrix Cover Algorithm for Multiple Patterning Layout Decomposition ( http://arxiv.org/abs/2303.14335v1 )

ライセンス: Link先を確認
Guojin Chen, Haoyu Yang, Bei Yu(参考訳) マルチパターニングリソグラフィ(mpl)は、次世代リソグラフィ技術の遅れにより従来の光リソグラフィの解像度限界を克服する最も有望な方法の1つであると考えられている。 機能サイズが小さくなるにつれて、マルチパターンリソグラフィ(MPLD)技術のレイアウト分解は、先進ノードにおける製造性を改善するためにますます重要になっている。 分解プロセスは、設計規則と密度要求に従って異なるマスク層にレイアウト特徴を割り当てることを指す。 マスク数$k \geq 3$の場合、MPLD問題はNPハードであり、実用的な設計では実行時のオーバーヘッドに悩まされる可能性がある。 しかし, 産業用レイアウトでは, レイアウトパターンの数が指数関数的に増加し,MPLDモデルの実行性能が低下している。 本研究では,CPUのダンスリンクデータ構造を並列GPU行列演算に置き換えて,正確なカバーベースMPLDアルゴリズムの解を高速化する。 実験結果から,本システムは大規模かつ高速なレイアウト分解が可能であり,現状のレイアウト分解法と比較して,品質劣化のない10$\times$ Speed-upを実現することができることがわかった。

Multiple patterning lithography (MPL) is regarded as one of the most promising ways of overcoming the resolution limitations of conventional optical lithography due to the delay of next-generation lithography technology. As the feature size continues to decrease, layout decomposition for multiple patterning lithography (MPLD) technology is becoming increasingly crucial for improving the manufacturability in advanced nodes. The decomposition process refers to assigning the layout features to different mask layers according to the design rules and density requirements. When the number of masks $k \geq 3$, the MPLD problems are NP-hard and thus may suffer from runtime overhead for practical designs. However, the number of layout patterns is increasing exponentially in industrial layouts, which hinders the runtime performance of MPLD models. In this research, we substitute the CPU's dance link data structure with parallel GPU matrix operations to accelerate the solution for exact cover-based MPLD algorithms. Experimental results demonstrate that our system is capable of full-scale, lightning-fast layout decomposition, which can achieve more than 10$\times$ speed-up without quality degradation compared to state-of-the-art layout decomposition methods.
翻訳日:2023-03-28 20:27:55 公開日:2023-03-25
# the semantic reader project:aiを利用したインタラクティブ読書インタフェースによる学術文書の拡張

The Semantic Reader Project: Augmenting Scholarly Documents through AI-Powered Interactive Reading Interfaces ( http://arxiv.org/abs/2303.14334v1 )

ライセンス: Link先を確認
Kyle Lo, Joseph Chee Chang, Andrew Head, Jonathan Bragg, Amy X. Zhang, Cassidy Trier, Chloe Anastasiades, Tal August, Russell Authur, Danielle Bragg, Erin Bransom, Isabel Cachola, Stefan Candra, Yoganand Chandrasekhar, Yen-Sung Chen, Evie Yu-Yen Cheng, Yvonne Chou, Doug Downey, Rob Evans, Raymond Fok, Fangzhou Hu, Regan Huff, Dongyeop Kang, Tae Soo Kim, Rodney Kinney, Aniket Kittur, Hyeonsu Kang, Egor Klevak, Bailey Kuehl, Michael Langan, Matt Latzke, Jaron Lochner, Kelsey MacMillan, Eric Marsh, Tyler Murray, Aakanksha Naik, Ngoc-Uyen Nguyen, Srishti Palani, Soya Park, Caroline Paulic, Napol Rachatasumrit, Smita Rao, Paul Sayre, Zejiang Shen, Pao Siangliulue, Luca Soldaini, Huy Tran, Madeleine van Zuylen, Lucy Lu Wang, Christopher Wilhelm, Caroline Wu, Jiangjiang Yang, Angele Zamarron, Marti A. Hearst, Daniel S. Weld(参考訳) 学術出版物は学者から他者への知識移転の鍵となる。 しかし、研究論文は情報密度が高く、科学文献の量が増えるにつれて、読解プロセスを支援する新しい技術の必要性が高まっている。 インターネット技術によって変革された論文の発見プロセスとは対照的に、研究論文を読む経験は数十年でほとんど変わっていない。 研究論文を共有するためのpdfフォーマットは、ポータビリティのために広く使われているが、静的コンテンツ、低視野の読者に対するアクセシビリティの低さ、モバイルデバイスでの読み取りの難しさなど、大きな欠点がある。 この論文では、"AIとHCIパワーの最近の進歩は、インテリジェントでインタラクティブで、アクセス可能な読み込みインターフェース -- レガシPDFであっても? 本稿では,研究論文を対象とした動的読解インタフェースの自動作成を,複数の機関で共同で進めるSemantic Reader Projectについて述べる。 本研究により,300人以上の参加者と現実世界のユーザを対象に,学習者の読書体験の向上を図った10種類のプロトタイプインタフェースを開発し,ユーザビリティ研究を行った。 また、研究論文が成熟するにつれて、最高の機能を組み込むためのプロダクションリーディングインターフェイスもリリースしました。 本論文は,研究論文(発見,効率,理解,合成,アクセシビリティ)を読む際に,学者や公衆の面を中心に構築し,その進展の概要と今後の課題について述べる。

Scholarly publications are key to the transfer of knowledge from scholars to others. However, research papers are information-dense, and as the volume of the scientific literature grows, the need for new technology to support the reading process grows. In contrast to the process of finding papers, which has been transformed by Internet technology, the experience of reading research papers has changed little in decades. The PDF format for sharing research papers is widely used due to its portability, but it has significant downsides including: static content, poor accessibility for low-vision readers, and difficulty reading on mobile devices. This paper explores the question "Can recent advances in AI and HCI power intelligent, interactive, and accessible reading interfaces -- even for legacy PDFs?" We describe the Semantic Reader Project, a collaborative effort across multiple institutions to explore automatic creation of dynamic reading interfaces for research papers. Through this project, we've developed ten research prototype interfaces and conducted usability studies with more than 300 participants and real-world users showing improved reading experiences for scholars. We've also released a production reading interface for research papers that will incorporate the best features as they mature. We structure this paper around challenges scholars and the public face when reading research papers -- Discovery, Efficiency, Comprehension, Synthesis, and Accessibility -- and present an overview of our progress and remaining open challenges.
翻訳日:2023-03-28 20:27:33 公開日:2023-03-25
# 多目的確率計画のためのヒューリスティック探索

Heuristic Search for Multi-Objective Probabilistic Planning ( http://arxiv.org/abs/2303.14363v1 )

ライセンス: Link先を確認
Dillon Chen, Felipe Trevizan, Sylvie Thi\'ebaux(参考訳) ヒューリスティック・サーチは、古典的計画、多目的計画、確率的最短経路(SSP)問題としてモデル化された確率的計画など、幅広い計画問題に適用された強力なアプローチである。 ここでは、ヒューリスティック検索の到達範囲を、より表現力のあるクラス、すなわちマルチオブジェクト確率的最短経路(MOSSP)に拡張し、非支配的なポリシーのカバレッジを計算する必要がある。 我々は、よく知られたSSPアルゴリズムを多目的ケースに拡張する新しいヒューリスティック検索アルゴリズムMOLAO*とMOLRTDPを設計する。 探索を導く問題の確率的・多目的的特徴を考慮に入れる能力が異なる領域非依存ヒューリスティック関数のスペクトルを更に構築する。 実験ではこれらのアルゴリズムの利点とヒューリスティックスの相対的なメリットを実証した。

Heuristic search is a powerful approach that has successfully been applied to a broad class of planning problems, including classical planning, multi-objective planning, and probabilistic planning modelled as a stochastic shortest path (SSP) problem. Here, we extend the reach of heuristic search to a more expressive class of problems, namely multi-objective stochastic shortest paths (MOSSPs), which require computing a coverage set of non-dominated policies. We design new heuristic search algorithms MOLAO* and MOLRTDP, which extend well-known SSP algorithms to the multi-objective case. We further construct a spectrum of domain-independent heuristic functions differing in their ability to take into account the stochastic and multi-objective features of the problem to guide the search. Our experiments demonstrate the benefits of these algorithms and the relative merits of the heuristics.
翻訳日:2023-03-28 20:22:17 公開日:2023-03-25
# ビデオセマンティックセグメンテーションのための時空間画素レベルコントラスト学習に基づくソースフリードメイン適応

Spatio-Temporal Pixel-Level Contrastive Learning-based Source-Free Domain Adaptation for Video Semantic Segmentation ( http://arxiv.org/abs/2303.14361v1 )

ライセンス: Link先を確認
Shao-Yuan Lo, Poojan Oza, Sumanth Chennupati, Alejandro Galindo, Vishal M. Patel(参考訳) セマンティックセグメンテーションの教師なしドメイン適応(UDA)は、ソースデータとターゲットデータの両方にアクセスすることに頼ることにより、ラベル付きソース知識をラベル付きターゲットドメインに転送する。 しかし、実際のシナリオでは、ソースデータへのアクセスは制限されるか、不可能であることが多い。 ソースデータ制限状況下では、UDAは実用的ではない。 この問題に対処するため、最近の研究は、ソースデータにアクセスすることなく、ソース学習されたモデルをターゲットドメインに適応することを目的として、Source-Free Domain Adaptation (SFDA) セットアップ下でソリューションを調査している。 それでも、既存のFDAのアプローチでは、画像レベルの情報のみを適応に用いており、ビデオアプリケーションでは準最適である。 本稿では,ビデオセマンティクスセグメンテーション(vss)のためのsfdaについて検討する。 具体的には、ソースデータの欠如に対処するために、時空間情報を完全に活用する新しい手法である、時空間Pixel-Level(STPL)コントラスト学習を提案する。 STPLは時空間における画素間の意味的相関を明示的に学習し、ラベルのない対象領域に適応するための強力な自己スーパービジョンを提供する。 大規模な実験により、STPLはVSSベンチマークの最先端のパフォーマンスを現在のUDAやFDAのアプローチと比較して達成している。 コードはhttps://github.com/shaoyuanlo/stplで入手できる。

Unsupervised Domain Adaptation (UDA) of semantic segmentation transfers labeled source knowledge to an unlabeled target domain by relying on accessing both the source and target data. However, the access to source data is often restricted or infeasible in real-world scenarios. Under the source data restrictive circumstances, UDA is less practical. To address this, recent works have explored solutions under the Source-Free Domain Adaptation (SFDA) setup, which aims to adapt a source-trained model to the target domain without accessing source data. Still, existing SFDA approaches use only image-level information for adaptation, making them sub-optimal in video applications. This paper studies SFDA for Video Semantic Segmentation (VSS), where temporal information is leveraged to address video adaptation. Specifically, we propose Spatio-Temporal Pixel-Level (STPL) contrastive learning, a novel method that takes full advantage of spatio-temporal information to tackle the absence of source data better. STPL explicitly learns semantic correlations among pixels in the spatio-temporal space, providing strong self-supervision for adaptation to the unlabeled target domain. Extensive experiments show that STPL achieves state-of-the-art performance on VSS benchmarks compared to current UDA and SFDA approaches. Code is available at: https://github.com/shaoyuanlo/STPL
翻訳日:2023-03-28 20:22:01 公開日:2023-03-25
# スタイルと歪みの問題:パノラマ意味セグメンテーションのためのデュアルパス非教師なしドメイン適応

Both Style and Distortion Matter: Dual-Path Unsupervised Domain Adaptation for Panoramic Semantic Segmentation ( http://arxiv.org/abs/2303.14360v1 )

ライセンス: Link先を確認
Xu Zheng, Jinjing Zhu, Yexin Liu, Zidong Cao, Chong Fu, Lin Wang(参考訳) シーン理解能力はパノラマ画像セマンティックセグメンテーションの活発な研究のきっかけとなった。 しかし、その性能は等角射影(erp)の歪みとピクセル単位のアノテーションの欠如によって阻害される。 このため、ERPとピンホール画像を等しく扱い、ピンホールから教師なし領域適応(UDA)を介してERP画像へ知識を伝達する研究もある。 しかし、それらが引き起こされるドメインギャップに対処できない。 1)カメラセンサと撮影シーンの固有の相違 2) 異なる画像フォーマット(ERPやピンホール画像など)。 本稿では,新しいフレキシブルなデュアルパス UDA フレームワーク DPPASS を提案し,ERP とタンジェントプロジェクション (TP) の画像を入力として利用する。 ドメインギャップを低減するため,クロスプロジェクションとイントラプロジェクショントレーニングを提案する。 クロスプロジェクショントレーニングには、直感的特徴比較トレーニングと予測整合トレーニングが含まれる。 すなわち、前者は正の例と同じ射影位置を持つ特徴を定式化し、後者はERPとTPの間のクロスモデル予測の整合性を保証する。 さらに, ピンホール画像の特徴とERP画像とTP画像との相違点を低減するために, 対向射影内トレーニングを提案する。 重要なことは、TPパスはトレーニング後に自由に除去できるため、追加の推論コストは発生しない。 2つのベンチマークにおいて、DPPASS は最先端のアプローチよりも +1.06$\%$ mIoU の増加を達成した。

The ability of scene understanding has sparked active research for panoramic image semantic segmentation. However, the performance is hampered by distortion of the equirectangular projection (ERP) and a lack of pixel-wise annotations. For this reason, some works treat the ERP and pinhole images equally and transfer knowledge from the pinhole to ERP images via unsupervised domain adaptation (UDA). However, they fail to handle the domain gaps caused by: 1) the inherent differences between camera sensors and captured scenes; 2) the distinct image formats (e.g., ERP and pinhole images). In this paper, we propose a novel yet flexible dual-path UDA framework, DPPASS, taking ERP and tangent projection (TP) images as inputs. To reduce the domain gaps, we propose cross-projection and intra-projection training. The cross-projection training includes tangent-wise feature contrastive training and prediction consistency training. That is, the former formulates the features with the same projection locations as positive examples and vice versa, for the models' awareness of distortion, while the latter ensures the consistency of cross-model predictions between the ERP and TP. Moreover, adversarial intra-projection training is proposed to reduce the inherent gap, between the features of the pinhole images and those of the ERP and TP images, respectively. Importantly, the TP path can be freely removed after training, leading to no additional inference cost. Extensive experiments on two benchmarks show that our DPPASS achieves +1.06$\%$ mIoU increment than the state-of-the-art approaches.
翻訳日:2023-03-28 20:21:36 公開日:2023-03-25
# 人間行動認識のための多視点知識蒸留変圧器

Multi-view knowledge distillation transformer for human action recognition ( http://arxiv.org/abs/2303.14358v1 )

ライセンス: Link先を確認
Ying-Chen Lin, Vincent S. Tseng(参考訳) 近年,人間の行動認識の性能向上にトランスフォーマティブベースの手法が用いられている。 しかし、これらの研究のほとんどはマルチビューデータが完結していると仮定しており、現実のシナリオでは必ずしもそうとは限らない。 そこで本稿では,教師ネットワークと学生ネットワークで構成されるMKDT(Multi-view Knowledge Distillation Transformer)フレームワークを提案する。 このフレームワークは、現実世界のアプリケーションにおける不完全なヒューマンアクション問題に対処することを目的としている。 具体的には、多視点知識蒸留変圧器は、シフトウインドウを備えた階層型視覚変換器を用いて、より時空間的な情報を取得する。 実験の結果,このフレームワークは3つの公開データセット上でCNN法よりも優れていた。

Recently, Transformer-based methods have been utilized to improve the performance of human action recognition. However, most of these studies assume that multi-view data is complete, which may not always be the case in real-world scenarios. Therefore, this paper presents a novel Multi-view Knowledge Distillation Transformer (MKDT) framework that consists of a teacher network and a student network. This framework aims to handle incomplete human action problems in real-world applications. Specifically, the multi-view knowledge distillation transformer uses a hierarchical vision transformer with shifted windows to capture more spatial-temporal information. Experimental results demonstrate that our framework outperforms the CNN-based method on three public datasets.
翻訳日:2023-03-28 20:21:04 公開日:2023-03-25
# 異種3次元mr膝画像の扱い : 二重知識蒸留を用いた連発型少数ショット学習法

Dealing With Heterogeneous 3D MR Knee Images: A Federated Few-Shot Learning Method With Dual Knowledge Distillation ( http://arxiv.org/abs/2303.14357v1 )

ライセンス: Link先を確認
Xiaoxiao He, Chaowei Tan, Bo Liu, Liping Si, Weiwu Yao, Liang Zhao, Di Liu, Qilong Zhangli, Qi Chang, Kang Li and Dimitris N. Metaxas(参考訳) 統合学習は、データを集約することなくクライアント(病院など)間の協調的なトレーニングを可能にするため、医療機関の間で人気を集めている。 しかし、特に大規模な3次元画像データセットのアノテーション作成に伴うコストが高いため、臨床機関は局所的なトレーニングに十分な教師付きデータを持っていない。 したがって、協調モデルの性能は限定的な監督下にある。 一方、大企業には、高解像度の画像やラベルでデータリポジトリをコンパイルするリソースがある。 そのため、個々のクライアントは、公開データリポジトリで取得した知識を利用して、プライベートアノテート画像の不足を軽減することができる。 本稿では, 二重知識蒸留を用いた連成数ショット学習法を提案する。 この方法では、プライバシーを損なうことなく、クライアント間で限定的なアノテーションによる共同トレーニングを可能にする。 提案手法の教師付き学習は,各クライアントのラベル付き限られたデータから特徴を抽出し,教師なしデータは,特徴と応答に基づく知識の両方を国家データリポジトリから抽出し,協調モデルの精度をさらに向上し,通信コストを低減する。 民間臨床データから3次元磁気共鳴膝画像について広範な評価を行った。 提案手法は,他の半教師付きフェデレーション学習法よりも優れた性能と訓練時間を示す。 コードと追加の可視化結果はhttps://github.com/hexiaoxiao-cs/fedml-kneeで確認できる。

Federated Learning has gained popularity among medical institutions since it enables collaborative training between clients (e.g., hospitals) without aggregating data. However, due to the high cost associated with creating annotations, especially for large 3D image datasets, clinical institutions do not have enough supervised data for training locally. Thus, the performance of the collaborative model is subpar under limited supervision. On the other hand, large institutions have the resources to compile data repositories with high-resolution images and labels. Therefore, individual clients can utilize the knowledge acquired in the public data repositories to mitigate the shortage of private annotated images. In this paper, we propose a federated few-shot learning method with dual knowledge distillation. This method allows joint training with limited annotations across clients without jeopardizing privacy. The supervised learning of the proposed method extracts features from limited labeled data in each client, while the unsupervised data is used to distill both feature and response-based knowledge from a national data repository to further improve the accuracy of the collaborative model and reduce the communication cost. Extensive evaluations are conducted on 3D magnetic resonance knee images from a private clinical dataset. Our proposed method shows superior performance and less training time than other semi-supervised federated learning methods. Codes and additional visualization results are available at https://github.com/hexiaoxiao-cs/fedml-knee.
翻訳日:2023-03-28 20:20:48 公開日:2023-03-25
# 非コヒーレント干渉

Incoherent Interference ( http://arxiv.org/abs/2303.14356v1 )

ライセンス: Link先を確認
Kaige Wang(参考訳) 光の干渉現象は物理学において一般的だが最も重要な効果である。 本稿では,コヒーレント光と非コヒーレント光の干渉効果の比較と解析を行い,特に空間的非コヒーレント光の干渉について述べる。 熱光と2光子絡み合った光源はどちらも、同様の二階干渉効果を発生させる不整合源とみなすことができるが、その基礎となる物理学は全く異なる。 空間的コヒーレントと非コヒーレントの両方のソースで同じよく設計された実験的な設定で1次干渉を実現することができるが、異なる干渉パターンを示す。

The interference phenomenon of light is a common but most important effect in physics. In this article, we compare and analyse the interference effects of both coherent and incoherent light; in particular, the interference of spatially incoherent light sources is described. Thermal light and a two-photon entangled source may both be regarded as incoherent sources which can generate similar second-order interference effects, but their underlying physics is quite different. First-order interference can be realized with both spatially coherent and incoherent sources in the same well-designed experimental setup, but exhibit different interference patterns; their different interference mechanisms will also be clarified.
翻訳日:2023-03-28 20:20:10 公開日:2023-03-25
# O-RANにおけるインテリジェントロードバランシングとリソースアロケーション:マルチエージェントマルチArmed Banditアプローチ

Intelligent Load Balancing and Resource Allocation in O-RAN: A Multi-Agent Multi-Armed Bandit Approach ( http://arxiv.org/abs/2303.14355v1 )

ライセンス: Link先を確認
Chia-Hsiang Lai, Li-Hsiang Shen, Kai-Ten Feng(参考訳) オープン無線アクセスネットワーク(O-RAN)アーキテクチャは、インターネットサービスプロバイダが機械学習アルゴリズムを使用してネットワークを最適化するためのコスト効率が高くスケーラブルなソリューションを提供する。 アーキテクチャのオープンインターフェースはネットワーク機能の仮想化を可能にし、O-RANはユーザのための主要な通信デバイスである。 しかし、限られた周波数資源と情報爆発により、効率的なトラフィック制御やリソース割り当てなしに最適なネットワーク体験を実現することは困難である。 そこで本研究では,単一オープン分散ユニット(O-DU)が管理するオープン無線ユニット(O-RU)の過負荷集中によるネットワークの混雑やユーザ障害を防止し,ネットワーク全体に均等に負荷を分散するモビリティ対応ロードバランシングを検討する。 本稿では,ロードバランシングとリソース割り当て(mmlbra)のためのマルチエージェントマルチアームバンド方式を提案し,ロードバランシングを実現し,o-ranネットワークの効率的な合計レート性能を向上させる。 また,Non-RT RIC (Non-RT RIC) と近RT RIC (Non-RT RIC) で独立に動作可能な mmLBRA-LB と mmLBRA-RA のサブスキームを提案する。 シミュレーションの結果,提案手法はO-RU間のロードバランシングをオープンな文献におけるルールベースや既存のヒューリスティック手法と比較して向上させながら,有効ネットワーク和率を著しく向上させることがわかった。

The open radio access network (O-RAN) architecture offers a cost-effective and scalable solution for internet service providers to optimize their networks using machine learning algorithms. The architecture's open interfaces enable network function virtualization, with the O-RAN serving as the primary communication device for users. However, the limited frequency resources and information explosion make it difficult to achieve an optimal network experience without effective traffic control or resource allocation. To address this, we consider mobility-aware load balancing to evenly distribute loads across the network, preventing network congestion and user outages caused by excessive load concentration on open radio unit (O-RU) governed by a single open distributed unit (O-DU). We have proposed a multi-agent multi-armed bandit for load balancing and resource allocation (mmLBRA) scheme, designed to both achieve load balancing and improve the effective sum-rate performance of the O-RAN network. We also present the mmLBRA-LB and mmLBRA-RA sub-schemes that can operate independently in non-realtime RAN intelligent controller (Non-RT RIC) and near-RT RIC, respectively, providing a solution with moderate loads and high-rate in O-RUs. Simulation results show that the proposed mmLBRA scheme significantly increases the effective network sum-rate while achieving better load balancing across O-RUs compared to rule-based and other existing heuristic methods in open literature.
翻訳日:2023-03-28 20:19:52 公開日:2023-03-25
# DiracDiffusion: データ一貫性を保証したデノイングとインクリメンタル再構築

DiracDiffusion: Denoising and Incremental Reconstruction with Assured Data-Consistency ( http://arxiv.org/abs/2303.14353v1 )

ライセンス: Link先を確認
Zalan Fabian, Berk Tinaz, Mahdi Soltanolkotabi(参考訳) 拡散モデルは、画像復元を含む多数のコンピュータビジョンタスクにおいて、新しい最先端の芸術を確立した。 拡散に基づく逆問題ソルバは、非常に破損した測定値から例外的な視覚品質の再構成を生成する。 しかし、認識歪曲トレードオフとして広く知られているように、PSNRのような歪曲指標では、知覚的にアピールする再構成の価格がしばしば支払われる。 歪み測定は、逆問題において重要な要件である観察への忠実度を測定する。 そこで本研究では, 逆問題を解くための新しい枠組みを提案する。すなわち, 元のクリーン画像の劣化とノイズを徐々に減少させる確率的劣化過程から観測が生まれると仮定する。 クリーンなイメージを回復するために,劣化過程の逆転を学習する。 本手法は, 逆過程を通じて元の計測値との整合性を維持し, 歪み指標の改善と早期ストッピングによるサンプリング高速化のために, 知覚品質のトレードオフに優れた柔軟性を実現する。 本研究では,様々な高分解能データセットと逆問題に対して本手法の有効性を実証し,知覚と歪みの両指標に関して,他の最先端拡散法よりも大幅に改善した。 ソースコードと事前訓練されたモデルがまもなくリリースされる。

Diffusion models have established new state of the art in a multitude of computer vision tasks, including image restoration. Diffusion-based inverse problem solvers generate reconstructions of exceptional visual quality from heavily corrupted measurements. However, in what is widely known as the perception-distortion trade-off, the price of perceptually appealing reconstructions is often paid in declined distortion metrics, such as PSNR. Distortion metrics measure faithfulness to the observation, a crucial requirement in inverse problems. In this work, we propose a novel framework for inverse problem solving, namely we assume that the observation comes from a stochastic degradation process that gradually degrades and noises the original clean image. We learn to reverse the degradation process in order to recover the clean image. Our technique maintains consistency with the original measurement throughout the reverse process, and allows for great flexibility in trading off perceptual quality for improved distortion metrics and sampling speedup via early-stopping. We demonstrate the efficiency of our method on different high-resolution datasets and inverse problems, achieving great improvements over other state-of-the-art diffusion-based methods with respect to both perceptual and distortion metrics. Source code and pre-trained models will be released soon.
翻訳日:2023-03-28 20:19:21 公開日:2023-03-25
# オープン量子系におけるスペクトル形状因子の普遍的性質

Universal Properties of the Spectral Form Factor in Open Quantum Systems ( http://arxiv.org/abs/2303.14352v1 )

ライセンス: Link先を確認
Yi-Neng Zhou, Tian-Gang Zhou and Pengfei Zhang(参考訳) スペクトル形成因子(SFF)は、その時間変化によって異なるエネルギースケールで固有値統計学を探索することができる。 閉量子カオス系では、sffはハミルトニアンのスペクトル剛性を反映した普遍的ディップランプ・プラトー挙動を示す。 本研究では,オープン量子系におけるSFFの普遍的性質について検討する。 オープンシステムではSFFは指数関数的に崩壊し,その後,ある中間時間スケールで線形に増加し,最終的に飽和プラトー値に低下することがわかった。 1) 初期崩壊指数とリンドブラッド作用素の普遍関係を導出し, (2) 長期的台地値と定常状態の数を導出する。 また,普遍行動の有効場理論の視点についても述べる。 sachdev-ye-kitaev (syk) モデル、ランダム行列論 (rmt)、ボース・ハバード模型を数値シミュレーションして理論予測を検証する。

The spectral form factor (SFF) can probe the eigenvalue statistic at different energy scales as its time variable varies. In closed quantum chaotic systems, the SFF exhibits a universal dip-ramp-plateau behavior, which reflects the spectrum rigidity of the Hamiltonian. In this work, we explore the universal properties of SFF in open quantum systems. We find that in open systems the SFF first decays exponentially, followed by a linear increase at some intermediate time scale, and finally decreases to a saturated plateau value. We derive universal relations between (1) the early-time decay exponent and Lindblad operators; (2) the long-time plateau value and the number of steady states. We also explain the effective field theory perspective of universal behaviors. We verify our theoretical predictions by numerically simulating the Sachdev-Ye-Kitaev (SYK) model, random matrix theory (RMT), and the Bose-Hubbard model.
翻訳日:2023-03-28 20:19:00 公開日:2023-03-25
# マルチleo衛星コンステレーションネットワークにおける資源配分のための階層型マルチエージェントマルチアームドバンディット

Hierarchical Multi-Agent Multi-Armed Bandit for Resource Allocation in Multi-LEO Satellite Constellation Networks ( http://arxiv.org/abs/2303.14351v1 )

ライセンス: Link先を確認
Li-Hsiang Shen, Yun Ho, Kai-Ten Feng, Lie-Liang Yang, Sau-Hsuan Wu, Jen-Ming Wu(参考訳) 低軌道 (LEO) 衛星コンステレーションは、次の6世代 (6G) の地球外ネットワーク (NTN) において、高速度のサービスを提供できる。 運用電力、ビーム、チャネルの搭載資源が限られているため、複雑な干渉の場合、レジリエントで効率的な資源管理が魅力的である。 しかし、従来の地上基地局と異なり、LEOは高い高度と高い移動度で展開され、送信中にかなり長い遅延と干渉を引き起こす。 その結果、LEOと地上ユーザ間の正確なチャネル状態情報を取得することは困難である。 したがって、未知のチャネル情報の下で双方向の伝送を行うフレームワークを構築し、長遅延のグラウンドゲートウェイで収集したデータがない。 本稿では、利用可能な無線リソースを適切に割り当てることにより、LEOコンステレーション(mmRAL)の階層的マルチエージェントマルチアーム帯域割り当てを提案する。 LEOは、各リソースのマイクロエージェントの様々な動作の未知の試行を試みる複数のマクロエージェントであり、漸近的にスループット情報のみで適切な割り当てを達成する。 シミュレーションでは,LEOデプロイメントの様々なケースにおいて,ユーザ数,LEO数,ハードウェアコスト,停止確率などを評価する。 効率的でレジリエントな割り当てにより、提案されたmmralシステムは均質または不均質な軌道平面または星座で動作でき、公開文献の既存のベンチマークよりも高いスループット性能を達成することができる。

Low Earth orbit (LEO) satellite constellation is capable of providing global coverage area with high-rate services in the next sixth-generation (6G) non-terrestrial network (NTN). Due to limited onboard resources of operating power, beams, and channels, resilient and efficient resource management has become compellingly imperative under complex interference cases. However, different from conventional terrestrial base stations, LEO is deployed at considerable height and under high mobility, inducing substantially long delay and interference during transmission. As a result, acquiring the accurate channel state information between LEOs and ground users is challenging. Therefore, we construct a framework with a two-way transmission under unknown channel information and no data collected at long-delay ground gateway. In this paper, we propose hierarchical multi-agent multi-armed bandit resource allocation for LEO constellation (mmRAL) by appropriately assigning available radio resources. LEOs are considered as collaborative multiple macro-agents attempting unknown trials of various actions of micro-agents of respective resources, asymptotically achieving suitable allocation with only throughput information. In simulations, we evaluate mmRAL in various cases of LEO deployment, serving numbers of users and LEOs, hardware cost and outage probability. Benefited by efficient and resilient allocation, the proposed mmRAL system is capable of operating in homogeneous or heterogeneous orbital planes or constellations, achieving the highest throughput performance compared to the existing benchmarks in open literature.
翻訳日:2023-03-28 20:18:43 公開日:2023-03-25
# 3次元顔面不完全再生 : 深層学習と3Dプリンティングプロトタイプ

3D Facial Imperfection Regeneration: Deep learning approach and 3D printing prototypes ( http://arxiv.org/abs/2303.14381v1 )

ライセンス: Link先を確認
Phuong D. Nguyen, Thinh D. Le, Duong Q. Nguyen, Thanh Q. Nguyen, Li-Wei Chou, H. Nguyen-Xuan(参考訳) 本研究では,完全畳み込みメッシュオートエンコーダモデルによる不完全領域の存在下での3次元自然顔の再生の可能性について検討する。 深層学習の手法をグラフ処理と解析に応用し,顔の傷の補充部を再現する能力モデルについて検討する。 データセット作成における我々のアプローチは、ユニークな状況に対応する仮想空間において合理的に顔の傷を生じることができる。 特に,患者の顔の残存特徴に基づき,完全な顔再建を再現する3d顔不完全再生(3d-fair)という新しい方法を提案する。 本研究の適用能力をさらに高めるため,患者の創傷を分離し,適切な創傷カバーモデルを提供する改良されたアウトリーチ技術を開発した。 また、不完全な顔とオープンコードのCir3D-FaIRデータセットがhttps://github.com/SIMOGroup/3DFaIRでリリースされた。 本研究は,患者が簡便な方法でより迅速かつ安全に回復するためのアプローチの可能性を示すものである。 この研究が新たな製品開発に寄与し、顔の傷跡再生のための革新的なソリューションを期待する。

This study explores the potential of a fully convolutional mesh autoencoder model for regenerating 3D nature faces with the presence of imperfect areas. We utilize deep learning approaches in graph processing and analysis to investigate the capabilities model in recreating a filling part for facial scars. Our approach in dataset creation is able to generate a facial scar rationally in a virtual space that corresponds to the unique circumstances. Especially, we propose a new method which is named 3D Facial Imperfection Regeneration(3D-FaIR) for reproducing a complete face reconstruction based on the remaining features of the patient face. To further enhance the applicable capacity of the present research, we develop an improved outlier technique to separate the wounds of patients and provide appropriate wound cover models. Also, a Cir3D-FaIR dataset of imperfect faces and open codes was released at https://github.com/SIMOGroup/3DFaIR. Our findings demonstrate the potential of the proposed approach to help patients recover more quickly and safely through convenient techniques. We hope that this research can contribute to the development of new products and innovative solutions for facial scar regeneration.
翻訳日:2023-03-28 20:11:27 公開日:2023-03-25
# LiDARセマンティックセグメンテーションのためのインスタントドメイン拡張

Instant Domain Augmentation for LiDAR Semantic Segmentation ( http://arxiv.org/abs/2303.14378v1 )

ライセンス: Link先を確認
Kwonyoung Ryu, Soonmin Hwang, Jaesik Park(参考訳) lidarセンサーの普及にもかかわらず、3dlidarデータを用いた知覚アルゴリズムは「センサーバイアス問題」に苦しむ。 具体的には、LiDARセンサの未確認仕様がドメインの相違によりテスト時に適用されると、認識アルゴリズムの性能は著しく低下する。 本稿では「LiDomAug」と呼ばれるセマンティックセグメンテーションタスクのための高速で柔軟なLiDAR拡張手法を提案する。 生のlidarスキャンを集約し、動的歪みと閉塞を考慮して任意の構成のlidarスキャンを作成し、その結果、瞬時にドメインが拡張される。 当社のオンデマンド拡張モジュールは330 FPSで動作するので、学習フレームワークのデータローダにシームレスに統合することができます。 提案したLiDomAugによる学習ベースのアプローチは,センサバイアス問題の影響を受けにくく,セマンティックKITTIおよびnuScenesデータセット上で,対象ドメインデータを使用しない新たな最先端ドメイン適応性能を実現する。 また,様々なLiDAR構成を忠実に扱うセンサ非依存モデルを提案する。

Despite the increasing popularity of LiDAR sensors, perception algorithms using 3D LiDAR data struggle with the 'sensor-bias problem'. Specifically, the performance of perception algorithms significantly drops when an unseen specification of LiDAR sensor is applied at test time due to the domain discrepancy. This paper presents a fast and flexible LiDAR augmentation method for the semantic segmentation task, called 'LiDomAug'. It aggregates raw LiDAR scans and creates a LiDAR scan of any configurations with the consideration of dynamic distortion and occlusion, resulting in instant domain augmentation. Our on-demand augmentation module runs at 330 FPS, so it can be seamlessly integrated into the data loader in the learning framework. In our experiments, learning-based approaches aided with the proposed LiDomAug are less affected by the sensor-bias issue and achieve new state-of-the-art domain adaptation performances on SemanticKITTI and nuScenes dataset without the use of the target domain data. We also present a sensor-agnostic model that faithfully works on the various LiDAR configurations.
翻訳日:2023-03-28 20:11:10 公開日:2023-03-25
# 画像認識レイアウト生成のための画素レベル判別器による教師なし領域適応

Unsupervised Domain Adaption with Pixel-level Discriminator for Image-aware Layout Generation ( http://arxiv.org/abs/2303.14377v1 )

ライセンス: Link先を確認
Chenchen Xu and Min Zhou and Tiezheng Ge and Yuning Jiang and Weiwei Xu(参考訳) レイアウトはグラフィックデザインとポスター生成に不可欠である。 近年,レイアウト生成にディープラーニングモデルの適用が注目されている。 本稿では,画像コンテンツに基づくganベースのモデルを用いて,商品画像とグラフィックレイアウトの組み合わせによる広告ポスターレイアウトデータセットを必要とする広告ポスターグラフィックレイアウトを生成する。 しかし、既存のデータセットのペア画像とレイアウトは、それぞれインペイントとアノテートポスターによって収集される。 インペイントされたポスター(ソースドメインデータ)とクリーンな製品イメージ(ターゲットドメインデータ)の間には、ドメインギャップがあります。 そこで本論文では、教師なし領域適応手法を用いて、画像の内容に応じて画像レイアウトを生成する新しい画素レベル識別器(PD)を設計する。 PDは浅層特徴写像に接続され、各入力画像画素のGAN損失を算出する。 定量的および定性的な評価は、PDA-GANが最先端のパフォーマンスを実現し、広告ポスターのための高品質な画像認識グラフィックレイアウトを生成することを示す。

Layout is essential for graphic design and poster generation. Recently, applying deep learning models to generate layouts has attracted increasing attention. This paper focuses on using the GAN-based model conditioned on image contents to generate advertising poster graphic layouts, which requires an advertising poster layout dataset with paired product images and graphic layouts. However, the paired images and layouts in the existing dataset are collected by inpainting and annotating posters, respectively. There exists a domain gap between inpainted posters (source domain data) and clean product images (target domain data). Therefore, this paper combines unsupervised domain adaption techniques to design a GAN with a novel pixel-level discriminator (PD), called PDA-GAN, to generate graphic layouts according to image contents. The PD is connected to the shallow level feature map and computes the GAN loss for each input-image pixel. Both quantitative and qualitative evaluations demonstrate that PDA-GAN can achieve state-of-the-art performances and generate high-quality image-aware graphic layouts for advertising posters.
翻訳日:2023-03-28 20:10:53 公開日:2023-03-25
# ViPFormer: 教師なしポイントクラウド理解のための効率的なビジョンアンドポイントクラウドトランスフォーマー

ViPFormer: Efficient Vision-and-Pointcloud Transformer for Unsupervised Pointcloud Understanding ( http://arxiv.org/abs/2303.14376v1 )

ライセンス: Link先を確認
Hongyu Sun, Yongcai Wang, Xudong Cai, Xuewei Bai and Deying Li(参考訳) 近年,高額な手作業アノテーションの制限や,教師付き手法の転送性の低下を緩和するために,ポイントクラウド処理のための非教師付きパラダイムが増えている。 その中でもCrossPointは、対照的な学習フレームワークに従い、教師なしのポイントクラウド理解のためにイメージとポイントクラウドデータを活用する。 有望な性能を示すが、不均衡なアーキテクチャは必要以上に複雑で非効率である。 例えば、CrossPointの画像ブランチは、ポイントクラウドブランチよりも$\sim$8.3x重いため、複雑さとレイテンシが高くなる。 この問題に対処するため,本稿では,単一のアーキテクチャで画像とポイントクラウド処理を統一する軽量ビジョン・アンド・ポイントクラウドトランスフォーマ(vipformer)を提案する。 ViPFormerは、モーダル内およびクロスモーダルのコントラスト目的を最適化することにより、教師なしの方法で学習する。 その後、事前訓練されたモデルは、3次元形状分類や意味セグメンテーションを含む様々な下流タスクに転送される。 異なるデータセットでの実験では、vipformerは以前の最先端の教師なしメソッドよりも精度が高く、モデルの複雑さが低く、実行時のレイテンシが低い。 最後に,vipformerの各成分の有効性を広範なアブレーション研究により検証した。 提案手法の実装はhttps://github.com/auniquesun/ViPFormerで確認できる。

Recently, a growing number of work design unsupervised paradigms for point cloud processing to alleviate the limitation of expensive manual annotation and poor transferability of supervised methods. Among them, CrossPoint follows the contrastive learning framework and exploits image and point cloud data for unsupervised point cloud understanding. Although the promising performance is presented, the unbalanced architecture makes it unnecessarily complex and inefficient. For example, the image branch in CrossPoint is $\sim$8.3x heavier than the point cloud branch leading to higher complexity and latency. To address this problem, in this paper, we propose a lightweight Vision-and-Pointcloud Transformer (ViPFormer) to unify image and point cloud processing in a single architecture. ViPFormer learns in an unsupervised manner by optimizing intra-modal and cross-modal contrastive objectives. Then the pretrained model is transferred to various downstream tasks, including 3D shape classification and semantic segmentation. Experiments on different datasets show ViPFormer surpasses previous state-of-the-art unsupervised methods with higher accuracy, lower model complexity and runtime latency. Finally, the effectiveness of each component in ViPFormer is validated by extensive ablation studies. The implementation of the proposed method is available at https://github.com/auniquesun/ViPFormer.
翻訳日:2023-03-28 20:10:36 公開日:2023-03-25
# ハイブリッドプロンプトチューニングによる知識強化フレーム意味解析

Knowledge-augmented Frame Semantic Parsing with Hybrid Prompt-tuning ( http://arxiv.org/abs/2303.14375v1 )

ライセンス: Link先を確認
Rui Zhang, Yajing Sun, Jingyuan Yang, Wei Peng(参考訳) フレームセマンティクスに基づくアプローチは、セマンティクス解析タスクに広く使われ、主流になった。 異なる文脈下でターゲット語彙単位によって誘発されるフレーム表現を曖昧にすることは依然として困難である。 事前学習型言語モデル(PLM)は意味解析に用いられ、ニューラルパーサの精度を大幅に向上させた。 しかしながら、PLMsベースのアプローチはトレーニングデータに示されるコロケーションパターンを好む傾向があり、不正確な結果をもたらす。 ここでの直感は、フレームを曖昧にするために PLM と組み合わせて、セマンティックフレームで取得した知識を最適に利用するメカニズムを設計することである。 フレーム意味解析中に正確なフレーム知識をplmに組み込むことにより、意味表現を強化するための新しい知識提示フレーム意味構文解析アーキテクチャ(kaf-spa)を提案する。 具体的には、メモリベースの知識抽出モジュール(MKEM)を設計し、フレームの正確な知識を選択し、高次元ベクトル空間における連続的なテンプレートを構築する。 さらに,選択した知識をPLMに組み込んで,フレームおよび引数識別のタスクに適応させるために,ハイブリッドプロンプト(連続的および離散的プロンプト)を用いたタスク指向知識探索モジュール(TKPM)を設計する。 2つの公開FrameNetデータセットに対する実験結果から,本手法が強いベースライン(F1では+3$\%以上)を著しく上回り,現在のベンチマークで最先端の結果が得られた。 アブレーション研究はkaf-spaの有効性を検証する。

Frame semantics-based approaches have been widely used in semantic parsing tasks and have become mainstream. It remains challenging to disambiguate frame representations evoked by target lexical units under different contexts. Pre-trained Language Models (PLMs) have been used in semantic parsing and significantly improve the accuracy of neural parsers. However, the PLMs-based approaches tend to favor collocated patterns presented in the training data, leading to inaccurate outcomes. The intuition here is to design a mechanism to optimally use knowledge captured in semantic frames in conjunction with PLMs to disambiguate frames. We propose a novel Knowledge-Augmented Frame Semantic Parsing Architecture (KAF-SPA) to enhance semantic representation by incorporating accurate frame knowledge into PLMs during frame semantic parsing. Specifically, a Memory-based Knowledge Extraction Module (MKEM) is devised to select accurate frame knowledge and construct the continuous templates in the high dimensional vector space. Moreover, we design a Task-oriented Knowledge Probing Module (TKPM) using hybrid prompts (in terms of continuous and discrete prompts) to incorporate the selected knowledge into the PLMs and adapt PLMs to the tasks of frame and argument identification. Experimental results on two public FrameNet datasets demonstrate that our method significantly outperforms strong baselines (by more than +3$\%$ in F1), achieving state-of-art results on the current benchmark. Ablation studies verify the effectiveness of KAF-SPA.
翻訳日:2023-03-28 20:10:18 公開日:2023-03-25
# DoNet: 細胞学インスタンスセグメンテーションのためのディープデオーバーラップネットワーク

DoNet: Deep De-overlapping Network for Cytology Instance Segmentation ( http://arxiv.org/abs/2303.14373v1 )

ライセンス: Link先を確認
Hao Jiang and Rushan Zhang and Yanning Zhou and Yumeng Wang and Hao Chen(参考訳) 細胞診画像における細胞標本の分節化は生物学的解析やがんスクリーニングにおいて重要な役割を担っているが、依然として困難である。 1)あいまいな境界の原因となる広範囲に重複する半透明な細胞群 2) 模倣物と破片の核としての混乱。 本研究では,分解・再結合戦略における重複解消ネットワーク(donet)を提案する。 DRM(Dual-path Region Segmentation Module)は、セルクラスタを交差点と補完領域に明示的に分解し、セマンティック一貫性誘導再結合モジュール(CRM)と統合する。 細胞質内の核の包接関係をさらに導入するため,細胞内のインスタンス予測にセルアテンションマップを統合するMask-Guided Region Proposal Strategy (MRP)を設計した。 提案手法をISBI2014およびCPSデータセット上で検証する。 実験の結果,提案するDoNetは,他のSOTA(State-of-the-art)セルインスタンスのセグメンテーション法よりも優れていた。 コードはhttps://github.com/deepdonet/donetで入手できる。

Cell instance segmentation in cytology images has significant importance for biology analysis and cancer screening, while remains challenging due to 1) the extensive overlapping translucent cell clusters that cause the ambiguous boundaries, and 2) the confusion of mimics and debris as nuclei. In this work, we proposed a De-overlapping Network (DoNet) in a decompose-and-recombined strategy. A Dual-path Region Segmentation Module (DRM) explicitly decomposes the cell clusters into intersection and complement regions, followed by a Semantic Consistency-guided Recombination Module (CRM) for integration. To further introduce the containment relationship of the nucleus in the cytoplasm, we design a Mask-guided Region Proposal Strategy (MRP) that integrates the cell attention maps for inner-cell instance prediction. We validate the proposed approach on ISBI2014 and CPS datasets. Experiments show that our proposed DoNet significantly outperforms other state-of-the-art (SOTA) cell instance segmentation methods. The code is available at https://github.com/DeepDoNet/DoNet.
翻訳日:2023-03-28 20:09:51 公開日:2023-03-25
# 一人の注釈を付したホワイトマタートラクトセグメンテーションのための登録と不確実性に基づくフレームワーク

A Registration- and Uncertainty-based Framework for White Matter Tract Segmentation With Only One Annotated Subject ( http://arxiv.org/abs/2303.14371v1 )

ライセンス: Link先を確認
Hao Xu, Tengfei Xue, Dongnan Liu, Fan Zhang, Carl-Fredrik Westin, Ron Kikinis, Lauren J. O'Donnell, Weidong Cai(参考訳) 拡散磁気共鳴画像(dMRI)に基づく白質(WM)線分画は、ヒトの健康や脳疾患の解析において重要な役割を担っている。 しかしながら、WMトラクトのアノテーションは時間がかかり、経験豊富な神経解剖学者が必要である。 本研究は, 最小限のアノテーション設定の難易度で経路分割を検討するために, 1つの注釈付き主題(主節レベルワンショット)のみを用いた新しい枠組みを提案する。 提案手法は登録ベースピーク拡張(RPA)および不確実性ベース精製(URe)モジュールを用いて構成する。 RPAモジュールは擬似被写体とその対応するラベルを合成し、トラクションセグメンテーション性能を向上させる。 提案したUReモジュールは、疑似主題に対する低信頼ボクセルの負の影響を緩和する。 実験の結果,提案手法は最先端手法よりも高い性能を示し,提案手法は有効であることがわかった。 総じて,本手法は1つの注釈付き被験者で正確な全脳路分割を実現する。 私たちのコードはhttps://github.com/HaoXu0507/ISBI2023-One-Shot-WM-Tract-Segmentationで公開されています。

White matter (WM) tract segmentation based on diffusion magnetic resonance imaging (dMRI) plays an important role in the analysis of human health and brain diseases. However, the annotation of WM tracts is time-consuming and needs experienced neuroanatomists. In this study, to explore tract segmentation in the challenging setting of minimal annotations, we propose a novel framework utilizing only one annotated subject (subject-level one-shot) for tract segmentation. Our method is constructed by proposed registration-based peak augmentation (RPA) and uncertainty-based refining (URe) modules. RPA module synthesizes pseudo subjects and their corresponding labels to improve the tract segmentation performance. The proposed URe module alleviates the negative influence of the low-confidence voxels on pseudo subjects. Experimental results show that our method outperforms other state-of-the-art methods by a large margin, and our proposed modules are effective. Overall, our method achieves accurate whole-brain tract segmentation with only one annotated subject. Our code is available at https://github.com/HaoXu0507/ISBI2023-One-Shot-WM-Tract-Segmentation.
翻訳日:2023-03-28 20:09:33 公開日:2023-03-25
# ゲームプレイヤとしてのビデオテキスト: クロスモーダル表現学習のための階層的バンジャフインタラクション

Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning ( http://arxiv.org/abs/2303.14369v1 )

ライセンス: Link先を確認
Peng Jin, Jinfa Huang, Pengfei Xiong, Shangxuan Tian, Chang Liu, Xiangyang Ji, Li Yuan, Jie Chen(参考訳) コントラスト学習に基づくビデオ言語表現学習アプローチ、例えばクリップは、事前定義されたビデオテキストペアで意味的相互作用を追求する優れた性能を達成している。 この粗粒なグローバルな相互作用を明確にし、さらに一歩前進するためには、細粒なクロスモーダル学習のための挑戦的なシェル破りの相互作用に直面する必要がある。 本稿では,多変量協調型ゲーム理論を持つゲームプレイヤーとして映像テキストを創造的にモデル化し,多様な粒度,柔軟な組み合わせ,曖昧な強度との微粒なセマンティック相互作用における不確実性に対処する。 具体的には,階層的バンジャフ相互作用 (HBI) を用いて,ビデオフレームとテキストワードの対応性を評価する。 複数のビデオフレームと複数のテキストワードの協調ゲームを実現するために,提案手法は元のビデオフレーム(テキストワード)をクラスタリングし,マージされたトークン間のバンジャフ相互作用を計算する。 トークンマージモジュールを積み重ねることで,異なる意味レベルで協調ゲームを実現する。 高い性能のテキストビデオ検索とビデオ検索応答ベンチマークの大規模な実験は、我々のHBIの有効性を正当化する。 より奨励的に、それはまた、コミュニティに大きく影響するクロスモーダル相互作用の理解を促進するための可視化ツールとしても機能する。 プロジェクトページはhttps://jpthu17.github.io/hbi/。

Contrastive learning-based video-language representation learning approaches, e.g., CLIP, have achieved outstanding performance, which pursue semantic interaction upon pre-defined video-text pairs. To clarify this coarse-grained global interaction and move a step further, we have to encounter challenging shell-breaking interactions for fine-grained cross-modal learning. In this paper, we creatively model video-text as game players with multivariate cooperative game theory to wisely handle the uncertainty during fine-grained semantic interaction with diverse granularity, flexible combination, and vague intensity. Concretely, we propose Hierarchical Banzhaf Interaction (HBI) to value possible correspondence between video frames and text words for sensitive and explainable cross-modal contrast. To efficiently realize the cooperative game of multiple video frames and multiple text words, the proposed method clusters the original video frames (text words) and computes the Banzhaf Interaction between the merged tokens. By stacking token merge modules, we achieve cooperative games at different semantic levels. Extensive experiments on commonly used text-video retrieval and video-question answering benchmarks with superior performances justify the efficacy of our HBI. More encouragingly, it can also serve as a visualization tool to promote the understanding of cross-modal interaction, which have a far-reaching impact on the community. Project page is available at https://jpthu17.github.io/HBI/.
翻訳日:2023-03-28 20:09:13 公開日:2023-03-25
# FlexNeRF: まばらな視点から動く人間のフォトリアリスティックな自由視点レンダリング

FlexNeRF: Photorealistic Free-viewpoint Rendering of Moving Humans from Sparse Views ( http://arxiv.org/abs/2303.14368v1 )

ライセンス: Link先を確認
Vinoj Jayasundara, Amit Agrawal, Nicolas Heron, Abhinav Shrivastava, Larry S. Davis(参考訳) 本稿では,モノクラー映像からの人間の動きの光リアルなフリービューポイントレンダリング法FlexNeRFを提案する。 提案手法は,被験者が高速/複雑動作を示す場合の難解なシナリオであるスパースビューとうまく連携する。 本研究では,ポーズ依存の運動場とポーズ非依存の時間変形を相補し,標準時間とポーズ構成を協調的に最適化する手法を提案する。 セグメンテーションなどの中間表現の損失を増大させるとともに,新たな時間的および周期的一貫性制約により,観察したビューがスパーザーになるにつれて高品質な出力を提供する。 我々は,この手法が,公開ベンチマークデータセットや自己取得型ファッションデータセットよりも優れていることを実証的に証明した。 プロジェクトページは、https://flex-nerf.github.io/で利用可能である。

We present FlexNeRF, a method for photorealistic freeviewpoint rendering of humans in motion from monocular videos. Our approach works well with sparse views, which is a challenging scenario when the subject is exhibiting fast/complex motions. We propose a novel approach which jointly optimizes a canonical time and pose configuration, with a pose-dependent motion field and pose-independent temporal deformations complementing each other. Thanks to our novel temporal and cyclic consistency constraints along with additional losses on intermediate representation such as segmentation, our approach provides high quality outputs as the observed views become sparser. We empirically demonstrate that our method significantly outperforms the state-of-the-art on public benchmark datasets as well as a self-captured fashion dataset. The project page is available at: https://flex-nerf.github.io/
翻訳日:2023-03-28 20:08:50 公開日:2023-03-25
# ハイブリッドファジィ-クリップクラスタリングアルゴリズム:理論と実験

Hybrid Fuzzy-Crisp Clustering Algorithm: Theory and Experiments ( http://arxiv.org/abs/2303.14366v1 )

ライセンス: Link先を確認
Akira R. Kinjo and Daphne Teck Ching Lai(参考訳) 会員関数が厳密に正であることから、従来のファジィc平均クラスタリング法は、大きく異なるサイズのクラスタが存在する場合、不均衡な影響を引き起こすことがある。 つまり、非常に大きなクラスタは、他のすべてのクラスタの中央にドラッグするが、今のところは分離している。 そこで本研究では,メンバシップ関数の線形項と二次項を組み合わせた目標関数に基づくハイブリッドファジィ・クリップクラスタリングアルゴリズムを提案する。 このアルゴリズムでは、クラスタ中心から離れたところにあるデータポイントが ``sufficiently'' であれば、クラスタへのデータポイントのメンバシップは自動的に 0 に設定される。 本稿では,その幾何学的解釈とともに,ハイブリッドファジィクラスタリングのための新しいアルゴリズムを提案する。 このアルゴリズムは、UCIレポジトリから生成された20のシミュレーションデータと5つの実世界のデータセットでテストされ、従来のファジィクラスタリング法と比較される。 提案手法は,不均衡データセットの従来の手法よりも優れており,よりバランスの取れたデータセットで競合できることを示す。

With the membership function being strictly positive, the conventional fuzzy c-means clustering method sometimes causes imbalanced influence when clusters of vastly different sizes exist. That is, an outstandingly large cluster drags to its center all the other clusters, however far they are separated. To solve this problem, we propose a hybrid fuzzy-crisp clustering algorithm based on a target function combining linear and quadratic terms of the membership function. In this algorithm, the membership of a data point to a cluster is automatically set to exactly zero if the data point is ``sufficiently'' far from the cluster center. In this paper, we present a new algorithm for hybrid fuzzy-crisp clustering along with its geometric interpretation. The algorithm is tested on twenty simulated data generated and five real-world datasets from the UCI repository and compared with conventional fuzzy and crisp clustering methods. The proposed algorithm is demonstrated to outperform the conventional methods on imbalanced datasets and can be competitive on more balanced datasets.
翻訳日:2023-03-28 20:08:36 公開日:2023-03-25
# エチオピア語における自然言語処理の現状,課題,機会

Natural Language Processing in Ethiopian Languages: Current State, Challenges, and Opportunities ( http://arxiv.org/abs/2303.14406v1 )

ライセンス: Link先を確認
Atnafu Lambebo Tonja, Tadesse Destaw Belay, Israel Abebe Azime, Abinew Ali Ayele, Moges Ahmed Mehamed, Olga Kolesnikova, Seid Muhie Yimam(参考訳) この調査は、Amharic、Afaan Oromo、Tigrinya、Wolayttaの4つのエチオピア語に対する自然言語処理(NLP)の現状を掘り下げるものである。 本稿では,エチオピアにおけるNLP研究の課題と機会を明らかにする。 さらに、これらの言語でさまざまなNLPタスクのための公開リソースを含む集中リポジトリをGitHubに提供しています。 このリポジトリは、他の研究者からのコントリビューションとともに定期的に更新することができる。 本研究の目的は,エチオピア語に興味のあるNLP研究者に研究ギャップを特定し,その情報を広めることである。

This survey delves into the current state of natural language processing (NLP) for four Ethiopian languages: Amharic, Afaan Oromo, Tigrinya, and Wolaytta. Through this paper, we identify key challenges and opportunities for NLP research in Ethiopia. Furthermore, we provide a centralized repository on GitHub that contains publicly available resources for various NLP tasks in these languages. This repository can be updated periodically with contributions from other researchers. Our objective is to identify research gaps and disseminate the information to NLP researchers interested in Ethiopian languages and encourage future research in this domain.
翻訳日:2023-03-28 20:02:51 公開日:2023-03-25
# ブリッジ精度と信頼性:物体検出の校正のための列車時間損失

Bridging Precision and Confidence: A Train-Time Loss for Calibrating Object Detection ( http://arxiv.org/abs/2303.14404v1 )

ライセンス: Link先を確認
Muhammad Akhtar Munir and Muhammad Haris Khan and Salman Khan and Fahad Shahbaz Khan(参考訳) ディープニューラルネットワーク(DNN)は、いくつかの視覚ベースの問題における驚くべき進歩を可能にしている。 予測精度が高いにもかかわらず、近年、いくつかの研究で自信過剰な予測を提供する傾向があり、校正が不十分であることが明らかになった。 DNNの誤校正に対処する研究の大部分は、分類の範囲に該当し、ドメイン内予測のみを考慮する。 しかし、DNNに基づくオブジェクト検出モデルの校正は、多くの視覚に基づく安全クリティカルな応用の中心である、ほとんど、あるいは全く進歩していない。 本稿では,列車時キャリブレーション法に着想を得て,境界箱のクラス信頼度と予測精度(精度)の整合性を明確にした新しい補助損失定式化を提案する。 我々の損失の元々の定式化は、ミニバッチにおける真の正と偽陽性の数に依存するため、他のアプリケーション固有の損失関数とのトレーニングで使用できる、損失の微分可能なプロキシを開発する。 MS-COCO、Cityscapes、Sim10k、BDD100kを含む6つのベンチマークデータセットを使って、ドメイン内およびドメイン外シナリオの挑戦に関する広範な実験を行います。 その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。 ソースコードと事前トレーニング済みモデルはhttps://github.com/akhtarvision/bpc_calibrationで公開されています。

Deep neural networks (DNNs) have enabled astounding progress in several vision-based problems. Despite showing high predictive accuracy, recently, several works have revealed that they tend to provide overconfident predictions and thus are poorly calibrated. The majority of the works addressing the miscalibration of DNNs fall under the scope of classification and consider only in-domain predictions. However, there is little to no progress in studying the calibration of DNN-based object detection models, which are central to many vision-based safety-critical applications. In this paper, inspired by the train-time calibration methods, we propose a novel auxiliary loss formulation that explicitly aims to align the class confidence of bounding boxes with the accurateness of predictions (i.e. precision). Since the original formulation of our loss depends on the counts of true positives and false positives in a minibatch, we develop a differentiable proxy of our loss that can be used during training with other application-specific loss functions. We perform extensive experiments on challenging in-domain and out-domain scenarios with six benchmark datasets including MS-COCO, Cityscapes, Sim10k, and BDD100k. Our results reveal that our train-time loss surpasses strong calibration baselines in reducing calibration error for both in and out-domain scenarios. Our source code and pre-trained models are available at https://github.com/akhtarvision/bpc_calibration
翻訳日:2023-03-28 20:02:41 公開日:2023-03-25
# 多嚢胞性卵巣症候群の分類における違いを伴う線分別分析

Deep Linear Discriminant Analysis with Variation for Polycystic Ovary Syndrome Classification ( http://arxiv.org/abs/2303.14401v1 )

ライセンス: Link先を確認
Raunak Joshi, Abhishek Gupta, Himanshu Soni, Ronald Laban(参考訳) 多嚢胞性卵巣症候群(Polycystic ovary syndrome)の診断は、予後に基づく学習法を用いて活用できる問題である。 PCOSの実装の多くは機械学習で見ることができるが、アルゴリズムにはグラフィカル処理ユニットの処理能力に一定の制限がある。 単純な機械学習アルゴリズムは、Deep Learningを使用して高度なフレームワークで改善することができる。 線形判別分析は、従来のLDAの変換版であるDeep LDAを用いて、ディープラーニングを用いて性能を向上させることができる分類のための線形次元削減アルゴリズムである。 本論文では,PCOSの予後の変動を考慮したDeep LDAの実装について述べる。

The polycystic ovary syndrome diagnosis is a problem that can be leveraged using prognostication based learning procedures. Many implementations of PCOS can be seen with Machine Learning but the algorithms have certain limitations in utilizing the processing power graphical processing units. The simple machine learning algorithms can be improved with advanced frameworks using Deep Learning. The Linear Discriminant Analysis is a linear dimensionality reduction algorithm for classification that can be boosted in terms of performance using deep learning with Deep LDA, a transformed version of the traditional LDA. In this result oriented paper we present the Deep LDA implementation with a variation for prognostication of PCOS.
翻訳日:2023-03-28 20:02:15 公開日:2023-03-25
# ifseg:視覚言語モデルによる画像なし意味セグメンテーション

IFSeg: Image-free Semantic Segmentation via Vision-Language Model ( http://arxiv.org/abs/2303.14396v1 )

ライセンス: Link先を確認
Sukmin Yun, Seong Hyeon Park, Paul Hongsuck Seo, Jinwoo Shin(参考訳) 視覚言語(vl)の事前学習は、様々な視覚タスクにまたがる新しい概念(例えば、クロスモダリティ転送)の伝達可能性と柔軟性により、最近多くの注目を集めている。 しかしながら、VL駆動セグメンテーションは未探索であり、既存のアプローチでは、VLモデルを下流セグメンテーションタスクに適応させるために、追加のトレーニングイメージやセグメンテーションアノテーションを取得することの負担がまだある。 本稿では,目的とする意味カテゴリーの組のみに対して意味セグメンテーションを行うことを目標とし,タスク固有の画像やアノテーションを必要とせず,意味セグメンテーションを行うことを目標とする,イメージフリーセグメンテーションタスクを提案する。 この課題に対処するため、提案手法はFSegと呼ばれ、VL駆動の人工画像分割ペアを生成し、事前学習されたVLモデルをセグメンテーションタスクに更新する。 この人工学習データをランダム意味カテゴリーの2次元マップと対応する単語トークンの別のマップを作成することにより構築する。 事前訓練されたVLモデルは、意味を共有するトークンが密接な位置にある共通空間に視覚的およびテキストトークンを投影するので、この人工的に生成されたワードマップは、そのようなVLモデルの実際の画像入力を置き換えることができる。 広範な実験を通じて,本モデルは,この課題に対して有効なベースラインを確立するだけでなく,タスク固有の画像やセグメンテーションマスクといった,より強い監督に依存する既存の手法と比較して,強力な性能を示す。 コードはhttps://github.com/alinlab/ifsegで入手できる。

Vision-language (VL) pre-training has recently gained much attention for its transferability and flexibility in novel concepts (e.g., cross-modality transfer) across various visual tasks. However, VL-driven segmentation has been under-explored, and the existing approaches still have the burden of acquiring additional training images or even segmentation annotations to adapt a VL model to downstream segmentation tasks. In this paper, we introduce a novel image-free segmentation task where the goal is to perform semantic segmentation given only a set of the target semantic categories, but without any task-specific images and annotations. To tackle this challenging task, our proposed method, coined IFSeg, generates VL-driven artificial image-segmentation pairs and updates a pre-trained VL model to a segmentation task. We construct this artificial training data by creating a 2D map of random semantic categories and another map of their corresponding word tokens. Given that a pre-trained VL model projects visual and text tokens into a common space where tokens that share the semantics are located closely, this artificially generated word map can replace the real image inputs for such a VL model. Through an extensive set of experiments, our model not only establishes an effective baseline for this novel task but also demonstrates strong performances compared to existing methods that rely on stronger supervision, such as task-specific images and segmentation masks. Code is available at https://github.com/alinlab/ifseg.
翻訳日:2023-03-28 20:02:06 公開日:2023-03-25
# MDQE: ビデオに蓄積したセグメントインスタンスに対する差別的クエリ埋め込みのマイニング

MDQE: Mining Discriminative Query Embeddings to Segment Occluded Instances on Challenging Videos ( http://arxiv.org/abs/2303.14395v1 )

ライセンス: Link先を確認
Minghan Li and Shuai Li and Wangmeng Xiang and Lei Zhang(参考訳) 目覚ましい進歩はあったが、クリップごとのインプットを持つビデオインスタンスセグメンテーション(VIS)メソッドは、隠されたオブジェクトや混み合ったシーンを持つ挑戦的なビデオでは失敗することが多い。 これは主に、これらのメソッドのインスタンスクエリが、インスタンスの判別的な埋め込みをうまくエンコードできないため、クエリベースのセグメンタがこれらの'ハード'インスタンスを区別することが難しいためである。 これらの問題に対処するため,本論文では,難解なビデオ上でオクルードされたインスタンスをセグメント化するための識別クエリ埋め込み(mdqe)を提案する。 まず,空間的文脈情報とフレーム間物体の動きを考慮し,対象クエリの位置埋め込みとコンテンツ特徴を初期化する。 次に, 近接する非ターゲットインスタンスから各インスタンスを遠ざけるため, インスタンス間マスク反発損失を提案する。 提案したMDQEは,簡単なビデオ上での挑戦的なビデオと競争性能の最先端結果を実現する,クリップごとの入力を持つ最初のVIS手法である。 具体的には、ResNet50のMDQEはOVISとYouTube-VIS 2021でそれぞれ33.0\%と44.5\%のマスクAPを達成する。 MDQEのコードは \url{https://github.com/MinghanLi/MDQE_CVPR2023} にある。

While impressive progress has been achieved, video instance segmentation (VIS) methods with per-clip input often fail on challenging videos with occluded objects and crowded scenes. This is mainly because instance queries in these methods cannot encode well the discriminative embeddings of instances, making the query-based segmenter difficult to distinguish those `hard' instances. To address these issues, we propose to mine discriminative query embeddings (MDQE) to segment occluded instances on challenging videos. First, we initialize the positional embeddings and content features of object queries by considering their spatial contextual information and the inter-frame object motion. Second, we propose an inter-instance mask repulsion loss to distance each instance from its nearby non-target instances. The proposed MDQE is the first VIS method with per-clip input that achieves state-of-the-art results on challenging videos and competitive performance on simple videos. In specific, MDQE with ResNet50 achieves 33.0\% and 44.5\% mask AP on OVIS and YouTube-VIS 2021, respectively. Code of MDQE can be found at \url{https://github.com/MinghanLi/MDQE_CVPR2023}.
翻訳日:2023-03-28 20:01:33 公開日:2023-03-25
# マルチプール型3次元畳み込みニューラルネットワークによる脳のfmri分類

Multi-pooling 3D Convolutional Neural Network for fMRI Classification of Visual Brain States ( http://arxiv.org/abs/2303.14391v1 )

ライセンス: Link先を確認
Zhen Zhang, Masaki Takeda and Makoto Iwata(参考訳) 機能的磁気共鳴画像(fMRI)データによる視覚物体分類の神経復号化は困難であり、基礎となる脳機構を理解する上で不可欠である。 本稿では,fMRI分類精度を向上させるために,マルチプール3次元畳み込みニューラルネットワーク(MP3DCNN)を提案する。 MP3DCNNは主に3層3DCNNで構成されており、3D畳み込みの第1層と第2層はそれぞれプール接続の分岐を持つ。 以上の結果から, 顔と顔の分類精度, 顔のサブカテゴリー (男性と女性) , 対象のサブカテゴリー (自然物と人工物) の分類精度は, 脳機構の復号化研究よりも1.684%から14.918%向上することが示唆された。

Neural decoding of visual object classification via functional magnetic resonance imaging (fMRI) data is challenging and is vital to understand underlying brain mechanisms. This paper proposed a multi-pooling 3D convolutional neural network (MP3DCNN) to improve fMRI classification accuracy. MP3DCNN is mainly composed of a three-layer 3DCNN, where the first and second layers of 3D convolutions each have a branch of pooling connection. The results showed that this model can improve the classification accuracy for categorical (face vs. object), face sub-categorical (male face vs. female face), and object sub-categorical (natural object vs. artificial object) classifications from 1.684% to 14.918% over the previous study in decoding brain mechanisms.
翻訳日:2023-03-28 20:01:11 公開日:2023-03-25
# マスク拡散トランスは強いイメージシンセサイザーである

Masked Diffusion Transformer is a Strong Image Synthesizer ( http://arxiv.org/abs/2303.14389v1 )

ライセンス: Link先を確認
Shanghua Gao, Pan Zhou, Ming-Ming Cheng, Shuicheng Yan(参考訳) 画像合成の成功にもかかわらず、拡散確率モデル(dpms)は、しばしば画像内の対象部品間の関係を学習する文脈推論能力が欠如しており、学習プロセスが遅いことを観察する。 この問題を解決するために,画像中のオブジェクトの意味的部分間の文脈的関係学習能力を明確に向上させるマスク潜在モデリング手法を提案するMasked Diffusion Transformer (MDT)を提案する。 トレーニング中、MDTは特定のトークンを隠蔽するために潜在空間で動作する。 そして、非対称マスキング拡散変換器を、拡散生成過程を維持しつつ、マスク付きトークンからマスク付きトークンを予測するように設計されている。 mdtは不完全なコンテクスト入力から画像の全情報を再構築することができ、画像トークン間の関連関係を学習することができる。 実験の結果,MDT は ImageNet データセットの新たな SoTA FID スコアなどの画像合成性能に優れており,従来の SoTA DiT よりも3倍高速であることがわかった。 ソースコードはhttps://github.com/sail-sg/MDTで公開されている。

Despite its success in image synthesis, we observe that diffusion probabilistic models (DPMs) often lack contextual reasoning ability to learn the relations among object parts in an image, leading to a slow learning process. To solve this issue, we propose a Masked Diffusion Transformer (MDT) that introduces a mask latent modeling scheme to explicitly enhance the DPMs' ability of contextual relation learning among object semantic parts in an image. During training, MDT operates on the latent space to mask certain tokens. Then, an asymmetric masking diffusion transformer is designed to predict masked tokens from unmasked ones while maintaining the diffusion generation process. Our MDT can reconstruct the full information of an image from its incomplete contextual input, thus enabling it to learn the associated relations among image tokens. Experimental results show that MDT achieves superior image synthesis performance, e.g. a new SoTA FID score on the ImageNet dataset, and has about 3x faster learning speed than the previous SoTA DiT. The source code is released at https://github.com/sail-sg/MDT.
翻訳日:2023-03-28 20:00:54 公開日:2023-03-25
# エンドツーエンドオープン語彙オブジェクト検出のためのPrompt-Guided Transformer

Prompt-Guided Transformers for End-to-End Open-Vocabulary Object Detection ( http://arxiv.org/abs/2303.14386v1 )

ライセンス: Link先を確認
Hwanjun Song, Jihwan Bang(参考訳) Prompt-OVDはオープン語彙オブジェクト検出のための効率的かつ効果的なフレームワークで、CLIPからのクラス埋め込みをプロンプトとして利用し、Transformerデコーダを使用してベースクラスと新規クラスのオブジェクトを検出する。 さらに、新しいRoIベースのマスキングとRoIプルーニング技術は、Vision TransformerベースのCLIPのゼロショット分類能力を活用するのに役立つため、最小計算コストで検出性能が向上する。 OV-COCOおよびOVLVISデータセットを用いた実験により、Prompt-OVDは第1のエンドツーエンドオープン語彙検出法(OV-DETR)よりも21.2倍高速で、同時に、類似の推論時間範囲内で動作する4つの2段階ベース手法よりも高いAPを実現することが示された。 コードはもうすぐ利用可能になる。

Prompt-OVD is an efficient and effective framework for open-vocabulary object detection that utilizes class embeddings from CLIP as prompts, guiding the Transformer decoder to detect objects in both base and novel classes. Additionally, our novel RoI-based masked attention and RoI pruning techniques help leverage the zero-shot classification ability of the Vision Transformer-based CLIP, resulting in improved detection performance at minimal computational cost. Our experiments on the OV-COCO and OVLVIS datasets demonstrate that Prompt-OVD achieves an impressive 21.2 times faster inference speed than the first end-to-end open-vocabulary detection method (OV-DETR), while also achieving higher APs than four two-stage-based methods operating within similar inference time ranges. Code will be made available soon.
翻訳日:2023-03-28 20:00:35 公開日:2023-03-25
# Scribble-Supervised Video Object Segmentationのための信頼性階層型メモリネットワーク

Reliability-Hierarchical Memory Network for Scribble-Supervised Video Object Segmentation ( http://arxiv.org/abs/2303.14384v1 )

ライセンス: Link先を確認
Zikun Zhou, Kaige Mao, Wenjie Pei, Hongpeng Wang, Yaowei Wang, Zhenyu He(参考訳) 本稿では,ビデオオブジェクトセグメンテーション(vos, video object segmentation)タスクをscribble-supervised方式で解決することを目的として,vosモデルがsparse scribbleアノテーションでトレーニングされるだけでなく,sparse target scribblesで初期化することで推論を行う。 これにより、トレーニングと初期化の両方のアノテーション負担を大幅に軽減することができる。 VOSのスクリブル制御の難しさは2つの側面にある。 一方では、トレーニング中にスパースなスクリブルアノテーションから学ぶための強力な能力が必要です。 一方、スパースの初期目標スクリブルのみを考慮し、推論中に強い推論能力を要求する。 本研究では,メモリ信頼性レベルを段階的に拡張する戦略w.r.tにおいて,ターゲットマスクを予測するための信頼性階層型メモリネットワーク(rhmnet)を提案する。 具体的に言うと、RHMNetはまず、信頼性の高いレベルにあるメモリのみを使用して、ターゲットに属する高い信頼性のある領域を特定する。 そして、位置した高信頼領域を、その領域自体に条件付けられたターゲット全体と、すべての信頼性レベルにおけるメモリに拡張する。 さらに,より密集した結果を予測するためのモデル学習を容易にするためのスクリブル教師付き学習機構を提案する。 単一のフレーム内のピクセルレベルの関係とシーケンス内のフレームレベルの関係をマイニングし、シーケンストレーニングサンプルにおけるスクリブルアノテーションを最大限に活用する。 2つの人気のあるベンチマークのパフォーマンスは、我々の方法が有望であることを示している。

This paper aims to solve the video object segmentation (VOS) task in a scribble-supervised manner, in which VOS models are not only trained by the sparse scribble annotations but also initialized with the sparse target scribbles for inference. Thus, the annotation burdens for both training and initialization can be substantially lightened. The difficulties of scribble-supervised VOS lie in two aspects. On the one hand, it requires the powerful ability to learn from the sparse scribble annotations during training. On the other hand, it demands strong reasoning capability during inference given only a sparse initial target scribble. In this work, we propose a Reliability-Hierarchical Memory Network (RHMNet) to predict the target mask in a step-wise expanding strategy w.r.t. the memory reliability level. To be specific, RHMNet first only uses the memory in the high-reliability level to locate the region with high reliability belonging to the target, which is highly similar to the initial target scribble. Then it expands the located high-reliability region to the entire target conditioned on the region itself and the memories in all reliability levels. Besides, we propose a scribble-supervised learning mechanism to facilitate the learning of our model to predict dense results. It mines the pixel-level relation within the single frame and the frame-level relation within the sequence to take full advantage of the scribble annotations in sequence training samples. The favorable performance on two popular benchmarks demonstrates that our method is promising.
翻訳日:2023-03-28 20:00:14 公開日:2023-03-25
# アクティブファインタニング:事前学習パラダイムにおける注記予算の発行

Active Finetuning: Exploiting Annotation Budget in the Pretraining-Finetuning Paradigm ( http://arxiv.org/abs/2303.14382v1 )

ライセンス: Link先を確認
Yichen Xie, Han Lu, Junchi Yan, Xiaokang Yang, Masayoshi Tomizuka, Wei Zhan(参考訳) 大規模なデータと高いアノテーションコストを考えると、事前学習は複数のコンピュータビジョンタスクで一般的なパラダイムとなる。 これまでの研究では、このパラダイムにおける教師なしの事前訓練と教師なしの微調整の両方をカバーしており、微調整のためのアノテーション予算の活用にはほとんど注意が払われていない。 このギャップを埋めるために、我々は、事前学習ファインタニングパラダイムにおけるアノテーションのためのサンプルの選択に焦点を当てた、この新しいアクティブファインタニングタスクを正式に定義する。 非ラベルプール全体と同様に分散するデータのサブセットを選択でき、連続空間におけるパラメトリックモデルを最適化することで十分な多様性を維持できる、アクティブ微調整タスクのためのactiveftと呼ばれる新しい手法を提案する。 この過程では、選択されたサブセットとデータプール全体の分布との間の地球移動者の距離も減少することが証明される。 画像分類とセマンティックセグメンテーションの両方に基づくベースラインよりも優れたActiveFTの先行性能と高効率性を示す。 私たちのコードはhttps://github.com/yichen928/activeftでリリースしています。

Given the large-scale data and the high annotation cost, pretraining-finetuning becomes a popular paradigm in multiple computer vision tasks. Previous research has covered both the unsupervised pretraining and supervised finetuning in this paradigm, while little attention is paid to exploiting the annotation budget for finetuning. To fill in this gap, we formally define this new active finetuning task focusing on the selection of samples for annotation in the pretraining-finetuning paradigm. We propose a novel method called ActiveFT for active finetuning task to select a subset of data distributing similarly with the entire unlabeled pool and maintaining enough diversity by optimizing a parametric model in the continuous space. We prove that the Earth Mover's distance between the distributions of the selected subset and the entire data pool is also reduced in this process. Extensive experiments show the leading performance and high efficiency of ActiveFT superior to baselines on both image classification and semantic segmentation. Our code is released at https://github.com/yichen928/ActiveFT.
翻訳日:2023-03-28 19:59:47 公開日:2023-03-25
# Sem4SAP: 言語モデルの同期対応事前学習のためのオープン知識グラフから匿名表現マイニング

Sem4SAP: Synonymous Expression Mining From Open Knowledge Graph For Language Model Synonym-Aware Pretraining ( http://arxiv.org/abs/2303.14425v1 )

ライセンス: Link先を確認
Zhouhong Gu, Sihang Jiang, Wenhao Huang, Jiaqing Liang, Hongwei Feng, Yanghua Xiao(参考訳) モデルが同義表現を理解する能力は多くの下流タスクにおいて重要である。 これにより、コンテキスト間の類似性をよりよく理解し、同義語置換攻撃に対してより堅牢になる。 しかし、多くの事前学習言語モデル(plm)は、小規模のシンセクタとplmの事前学習目的の制限のために同義語知識を欠いている。 本稿では,オープンナレッジグラフ(open-kg)からシンセットをマイニングし,マイニングしたシンセットを用いて言語モデルのシノニムアウェア事前学習を行うsem4sapというフレームワークを提案する。 我々は、Open-KGのコンテンツを粗大にフィルタリングし、その周波数情報を用いて、低リソースの教師なし条件下でのクラスタリングプロセスを支援することを提案する。 また,同義語知識をplmに注入する2つの新しい,効果的な同義語認識事前学習法を提案し,sem4sapが,元のplmや他のベースラインを10個の異なるタスクで劇的に上回ることを示した。

The model's ability to understand synonymous expression is crucial in many kinds of downstream tasks. It will make the model to better understand the similarity between context, and more robust to the synonym substitution attack. However, many Pretrained Language Model (PLM) lack synonym knowledge due to limitation of small-scale synsets and PLM's pretraining objectives. In this paper, we propose a framework called Sem4SAP to mine synsets from Open Knowledge Graph (Open-KG) and using the mined synsets to do synonym-aware pretraining for language models. We propose to coarsly filter the content in Open-KG and use the frequency information to better help the clustering process under low-resource unsupervised conditions. We expand the mined synsets by migrating core semantics between synonymous expressions.We also propose two novel and effective synonym-aware pre-training methods for injecting synonym knowledge into PLMs.Extensive experiments demonstrate that Sem4SAP can dramatically outperform the original PLMs and other baselines on ten different tasks.
翻訳日:2023-03-28 19:54:12 公開日:2023-03-25
# 知識蒸留を用いた視覚言語タスクの連続学習のためのタスク対応トランスフォーマアーキテクチャ

Task-Attentive Transformer Architecture for Continual Learning of Vision-and-Language Tasks Using Knowledge Distillation ( http://arxiv.org/abs/2303.14423v1 )

ライセンス: Link先を確認
Yuliang Cai, Jesse Thomason, Mohammad Rostami(参考訳) 大規模事前学習ニューラルネットワークのサイズと計算負荷は、多くのアプリケーションで機械学習を採用する上で、2つの大きな障害となっている。 連続学習(CL)は、スクラッチから全てのネットワーク重みを微調整する必要性を緩和する逐次到着タスク間の知識伝達を可能にすることで、救済の役割を果たす。 しかし、既存のclアルゴリズムは、主にユニモーダルビジョンのみまたは言語のみのタスクを学習することを考慮している。 学習可能なパラメータの数を動的に増加させ,知識蒸留を用いてバイモーダルな視覚・言語タスクを学習するためのトランスフォーマーベースのCLアーキテクチャを開発した。 新たなパラメータは、各タスクのネットワークを専門化するために使用される。 我々のアプローチは、破滅的な忘れ込みの課題に対処しながら、タスク間での情報共有を可能にする。 私たちのアプローチは、メモリと時間のオーバーヘッドが少ないため、多くのタスクへのスケーラブルな学習です。 我々のモデルは、視覚と言語に挑戦するタスクにおいて最先端のパフォーマンスに達する。

The size and the computational load of fine-tuning large-scale pre-trained neural network are becoming two major obstacles in adopting machine learning in many applications. Continual learning (CL) can serve as a remedy through enabling knowledge-transfer across sequentially arriving tasks which relaxes the need to fine-tune all network weights from scratch. However, existing CL algorithms primarily consider learning unimodal vision-only or language-only tasks. We develop a transformer-based CL architecture for learning bimodal vision-and-language tasks based on increasing the number of the learnable parameters dynamically and using knowledge distillation. The new additional parameters are used to specialize the network for each task. Our approach enables sharing information between the tasks while addressing the challenge of catastrophic forgetting. Our approach is scalable learning to a large number of tasks because it requires little memory and time overhead. Our model reaches state-of-the-art performance on challenging vision-and-language tasks.
翻訳日:2023-03-28 19:53:52 公開日:2023-03-25
# 空間対応カーシェアリング需要予測

Spatially-Aware Car-Sharing Demand Prediction ( http://arxiv.org/abs/2303.14421v1 )

ライセンス: Link先を確認
Dominik J. M\"uhlematter, Nina Wiedemann, Yanan Xin and Martin Raubal(参考訳) 近年、カーシェアリングサービスは個人移動の代替手段として存在し、より持続可能で資源効率が高いが快適な交通手段を約束している。 短期予測と最適化手法の研究により、カーシェアリングサービスの運用とフリート制御が改善されたが、長期的な予測や空間分析は文献に乏しい。 本研究では,空間認識型学習アルゴリズムを用いて,ステーション型カーシェアリングサービスにおける月間平均需要を解析し,高い予測性能と解釈性を提供する。 特に,空間的に単純化されたランダムフォレストモデルと空間認識手法を比較し,ステーション毎の月平均需要を推定する。 この研究は、大規模なプロプライエタリなカーシェアリングデータセットと公開データセットから抽出された、社会デコグラフィー、ロケーションベース(POIなど)、カーシェアリング特有の特徴を入力として利用する。 ジオ座標を入力特徴とするグローバルランダムフォレストモデルは,r-二乗スコア0.87で最高予測性能を達成し,地理的重み付け回帰などの局所的手法はほぼ同等の性能を示し,カーシェアリング行動に影響を与える因子の空間分布の異種性に対するエキサイティングな洞察を与える。 また, カーシェアリングステーションの設置状況の診断・計画方法として, 効果的かつ解釈性の高い手法が提案されている。

In recent years, car-sharing services have emerged as viable alternatives to private individual mobility, promising more sustainable and resource-efficient, but still comfortable transportation. Research on short-term prediction and optimization methods has improved operations and fleet control of car-sharing services; however, long-term projections and spatial analysis are sparse in the literature. We propose to analyze the average monthly demand in a station-based car-sharing service with spatially-aware learning algorithms that offer high predictive performance as well as interpretability. In particular, we compare the spatially-implicit Random Forest model with spatially-aware methods for predicting average monthly per-station demand. The study utilizes a rich set of socio-demographic, location-based (e.g., POIs), and car-sharing-specific features as input, extracted from a large proprietary car-sharing dataset and publicly available datasets. We show that the global Random Forest model with geo-coordinates as an input feature achieves the highest predictive performance with an R-squared score of 0.87, while local methods such as Geographically Weighted Regression perform almost on par and additionally yield exciting insights into the heterogeneous spatial distributions of factors influencing car-sharing behaviour. Additionally, our study offers effective as well as highly interpretable methods for diagnosing and planning the placement of car-sharing stations.
翻訳日:2023-03-28 19:53:37 公開日:2023-03-25
# 人選好によるテキスト・画像モデルの改良

Better Aligning Text-to-Image Models with Human Preference ( http://arxiv.org/abs/2303.14420v1 )

ライセンス: Link先を確認
Xiaoshi Wu, Keqiang Sun, Feng Zhu, Rui Zhao, Hongsheng Li(参考訳) 近年、深層生成モデルが急速に成長し、テキストから画像へのモデルが大衆から注目を集めている。 しかし、既存のモデルは、手足のぎこちない組み合わせや表情など、人間の美的嗜好とうまく一致しない画像を生成することが多い。 この問題に対処するために,我々は,安定基盤ディスコードチャネルから生成された画像から人間選択のデータセットを収集する。 本実験は, 生成モデルの評価基準が人間の選択とよく相関しないことを示す。 そこで我々は、収集したデータセットを用いて人選好分類器を訓練し、その分類器に基づいて人選好スコア(HPS)を導出する。 我々はHPSを用いて,ヒトの美的嗜好に合わせて安定拡散を適応する簡易かつ効果的な方法を提案する。 実験の結果,HPSはCLIPより優れ,他のモデルから生成された画像に対して優れた一般化能力を有することがわかった。 hpsのガイダンスで安定した拡散をチューニングすることで、適応したモデルは、より人間に好まれる画像を生成することができる。

Recent years have witnessed a rapid growth of deep generative models, with text-to-image models gaining significant attention from the public. However, existing models often generate images that do not align well with human aesthetic preferences, such as awkward combinations of limbs and facial expressions. To address this issue, we collect a dataset of human choices on generated images from the Stable Foundation Discord channel. Our experiments demonstrate that current evaluation metrics for generative models do not correlate well with human choices. Thus, we train a human preference classifier with the collected dataset and derive a Human Preference Score (HPS) based on the classifier. Using the HPS, we propose a simple yet effective method to adapt Stable Diffusion to better align with human aesthetic preferences. Our experiments show that the HPS outperforms CLIP in predicting human choices and has good generalization capability towards images generated from other models. By tuning Stable Diffusion with the guidance of the HPS, the adapted model is able to generate images that are more preferred by human users.
翻訳日:2023-03-28 19:53:12 公開日:2023-03-25
# フリースタイルレイアウト画像合成

Freestyle Layout-to-Image Synthesis ( http://arxiv.org/abs/2303.14412v1 )

ライセンス: Link先を確認
Han Xue, Zhiwu Huang, Qianru Sun, Li Song, Wenjun Zhang(参考訳) 典型的なレイアウト・ツー・イメージ合成(LIS)モデルは、COCO-Stuffの182の共通オブジェクトのような、閉じたセマンティッククラスのイメージを生成する。 本研究では,与えられたレイアウトに対して,無意味なセマンティクス(クラス,属性,スタイルなど)をどこまで生成できるかという,モデルのフリースタイル機能を調べ,タスクフリースタイルlis (flis) と呼ぶ。 大規模な事前訓練型言語画像モデルの開発により、限られたベースクラスで訓練された多くの識別モデル(画像分類や物体検出など)が、見当たらないクラス予測能力によって強化される。 これに触発された我々は、大規模事前訓練されたテキスト-画像拡散モデルを利用して、目に見えないセマンティクスを生成する。 FLISの鍵となる課題は、拡散モデルを特定のレイアウトから画像の合成を可能にすることである。 この目的のために,拡散モデルに簡単に接続可能なRectified Cross-Attention (RCA) と呼ばれるモジュールを導入し,セマンティックマスクを統合する。 この「プラグイン」は、画像とテキストトークンの間のアテンションマップを正すために、モデルの各クロスアテンション層に適用される。 RCAの鍵となる考え方は、各テキストトークンに特定の領域のピクセルに作用するように強制することであり、事前訓練された知識(一般的には)から様々な意味論を所定のレイアウト(具体的)に自由に配置できるようにすることである。 広汎な実験により,提案した拡散ネットワークは,多種多様なテキスト入力によるリアルかつ自由なレイアウト・ツー・イメージ生成結果を生成することがわかった。 コードはhttps://github.com/essunny310/FreestyleNetで入手できる。

Typical layout-to-image synthesis (LIS) models generate images for a closed set of semantic classes, e.g., 182 common objects in COCO-Stuff. In this work, we explore the freestyle capability of the model, i.e., how far can it generate unseen semantics (e.g., classes, attributes, and styles) onto a given layout, and call the task Freestyle LIS (FLIS). Thanks to the development of large-scale pre-trained language-image models, a number of discriminative models (e.g., image classification and object detection) trained on limited base classes are empowered with the ability of unseen class prediction. Inspired by this, we opt to leverage large-scale pre-trained text-to-image diffusion models to achieve the generation of unseen semantics. The key challenge of FLIS is how to enable the diffusion model to synthesize images from a specific layout which very likely violates its pre-learned knowledge, e.g., the model never sees "a unicorn sitting on a bench" during its pre-training. To this end, we introduce a new module called Rectified Cross-Attention (RCA) that can be conveniently plugged in the diffusion model to integrate semantic masks. This "plug-in" is applied in each cross-attention layer of the model to rectify the attention maps between image and text tokens. The key idea of RCA is to enforce each text token to act on the pixels in a specified region, allowing us to freely put a wide variety of semantics from pre-trained knowledge (which is general) onto the given layout (which is specific). Extensive experiments show that the proposed diffusion network produces realistic and freestyle layout-to-image generation results with diverse text inputs, which has a high potential to spawn a bunch of interesting applications. Code is available at https://github.com/essunny310/FreestyleNet.
翻訳日:2023-03-28 19:52:51 公開日:2023-03-25
# Fairnessがクロスドメイン学習に到達 - モデルとメトリクスの新しい視点

Fairness meets Cross-Domain Learning: a new perspective on Models and Metrics ( http://arxiv.org/abs/2303.14411v1 )

ライセンス: Link先を確認
Leonardo Iurada, Silvia Bucci, Timothy M. Hospedales, Tatiana Tommasi(参考訳) ディープラーニングに基づく認識システムは、社会生活に必然的に関与するいくつかの現実世界のアプリケーションに対して、大規模にデプロイされる。 複雑な決定を行う際には大きな支援を受けるが、急激なデータ相関を捉え、センシティブな属性(年齢、性別、民族など)を利用することもある。 高い予測性能を維持しながらこの情報を分解する方法は、まだいくつかのオープン質問を持つタスクであり、その多くは、視覚的なドメインバイアスを避けることに焦点を当てた、ドメイン適応と一般化の文献と共有されている。 本研究では,複数の人口集団にまたがる顔画像と医用画像のベンチマークと,分類・ローカライゼーションタスクを導入することで,クロスドメイン学習(CD)とモデルフェアネスの関係を詳細に検討する。 現在の評価基準の限界を強調した後、基準基準に対して各モデルがどの程度公平で正確であるかを共同評価する新しいharmonic fairness(hf)スコアを導入する。 本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。 全体として、我々の研究はコンピュータビジョンにおける公平性の問題をより体系的に分析する道を開いた。 https://github.com/iurada/fairness_crossdomain

Deep learning-based recognition systems are deployed at scale for several real-world applications that inevitably involve our social life. Although being of great support when making complex decisions, they might capture spurious data correlations and leverage sensitive attributes (e.g. age, gender, ethnicity). How to factor out this information while keeping a high prediction performance is a task with still several open questions, many of which are shared with those of the domain adaptation and generalization literature which focuses on avoiding visual domain biases. In this work, we propose an in-depth study of the relationship between cross-domain learning (CD) and model fairness by introducing a benchmark on face and medical images spanning several demographic groups as well as classification and localization tasks. After having highlighted the limits of the current evaluation metrics, we introduce a new Harmonic Fairness (HF) score to assess jointly how fair and accurate every model is with respect to a reference baseline. Our study covers 14 CD approaches alongside three state-of-the-art fairness algorithms and shows how the former can outperform the latter. Overall, our work paves the way for a more systematic analysis of fairness problems in computer vision. Code available at: https://github.com/iurada/fairness_crossdomain
翻訳日:2023-03-28 19:52:18 公開日:2023-03-25
# 超伝導島に結合した2つのアンダーソン不純物:電荷安定図と二重不純物量子ビット

Two Anderson impurities coupled through a superconducting island: charge stability diagrams and double impurity qubit ( http://arxiv.org/abs/2303.14410v1 )

ライセンス: Link先を確認
Filip K. Malinowski(参考訳) 超伝導島に結合した2つのアンダーソン不純物のモデルを提案する。 このモデルは不純物部位間の結合の強さをパラメータ化し、不純物間の変動距離を表す。 この2つのパリティを区別する電荷安定性図の特異な特徴を同定し、全偶数および奇数占有を持つ部分空間におけるモデルパラメータの効果を体系的に検討した。 総奇数電子パリティに対して,2つの最低エネルギー状態間の分割が化学ポテンシャルの変化に非常に敏感なデバイスチューニングを同定する。 このような2つの状態に基づく量子ビットがチューニング可能である程度を調べ、不均質な強調時間を最大化するためのパラメータの最適選択について検討する。 最後に,提案する量子ビットは遷移双極子モーメントを欠いていることを指摘し,実現可能な運転機構と読み出し機構への影響を概説する。 プロトタイプの量子ビットは、量子ドットをハードギャップ超伝導体に結合する既存の能力で実現できた。

We present a model of two Anderson impurities coupled to and through a superconducting island. The model parametrizes the strength of the coupling between impurity sites, allowing it to represent a variable distance between the impurities. We systematically explore the effect of the model parameters in the subspaces with total even and odd occupancy, identifying unique features of the charge stability diagrams that distinguish the two parities. For total odd electron parity, we identify a device tuning, in which the splitting between the two lowest energy states is highly insensitive to changes of the chemical potentials. We investigate the degree to which a qubit based on such two states is tunable and discuss an optimal choice of parameters to maximize inhomogeneous dephasing time. Finally, we point out that the proposed qubit lacks a transition dipole moment, and outline some of the consequences on viable driving and readout mechanisms. The prototype qubits could be realized with the existing capabilities of coupling quantum dots to hard-gapped superconductors.
翻訳日:2023-03-28 19:51:57 公開日:2023-03-25
# Few-Shot Task-Aware Compressionによる視覚モデルの構築

Vision Models Can Be Efficiently Specialized via Few-Shot Task-Aware Compression ( http://arxiv.org/abs/2303.14409v1 )

ライセンス: Link先を確認
Denis Kuznedelev, Soroush Tabesh, Kimia Noorbakhsh, Elias Frantar, Sara Beery, Eldar Kurtic, Dan Alistarh(参考訳) 近年のビジョンアーキテクチャと自己教師型トレーニング手法は、極めて正確で汎用的なビジョンモデルを実現するが、膨大なパラメータと計算コストが伴う。 カメラトラップのような実用的な設定では、ユーザーは限られたリソースを持ち、特定のカテゴリの小さなセットから事前訓練されたデータ(しばしば制限された)を微調整することができる。 これらのユーザーは、近代的で正確なモデルを使いたがるかもしれないが、しばしば計算的に制約を受ける。 大規模なジェネラリストモデルを、正確で効率的な専門家に素早く圧縮できるか? そこで本研究では,Few-Shot Task-Aware Compression (TACO) と呼ばれるシンプルで汎用的な手法を提案する。 ImageNet-22K 上の分類のような広いタスクで正確であるように事前訓練された大きな視覚モデルを考えると、TACO は車種や動物種にまたがる分類のような特定のタスクで正確である小さなモデルを生成する。 重要なことに、TACOは、少数のタスク固有のサンプルしか使用せず、計算オーバーヘッドも少なく、数ショットで機能する。 TACOを高精度のResNet, ViT/DeiT, ConvNeXtモデルで検証し,ImageNet, LAION, iNaturalistでトレーニングした。 TACOは、既存のモデルにおけるゼロでないパラメータの数を、オリジナルのモデルと比較して最大20倍に減らし、推論速度が最大3$\times$に向上する一方で、特殊タスク上の非圧縮モデルと精度的に競合する。

Recent vision architectures and self-supervised training methods enable vision models that are extremely accurate and general, but come with massive parameter and computational costs. In practical settings, such as camera traps, users have limited resources, and may fine-tune a pretrained model on (often limited) data from a small set of specific categories of interest. These users may wish to make use of modern, highly-accurate models, but are often computationally constrained. To address this, we ask: can we quickly compress large generalist models into accurate and efficient specialists? For this, we propose a simple and versatile technique called Few-Shot Task-Aware Compression (TACO). Given a large vision model that is pretrained to be accurate on a broad task, such as classification over ImageNet-22K, TACO produces a smaller model that is accurate on specialized tasks, such as classification across vehicle types or animal species. Crucially, TACO works in few-shot fashion, i.e. only a few task-specific samples are used, and the procedure has low computational overheads. We validate TACO on highly-accurate ResNet, ViT/DeiT, and ConvNeXt models, originally trained on ImageNet, LAION, or iNaturalist, which we specialize and compress to a diverse set of "downstream" subtasks. TACO can reduce the number of non-zero parameters in existing models by up to 20x relative to the original models, leading to inference speedups of up to 3$\times$, while remaining accuracy-competitive with the uncompressed models on the specialized tasks.
翻訳日:2023-03-28 19:51:38 公開日:2023-03-25
# VL-SAT:ポイントクラウドにおける3次元セマンティックシーングラフ予測のための学習支援

VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic Scene Graph Prediction in Point Cloud ( http://arxiv.org/abs/2303.14408v1 )

ライセンス: Link先を確認
Ziqin Wang, Bowen Cheng, Lichen Zhao, Dong Xu, Yang Tang, Lu Sheng(参考訳) ポイントクラウドにおける3次元意味シーングラフ(3dssg)予測の課題は、(1)3次元ポイントクラウドは2次元画像と比較して意味論の限られた幾何学的構造のみを捉え、(2)ロングテール関係分布は本質的に偏りのない予測の学習を妨げるため、難しい。 本研究では,2次元画像がリッチなセマンティクスを提供し,シーングラフが言語に対処しているため,長い尾とあいまいなセマンティクス関係を識別した3DSSG予測モデルを大幅に強化する視覚言語セマンティクス支援トレーニング(VL-SAT)方式を提案する。 重要なアイデアは、3dモデルを支援するために強力なマルチモーダルオラクルモデルをトレーニングすることだ。 このオラクルは、視覚、言語、および3d幾何学からセマンティクスに基づく信頼できる構造表現を学び、その利点はトレーニング段階で異種に3dモデルに渡される。 学習における視覚言語的意味論を効果的に活用することにより、VL-SATはSGFNやSGGpointのような一般的な3DSSG予測モデルを大幅に向上させることができる。 3DSSGデータセットの総合評価とアブレーション研究により,提案手法の有効性が検証された。 コードはhttps://github.com/wz7in/CVPR2023-VLSATで入手できる。

The task of 3D semantic scene graph (3DSSG) prediction in the point cloud is challenging since (1) the 3D point cloud only captures geometric structures with limited semantics compared to 2D images, and (2) long-tailed relation distribution inherently hinders the learning of unbiased prediction. Since 2D images provide rich semantics and scene graphs are in nature coped with languages, in this study, we propose Visual-Linguistic Semantics Assisted Training (VL-SAT) scheme that can significantly empower 3DSSG prediction models with discrimination about long-tailed and ambiguous semantic relations. The key idea is to train a powerful multi-modal oracle model to assist the 3D model. This oracle learns reliable structural representations based on semantics from vision, language, and 3D geometry, and its benefits can be heterogeneously passed to the 3D model during the training stage. By effectively utilizing visual-linguistic semantics in training, our VL-SAT can significantly boost common 3DSSG prediction models, such as SGFN and SGGpoint, only with 3D inputs in the inference stage, especially when dealing with tail relation triplets. Comprehensive evaluations and ablation studies on the 3DSSG dataset have validated the effectiveness of the proposed scheme. Code is available at https://github.com/wz7in/CVPR2023-VLSAT.
翻訳日:2023-03-28 19:51:09 公開日:2023-03-25
# LPFF:巨大なポジショナリーにまたがるフェイスジェネレータのポートレートデータセット

LPFF: A Portrait Dataset for Face Generators Across Large Poses ( http://arxiv.org/abs/2303.14407v1 )

ライセンス: Link先を確認
Yiqian Wu, Jing Zhang, Hongbo Fu, Xiaogang Jin(参考訳) 生成ネットワークを用いた2次元現実的な顔画像と3次元顔形状の作成は近年ホットな話題となっている。 既存の顔生成装置は、(正面の顔に関して)中小のポーズで顔に例外的なパフォーマンスを示すが、大きなポーズで現実的な結果を生み出すのに苦労している。 3d認識生成装置における大きなポーズの歪んだレンダリング結果により、生成された3d顔形状は現実の3d顔の分布に遠く及ばないことが示される。 上記の問題は、トレーニングデータセットのポーズの不均衡によって引き起こされる。 本稿では,高品質な実像画像19,590枚からなる大規模なFlickr顔データセットであるLPFFを提案する。 このデータセットを用いて,大規模な顔画像を処理する2次元顔生成器と,リアルな顔形状を生成する3次元認識生成器を訓練する。 ポーズ条件の3D対応ジェネレータをよりよく評価するために,我々は新しいFID尺度を開発し,その3Dレベルの性能を評価する。 この新たなFID測定および他の実験により、LPFFは2次元顔生成装置の潜伏空間を拡大し、大規模データを操作するのに役立ち、3次元顔生成装置がより良い視界一貫性とよりリアルな3次元再構成結果を得るのに役立ちます。

The creation of 2D realistic facial images and 3D face shapes using generative networks has been a hot topic in recent years. Existing face generators exhibit exceptional performance on faces in small to medium poses (with respect to frontal faces) but struggle to produce realistic results for large poses. The distorted rendering results on large poses in 3D-aware generators further show that the generated 3D face shapes are far from the distribution of 3D faces in reality. We find that the above issues are caused by the training dataset's pose imbalance. In this paper, we present LPFF, a large-pose Flickr face dataset comprised of 19,590 high-quality real large-pose portrait images. We utilize our dataset to train a 2D face generator that can process large-pose face images, as well as a 3D-aware generator that can generate realistic human face geometry. To better validate our pose-conditional 3D-aware generators, we develop a new FID measure to evaluate the 3D-level performance. Through this novel FID measure and other experiments, we show that LPFF can help 2D face generators extend their latent space and better manipulate the large-pose data, and help 3D-aware face generators achieve better view consistency and more realistic 3D reconstruction results.
翻訳日:2023-03-28 19:50:42 公開日:2023-03-25
# 完全ラベルのない連合学習:調査

Federated Learning without Full Labels: A Survey ( http://arxiv.org/abs/2303.14453v1 )

ライセンス: Link先を確認
Yilun Jin, Yang Liu, Kai Chen, Qiang Yang(参考訳) データプライバシは、機械学習のような現実世界のビッグデータアプリケーションにおいて、ますます重要になっている。 この問題に対処するため、フェデレートラーニング(FL)は、分散データとプライベートデータから効果的な機械学習モデルを構築するための有望なソリューションである。 既存のフェデレーション学習アルゴリズムは主に、データが完全にラベル付けされていると仮定される教師付き学習問題に対処する。 しかし、実際には、完全なラベル付きデータを得るのはしばしば困難であり、参加者は十分なドメインの専門知識を持っていないか、データにラベルをつける動機やツールが欠如している。 したがって、フルラベルのない連合学習の問題は実世界のflアプリケーションにおいて重要である。 本稿では,ラベルのないデータを活用する機械学習技術を用いて,この問題の解決方法について論じる。 本稿では,FLと半教師付き学習,自己教師付き学習,移動学習を併用する手法について調査する。 また、フルラベルなしでFLメソッドを評価するために使われるデータセットを要約する。 最後に、完全なラベルなしでflのコンテキストで将来の方向性を強調する。

Data privacy has become an increasingly important concern in real-world big data applications such as machine learning. To address the problem, federated learning (FL) has been a promising solution to building effective machine learning models from decentralized and private data. Existing federated learning algorithms mainly tackle the supervised learning problem, where data are assumed to be fully labeled. However, in practice, fully labeled data is often hard to obtain, as the participants may not have sufficient domain expertise, or they lack the motivation and tools to label data. Therefore, the problem of federated learning without full labels is important in real-world FL applications. In this paper, we discuss how the problem can be solved with machine learning techniques that leverage unlabeled data. We present a survey of methods that combine FL with semi-supervised learning, self-supervised learning, and transfer learning methods. We also summarize the datasets used to evaluate FL methods without full labels. Finally, we highlight future directions in the context of FL without full labels.
翻訳日:2023-03-28 19:44:33 公開日:2023-03-25
# COFFEE: イベント抽出のための対照的なOracleフリーフレームワーク

COFFEE: A Contrastive Oracle-Free Framework for Event Extraction ( http://arxiv.org/abs/2303.14452v1 )

ライセンス: Link先を確認
Meiru Zhang, Yixuan Su, Zaiqiao Meng, Zihao Fu, Nigel Collier(参考訳) イベント抽出は、構造化されていないテキストからイベントを抽出する複雑な情報抽出タスクである。 事前の分類ベースのメソッドは統合トレーニングのために包括的なエンティティアノテーションを必要とするが、新しい世代ベースのメソッドはイベントタイプなどのoracle情報を含むヒューリスティックなテンプレートに依存している。 本研究では,このタスクをより現実的な設定として,イベントタイプやイベントオントロジー,トリガワードなど,oracleの情報を含まない入力コンテキストのみを付与する,oracle-free event extraction (ofee)タスクを検討する。 この課題を解決するために,文書コンテキストのみに基づくイベントをオラクル情報を参照せずに抽出するCOFFEEという新しいフレームワークを提案する。 特に、コーヒーにコントラスト選択モデルを導入し、生成されたトリガーを修正し、マルチイベントインスタンスを処理する。 提案したCOFFEEは,イベント抽出タスクのオラクルフリー設定下での最先端のアプローチよりも優れており,ACE05で評価されている。

Event extraction is a complex information extraction task that involves extracting events from unstructured text. Prior classification-based methods require comprehensive entity annotations for joint training, while newer generation-based methods rely on heuristic templates containing oracle information such as event type, which is often unavailable in real-world scenarios. In this study, we consider a more realistic setting of this task, namely the Oracle-Free Event Extraction (OFEE) task, where only the input context is given without any oracle information, including event type, event ontology and trigger word. To solve this task, we propose a new framework, called COFFEE, which extracts the events solely based on the document context without referring to any oracle information. In particular, a contrastive selection model is introduced in COFFEE to rectify the generated triggers and handle multi-event instances. The proposed COFFEE outperforms state-of-the-art approaches under the oracle-free setting of the event extraction task, as evaluated on a public event extraction benchmark ACE05.
翻訳日:2023-03-28 19:44:17 公開日:2023-03-25
# MultiTalent:医療画像セグメンテーションのためのマルチデータセットアプローチ

MultiTalent: A Multi-Dataset Approach to Medical Image Segmentation ( http://arxiv.org/abs/2303.14444v1 )

ライセンス: Link先を確認
Constantin Ulrich, Fabian Isensee, Tassilo Wald, Maximilian Zenk, Michael Baumgartner and Klaus H. Maier-Hein(参考訳) 医療画像コミュニティは豊富なデータセットを生成しており、その多くはオープンにアクセスでき、特定の疾患や多臓器や病変の分断などのタスクに注釈を付けている。 現在のプラクティスはモデルトレーニングを制限し続け、1つまたはいくつかの類似したデータセットに事前トレーニングを監督し、他の利用可能なアノテーション付きデータの相乗的ポテンシャルを無視している。 我々は,多種多様なクラス定義を持つ複数のCTデータセットを活用する手法であるMultiTalentを提案し,包括的構造セグメンテーションのための単一モデルを訓練する。 以上の結果から, 従来手法に比べてセグメント化性能が向上し, 特に病変セグメント化や他の難易度の高い構造について, 単一データセットトレーニングと比較した。 また,MultiTalentは,教師付きベースラインや教師なしベースラインに比べて,様々なセグメンテーションタスクに対して優れた事前トレーニングを提供する強力な基盤モデルであることを示す。 本研究は, 医療画像コミュニティにとって, 十分なデータを効果的に活用し, セグメンテーション性能を向上させるための新たな方向性を提供する。 コードとモデルの重み付けはここで公開されます。

The medical imaging community generates a wealth of datasets, many of which are openly accessible and annotated for specific diseases and tasks such as multi-organ or lesion segmentation. Current practices continue to limit model training and supervised pre-training to one or a few similar datasets, neglecting the synergistic potential of other available annotated data. We propose MultiTalent, a method that leverages multiple CT datasets with diverse and conflicting class definitions to train a single model for a comprehensive structure segmentation. Our results demonstrate improved segmentation performance compared to previous related approaches, systematically, also compared to single dataset training using state-of-the-art methods, especially for lesion segmentation and other challenging structures. We show that MultiTalent also represents a powerful foundation model that offers a superior pre-training for various segmentation tasks compared to commonly used supervised or unsupervised pre-training baselines. Our findings offer a new direction for the medical imaging community to effectively utilize the wealth of available data for improved segmentation performance. The code and model weights will be published here: [tba]
翻訳日:2023-03-28 19:43:59 公開日:2023-03-25
# no more reviewer #2: 逆学習を用いた論文レビューの自動割当て

No more Reviewer #2: Subverting Automatic Paper-Reviewer Assignment using Adversarial Learning ( http://arxiv.org/abs/2303.14443v1 )

ライセンス: Link先を確認
Thorsten Eisenhofer, Erwin Quiring, Jonas M\"oller, Doreen Riepel, Thorsten Holz, Konrad Rieck(参考訳) 学術会議に提出された論文の数は、多くの科学分野において着実に増えている。 この成長に対処するため、レビュープロセス中に自動ペーパーリビューア代行システムの利用が増えている。 これらのシステムは、統計トピックモデルを使用して、提出内容の特徴付けとレビュアーへの割り当ての自動化を行う。 本稿では,この自動化を逆学習を用いて操作できることを示す。 我々は,与えられた論文に適応して課題を誤解させ,独自のレビュー者を選択する攻撃を提案する。 我々の攻撃は、特徴空間と問題空間を交互に交互に組み合わせて、論文の邪魔にならない変更を実現する新しい最適化戦略に基づいている。 攻撃の可能性を評価するため,プログラム委員会の165人のレビュアーと実際のセキュリティ会議(ieee s&p)の紙レビュー担当者の割り当てをシミュレートした。 その結果,レビュアーの選択と削除に成功し,アサインシステムにアクセスできなくなった。 さらに,操作された論文は信頼性が保たれており,良心的な提出と区別できないことが多いことを実証した。

The number of papers submitted to academic conferences is steadily rising in many scientific disciplines. To handle this growth, systems for automatic paper-reviewer assignments are increasingly used during the reviewing process. These systems use statistical topic models to characterize the content of submissions and automate the assignment to reviewers. In this paper, we show that this automation can be manipulated using adversarial learning. We propose an attack that adapts a given paper so that it misleads the assignment and selects its own reviewers. Our attack is based on a novel optimization strategy that alternates between the feature space and problem space to realize unobtrusive changes to the paper. To evaluate the feasibility of our attack, we simulate the paper-reviewer assignment of an actual security conference (IEEE S&P) with 165 reviewers on the program committee. Our results show that we can successfully select and remove reviewers without access to the assignment system. Moreover, we demonstrate that the manipulated papers remain plausible and are often indistinguishable from benign submissions.
翻訳日:2023-03-28 19:43:40 公開日:2023-03-25
# ヨハネスブルグ市におけるスマート廃棄物管理システムの設計

Design of a Smart Waste Management System for the City of Johannesburg ( http://arxiv.org/abs/2303.14436v1 )

ライセンス: Link先を確認
Beauty L. Komane and Topside E. Mathonsi(参考訳) この世界の全ての人間は廃棄物を産出する。 南アフリカは開発途上国であり、廃棄物資源が限られている。 人口増加が過度に増加すると、ほとんどの自治体が最も重要なサービスを提供している。 タウンシップの廃棄物は、ごみ処理、ごみ箱の投棄、木々の伐採、河川近くの廃棄物の投棄、ごみ箱の過剰投棄などによって生産される。 廃棄物は病気、大気汚染、環境汚染を増加させ、温室効果ガスの放出に寄与するガス排出量を増加させる。 未収集の廃棄物は道路に広く投棄され、洪水、昆虫の繁殖、げっ歯類ベクター、病気の拡散に寄与する。 そこで, 本論文の目的は, ヨハネスブルグ市におけるスマート廃棄物管理システムを設計することである。 ヨハネスブルク市には廃棄物自治体の労働者がおり、廃棄物収集用のごみ箱やトラックなどの廃棄物資源を供給している。 しかし問題は、資源が都市における廃棄物の問題を解決するのに十分ではないことだ。 廃棄物自治体は、各道へ行き、ごみ箱を拾うなど、伝統的な廃棄物収集方法を使用している。 伝統的手法は長年にわたって機能してきたが、人口が増加するにつれて廃棄物が増え、廃棄物自治体や一般市民に様々な問題を引き起こしている。 提案システムは,センサ,ユーザアプリケーション,リアルタイム監視システムから構成される。 本論文は実験手法を採用する。

Every human being in this world produces waste. South Africa is a developing country with many townships that have limited waste resources. Over-increasing population growth overpowers the volume of most municipal authorities to provide even the most essential services. Waste in townships is produced via littering, dumping of bins, cutting of trees, dumping of waste near rivers, and overrunning of waste bins. Waste increases diseases, air pollution, and environmental pollution, and lastly increases gas emissions that contribute to the release of greenhouse gases. The ungathered waste is dumped widely in the streets and drains contributing to flooding, breeding of insects, rodent vectors, and spreading of diseases. Therefore, the aim of this paper is to design a smart waste management system for the city of Johannesburg. The city of Johannesburg contains waste municipality workers and has provided some areas with waste resources such as waste bins and trucks for collecting waste. But the problem is that the resources only are not enough to solve the problem of waste in the city. The waste municipality uses traditional ways of collecting waste such as going to each street and picking up waste bins. The traditional way has worked for years but as the population is increasing more waste is produced which causes various problems for the waste municipalities and the public at large. The proposed system consists of sensors, user applications, and a real-time monitoring system. This paper adopts the experimental methodology.
翻訳日:2023-03-28 19:43:19 公開日:2023-03-25
# NeRF-DS:動的特異物体に対するニューラルラジアンス場

NeRF-DS: Neural Radiance Fields for Dynamic Specular Objects ( http://arxiv.org/abs/2303.14435v1 )

ライセンス: Link先を確認
Zhiwen Yan, Chen Li, Gim Hee Lee(参考訳) dynamic neural radiance field(nerf)は、ダイナミックシーンの単眼rgbビデオからフォトリアリスティックな斬新なビュー画像をレンダリングできる強力なアルゴリズムである。 観察空間から共通の正準空間へフレームを横切る移動点を整列するが、ダイナミックなnerfは整列中の反射色の変化をモデル化しない。 結果として、このアプローチはしばしば、運動中の特異物体に対する挑戦に大きく失敗する。 我々は、観測空間における表面位置と方向を条件とする神経放射場関数を再構成することで、この制限に対処する。 これにより、異なるポーズの鏡面は、共通の正準空間にマッピングされたときに異なる反射色を維持することができる。 さらに,変形場を誘導するために移動物体のマスクを追加する。 運動中に色が変化すると、マスクはRGBの監督のみで時間的対応が見つからないという問題を緩和する。 本モデルでは,実環境における異なる鏡面オブジェクトの自己収集データセットを用いて,新たな視点合成品質に基づいて評価を行う。 実験の結果,既存のNeRFモデルと比較して,単眼のRGBビデオからの移動物体の復元精度が有意に向上することが確認された。 私たちのコードとデータはプロジェクトのwebサイトhttps://github.com/jokeryan/nerf-dsで入手できます。

Dynamic Neural Radiance Field (NeRF) is a powerful algorithm capable of rendering photo-realistic novel view images from a monocular RGB video of a dynamic scene. Although it warps moving points across frames from the observation spaces to a common canonical space for rendering, dynamic NeRF does not model the change of the reflected color during the warping. As a result, this approach often fails drastically on challenging specular objects in motion. We address this limitation by reformulating the neural radiance field function to be conditioned on surface position and orientation in the observation space. This allows the specular surface at different poses to keep the different reflected colors when mapped to the common canonical space. Additionally, we add the mask of moving objects to guide the deformation field. As the specular surface changes color during motion, the mask mitigates the problem of failure to find temporal correspondences with only RGB supervision. We evaluate our model based on the novel view synthesis quality with a self-collected dataset of different moving specular objects in realistic environments. The experimental results demonstrate that our method significantly improves the reconstruction quality of moving specular objects from monocular RGB videos compared to the existing NeRF models. Our code and data are available at the project website https://github.com/JokerYan/NeRF-DS.
翻訳日:2023-03-28 19:42:57 公開日:2023-03-25
# 半局所機械学習ポテンシャルに対する熱流束

Heat flux for semi-local machine-learning potentials ( http://arxiv.org/abs/2303.14434v1 )

ライセンス: Link先を確認
Marcel F. Langer, Florian Knoop, Christian Carbogno, Matthias Scheffler and Matthias Rupp(参考訳) green-kubo (gk) 法は材料の熱輸送シミュレーションのための厳密な枠組みである。 しかし、ポテンシャルエネルギー曲面の正確な記述と注意深く収束した統計が必要である。 機械学習のポテンシャルは、第一原理シミュレーションの精度を達成でき、シミュレーション時間と長さのスケールをほんの少しのコストではるかに超えることができる。 本稿では、GKアプローチを最近のメッセージパス機械学習ポテンシャルのクラスに適用する方法を説明し、これは、初期相互作用遮断以上の半局所的相互作用を反復的に考慮している。 計算効率を損なうことなく、自動微分を用いて実装可能な適応熱流束定式化を導出する。 この手法は, ジルコニウムの熱伝導率を温度で計算することによって実証し, 検証した。

The Green-Kubo (GK) method is a rigorous framework for heat transport simulations in materials. However, it requires an accurate description of the potential-energy surface and carefully converged statistics. Machine-learning potentials can achieve the accuracy of first-principles simulations while allowing to reach well beyond their simulation time and length scales at a fraction of the cost. In this paper, we explain how to apply the GK approach to the recent class of message-passing machine-learning potentials, which iteratively consider semi-local interactions beyond the initial interaction cutoff. We derive an adapted heat flux formulation that can be implemented using automatic differentiation without compromising computational efficiency. The approach is demonstrated and validated by calculating the thermal conductivity of zirconium dioxide across temperatures.
翻訳日:2023-03-28 19:42:37 公開日:2023-03-25
# 実データプール推定に基づくコントラスト学習による深層能動的学習

Deep Active Learning with Contrastive Learning Under Realistic Data Pool Assumptions ( http://arxiv.org/abs/2303.14433v1 )

ライセンス: Link先を確認
Jihyo Kim, Jeonghyeon Kim, Sangheum Hwang(参考訳) アクティブラーニングは、モデルが望まれる精度を迅速に到達できるようにする、ラベルのないデータプールから最も情報性の高いデータを特定することを目的としている。 これは特に、高いパフォーマンスを達成するために大量のラベル付きサンプルを必要とするディープニューラルネットワークの利点となる。 既存のアクティブラーニング手法の多くは、対象タスクに関連するサンプル、すなわち非ラベルデータプールに存在するサンプルのみを理想的な設定で評価されている。 しかし、ワイルドから集められたデータプールには、ターゲットタスクとは無関係なサンプルや、oracleにさえ単一のクラスラベルを割り当てるには曖昧すぎるサンプルが含まれている可能性が高い。 様々な分布のサンプルからなるラベルのないデータプールがより現実的であると仮定する。 本研究では,不明瞭でタスクに無関係なアウト・オブ・ディストリビューションや分布サンプルを含む,新たなアクティブ・ラーニング・ベンチマークを導入する。 また,情報配信サンプルを優先的に取得する能動的学習手法を提案する。 提案手法はラベル付きとラベルなしの両方のデータプールを活用し、コントラスト学習によって構築された特徴空間上のクラスタからサンプルを選択する。 実験結果から,提案手法は既存のアクティブラーニング手法よりもアノテーションの予算が低く,精度が同じであることが示唆された。

Active learning aims to identify the most informative data from an unlabeled data pool that enables a model to reach the desired accuracy rapidly. This benefits especially deep neural networks which generally require a huge number of labeled samples to achieve high performance. Most existing active learning methods have been evaluated in an ideal setting where only samples relevant to the target task, i.e., in-distribution samples, exist in an unlabeled data pool. A data pool gathered from the wild, however, is likely to include samples that are irrelevant to the target task at all and/or too ambiguous to assign a single class label even for the oracle. We argue that assuming an unlabeled data pool consisting of samples from various distributions is more realistic. In this work, we introduce new active learning benchmarks that include ambiguous, task-irrelevant out-of-distribution as well as in-distribution samples. We also propose an active learning method designed to acquire informative in-distribution samples in priority. The proposed method leverages both labeled and unlabeled data pools and selects samples from clusters on the feature space constructed via contrastive learning. Experimental results demonstrate that the proposed method requires a lower annotation budget than existing active learning methods to reach the same level of accuracy.
翻訳日:2023-03-28 19:42:26 公開日:2023-03-25
# Beta-VAEには2つの挙動がある。

Beta-VAE has 2 Behaviors: PCA or ICA? ( http://arxiv.org/abs/2303.14430v1 )

ライセンス: Link先を確認
Zhouzheng Li and Hao Liu(参考訳) β-VAEは非常に古典的な表現学習モデルであり、デコーダへの情報を徐々に拡張するボトルネックを利用することが、表現の切り離しと高品質な再構築の鍵となる。 このような興味深い構造に関する最近の実験で、潜伏変数の総量がネットワークによって学習された表現に影響を与えることが判明した: 潜伏変数が非常に少ないため、ネットワークはPCAのように振る舞う最も重要な変数や主変数を学習する傾向にあり、非常に多くの潜伏変数では、変数はより絡み合っており、ICAのように振る舞う傾向がある。 我々の仮定では、最も情報帯域幅の大きい変数の競合は、この現象を引き起こす可能性がある。

Beta-VAE is a very classical model for disentangled representation learning, the use of an expanding bottleneck that allow information into the decoder gradually is key to representation disentanglement as well as high-quality reconstruction. During recent experiments on such fascinating structure, we discovered that the total amount of latent variables can affect the representation learnt by the network: with very few latent variables, the network tend to learn the most important or principal variables, acting like a PCA; with very large numbers of latent variables, the variables tend to be more disentangled, and act like an ICA. Our assumption is that the competition between latent variables while trying to gain the most information bandwidth can lead to this phenomenon.
翻訳日:2023-03-28 19:42:06 公開日:2023-03-25
# 自己監督型深層学習による放射線・トモグラフィマルチチャネルイメージングにおけるショットノイズ低減

Shot Noise Reduction in Radiographic and Tomographic Multi-Channel Imaging with Self-Supervised Deep Learning ( http://arxiv.org/abs/2303.14429v1 )

ライセンス: Link先を確認
Yaroslav Zharov, Evelina Ametova, Rebecca Spiecker, Tilo Baumbach, Genoveva Burca, Vincent Heuveline(参考訳) ノイズはX線およびトモグラフィーイメージング技術において重要な問題である。 追加の制約が画像当たりのSNR(Signal-to-Noise Ratio)を強く削減するアプリケーションでは特に重要である。 これらの制約は、最大利用可能なフラックスまたは許容量に関する制限と、露出時間に関する関連する制限によって生じる。 多くの場合、画像当たりの高SNRは、複数のチャンネルで画素当たりの所定の全露光容量を分配できるため、同じ全露光時間でオブジェクトに関する追加情報を取得するために取引される。 これらは分光イメージングの場合のエネルギーチャネルまたは時間分解イメージングの場合の時間チャネルである。 本稿では,ノイズの多いマルチチャネル(時間またはエネルギー解決)画像データセットの品質向上手法について報告する。 この方法は、ノイズフリーデータにアクセスせずにノイズフリー信号を予測することを学ぶ、最近のn2n(non-supervised denoising)アプローチに依存している。 N2Nは、異なるランダムノイズのサンプルに露出しながら、同一の信号を共有するデータ分散からサンプルのペアを描画する必要がある。 この方法は、近接するチャネルが十分な情報を共有し、同様の情報と独立したノイズを持つ画像を提供する場合に適用できる。 代表的なケーススタディとして, 分光x線トモグラフィ, 生体内x線シネラジオグラフィ, エネルギー分散(ブラッグエッジ)中性子トモグラフィについて紹介する。 いずれの場合も、N2N法は劇的に改善され、従来のデノナイジング法よりも優れていた。 このような撮像技術では、画像の品質を著しく向上させるか、画像当たりの露光時間をさらに短縮して画質を維持することができる。

Noise is an important issue for radiographic and tomographic imaging techniques. It becomes particularly critical in applications where additional constraints force a strong reduction of the Signal-to-Noise Ratio (SNR) per image. These constraints may result from limitations on the maximum available flux or permissible dose and the associated restriction on exposure time. Often, a high SNR per image is traded for the ability to distribute a given total exposure capacity per pixel over multiple channels, thus obtaining additional information about the object by the same total exposure time. These can be energy channels in the case of spectroscopic imaging or time channels in the case of time-resolved imaging. In this paper, we report on a method for improving the quality of noisy multi-channel (time or energy-resolved) imaging datasets. The method relies on the recent Noise2Noise (N2N) self-supervised denoising approach that learns to predict a noise-free signal without access to noise-free data. N2N in turn requires drawing pairs of samples from a data distribution sharing identical signals while being exposed to different samples of random noise. The method is applicable if adjacent channels share enough information to provide images with similar enough information but independent noise. We demonstrate several representative case studies, namely spectroscopic (k-edge) X-ray tomography, in vivo X-ray cine-radiography, and energy-dispersive (Bragg edge) neutron tomography. In all cases, the N2N method shows dramatic improvement and outperforms conventional denoising methods. For such imaging techniques, the method can therefore significantly improve image quality, or maintain image quality with further reduced exposure time per image.
翻訳日:2023-03-28 19:41:50 公開日:2023-03-25
# 3mformer:骨格動作認識のためのマルチオーダーマルチモードトランスフォーマ

3Mformer: Multi-order Multi-mode Transformer for Skeletal Action Recognition ( http://arxiv.org/abs/2303.14474v1 )

ライセンス: Link先を確認
Lei Wang and Piotr Koniusz(参考訳) 多くの骨格行動認識モデルは、人体を3次元の関節で繋がった体で表すのにGCNを使用する。 gcnsは1つまたは少数のホップグラフを集約し、連結されていない身体関節間の依存性を無視する。 身体関節群の高次運動パターンを捉えるために,グラフノード間のハイパーエッジをモデル化するハイパーグラフ(第3および第4次ハイパーエッジをキャプチャする)を提案する。 我々はアクションシーケンスを時間ブロックに分割し、高次変換器(HoT)は時間ブロックの埋め込みを生成する。 (i)身体関節。 (ii)身体関節の対関係、及び (III)骨格体関節の高次ハイパーエッジ。 命令1, ..., r のハイパーエッジの HoT 埋め込みを、新しいマルチオーダーマルチモード変換器 (3Mformer) と、'チャネル時間ブロック' 、'オーダーチャネルボディジョイント' 、'チャネルハイパーエッジ(任意の順序)' 、'チャネルオンリーのペア' に基づく結合モードトークンに対する結合モードの注意を得るために、2つのモジュールと組み合わせる。 第1モジュールはmulti-order pooling (mp)と呼ばれ、さらにハイパーエッジモードに沿って重み付けアグリゲーションを学び、第2モジュールであるtemporal block pooling (tp) はテンポラリブロックモードに沿って集約する。 我々のエンドツーエンドのトレーニング可能なネットワークは、GCN-、Transformer-、Hypergraph-basedと比較すると、最先端の結果が得られる。

Many skeletal action recognition models use GCNs to represent the human body by 3D body joints connected body parts. GCNs aggregate one- or few-hop graph neighbourhoods, and ignore the dependency between not linked body joints. We propose to form hypergraph to model hyper-edges between graph nodes (e.g., third- and fourth-order hyper-edges capture three and four nodes) which help capture higher-order motion patterns of groups of body joints. We split action sequences into temporal blocks, Higher-order Transformer (HoT) produces embeddings of each temporal block based on (i) the body joints, (ii) pairwise links of body joints and (iii) higher-order hyper-edges of skeleton body joints. We combine such HoT embeddings of hyper-edges of orders 1, ..., r by a novel Multi-order Multi-mode Transformer (3Mformer) with two modules whose order can be exchanged to achieve coupled-mode attention on coupled-mode tokens based on 'channel-temporal block', 'order-channel-body joint', 'channel-hyper-edge (any order)' and 'channel-only' pairs. The first module, called Multi-order Pooling (MP), additionally learns weighted aggregation along the hyper-edge mode, whereas the second module, Temporal block Pooling (TP), aggregates along the temporal block mode. Our end-to-end trainable network yields state-of-the-art results compared to GCN-, transformer- and hypergraph-based counterparts.
翻訳日:2023-03-28 19:35:04 公開日:2023-03-25
# HQ3DAvatar:高品質な3Dヘッドアバター

HQ3DAvatar: High Quality Controllable 3D Head Avatar ( http://arxiv.org/abs/2303.14471v1 )

ライセンス: Link先を確認
Kartik Teotia, Mallikarjun B R, Xingang Pan, Hyeongwoo Kim, Pablo Garrido, Mohamed Elgharib, Christian Theobalt(参考訳) マルチビューボリュームレンダリング技術は近年,高品質な頭部アバターのモデリングと合成に大きな可能性を示している。 フルヘッドのダイナミックパフォーマンスをキャプチャする一般的なアプローチは、メッシュベースのテンプレートや3d立方体ベースのグラフィックプリミティブを使用して基盤となる幾何学を追跡することだ。 これらのモデルに基づくアプローチは有望な結果をもたらすが、口内、毛髪、トポロジカルな変化といった複雑な幾何学的詳細を時間とともに学ばないことが多い。 本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。 本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。 学習した特徴空間におけるマルチレゾリューションハッシュエンコーディングを活用し、高品質で高速なトレーニングと高解像度のレンダリングを可能にする。 テスト時,本手法は単眼のRGBビデオによって駆動される。 ここで、画像エンコーダは学習可能な標準空間を条件とした顔特有の特徴を抽出する。 これにより、トレーニング中の変形に依存したテクスチャの変化が促進される。 また,学習された正準空間の対応を保証し,アーティファクトフリーかつ時間的一貫性のあるレンダリングを奨励する,新しい光フローベース損失を提案する。 表情の難易度に関する結果を示し,メディア解像度のインタラクティブなリアルタイムレートで自由視点レンダリングを示す。 提案手法は, 視覚的および数値的に, 既存のアプローチを上回っている。 さらなる研究を促進するために、マルチアイデンティティデータセットをリリースします。 私たちのプロジェクトページは、https://vcai.mpi-inf.mpg.de/projects/HQ3DAvatar/で利用可能です。

Multi-view volumetric rendering techniques have recently shown great potential in modeling and synthesizing high-quality head avatars. A common approach to capture full head dynamic performances is to track the underlying geometry using a mesh-based template or 3D cube-based graphics primitives. While these model-based approaches achieve promising results, they often fail to learn complex geometric details such as the mouth interior, hair, and topological changes over time. This paper presents a novel approach to building highly photorealistic digital head avatars. Our method learns a canonical space via an implicit function parameterized by a neural network. It leverages multiresolution hash encoding in the learned feature space, allowing for high-quality, faster training and high-resolution rendering. At test time, our method is driven by a monocular RGB video. Here, an image encoder extracts face-specific features that also condition the learnable canonical space. This encourages deformation-dependent texture variations during training. We also propose a novel optical flow based loss that ensures correspondences in the learned canonical space, thus encouraging artifact-free and temporally consistent renderings. We show results on challenging facial expressions and show free-viewpoint renderings at interactive real-time rates for medium image resolutions. Our method outperforms all existing approaches, both visually and numerically. We will release our multiple-identity dataset to encourage further research. Our Project page is available at: https://vcai.mpi-inf.mpg.de/projects/HQ3DAvatar/
翻訳日:2023-03-28 19:34:33 公開日:2023-03-25
# スパースカーネル選択によるバイナリニューラルネットワークのコンパクト化

Compacting Binary Neural Networks by Sparse Kernel Selection ( http://arxiv.org/abs/2303.14470v1 )

ライセンス: Link先を確認
Yikai Wang, Wenbing Huang, Yinpeng Dong, Fuchun Sun, Anbang Yao(参考訳) バイナリニューラルネットワーク(BNN)は、1ビット値の畳み込み重みを表現し、ストレージと計算の効率を高める。 本稿は,BNNが成功した場合のバイナリカーネルが大半が少数のコードワードにクラスタ化されているという,これまで明らかにされていた現象に動機付けられている。 この現象は、バイナリカーネルサブ空間内の非繰り返しカーネルを学習することで、一般的なBNNをコンパクト化し、さらに近い性能を得るのに役立つ。 具体的には、二項化処理をバイナリコードブックの観点からカーネルグループ化とみなし、コードブック全体からより小さなサブセットのコードワードを選択することを課題としている。 次に、Gumbel-Sinkhorn 法を用いて、コードワード選択過程を近似し、選択プロセスのエンドツーエンドを最適化するだけでなく、選択したコードワードの非反復的占有を維持できるPermutation Straight-Through Estimator (PSTE) を開発する。 実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。

Binary Neural Network (BNN) represents convolution weights with 1-bit values, which enhances the efficiency of storage and computation. This paper is motivated by a previously revealed phenomenon that the binary kernels in successful BNNs are nearly power-law distributed: their values are mostly clustered into a small number of codewords. This phenomenon encourages us to compact typical BNNs and obtain further close performance through learning non-repetitive kernels within a binary kernel subspace. Specifically, we regard the binarization process as kernel grouping in terms of a binary codebook, and our task lies in learning to select a smaller subset of codewords from the full codebook. We then leverage the Gumbel-Sinkhorn technique to approximate the codeword selection process, and develop the Permutation Straight-Through Estimator (PSTE) that is able to not only optimize the selection process end-to-end but also maintain the non-repetitive occupancy of selected codewords. Experiments verify that our method reduces both the model size and bit-wise computational costs, and achieves accuracy improvements compared with state-of-the-art BNNs under comparable budgets.
翻訳日:2023-03-28 19:34:11 公開日:2023-03-25
# 自己回帰型条件ニューラルプロセス

Autoregressive Conditional Neural Processes ( http://arxiv.org/abs/2303.14468v1 )

ライセンス: Link先を確認
Wessel P. Bruinsma, Stratis Markou, James Requiema, Andrew Y. K. Foong, Tom R. Andersson, Anna Vaughan, Anthony Buonomo, J. Scott Hosking, Richard E. Turner(参考訳) 条件付きニューラルプロセス(CNPs; Garnelo et al., 2018a)は、よく校正された予測を生成する魅力的なメタラーニングモデルであり、単純な最大精度の手順で訓練することができる。 CNPには多くの利点があるが、予測において依存関係をモデル化することはできない。 様々な研究がこれを解決することを提案しているが、これらは近似推論を必要とするかガウス予測に制限されるかのどちらかのコストで生じる。 本研究では、モデルやトレーニング手順を変更することなく、テスト時にCNPをどのように展開するかを変更することを提案する。 各目標点に対して独立に予測を行う代わりに、確率の連鎖規則を用いて、自己回帰的密度推定器(NADE)の文献から着想を得て、共同予測分布を自己回帰的に定義する。 この単純な手順により、分解されたガウス CNP が高依存性の非ガウス予測分布をモデル化できることを示す。 意外なことに、合成データや実データを扱う幅広いタスクにおいて、自己回帰(AR)モードのCNPが非AR CNPよりも大幅に優れているだけでなく、計算コストが大幅に高く、訓練が難しいモデルと競合していることを示す。 AR CNPは、ジョイント依存関係をモデル化する訓練を受けていないため、このパフォーマンスは注目に値する。 我々の研究は、神経分布推定のアイデアがニューラルプロセスにどう役立つかを示し、他のニューラルプロセスモデルのAR展開の研究を動機付ける。

Conditional neural processes (CNPs; Garnelo et al., 2018a) are attractive meta-learning models which produce well-calibrated predictions and are trainable via a simple maximum likelihood procedure. Although CNPs have many advantages, they are unable to model dependencies in their predictions. Various works propose solutions to this, but these come at the cost of either requiring approximate inference or being limited to Gaussian predictions. In this work, we instead propose to change how CNPs are deployed at test time, without any modifications to the model or training procedure. Instead of making predictions independently for every target point, we autoregressively define a joint predictive distribution using the chain rule of probability, taking inspiration from the neural autoregressive density estimator (NADE) literature. We show that this simple procedure allows factorised Gaussian CNPs to model highly dependent, non-Gaussian predictive distributions. Perhaps surprisingly, in an extensive range of tasks with synthetic and real data, we show that CNPs in autoregressive (AR) mode not only significantly outperform non-AR CNPs, but are also competitive with more sophisticated models that are significantly more computationally expensive and challenging to train. This performance is remarkable given that AR CNPs are not trained to model joint dependencies. Our work provides an example of how ideas from neural distribution estimation can benefit neural processes, and motivates research into the AR deployment of other neural process models.
翻訳日:2023-03-28 19:33:48 公開日:2023-03-25
# 最密部分グラフ問題とその変種に関する調査

A Survey on the Densest Subgraph Problem and its Variants ( http://arxiv.org/abs/2303.14467v1 )

ライセンス: Link先を確認
Tommaso Lanciano and Atsushi Miyauchi and Adriano Fazzone and Francesco Bonchi(参考訳) デンストグラフ問題は、与えられたグラフにおいて、誘導された部分グラフが密度の測度を最大化する頂点の部分集合を見つける必要がある。 この問題は過去50年間、アルゴリズム文学で多くの注目を集め、多くの変種が提案され、この基本的な定義の上に多くのアプリケーションが構築された。 近年、この問題に対する研究の関心が復活し、2022年と2023年に出版されたいくつかの画期的な結果を含むいくつかの興味深い貢献がなされている。 本調査は,文献に提案されている多くの変種について,基礎的結果の詳細な概観と,最新の結果に特に注目することを目的とする。 この調査はまた、アプリケーションの概要を包括的に紹介し、この常緑的研究トピックに関する興味深いオープンな問題について論じている。

The Densest Subgraph Problem requires to find, in a given graph, a subset of vertices whose induced subgraph maximizes a measure of density. The problem has received a great deal of attention in the algorithmic literature over the last five decades, with many variants proposed and many applications built on top of this basic definition. Recent years have witnessed a revival of research interest on this problem with several interesting contributions, including some groundbreaking results, published in 2022 and 2023. This survey provides a deep overview of the fundamental results and an exhaustive coverage of the many variants proposed in the literature, with a special attention on the most recent results. The survey also presents a comprehensive overview of applications and discusses some interesting open problems for this evergreen research topic.
翻訳日:2023-03-28 19:33:20 公開日:2023-03-25
# 視覚言語基礎モデルの同変類似性

Equivariant Similarity for Vision-Language Foundation Models ( http://arxiv.org/abs/2303.14465v1 )

ライセンス: Link先を確認
Tan Wang, Kevin Lin, Linjie Li, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang(参考訳) 本研究は,視覚言語基礎モデル(VLM)における等価性の概念を考察し,下流タスクをサポートするためのコアデリバリだけでなく,主要なトレーニング目的であるマルチモーダル類似性関数に焦点をあてる。 一致した対と一致しない対を相似としか分類しない既存の画像-テキスト類似性目的とは異なり、同値性は意味的変化に応じて忠実に変化するように類似性を必要とする。 これにより、VLMはニュアンスや見えないマルチモーダル合成をより一般化することができる。 しかし,意味変化の根底にある真理は収集が難しいため,同値のモデル化は困難である。 例えば、犬に関する画像とテキストのペアを考えると、犬から猫にピクセルが変化したときの類似性がどの程度変化するかは明らかではない。 そこで本研究では,2組の学習ペアから効率的に計算でき,既存の画像テキスト検索の微調整に容易にプラグインできる正規化損失であるeqsimを提案する。 一方, vlms の等価性をさらに診断するために, 新たな挑戦的ベンチマーク eqben を提案する。 既存の評価セットと比較すると、EqBenは"視覚的最小限の変化"にフォーカスした最初のものである。 大規模な実験は、現在のVLMに等価性の欠如を示し、EqSimの有効性を検証する。 コードは \url{https://github.com/Wangt-CN/EqBen} で入手できる。

This study explores the concept of equivariance in vision-language foundation models (VLMs), focusing specifically on the multimodal similarity function that is not only the major training objective but also the core delivery to support downstream tasks. Unlike the existing image-text similarity objective which only categorizes matched pairs as similar and unmatched pairs as dissimilar, equivariance also requires similarity to vary faithfully according to the semantic changes. This allows VLMs to generalize better to nuanced and unseen multimodal compositions. However, modeling equivariance is challenging as the ground truth of semantic change is difficult to collect. For example, given an image-text pair about a dog, it is unclear to what extent the similarity changes when the pixel is changed from dog to cat? To this end, we propose EqSim, a regularization loss that can be efficiently calculated from any two matched training pairs and easily pluggable into existing image-text retrieval fine-tuning. Meanwhile, to further diagnose the equivariance of VLMs, we present a new challenging benchmark EqBen. Compared to the existing evaluation sets, EqBen is the first to focus on "visual-minimal change". Extensive experiments show the lack of equivariance in current VLMs and validate the effectiveness of EqSim. Code is available at \url{https://github.com/Wangt-CN/EqBen}.
翻訳日:2023-03-28 19:33:07 公開日:2023-03-25
# tsetlinマシンの特性検証

Verifying Properties of Tsetlin Machines ( http://arxiv.org/abs/2303.14464v1 )

ライセンス: Link先を確認
Emilia Przybysz and Bimal Bhattarai and Cosimo Persia and Ana Ozaki and Ole-Christoffer Granmo and Jivitesh Sharma(参考訳) Tsetlin Machines (TsMs) は様々な分類タスクに適用できる有望かつ解釈可能な機械学習手法である。 本稿では、命題論理にTsMsを正確に符号化し、SATソルバを用いてTsMsの特性を正式に検証する。 特に,本稿では,機械学習モデルの類似性の概念を紹介し,tsmsの類似性をチェックするためにこの概念を適用する。 また,文献からロバスト性と等価性の概念を考察し,tsmに適用する。 次に、符号化の正確性を示し、逆ロバスト性、等価性、tsmsの類似性などの特性について結果を提供する。 実験では,MNISTとIMDBのデータセットを用いて,画像と感情の分類を行った。 本稿では,mnist上の2値化ニューラルネットワークを用いた文献を用いて,tsmsによるロバスト性検証結果について考察する。

Tsetlin Machines (TsMs) are a promising and interpretable machine learning method which can be applied for various classification tasks. We present an exact encoding of TsMs into propositional logic and formally verify properties of TsMs using a SAT solver. In particular, we introduce in this work a notion of similarity of machine learning models and apply our notion to check for similarity of TsMs. We also consider notions of robustness and equivalence from the literature and adapt them for TsMs. Then, we show the correctness of our encoding and provide results for the properties: adversarial robustness, equivalence, and similarity of TsMs. In our experiments, we employ the MNIST and IMDB datasets for (respectively) image and sentiment classification. We discuss the results for verifying robustness obtained with TsMs with those in the literature obtained with Binarized Neural Networks on MNIST.
翻訳日:2023-03-28 19:32:44 公開日:2023-03-25
# 事前列列列モデルを用いたインドの言語要約

Indian Language Summarization using Pretrained Sequence-to-Sequence Models ( http://arxiv.org/abs/2303.14461v1 )

ライセンス: Link先を確認
Ashok Urlana, Sahil Manoj Bhatt, Nirmal Surange, Manish Shrivastava(参考訳) ILSUMの共有タスクは、ヒンディー語とグジャラート語という2つの主要なインドの言語のテキスト要約に焦点を当てている。 そこで本研究では,事前訓練されたシーケンス・ツー・シーケンス・モデルを用いて,各言語に最適なモデルを求める。 本稿では,モデルとアプローチの詳細な概要について述べる。 我々は3つのサブタスク(英語、ヒンディー語、グジャラート語)で1位を確保する。 また,データサイズが制限された場合,k-foldクロスバリデーションの影響を広範囲に解析し,プリトレーニング済みモデルの有効性を判断するために,原データとフィルタ版の組み合わせによる様々な実験を行った。

The ILSUM shared task focuses on text summarization for two major Indian languages- Hindi and Gujarati, along with English. In this task, we experiment with various pretrained sequence-to-sequence models to find out the best model for each of the languages. We present a detailed overview of the models and our approaches in this paper. We secure the first rank across all three sub-tasks (English, Hindi and Gujarati). This paper also extensively analyzes the impact of k-fold cross-validation while experimenting with limited data size, and we also perform various experiments with a combination of the original and a filtered version of the data to determine the efficacy of the pretrained models.
翻訳日:2023-03-28 19:32:30 公開日:2023-03-25
# cfa: 階級別に調整した公正な対向訓練

CFA: Class-wise Calibrated Fair Adversarial Training ( http://arxiv.org/abs/2303.14460v1 )

ライセンス: Link先を確認
Zeming Wei, Yifei Wang, Yiwen Guo, Yisen Wang(参考訳) 敵対的トレーニングは、ディープニューラルネットワーク(DNN)の敵に対する敵対的堅牢性を改善する最も効果的な方法として広く認識されている。 これまでのところ、ほとんどの研究はモデル全体の堅牢性の向上に重点を置いており、各クラスをトレーニングフェーズとテストフェーズの両方で等しく扱います。 クラス間の堅牢性の違いを明らかにする一方で、全体的な堅牢性を犠牲にすることなく、クラスレベルで敵のトレーニングを公平にしようとする研究はほとんどない。 本稿では,摂動マージン,正規化,平均化など,対角的構成に対する異なるクラスの選択を理論的・実験的に検討した最初の事例である。 そこで我々はさらに,各クラスごとに個別のトレーニング設定を自動的にカスタマイズする,CFA(CFA)という,‘textbf{C}lass-wise calibrated \textbf{F}air \textbf{A}dversarial training frameworkを提案する。 ベンチマークデータセットにおける実験により,提案するcfaは,他の最先端手法に比べて,全体としてのロバスト性と公平性の両方を改善することができることが示された。 コードは \url{https://github.com/PKU-ML/CFA} で入手できる。

Adversarial training has been widely acknowledged as the most effective method to improve the adversarial robustness against adversarial examples for Deep Neural Networks (DNNs). So far, most existing works focus on enhancing the overall model robustness, treating each class equally in both the training and testing phases. Although revealing the disparity in robustness among classes, few works try to make adversarial training fair at the class level without sacrificing overall robustness. In this paper, we are the first to theoretically and empirically investigate the preference of different classes for adversarial configurations, including perturbation margin, regularization, and weight averaging. Motivated by this, we further propose a \textbf{C}lass-wise calibrated \textbf{F}air \textbf{A}dversarial training framework, named CFA, which customizes specific training configurations for each class automatically. Experiments on benchmark datasets demonstrate that our proposed CFA can improve both overall robustness and fairness notably over other state-of-the-art methods. Code is available at \url{https://github.com/PKU-ML/CFA}.
翻訳日:2023-03-28 19:32:18 公開日:2023-03-25
# Dual Posture Stitching を用いた横方向運動の切り替え

Diverse Motion In-betweening with Dual Posture Stitching ( http://arxiv.org/abs/2303.14457v1 )

ライセンス: Link先を確認
Tianxiang Ren, Jubo Yu, Shihui Guo, Ying Ma, Yutao Ouyang, Zijiao Zeng, Yazhan Zhang, Yipeng Qin(参考訳) In-betweeningは、初期状態とターゲット状態の遷移を生成する技術である。 既存の作業の大部分は入力として複数の(しばしば$10)フレームを必要とするが、必ずしもアクセスできない。 正確に2つのフレーム(最初と最後だけ)を与えられたときに、移行を生成することです。 この課題に対処するため,2つの対向自己回帰ネットワークを用いて,開始フレームと終了フレームから前後の遷移を生成し,厳密な基底真理が存在しない遷移の途中で縫合する双方向方式を実装した。 条件付き変分オートエンコーダ(CVAE)に基づく自己回帰ネットワークは、出力間の新たな縫合損失を最小限に抑える2つの最適潜時符号を探索することによって最適化される。 提案手法は,LaFAN1とHuman3.6mの両方のデータセットにおいて,既存の手法よりも高い動作品質と多様な結果が得られることを示す。

In-betweening is a technique for generating transitions given initial and target character states. The majority of existing works require multiple (often $>$10) frames as input, which are not always accessible. Our work deals with a focused yet challenging problem: to generate the transition when given exactly two frames (only the first and last). To cope with this challenging scenario, we implement our bi-directional scheme which generates forward and backward transitions from the start and end frames with two adversarial autoregressive networks, and stitches them in the middle of the transition where there is no strict ground truth. The autoregressive networks based on conditional variational autoencoders (CVAE) are optimized by searching for a pair of optimal latent codes that minimize a novel stitching loss between their outputs. Results show that our method achieves higher motion quality and more diverse results than existing methods on both the LaFAN1 and Human3.6m datasets.
翻訳日:2023-03-28 19:31:56 公開日:2023-03-25
# コード安全性のための量子中間表現の形式化

Formalization of Quantum Intermediate Representations for Code Safety ( http://arxiv.org/abs/2303.14500v1 )

ライセンス: Link先を確認
Junjie Luo, Jianjun Zhao(参考訳) quantum intermediate representation (qir) はマイクロソフトが開発した量子プログラムコンパイラ向けのllvmベースの中間表現である。 qirは、フロントエンド言語やバックエンドハードウェアに依存しない量子プログラムコンパイラのための一般的なソリューションを提供することを目的としている。 開発中であるため、QIRは自然言語で記述されており、形式的な定義がないため、その解釈の曖昧さと量子関数の実装における厳密さの欠如につながる。 本稿では,QIRのデータ型と命令セットを形式的に定義し,QIRにおける操作と中間コード変換の正当性とセキュリティを保証することを目的とする。 我々の設計を検証するために、我々は安全でないQIRコードのサンプルを示し、そこでエラーをフォーマルなアプローチで検出する。

Quantum Intermediate Representation (QIR) is a Microsoft-developed, LLVM-based intermediate representation for quantum program compilers. QIR aims to provide a general solution for quantum program compilers independent of front-end languages and back-end hardware, thus avoiding duplicate development of intermediate representations and compilers. Since it is still under development, QIR is described in natural language and lacks a formal definition, leading to ambiguity in its interpretation and a lack of rigor in implementing quantum functions. In this paper, we provide formal definitions for the data types and instruction sets of QIR, aiming to provide correctness and security guarantees for operations and intermediate code conversions in QIR. To validate our design, we show some samples of unsafe QIR code where errors can be detected by our formal approach.
翻訳日:2023-03-28 19:26:06 公開日:2023-03-25
# 視覚触覚センシングによる手指物体再建

Visual-Tactile Sensing for In-Hand Object Reconstruction ( http://arxiv.org/abs/2303.14498v1 )

ライセンス: Link先を確認
Wenqiang Xu, Zhenjun Yu, Han Xue, Ruolin Ye, Siqiong Yao, Cewu Lu(参考訳) 触覚は、人間が世界を知覚するために大きく依存するモダリティの1つである。 このモダリティは視覚を用いて局所幾何学構造を洗練させ、接触領域における変形を測定し、手対象接触状態を示す。 DIGITのようなオープンソースの触覚センサーが利用可能になるにつれ、視覚触覚学習の研究はよりアクセスしやすく、再現可能になっている。 この触覚センサを活用し,手指物体復元のための新しい視覚触覚物体再構成フレームワーク \textbf{vtaco} を提案し,それを \textbf{vtacoh} に拡張した。 本手法は剛性と変形性のあるオブジェクト再構成を両立できるため,既存のベンチマークが目標に適していない。 本稿では,剛性オブジェクトと変形性オブジェクトのハンドオブジェクトインタラクション生成を支援するシミュレーション環境VT-Simを提案する。 VT-Simでは、大規模なトレーニングデータセットを生成し、その上で手法を評価する。 広範な実験により,提案手法が従来のベースライン手法を定性的,定量的に上回ることができることを実証した。 最後に、シミュレーションで訓練されたモデルを実世界の様々なテストケースに適用し、質的結果を表示する。 コード、モデル、シミュレーション環境、データセットは \url{https://sites.google.com/view/vtaco/} で入手できる。

Tactile sensing is one of the modalities humans rely on heavily to perceive the world. Working with vision, this modality refines local geometry structure, measures deformation at the contact area, and indicates the hand-object contact state. With the availability of open-source tactile sensors such as DIGIT, research on visual-tactile learning is becoming more accessible and reproducible. Leveraging this tactile sensor, we propose a novel visual-tactile in-hand object reconstruction framework \textbf{VTacO}, and extend it to \textbf{VTacOH} for hand-object reconstruction. Since our method can support both rigid and deformable object reconstruction, no existing benchmarks are proper for the goal. We propose a simulation environment, VT-Sim, which supports generating hand-object interaction for both rigid and deformable objects. With VT-Sim, we generate a large-scale training dataset and evaluate our method on it. Extensive experiments demonstrate that our proposed method can outperform the previous baseline methods qualitatively and quantitatively. Finally, we directly apply our model trained in simulation to various real-world test cases, which display qualitative results. Codes, models, simulation environment, and datasets are available at \url{https://sites.google.com/view/vtaco/}.
翻訳日:2023-03-28 19:25:53 公開日:2023-03-25
# 説明制約による学習

Learning with Explanation Constraints ( http://arxiv.org/abs/2303.14496v1 )

ライセンス: Link先を確認
Rattana Pukdee, Dylan Sam, J. Zico Kolter, Maria-Florina Balcan, Pradeep Ravikumar(参考訳) 教師あり学習はラベル付きデータの存在を前提としているが、モデルがどのように振る舞うべきかについての事前情報を持っているかもしれない。 本稿では,説明制約からの学習としてこの概念を定式化し,その説明がモデル学習をいかに改善できるかを分析するための学習論的枠組みを提案する。 どんなモデルで説明が役に立ちますか? 最初の重要なコントリビューションは、EPACモデル(新しいデータに対する期待を満足するこれらの制約を満たすモデル)の定義を通じてこの問題に対処し、標準学習理論ツールを使用してこのモデルのクラスを分析します。 第2の鍵となる貢献は、線形モデルと2層ニューラルネットワークの勾配情報によって与えられる説明の標準クラスに対して、これらの制約(Rademacher複雑性の観点から)を特徴づけることである。 最後に、より単純な拡張ラグランジアン法と比較して、より優れた性能を実現し、より頻繁にこれらの制約を満たす変分近似によって、我々のフレームワークのアルゴリズム的ソリューションを提供する。 我々は,大規模な合成および実世界の実験に対するアプローチの利点を実証する。

While supervised learning assumes the presence of labeled data, we may have prior information about how models should behave. In this paper, we formalize this notion as learning from explanation constraints and provide a learning theoretic framework to analyze how such explanations can improve the learning of our models. For what models would explanations be helpful? Our first key contribution addresses this question via the definition of what we call EPAC models (models that satisfy these constraints in expectation over new data), and we analyze this class of models using standard learning theoretic tools. Our second key contribution is to characterize these restrictions (in terms of their Rademacher complexities) for a canonical class of explanations given by gradient information for linear models and two layer neural networks. Finally, we provide an algorithmic solution for our framework, via a variational approximation that achieves better performance and satisfies these constraints more frequently, when compared to simpler augmented Lagrangian methods to incorporate these explanations. We demonstrate the benefits of our approach over a large array of synthetic and real-world experiments.
翻訳日:2023-03-28 19:25:30 公開日:2023-03-25
# ドローン画像の高速物体検出のためのグローバルコンテキスト拡張を用いた適応スパース畳み込みネットワーク

Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images ( http://arxiv.org/abs/2303.14488v1 )

ライセンス: Link先を確認
Bowei Du, Yecheng Huang, Jiaxin Chen, Di Huang(参考訳) 低遅延のドローン画像における物体検出は、資源制約のない無人航空機(UAV)プラットフォームにおいて重要な課題であるが難しい課題である。 本稿では,分散畳み込みに基づく検出ヘッドの最適化について検討し,精度と効率のバランスをとる上で有効であることを示す。 それでも、小さな物体の文脈情報の不十分な統合や、様々なスケールで前景の存在下でのマスク比の粗末な制御に悩まされている。 上記の問題に対処するために,新しいグローバルコンテキスト拡張適応スパース畳み込みネットワーク (ceasc) を提案する。 まず, 局所的なサンプル化特徴に基づく統計をグローバルな文脈に置き換え, 適応型多層マスキング戦略を設計し, 異なるスケールのマスク比を, コンパクトなフォアグラウンドカバレッジのために生成し, 精度と効率を両立させることにより, CE-GN層を開発した。 visdroneとuavdtの2つの主要なベンチマークに関する広範な実験の結果は、ceascがgflopsを著しく削減し、典型的な最先端検出フレームワーク(例えばretinanetとgfl v1)にコンペティタパフォーマンスで接続する際の推論手順を加速していることを示している。 コードはhttps://github.com/Cuogeihong/CEASCで入手できる。

Object detection on drone images with low-latency is an important but challenging task on the resource-constrained unmanned aerial vehicle (UAV) platform. This paper investigates optimizing the detection head based on the sparse convolution, which proves effective in balancing the accuracy and efficiency. Nevertheless, it suffers from inadequate integration of contextual information of tiny objects as well as clumsy control of the mask ratio in the presence of foreground with varying scales. To address the issues above, we propose a novel global context-enhanced adaptive sparse convolutional network (CEASC). It first develops a context-enhanced group normalization (CE-GN) layer, by replacing the statistics based on sparsely sampled features with the global contextual ones, and then designs an adaptive multi-layer masking strategy to generate optimal mask ratios at distinct scales for compact foreground coverage, promoting both the accuracy and efficiency. Extensive experimental results on two major benchmarks, i.e. VisDrone and UAVDT, demonstrate that CEASC remarkably reduces the GFLOPs and accelerates the inference procedure when plugging into the typical state-of-the-art detection frameworks (e.g. RetinaNet and GFL V1) with competitive performance. Code is available at https://github.com/Cuogeihong/CEASC.
翻訳日:2023-03-28 19:25:16 公開日:2023-03-25
# 都市コンピューティングにおける予測学習のための時空間グラフニューラルネットワーク

Spatio-Temporal Graph Neural Networks for Predictive Learning in Urban Computing: A Survey ( http://arxiv.org/abs/2303.14483v1 )

ライセンス: Link先を確認
Guangyin Jin, Yuxuan Liang, Yuchen Fang, Jincai Huang, Junbo Zhang, Yu Zheng(参考訳) 高度なセンサと大規模データベース技術の開発により、都市システムにおける時空間データの記録と保存がますます増えていく。 これらの時空間データの進化パターンに対する予測学習は、都市コンピューティングにおいて基本だが重要なループであり、特に輸送、環境、セキュリティ、公衆衛生などの分野において、都市におけるインテリジェントな管理決定をより支援することができる。 従来の統計的学習と深層学習は都市時空間データの複雑な相関をほとんど捉えないため,近年,時空間グラフニューラルネットワーク(STGNN)の枠組みが提案されている。 STGNNは、グラフニューラルネットワーク(GNN)と様々な時間学習手法を統合することで、複雑な時空間依存の抽出を可能にする。 しかし,様々な予測学習タスクにおいて,空間依存学習モジュール,時間依存学習モジュール,時空間依存融合手法をstgnnフレームワークで効果的に設計することは困難である。 本稿では,都市コンピューティングにおける予測学習におけるSTGNN技術の最近の進歩を包括的に調査する。 まず,STGNNで使用される時空間グラフデータと一般的なディープラーニングモデルの構築手法について紹介する。 次に、既存の文献から、主なアプリケーションドメインと特定の予測学習タスクを分類する。 次に、STGNNフレームワークの設計アプローチと、近年の先進技術の組み合わせについて分析する。 最後に、既存の研究の限界を結論し、潜在的な方向性を提案する。

With the development of sophisticated sensors and large database technologies, more and more spatio-temporal data in urban systems are recorded and stored. Predictive learning for the evolution patterns of these spatio-temporal data is a basic but important loop in urban computing, which can better support urban intelligent management decisions, especially in the fields of transportation, environment, security, public health, etc. Since traditional statistical learning and deep learning methods can hardly capture the complex correlations in the urban spatio-temporal data, the framework of spatio-temporal graph neural network (STGNN) has been proposed in recent years. STGNNs enable the extraction of complex spatio-temporal dependencies by integrating graph neural networks (GNNs) and various temporal learning methods. However, for different predictive learning tasks, it is a challenging problem to effectively design the spatial dependencies learning modules, temporal dependencies learning modules and spatio-temporal dependencies fusion methods in STGNN framework. In this paper, we provide a comprehensive survey on recent progress on STGNN technologies for predictive learning in urban computing. We first briefly introduce the construction methods of spatio-temporal graph data and popular deep learning models that are employed in STGNNs. Then we sort out the main application domains and specific predictive learning tasks from the existing literature. Next we analyze the design approaches of STGNN framework and the combination with some advanced technologies in recent years. Finally, we conclude the limitations of the existing research and propose some potential directions.
翻訳日:2023-03-28 19:24:52 公開日:2023-03-25
# 可視赤外人物再同定のための多様な埋め込み拡張ネットワークと低光クロスモダリティベンチマーク

Diverse Embedding Expansion Network and Low-Light Cross-Modality Benchmark for Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2303.14481v1 )

ライセンス: Link先を確認
Yukang Zhang, Hanzi Wang(参考訳) 視覚的赤外線人物再識別(VIReID)タスクでは、視覚的(VIS)画像と赤外線(IR)画像とのモダリティギャップが大きな課題である。 しかしながら、トレーニングサンプルは通常制限されているが、モダリティギャップが大きすぎるため、既存の手法では様々なモダリティ手がかりを効果的にマイニングすることはできない。 この制限に対処するため,多様な埋め込み拡張ネットワーク (DEEN) と呼ばれる,埋め込み空間における新たな拡張ネットワークを提案する。 提案したDEENは,多種多様な埋め込みを効果的に生成し,情報的特徴表現を学習し,VIS画像とIR画像とのモダリティの相違を低減する。 さらに、VIReIDモデルは、劇的な照明変化によって深刻な影響を受ける可能性があるが、既存のVIReIDデータセットは全て、十分な照明下で、大きな光変化を伴わない。 そこで我々は,9台のRGB/IRカメラで捉えた1,064個の識別された46,767個のバウンディングボックスを含む低照度クロスモダリティ(LLCM)データセットを提供する。 SYSU-MM01、RegDB、 LLCMデータセットの大規模な実験は、提案したDEENが他のいくつかの最先端手法よりも優れていることを示している。 コードとデータセットは、https://github.com/ZYK100/LLCMでリリースされます。

For the visible-infrared person re-identification (VIReID) task, one of the major challenges is the modality gaps between visible (VIS) and infrared (IR) images. However, the training samples are usually limited, while the modality gaps are too large, which leads that the existing methods cannot effectively mine diverse cross-modality clues. To handle this limitation, we propose a novel augmentation network in the embedding space, called diverse embedding expansion network (DEEN). The proposed DEEN can effectively generate diverse embeddings to learn the informative feature representations and reduce the modality discrepancy between the VIS and IR images. Moreover, the VIReID model may be seriously affected by drastic illumination changes, while all the existing VIReID datasets are captured under sufficient illumination without significant light changes. Thus, we provide a low-light cross-modality (LLCM) dataset, which contains 46,767 bounding boxes of 1,064 identities captured by 9 RGB/IR cameras. Extensive experiments on the SYSU-MM01, RegDB and LLCM datasets show the superiority of the proposed DEEN over several other state-of-the-art methods. The code and dataset are released at: https://github.com/ZYK100/LLCM
翻訳日:2023-03-28 19:24:32 公開日:2023-03-25
# GANTEE: 分類学のためのジェネレーティブ・ディバイザティカル・ネットワークの評価

GANTEE: Generative Adversatial Network for Taxonomy Entering Evaluation ( http://arxiv.org/abs/2303.14480v1 )

ライセンス: Link先を確認
Zhouhong Gu, Sihang Jiang, Jingping Liu, Yanghua Xiao, Hongwei Feng, Zhixu Li, Jiaqing Liang, Jian Zhong(参考訳) 分類学は、多くの下流タスクをサポートする有向非循環概念グラフや木として定式化されている。 既存の分類法に多くの新しい概念を追加する必要がある。 従来の分類学拡張タスクは、既存の分類学における新しい概念の最良の位置を見つけることのみを目的としている。 しかし、実際のスセナリオに適用する際の欠点は2つある。 以前の手法は、新しいコンセプトが本当に騒がしい概念である場合、多くの時間を浪費するため、低効率に苦しむ。 彼らはまた、既存の分類学からのみトレーニングサンプルを収集し、モデルが実際の概念間のより高名・高位関係をマイニングする能力を制限するため、効果の低い。 本稿では,これらの欠点を解消するために,generative adversarial network for taxonomy entry evaluation (gantee) と呼ばれるプラグインフレームワークを提案する。 このフレームワークでは、第1の欠点を緩和する識別モデルと第2の欠点を緩和する生成モデルにより、生成的敵ネットワークを設計する。 GANTEEでは2つの差別者がそれぞれ長期報酬と短期報酬を提供している。 さらに,効率を向上させるために,事前学習した言語モデルを用いて概念の表現を迅速に検索する。 2つの異なる言語を持つ3つの実世界の大規模データセットに対する実験により、GANTEEは既存の分類拡張手法の性能を、有効性と効率の両方で改善することを示した。

Taxonomy is formulated as directed acyclic concepts graphs or trees that support many downstream tasks. Many new coming concepts need to be added to an existing taxonomy. The traditional taxonomy expansion task aims only at finding the best position for new coming concepts in the existing taxonomy. However, they have two drawbacks when being applied to the real-scenarios. The previous methods suffer from low-efficiency since they waste much time when most of the new coming concepts are indeed noisy concepts. They also suffer from low-effectiveness since they collect training samples only from the existing taxonomy, which limits the ability of the model to mine more hypernym-hyponym relationships among real concepts. This paper proposes a pluggable framework called Generative Adversarial Network for Taxonomy Entering Evaluation (GANTEE) to alleviate these drawbacks. A generative adversarial network is designed in this framework by discriminative models to alleviate the first drawback and the generative model to alleviate the second drawback. Two discriminators are used in GANTEE to provide long-term and short-term rewards, respectively. Moreover, to further improve the efficiency, pre-trained language models are used to retrieve the representation of the concepts quickly. The experiments on three real-world large-scale datasets with two different languages show that GANTEE improves the performance of the existing taxonomy expansion methods in both effectiveness and efficiency.
翻訳日:2023-03-28 19:24:09 公開日:2023-03-25
# 医用画像における画像品質評価

Explainable Image Quality Assessment for Medical Imaging ( http://arxiv.org/abs/2303.14479v1 )

ライセンス: Link先を確認
Caner Ozer, Arda Guler, Aysel Turkvatan Cansever, Ilkay Oksuz(参考訳) 医療画像の品質評価は画像取得の重要な側面であり、低品質の画像は誤診につながる可能性がある。 画像品質のマニュアルラベリングは、人口調査の面倒な作業であり、誤った結果をもたらす可能性がある。 この問題に対処するために、画像品質の自動分析に関する多くの研究が行われてきたが、方法論を説明するための作業は比較的少ない。 本研究では,胸部X線(Object-CXR)と左室流出路(LVOT)による心臓磁気共鳴(CMR)量の異物検出の2つの目的について,説明可能な画像品質評価システムを提案し,その考え方を検証した。 我々は,サリエンシ検出器の忠実度を測定するために,様々な手法を適用し,このパイプラインは分類器のサリエンシマップを用いて画像品質問題を効率的にローカライズするアルゴリズムであるNormGradに依存している。 我々は,NormGradを各種の塩分検出法と比較し,これらの方法を適用して塩分検知器の忠実度を計測した結果,その優れた性能を示す。 NormGradは、Object-CXRでは0.853、LVOTデータセットでは0.611という繰り返しポイントゲームスコアに達することで、他のサリエンシ検出器よりも大幅に向上している。

Medical image quality assessment is an important aspect of image acquisition, as poor-quality images may lead to misdiagnosis. Manual labelling of image quality is a tedious task for population studies and can lead to misleading results. While much research has been done on automated analysis of image quality to address this issue, relatively little work has been done to explain the methodologies. In this work, we propose an explainable image quality assessment system and validate our idea on two different objectives which are foreign object detection on Chest X-Rays (Object-CXR) and Left Ventricular Outflow Tract (LVOT) detection on Cardiac Magnetic Resonance (CMR) volumes. We apply a variety of techniques to measure the faithfulness of the saliency detectors, and our explainable pipeline relies on NormGrad, an algorithm which can efficiently localise image quality issues with saliency maps of the classifier. We compare NormGrad with a range of saliency detection methods and illustrate its superior performance as a result of applying these methodologies for measuring the faithfulness of the saliency detectors. We see that NormGrad has significant gains over other saliency detectors by reaching a repeated Pointing Game score of 0.853 for Object-CXR and 0.611 for LVOT datasets.
翻訳日:2023-03-28 19:23:46 公開日:2023-03-25
# DBARF: 深いバンドル調整可能な一般化可能なニューラルラジアンス場

DBARF: Deep Bundle-Adjusting Generalizable Neural Radiance Fields ( http://arxiv.org/abs/2303.14478v1 )

ライセンス: Link先を確認
Yu Chen, Gim Hee Lee(参考訳) BARFやGARFといった最近の研究は、座標MLPに基づくニューラルラジアンス場(NeRF)で調整カメラのポーズを束ねることができる。 印象的な結果にもかかわらず、これらの手法はより複雑な3D CNNやトランスフォーマーアーキテクチャに基づく画像特徴抽出を必要とするGeneralizable NeRF(GeNeRF)には適用できない。 本稿ではまず,GeNeRFとカメラポーズを協調的に最適化することの難しさを分析し,さらにこれらの問題に対処するためのDBARFを提案する。 カメラのポーズを調整するDBARFは,コスト特性マップを暗黙のコスト関数として利用することで,自己監督的な方法でGeNeRFと共同で訓練することができる。 BARFとその追従作業は、シーンごとの最適化されたNeRFにのみ適用でき、前方のシーンを除いて正確な初期カメラポーズを必要とするが、本手法はシーン全体にわたって一般化でき、良好な初期化は不要である。 実世界のデータセットで評価した場合,DBARFの有効性と一般化能力を示す実験を行った。 我々のコードは \url{https://aibluefisher.github.io/dbarf} で入手できる。

Recent works such as BARF and GARF can bundle adjust camera poses with neural radiance fields (NeRF) which is based on coordinate-MLPs. Despite the impressive results, these methods cannot be applied to Generalizable NeRFs (GeNeRFs) which require image feature extractions that are often based on more complicated 3D CNN or transformer architectures. In this work, we first analyze the difficulties of jointly optimizing camera poses with GeNeRFs, and then further propose our DBARF to tackle these issues. Our DBARF which bundle adjusts camera poses by taking a cost feature map as an implicit cost function can be jointly trained with GeNeRFs in a self-supervised manner. Unlike BARF and its follow-up works, which can only be applied to per-scene optimized NeRFs and need accurate initial camera poses with the exception of forward-facing scenes, our method can generalize across scenes and does not require any good initialization. Experiments show the effectiveness and generalization ability of our DBARF when evaluated on real-world datasets. Our code is available at \url{https://aibluefisher.github.io/dbarf}.
翻訳日:2023-03-28 19:23:21 公開日:2023-03-25
# インフォームド・機械学習、中央集権性、cnn、関連する文書の検出、先住民の遺体の送還

Informed Machine Learning, Centrality, CNN, Relevant Document Detection, Repatriation of Indigenous Human Remains ( http://arxiv.org/abs/2303.14475v1 )

ライセンス: Link先を確認
Md Abul Bashar, Richi Nayak, Gareth Knapman, Paul Turnbull, Cressida Fforde(参考訳) オーストラリアや他のファースト・ネイションズ(英語版)の人々が直面している問題の中には、現在西欧の科学機関で開催されている先祖の遺体の送還がある。 1790年から1970年にかけて発行された科学その他の文献に、彼らの盗難、寄付、販売、または機関間の交換を記した情報を見つけることに大きく依存している。 本稿では,データ科学者と社会科学研究者によるRRR(Research, Reconcile, Renew Network)による共同研究について報告する。 関連するテキストの検索と意味解析のプロセスを自動化した機械学習ベースのソリューションの開発に,これまで取り組んできた成果について述べる。 分類モデル、特に深層学習に基づくモデルは、少量のラベル付き文書(関連性/非関連性)で訓練された場合、精度が低いことが知られている。 検出モデルの精度を向上させるため、専門家による文脈知識を用いたドキュメンタリーコンテンツを記述するインフォームドニューラルネットワーク(INN)モデルについて検討する。 証明研究においてRRRの専門家によって特定された概念的関連キーワードを使用して、モデルに特異性を提供するために、ラベル付き文書はわずかである。 以上の結果から,在来人類の国際商取引調査に関連する関連文書の同定に,イン・ネットワーク・モデルを用いた価値が確認できた。 実証分析により、このinnモデルは、大きなテキストコーパスから関連情報を抽出したい社会科学や人文科学の他の研究者によって一般化できることが示唆された。

Among the pressing issues facing Australian and other First Nations peoples is the repatriation of the bodily remains of their ancestors, which are currently held in Western scientific institutions. The success of securing the return of these remains to their communities for reburial depends largely on locating information within scientific and other literature published between 1790 and 1970 documenting their theft, donation, sale, or exchange between institutions. This article reports on collaborative research by data scientists and social science researchers in the Research, Reconcile, Renew Network (RRR) to develop and apply text mining techniques to identify this vital information. We describe our work to date on developing a machine learning-based solution to automate the process of finding and semantically analysing relevant texts. Classification models, particularly deep learning-based models, are known to have low accuracy when trained with small amounts of labelled (i.e. relevant/non-relevant) documents. To improve the accuracy of our detection model, we explore the use of an Informed Neural Network (INN) model that describes documentary content using expert-informed contextual knowledge. Only a few labelled documents are used to provide specificity to the model, using conceptually related keywords identified by RRR experts in provenance research. The results confirm the value of using an INN network model for identifying relevant documents related to the investigation of the global commercial trade in Indigenous human remains. Empirical analysis suggests that this INN model can be generalized for use by other researchers in the social sciences and humanities who want to extract relevant information from large textual corpora.
翻訳日:2023-03-28 19:23:02 公開日:2023-03-25
# Chat-REC: インタラクティブで説明可能なLLM-Augmented Recommenderシステムを目指して

Chat-REC: Towards Interactive and Explainable LLMs-Augmented Recommender System ( http://arxiv.org/abs/2303.14524v1 )

ライセンス: Link先を確認
Yunfan Gao, Tao Sheng, Youlin Xiang, Yun Xiong, Haofen Wang, Jiawei Zhang(参考訳) 大規模言語モデル(llm)は、様々なアプリケーションタスクに適用される重要な可能性を実証している。 しかし、従来のレコメンデータシステムは、対話性や説明可能性の低下といった大きな課題に直面し続けており、現実のシステムへの広範な展開を妨げている。 これらの制約に対処するために,ユーザプロファイルと過去のインタラクションをプロンプトに変換することで,LLMを革新的に拡張するChat-Rec(ChatGPT Augmented Recommender System)という新しいパラダイムを提案する。 Chat-Recは、ユーザの好みを学習し、コンテキスト内学習を通じてユーザと製品間のつながりを確立するのに効果的であることが示されている。 さらに、Chat-Recフレームワーク内では、ユーザの好みはドメイン横断のレコメンデーションのために異なる製品に転送でき、LSMへの情報インジェクションのプロンプトベースのインジェクションは、新しいアイテムでコールドスタートシナリオを処理することもできる。 実験では、chat-recはトップk推薦の結果を効果的に改善し、ゼロショット評価の予測タスクをより良くする。 Chat-Recはレコメンダシステムを改善するための新しいアプローチを提供し、レコメンダシステム研究にAIGC(AI生成コンテンツ)を実装するための新しい実践シナリオを提供する。

Large language models (LLMs) have demonstrated their significant potential to be applied for addressing various application tasks. However, traditional recommender systems continue to face great challenges such as poor interactivity and explainability, which actually also hinder their broad deployment in real-world systems. To address these limitations, this paper proposes a novel paradigm called Chat-Rec (ChatGPT Augmented Recommender System) that innovatively augments LLMs for building conversational recommender systems by converting user profiles and historical interactions into prompts. Chat-Rec is demonstrated to be effective in learning user preferences and establishing connections between users and products through in-context learning, which also makes the recommendation process more interactive and explainable. What's more, within the Chat-Rec framework, user's preferences can transfer to different products for cross-domain recommendations, and prompt-based injection of information into LLMs can also handle the cold-start scenarios with new items. In our experiments, Chat-Rec effectively improve the results of top-k recommendations and performs better in zero-shot rating prediction task. Chat-Rec offers a novel approach to improving recommender systems and presents new practical scenarios for the implementation of AIGC (AI generated content) in recommender system studies.
翻訳日:2023-03-28 19:16:18 公開日:2023-03-25
# コンテキストの問題: 文法の適応的変異

Context Matters: Adaptive Mutation for Grammars ( http://arxiv.org/abs/2303.14522v1 )

ライセンス: Link先を確認
Pedro Carvalho and Jessica M\'egane and Nuno Louren\c{c}o and Penousal Machado(参考訳) 本研究では、構造文法進化(Structured Grammatical Evolution, SGE)の自己適応突然変異法である適応ファシリテート変異(Adaptive Facilitated Mutation)を提案する。 SGEでは、個人の遺伝子型は、検索空間を定義する文法の各非末端の一覧を含む。 提案する突然変異では、各個体は非終端点ごとに異なる自己適応的突然変異率を持つ配列を含む。 また,提案した突然変異の利点を高めるため,文法設計手法であるFunction Grouped Grammarsを提案する。 SGEの変種である確率的構造文法進化(PSGE)を用いた3つのシンボリック回帰ベンチマーク実験を行った。 その結果、標準文法や突然変異と比較すると、我々のアプローチは似ているか良いかが分かる。

This work proposes Adaptive Facilitated Mutation, a self-adaptive mutation method for Structured Grammatical Evolution (SGE), biologically inspired by the theory of facilitated variation. In SGE, the genotype of individuals contains a list for each non-terminal of the grammar that defines the search space. In our proposed mutation, each individual contains an array with a different, self-adaptive mutation rate for each non-terminal. We also propose Function Grouped Grammars, a grammar design procedure, to enhance the benefits of the proposed mutation. Experiments were conducted on three symbolic regression benchmarks using Probabilistic Structured Grammatical Evolution (PSGE), a variant of SGE. Results show our approach is similar or better when compared with the standard grammar and mutation.
翻訳日:2023-03-28 19:15:52 公開日:2023-03-25
# マルチスペクトル衛星画像による廃棄物の検出と変化解析

Waste Detection and Change Analysis based on Multispectral Satellite Imagery ( http://arxiv.org/abs/2303.14521v1 )

ライセンス: Link先を確認
D\'avid Magyar, M\'at\'e Cser\'ep, Zolt\'an Vincell\'er, Attila D. Moln\'ar(参考訳) この時代の最大の環境問題の一つは、森林、川、川岸などの密集地における不法埋立地の増加である。 また, 河川の廃棄物は, 沿岸部だけでなく下流部にも被害をもたらす。 廃棄物の大きな島は、水力発電所やダムでも形成でき、流れ続けると、川に沿った自然環境にさらに被害を与える可能性がある。 近年の研究では、河川が海洋環境におけるプラスチック汚染の主な原因であることを証明している。 したがって, 廃棄物の有効収集には潜在的な危険源のモニタリングが重要である。 本研究は, ホットスポット(不法廃棄物捨て場)の同定と水面河川ブロックの同定の2つの可能性について分析した。 データソースとして中分解能・高分解能衛星画像を用い,特にチサ川を研究エリアとして活用した。 衛星画像と機械学習を用いることで, 検出した廃棄物の変化を検知し, 監視することが可能であることが判明した。

One of the biggest environmental problems of our time is the increase in illegal landfills in forests, rivers, on river banks and other secluded places. In addition, waste in rivers causes damage not only locally, but also downstream, both in the water and washed ashore. Large islands of waste can also form at hydroelectric power stations and dams, and if they continue to flow, they can cause further damage to the natural environment along the river. Recent studies have also proved that rivers are the main source of plastic pollution in marine environments. Monitoring potential sources of danger is therefore highly important for effective waste collection for related organizations. In our research we analyze two possible forms of waste detection: identification of hot-spots (i.e. illegal waste dumps) and identification of water-surface river blockages. We used medium to high-resolution multispectral satellite imagery as our data source, especially focusing on the Tisza river as our study area. We found that using satellite imagery and machine learning are viable to locate and to monitor the change of the previously detected waste.
翻訳日:2023-03-28 19:15:39 公開日:2023-03-25
# ベイズニューラルネットワークを用いた確率モデル予測制御

Stochastic Model Predictive Control Utilizing Bayesian Neural Networks ( http://arxiv.org/abs/2303.14519v1 )

ライセンス: Link先を確認
J. Pohlodek, H. Alsmeier, B. Morabito, C. Schlauch, A. Savchenko, and R. Findeisen(参考訳) 計測と履歴データの統合は、学習に基づく技術によって制御システムを強化するが、パフォーマンスと安全性の確保は困難である。 確率モデル予測制御のようなロバストモデル予測制御戦略は、不確実性を考慮してこの問題に対処することができる。 ガウス過程はよく用いられるが、より大きなモデルやデータセットに制限がある。 確率論的学習支援制御のためのベイズニューラルネットワークを探索し,その性能を排水処理プラントモデル上のガウス過程と比較した。 その結果、ベイジアンニューラルネットワークは同様のパフォーマンスを実現しており、特に広範なデータセットを扱う場合、制御設計の代替としての可能性を強調している。

Integrating measurements and historical data can enhance control systems through learning-based techniques, but ensuring performance and safety is challenging. Robust model predictive control strategies, like stochastic model predictive control, can address this by accounting for uncertainty. Gaussian processes are often used but have limitations with larger models and data sets. We explore Bayesian neural networks for stochastic learning-assisted control, comparing their performance to Gaussian processes on a wastewater treatment plant model. Results show Bayesian neural networks achieve similar performance, highlighting their potential as an alternative for control designs, particularly when handling extensive data sets.
翻訳日:2023-03-28 19:15:21 公開日:2023-03-25
# 文BERTとFastGANによるインドネシア語テキスト・画像合成

Indonesian Text-to-Image Synthesis with Sentence-BERT and FastGAN ( http://arxiv.org/abs/2303.14517v1 )

ライセンス: Link先を確認
Made Raharja Surya Mahadi and Nugraha Priya Utama(参考訳) 現在、テキスト・ツー・イメージ合成はテキストエンコーダと画像生成アーキテクチャを使用している。 この話題の研究は困難である。 これは、自然言語とビジョンのドメイン間ギャップが原因です。 現在、この話題に関するほとんどの研究は、写真リアリスティックな画像のみに焦点が当てられているが、この場合の他の領域は、あまり集中していない言語である。 現在の研究の多くは英語を入力テキストとして使っている。 また、世界中に多くの言語がある。 バハサ・インドネシア語はインドネシアの公用語であり、非常に人気がある。 この言語は、フィリップス、オーストラリア、日本で教えられている。 新しいデータセットを良質な別の言語に翻訳したり再作成したりすると、多くのコストがかかります。 この領域の研究は、フォトリアリスティックな画像を生成する以外に、他の言語で画像生成がどのように機能するかを調べる必要があるためである。 これを実現するために、Google翻訳と人手による手作業でCUBデータセットをバハサに翻訳する。 我々はSentence BERTをテキストエンコーダとして、FastGANをイメージジェネレータとして使用します。 FastGANは多くのスキップ励起モジュールとオートエンコーダを使用して解像度512x512x3の画像を生成しており、これは現在の最先端モデル(Zhang, Xu, Li, Zhang, Wang, Huang, Metaxas, 2019)の2倍の大きさである。 また、4.76 +- 0.43 と 46.401 はそれぞれインセプションスコアと fr\'echet インセプション距離を持ち、現在の英語テキストから画像への生成モデルに匹敵する。 平均評価スコアは5点中3.22点であり、これは生成した画像が人間に受け入れられることを意味する。 ソースコードへのリンク:https://github.com/share424/Indonesian-Text-to-Image- synthesis-with-Sentence-BERT-and-FastGAN

Currently, text-to-image synthesis uses text encoder and image generator architecture. Research on this topic is challenging. This is because of the domain gap between natural language and vision. Nowadays, most research on this topic only focuses on producing a photo-realistic image, but the other domain, in this case, is the language, which is less concentrated. A lot of the current research uses English as the input text. Besides, there are many languages around the world. Bahasa Indonesia, as the official language of Indonesia, is quite popular. This language has been taught in Philipines, Australia, and Japan. Translating or recreating a new dataset into another language with good quality will cost a lot. Research on this domain is necessary because we need to examine how the image generator performs in other languages besides generating photo-realistic images. To achieve this, we translate the CUB dataset into Bahasa using google translate and manually by humans. We use Sentence BERT as the text encoder and FastGAN as the image generator. FastGAN uses lots of skip excitation modules and auto-encoder to generate an image with resolution 512x512x3, which is twice as bigger as the current state-of-the-art model (Zhang, Xu, Li, Zhang, Wang, Huang and Metaxas, 2019). We also get 4.76 +- 0.43 and 46.401 on Inception Score and Fr\'echet inception distance, respectively, and comparable with the current English text-to-image generation models. The mean opinion score also gives as 3.22 out of 5, which means the generated image is acceptable by humans. Link to source code: https://github.com/share424/Indonesian-Text-to-Image-synthesis-with-Sentence-BERT-and-FastGAN
翻訳日:2023-03-28 19:15:11 公開日:2023-03-25
# OVeNet:セマンティックセグメンテーションのためのオフセットベクトルネットワーク

OVeNet: Offset Vector Network for Semantic Segmentation ( http://arxiv.org/abs/2303.14516v1 )

ライセンス: Link先を確認
Stamatis Alexandropoulos, Christos Sakaridis and Petros Maragos(参考訳) セマンティックセグメンテーションは視覚的シーン理解の基本的な課題である。 我々は、基幹構文のセマンティックアノテーションが利用できる教師付き設定に焦点を当てる。 実世界のシーンの高規則性に関する知識に基づいて,近隣の画素からの情報を選択的に活用することを学ぶことによって,クラス予測を改善する手法を提案する。 特に,本手法は,各画素に対して,その近傍に同じ予測値を共有するシードピクセルが存在することに基づく。 そこで本研究では,新たな2つのヘッドネットワークであるoffset vector network (ovenet) を設計し,各画素から各シード画素へのオフセットを示す2次元オフセットベクトルフィールドと標準意味予測を生成する。 予測オフセットベクトル場に対する学習密度信頼度マップを用いて、2つの予測を各画素で適応的に融合する。 シードベース予測の最適化と信頼度マップの新たな損失により,オフセットベクトルを間接的に監視する。 OVeNetが構築されているHRNetとHRNet+OCRのベースラインアーキテクチャと比較して、後者は運転シーン、すなわちCityscapesとACDCのセマンティックセグメンテーションのための2つの顕著なベンチマークにおいて、大幅なパフォーマンス向上を実現している。 コードはhttps://github.com/stamatisalex/OVeNetで入手できる。

Semantic segmentation is a fundamental task in visual scene understanding. We focus on the supervised setting, where ground-truth semantic annotations are available. Based on knowledge about the high regularity of real-world scenes, we propose a method for improving class predictions by learning to selectively exploit information from neighboring pixels. In particular, our method is based on the prior that for each pixel, there is a seed pixel in its close neighborhood sharing the same prediction with the former. Motivated by this prior, we design a novel two-head network, named Offset Vector Network (OVeNet), which generates both standard semantic predictions and a dense 2D offset vector field indicating the offset from each pixel to the respective seed pixel, which is used to compute an alternative, seed-based semantic prediction. The two predictions are adaptively fused at each pixel using a learnt dense confidence map for the predicted offset vector field. We supervise offset vectors indirectly via optimizing the seed-based prediction and via a novel loss on the confidence map. Compared to the baseline state-of-the-art architectures HRNet and HRNet+OCR on which OVeNet is built, the latter achieves significant performance gains on two prominent benchmarks for semantic segmentation of driving scenes, namely Cityscapes and ACDC. Code is available at https://github.com/stamatisalex/OVeNet
翻訳日:2023-03-28 19:14:40 公開日:2023-03-25
# 対向訓練によるジェットタグ付けアルゴリズムのロバスト性向上:損失面の探索

Improving robustness of jet tagging algorithms with adversarial training: exploring the loss surface ( http://arxiv.org/abs/2303.14511v1 )

ライセンス: Link先を確認
Annika Stein(参考訳) 高エネルギー物理学の分野では、ディープラーニングアルゴリズムは、希少な信号の識別や複雑なパターンの発見など、従来の手法よりも高い信頼性と性能を提供する。 アナリストの観点からは、可能な限り高い性能が得られることが望ましいが、近年は、入力特徴のわずかな歪みの下で、モデルがいかにうまく機能するかを調べるために、モデルの堅牢性の研究に注目が向けられている。 特に多くの(低レベルの)入力を含むタスクでは、ディープニューラルネットワークの適用が新たな課題をもたらす。 ジェットフレーバータグの文脈では、逆攻撃は典型的な分類器の脆弱性を探索するために使用され、系統的不確実性のモデルとして理解することができる。 対応する防御戦略、敵の訓練は、高い性能を維持しながら堅牢性を向上する。 入力とモデルに対応する損失面の調査は、相関を考慮したロバスト性の幾何学的解釈を明らかにする。

In the field of high-energy physics, deep learning algorithms continue to gain in relevance and provide performance improvements over traditional methods, for example when identifying rare signals or finding complex patterns. From an analyst's perspective, obtaining highest possible performance is desirable, but recently, some attention has been shifted towards studying robustness of models to investigate how well these perform under slight distortions of input features. Especially for tasks that involve many (low-level) inputs, the application of deep neural networks brings new challenges. In the context of jet flavor tagging, adversarial attacks are used to probe a typical classifier's vulnerability and can be understood as a model for systematic uncertainties. A corresponding defense strategy, adversarial training, improves robustness, while maintaining high performance. Investigating the loss surface corresponding to the inputs and models in question reveals geometric interpretations of robustness, taking correlations into account.
翻訳日:2023-03-28 19:14:13 公開日:2023-03-25
# LUTのDNNに向けて:複数のルックアップテーブルを用いた効率的な画像復元学習

Toward DNN of LUTs: Learning Efficient Image Restoration with Multiple Look-Up Tables ( http://arxiv.org/abs/2303.14506v1 )

ライセンス: Link先を確認
Jiacheng Li, Chang Chen, Zhen Cheng, Zhiwei Xiong(参考訳) エッジデバイスにおける高解像度スクリーンの普及は、効率的な画像復元アルゴリズムに対する強い需要を刺激する。 ルックアップテーブル(LUT)でディープラーニングモデルをキャッシュする方法は最近、この需要に対応するために導入されている。 しかし、単一のLUTのサイズはインデックス化能力の増大とともに指数関数的に増加し、受容場や性能が制限される。 単一LUT解の本質的な制限を克服するために,Mulitと呼ばれるニューラルネットワークのような複数のLUTを構築する普遍的な手法を提案する。 まず,複数のLUTを並列に構築するために,新しい補完的な索引付けパターンと任意のパターンの汎用実装を考案する。 次に,カスケードlut間の階層インデックス化を可能にする再インデックス機構を提案する。 最後に,チャネル間インタラクションを可能にするためにチャネルインデックスを導入し,lutがカラーチャネルを共同で処理できるようにする。 これらの原理的な方法では、 MuLUT の総サイズはインデックス化能力に線形であり、拡張された受容場において優れた性能を得るための実用的な解が得られる。 我々は,超解像,復調,復調,遮蔽といった様々な画像復元作業における MuLUT の利点を検討する。 mulutは、スーパーレゾリューションでは最大1.1dbpsnr、グレースケールでは2.8dbpsnr、軽量のディープニューラルネットワークに比べて100$\times$少ない効率を維持しながら、シングルlutソリューションを大幅に改善している。 私たちのコードとトレーニングされたモデルはhttps://github.com/ddlee-cn/MuLUT.comで公開されています。

The widespread usage of high-definition screens on edge devices stimulates a strong demand for efficient image restoration algorithms. The way of caching deep learning models in a look-up table (LUT) is recently introduced to respond to this demand. However, the size of a single LUT grows exponentially with the increase of its indexing capacity, which restricts its receptive field and thus the performance. To overcome this intrinsic limitation of the single-LUT solution, we propose a universal method to construct multiple LUTs like a neural network, termed MuLUT. Firstly, we devise novel complementary indexing patterns, as well as a general implementation for arbitrary patterns, to construct multiple LUTs in parallel. Secondly, we propose a re-indexing mechanism to enable hierarchical indexing between cascaded LUTs. Finally, we introduce channel indexing to allow cross-channel interaction, enabling LUTs to process color channels jointly. In these principled ways, the total size of MuLUT is linear to its indexing capacity, yielding a practical solution to obtain superior performance with the enlarged receptive field. We examine the advantage of MuLUT on various image restoration tasks, including super-resolution, demosaicing, denoising, and deblocking. MuLUT achieves a significant improvement over the single-LUT solution, e.g., up to 1.1dB PSNR for super-resolution and up to 2.8dB PSNR for grayscale denoising, while preserving its efficiency, which is 100$\times$ less in energy cost compared with lightweight deep neural networks. Our code and trained models are publicly available at https://github.com/ddlee-cn/MuLUT.
翻訳日:2023-03-28 19:13:57 公開日:2023-03-25
# 先行学習のない単一スパース点雲からの符号付き距離関数の教師なし推定

Unsupervised Inference of Signed Distance Functions from Single Sparse Point Clouds without Learning Priors ( http://arxiv.org/abs/2303.14505v1 )

ライセンス: Link先を確認
Chao Chen, Yu-Shen Liu, Zhizhong Han(参考訳) 3次元点雲から符号付き距離関数(SDF)を推測することは不可欠である。 最新の手法は、大規模監視から学んだ事前の一般化に依存している。 しかし、学習した先行情報は、訓練中に見えない様々な幾何学的変動、特に極端に粗い点雲に対してうまく一般化しない。 この問題を解決するために,サイン付き距離監視や学習先行,さらには正規化を使わずに,単一スパース点雲から直接SDFを推定するニューラルネットワークを提案する。 ここでの洞察は、表面パラメータ化とsdfs推論をエンドツーエンドで学ぶことです。 パラメータ化表面を粗い表面サンプリング器として利用して、トレーニング繰り返しにおける粗い表面推定を多数提供し、その監視と薄板スプライン(TPS)に基づくネットワークは、統計的にSDFをスムーズな関数として推定する。 本手法は,雲の一般化能力と精度を大幅に向上させる。 私たちの実験結果は、合成データセットと実際のスキャンによるスパースポイント雲の表面再構成における最先端の手法よりも、我々の利点を示しています。

It is vital to infer signed distance functions (SDFs) from 3D point clouds. The latest methods rely on generalizing the priors learned from large scale supervision. However, the learned priors do not generalize well to various geometric variations that are unseen during training, especially for extremely sparse point clouds. To resolve this issue, we present a neural network to directly infer SDFs from single sparse point clouds without using signed distance supervision, learned priors or even normals. Our insight here is to learn surface parameterization and SDFs inference in an end-to-end manner. To make up the sparsity, we leverage parameterized surfaces as a coarse surface sampler to provide many coarse surface estimations in training iterations, according to which we mine supervision and our thin plate splines (TPS) based network infers SDFs as smooth functions in a statistical way. Our method significantly improves the generalization ability and accuracy in unseen point clouds. Our experimental results show our advantages over the state-of-the-art methods in surface reconstruction for sparse point clouds under synthetic datasets and real scans.The code is available at \url{https://github.com/chenchao15/NeuralTPS}.
翻訳日:2023-03-28 19:13:29 公開日:2023-03-25
# 流れ駆動型空間ネットワークのリンク予測

Link Prediction for Flow-Driven Spatial Networks ( http://arxiv.org/abs/2303.14501v1 )

ライセンス: Link先を確認
Bastian Wittmann, Johannes C. Paetzold, Chinmay Prabhakar, Daniel Rueckert, Bjoern Menze(参考訳) リンク予測アルゴリズムは、ネットワーク構造データにおけるノード間の接続の存在を予測し、通常、意味のある新しいリンクを提案してノード間の接続を洗練させる。 本研究では, ユークリッド空間に埋め込まれた流れ駆動型空間ネットワークのリンク予測に焦点をあて, 物理的交換・輸送プロセス(船舶内の血流, 道路ネットワーク内の交通流など)と関連付ける。 そこで我々は,グラフ注意ベクトル(GAV)リンク予測フレームワークを提案する。 GAVモデルは、空間ネットワークにおける物理フローのダイナミクスを、注意深い近隣認識メッセージパッシングパラダイムによって単純化し、ベクトル埋め込みを制約された方法で更新する。 全脳血管グラフと道路網から与えられた8つのフロー駆動型空間ネットワーク上でgavを評価する。 GAVはすべてのデータセットとメトリクスで優れたパフォーマンスを示し、ogbl-vesselベンチマークの現在の最先端を18%以上(98.38 vs. 83.07 AUC)上回っている。

Link prediction algorithms predict the existence of connections between nodes in network-structured data and are typically applied to refine the connectivity among nodes by proposing meaningful new links. In this work, we focus on link prediction for flow-driven spatial networks, which are embedded in a Euclidean space and relate to physical exchange and transportation processes (e.g., blood flow in vessels or traffic flow in road networks). To this end, we propose the Graph Attentive Vectors (GAV) link prediction framework. GAV models simplified dynamics of physical flow in spatial networks via an attentive, neighborhood-aware message-passing paradigm, updating vector embeddings in a constrained manner. We evaluate GAV on eight flow-driven spatial networks given by whole-brain vessel graphs and road networks. GAV demonstrates superior performances across all datasets and metrics and outperforms the current state-of-the-art on the ogbl-vessel benchmark by more than 18% (98.38 vs. 83.07 AUC).
翻訳日:2023-03-28 19:13:06 公開日:2023-03-25
# 画像生成のための生成逆数ネットワークにおける空間潜在表現

Spatial Latent Representations in Generative Adversarial Networks for Image Generation ( http://arxiv.org/abs/2303.14552v1 )

ライセンス: Link先を確認
Maciej Sypetkowski(参考訳) GANアーキテクチャの大多数では、潜在空間は与えられた次元のベクトルの集合として定義される。 このような表現は容易に解釈できず、画像コンテンツの空間情報を直接キャプチャすることができない。 本研究では,複数の顔の像や2つ以上の目を持つ顔の像などの対象部分の数や配置に関して,より詳細を把握し,サンプル外である画像を表現することのできる,StyleGAN2の空間潜在空間のファミリーを定義する。 本稿では,これらの空間で属性編集が可能な属性モデルとともに,画像の符号化手法を提案する。 我々の空間は画像操作や意味情報のエンコードに有効であることを示す。 提案手法は, 事前学習型ジェネレータモデルに応用でき, 属性版は, 実験への参入障壁と極めて低用量を実現するために, 事前生成方向ベクトルを用いて行うことができる。 本稿では,潜在空間の部分分布を等化し,生成する表現に非常に近い潜在表現を最適化するための正規化手法を提案する。 イメージを空間空間に符号化することで、セマンティクスと属性モデルをエディション目的に使用する能力を維持しながら、品質を大幅に向上させる。 総じて,本手法を用いることで,標準手法と比較してLPIPSスコアが最大30%向上しても,意味を保ちながら符号化品質が向上する。 さらに,我々の空間的潜在空間に対するstylegan2のトレーニング手順と,空間的潜在表現分布を組み合わせることで,表現の空間的近接要素をより遠方要素よりも互いに依存させる手法を提案する。 このアプローチは、SpaceNet上のFIDスコアを29%改善し、衛星画像のような空間的に均質なデータセット上で任意のサイズの一貫した画像を生成することができる。

In the majority of GAN architectures, the latent space is defined as a set of vectors of given dimensionality. Such representations are not easily interpretable and do not capture spatial information of image content directly. In this work, we define a family of spatial latent spaces for StyleGAN2, capable of capturing more details and representing images that are out-of-sample in terms of the number and arrangement of object parts, such as an image of multiple faces or a face with more than two eyes. We propose a method for encoding images into our spaces, together with an attribute model capable of performing attribute editing in these spaces. We show that our spaces are effective for image manipulation and encode semantic information well. Our approach can be used on pre-trained generator models, and attribute edition can be done using pre-generated direction vectors making the barrier to entry for experimentation and use extremely low. We propose a regularization method for optimizing latent representations, which equalizes distributions of parts of latent spaces, making representations much closer to generated ones. We use it for encoding images into spatial spaces to obtain significant improvement in quality while keeping semantics and ability to use our attribute model for edition purposes. In total, using our methods gives encoding quality boost even as high as 30% in terms of LPIPS score comparing to standard methods, while keeping semantics. Additionally, we propose a StyleGAN2 training procedure on our spatial latent spaces, together with a custom spatial latent representation distribution to make spatially closer elements in the representation more dependent on each other than farther elements. Such approach improves the FID score by 29% on SpaceNet, and is able to generate consistent images of arbitrary sizes on spatially homogeneous datasets, like satellite imagery.
翻訳日:2023-03-28 19:08:12 公開日:2023-03-25
# 多視点3次元物体検出のための視点等価性

Viewpoint Equivariance for Multi-View 3D Object Detection ( http://arxiv.org/abs/2303.14548v1 )

ライセンス: Link先を確認
Dian Chen, Jie Li, Vitor Guizilini, Rares Ambrus, Adrien Gaidon(参考訳) 視覚センサからの3d物体検出は、ロボットシステムの基本的な機能である。 最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に焦点を当てている。 本研究では3次元シーン理解と幾何学的学習における多視点一貫性の不可欠な役割から直感を得る。 そこで本稿では,3次元多視点幾何を活用し,視点認識と等分散による局所化を改善する,新しい3次元物体検出フレームワークであるveedetを紹介する。 vedetはクエリベースのトランスフォーマーアーキテクチャを利用し、画像の特徴を3dパースペクティブ幾何学から位置エンコーディングで拡張することで3dシーンをエンコードする。 出力レベルでのビュー条件付きクエリを設計し、トレーニング中に複数の仮想フレームを生成することで、複数ビューの一貫性を強制して視点の同値を学習する。 位置エンコーディングとして入力レベルで注入され、損失レベルで正規化される多視点幾何学は、3Dオブジェクト検出のためのリッチな幾何学的手がかりを提供する。 コードとモデルはhttps://github.com/tri-ml/vedetで入手できる。

3D object detection from visual sensors is a cornerstone capability of robotic systems. State-of-the-art methods focus on reasoning and decoding object bounding boxes from multi-view camera input. In this work we gain intuition from the integral role of multi-view consistency in 3D scene understanding and geometric learning. To this end, we introduce VEDet, a novel 3D object detection framework that exploits 3D multi-view geometry to improve localization through viewpoint awareness and equivariance. VEDet leverages a query-based transformer architecture and encodes the 3D scene by augmenting image features with positional encodings from their 3D perspective geometry. We design view-conditioned queries at the output level, which enables the generation of multiple virtual frames during training to learn viewpoint equivariance by enforcing multi-view consistency. The multi-view geometry injected at the input level as positional encodings and regularized at the loss level provides rich geometric cues for 3D object detection, leading to state-of-the-art performance on the nuScenes benchmark. The code and model are made available at https://github.com/TRI-ML/VEDet.
翻訳日:2023-03-28 19:07:41 公開日:2023-03-25
# グラフ上のトポロジカルプール

Topological Pooling on Graphs ( http://arxiv.org/abs/2303.14543v1 )

ライセンス: Link先を確認
Yuzhou Chen, Yulia R. Gel(参考訳) グラフニューラルネットワーク(GNN)は,グラフ分類から異常検出に至るまで,さまざまなグラフ学習タスクにおいて大きな成功を収めている。 近年,グラフ表現学習におけるグラフ属性と構造的特徴の保存を目標として,グラフプーリング操作をGNN内に導入するアプローチが数多く出現している。 しかし、既存のグラフプール操作の多くは、ノードワイドの重み付けと埋め込みに依存する限界に悩まされており、実際のネットワークで示されるリッチなトポロジ構造やノード属性の符号化が不十分である。 永続的ホモロジーの機械とランドマークの概念を駆使して,局所的およびグローバル的に隠れたトポロジ情報を体系的に統合する,新しいトポロジ的プール層と複合的なトポロジ的埋め込み機構を提案する。 具体的には,学習可能な局所的およびグローバルなトポロジ表現(Wit-TopoPool)を新たに設計し,グラフからリッチな識別的トポロジ情報を抽出する。 グラフ分類タスクと合わせて、18のベースラインモデルに対する11の多様なベンチマークデータセットの実験は、wit-topopoolがすべてのデータセットの競合相手を大きく上回っていることを示している。

Graph neural networks (GNNs) have demonstrated a significant success in various graph learning tasks, from graph classification to anomaly detection. There recently has emerged a number of approaches adopting a graph pooling operation within GNNs, with a goal to preserve graph attributive and structural features during the graph representation learning. However, most existing graph pooling operations suffer from the limitations of relying on node-wise neighbor weighting and embedding, which leads to insufficient encoding of rich topological structures and node attributes exhibited by real-world networks. By invoking the machinery of persistent homology and the concept of landmarks, we propose a novel topological pooling layer and witness complex-based topological embedding mechanism that allow us to systematically integrate hidden topological information at both local and global levels. Specifically, we design new learnable local and global topological representations Wit-TopoPool which allow us to simultaneously extract rich discriminative topological information from graphs. Experiments on 11 diverse benchmark datasets against 18 baseline models in conjunction with graph classification tasks indicate that Wit-TopoPool significantly outperforms all competitors across all datasets.
翻訳日:2023-03-28 19:07:13 公開日:2023-03-25
# UnScene3D: 屋内シーンのための教師なし3Dインスタンスセグメンテーション

UnScene3D: Unsupervised 3D Instance Segmentation for Indoor Scenes ( http://arxiv.org/abs/2303.14541v1 )

ライセンス: Link先を確認
David Rozenberszki, Or Litany, Angela Dai(参考訳) 3Dのインスタンスセグメンテーションは、私たちを取り巻く世界の幾何学的理解の基礎である。 既存の3Dシーンのセグメンテーションの方法は、高価な手作業による3Dアノテーションの監督に依存している。 室内スキャンのクラス非依存型3Dインスタンスセグメンテーションのための,初の教師なし3D学習手法UnScene3Dを提案する。 UnScene3Dは、自己監督色と幾何学的特徴を利用して、潜在的な対象領域を見つけることによって、まず擬似マスクを生成する。 高分解能な3次元データに基づく効率的な表現と学習を可能にする。 粗い提案は、予測に基づいてモデルを自己学習することで洗練されます。 提案手法は,教師なしの3dインスタンスセグメンテーション手法を300%以上の精度スコアで改善し,難易度の高い3dシーンにおいても効果的なインスタンスセグメンテーションを示す。

3D instance segmentation is fundamental to geometric understanding of the world around us. Existing methods for instance segmentation of 3D scenes rely on supervision from expensive, manual 3D annotations. We propose UnScene3D, the first fully unsupervised 3D learning approach for class-agnostic 3D instance segmentation of indoor scans. UnScene3D first generates pseudo masks by leveraging self-supervised color and geometry features to find potential object regions. We operate on a basis of geometric oversegmentation, enabling efficient representation and learning on high-resolution 3D data. The coarse proposals are then refined through self-training our model on its predictions. Our approach improves over state-of-the-art unsupervised 3D instance segmentation methods by more than 300% Average Precision score, demonstrating effective instance segmentation even in challenging, cluttered 3D scenes.
翻訳日:2023-03-28 19:06:35 公開日:2023-03-25
# 量子系の非マルコビアン性とダイナミクスの相互作用

Interplay between Non-Markovianity of Noise and Dynamics in Quantum Systems ( http://arxiv.org/abs/2303.14538v1 )

ライセンス: Link先を確認
Arzu Kurt(参考訳) オープン量子システムダイナミクスの非マルコフ性は、しばしばシステムとその環境間の情報の双方向の交換と関連しており、様々な量子情報タスクのリソースであると考えられている。 本研究では,連続時間ランダム歩行型騒音が駆動する2状態系のダイナミクスの非マルコフ性について検討した。 雑音の非マルコフ性と力学の相互作用を調べるために, 識別性, トレース距離, エントロピーに基づく非マルコフ性測度の正確な解析式が得られた。 その結果、多くの場合、ノイズが非マルコフであるとき、ダイナミクスも非マルコフであることがわかった。 しかし、マルコフ雑音が非マルコフダイナミクスを引き起こすことは可能であり、非マルコフノイズがマルコフダイナミクスを引き起こすことはあるパラメータ値に対してのみ可能である。

The non-Markovianity of open quantum system dynamics is often associated with the bidirectional interchange of information between the system and its environment, and it is thought to be a resource for various quantum information tasks. We have investigated the non-Markovianity of the dynamics of a two-state system driven by continuous time random walk-type noise, which can be Markovian or non-Markovian depending on its residence time distribution parameters. Exact analytical expressions for the distinguishability as well as the trace distance and entropy-based non-Markovianity measures are obtained and used to investigate the interplay between the non-Markovianity of the noise and that of dynamics. Our results show that, in many cases, the dynamics are also non-Markovian when the noise is non-Markovian. However, it is possible for Markovian noise to cause non-Markovian dynamics and for non-Markovian noise to cause Markovian dynamics but only for certain parameter values.
翻訳日:2023-03-28 19:06:10 公開日:2023-03-25
# Deep Augmentation: より高い活動空間における変革による自己指導型学習の促進

Deep Augmentation: Enhancing Self-Supervised Learning through Transformations in Higher Activation Space ( http://arxiv.org/abs/2303.14537v1 )

ライセンス: Link先を確認
Rickard Br\"uel-Gabrielsson, Tongzhou Wang, Manel Baradad, Justin Solomon(参考訳) これは、ニューラルネットワーク内のターゲット層を動的に変換するためにドロップアウトを使用するデータ拡張へのアプローチであり、ストップグレード操作を使用するオプションを提供し、モデル性能と一般化を大幅に改善する。 コンピュータビジョンとnlpドメインにおけるコントラスト学習タスクに関する広範囲な実験を通じて、深い強化の効果を実証し、基礎となるモデルとしてresnetとtransformerによる実質的なパフォーマンス向上を観察した。 実験の結果,深層層を深く拡張することで入力データを強化し,ネットワークやデータに依存しないシンプルな手法により,コンピュータビジョンやnlpパイプラインへのシームレスな統合が可能となった。

We introduce Deep Augmentation, an approach to data augmentation using dropout to dynamically transform a targeted layer within a neural network, with the option to use the stop-gradient operation, offering significant improvements in model performance and generalization. We demonstrate the efficacy of Deep Augmentation through extensive experiments on contrastive learning tasks in computer vision and NLP domains, where we observe substantial performance gains with ResNets and Transformers as the underlying models. Our experimentation reveals that targeting deeper layers with Deep Augmentation outperforms augmenting the input data, and the simple network- and data-agnostic nature of this approach enables its seamless integration into computer vision and NLP pipelines.
翻訳日:2023-03-28 19:05:53 公開日:2023-03-25
# SUDS: スケーラブルな都市ダイナミックシーン

SUDS: Scalable Urban Dynamic Scenes ( http://arxiv.org/abs/2303.14536v1 )

ライセンス: Link先を確認
Haithem Turki, Jason Y. Zhang, Francesco Ferroni, Deva Ramanan(参考訳) 我々はニューラルラジアンス場(NeRF)を大規模都市に拡張する。 以前の作業では、短い期間(最大10秒)の単一のビデオクリップを再構築する傾向がある。 そのような方法が2つの理由 (a)個別のモデルが構築されているため、移動物体数や入力映像数と線形にスケールする傾向がある。 b) 手動またはカテゴリー別モデルを用いて取得した3Dバウンディングボックスやパノプティカルラベルによる監視を必要とする傾向にある。 ダイナミックシティの真のオープンワールド再構築に向けたステップとして,2つの重要なイノベーションを紹介します。 a) シーンを3つのハッシュテーブルデータ構造に分解し,静的,動的,遠方フィールドの放射場を効率的にエンコードする。 b) RGB画像, スパースLiDAR, 市販の自己監督型2Dディスクリプタ, そして最も重要な2D光流からなる未ラベルターゲット信号を利用する。 このような入力を測光的、幾何学的、特徴的再構成損失によって操作することで、SUDSは動的シーンを静的な背景、個々のオブジェクト、それらの動きに分解することができる。 マルチブランチのテーブル表現と組み合わせることで、1700本の動画から120万フレームにまたがる何万ものオブジェクトにスケールできるのです。 本研究では,動的都市シーンの新しい視点合成,教師なし3dインスタンスセグメンテーション,教師なし3d立方体検出など,様々なタスクについて質的初期結果を示す。 また,KITTIとVirtual KITTI 2についても,トレーニングの10倍の速さで3D境界ボックスアノテーションに依存する最先端の手法を超越した評価を行った。

We extend neural radiance fields (NeRFs) to dynamic large-scale urban scenes. Prior work tends to reconstruct single video clips of short durations (up to 10 seconds). Two reasons are that such methods (a) tend to scale linearly with the number of moving objects and input videos because a separate model is built for each and (b) tend to require supervision via 3D bounding boxes and panoptic labels, obtained manually or via category-specific models. As a step towards truly open-world reconstructions of dynamic cities, we introduce two key innovations: (a) we factorize the scene into three separate hash table data structures to efficiently encode static, dynamic, and far-field radiance fields, and (b) we make use of unlabeled target signals consisting of RGB images, sparse LiDAR, off-the-shelf self-supervised 2D descriptors, and most importantly, 2D optical flow. Operationalizing such inputs via photometric, geometric, and feature-metric reconstruction losses enables SUDS to decompose dynamic scenes into the static background, individual objects, and their motions. When combined with our multi-branch table representation, such reconstructions can be scaled to tens of thousands of objects across 1.2 million frames from 1700 videos spanning geospatial footprints of hundreds of kilometers, (to our knowledge) the largest dynamic NeRF built to date. We present qualitative initial results on a variety of tasks enabled by our representations, including novel-view synthesis of dynamic urban scenes, unsupervised 3D instance segmentation, and unsupervised 3D cuboid detection. To compare to prior work, we also evaluate on KITTI and Virtual KITTI 2, surpassing state-of-the-art methods that rely on ground truth 3D bounding box annotations while being 10x quicker to train.
翻訳日:2023-03-28 19:05:38 公開日:2023-03-25
# EfficientAD:ミリ秒レベルレイテンシにおける正確な視覚異常検出

EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies ( http://arxiv.org/abs/2303.14535v1 )

ライセンス: Link先を確認
Kilian Batzner, Lars Heckler, Rebecca K\"onig(参考訳) 画像中の異常を検出することは特にリアルタイムコンピュータビジョンアプリケーションにおいて重要な課題である。 本研究では,計算効率を重視し,最新のGPU上で1ミリ秒未満で画像を処理する軽量な特徴抽出器を提案する。 次に,生徒・教師のアプローチを用いて異常な特徴を検出する。 学生ネットワークを訓練し,正常,すなわち異常のないトレーニング画像から抽出された特徴を予測する。 テスト時の異常の検出は、生徒がその特徴を予測できないことによって可能となる。 本研究では,教師の特徴抽出器を通常の画像を超えて模倣することを妨げる訓練損失を提案する。 これにより、異常な特徴の検出を改善しつつ、学生-教師モデルの計算コストを大幅に削減できる。 さらに,通常の局所的特徴の無効な組み合わせ,例えば,オブジェクトの誤った順序付けを含む,難しい論理異常の検出にも対処する。 画像解析を行うオートエンコーダを効率良く組み込んで,これらの異常を検出する。 3つの産業的異常検出データセットから抽出した32個のデータセットからEfficientADという手法を評価した。 EfficientADは、異常の検出とローカライゼーションの両方のための新しい標準を設定する。 2ミリ秒のレイテンシと毎秒600イメージのスループットで、異常の高速処理を可能にする。 エラー率の低さとともに、実世界のアプリケーションにとって経済的な解決策となり、将来の研究に実りある基礎となる。

Detecting anomalies in images is an important task, especially in real-time computer vision applications. In this work, we focus on computational efficiency and propose a lightweight feature extractor that processes an image in less than a millisecond on a modern GPU. We then use a student-teacher approach to detect anomalous features. We train a student network to predict the extracted features of normal, i.e., anomaly-free training images. The detection of anomalies at test time is enabled by the student failing to predict their features. We propose a training loss that hinders the student from imitating the teacher feature extractor beyond the normal images. It allows us to drastically reduce the computational cost of the student-teacher model, while improving the detection of anomalous features. We furthermore address the detection of challenging logical anomalies that involve invalid combinations of normal local features, for example, a wrong ordering of objects. We detect these anomalies by efficiently incorporating an autoencoder that analyzes images globally. We evaluate our method, called EfficientAD, on 32 datasets from three industrial anomaly detection dataset collections. EfficientAD sets new standards for both the detection and the localization of anomalies. At a latency of two milliseconds and a throughput of six hundred images per second, it enables a fast handling of anomalies. Together with its low error rate, this makes it an economical solution for real-world applications and a fruitful basis for future research.
翻訳日:2023-03-28 19:05:05 公開日:2023-03-25
# SIO: アウト・オブ・ディストリビューション検出のための合成イン・ディストリビューションデータ

SIO: Synthetic In-Distribution Data Benefits Out-of-Distribution Detection ( http://arxiv.org/abs/2303.14531v1 )

ライセンス: Link先を確認
Jingyang Zhang, Nathan Inkawhich, Randolph Linderman, Ryan Luley, Yiran Chen, Hai Li(参考訳) 信頼性の高いアウト・オブ・ディストリビューション(OOD)検出器の構築は困難であり、しばしばトレーニング中にOODデータを使用する必要がある。 本研究では,外部のoodデータを使用する代わりに,生成モデルを用いて新たな合成id画像を生成することで,内部分散(id)トレーニングセットを十分に活用する。 分類器は、実および合成IDサンプルの重み付け損失を計算する新しい目的を用いて訓練される。 我々のトレーニングフレームワークは、SIOと呼ばれており、利用可能なOODトレーニングデータを含む、既存のおよび将来のOOD検出アルゴリズムと互換性があるように設計された「プラグ・アンド・プレイ」技術として機能します。 CIFAR-10, CIFAR-100, ImageNet による実験により, SIO がほぼすべてのSOTA(State-of-the-art) OOD 検出アルゴリズムの性能を一貫して向上することを示した。 例えば、CIFAR-10対CIFAR-100検出問題において、SIOは18の既存メソッドの平均OOD検出AUROCを86.25\%から89.04\%に改善し、OpenOODベンチマークによると92.94\%の新しいSOTAを達成する。 コードはhttps://github.com/zjysteven/SIOで入手できる。

Building up reliable Out-of-Distribution (OOD) detectors is challenging, often requiring the use of OOD data during training. In this work, we develop a data-driven approach which is distinct and complementary to existing works: Instead of using external OOD data, we fully exploit the internal in-distribution (ID) training set by utilizing generative models to produce additional synthetic ID images. The classifier is then trained using a novel objective that computes weighted loss on real and synthetic ID samples together. Our training framework, which is termed SIO, serves as a "plug-and-play" technique that is designed to be compatible with existing and future OOD detection algorithms, including the ones that leverage available OOD training data. Our experiments on CIFAR-10, CIFAR-100, and ImageNet variants demonstrate that SIO consistently improves the performance of nearly all state-of-the-art (SOTA) OOD detection algorithms. For instance, on the challenging CIFAR-10 v.s. CIFAR-100 detection problem, SIO improves the average OOD detection AUROC of 18 existing methods from 86.25\% to 89.04\% and achieves a new SOTA of 92.94\% according to the OpenOOD benchmark. Code is available at https://github.com/zjysteven/SIO.
翻訳日:2023-03-28 19:04:45 公開日:2023-03-25
# 長期ビデオ理解のための選択的構造化状態空間

Selective Structured State-Spaces for Long-Form Video Understanding ( http://arxiv.org/abs/2303.14526v1 )

ライセンス: Link先を確認
Jue Wang, Wentao Zhu, Pichao Wang, Xiang Yu, Linda Liu, Mohamed Omar, Raffay Hamid(参考訳) 長期ビデオにおける複雑な時空間依存性の効果的なモデリングは未解決の問題である。 最近提案された構造化状態空間列(s4)モデルとその線形複雑性は、この空間において有望な方向を与える。 しかし,S4モデルが行うように,全ての画像の処理が効率や精度に悪影響を及ぼすことを示した。 この制限に対処するため、軽量マスク生成器を用いて情報化画像トークンを適応的に選択するSelective S4(S5)モデルを提案する。 従来の変圧器用マスク式トークン削減法とは異なり,s5モデルは運動量更新型s4モデルの誘導を用いることで,密集した自己着線計算を回避している。 これにより,より少ないインフォメーショントークンを効率的に破棄し,様々な長文映像理解タスクをより効果的に適応できる。 しかし、ほとんどのトークン削減メソッドの場合と同様に、インフォメーションイメージトークンは誤って削除される可能性がある。 このモデルのロバスト性と時間軸を改善するために,我々は,短い入力ビデオを用いてより長い時間的文脈を予測できる,新しいlsmcl(long-short masked contrastive learning)アプローチを提案する。 本稿では,3つの挑戦的長文ビデオ理解データセット(LVU,COIN,Breakfast)を用いて,従来のS4モデルの精度を最大9.6%向上し,メモリフットプリントを23%削減することを示す。

Effective modeling of complex spatiotemporal dependencies in long-form videos remains an open problem. The recently proposed Structured State-Space Sequence (S4) model with its linear complexity offers a promising direction in this space. However, we demonstrate that treating all image-tokens equally as done by S4 model can adversely affect its efficiency and accuracy. To address this limitation, we present a novel Selective S4 (i.e., S5) model that employs a lightweight mask generator to adaptively select informative image tokens resulting in more efficient and accurate modeling of long-term spatiotemporal dependencies in videos. Unlike previous mask-based token reduction methods used in transformers, our S5 model avoids the dense self-attention calculation by making use of the guidance of the momentum-updated S4 model. This enables our model to efficiently discard less informative tokens and adapt to various long-form video understanding tasks more effectively. However, as is the case for most token reduction methods, the informative image tokens could be dropped incorrectly. To improve the robustness and the temporal horizon of our model, we propose a novel long-short masked contrastive learning (LSMCL) approach that enables our model to predict longer temporal context using shorter input videos. We present extensive comparative results using three challenging long-form video understanding datasets (LVU, COIN and Breakfast), demonstrating that our approach consistently outperforms the previous state-of-the-art S4 model by up to 9.6% accuracy while reducing its memory footprint by 23%.
翻訳日:2023-03-28 19:04:22 公開日:2023-03-25
# DeepVecFont-v2: 高品質なベクトルフォントを合成するトランスフォーマーの爆発

DeepVecFont-v2: Exploiting Transformers to Synthesize Vector Fonts with Higher Quality ( http://arxiv.org/abs/2303.14585v1 )

ライセンス: Link先を確認
Yuqing Wang, Yizhi Wang, Longhui Yu, Yuesheng Zhu, Zhouhui Lian(参考訳) ベクトルフォント合成はコンピュータビジョンとコンピュータグラフィックスの分野で難しい問題であり、進行中の課題である。 最近発表されたdeepvecfontは、ベクターフォントの画像とシーケンスのモダリティの情報を活用し、最先端のパフォーマンスを実現している。 しかし、長いシーケンスデータを扱う能力は限られており、画像誘導のアウトラインリファインメント後処理に大きく依存している。 このように、DeepVecFontによって合成されたベクトルグリフは、しばしば歪みやアーティファクトを含んでおり、人間によって設計された結果と競合することができない。 本稿では,DeepVecFontの強化版について,以下の3つの技術貢献を主眼として提案する。 まず,逐次データを処理し,ベクトルアウトラインの緩和表現を設計するためにrnnではなくトランスフォーマティブを採用し,長大および複雑なアウトラインを合成するモデルの能力と安定性を著しく改善した。 第2に,生成および対象のb\'ezier曲線や直線を正確に整列する制御点に加えて,補助点のサンプリングを提案する。 最後に、逐次生成プロセスにおけるエラーの蓄積を軽減するために、他のTransformerベースのデコーダに基づくコンテキストベースの自己精製モジュールを開発し、初期合成グリフのアーティファクトを除去する。 定性的かつ定量的な結果から,本手法は元々のdeepvecfontの持つ本質的問題を効果的に解決し,複雑な構造と多様なスタイルを持つ英語および中国語のベクトルフォントを生成する既存のアプローチを上回った。

Vector font synthesis is a challenging and ongoing problem in the fields of Computer Vision and Computer Graphics. The recently-proposed DeepVecFont achieved state-of-the-art performance by exploiting information of both the image and sequence modalities of vector fonts. However, it has limited capability for handling long sequence data and heavily relies on an image-guided outline refinement post-processing. Thus, vector glyphs synthesized by DeepVecFont still often contain some distortions and artifacts and cannot rival human-designed results. To address the above problems, this paper proposes an enhanced version of DeepVecFont mainly by making the following three novel technical contributions. First, we adopt Transformers instead of RNNs to process sequential data and design a relaxation representation for vector outlines, markedly improving the model's capability and stability of synthesizing long and complex outlines. Second, we propose to sample auxiliary points in addition to control points to precisely align the generated and target B\'ezier curves or lines. Finally, to alleviate error accumulation in the sequential generation process, we develop a context-based self-refinement module based on another Transformer-based decoder to remove artifacts in the initially synthesized glyphs. Both qualitative and quantitative results demonstrate that the proposed method effectively resolves those intrinsic problems of the original DeepVecFont and outperforms existing approaches in generating English and Chinese vector fonts with complicated structures and diverse styles.
翻訳日:2023-03-28 18:57:41 公開日:2023-03-25
# 自然言語によるビデオ埋め込み空間の学習

Learning video embedding space with Natural Language Supervision ( http://arxiv.org/abs/2303.14584v1 )

ライセンス: Link先を確認
Phani Krishna Uppala, Shriti Priya, Vaidehi Joshi(参考訳) 最近のCLIPモデルの成功は、幅広いビジョンや言語タスクに適用できる可能性を示している。 しかし、これはビデオ領域ではなく、言語と画像の埋め込み空間関係を確立するだけである。 本稿では,映像の埋め込み空間を自然言語にマッピングする新しい手法を提案する。 まず,事前学習したcnnを用いて映像の各フレームから視覚特徴を抽出し,クリップモデルを用いて映像領域の視覚特徴と対応するテキスト記述をエンコードする2段階アプローチを提案する。 提案手法は,UCF101とHMDB51の2つのベンチマークデータセット上で評価し,両タスクの最先端性能を実現する。

The recent success of the CLIP model has shown its potential to be applied to a wide range of vision and language tasks. However this only establishes embedding space relationship of language to images, not to the video domain. In this paper, we propose a novel approach to map video embedding space to natural langugage. We propose a two-stage approach that first extracts visual features from each frame of a video using a pre-trained CNN, and then uses the CLIP model to encode the visual features for the video domain, along with the corresponding text descriptions. We evaluate our method on two benchmark datasets, UCF101 and HMDB51, and achieve state-of-the-art performance on both tasks.
翻訳日:2023-03-28 18:57:12 公開日:2023-03-25
# 代理モデルを用いたマルチタスク学習における負転移の同定

Identification of Negative Transfers in Multitask Learning Using Surrogate Models ( http://arxiv.org/abs/2303.14582v1 )

ライセンス: Link先を確認
Dongyue Li, Huy L. Nguyen, and Hongyang R. Zhang(参考訳) マルチタスク学習は、複数の関連するソースタスクで強化することで、低リソースのターゲットタスクのトレーニングに広く利用されている。 しかしながら、すべてのソースタスクとターゲットタスクをネイティブに組み合わせることで、負の転送による目標タスクの予測性能が必ずしも向上するとは限らない。 したがって、マルチタスク学習における重要な問題は、ターゲットタスクに有利なソースタスクのサブセットを特定することである。 サブセット選択のための効率的なヒューリスティックは、タスクサブセットとマルチタスク学習のパフォーマンスの関係を常に捉えているとは限らない。 本稿では,代理モデルを用いてこの問題に対処する効率的な手法を提案する。 シュロゲートモデリングでは、ソースタスクの(ランダムな)サブセットをサンプリングし、そのマルチタスク学習性能を事前計算し、次に、未確認タスクサブセットのマルチタスク性能を予測できる線形回帰モデルを用いて事前計算性能を近似する。 理論的および実証的に、このモデルに適合するには、ソースタスクの数で線形に多数のサブセットをサンプリングするだけでよいことを示します。 本モデルでは,各ソースタスクと対象タスクの関連スコアを提供し,その関連スコアを用いて,しきい値によるマルチタスク学習のサブセット選択を行う。 実験により,提案手法は既存のタスク親和性尺度よりもはるかに正確に,複数のタスクからの負の移動を予測できることを示す。 さらに,5つの弱い監視データセットに対して,マルチタスク学習のための既存の最適化手法を一貫して改善することを示す。

Multitask learning is widely used in practice to train a low-resource target task by augmenting it with multiple related source tasks. Yet, naively combining all the source tasks with a target task does not always improve the prediction performance for the target task due to negative transfers. Thus, a critical problem in multitask learning is identifying subsets of source tasks that would benefit the target task. This problem is computationally challenging since the number of subsets grows exponentially with the number of source tasks; efficient heuristics for subset selection does not always capture the relationship between task subsets and multitask learning performances. In this paper, we introduce an efficient procedure to address this problem via surrogate modeling. In surrogate modeling, we sample (random) subsets of source tasks and precompute their multitask learning performances; Then, we approximate the precomputed performances with a linear regression model that can also be used to predict the multitask performance of unseen task subsets. We show theoretically and empirically that fitting this model only requires sampling linearly many subsets in the number of source tasks. The fitted model provides a relevance score between each source task and the target task; We use the relevance scores to perform subset selection for multitask learning by thresholding. Through extensive experiments, we show that our approach predicts negative transfers from multiple source tasks to target tasks much more accurately than existing task affinity measures. Additionally, we demonstrate that for five weak supervision datasets, our approach consistently improves upon existing optimization methods for multi-task learning.
翻訳日:2023-03-28 18:56:59 公開日:2023-03-25
# shapleyベースの説明可能なaiによる障害診断と予後のクラスタリング

Shapley-based Explainable AI for Clustering Applications in Fault Diagnosis and Prognosis ( http://arxiv.org/abs/2303.14581v1 )

ライセンス: Link先を確認
Joseph Cohen, Xun Huan, Jun Ni(参考訳) データ駆動人工知能モデルは、現代産業の採用と信頼を合理化するために、インテリジェントな製造における説明可能性を必要とする。 しかし、最近開発されたXAI技術は、SHAP(SHapley Additive exPlanations)のようなモデル非依存レベルでの特徴的貢献を推定し、半教師付き断層診断や、クラス不均衡と弱いラベル付きデータセットを特徴とする予後問題に対してはまだ評価されていない。 本稿では、半教師付き学習問題に対応する新しいクラスタリングフレームワークにShapley値を活用する可能性について検討し、現在のXAI技術の厳格な監督要件を緩和する。 本手法は, クラス不均衡を特徴とする半導体製造プロセスから得られた熱マップ画像データセットと, 2021 Prognostics and Health Management (PHM) Data Challengeで使用されるベンチマークデータセットの2つのケーススタディで検証された。 シェープリー値に基づく半教師付きクラスタリングは、完全な教師なしケースと比較してクラスタリング品質を著しく改善し、基盤となる故障診断モデル予測に関連する情報密度と意味のあるクラスタを導出する。 これらのクラスターは、第2のケーススタディで示されるように、元の特徴量の観点から高い精度の決定規則によって特徴づけられる。 このルールは、オリジナルの特徴尺度を利用した1-2項に限定されており、0.85を超える精度の16の機器故障クラスタのうち12が記述されており、インテリジェントな製造アプリケーションのための説明可能なクラスタリングフレームワークの有望な有用性を示している。

Data-driven artificial intelligence models require explainability in intelligent manufacturing to streamline adoption and trust in modern industry. However, recently developed explainable artificial intelligence (XAI) techniques that estimate feature contributions on a model-agnostic level such as SHapley Additive exPlanations (SHAP) have not yet been evaluated for semi-supervised fault diagnosis and prognosis problems characterized by class imbalance and weakly labeled datasets. This paper explores the potential of utilizing Shapley values for a new clustering framework compatible with semi-supervised learning problems, loosening the strict supervision requirement of current XAI techniques. This broad methodology is validated on two case studies: a heatmap image dataset obtained from a semiconductor manufacturing process featuring class imbalance, and a benchmark dataset utilized in the 2021 Prognostics and Health Management (PHM) Data Challenge. Semi-supervised clustering based on Shapley values significantly improves upon clustering quality compared to the fully unsupervised case, deriving information-dense and meaningful clusters that relate to underlying fault diagnosis model predictions. These clusters can also be characterized by high-precision decision rules in terms of original feature values, as demonstrated in the second case study. The rules, limited to 1-2 terms utilizing original feature scales, describe 12 out of the 16 derived equipment failure clusters with precision exceeding 0.85, showcasing the promising utility of the explainable clustering framework for intelligent manufacturing applications.
翻訳日:2023-03-28 18:56:33 公開日:2023-03-25
# マルチチョイス質問の自動生成

Automatic Generation of Multiple-Choice Questions ( http://arxiv.org/abs/2303.14576v1 )

ライセンス: Link先を確認
Cheng Zhang(参考訳) 記事の読み理解を評価するために複数の質問を作成するには、q&aペア(qap)と適切な注意をそらすことが含まれる。 本稿では,(1)前処理と後処理パイプライン(tp3)を備えたt5トランスをベースとする,ディープラーニングによるエンドツーエンド質問生成システムを提案する。 我々は、質問生成の下流タスクに微調整されたT5モデルを使用し、様々なNLPツールとアルゴリズムを組み合わせて前処理と後処理を行い、適切な回答を選択し、望ましくない質問をフィルタリングする。 2) 文のメタシーケンス表現を用いて適切なQAPを生成するシーケンス学習に基づくスキーム。 メタシーケンスはセマンティックタグと構文タグからなるベクトルのシーケンスである。 訓練データからメタシーケンスを学習し、宣言文と対応する疑問文のメタシーケンスのペアを形成するためのmetaqaと呼ばれるスキームを考案する。 TP3は、MetaQAによって補完される、見えないデータでうまく動作する。 どちらの方法も、よく形作られ、文法的に正しい質問を生成することができる。 さらに,所定のQAPに対して適切な障害を自動生成する手法を提案する。 この方法は、音声タグ付け、名前付きタグ付け、セマンティックロールラベル付け、正規表現、ドメイン知識ベース、単語埋め込み、単語編集距離、WordNetなどのアルゴリズムの組み合わせである。

Creating multiple-choice questions to assess reading comprehension of a given article involves generating question-answer pairs (QAPs) and adequate distractors. We present two methods to tackle the challenge of QAP generations: (1) A deep-learning-based end-to-end question generation system based on T5 Transformer with Preprocessing and Postprocessing Pipelines (TP3). We use the finetuned T5 model for our downstream task of question generation and improve accuracy using a combination of various NLP tools and algorithms in preprocessing and postprocessing to select appropriate answers and filter undesirable questions. (2) A sequence-learning-based scheme to generate adequate QAPs via meta-sequence representations of sentences. A meta-sequence is a sequence of vectors comprising semantic and syntactic tags. we devise a scheme called MetaQA to learn meta sequences from training data to form pairs of a meta sequence for a declarative sentence and a corresponding interrogative sentence. The TP3 works well on unseen data, which is complemented by MetaQA. Both methods can generate well-formed and grammatically correct questions. Moreover, we present a novel approach to automatically generate adequate distractors for a given QAP. The method is a combination of part-of-speech tagging, named-entity tagging, semantic-role labeling, regular expressions, domain knowledge bases, word embeddings, word edit distance, WordNet, and other algorithms.
翻訳日:2023-03-28 18:56:03 公開日:2023-03-25
# VisCo Grids: 粘度とcoarea Gridによる表面再構成

VisCo Grids: Surface Reconstruction with Viscosity and Coarea Grids ( http://arxiv.org/abs/2303.14569v1 )

ライセンス: Link先を確認
Albert Pumarola, Artsiom Sanakoyeu, Lior Yariv, Ali Thabet, Yaron Lipman(参考訳) 近年,Inmplicit Neural Representations (INR) の利用により表面再構成が進展している。 その成功にもかかわらず、INRは誘導バイアス(すなわち、溶液表面が説明不可能な振る舞いを示す)を制御しにくくし、コストのかかる推論を行い、訓練が遅い。 この研究の目的は、ニューラルネットワークを単純なグリッド関数で置き換えることと、2つの新しい幾何学的先行性と共に、即時推論でINRに匹敵する結果を達成し、トレーニング時間を改善することである。 そのために、粘度とCoareaを組み込んだグリッドベースの表面再構成手法であるVisCo Gridsを紹介した。 直観的には、粘度はinrsの滑らかさ誘導バイアスを置き換えるが、コエリアは最小領域解を好む。 標準レコンストラクションベースラインでの粘性グリッドの実験は、このデータセットで最高の inrs に匹敵する結果をもたらした。

Surface reconstruction has been seeing a lot of progress lately by utilizing Implicit Neural Representations (INRs). Despite their success, INRs often introduce hard to control inductive bias (i.e., the solution surface can exhibit unexplainable behaviours), have costly inference, and are slow to train. The goal of this work is to show that replacing neural networks with simple grid functions, along with two novel geometric priors achieve comparable results to INRs, with instant inference, and improved training times. To that end we introduce VisCo Grids: a grid-based surface reconstruction method incorporating Viscosity and Coarea priors. Intuitively, the Viscosity prior replaces the smoothness inductive bias of INRs, while the Coarea favors a minimal area solution. Experimenting with VisCo Grids on a standard reconstruction baseline provided comparable results to the best performing INRs on this dataset.
翻訳日:2023-03-28 18:55:43 公開日:2023-03-25
# 分類決定の確実性と疑念の測定

Measuring Classification Decision Certainty and Doubt ( http://arxiv.org/abs/2303.14568v1 )

ライセンス: Link先を確認
Alexander M. Berenbeim, Iain J. Cruickshank, Susmit Jha, Robert H. Thomson, and Nathaniel D. Bastian(参考訳) 不確実性の定量的評価は、最適化と意思決定プロセスにおいて基本的な重要性である。 本稿では,(複数)分類決定機械学習問題における予測の質と不確実性を評価し,比較するためにベイズ主義と頻繁主義の両方の枠組みで使用可能な,直感的なスコアである \textit{certainty} と \textit{doubt} を提案する。

Quantitative characterizations and estimations of uncertainty are of fundamental importance in optimization and decision-making processes. Herein, we propose intuitive scores, which we call \textit{certainty} and \textit{doubt}, that can be used in both a Bayesian and frequentist framework to assess and compare the quality and uncertainty of predictions in (multi-)classification decision machine learning problems.
翻訳日:2023-03-28 18:55:28 公開日:2023-03-25
# 回転運動のぼかしに対する画像モーメント不変量

Image Moment Invariants to Rotational Motion Blur ( http://arxiv.org/abs/2303.14566v1 )

ライセンス: Link先を確認
Hanlin Mo, Hongxiang Hao, Guoying Zhao(参考訳) カメラや物体の円形の動きによって生じる回転運動のぼやけは、生活において一般的である。 この画像劣化が画像品質に深刻な影響を及ぼすため、回転運動のぼかしに影響を受ける画像から物体を識別することは困難である。 したがって、回転運動のぼかしの下で画像不変性を発達させ、オブジェクト分類やテンプレートマッチングといった実践的なタスクで利用することが重要である。 本稿では,一般的な回転運動のぼやきの下で画像モーメント不変量を生成する新しい手法を提案する。 さらに、類似度変換との不変性を実現する。 我々の知る限りでは、回転運動のぼかしに対するモーメント不変性が文献で提案されたのはこれが初めてである。 類似度変換や回転運動のぼやきによって乱される様々な画像データセットについて広範な実験を行い、これらの不変量の数値安定性と画像雑音に対するロバスト性を検証する。 また,画像分類と手書き文字認識における性能を示す。 最先端のぼやけモーメント不変量とディープニューラルネットワークが比較対象となっている。 本研究で提案するモーメント不変量は,様々なタスクにおいて,他の機能よりも有意に優れていた。

Rotational motion blur caused by the circular motion of the camera or/and object is common in life. Identifying objects from images affected by rotational motion blur is challenging because this image degradation severely impacts image quality. Therefore, it is meaningful to develop image invariant features under rotational motion blur and then use them in practical tasks, such as object classification and template matching. This paper proposes a novel method to generate image moment invariants under general rotational motion blur and provides some instances. Further, we achieve their invariance to similarity transform. To the best of our knowledge, this is the first time that moment invariants for rotational motion blur have been proposed in the literature. We conduct extensive experiments on various image datasets disturbed by similarity transform and rotational motion blur to test these invariants' numerical stability and robustness to image noise. We also demonstrate their performance in image classification and handwritten digit recognition. Current state-of-the-art blur moment invariants and deep neural networks are chosen for comparison. Our results show that the moment invariants proposed in this paper significantly outperform other features in various tasks.
翻訳日:2023-03-28 18:55:20 公開日:2023-03-25
# deep kernelメソッドはより良く学習する: カードからプロセス最適化へ

Deep Kernel Methods Learn Better: From Cards to Process Optimization ( http://arxiv.org/abs/2303.14554v1 )

ライセンス: Link先を確認
Mani Valleti, Rama k. Vasudevan, Maxim A. Ziatdinov, Sergei V. Kalinin(参考訳) 分類および回帰タスクを実行するディープラーニングの能力は、高次元データ空間内の多様体を探索し、低次元表現空間に投影する能力に大きく依存する。 本研究では,古典的変分オートエンコーダ(VAE)と深層カーネル学習(DKL)によって生成される多様体の構造と特性について検討する。 前者の場合、潜在空間の構造は入力データの性質だけで決定されるが、後者の場合、潜在多様体はデータ分布と対象機能とのバランスをとるアクティブラーニングプロセスの結果として形成される。 アクティブ・ラーニングを用いたdklは,以前報告されたvaeのような手法に比べて,よりコンパクトでスムースな潜在空間を生成できることを示した。 簡単なカードデータセットを用いてこの挙動を実証し、物理系におけるドメイン生成軌道の最適化に拡張する。 本研究は, 物質合成, エネルギー貯蔵, 分子発見などの領域科学に共通する特徴量の多いターゲット・プアーシナリオにおいて, 能動的学習により構築された潜在多様体の方が, 最適化問題に有利な構造を持つことを示唆する。 完全な分析をカプセル化したジュピターノートはその記事に付随する。

The ability of deep learning methods to perform classification and regression tasks relies heavily on their capacity to uncover manifolds in high-dimensional data spaces and project them into low-dimensional representation spaces. In this study, we investigate the structure and character of the manifolds generated by classical variational autoencoder (VAE) approaches and deep kernel learning (DKL). In the former case, the structure of the latent space is determined by the properties of the input data alone, while in the latter, the latent manifold forms as a result of an active learning process that balances the data distribution and target functionalities. We show that DKL with active learning can produce a more compact and smooth latent space which is more conducive to optimization compared to previously reported methods, such as the VAE. We demonstrate this behavior using a simple cards data set and extend it to the optimization of domain-generated trajectories in physical systems. Our findings suggest that latent manifolds constructed through active learning have a more beneficial structure for optimization problems, especially in feature-rich target-poor scenarios that are common in domain sciences, such as materials synthesis, energy storage, and molecular discovery. The jupyter notebooks that encapsulate the complete analysis accompany the article.
翻訳日:2023-03-28 18:55:02 公開日:2023-03-25
# 次世代貯留層予測における機械学習の複雑度校正ベンチマーク

Complexity-calibrated Benchmarks for Machine Learning Reveal When Next-Generation Reservoir Computer Predictions Succeed and Mislead ( http://arxiv.org/abs/2303.14553v1 )

ライセンス: Link先を確認
Sarah E. Marzen and Paul M. Riechers and James P. Crutchfield(参考訳) リカレントニューラルネットワークは、金融、気候、言語、その他の多くのドメインから時系列を予測するために使用される。 貯留層コンピュータは、特に訓練が容易なリカレントニューラルネットワークである。 近年,メモリトレースに先行するシンボルが有限個しか含まれない「次世代型」貯水池コンピュータが導入された。 この興味深い提案では,有限パストメモリトレースの固有の制限について検討する。 ファノの不等式より低い境界は、大きな確率的状態マシンによって生成される高度に非マルコフ過程において、合理的に長いメモリトレースを持つ次世代貯水池コンピュータは、次の観測を予測できる最小の到達可能な誤差確率よりも少なくとも60%高い誤差確率を持つことを示している。 より一般的には、人気のあるリカレントニューラルネットワークは、そのような複雑なプロセスを最適に予測できない。 これらの結果は、新しい世代の最適化されたリカレントニューラルネットワークアーキテクチャの必要性を強調している。 この発見と並行して、ランダムに生成されたが複雑なプロセスに対する集中度測定結果を示す。 一つの結論は、大きな確率的状態マシン(特に、大きな$\epsilon$-machines)が、地上で繰り返し発生するニューラルネットワークアーキテクチャのための挑戦的で構造的に不偏な刺激を生み出す鍵であるということだ。

Recurrent neural networks are used to forecast time series in finance, climate, language, and from many other domains. Reservoir computers are a particularly easily trainable form of recurrent neural network. Recently, a "next-generation" reservoir computer was introduced in which the memory trace involves only a finite number of previous symbols. We explore the inherent limitations of finite-past memory traces in this intriguing proposal. A lower bound from Fano's inequality shows that, on highly non-Markovian processes generated by large probabilistic state machines, next-generation reservoir computers with reasonably long memory traces have an error probability that is at least ~ 60% higher than the minimal attainable error probability in predicting the next observation. More generally, it appears that popular recurrent neural networks fall far short of optimally predicting such complex processes. These results highlight the need for a new generation of optimized recurrent neural network architectures. Alongside this finding, we present concentration-of-measure results for randomly-generated but complex processes. One conclusion is that large probabilistic state machines -- specifically, large $\epsilon$-machines -- are key to generating challenging and structurally-unbiased stimuli for ground-truthing recurrent neural network architectures.
翻訳日:2023-03-28 18:54:40 公開日:2023-03-25
# Fine-Tashkeel: 正確なアラビア文字発音のためのByte-Levelモデル

Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text Diacritization ( http://arxiv.org/abs/2303.14588v1 )

ライセンス: Link先を確認
Bashar Al-Rfooh, Gheith Abandah, Rami Al-Rfou(参考訳) アラビア語の発音の学習に関する以前の研究のほとんどは、スクラッチからトレーニングモデルに頼っていた。 本稿では,事前学習された言語モデルの活用法について検討する。 アラビア語のテキストに欠落しているダイアクリティカルスの予測と挿入を学ぶために,トークンのない事前学習された多言語モデル(byt5)を微調整する。 我々は、最小限の訓練量と機能工学を伴わずに、診断タスクの最先端を達成できることを示し、WERを40%削減する。 私たちは、コミュニティの研究者のより大きな利益のために、微調整されたモデルをリリースします。

Most of previous work on learning diacritization of the Arabic language relied on training models from scratch. In this paper, we investigate how to leverage pre-trained language models to learn diacritization. We finetune token-free pre-trained multilingual models (ByT5) to learn to predict and insert missing diacritics in Arabic text, a complex task that requires understanding the sentence semantics and the morphological structure of the tokens. We show that we can achieve state-of-the-art on the diacritization task with minimal amount of training and no feature engineering, reducing WER by 40%. We release our finetuned models for the greater benefit of the researchers in the community.
翻訳日:2023-03-28 18:46:05 公開日:2023-03-25
# パニック3d:アニメキャラクターの肖像からのスタイリズド・シングルビュー3次元再構成

PAniC-3D: Stylized Single-view 3D Reconstruction from Portraits of Anime Characters ( http://arxiv.org/abs/2303.14587v1 )

ライセンス: Link先を確認
Shuhong Chen, Kevin Zhang, Yichun Shi, Heng Wang, Yiheng Zhu, Guoxian Song, Sizhe An, Janus Kristjansson, Xiao Yang, Matthias Zwicker(参考訳) 提案するPAniC-3Dは, (ani)me (c)haractersの図形(p)ortraitsから直接スタイリングされた3D文字を再構成するシステムである。 私たちのアニメスタイルのドメインは、人間の頭部の自然なイメージと比較して、より複雑で多様な幾何学を持つ毛髪やアクセサリーを持ち、非フォトリアリスティックな輪郭線で日陰になっている。 また,この曖昧なスタイリッシュな再構築課題を訓練し,評価するのに適した3dモデルとポートレート・イラストレーションデータが欠落している。 これらの課題に直面する中で,提案したPAniC-3Dアーキテクチャは,線充填モデルを用いて図形と3次元の領域ギャップを越え,体積放射場を持つ洗練されたジオメトリを表現する。 我々は2つの大きなデータセット(11.2k Vroid 3Dモデル、1k Vtuberポートレートイラスト)をトレーニングし、イラストから3Dまでの新しいAnimeReconベンチマークで評価する。 PAniC-3Dはベースライン法を大幅に上回り、ポートレートイラストからスタイル化された再構築作業を確立するためのデータを提供する。

We propose PAniC-3D, a system to reconstruct stylized 3D character heads directly from illustrated (p)ortraits of (ani)me (c)haracters. Our anime-style domain poses unique challenges to single-view reconstruction; compared to natural images of human heads, character portrait illustrations have hair and accessories with more complex and diverse geometry, and are shaded with non-photorealistic contour lines. In addition, there is a lack of both 3D model and portrait illustration data suitable to train and evaluate this ambiguous stylized reconstruction task. Facing these challenges, our proposed PAniC-3D architecture crosses the illustration-to-3D domain gap with a line-filling model, and represents sophisticated geometries with a volumetric radiance field. We train our system with two large new datasets (11.2k Vroid 3D models, 1k Vtuber portrait illustrations), and evaluate on a novel AnimeRecon benchmark of illustration-to-3D pairs. PAniC-3D significantly outperforms baseline methods, and provides data to establish the task of stylized reconstruction from portrait illustrations.
翻訳日:2023-03-28 18:45:52 公開日:2023-03-25
# SINE: 先導編集フィールドを用いたセマンティック画像ベースNeRF編集

SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing Field ( http://arxiv.org/abs/2303.13277v2 )

ライセンス: Link先を確認
Chong Bao, Yinda Zhang, Bangbang Yang, Tianxing Fan, Zesong Yang, Hujun Bao, Guofeng Zhang and Zhaopeng Cui(参考訳) Photoshopやセマンティックストローク、さらにはテキストプロンプトといったユーザフレンドリーなツールを使った2D編集で大きな成功を収めているにもかかわらず、3Dモデリングスキルに依存するか、ほんの数カテゴリで編集できるかのどちらかで、3D領域における同様の機能は制限されている。 本稿では,1つの画像でニューラルラディアンスフィールドを編集し,高い忠実度と多視点整合性で編集された新しいビューを忠実に提供する,意味駆動型NeRF編集手法を提案する。 この目的を達成するために,細粒度な幾何学的およびテクスチャ編集を3次元空間でエンコードする事前ガイド付き編集フィールドを提案し,幾何的監督を容易にするためのプロキシメッシュによる循環制約,意味駆動テクスチャ編集を安定化する色合成機構,無関係なコンテンツを不変に保存する特徴クラスタベースの正規化など,編集プロセスを支援する一連の技術を開発した。 本手法は,1枚の編集画像のみを用いてリアルな3D編集を実現し,実世界のシーンにおけるセマンティックな編集の限界を推し進めることが実証された。 私たちのプロジェクトwebページ: https://zju3dv.github.io/sine/

Despite the great success in 2D editing using user-friendly tools, such as Photoshop, semantic strokes, or even text prompts, similar capabilities in 3D areas are still limited, either relying on 3D modeling skills or allowing editing within only a few categories. In this paper, we present a novel semantic-driven NeRF editing approach, which enables users to edit a neural radiance field with a single image, and faithfully delivers edited novel views with high fidelity and multi-view consistency. To achieve this goal, we propose a prior-guided editing field to encode fine-grained geometric and texture editing in 3D space, and develop a series of techniques to aid the editing process, including cyclic constraints with a proxy mesh to facilitate geometric supervision, a color compositing mechanism to stabilize semantic-driven texture editing, and a feature-cluster-based regularization to preserve the irrelevant content unchanged. Extensive experiments and editing examples on both real-world and synthetic data demonstrate that our method achieves photo-realistic 3D editing using only a single edited image, pushing the bound of semantic-driven editing in 3D real-world scenes. Our project webpage: https://zju3dv.github.io/sine/.
翻訳日:2023-03-28 11:46:06 公開日:2023-03-25
# 大規模言語モデルのためのフェアネスガイド付き少数ショットプロンプト

Fairness-guided Few-shot Prompting for Large Language Models ( http://arxiv.org/abs/2303.13217v2 )

ライセンス: Link先を確認
Huan Ma, Changqing Zhang, Yatao Bian, Lemao Liu, Zhirui Zhang, Peilin Zhao, Shu Zhang, Huazhu Fu, Qinghua Hu, Bingzhe Wu(参考訳) 大規模な言語モデルでは、いくつかの入力出力例によって構築されたプロンプトを条件にすることで、これらのモデルを多数の下流タスクに直接適用することが可能である。 しかしながら、以前の研究では、トレーニング例、サンプル順序、プロンプト形式の変化によって、コンテキスト内学習は高い不安定性に苦しむことが示されている。 したがって、適切なプロンプトの構築は、文脈内学習の性能向上に不可欠である。 本稿では,予測バイアスの観点からこの問題を再検討する。 具体的には,ラベルや属性に対する固定プロンプトの予測バイアスを評価するための指標を提案する。 そして、バイアスの高いプロンプトが常に不十分な予測品質につながることを実証的に示す。 そこで本研究では,文脈内学習の性能向上のための最善のプロンプトを同定するために,欲望探索に基づく新しい探索戦略を提案する。 我々は,gpt-3のような最先端の主流モデルを用いて,様々な下流タスクで包括的な実験を行う。 提案手法は,テキスト内学習性能を効果的かつ解釈可能な方法で向上させることができることを示す。

Large language models have demonstrated surprising ability to perform in-context learning, i.e., these models can be directly applied to solve numerous downstream tasks by conditioning on a prompt constructed by a few input-output examples. However, prior research has shown that in-context learning can suffer from high instability due to variations in training examples, example order, and prompt formats. Therefore, the construction of an appropriate prompt is essential for improving the performance of in-context learning. In this paper, we revisit this problem from the view of predictive bias. Specifically, we introduce a metric to evaluate the predictive bias of a fixed prompt against labels or a given attributes. Then we empirically show that prompts with higher bias always lead to unsatisfactory predictive quality. Based on this observation, we propose a novel search strategy based on the greedy search to identify the near-optimal prompt for improving the performance of in-context learning. We perform comprehensive experiments with state-of-the-art mainstream models such as GPT-3 on various downstream tasks. Our results indicate that our method can enhance the model's in-context learning performance in an effective and interpretable manner.
翻訳日:2023-03-28 11:45:39 公開日:2023-03-25
# VADER:ビデオアライメントのディフレクションと検索

VADER: Video Alignment Differencing and Retrieval ( http://arxiv.org/abs/2303.13193v2 )

ライセンス: Link先を確認
Alexander Black, Simon Jenni, Tu Bui, Md. Mehrab Tanjim, Stefano Petrangeli, Ritwik Sinha, Viswanathan Swaminathan, John Collomosse(参考訳) 操作されたビデオを介して拡散する誤情報に対抗するために,時空間マッチング,アライメント,および変更要約手法であるVADERを提案する。 VADERは、ロバストなビジュアル記述子と適応的にチャンクされたビデオコンテンツに対するスケーラブルな検索を使用して、部分的なビデオ断片を候補ビデオにマッチし、粗く整列する。 トランスベースのアライメントモジュールは、マッチしたビデオ内のクエリフラグメントの時間的ローカライズを洗練する。 時空間コンパレータモジュールは、コンテンツの非編集的変化に起因する残余の時間的不一致やアーティファクトによる変化に不変な、アライメントされたコンテンツ間の操作領域を特定する。 信頼性のあるソースにロバストにマッチしたビデオは、ビデオの証明に基づいて結論を導き、遭遇したコンテンツに関する情報信頼決定を可能にする。

We propose VADER, a spatio-temporal matching, alignment, and change summarization method to help fight misinformation spread via manipulated videos. VADER matches and coarsely aligns partial video fragments to candidate videos using a robust visual descriptor and scalable search over adaptively chunked video content. A transformer-based alignment module then refines the temporal localization of the query fragment within the matched video. A space-time comparator module identifies regions of manipulation between aligned content, invariant to any changes due to any residual temporal misalignments or artifacts arising from non-editorial changes of the content. Robustly matching video to a trusted source enables conclusions to be drawn on video provenance, enabling informed trust decisions on content encountered.
翻訳日:2023-03-28 11:45:22 公開日:2023-03-25
# MagicFusion:拡散モデルによるテキスト・画像生成性能の向上

MagicFusion: Boosting Text-to-Image Generation Performance by Fusing Diffusion Models ( http://arxiv.org/abs/2303.13126v2 )

ライセンス: Link先を確認
Jing Zhao, Heliang Zheng, Chaoyue Wang, Long Lan, Wenjing Yang(参考訳) オープンソースのAIコミュニティの出現は、さまざまなデータセットでトレーニングされた強力なテキスト誘導拡散モデルのコーンコピアを生み出した。 このようなモデルを組み合わすための調査は、ほとんど行われていない。 本研究では,より制御可能な生成を実現するために,融合したテキスト誘導拡散モデルを実現するためのSNB (Saliency-aware Noise Blending) を提案する。 具体的には,分類子なし誘導の応答が生成画像の正当性に強く関係していることが実験的に明らかになった。 そこで本研究では,2つの拡散モデルの予測ノイズを相応にブレンドすることで,それぞれの専門分野の異なるモデルを信頼することを提案する。 SNBはトレーニング不要であり、DDIMサンプリングプロセス内で完成することができる。 さらに、マスクなどの追加アノテーションを必要とせずに、2つのノイズ空間のセマンティクスを自動的に調整できる。 広範囲な実験により、SNBの様々な応用における印象的な効果が示された。 プロジェクトページはhttps://magicfusion.github.io/で閲覧できる。

The advent of open-source AI communities has produced a cornucopia of powerful text-guided diffusion models that are trained on various datasets. While few explorations have been conducted on ensembling such models to combine their strengths. In this work, we propose a simple yet effective method called Saliency-aware Noise Blending (SNB) that can empower the fused text-guided diffusion models to achieve more controllable generation. Specifically, we experimentally find that the responses of classifier-free guidance are highly related to the saliency of generated images. Thus we propose to trust different models in their areas of expertise by blending the predicted noises of two diffusion models in a saliency-aware manner. SNB is training-free and can be completed within a DDIM sampling process. Additionally, it can automatically align the semantics of two noise spaces without requiring additional annotations such as masks. Extensive experiments show the impressive effectiveness of SNB in various applications. Project page is available at https://magicfusion.github.io/.
翻訳日:2023-03-28 11:45:03 公開日:2023-03-25