このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230326となっている論文です。

PDF登録状況(公開日: 20230326)

TitleAuthorsAbstract論文公表日・翻訳日
# Wi-Fi CSI信号を用いた睡眠時無呼吸・肢運動検出のための注意に基づく学習

Attention-based Learning for Sleep Apnea and Limb Movement Detection using Wi-Fi CSI Signals ( http://arxiv.org/abs/2304.06474v1 )

ライセンス: Link先を確認
Chi-Che Chang, An-Hung Hsiao, Li-Hsiang Shen, Kai-Ten Feng, Chia-Yu Chen(参考訳) Wi-Fiチャネル状態情報(CSI)は、睡眠中の非侵襲的呼吸および身体の動き監視のための有望な解決策となっている。 無呼吸と周期性手足運動障害(PLMD)の睡眠障害はしばしば無意識で致命的なものである。 既存の研究は、非現実的に制御された環境で異常な睡眠障害を検出する。 さらに、睡眠運動の複雑なマクロスケールやマイクロスケールの分類や、無呼吸症候群やPLMDの場合と同様の波形の絡み合わせが難しい。 本稿では,睡眠時無呼吸・下肢運動検出システム(ALESAL)について,睡眠時無呼吸とPLMDを多種多様な睡眠姿勢下で共同検出可能な注意型学習法を提案する。 ALESALには、適度なアンテナ対の影響を緩和し、それぞれ関心の持続時間を強調するアンテナ対と時間注意機構が含まれている。 その結果,提案したALESALシステムは84.33の重み付きF1スコアを達成でき,既存のサポートベクトルマシンやディープ多層パーセプトロンの非アテンションベース手法よりも優れていた。

Wi-Fi channel state information (CSI) has become a promising solution for non-invasive breathing and body motion monitoring during sleep. Sleep disorders of apnea and periodic limb movement disorder (PLMD) are often unconscious and fatal. The existing researches detect abnormal sleep disorders in impractically controlled environments. Moreover, it leads to compelling challenges to classify complex macro- and micro-scales of sleep movements as well as entangled similar waveforms of cases of apnea and PLMD. In this paper, we propose the attention-based learning for sleep apnea and limb movement detection (ALESAL) system that can jointly detect sleep apnea and PLMD under different sleep postures across a variety of patients. ALESAL contains antenna-pair and time attention mechanisms for mitigating the impact of modest antenna pairs and emphasizing the duration of interest, respectively. Performance results show that our proposed ALESAL system can achieve a weighted F1-score of 84.33, outperforming the other existing non-attention based methods of support vector machine and deep multilayer perceptron.
翻訳日:2023-04-16 21:58:31 公開日:2023-03-26
# 産業廃棄物の水質評価のためのiot型水質評価システム

IoT-Based Water Quality Assessment System for Industrial Waste WaterHealthcare Perspective ( http://arxiv.org/abs/2304.06491v1 )

ライセンス: Link先を確認
Abdur Rab Dhruba, Kazi Nabiul Alam, Md. Shakib Khan, Sananda Saha, Mohammad Monirujjaman Khan, Mohammed Baz, Mehedi Masud, and Mohammed A. AlZain(参考訳) 環境、特に水は工業化と都市化によって汚染される。 工業化と都市化による汚染は、環境と地球上の生活の両方に有害な影響を及ぼす。 この汚染された水は、食中毒、下気道、短期間の消化管疾患、呼吸器疾患、皮膚疾患、その他の深刻な健康合併症を引き起こす可能性がある。 バングラデシュのような発展途上国では、既製の衣服部門が総生産量(GDP)の主要な供給源の1つであり、衣類工場から排出される廃棄物のほとんどは、最も近い川や運河に捨てられている。 したがって、これらの水域の水質は生物にとって非常に不相容れないものとなり、環境や人間の健康に対する大きな脅威の1つとなっている。 また、バングラデシュの河川や運河における魚の量は、水質汚染によって日々減少している。 そのため,魚などの水生動物や環境を保全するためには,水質を監視し,汚染の原因を明らかにする必要がある。 水質のリアルタイムモニタリングは水質管理に不可欠である。 水汚染を抑えるためのアプローチのほとんどは、主に生物と実験室に基づくもので、多くの時間と資源がかかります。 この問題に対処するため,モバイルアプリケーションに統合されたIoT(Internet of Things)ベースのリアルタイム水質モニタリングシステムを開発した。 本研究において提案されたシステムは,水素(pH),全溶解固体(TDS),濁度,水の温度など,水の最も重要な指標を測定する。 提案するシステムの結果は, 環境の保全, 地球上の生物の健康向上に非常に有用であると考えられる。

The environment, especially water, gets polluted due to industrialization and urbanization. Pollution due to industrialization and urbanization has harmful effects on both the environment and the lives on Earth. This polluted water can cause food poisoning, diarrhea, short-term gastrointestinal problems, respiratory diseases, skin problems, and other serious health complications. In a developing country like Bangladesh, where ready-made garments sector is one of the major sources of the total Gross Domestic Product (GDP), most of the wastes released from the garment factories are dumped into the nearest rivers or canals. Hence, the quality of the water of these bodies become very incompatible for the living beings, and so, it has become one of the major threats to the environment and human health. In addition, the amount of fish in the rivers and canals in Bangladesh is decreasing day by day as a result of water pollution. Therefore, to save fish and other water animals and the environment, we need to monitor the quality of the water and find out the reasons for the pollution. Real-time monitoring of the quality of water is vital for controlling water pollution. Most of the approaches for controlling water pollution are mainly biological and lab-based, which takes a lot of time and resources. To address this issue, we developed an Internet of Things (IoT)-based real-time water quality monitoring system, integrated with a mobile application. The proposed system in this research measures some of the most important indexes of water, including the potential of hydrogen (pH), total dissolved solids (TDS), and turbidity, and temperature of water. The proposed system results will be very helpful in saving the environment, and thus, improving the health of living creatures on Earth.
翻訳日:2023-04-16 21:48:02 公開日:2023-03-26
# AI生成コンテンツ(AIGC)に関する調査

AI-Generated Content (AIGC): A Survey ( http://arxiv.org/abs/2304.06632v1 )

ライセンス: Link先を確認
Jiayang Wu, Wensheng Gan, Zefeng Chen, Shicheng Wan, Hong Lin(参考訳) デジタル経済におけるデジタルインテリジェンスの課題に対処するため、人工知能生成コンテンツ(AIGC)が登場した。 AIGCは人工知能を使用して、ユーザ入力されたキーワードや要求に基づいてコンテンツを生成することで、手動のコンテンツ生成を支援し、置き換える。 大規模モデルアルゴリズムの開発はAIGCの能力を大幅に強化し、AIGC製品は有望な生成ツールとなり、私たちの生活に便利なものとなった。 上流技術として、aigcは異なる下流アプリケーションをサポートする無限の可能性を持っている。 AIGCの現在の能力と欠点を分析して、将来のアプリケーションでどのように最適に利用できるかを理解することが重要です。 そこで本稿では,AIGCの定義,必須条件,最先端機能,高度な機能について概説する。 さらに、大規模な事前訓練モデルとAIGCの産業チェーンの利点についても論じる。 さらに,AIGCにおける補助生成と自動生成の区別について検討し,テキスト生成の例を示す。 また、AIGCとMetaverseの統合の可能性についても検討する。 最後に、この記事は既存の問題を取り上げ、アプリケーションの今後の方向性を示唆している。

To address the challenges of digital intelligence in the digital economy, artificial intelligence-generated content (AIGC) has emerged. AIGC uses artificial intelligence to assist or replace manual content generation by generating content based on user-inputted keywords or requirements. The development of large model algorithms has significantly strengthened the capabilities of AIGC, which makes AIGC products a promising generative tool and adds convenience to our lives. As an upstream technology, AIGC has unlimited potential to support different downstream applications. It is important to analyze AIGC's current capabilities and shortcomings to understand how it can be best utilized in future applications. Therefore, this paper provides an extensive overview of AIGC, covering its definition, essential conditions, cutting-edge capabilities, and advanced features. Moreover, it discusses the benefits of large-scale pre-trained models and the industrial chain of AIGC. Furthermore, the article explores the distinctions between auxiliary generation and automatic generation within AIGC, providing examples of text generation. The paper also examines the potential integration of AIGC with the Metaverse. Lastly, the article highlights existing issues and suggests some future directions for application.
翻訳日:2023-04-16 21:40:02 公開日:2023-03-26
# 分布推定による部分ショットテキスト分類の強化

Boosting Few-Shot Text Classification via Distribution Estimation ( http://arxiv.org/abs/2303.16764v1 )

ライセンス: Link先を確認
Han Liu, Feng Zhang, Xiaotong Zhang, Siyang Zhao, Fenglong Ma, Xiao-Ming Wu, Hongyang Chen, Hong Yu, Xianchao Zhang(参考訳) 低レベルパターンと下層の表現はコンピュータビジョン領域の異なるタスク間で容易に転送できるため、画像の分類に最も効果的な方法の1つとして分布推定が実証されている。 しかし, この手法を少数のテキスト分類に直接適用することは困難であり, 既知のクラス統計を十分なサンプルで活用して, 新規クラスの分布を校正することは, テキスト領域の深刻なカテゴリー差による負の影響を生じさせる可能性がある。 そこで本研究では,ラベルなしの問合せサンプルを用いて,新しいクラスの分布を推定する2つの簡易かつ効果的な手法を提案する。 具体的には、まずガウス分布に従ってクラスやサンプルを仮定し、元のサポートセットと最も近いクエリサンプルを用いて対応する平均と共分散を推定する。 次に,推定分布からのサンプリングによりラベル付きサンプルを増強し,分類モデルの訓練に十分な監督を行う。 8つの数ショットのテキスト分類データセットに対する大規模な実験により、提案手法は最先端のベースラインを大幅に上回ることを示した。

Distribution estimation has been demonstrated as one of the most effective approaches in dealing with few-shot image classification, as the low-level patterns and underlying representations can be easily transferred across different tasks in computer vision domain. However, directly applying this approach to few-shot text classification is challenging, since leveraging the statistics of known classes with sufficient samples to calibrate the distributions of novel classes may cause negative effects due to serious category difference in text domain. To alleviate this issue, we propose two simple yet effective strategies to estimate the distributions of the novel classes by utilizing unlabeled query samples, thus avoiding the potential negative transfer issue. Specifically, we first assume a class or sample follows the Gaussian distribution, and use the original support set and the nearest few query samples to estimate the corresponding mean and covariance. Then, we augment the labeled samples by sampling from the estimated distribution, which can provide sufficient supervision for training the classification model. Extensive experiments on eight few-shot text classification datasets show that the proposed method outperforms state-of-the-art baselines significantly.
翻訳日:2023-03-30 14:23:02 公開日:2023-03-26
# CXR画像を用いたCovid-19, 肺炎, 結核の深層移動学習

Deep transfer learning for detecting Covid-19, Pneumonia and Tuberculosis using CXR images -- A Review ( http://arxiv.org/abs/2303.16754v1 )

ライセンス: Link先を確認
Irad Mwendo, Kinyua Gikunda, Anthony Maina(参考訳) 胸部x線は肺疾患の診断に用いられる最も一般的なイメージングモードである。 しかし、彼らは少数の専門家(放射線科医や肺科医)の解釈を必要としている。 本報告では, 胸部X線(CXR)画像におけるウイルス, 肺炎, 結核の検出に深層移動学習技術を用いることを検討した。 現状のCXR画像分類技術の概要を提供し、この領域に転写学習を適用する際の課題と機会について論じる。 本研究は、新型コロナウイルス、肺炎、結核の検出にディープトランスファー学習アルゴリズムを用いた最近の研究では、これらのアプローチの利点と欠点を浮き彫りにしている。 最後に,CXR画像分類における深部転写学習の分野における今後の研究の方向性と,肺疾患の診断・治療におけるこれらの技術の可能性について述べる。

Chest X-rays remains to be the most common imaging modality used to diagnose lung diseases. However, they necessitate the interpretation of experts (radiologists and pulmonologists), who are few. This review paper investigates the use of deep transfer learning techniques to detect COVID-19, pneumonia, and tuberculosis in chest X-ray (CXR) images. It provides an overview of current state-of-the-art CXR image classification techniques and discusses the challenges and opportunities in applying transfer learning to this domain. The paper provides a thorough examination of recent research studies that used deep transfer learning algorithms for COVID-19, pneumonia, and tuberculosis detection, highlighting the advantages and disadvantages of these approaches. Finally, the review paper discusses future research directions in the field of deep transfer learning for CXR image classification, as well as the potential for these techniques to aid in the diagnosis and treatment of lung diseases.
翻訳日:2023-03-30 14:21:33 公開日:2023-03-26
# 多モードブラウン発振器モデルによる遷移金属シバルコゲナイド単分子膜の発光スペクトルのシミュレーション

Simulation of emission spectra of transition-metal dichalcogenide monolayers with the multimode Brownian oscillator model ( http://arxiv.org/abs/2303.15475v1 )

ライセンス: Link先を確認
Kaijun Shen, Kewei Sun, and Yang Zhao(参考訳) 多モードブラウン発振器モデルを用いて遷移金属ジアルコゲナイド単分子膜の発光スペクトルをシミュレートする。 様々な温度でWSe2,WS2,MoSe2,MoS2の測定および模擬発光スペクトル間で良好な一致が得られる。 このモデルから抽出されたHuang-Rhys因子は、高温で修正された半経験的ヴァルシュニ方程式に関連付けられる。 これらのTMDの独特の温度依存性発光スペクトルにつながる個々のメカニズムをMBOフィッティングにより検証し、MBO分析がMDD単分子膜の光学特性の研究に有効な方法であることが確認された。 MBOフィッティングから抽出されたパラメータは、より包括的なモデルでTMDのエキシトン-フォトン-フォノンダイナミクスを探索するために用いられる。

The multimode Brownian oscillator model is employed to simulate the emission spectra of transition metal dichalcogenide monolayers. Good agreement is obtained between measured and simulated photoluminescence spectra of WSe2, WS2, MoSe2 and MoS2 at various temperatures. The Huang-Rhys factor extracted from the model can be associated with that from the modified semi-empirical Varshni equation at high temperatures. Individual mechanisms leading to the unique temperature-dependent emission spectra of those TMDs are validated by the MBO fitting, while it is in turn confirmed that the MBO analysis is an effective method for studying the optical properties of TMD monolayers. Parameters extractd from the MBO fitting can be used to explore exciton-photon-phonon dynamics of TMDs in a more comprehensive model.
翻訳日:2023-03-29 17:56:33 公開日:2023-03-26
# 正確かつ効率的な機械学習分子動力学のためのヘテロジニアス並列非線形ノイマンアーキテクチャシステム

A Heterogeneous Parallel Non-von Neumann Architecture System for Accurate and Efficient Machine Learning Molecular Dynamics ( http://arxiv.org/abs/2303.15474v1 )

ライセンス: Link先を確認
Zhuoying Zhao, Ziling Tan, Pinghui Mo, Xiaonan Wang, Dan Zhao, Xin Zhang, Ming Tao, and Jie Liu(参考訳) 本稿では,高精度かつ高効率な機械学習(ML)分子動力学(MD)計算を実現するための専用システムを提案する。 このシステムは、フィールドプログラマブルゲートアレイ(FPGA)と、異種並列化で動作するアプリケーション固有集積回路(ASIC)で構成されている。 具体的には、非ヴォンノイマン(NvN)ベースのASIC(SilTerra 180 nmプロセス)上に乗算レスニューラルネットワーク(NN)を配置し、MDの計算上最も高価な部分である原子力を評価する。 他のMDの計算はすべてFPGA(Xilinx XC7Z100)を用いて行われる。 同様なレベルの精度を達成するために,提案したローエンド加工技術(180nm)に基づくNvNベースのシステムは,より高度な技術(12nm)に基づくグラフィックス処理ユニット(GPU)を用いた最先端のvNベースのMLMDよりも1.6倍高速で10^2-10^3倍エネルギー効率が高い。

This paper proposes a special-purpose system to achieve high-accuracy and high-efficiency machine learning (ML) molecular dynamics (MD) calculations. The system consists of field programmable gate array (FPGA) and application specific integrated circuit (ASIC) working in heterogeneous parallelization. To be specific, a multiplication-less neural network (NN) is deployed on the non-von Neumann (NvN)-based ASIC (SilTerra 180 nm process) to evaluate atomic forces, which is the most computationally expensive part of MD. All other calculations of MD are done using FPGA (Xilinx XC7Z100). It is shown that, to achieve similar-level accuracy, the proposed NvN-based system based on low-end fabrication technologies (180 nm) is 1.6x faster and 10^2-10^3x more energy efficiency than state-of-the-art vN based MLMD using graphics processing units (GPUs) based on much more advanced technologies (12 nm), indicating superiority of the proposed NvN-based heterogeneous parallel architecture.
翻訳日:2023-03-29 17:56:19 公開日:2023-03-26
# ニューラルネットワークにおけるプルーニング法の性能を探る:ロッキーチケット仮説の実証的研究

Exploring the Performance of Pruning Methods in Neural Networks: An Empirical Study of the Lottery Ticket Hypothesis ( http://arxiv.org/abs/2303.15479v1 )

ライセンス: Link先を確認
Eirik Fladmark, Muhammad Hamza Sajjad, Laura Brinkholm Justesen(参考訳) 本稿では,抽選券仮説の文脈において,異なるプルーニング手法の性能について検討する。 異なるネットワークアーキテクチャおよびプルーニングシナリオにおけるL1非構造化プルーニング,フィッシャープルーニング,ランダムプルーニングの性能を比較した。 実験には、ワンショットおよび反復プルーニングの評価、プルーニング中のネットワーク内の重み移動の検証、幅の異なるネットワーク上でのプルーニング手法の比較、ネットワークが非常にスパースになった際の手法の性能分析が含まれる。 また, 集成漁獲量と呼ばれる漁獲量の効率的な計算法を提案し, 評価を行った。

In this paper, we explore the performance of different pruning methods in the context of the lottery ticket hypothesis. We compare the performance of L1 unstructured pruning, Fisher pruning, and random pruning on different network architectures and pruning scenarios. The experiments include an evaluation of one-shot and iterative pruning, an examination of weight movement in the network during pruning, a comparison of the pruning methods on networks of varying widths, and an analysis of the performance of the methods when the network becomes very sparse. Additionally, we propose and evaluate a new method for efficient computation of Fisher pruning, known as batched Fisher pruning.
翻訳日:2023-03-29 17:44:12 公開日:2023-03-26
# SPD多様体上のアダプティブリーマン計量

Adaptive Riemannian Metrics on SPD Manifolds ( http://arxiv.org/abs/2303.15477v1 )

ライセンス: Link先を確認
Ziheng Chen, Tianyang Xu, Zhiwu Huang, Yue Song, Xiao-Jun Wu, Nicu Sebe(参考訳) 対称正定値行列(SPD)は、データの構造的相関を符号化する本質的な能力のため、機械学習において広く注目を集めている。 SPD多様体の非ユークリッド幾何学を反映するために、多くのリーマン計量が提案されている。 しかし、既存の固定計量テンソルはSPD行列学習、特にSPDニューラルネットワークの準最適性能をもたらす可能性がある。 この制限を緩和するために、引き戻しの概念を活用し、SPD多様体に対する適応リーマン計量を提案する。 さらに,指標の包括的理論も提示する。 3つのデータセットによる実験により,提案手法により,SPDネットワークの性能が向上することが示された。

Symmetric Positive Definite (SPD) matrices have received wide attention in machine learning due to their intrinsic capacity of encoding underlying structural correlation in data. To reflect the non-Euclidean geometry of SPD manifolds, many successful Riemannian metrics have been proposed. However, existing fixed metric tensors might lead to sub-optimal performance for SPD matrices learning, especially for SPD neural networks. To remedy this limitation, we leverage the idea of pullback and propose adaptive Riemannian metrics for SPD manifolds. Moreover, we present comprehensive theories for our metrics. Experiments on three datasets demonstrate that equipped with the proposed metrics, SPD networks can exhibit superior performance.
翻訳日:2023-03-29 17:43:57 公開日:2023-03-26
# 資源制約付き無線エッジネットワークを用いた並列分割学習

Efficient Parallel Split Learning over Resource-constrained Wireless Edge Networks ( http://arxiv.org/abs/2303.15991v1 )

ライセンス: Link先を確認
Zheng Lin, Guangyu Zhu, Yiqin Deng, Xianhao Chen, Yue Gao, Kaibin Huang, Yuguang Fang(参考訳) ますます深いニューラルネットワークは、フェデレーション学習(FL)のような、プライバシ強化による分散学習の、リソース制約のあるデバイスへの民主化を妨げる。 本稿では、エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱し、複数のクライアントデバイスがレイヤーワイドモデル分割を介してエッジサーバに大規模なトレーニングワークロードをオフロードできるようにする。 既存のPSLスキームが過度なトレーニング遅延と大量のデータ伝送を発生させるのを観察することにより、モデルトレーニングを加速するために、効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。 具体的には、epslはクライアント側のモデルのトレーニングを並列化し、ラスト層勾配アグリゲーションを通じてバックプロパゲーション(bp)の局所勾配の次元を削減し、サーバ側のトレーニングと通信遅延を大幅に削減する。 さらに,クライアントデバイスにおける不均質なチャネル条件と計算能力を考慮することで,サブチャネル割り当て,電力制御,カット層選択を共同で最適化し,ラウンド単位のレイテンシを最小化する。 シミュレーションの結果,epslフレームワークは,目標精度を達成するのに必要なトレーニングレイテンシを,最先端のベンチマークと比較して有意に低減し,最適化せずにリソース管理とレイヤ分割戦略をカスタマイズすることでレイテンシを大幅に削減できることがわかった。

The increasingly deeper neural networks hinder the democratization of privacy-enhancing distributed learning, such as federated learning (FL), to resource-constrained devices. To overcome this challenge, in this paper, we advocate the integration of edge computing paradigm and parallel split learning (PSL), allowing multiple client devices to offload substantial training workloads to an edge server via layer-wise model split. By observing that existing PSL schemes incur excessive training latency and large volume of data transmissions, we propose an innovative PSL framework, namely, efficient parallel split learning (EPSL), to accelerate model training. To be specific, EPSL parallelizes client-side model training and reduces the dimension of local gradients for back propagation (BP) via last-layer gradient aggregation, leading to a significant reduction in server-side training and communication latency. Moreover, by considering the heterogeneous channel conditions and computing capabilities at client devices, we jointly optimize subchannel allocation, power control, and cut layer selection to minimize the per-round latency. Simulation results show that the proposed EPSL framework significantly decreases the training latency needed to achieve a target accuracy compared with the state-of-the-art benchmarks, and the tailored resource management and layer split strategy can considerably reduce latency than the counterpart without optimization.
翻訳日:2023-03-29 14:59:35 公開日:2023-03-26
# Lazy Learning:高速でエネルギー効率の良いシナプス可塑性のための生物学的に着想を得た可塑性規則

Lazy learning: a biologically-inspired plasticity rule for fast and energy efficient synaptic plasticity ( http://arxiv.org/abs/2303.16067v1 )

ライセンス: Link先を確認
Aaron Pache and Mark CW van Rossum(参考訳) バックプロパゲーションを伴う分類タスクのためのニューラルネットワークのトレーニングでは、サンプルが正しく分類されたとしても、試験毎にパラメータが更新される。 対照的に、人間は学習努力を誤りに集中する。 人間の学習に触発されて,不正確なサンプルからのみ学習する遅延学習を導入する。 遅延学習は数行のコードで実装でき、ハイパーパラメータチューニングを必要としない。 遅延学習は最先端のパフォーマンスを実現し、データセットが大きい場合には特に適している。 例えば、単一の層MLPを使用して拡張MNISTの99.2%のテスト精度に達し、マッチしたバックプロップネットワークよりも7.6倍高速になる。

When training neural networks for classification tasks with backpropagation, parameters are updated on every trial, even if the sample is classified correctly. In contrast, humans concentrate their learning effort on errors. Inspired by human learning, we introduce lazy learning, which only learns on incorrect samples. Lazy learning can be implemented in a few lines of code and requires no hyperparameter tuning. Lazy learning achieves state-of-the-art performance and is particularly suited when datasets are large. For instance, it reaches 99.2% test accuracy on Extended MNIST using a single-layer MLP, and does so 7.6x faster than a matched backprop network
翻訳日:2023-03-29 14:41:20 公開日:2023-03-26
# 金融データサイエンスコンペティションのための多変量時系列データの特徴工学手法

Feature Engineering Methods on Multivariate Time-Series Data for Financial Data Science Competitions ( http://arxiv.org/abs/2303.16117v1 )

ライセンス: Link先を確認
Thomas Wong, Mauricio Barahona(参考訳) 時系列の異なる特徴工学手法を米国市場価格データに適用する。 モデルの予測能力は、ヌメライ信号ターゲットに対してテストされる。

We apply different feature engineering methods for time-series to US market price data. The predictive power of models are tested against Numerai-Signals targets.
翻訳日:2023-03-29 14:22:50 公開日:2023-03-26
# スパース定数行列の共通部分表現に基づく圧縮と乗法

Common Subexpression-based Compression and Multiplication of Sparse Constant Matrices ( http://arxiv.org/abs/2303.16106v1 )

ライセンス: Link先を確認
Emre Bilgili, Arda Yurdakul(参考訳) ディープラーニング推論では、モデルパラメータをプルーニングして量子化し、モデルサイズを小さくする。 圧縮法と共通部分表現(cse)除去アルゴリズムはスパース定数行列に適用され、低コストの組み込みデバイスにモデルをデプロイする。 しかし、最先端のcse除去法は大きな行列を扱うのにうまくスケールしない。 行列乗算アルゴリズムは従来の行列乗算法よりも長い時間で実行されるのに対し、CSEを200 \times 200$行列で抽出するのに数時間かかる。 さらに、CSEを利用した行列の圧縮方法も存在しない。 この問題に対する対策として,定数行列の列対におけるCSEを抽出するランダム探索に基づくアルゴリズムを提案する。 1分で1000ドル/1000ドルの行列用の加算木を生成する。 加算木を圧縮するために,圧縮スパースロウ(CSR)をCSEを含むように拡張して圧縮形式を示す。 従来のCSRフォーマットと比較して50\%以上の圧縮率を達成することができるが、シングルコア組み込みシステムのシミュレーションでは、行列乗算の実行時間を20\%$に削減できることを示している。

In deep learning inference, model parameters are pruned and quantized to reduce the model size. Compression methods and common subexpression (CSE) elimination algorithms are applied on sparse constant matrices to deploy the models on low-cost embedded devices. However, the state-of-the-art CSE elimination methods do not scale well for handling large matrices. They reach hours for extracting CSEs in a $200 \times 200$ matrix while their matrix multiplication algorithms execute longer than the conventional matrix multiplication methods. Besides, there exist no compression methods for matrices utilizing CSEs. As a remedy to this problem, a random search-based algorithm is proposed in this paper to extract CSEs in the column pairs of a constant matrix. It produces an adder tree for a $1000 \times 1000$ matrix in a minute. To compress the adder tree, this paper presents a compression format by extending the Compressed Sparse Row (CSR) to include CSEs. While compression rates of more than $50\%$ can be achieved compared to the original CSR format, simulations for a single-core embedded system show that the matrix multiplication execution time can be reduced by $20\%$.
翻訳日:2023-03-29 14:21:44 公開日:2023-03-26
# ガイド伝達学習

Guided Transfer Learning ( http://arxiv.org/abs/2303.16154v1 )

ライセンス: Link先を確認
Danko Nikoli\'c, Davor Andri\'c, Vjekoslav Nikoli\'c(参考訳) 機械学習は大量のデータと計算を必要とする。 また、モデルにはパラメータの数が等しく過度に増加する必要がある。 したがって、資源に対するこれらの要求を減らす技術を探すのは賢明である。 本稿では,ガイド伝達学習という手法を提案する。 ネットワーク内の各重みとバイアスは、新しいタスクを学習しながら、このパラメータがどの程度変更できるかを示す独自の指針パラメータを持つ。 ガイドパラメータは、初期スカウトプロセス中に学習される。 ガイド付き転送学習は、ネットワークのトレーニングに必要なリソースの削減につながる可能性がある。 一部のアプリケーションでは、ガイド付き転送学習により、少量のデータからネットワークを学習することができる。 他のケースでは、パラメータが小さいネットワークはタスクを学習することができ、そうでなければ大きなネットワークだけが学習できる。 ガイド転送学習は、データ量、モデルサイズ、計算資源の可用性が限界に達すると、多くのアプリケーションを持つ可能性がある。

Machine learning requires exuberant amounts of data and computation. Also, models require equally excessive growth in the number of parameters. It is, therefore, sensible to look for technologies that reduce these demands on resources. Here, we propose an approach called guided transfer learning. Each weight and bias in the network has its own guiding parameter that indicates how much this parameter is allowed to change while learning a new task. Guiding parameters are learned during an initial scouting process. Guided transfer learning can result in a reduction in resources needed to train a network. In some applications, guided transfer learning enables the network to learn from a small amount of data. In other cases, a network with a smaller number of parameters can learn a task which otherwise only a larger network could learn. Guided transfer learning potentially has many applications when the amount of data, model size, or the availability of computational resources reach their limits.
翻訳日:2023-03-29 14:13:39 公開日:2023-03-26
# 暗号通貨の価格決定要因のモデル化:ベイズネットワークアプローチ

Modelling Determinants of Cryptocurrency Prices: A Bayesian Network Approach ( http://arxiv.org/abs/2303.16148v1 )

ライセンス: Link先を確認
Rasoul Amirzadeh, Asef Nazari, Dhananjay Thiruvady and Mong Shan Ee(参考訳) 市場資本の伸びとアルトコイン(ビットコイン以外の通貨)の数は投資機会を提供し、価格変動の予測を複雑にしている。 この不安定で比較的未熟な市場における重要な課題は、これらの価格に影響を与える要因を特定する必要がある暗号通貨価格を予測することである。 本研究は,アルトコイン価格に影響を及ぼす要因について検討し,ベイズネットワークを用いた因果解析の観点から検討した。 特に、5つの主要なアルトコイン、金、石油、S\&P 500を含む伝統的な金融資産、ソーシャルメディアの相互作用の性質を研究することが研究課題である。 質問に対する回答を提供するために,従来の5つの金融資産の歴史的価格データ,ソーシャルメディアデータ,altcoinの価格データから構築した因果ネットワークを作成する。 その後のネットワークは因果的推論と診断に使われ、その結果、ソーシャルメディア(特にこの研究におけるtwitterデータ)がアルトコインの価格に最も影響する要因であることが示された。 さらに、その要因の変化に対して硬貨の反応を一般化することは不可能である。 そのため、特定の価格移動調査のためには別々に検討する必要がある。

The growth of market capitalisation and the number of altcoins (cryptocurrencies other than Bitcoin) provide investment opportunities and complicate the prediction of their price movements. A significant challenge in this volatile and relatively immature market is the problem of predicting cryptocurrency prices which needs to identify the factors influencing these prices. The focus of this study is to investigate the factors influencing altcoin prices, and these factors have been investigated from a causal analysis perspective using Bayesian networks. In particular, studying the nature of interactions between five leading altcoins, traditional financial assets including gold, oil, and S\&P 500, and social media is the research question. To provide an answer to the question, we create causal networks which are built from the historic price data of five traditional financial assets, social media data, and price data of altcoins. The ensuing networks are used for causal reasoning and diagnosis, and the results indicate that social media (in particular Twitter data in this study) is the most significant influencing factor of the prices of altcoins. Furthermore, it is not possible to generalise the coins' reactions against the changes in the factors. Consequently, the coins need to be studied separately for a particular price movement investigation.
翻訳日:2023-03-29 14:13:05 公開日:2023-03-26
# 因果関係に基づく分類モデルの非現実的説明

Causality-based Counterfactual Explanation for Classification Models ( http://arxiv.org/abs/2105.00703v3 )

ライセンス: Link先を確認
Tri Dung Duong, Qian Li, Guandong Xu(参考訳) 対実的説明は、モデルの本来の決定を変えるために摂動サンプルを生成する解釈可能な機械学習の一分野である。 生成されたサンプルは、エンドユーザが望ましい出力を達成するためのレコメンデーションとして機能する。 現在の反事実的説明のアプローチのほとんどは、連続変数を持つ微分可能損失関数のみを最適化できる勾配に基づく方法である。 したがって、勾配のない手法は分類変数を扱うために提案されているが、いくつかの大きな制限がある。 1) 特徴間の因果関係は,反事実を発生させるとき,一般的に無視される。 2) 反事実説明アルゴリズムは, 異なるデータセットや設定に対して繰り返し実行しなければならない損失関数の最適重み付けを導出するために, パラメータチューニングに多大な労力を要する。 本稿では,上記の制約に対処するため,プロトタイプベースの対実的説明フレームワーク(ProCE)を提案する。 ProCEは、カウンターファクトデータの特徴の根底にある因果関係を保存することができる。 さらに,多目的遺伝的アルゴリズムに基づく,連続的およびカテゴリ的特徴の混合型に対する反事実的説明を生成する,新しい勾配なし最適化を考案する。 数値実験により,本手法は最先端手法と好適な比較を行い,既存の予測モデルに適用できることを示した。 すべてのソースコードとデータは \url{https://github.com/tridungduong16/multiobj-scm-cf} で入手できる。

Counterfactual explanation is one branch of interpretable machine learning that produces a perturbation sample to change the model's original decision. The generated samples can act as a recommendation for end-users to achieve their desired outputs. Most of the current counterfactual explanation approaches are the gradient-based method, which can only optimize the differentiable loss functions with continuous variables. Accordingly, the gradient-free methods are proposed to handle the categorical variables, which however have several major limitations: 1) causal relationships among features are typically ignored when generating the counterfactuals, possibly resulting in impractical guidelines for decision-makers; 2) the counterfactual explanation algorithm requires a great deal of effort into parameter tuning for dertermining the optimal weight for each loss functions which must be conducted repeatedly for different datasets and settings. In this work, to address the above limitations, we propose a prototype-based counterfactual explanation framework (ProCE). ProCE is capable of preserving the causal relationship underlying the features of the counterfactual data. In addition, we design a novel gradient-free optimization based on the multi-objective genetic algorithm that generates the counterfactual explanations for the mixed-type of continuous and categorical features. Numerical experiments demonstrate that our method compares favorably with state-of-the-art methods and therefore is applicable to existing prediction models. All the source codes and data are available at \url{https://github.com/tridungduong16/multiobj-scm-cf}.
翻訳日:2023-03-29 05:05:56 公開日:2023-03-26
# 行列計算の分散還元とガウス過程への応用

Variance Reduction for Matrix Computations with Applications to Gaussian Processes ( http://arxiv.org/abs/2106.14565v3 )

ライセンス: Link先を確認
Anant Mathur, Sarat Moka and Zdravko Botev(参考訳) 近年の計算速度とメモリの発達に加え、方法論的進歩は確率シミュレーションの性能向上に寄与している。 本稿では,行列分解による行列計算の分散化に着目した。 大規模行列のエントリを推定するための既存の分散低減手法に関する洞察を提供する。 一般的な手法では、行列が因子化されるときに可能な分散の低減は利用しない。 行列の正方根因数分解の計算がいくつかの重要な場合において任意に優れた確率的性能を達成することを示す。 さらに,行列の積のトレースに対する因子推定器を提案し,ガウス過程の対数類似度を推定する特定の問題に対して最大1000倍の効率で推定できることを示した。 さらに,対数決定式を確率密度の正規化定数として扱う正の半定値行列の対数決定式の新たな推定器を提供する。

In addition to recent developments in computing speed and memory, methodological advances have contributed to significant gains in the performance of stochastic simulation. In this paper, we focus on variance reduction for matrix computations via matrix factorization. We provide insights into existing variance reduction methods for estimating the entries of large matrices. Popular methods do not exploit the reduction in variance that is possible when the matrix is factorized. We show how computing the square root factorization of the matrix can achieve in some important cases arbitrarily better stochastic performance. In addition, we propose a factorized estimator for the trace of a product of matrices and numerically demonstrate that the estimator can be up to 1,000 times more efficient on certain problems of estimating the log-likelihood of a Gaussian process. Additionally, we provide a new estimator of the log-determinant of a positive semi-definite matrix where the log-determinant is treated as a normalizing constant of a probability density.
翻訳日:2023-03-29 04:09:57 公開日:2023-03-26
# 両面市場におけるオフポリティ評価のためのマルチエージェント強化学習フレームワーク

A Multi-Agent Reinforcement Learning Framework for Off-Policy Evaluation in Two-sided Markets ( http://arxiv.org/abs/2202.10574v4 )

ライセンス: Link先を確認
Chengchun Shi, Runzhe Wan, Ge Song, Shikai Luo, Rui Song and Hongtu Zhu(参考訳) ライドシェアリング会社のような両面の市場は、時間や場所の連続的な決定を行う被験者のグループを巻き込むことが多い。 スマートフォンとモノのインターネットの急速な発展により、彼らは人間の輸送環境を大きく変えた。 本稿では,様々な分野の複数の製品(または治療)を時間とともに受け取っているライドシェアリング企業における大規模艦隊管理について考察する。 これらの研究には、政策評価などの主要な技術的課題が生じる。 一 場所と時間の間の干渉を引き起こす空間的・時間的近接性 (ii) 位置の多さは、次元の呪いをもたらす。 両課題を同時に解決するために,政策評価を行うためのマルチエージェント強化学習(MARL)フレームワークを導入する。 状態-作用空間の高次元性にも拘わらず, 異なる積の平均結果に対する新しい推定器を提案する。 提案する推定器はシミュレーション実験で好適に機能する。 さらに,二面市場企業から得られた実データを用いて,助成方針の異なる適用効果を評価する手法について紹介する。 提案手法のPython実装はhttps://github.com/RunzheStat/CausalMARLで公開されている。

The two-sided markets such as ride-sharing companies often involve a group of subjects who are making sequential decisions across time and/or location. With the rapid development of smart phones and internet of things, they have substantially transformed the transportation landscape of human beings. In this paper we consider large-scale fleet management in ride-sharing companies that involve multiple units in different areas receiving sequences of products (or treatments) over time. Major technical challenges, such as policy evaluation, arise in those studies because (i) spatial and temporal proximities induce interference between locations and times; and (ii) the large number of locations results in the curse of dimensionality. To address both challenges simultaneously, we introduce a multi-agent reinforcement learning (MARL) framework for carrying policy evaluation in these studies. We propose novel estimators for mean outcomes under different products that are consistent despite the high-dimensionality of state-action space. The proposed estimator works favorably in simulation experiments. We further illustrate our method using a real dataset obtained from a two-sided marketplace company to evaluate the effects of applying different subsidizing policies. A Python implementation of our proposed method is available at https://github.com/RunzheStat/CausalMARL.
翻訳日:2023-03-29 03:51:14 公開日:2023-03-26
# パンデミック中は犠牲者にならないで! 新型コロナウイルス(covid-19)のtwitterにおけるセキュリティとプライバシーの脅威の分析

Don't be a Victim During a Pandemic! Analysing Security and Privacy Threats in Twitter During COVID-19 ( http://arxiv.org/abs/2202.10543v2 )

ライセンス: Link先を確認
Bibhas Sharma, Ishan Karunanayake, Rahat Masood, Muhammad Ikram(参考訳) 新型コロナウイルス(COVID-19)のロックダウンでソーシャルメディアプラットフォームの利用が急増している。 これらのロックダウン期間は、一連の新しいサイバー犯罪をもたらし、攻撃者は様々な脅威でソーシャルメディアユーザーを犠牲にすることができる。 本稿では,ソーシャルメディアユーザのセキュリティとプライバシに及ぼすパンデミックとロックダウン期間の影響について,大規模研究を行う。 我々は、533日間のデータクローリングから1060万件のCOVID関連ツイートを分析し、3つの異なる期間(例えば、前、中、そしてロックダウン後の)におけるユーザーのセキュリティとプライバシの振る舞いを調査します。 本研究は、パンデミックの状況(近くの新型コロナウイルス検査場所を共有するなど)をツイートに書き込む際に、ユーザーが意図せず個人特定可能な情報を共有できることを示しています。 ユーザーがパンデミックに関する3つ以上のセンシティブなツイートを投稿すれば、プライバシーリスクは100%に達する。 パンデミックの異なる段階でソーシャルメディア上で共有されている不審なドメインの数を調査した。 本分析の結果,ロックダウン期間中の疑わしいドメイン数は,他のロックダウンフェーズと比較して増加した。 私たちはIT、検索エンジン、ビジネスが疑わしいドメインを含む上位3つのカテゴリであると考えています。 我が国のパンデミック状況に悪質な行為を扇動する敵の戦略が変化していることを明らかにする。

There has been a huge spike in the usage of social media platforms during the COVID-19 lockdowns. These lockdown periods have resulted in a set of new cybercrimes, thereby allowing attackers to victimise social media users with a range of threats. This paper performs a large-scale study to investigate the impact of a pandemic and the lockdown periods on the security and privacy of social media users. We analyse 10.6 Million COVID-related tweets from 533 days of data crawling and investigate users' security and privacy behaviour in three different periods (i.e., before, during, and after the lockdown). Our study shows that users unintentionally share more personal identifiable information when writing about the pandemic situation (e.g., sharing nearby coronavirus testing locations) in their tweets. The privacy risk reaches 100% if a user posts three or more sensitive tweets about the pandemic. We investigate the number of suspicious domains shared on social media during different phases of the pandemic. Our analysis reveals an increase in the number of suspicious domains during the lockdown compared to other lockdown phases. We observe that IT, Search Engines, and Businesses are the top three categories that contain suspicious domains. Our analysis reveals that adversaries' strategies to instigate malicious activities change with the country's pandemic situation.
翻訳日:2023-03-29 03:50:57 公開日:2023-03-26
# レーザー: 2次元視覚定位のための潜在空間レンダリング

LASER: LAtent SpacE Rendering for 2D Visual Localization ( http://arxiv.org/abs/2204.00157v2 )

ライセンス: Link先を確認
Zhixiang Min, Naji Khosravan, Zachary Bessinger, Manjunath Narayana, Sing Bing Kang, Enrique Dunn, Ivaylo Boyadzhiev(参考訳) 2次元フロアマップのための画像ベースモンテカルロ局在化(MCL)フレームワークであるLASERを提案する。 LASERはラテント空間レンダリングの概念を導入し、フロアマップ上の2Dポーズ仮説を直接幾何学的に構造化されたラテント空間に描画する。 タイトに結合されたレンダリングコードブックスキームにより、表示線特徴は、そのジオメトリ(長さ、入射角)に基づいてレンダリング時に動的に決定され、ビュー依存の細粒度可変で表現される。 当社のコードブック方式は,機能符号化とレンダリングを効果的に切り離し,遅延空間レンダリングを10KHz以上の速度で実行可能にする。 さらに、計量学習により、幾何学的に構造化された潜在空間は、仮説と任意の視野を持つ画像の問合せの両方に共通である。 その結果、LASERはパノラマ画像と遠近画像の両方の大規模屋内ローカライゼーションデータセット(ZInDとStructured3D)の最先端性能を達成し、既存の学習手法よりも高速である。

We present LASER, an image-based Monte Carlo Localization (MCL) framework for 2D floor maps. LASER introduces the concept of latent space rendering, where 2D pose hypotheses on the floor map are directly rendered into a geometrically-structured latent space by aggregating viewing ray features. Through a tightly coupled rendering codebook scheme, the viewing ray features are dynamically determined at rendering-time based on their geometries (i.e. length, incident-angle), endowing our representation with view-dependent fine-grain variability. Our codebook scheme effectively disentangles feature encoding from rendering, allowing the latent space rendering to run at speeds above 10KHz. Moreover, through metric learning, our geometrically-structured latent space is common to both pose hypotheses and query images with arbitrary field of views. As a result, LASER achieves state-of-the-art performance on large-scale indoor localization datasets (i.e. ZInD and Structured3D) for both panorama and perspective image queries, while significantly outperforming existing learning-based methods in speed.
翻訳日:2023-03-29 03:41:53 公開日:2023-03-26
# FedGiA: フェデレートラーニングのための効率的なハイブリッドアルゴリズム

FedGiA: An Efficient Hybrid Algorithm for Federated Learning ( http://arxiv.org/abs/2205.01438v5 )

ライセンス: Link先を確認
Shenglong Zhou and Geoffrey Ye Li(参考訳) フェデレーション学習は最近その進歩を示していますが、アルゴリズムがコミュニケーションリソースを節約し、計算コストを削減し、収束するかどうかといった多くの課題に直面しています。 これらの問題に対処するために,マルチプライアの勾配降下法と不正確な交互方向法を組み合わせたハイブリッドフェデレーション学習アルゴリズム(fedgia)を提案する。 提案アルゴリズムは理論的・数値的に複数の最先端アルゴリズムよりも通信効率が高く,計算効率が高い。 また、温和な条件下では世界的にも収束する。

Federated learning has shown its advances recently but is still facing many challenges, such as how algorithms save communication resources and reduce computational costs, and whether they converge. To address these critical issues, we propose a hybrid federated learning algorithm (FedGiA) that combines the gradient descent and the inexact alternating direction method of multipliers. The proposed algorithm is more communication- and computation-efficient than several state-of-the-art algorithms theoretically and numerically. Moreover, it also converges globally under mild conditions.
翻訳日:2023-03-29 03:33:36 公開日:2023-03-26
# カメラネットワークにおける人物検索を支援するクロスカメラトラジェクタ

Cross-Camera Trajectories Help Person Retrieval in a Camera Network ( http://arxiv.org/abs/2204.12900v2 )

ライセンス: Link先を確認
Xin Zhang and Xiaohua Xie and Jianhuang Lai and Wei-Shi Zheng(参考訳) オーバラップしないカメラネットワークで撮影した複数のビデオからクエリを検索することに関心がある。 既存の手法では、純粋な視覚的マッチングや時間的制約を考慮することが多いが、カメラネットワークの空間情報は無視する。 この問題に対処するために,時間情報と空間情報を統合したクロスカメラトラジェクトリ生成に基づく歩行者検索フレームワークを提案する。 本研究では,歩行者の歩行習慣とカメラ間の経路配置を統合し,協調確率分布を形成する新しいクロスカメラ時空間モデルを提案する。 スパースサンプリングされた歩行者データを用いて、カメラネットワーク内のこのような時空間モデルを特定できる。 時空間モデルに基づいて、クロスカメラトラジェクトリを条件付きランダム場モデルにより抽出し、制限された非負行列分解によりさらに最適化することができる。 最後に,歩行者検索結果を改善するため,軌道再分類手法を提案する。 本手法の有効性を検証するため,実際の監視シナリオにおいて,最初のクロスカメラ歩行者軌跡データセットであるPerson Trajectory Datasetを構築した。 提案手法の有効性とロバスト性に関する広範な実験を行った。

We are concerned with retrieving a query person from multiple videos captured by a non-overlapping camera network. Existing methods often rely on purely visual matching or consider temporal constraints but ignore the spatial information of the camera network. To address this issue, we propose a pedestrian retrieval framework based on cross-camera trajectory generation, which integrates both temporal and spatial information. To obtain pedestrian trajectories, we propose a novel cross-camera spatio-temporal model that integrates pedestrians' walking habits and the path layout between cameras to form a joint probability distribution. Such a spatio-temporal model among a camera network can be specified using sparsely sampled pedestrian data. Based on the spatio-temporal model, cross-camera trajectories can be extracted by the conditional random field model and further optimized by restricted non-negative matrix factorization. Finally, a trajectory re-ranking technique is proposed to improve the pedestrian retrieval results. To verify the effectiveness of our method, we construct the first cross-camera pedestrian trajectory dataset, the Person Trajectory Dataset, in real surveillance scenarios. Extensive experiments verify the effectiveness and robustness of the proposed method.
翻訳日:2023-03-29 03:33:01 公開日:2023-03-26
# SceneTrilogy:人間のSketchと写真とテキストの相補性について

SceneTrilogy: On Human Scene-Sketch and its Complementarity with Photo and Text ( http://arxiv.org/abs/2204.11964v3 )

ライセンス: Link先を確認
Pinaki Nath Chowdhury and Ayan Kumar Bhunia and Aneeshan Sain and Subhadeep Koley and Tao Xiang and Yi-Zhe Song(参考訳) 本稿では,シーン理解を人間のスケッチに含めるように拡張する。 その結果は、スケッチ、写真、テキストの3つの多様かつ相補的なモダリティから、シーン表現の完全な三部作となる。 堅固な3方向埋め込みを学習する代わりに、この相補性によってもたらされる‘オプティナリティ’を完全にサポートする柔軟なジョイント埋め込みを学ぶことに焦点を合わせます。 私たちの埋め込みは2つの軸に任意性をサポートする。 (i) モダリティ間のオプション性 -- 検索などの下流タスクのクエリとしてモダリティの組み合わせを使用する。 (ii)タスク間のオプション性 - 識別的(検索など)または生成的タスク(キャプションなど)の埋め込みを同義的に利用すること。 これによってエンドユーザは、それぞれのモダリティを最大限活用することで、柔軟性が得られます。 まず、情報ボトルネックと条件付きインバータブルニューラルネットワークの組み合わせは、スケッチ、写真、テキストにおいてモダリティに依存しないコンポーネントからモダリティ固有のコンポーネントを分離する。 第二に、スケッチ、写真、テキストからのモダリティ非依存のインスタンスは、修正されたクロスアテンションを使用してシナジー化される。 一度学んだら、私達の埋め込みは、タスク固有の修正なしに、スケッチを組み込むことによって初めて可能となるものを含む、シーン関連のタスクの多面体に対応できることを示します。 プロジェクトページ: \url{http://www.pinakinathc.me/scenetrilogy}

In this paper, we extend scene understanding to include that of human sketch. The result is a complete trilogy of scene representation from three diverse and complementary modalities -- sketch, photo, and text. Instead of learning a rigid three-way embedding and be done with it, we focus on learning a flexible joint embedding that fully supports the ``optionality" that this complementarity brings. Our embedding supports optionality on two axes: (i) optionality across modalities -- use any combination of modalities as query for downstream tasks like retrieval, (ii) optionality across tasks -- simultaneously utilising the embedding for either discriminative (e.g., retrieval) or generative tasks (e.g., captioning). This provides flexibility to end-users by exploiting the best of each modality, therefore serving the very purpose behind our proposal of a trilogy in the first place. First, a combination of information-bottleneck and conditional invertible neural networks disentangle the modality-specific component from modality-agnostic in sketch, photo, and text. Second, the modality-agnostic instances from sketch, photo, and text are synergised using a modified cross-attention. Once learned, we show our embedding can accommodate a multi-facet of scene-related tasks, including those enabled for the first time by the inclusion of sketch, all without any task-specific modifications. Project Page: \url{http://www.pinakinathc.me/scenetrilogy}
翻訳日:2023-03-29 03:32:43 公開日:2023-03-26
# 実世界深部局所運動デブラリング

Real-World Deep Local Motion Deblurring ( http://arxiv.org/abs/2204.08179v2 )

ライセンス: Link先を確認
Haoying Li, Ziran Zhang, Tingting Jiang, Peng Luo, Huajun Feng, Zhihai Xu(参考訳) 既存のデブラリング手法のほとんどは、カメラシェイクによるグローバルなぼやけを取り除くことに集中しているが、オブジェクトの動きによる局所的なぼやけをうまく処理できない。 実シーンにおける局所的乱れの空白を埋めるために, 同期ビーム分割撮影システムで撮影し, 後処理パイプラインで補正した最初の実局所的動きボケデータセット(ReLoBlur)を構築した。 ReLoBlurをベースとしたLBAG(Local Blur-Aware Gated Network)と,グローバルデブリとローカルデブロワーのギャップを埋めるローカルブラー認識技術を提案する。 1) 背景部分抽出に基づくぼやけた領域の局所化によるぼやけた検出手法 2)ネットワークをぼやけた領域に集中させるゲート機構 3)データ不均衡問題に対処するためのぼやけ認識パッチクロッピング戦略。 広範囲にわたる実験により,リロブーラデータセットの信頼性が証明され,提案手法を使わずにlbagが最先端のグローバルデブロリング法よりも優れた性能を実現することが証明された。

Most existing deblurring methods focus on removing global blur caused by camera shake, while they cannot well handle local blur caused by object movements. To fill the vacancy of local deblurring in real scenes, we establish the first real local motion blur dataset (ReLoBlur), which is captured by a synchronized beam-splitting photographing system and corrected by a post-progressing pipeline. Based on ReLoBlur, we propose a Local Blur-Aware Gated network (LBAG) and several local blur-aware techniques to bridge the gap between global and local deblurring: 1) a blur detection approach based on background subtraction to localize blurred regions; 2) a gate mechanism to guide our network to focus on blurred regions; and 3) a blur-aware patch cropping strategy to address data imbalance problem. Extensive experiments prove the reliability of ReLoBlur dataset, and demonstrate that LBAG achieves better performance than state-of-the-art global deblurring methods without our proposed local blur-aware techniques.
翻訳日:2023-03-29 03:30:54 公開日:2023-03-26
# 非エルミート系の不確かさ関係

Uncertainty Relation for Non-Hermitian Systems ( http://arxiv.org/abs/2206.02844v3 )

ライセンス: Link先を確認
Namrata Shukla, Ranjan Modak, and Bhabani Prasad Mandal(参考訳) 任意の有限次元 pt invariant non-hermitian quantum systems に対する不確かさ関係を特別な内積フレームワーク内で構築する。 この構成は、より一般的な演算子クラスである優れた可観測性によって導かれる。 このような非エルミート系に対する2つの良い観測可能量を測定するときの量子フィッシャー情報の累積ゲインは、エルミート系よりもはるかに優れていることを示す。 最小不確実性状態は例外点付近でこのゲインの最良の候補であり、知的または同時な非エルミート量子センサをサポートする。

We construct uncertainty relation for arbitrary finite dimensional PT invariant non-Hermitian quantum systems within a special inner product framework. This construction is led by good observables which are a more general class of operators. We show that the cumulative gain in the quantum Fisher information when measuring two good observables for such non-Hermitian systems is way better than their Hermitian counterpart. Minimum uncertainty states being the best candidates for this gain near the exceptional point supports the intelligent or simultaneous non-Hermitian quantum sensors.
翻訳日:2023-03-29 03:23:04 公開日:2023-03-26
# 動的潜在状態モデルにおける因果解析

Counterfactual Analysis in Dynamic Latent State Models ( http://arxiv.org/abs/2205.13832v3 )

ライセンス: Link先を確認
Martin Haugh and Raghav Singal(参考訳) 隠れた状態を持つ動的モデルで反事実解析を行う最適化ベースのフレームワークを提供する。 我々のフレームワークは,(1)状態が隠蔽され(2)モデルが動的である2つの主要な課題に対処し,対実的なクエリに応答するための‘abduction, action, and prediction’アプローチに基づいている。 基礎となる因果メカニズムに関する知識の欠如と、そのようなメカニズムが無限に存在する可能性を認識し、この空間上で最適化し、反事実量の上限を計算します。 私たちの研究は、因果関係、状態空間モデル、シミュレーション、最適化からのアイデアをまとめ、乳がんのケーススタディに適用します。 我々の知る限りでは、動的潜在状態モデルにおいて、カウンターファクトクエリの下位および上位境界を初めて計算する。

We provide an optimization-based framework to perform counterfactual analysis in a dynamic model with hidden states. Our framework is grounded in the ``abduction, action, and prediction'' approach to answer counterfactual queries and handles two key challenges where (1) the states are hidden and (2) the model is dynamic. Recognizing the lack of knowledge on the underlying causal mechanism and the possibility of infinitely many such mechanisms, we optimize over this space and compute upper and lower bounds on the counterfactual quantity of interest. Our work brings together ideas from causality, state-space models, simulation, and optimization, and we apply it on a breast cancer case study. To the best of our knowledge, we are the first to compute lower and upper bounds on a counterfactual query in a dynamic latent-state model.
翻訳日:2023-03-29 03:22:24 公開日:2023-03-26
# シーケンシャルヒューマン教育のための説明機械学習

Explanatory machine learning for sequential human teaching ( http://arxiv.org/abs/2205.10250v2 )

ライセンス: Link先を確認
Lun Ai and Johannes Langer and Stephen H. Muggleton and Ute Schmid(参考訳) 近年,機械学習理論の理解性の話題が注目されている。 帰納論理プログラミング (ILP) は論理プログラミングを用いて、推論と帰納法に基づく小さなデータから論理理論を導出する。 学習された理論は、獲得した知識の宣言的な記述として規則の形で表現される。 初期の研究で著者らは、単純な分類タスクのための機械学習論理則に基づく人間の理解が測定可能な増加を示す最初の証拠を提供した。 その後の研究で、機械学習による人間への説明の提示は、ゲーム学習の文脈において有益かつ有害な効果をもたらすことが判明した。 概念提示の順序が人間の理解に与える影響を検証し,理解度に関する調査を継続する。 本研究では,カリキュラムの順序の説明効果と,逐次問題解決のための機械学習による説明の存在について検討する。 私たちはそれを示します 1) a と b は、a と b の学習に関して、b の前に a を学習する方が、a と b の前には、より人間の理解がより良くなるタスクが存在する。 2)A学習時の説明の存在がB学習時の人間の理解の向上に寄与するタスクA,Bが存在し,既存の理解度の定義に基づく逐次的な指導が理解に与える影響の枠組みを提案し,人為的な試行において収集されたデータからの支持を示す。 経験的結果から,複雑さが増す概念の逐次指導 a)人間の理解に有益な効果があり b) 分割解決戦略の人間的再発見につながること、及び c) 機械学習による説明の研究は、人間の問題解決戦略の適応性を向上させる。

The topic of comprehensibility of machine-learned theories has recently drawn increasing attention. Inductive Logic Programming (ILP) uses logic programming to derive logic theories from small data based on abduction and induction techniques. Learned theories are represented in the form of rules as declarative descriptions of obtained knowledge. In earlier work, the authors provided the first evidence of a measurable increase in human comprehension based on machine-learned logic rules for simple classification tasks. In a later study, it was found that the presentation of machine-learned explanations to humans can produce both beneficial and harmful effects in the context of game learning. We continue our investigation of comprehensibility by examining the effects of the ordering of concept presentations on human comprehension. In this work, we examine the explanatory effects of curriculum order and the presence of machine-learned explanations for sequential problem-solving. We show that 1) there exist tasks A and B such that learning A before B has a better human comprehension with respect to learning B before A and 2) there exist tasks A and B such that the presence of explanations when learning A contributes to improved human comprehension when subsequently learning B. We propose a framework for the effects of sequential teaching on comprehension based on an existing definition of comprehensibility and provide evidence for support from data collected in human trials. Empirical results show that sequential teaching of concepts with increasing complexity a) has a beneficial effect on human comprehension and b) leads to human re-discovery of divide-and-conquer problem-solving strategies, and c) studying machine-learned explanations allows adaptations of human problem-solving strategy with better performance.
翻訳日:2023-03-29 03:21:24 公開日:2023-03-26
# 適応型カリキュラムと特徴連接による眼科疾患の合同評価のための学習ロバスト表現

Learning Robust Representation for Joint Grading of Ophthalmic Diseases via Adaptive Curriculum and Feature Disentanglement ( http://arxiv.org/abs/2207.04183v2 )

ライセンス: Link先を確認
Haoxuan Che and Haibo Jin and Hao Chen(参考訳) 糖尿病性網膜症(DR)と糖尿病性黄斑浮腫(DME)は、世界中で永久盲症の原因となっている。 DRおよびDMEの一般化能力に優れた自動階調システムの設計は臨床実践において不可欠である。 しかし、先行研究はDRとDMEを別々に評価し、それら間の内部相関を考慮せずに、あるいは共有特徴表現によってそれらを共同で評価するが、難しいサンプルやデータのバイアスによって生じる潜在的な一般化問題を無視する。 これらの課題に対処するために,動的困難認識重み付き損失(DAW)と二重ストリーム非絡み合い学習アーキテクチャ(DETACH)を併用した共同学習フレームワークを提案する。 カリキュラム学習にインスパイアされたDAWは、簡単なサンプルから困難サンプルを動的に、適応的に測定することで学習する。 DETACHは、バイアスの潜在的な強調を避けるために、グレーディングタスクの特徴を分離する。 DAWとDETACHの追加により、DRとDMEの内部相関を探索し、より優れたグレーディング性能を実現するために、頑健な不整形特徴表現を学習する。 3つのベンチマークの実験は、データセット内テストとデータセット間テストの両方において、我々のフレームワークの有効性と堅牢性を示している。

Diabetic retinopathy (DR) and diabetic macular edema (DME) are leading causes of permanent blindness worldwide. Designing an automatic grading system with good generalization ability for DR and DME is vital in clinical practice. However, prior works either grade DR or DME independently, without considering internal correlations between them, or grade them jointly by shared feature representation, yet ignoring potential generalization issues caused by difficult samples and data bias. Aiming to address these problems, we propose a framework for joint grading with the dynamic difficulty-aware weighted loss (DAW) and the dual-stream disentangled learning architecture (DETACH). Inspired by curriculum learning, DAW learns from simple samples to difficult samples dynamically via measuring difficulty adaptively. DETACH separates features of grading tasks to avoid potential emphasis on the bias. With the addition of DAW and DETACH, the model learns robust disentangled feature representations to explore internal correlations between DR and DME and achieve better grading performance. Experiments on three benchmarks show the effectiveness and robustness of our framework under both the intra-dataset and cross-dataset tests.
翻訳日:2023-03-29 03:15:29 公開日:2023-03-26
# PVO:Panoptic Visual Odometry

PVO: Panoptic Visual Odometry ( http://arxiv.org/abs/2207.01610v2 )

ライセンス: Link先を確認
Weicai Ye, Xinyue Lan, Shuo Chen, Yuhang Ming, Xingyuan Yu, Hujun Bao, Zhaopeng Cui, Guofeng Zhang(参考訳) 本稿では,シーンの動き,形状,パンオプティカルセグメンテーション情報をより包括的にモデル化するための,新しいパンオプティカルビジュアルオドメトリフレームワークpvoを提案する。 私たちのpvoは視覚オドメトリ(vo)とビデオパノプティックセグメンテーション(vps)を統一ビューでモデル化し,この2つのタスクが相互に有益となるようにした。 具体的には、イメージpanopticセグメンテーションのガイダンスにより、voモジュールにpanoptic updateモジュールを導入する。 このPanoptic-Enhanced VO Moduleは、カメラ内の動的物体の影響を、パン光学対応のダイナミックマスクで推定することができる。 一方、VO強化VPSモジュールは、VOモジュールから得られるカメラポーズ、深さ、光学フローなどの幾何学的情報を用いて、フライ上の電流フレームのパノプティックセグメンテーション結果を隣接フレームに融合することにより、セグメンテーション精度も向上する。 これら2つのモジュールは繰り返し反復最適化を通じて相互に寄与する。 広汎な実験により、PVOは視覚計測とビデオパノプティクスのセグメンテーションの両方において最先端の手法より優れていることが示された。

We present PVO, a novel panoptic visual odometry framework to achieve more comprehensive modeling of the scene motion, geometry, and panoptic segmentation information. Our PVO models visual odometry (VO) and video panoptic segmentation (VPS) in a unified view, which makes the two tasks mutually beneficial. Specifically, we introduce a panoptic update module into the VO Module with the guidance of image panoptic segmentation. This Panoptic-Enhanced VO Module can alleviate the impact of dynamic objects in the camera pose estimation with a panoptic-aware dynamic mask. On the other hand, the VO-Enhanced VPS Module also improves the segmentation accuracy by fusing the panoptic segmentation result of the current frame on the fly to the adjacent frames, using geometric information such as camera pose, depth, and optical flow obtained from the VO Module. These two modules contribute to each other through recurrent iterative optimization. Extensive experiments demonstrate that PVO outperforms state-of-the-art methods in both visual odometry and video panoptic segmentation tasks.
翻訳日:2023-03-29 03:14:50 公開日:2023-03-26
# revisiting classifier: 映像認識のための視覚言語モデル転送

Revisiting Classifier: Transferring Vision-Language Models for Video Recognition ( http://arxiv.org/abs/2207.01297v4 )

ライセンス: Link先を確認
Wenhao Wu, Zhun Sun, Wanli Ouyang(参考訳) ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。 計算能力の増大に伴い、モデルアーキテクチャとデータ量の大規模なビジョン言語事前学習モデルが、現在オープンソースとして提供されています。 本研究では,映像分類タスクにおける知識の伝達に着目した。 従来の手法では、視覚分類のための線形分類器ヘッドをランダムに初期化するが、下流の視覚認識タスクにテキストエンコーダを使用する。 本稿では,線形分類器の役割を再検討し,事前学習モデルとは異なる知識で分類器を置き換える。 予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。 実験により,本手法は映像分類の性能とトレーニング速度の両方を,モデルに無視できる変化を伴って改善することを示した。 我々の単純で効果的なチューニングパラダイムは、最先端のパフォーマンスと、ゼロショット、少数ショット、一般認識といった様々なビデオ認識シナリオの効率的なトレーニングを実現する。 特に我々のパラダイムは、kinetics-400における最先端の精度を87.8%達成し、また5つの人気のあるビデオデータセットのゼロショット、少数ショット設定で、以前の方法より20~50%の絶対top-1精度を上回っています。 コードとモデルはhttps://github.com/whwu95/Text4Vis で見ることができる。

Transferring knowledge from task-agnostic pre-trained deep models for downstream tasks is an important topic in computer vision research. Along with the growth of computational capacity, we now have open-source vision-language pre-trained models in large scales of the model architecture and amount of data. In this study, we focus on transferring knowledge for video classification tasks. Conventional methods randomly initialize the linear classifier head for vision classification, but they leave the usage of the text encoder for downstream visual recognition tasks undiscovered. In this paper, we revise the role of the linear classifier and replace the classifier with the different knowledge from pre-trained model. We utilize the well-pretrained language model to generate good semantic target for efficient transferring learning. The empirical study shows that our method improves both the performance and the training speed of video classification, with a negligible change in the model. Our simple yet effective tuning paradigm achieves state-of-the-art performance and efficient training on various video recognition scenarios, i.e., zero-shot, few-shot, general recognition. In particular, our paradigm achieves the state-of-the-art accuracy of 87.8% on Kinetics-400, and also surpasses previous methods by 20~50% absolute top-1 accuracy under zero-shot, few-shot settings on five popular video datasets. Code and models can be found at https://github.com/whwu95/Text4Vis .
翻訳日:2023-03-29 03:14:28 公開日:2023-03-26
# 量子スイッチによる非可逆性とクラスタリング量子観測性の測定

Measuring incompatibility and clustering quantum observables with a quantum switch ( http://arxiv.org/abs/2208.06210v3 )

ライセンス: Link先を確認
Ning Gao, Dantong Li, Anchit Mishra, Junchen Yan, Kyrylo Simonov, Giulio Chiribella(参考訳) 不整合可観測物の存在は量子力学の基礎であり、量子技術における貴重な資源である。 ここでは、相互固有空間外乱(med)と呼ばれる非可逆性の尺度を導入し、他の固有空間上の鋭い可観測性の測定によって引き起こされる外乱量を定量化する。 MEDはフォン・ノイマン測度の空間に関する計量を提供しており、任意の量子過程の非可換性を定量化できる量子スイッチと呼ばれる設定を用いて、測定プロセスが不定順序で振る舞うことによって効率的に推定することができる。 これらの機能のおかげで、MEDは量子機械学習タスクで使用できる。 我々は、未知のフォン・ノイマン測度をクラスタリングする教師なしアルゴリズムを提供することで、この応用を実証する。 我々のアルゴリズムは、ほぼ同じ測定コンテキストを共有する観測者のグループを特定するために、ノイズに対して堅牢である。

The existence of incompatible observables is a cornerstone of quantum mechanics and a valuable resource in quantum technologies. Here we introduce a measure of incompatibility, called the mutual eigenspace disturbance (MED), which quantifies the amount of disturbance induced by the measurement of a sharp observable on the eigenspaces of another. The MED provides a metric on the space of von Neumann measurements, and can be efficiently estimated by letting the measurement processes act in an indefinite order, using a setup known as the quantum switch, which also allows one to quantify the noncommutativity of arbitrary quantum processes. Thanks to these features, the MED can be used in quantum machine learning tasks. We demonstrate this application by providing an unsupervised algorithm that clusters unknown von Neumann measurements. Our algorithm is robust to noise can be used to identify groups of observers that share approximately the same measurement context.
翻訳日:2023-03-29 03:05:54 公開日:2023-03-26
# ノイズセンシングと暗黒物質探索の究極の精度限界

Ultimate precision limit of noise sensing and dark matter search ( http://arxiv.org/abs/2208.13712v2 )

ライセンス: Link先を確認
Haowei Shi and Quntao Zhuang(参考訳) 暗黒物質の性質は不明で、体系的な探索を求めている。 アクシオンダークマターの場合、このような探索はダークマターとマイクロ波ハロスコープの弱い結合から生じる正当なランダムノイズを見つけることに依存する。 その過程を量子チャネルとしてモデル化し,ノイズセンシングの基本精度限界を導出する。 これにより、2モードスクイーズド真空に基づく絡み合い支援戦略が最適となり、一方、1モードスクイーズド真空の最適性は損失のない場合に限られる。 最適性能を達成するために, ‘nulling’ 測定(squeezing と photon counting)を提案する。 走査率に関しては、20デシベルの強度であっても、単一モードのスクイーズ処理は真空入力に光子計数することで達成される真空限界を過小評価するが、この2モードのスクイーズ真空は真空限界よりも大きく、最適に有利であり、よりエキゾチックな量子資源はもはや不要である。 本研究はダークマター探索における絡み合い支援とマイクロ波光子計数の必要性を強調する。

The nature of dark matter is unknown and calls for a systematical search. For axion dark matter, such a search relies on finding feeble random noise arising from the weak coupling between dark matter and microwave haloscopes. We model such process as a quantum channel and derive the fundamental precision limit of noise sensing. An entanglement-assisted strategy based on two-mode squeezed vacuum is thereby demonstrated optimal, while the optimality of a single-mode squeezed vacuum is found limited to the lossless case. We propose a `nulling' measurement (squeezing and photon counting) to achieve the optimal performances. In terms of the scan rate, even with 20-decibel of strength, single-mode squeezing still underperforms the vacuum limit which is achieved by photon counting on vacuum input; while the two-mode squeezed vacuum provides large and close-to-optimum advantage over the vacuum limit, thus more exotic quantum resources are no longer required. Our results highlight the necessity of entanglement assistance and microwave photon counting in dark matter search.
翻訳日:2023-03-29 02:56:38 公開日:2023-03-26
# 半監督セマンティックセマンティックセグメンテーションにおける弱-ストロング整合性の再検討

Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2208.09910v2 )

ライセンス: Link先を確認
Lihe Yang, Lei Qi, Litong Feng, Wayne Zhang, Yinghuan Shi(参考訳) 本研究では,弱摂動画像の予測が強摂動画像の監視に役立ち,半教師付き分類のフィクスマッチによって一般化された弱対強一貫性フレームワークを再考する。 興味深いことに、このような単純なパイプラインは、セグメント化シナリオに移行する際に、最近の先進的な作業に対してすでに競合的な結果が得られる。 しかし、その成功は強いデータ拡張のマニュアル設計に大きく依存しており、より広い摂動空間を探索するには限定的で不十分である可能性がある。 そこで我々は,補助的特徴摂動流を補足として提案し,拡張された摂動空間を創出する。 一方,オリジナル画像レベルの拡張を十分に調査するために,2つの強い視点を同時に共通の弱視点で導く2つの流れ摂動手法を提案する。 その結果、我々のUnified Dual-Stream Perturbations(UniMatch)アプローチは、Pascal、Cityscapes、COCOベンチマーク上のすべての評価プロトコルにおいて、既存のすべてのメソッドを大幅に上回っている。 リモートセンシングの解釈や医用画像解析でもその優位性が示されている。 私たちは、再現されたフィクスマッチと結果が、今後の作業に刺激を与えてくれることを望んでいます。 コードとログはhttps://github.com/LiheYoung/UniMatch.comで入手できる。

In this work, we revisit the weak-to-strong consistency framework, popularized by FixMatch from semi-supervised classification, where the prediction of a weakly perturbed image serves as supervision for its strongly perturbed version. Intriguingly, we observe that such a simple pipeline already achieves competitive results against recent advanced works, when transferred to our segmentation scenario. Its success heavily relies on the manual design of strong data augmentations, however, which may be limited and inadequate to explore a broader perturbation space. Motivated by this, we propose an auxiliary feature perturbation stream as a supplement, leading to an expanded perturbation space. On the other, to sufficiently probe original image-level augmentations, we present a dual-stream perturbation technique, enabling two strong views to be simultaneously guided by a common weak view. Consequently, our overall Unified Dual-Stream Perturbations approach (UniMatch) surpasses all existing methods significantly across all evaluation protocols on the Pascal, Cityscapes, and COCO benchmarks. Its superiority is also demonstrated in remote sensing interpretation and medical image analysis. We hope our reproduced FixMatch and our results can inspire more future works. Code and logs are available at https://github.com/LiheYoung/UniMatch.
翻訳日:2023-03-29 02:54:10 公開日:2023-03-26
# マスクオートエンコーダのターゲット表現探索

Exploring Target Representations for Masked Autoencoders ( http://arxiv.org/abs/2209.03917v3 )

ライセンス: Link先を確認
Xingbin Liu, Jinghao Zhou, Tao Kong, Xianming Lin, Rongrong Ji(参考訳) マスク付きオートエンコーダは、自己教師型視覚表現学習のトレーニングパラダイムとして人気を博している。 これらのモデルは入力の一部をランダムにマスクし、対象の表現に従ってマスクされた部分を再構築する。 本稿では,対象表現の注意深い選択がよい表現を学習する上で不要であることを示し,異なる対象が同様に振る舞うモデルを導出する傾向にあることを示す。 本研究は,マルチステージマスク蒸留パイプラインを提案し,教師としてランダムに初期化モデルを用いて,ターゲット表現を慎重に設計することなく,高容量モデルを効果的に学習することを可能にする。 興味深いことに,より大容量の教員を活用し,顕著な転校能力を持つ蒸留留学生を得る方法が検討されている。 分類,伝達学習,オブジェクト検出,セマンティックセグメンテーションの異なるタスクにおいて,自己指導型教師(dBOT)によるマスク付き知識蒸留を行う手法は,非自覚的マージンによる従来の自己指導方法よりも優れていた。 提案手法と同様に、私たちの調査結果は、事前トレーニングされたマスク付きオートエンコーダにおけるターゲット表現の役割を再考する動機付けになることを願っています。

Masked autoencoders have become popular training paradigms for self-supervised visual representation learning. These models randomly mask a portion of the input and reconstruct the masked portion according to the target representations. In this paper, we first show that a careful choice of the target representation is unnecessary for learning good representations, since different targets tend to derive similarly behaved models. Driven by this observation, we propose a multi-stage masked distillation pipeline and use a randomly initialized model as the teacher, enabling us to effectively train high-capacity models without any efforts to carefully design target representations. Interestingly, we further explore using teachers of larger capacity, obtaining distilled students with remarkable transferring ability. On different tasks of classification, transfer learning, object detection, and semantic segmentation, the proposed method to perform masked knowledge distillation with bootstrapped teachers (dBOT) outperforms previous self-supervised methods by nontrivial margins. We hope our findings, as well as the proposed method, could motivate people to rethink the roles of target representations in pre-training masked autoencoders.The code and pre-trained models are publicly available at https://github.com/liuxingbin/dbot.
翻訳日:2023-03-29 02:47:05 公開日:2023-03-26
# 古典・量子物理学の文脈的統一

Contextual unification of classical and quantum physics ( http://arxiv.org/abs/2209.01463v2 )

ライセンス: Link先を確認
Mathias Van Den Bossche and Philippe Grangier(参考訳) 無限テンソル積に関するジョン・フォン・ノイマンの論文に続いて、表現のユニタリ同値性に関連する量子力学の通常の形式論は、粒子の可算無限大(あるいは自由度)が遭遇したときには機能しないという考えを展開する。 これは、対応するヒルベルト空間の次元が数えきれないほど無限になり、ユニタリ同値が失われ、セクター化が生じるためである。 この数学的事実を物理的に解釈することで、「ハイゼンベルク切断」を記述する自然な方法と、量子物理学と古典物理学の両方を含む統一数学モデルが、自然の記述に必須の面として現れることを示した。

Following an article by John von Neumann on infinite tensor products, we develop the idea that the usual formalism of quantum mechanics, associated with unitary equivalence of representations, stops working when countable infinities of particles (or degrees of freedom) are encountered. This is because the dimension of the corresponding Hilbert space becomes uncountably infinite, leading to the loss of unitary equivalence, and to sectorization. By interpreting physically this mathematical fact, we show that it provides a natural way to describe the "Heisenberg cut", as well as a unified mathematical model including both quantum and classical physics, appearing as required incommensurable facets in the description of nature.
翻訳日:2023-03-29 02:45:10 公開日:2023-03-26
# ベル実験の最適統計解析

Optimal statistical analyses of Bell experiments ( http://arxiv.org/abs/2209.00702v3 )

ライセンス: Link先を確認
Richard D. Gill(参考訳) ベルのSやエバーハルトJの推定における統計的ノイズを低減するために,非シグナリング等式からの統計的偏差を用いて,より小型で信頼性の高いp値がベル型実験でどのように計算できるかを示す。 この手法は、2015年と2016年にデルフト、ミュンヘン、ウィーンでそれぞれ実施されたループホールフリーベル実験、1998年のWeihs et al.のインスブルック実験、2022年のミュンヘンでのZhang et al.(英語版)の実験にも応用され、この実験は、ディファクトインディペンデント量子鍵分配(DIQKD)のプロトコルの一部として、ループホールフリーベル実験の利用を調査している。

We show how both smaller and more reliable p-values can be computed in Bell-type experiments by using statistical deviations from no-signalling equalities to reduce statistical noise in the estimation of Bell's S or Eberhard's J. Further improvement is obtained by using Wilks' likelihood ratio test based on the four tetranomially distributed vectors of counts of the four different outcome combinations, one 4-vector for each of the four setting combinations. The methodology is illustrated by application to the loophole-free Bell experiments of 2015 and 2016 performed in Delft and Munich, at NIST, and in Vienna respectively; and also to the earlier Innsbruck experiment of Weihs et al. (1998) and the recent Munich experiment of Zhang et al. (2022), which investigates use of a loophole-free Bell experiment as part of a protocol for Device Independent Quantum Key Distribution, DIQKD.
翻訳日:2023-03-29 02:44:57 公開日:2023-03-26
# 量子回路アーキテクチャのための光アドレス可能な分子ネットワークの青写真

Blueprint of optically addressable molecular network for quantum circuit architecture ( http://arxiv.org/abs/2209.04835v2 )

ライセンス: Link先を確認
Jiawei Chang, Tianhong Huang, Lin Ma, Taoyu Zou, Hai Wang, and Wei Wu(参考訳) 光接続量子ビットはデコヒーレンスを効果的に低減し、長距離通信を容易にする。 光対応可能なスピン担持分子は量子コンピューティングに良い可能性があることが示されている。 本報告では、スピンベースの量子コンピューティングにおいて本質的に重要である光誘起交換相互作用とスピンダイナミクスを、2進量子演算回路ユニットとして計算した。 光励起によるスピンコヒーレンスの実験的な観察と一致し,光駆動量子ゲート演算法を実証し,分子量子回路網の可能性を示唆した。 2次元分子ネットワークとプログラム可能なナノフォトニクスを統合した量子回路の青写真が提案された。 そこで我々は、分子スピン量子ビットとカプラの適切な候補を同定するために化学データベースの計算探索を行い、ナノフォトニックデバイスと最適に統合して量子回路を実現する。 そこでここで提示された研究は、量子技術の「クリック・ケミカル」を探求する新たな方向性を開くことになる。

Optically connecting quantum bits can effectively reduce decoherence and facilitate long-distance communication. Optically addressable spin-bearing molecules have been demonstrated to have a good potential for quantum computing. In this report optically induced exchange interactions and spin dynamics, which are inherently important for spin-based quantum computing, have been calculated for a bi-radical - a potential quantum computing circuit unit. Consistent with the previous experimental observation of spin coherence induced by optical excitation, our work demonstrated an optically driven quantum gate operation scheme, implying a great potential of molecular quantum-circuit network. A blueprint of quantum circuit, integrating two-dimensional molecular network and programmable nano-photonics, both of which have been under extensive investigations and rather mature, was proposed. We thus envisage computational exploration of chemical database to identify suitable candidates for molecular spin quantum bit and coupler, which could be optimally integrated with nano-photonic devices to realize quantum circuit. The work presented here would therefore open up a new direction to explore 'Click Chemistry' for quantum technology.
翻訳日:2023-03-29 02:35:27 公開日:2023-03-26
# clusterBMA: クラスタリングのためのベイジアンモデル平均化

clusterBMA: Bayesian model averaging for clustering ( http://arxiv.org/abs/2209.04117v2 )

ライセンス: Link先を確認
Owen Forbes, Edgar Santos-Fernandez, Paul Pao-Yen Wu, Hong-Bo Xie, Paul E. Schwenn, Jim Lagopoulos, Lia Mills, Dashiell D. Sacks, Daniel F. Hermens, Kerrie Mengersen(参考訳) アンサンブルクラスタリングの文献において、教師なしクラスタリングのための複数の結果集合間の推論を組み合わせるための様々な手法が開発されている。 複数の候補クラスタリングモデルから1つの"ベスト"モデルからの結果を報告するアプローチは、一般的にモデル選択から生じる不確実性を無視し、特定のモデルやパラメータに敏感な推論結果を生成する。 ベイズモデル平均化(ベイズモデル平均化、英: Bayesian model averaging、BMA)は、クラスタ構造の確率論的解釈やモデルに基づく不確実性の定量化など、複数のモデルにまたがる結果を組み合わせる一般的な手法である。 本研究では,複数の教師なしクラスタリングアルゴリズムの結果を平均化する重み付きモデルを実現する方法であるclusterbmaを提案する。 各モデルからの結果を重み付けするために用いられる後モデル確率の近似を開発するために、クラスタリング内部検証基準を用いる。 モデル間のクラスタリングソリューションの重み付け平均を表すコンセンサス行列から、最終的な確率的クラスタ割り当てを計算するために対称なsimplex行列分解を適用する。 シミュレーションデータ上で他のアンサンブルクラスタリング手法よりも優れており、平均クラスタへの確率的割り当て、'ハード'と'ソフト'クラスタリングアルゴリズムからのアロケーション確率の組み合わせ、平均クラスタアロケーションにおけるモデルベースの不確実性の測定など、ユニークな機能を提供している。 この方法は同名のrパッケージに実装されている。

Various methods have been developed to combine inference across multiple sets of results for unsupervised clustering, within the ensemble clustering literature. The approach of reporting results from one `best' model out of several candidate clustering models generally ignores the uncertainty that arises from model selection, and results in inferences that are sensitive to the particular model and parameters chosen. Bayesian model averaging (BMA) is a popular approach for combining results across multiple models that offers some attractive benefits in this setting, including probabilistic interpretation of the combined cluster structure and quantification of model-based uncertainty. In this work we introduce clusterBMA, a method that enables weighted model averaging across results from multiple unsupervised clustering algorithms. We use clustering internal validation criteria to develop an approximation of the posterior model probability, used for weighting the results from each model. From a consensus matrix representing a weighted average of the clustering solutions across models, we apply symmetric simplex matrix factorisation to calculate final probabilistic cluster allocations. In addition to outperforming other ensemble clustering methods on simulated data, clusterBMA offers unique features including probabilistic allocation to averaged clusters, combining allocation probabilities from 'hard' and 'soft' clustering algorithms, and measuring model-based uncertainty in averaged cluster allocation. This method is implemented in an accompanying R package of the same name.
翻訳日:2023-03-29 02:35:10 公開日:2023-03-26
# COPILOT:エゴセントリックビデオからの人間環境衝突予測と位置推定

COPILOT: Human-Environment Collision Prediction and Localization from Egocentric Videos ( http://arxiv.org/abs/2210.01781v2 )

ライセンス: Link先を確認
Boxiao Pan, Bokui Shen, Davis Rempe, Despoina Paschalidou, Kaichun Mo, Yanchao Yang, Leonidas J. Guibas(参考訳) エゴセントリックな観測から人間と環境の衝突を予測する能力は、VR、AR、ウェアラブルアシストロボットなどのアプリケーションにおける衝突回避を可能にするために不可欠である。 本研究では,ボディマウントカメラから撮影した多視点エゴセントリック映像から,多様な環境における衝突を予測するという課題について紹介する。 この問題を解決するには、人間の関節が衝突するかを分類し、衝突領域のヒートマップを推定して環境中の衝突を局所化する、一般化可能な認識システムが必要である。 そこで本研究では,衝突予測と局所化を同時に行うためのCOPILOTと呼ばれるトランスフォーマーモデルを提案する。 そこで本研究では,仮想人間の移動・衝突映像を多種多様な3D環境下で生成する合成データ生成フレームワークを開発した。 このフレームワークは、8.6mのエゴセントリックなrgbdフレームからなる大規模データセットを確立するために使われる。 広汎な実験により、COPILOTは生合成だけでなく現実世界のシーンにも一般化されることが示された。 さらに、単純な閉ループ制御による下流衝突回避にCOPILOT出力が有用であることを示す。 プロジェクトのwebページはhttps://sites.google.com/stanford.edu/copilot.comでどうぞ。

The ability to forecast human-environment collisions from egocentric observations is vital to enable collision avoidance in applications such as VR, AR, and wearable assistive robotics. In this work, we introduce the challenging problem of predicting collisions in diverse environments from multi-view egocentric videos captured from body-mounted cameras. Solving this problem requires a generalizable perception system that can classify which human body joints will collide and estimate a collision region heatmap to localize collisions in the environment. To achieve this, we propose a transformer-based model called COPILOT to perform collision prediction and localization simultaneously, which accumulates information across multi-view inputs through a novel 4D space-time-viewpoint attention mechanism. To train our model and enable future research on this task, we develop a synthetic data generation framework that produces egocentric videos of virtual humans moving and colliding within diverse 3D environments. This framework is then used to establish a large-scale dataset consisting of 8.6M egocentric RGBD frames. Extensive experiments show that COPILOT generalizes to unseen synthetic as well as real-world scenes. We further demonstrate COPILOT outputs are useful for downstream collision avoidance through simple closed-loop control. Please visit our project webpage at https://sites.google.com/stanford.edu/copilot.
翻訳日:2023-03-29 02:27:25 公開日:2023-03-26
# 縮合一般化コヒーレント状態

Truncated generalized coherent states ( http://arxiv.org/abs/2210.00908v2 )

ライセンス: Link先を確認
Filippo Giraldi, Francesco Mainardi(参考訳) 量子調和振動子の正準コヒーレント状態の一般化は、正の重み関数を持つ恒等作用素の正規化性、ラベル内の連続性、および分解の条件を必要とすることによる。 このアプローチに基づき、現在のシナリオコヒーレント状態は調和振動子の正準あるいは有限次元フォック空間上で一般化される。 一般化されたコヒーレント状態のクラスは、引き延ばした指数減衰、電力法則、対数形式の組み合わせにより、励起数の分布がポアソン統計から逸脱するように決定される。 マンデルパラメータの解析は、これらの一般化されたコヒーレント状態が、決定された性質に従って、ラベルの小さな値に対する励起数の(非古典的)部分ポアソニアンまたは超ポアソニアン統計量を示すことを示している。 統計量はラベルの大きな値に対して一意にポアソニアンである。 特に、truncated Wright 一般化コヒーレント状態は、truncated Mittag-Leffler 一般化コヒーレント状態とは異なる、一意に非古典的な性質を示す。

A generalization of the canonical coherent states of a quantum harmonic oscillator has been performed by requiring the conditions of normalizability, continuity in the label and resolution of the identity operator with a positive weight function. Relying on this approach, in the present scenario coherent states are generalized over the canonical or finite dimensional Fock space of the harmonic oscillator. A class of generalized coherent states is determined such that the distribution of the number of excitations departs from the Poisson statistics according to combinations of stretched exponential decays, power laws and logarithmic forms. The analysis of the Mandel parameter shows that these generalized coherent states exhibit (non-classical) sub-Poissonian or super-Poissonian statistics of the number of excitations for small values of the label, according to determined properties. The statistics is uniquely sub-Poissonian for large values of the label. As particular cases, truncated Wright generalized coherent states exhibit uniquely non-classical properties, differently from the truncated Mittag-Leffler generalized coherent states.
翻訳日:2023-03-29 02:26:55 公開日:2023-03-26
# ManiCLIP: テキストからの多属性顔操作

ManiCLIP: Multi-Attribute Face Manipulation from Text ( http://arxiv.org/abs/2210.00445v3 )

ライセンス: Link先を確認
Hao Wang, Guosheng Lin, Ana Garc\'ia del Molino, Anran Wang, Jiashi Feng, Zhiqi Shen(参考訳) 本稿では,テキスト記述に基づく新しい多属性顔操作手法を提案する。 従来のテキストベースの画像編集方法は、個々の画像に対するテスト時間最適化を必要とするか、単一の属性編集に限定されている。 例えば、テキスト関連属性は過剰に操作され、テキスト関連属性も変更される。 これらの課題に対処し、複数の顔属性の自然な編集を実現するために、グループサンプリングを用いて、複雑な文全体ではなく、同じ属性カテゴリからテキストセグメントを取得する新しいデカップリングトレーニング方式を提案する。 さらに,既存の顔属性を保存するために,各属性の潜在コードをエントロピー制約で別々に編集することを推奨する。 推論フェーズでは、複雑なテキストプロンプトからでも、テスト時間最適化なしで新しい顔画像の編集が可能です。 本手法の有効性を示すために,テキスト関連属性を最小限に抑えた自然な顔を生成する実験と解析を行った。 コードと事前訓練されたモデルはhttps://github.com/hwang1996/ManiCLIPで入手できる。

In this paper we present a novel multi-attribute face manipulation method based on textual descriptions. Previous text-based image editing methods either require test-time optimization for each individual image or are restricted to single attribute editing. Extending these methods to multi-attribute face image editing scenarios will introduce undesired excessive attribute change, e.g., text-relevant attributes are overly manipulated and text-irrelevant attributes are also changed. In order to address these challenges and achieve natural editing over multiple face attributes, we propose a new decoupling training scheme where we use group sampling to get text segments from same attribute categories, instead of whole complex sentences. Further, to preserve other existing face attributes, we encourage the model to edit the latent code of each attribute separately via an entropy constraint. During the inference phase, our model is able to edit new face images without any test-time optimization, even from complex textual prompts. We show extensive experiments and analysis to demonstrate the efficacy of our method, which generates natural manipulated faces with minimal text-irrelevant attribute editing. Code and pre-trained model are available at https://github.com/hwang1996/ManiCLIP.
翻訳日:2023-03-29 02:26:36 公開日:2023-03-26
# 言語を使って見えないドメインに拡張する

Using Language to Extend to Unseen Domains ( http://arxiv.org/abs/2210.09520v5 )

ライセンス: Link先を確認
Lisa Dunlap, Clara Mohri, Devin Guillory, Han Zhang, Trevor Darrell, Joseph E. Gonzalez, Aditi Raghunathan, Anja Rohrbach(参考訳) ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。 代わりに、訓練領域(例えば「鳥の写真」)と拡張したいがデータを持たない領域(例えば「鳥の絵」)がいかに堅牢性を向上させるかを考える。 共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSは、タスク関連情報を保存しながら、トレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。 未確認テストドメインからのイメージを一切使用せずに、トレーニングドメインと未確認テストドメインの両方を含む拡張ドメイン上で、LADSは、ドメイン適応とデータセットバイアスをターゲットとする4つのベンチマークのスイートに対して、標準的な微調整とアンサンブルアプローチより優れていることを示す。

It is expensive to collect training data for every possible domain that a vision model may encounter when deployed. We instead consider how simply verbalizing the training domain (e.g. "photos of birds") as well as domains we want to extend to but do not have data for (e.g. "paintings of birds") can improve robustness. Using a multimodal model with a joint image and language embedding space, our method LADS learns a transformation of the image embeddings from the training domain to each unseen test domain, while preserving task relevant information. Without using any images from the unseen test domain, we show that over the extended domain containing both training and unseen test domains, LADS outperforms standard fine-tuning and ensemble approaches over a suite of four benchmarks targeting domain adaptation and dataset bias.
翻訳日:2023-03-29 02:18:38 公開日:2023-03-26
# マスクの重要性:マスク付きオートエンコーダの理論的理解に向けて

How Mask Matters: Towards Theoretical Understandings of Masked Autoencoders ( http://arxiv.org/abs/2210.08344v2 )

ライセンス: Link先を確認
Qi Zhang, Yifei Wang, Yisen Wang(参考訳) 再構成タスクに基づくMasked Autoencoders(MAE)は、セルフ教師付き学習(SSL)と、さまざまなベンチマークデータセットで最先端のパフォーマンスを実現する上で、有望なパラダイムである。 しかし、その印象的な成功にもかかわらず、理論的な理解はまだ限られている。 本稿では,MAEが意味のある特徴を学習する上でマスキングがいかに重要であるかを理論的に理解する。 我々は,MAEとコントラスト学習の密接な関係を確立し,MAEがマスク誘発陽性対を暗黙的に整列させることを示す。 この接続に基づいて,MAE法の最初のダウンストリーム保証を開発し,マスク比の影響を解析する。 さらに、暗黙的なアライメントの結果、MAEの次元的崩壊問題も指摘し、この問題に効果的に対処し、CIFAR-10、ImageNet-100、ImageNet-1Kなどの実世界のデータセットに大幅な改善をもたらす、統一性強化MAE(U-MAE)損失を提案する。 コードはhttps://github.com/zhangq327/U-MAE)。

Masked Autoencoders (MAE) based on a reconstruction task have risen to be a promising paradigm for self-supervised learning (SSL) and achieve state-of-the-art performance across different benchmark datasets. However, despite its impressive empirical success, there is still limited theoretical understanding of it. In this paper, we propose a theoretical understanding of how masking matters for MAE to learn meaningful features. We establish a close connection between MAE and contrastive learning, which shows that MAE implicit aligns the mask-induced positive pairs. Built upon this connection, we develop the first downstream guarantees for MAE methods, and analyze the effect of mask ratio. Besides, as a result of the implicit alignment, we also point out the dimensional collapse issue of MAE, and propose a Uniformity-enhanced MAE (U-MAE) loss that can effectively address this issue and bring significant improvements on real-world datasets, including CIFAR-10, ImageNet-100, and ImageNet-1K. Code is available at (https://github.com/zhangq327/U-MAE).
翻訳日:2023-03-29 02:18:22 公開日:2023-03-26
# MAP:マルチモーダル不確かさを意識したビジョンランゲージ事前学習モデル

MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model ( http://arxiv.org/abs/2210.05335v2 )

ライセンス: Link先を確認
Yatai Ji, Junjie Wang, Yuan Gong, Lin Zhang, Yanru Zhu, Hongfa Wang, Jiaxing Zhang, Tetsuya Sakai, Yujiu Yang(参考訳) マルチモーダルな意味理解は、しばしば不確実性を扱う必要があり、つまり、得られたメッセージは複数のターゲットを参照する傾向がある。 このような不確実性は、モーダル間の不確実性を含む私たちの解釈には問題があります。 この不確実性のモデリング、特にラベルのないデータセットの事前トレーニングやタスク固有のダウンストリームデータセットの微調整についてはほとんど研究されていない。 本稿では,確率分布エンコーダ(Probability Distribution Encoder:PDE)を用いて,全てのモードを確率分布として表現する。 既存の決定論的手法と比較して、そのような不確実性モデリングはよりリッチなマルチモーダル意味情報やより複雑な関係を伝達することができる。 さらに、一般的な事前学習フレームワークと不確実性モデリングを統合し、分布ベース視覚言語コントラスト学習(D-VLC)、分布ベースマスケッド言語モデリング(D-MLM)、分布ベース画像テキストマッチング(D-ITM)といった適切な事前学習タスクを提案する。 微調整されたモデルは、画像テキスト検索、視覚的質問応答、視覚的推論、視覚的推論などの下流タスクに適応し、最先端の結果を達成する。

Multimodal semantic understanding often has to deal with uncertainty, which means the obtained messages tend to refer to multiple targets. Such uncertainty is problematic for our interpretation, including inter- and intra-modal uncertainty. Little effort has studied the modeling of this uncertainty, particularly in pre-training on unlabeled datasets and fine-tuning in task-specific downstream datasets. In this paper, we project the representations of all modalities as probabilistic distributions via a Probability Distribution Encoder (PDE) by utilizing sequence-level interactions. Compared to the existing deterministic methods, such uncertainty modeling can convey richer multimodal semantic information and more complex relationships. Furthermore, we integrate uncertainty modeling with popular pre-training frameworks and propose suitable pre-training tasks: Distribution-based Vision-Language Contrastive learning (D-VLC), Distribution-based Masked Language Modeling (D-MLM), and Distribution-based Image-Text Matching (D-ITM). The fine-tuned models are applied to challenging downstream tasks, including image-text retrieval, visual question answering, visual reasoning, and visual entailment, and achieve state-of-the-art results.
翻訳日:2023-03-29 02:16:21 公開日:2023-03-26
# GAPartNet: 汎用および動作可能なパーツによるクロスカテゴリドメイン一般化可能なオブジェクト認識と操作

GAPartNet: Cross-Category Domain-Generalizable Object Perception and Manipulation via Generalizable and Actionable Parts ( http://arxiv.org/abs/2211.05272v2 )

ライセンス: Link先を確認
Haoran Geng, Helin Xu, Chengyang Zhao, Chao Xu, Li Yi, Siyuan Huang, He Wang(参考訳) 長年にわたり、研究者は一般化可能な物体の認識と操作に力を入れてきた。 本稿では,GAParts(Generalizable and Actionable Parts)を通じて,このようなクロスカテゴリスキルを学ぶことを提案する。 27のオブジェクトカテゴリで9つのGAPartクラス(lid, handlesなど)を識別して定義することにより、大規模部分中心の対話型データセットGAPartNetを構築し、1,166のオブジェクトに対して8,489のパートインスタンスに対してリッチな部分レベルのアノテーション(セマンティック,ポーズ)を提供する。 GAPartNetに基づいて,部分分割,部分ポーズ推定,部分ベースオブジェクト操作という3つのクロスカテゴリタスクについて検討する。 そこで本研究では, 対向学習技術を統合することで, 領域一般化の観点から頑健な3次元セグメンテーション手法を提案する。 本手法は,見知らぬカテゴリーによらず,既存の手法を大きなマージンで上回っている。 さらに,部分分割とポーズ推定結果を用いてGAPartのポーズ定義を利用して,シミュレータと実世界の両方の未確認対象カテゴリによく対応できる部分ベースの操作ヒューリスティックを設計する。 私たちのデータセット、コード、デモは、プロジェクトのページで利用可能です。

For years, researchers have been devoted to generalizable object perception and manipulation, where cross-category generalizability is highly desired yet underexplored. In this work, we propose to learn such cross-category skills via Generalizable and Actionable Parts (GAParts). By identifying and defining 9 GAPart classes (lids, handles, etc.) in 27 object categories, we construct a large-scale part-centric interactive dataset, GAPartNet, where we provide rich, part-level annotations (semantics, poses) for 8,489 part instances on 1,166 objects. Based on GAPartNet, we investigate three cross-category tasks: part segmentation, part pose estimation, and part-based object manipulation. Given the significant domain gaps between seen and unseen object categories, we propose a robust 3D segmentation method from the perspective of domain generalization by integrating adversarial learning techniques. Our method outperforms all existing methods by a large margin, no matter on seen or unseen categories. Furthermore, with part segmentation and pose estimation results, we leverage the GAPart pose definition to design part-based manipulation heuristics that can generalize well to unseen object categories in both the simulator and the real world. Our dataset, code, and demos are available on our project page.
翻訳日:2023-03-29 02:00:32 公開日:2023-03-26
# コーナー電荷変動のフルカウンティング統計

Full-counting statistics of corner charge fluctuations ( http://arxiv.org/abs/2211.05159v3 )

ライセンス: Link先を確認
Cl\'ement Berthiere, Benoit Estienne, Jean-Marie St\'ephan and William Witczak-Krempa(参考訳) 測定結果は、観測可能な平均と分散を超えた情報を提供する、一般化された不確実性の無限の族または累積によって特徴づけられる。 ここでは,コーナーのある部分領域における保存電荷の累積について検討する。 我々は、領域法則の非摂動的関係を導出し、さらに興味深いことに、それが相関関数の幾何学的モーメントによってどのように決定されるかを示す。 これらは強い相互作用を含む非常に一般化した翻訳不変系である。 ボーソンとフェルミオンの2次元トポロジカル量子ホール状態を用いて,整数および分数充填の双方で実験を行った。 奇形累積体の形状依存性は偶数と異なることが判明した。 例えば、第三累積は、最低ランダウ準位における整数および分数ラウリンホール状態に対するほぼ普遍的な振舞いを示す。 さらに, 混合量と r\'enyi エンタングルメントエントロピーの関係について検討し, 強相互作用系におけるこれらの量を比較するために, 1/3 以下の分数状態に対する新しい結果を用いた。 ギャップのないディラックフェルミオンやより一般的な共形場理論など、他のシステムに対するこれらの発見の意味について論じる。

Outcomes of measurements are characterized by an infinite family of generalized uncertainties, or cumulants, which provide information beyond the mean and variance of the observable. Here, we investigate the cumulants of a conserved charge in a subregion with corners. We derive nonperturbative relations for the area law, and more interestingly, the angle dependence, showing how it is determined by geometric moments of the correlation function. These hold for translation invariant systems under great generality, including strongly interacting ones. We test our findings by using two-dimensional topological quantum Hall states of bosons and fermions at both integer and fractional fillings. We find that the odd cumulants' shape dependence differs from the even ones. For instance, the third cumulant shows nearly universal behavior for integer and fractional Laughlin Hall states in the lowest Landau level. Furthermore, we examine the relation between even cumulants and the R\'enyi entanglement entropy, where we use new results for the fractional state at filling 1/3 to compare these quantities in the strongly interacting regime. We discuss the implications of these findings for other systems, including gapless Dirac fermions, and more general conformal field theories.
翻訳日:2023-03-29 01:59:43 公開日:2023-03-26
# リスト学習能力の特徴付け

A Characterization of List Learnability ( http://arxiv.org/abs/2211.04956v2 )

ライセンス: Link先を確認
Moses Charikar, Chirag Pabbaraju(参考訳) 学習理論における古典的な結果は、二項仮説クラスのPAC学習可能性の等価性とVC次元の有限性を示している。 これをマルチクラスに拡張することはオープンな問題であり、Daniely と Shalev-Shwartz が以前に導入したDS次元による多クラスPAC学習性を特徴付ける最近のブレークスルーで解決された。 この作業では、$k$の予測リストを出力することを目標とするPAC学習について検討する。 リスト学習アルゴリズムは,これまでいくつかの設定で開発されてきたが,近年のマルチクラス学習性評価において,リスト学習が重要な役割を担っている。 k$-listで仮説クラスを学ぶことはいつ可能でしょうか? 我々は、$k$-DS次元と呼ぶDS次元の一般化の観点から、$k$-listの学習可能性を完全に特徴づける。 最近のマルチクラス学習可能性の特徴を一般化すると、仮説クラスが$k$-list学習可能であることと、$k$-DS次元が有限であることは同値である。

A classical result in learning theory shows the equivalence of PAC learnability of binary hypothesis classes and the finiteness of VC dimension. Extending this to the multiclass setting was an open problem, which was settled in a recent breakthrough result characterizing multiclass PAC learnability via the DS dimension introduced earlier by Daniely and Shalev-Shwartz. In this work we consider list PAC learning where the goal is to output a list of $k$ predictions. List learning algorithms have been developed in several settings before and indeed, list learning played an important role in the recent characterization of multiclass learnability. In this work we ask: when is it possible to $k$-list learn a hypothesis class? We completely characterize $k$-list learnability in terms of a generalization of DS dimension that we call the $k$-DS dimension. Generalizing the recent characterization of multiclass learnability, we show that a hypothesis class is $k$-list learnable if and only if the $k$-DS dimension is finite.
翻訳日:2023-03-29 01:59:23 公開日:2023-03-26
# 圧縮スペクトルイメージングのためのスペクトルと空間の混合前処理を用いた残留劣化学習展開フレームワーク

Residual Degradation Learning Unfolding Framework with Mixing Priors across Spectral and Spatial for Compressive Spectral Imaging ( http://arxiv.org/abs/2211.06891v2 )

ライセンス: Link先を確認
Yubo Dong, Dahua Gao, Tian Qiu, Yuyan Li, Minxi Yang, Guangming Shi(参考訳) スナップショットスペクトル画像を取得するために、符号化開口分光画像(CASSI)を提案する。 CASSIシステムの中核的な問題は、信頼性と微細な3次元スペクトル立方体を2次元測定から回収することである。 データサブプロブレムと先行サブプロブレムを交互に解くことにより、深い展開法が良好な性能を達成する。 しかし、データサブプロブレムでは、位相収差や歪みに起因するデバイスエラーによる実際の劣化過程に使用するセンシングマトリクスが不適当であり、先行するサブプロブレムでは、空間的およびスペクトル的プリエントの両方を共用する適切なモデルを設計することが重要である。 本稿では,センサマトリックスと劣化過程のギャップを埋めるResidual Degradation Learning Unfolding Framework (RDLUF)を提案する。 さらに、Mix$S^2$変換器は、スペクトル空間と空間を混合することで、スペクトル空間表現能力を強化する。 最後に、Mix$S^2$ TransformerをRDLUFに接続すると、エンドツーエンドのトレーニング可能なニューラルネットワークRDLUF-Mix$S^2$となる。 実験により,提案手法の既存手法よりも優れた性能が得られた。

To acquire a snapshot spectral image, coded aperture snapshot spectral imaging (CASSI) is proposed. A core problem of the CASSI system is to recover the reliable and fine underlying 3D spectral cube from the 2D measurement. By alternately solving a data subproblem and a prior subproblem, deep unfolding methods achieve good performance. However, in the data subproblem, the used sensing matrix is ill-suited for the real degradation process due to the device errors caused by phase aberration, distortion; in the prior subproblem, it is important to design a suitable model to jointly exploit both spatial and spectral priors. In this paper, we propose a Residual Degradation Learning Unfolding Framework (RDLUF), which bridges the gap between the sensing matrix and the degradation process. Moreover, a Mix$S^2$ Transformer is designed via mixing priors across spectral and spatial to strengthen the spectral-spatial representation capability. Finally, plugging the Mix$S^2$ Transformer into the RDLUF leads to an end-to-end trainable neural network RDLUF-Mix$S^2$. Experimental results establish the superior performance of the proposed method over existing ones.
翻訳日:2023-03-29 01:48:28 公開日:2023-03-26
# 大規模金融ソーシャルネットワークにおける行動情報集約ネットワーク(bian)による不正ユーザ検出

Fraudulent User Detection Via Behavior Information Aggregation Network (BIAN) On Large-Scale Financial Social Network ( http://arxiv.org/abs/2211.06315v2 )

ライセンス: Link先を確認
Hanyi Hu, Long Zhang, Shuan Li, Zhi Liu, Yao Yang, Chongning Na(参考訳) 金融詐欺は毎年数十億ドルの損失を発生させるが、ソーシャルネットワークにおけるユーザープロフィールと行動を同時に考慮した不正検出の効率的なアプローチに欠ける。 ソーシャルネットワークはグラフ構造を形成し、ディープラーニングの有望な研究領域であるグラフニューラルネットワーク(GNN)は非ユークリッドグラフデータをシームレスに処理することができる。 金融詐欺検出においては、取引や貸付などのユーザプロファイルや行動、社会的接続性を解析することにより、犯罪者の態様を識別することができる。 現在、ほとんどのGNNは、隣人のエッジ属性(つまり振る舞い)が無視されるため、重要な隣人を選択することができない。 本稿では,ユーザ行動と他のユーザ機能を組み合わせた新たな行動情報集約ネットワーク(bian)を提案する。 Graph Attention Networks (GAT) や Graph Transformer Networks (GTN) といった近縁な「関係性」とは違って、近隣のエッジ属性分布、すなわち金融ソーシャルネットワークのユーザ行動に基づいて隣人を集約する。 実世界の大規模金融ソーシャルネットワークデータセットであるDGraphの実験結果は、BIANがAUROCの10.2%の利益を得たことを示している。

Financial frauds cause billions of losses annually and yet it lacks efficient approaches in detecting frauds considering user profile and their behaviors simultaneously in social network . A social network forms a graph structure whilst Graph neural networks (GNN), a promising research domain in Deep Learning, can seamlessly process non-Euclidean graph data . In financial fraud detection, the modus operandi of criminals can be identified by analyzing user profile and their behaviors such as transaction, loaning etc. as well as their social connectivity. Currently, most GNNs are incapable of selecting important neighbors since the neighbors' edge attributes (i.e., behaviors) are ignored. In this paper, we propose a novel behavior information aggregation network (BIAN) to combine the user behaviors with other user features. Different from its close "relatives" such as Graph Attention Networks (GAT) and Graph Transformer Networks (GTN), it aggregates neighbors based on neighboring edge attribute distribution, namely, user behaviors in financial social network. The experimental results on a real-world large-scale financial social network dataset, DGraph, show that BIAN obtains the 10.2% gain in AUROC comparing with the State-Of-The-Art models.
翻訳日:2023-03-29 01:47:48 公開日:2023-03-26
# 半教師付き意味セグメンテーションのためのクロスウィンドウ一貫性を用いたプログレッシブ学習

Progressive Learning with Cross-Window Consistency for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2211.12425v2 )

ライセンス: Link先を確認
Bo Dang, Yansheng Li, Yongjun Zhang, Jiayi Ma(参考訳) 半教師付きセマンティックセグメンテーションは、少量のラベル付きデータと大量のラベル付きデータの探索に焦点を当てている。 しかし、ラベルのない画像を完全に効果的に活用できないため、まだ妨げられている。 本稿では,クロスウィンドウ一貫性(cwc)がラベルなしデータから補助監督を包括的に抽出する上で有効であることを示す。 さらに,大量のラベルのないデータから弱い制約を抽出し,深層ネットワークを最適化する,新しいCWC主導のプログレッシブラーニングフレームワークを提案する。 具体的には,異なるウィンドウの重なり合う領域からの信頼マップをネットワークが明示的に拘束し,より大きなコンテキストとのセマンティック一貫性を維持することを支援する。 さらに,動的擬似ラベルメモリバンク(DPM)を提案し,ネットワークをさらに最適化するために,高一貫性と高信頼性の擬似ラベルを提供する。 都市ビュー、医療シナリオ、衛星シーンの3つの代表的なデータセットに関する広範囲な実験は、我々の枠組みが最先端の手法を大きなマージンで一貫して上回っていることを示している。 コードは公開されます。

Semi-supervised semantic segmentation focuses on the exploration of a small amount of labeled data and a large amount of unlabeled data, which is more in line with the demands of real-world image understanding applications. However, it is still hindered by the inability to fully and effectively leverage unlabeled images. In this paper, we reveal that cross-window consistency (CWC) is helpful in comprehensively extracting auxiliary supervision from unlabeled data. Additionally, we propose a novel CWC-driven progressive learning framework to optimize the deep network by mining weak-to-strong constraints from massive unlabeled data. More specifically, this paper presents a biased cross-window consistency (BCC) loss with an importance factor, which helps the deep network explicitly constrain confidence maps from overlapping regions in different windows to maintain semantic consistency with larger contexts. In addition, we propose a dynamic pseudo-label memory bank (DPM) to provide high-consistency and high-reliability pseudo-labels to further optimize the network. Extensive experiments on three representative datasets of urban views, medical scenarios, and satellite scenes demonstrate our framework consistently outperforms the state-of-the-art methods with a large margin. Code will be available publicly.
翻訳日:2023-03-29 01:43:08 公開日:2023-03-26
# 画像編集のためのDelving StyleGANインバージョン

Delving StyleGAN Inversion for Image Editing: A Foundation Latent Space Viewpoint ( http://arxiv.org/abs/2211.11448v3 )

ライセンス: Link先を確認
Hongyu Liu and Yibing Song and Qifeng Chen(参考訳) GANの変換とStyleGANによる編集は、入力された画像を埋め込み空間($\mathcal{W}$, $\mathcal{W^+}$, $\mathcal{F}$)にマッピングし、画像の忠実さと意味のある操作を同時に維持する。 潜在空間 $\mathcal{W}$ から拡張潜在空間 $\mathcal{W^+}$ から特徴空間 $\mathcal{F}$ まで、GAN反転の編集性は、その再構成品質が増大するにつれて低下する。 最近の GAN のインバージョン手法では、編集性を維持しながら再現性を改善するために $\mathcal{W^+}$ と $\mathcal{F}$ を探索する。 基本的にstyleganの基礎的潜在空間である$\mathcal{w}$から$\mathcal{w^+}$と$\mathcal{f}$が導出されるので、これらのgan反転法は$\mathcal{w^+}$と$\mathcal{f}$空間にフォーカスし、$\mathcal{w}$に戻ることで改善することができる。 本研究では,まず基礎的潜在空間 $\mathcal{w}$ で正確な潜在コードを取得することを提案する。 我々は、$\mathcal{w}$ と正確な潜在コード発見のための画像空間を調整するために、対比学習を導入する。 % を得るプロセスは、比較学習を用いて$\mathcal{w}$ と画像空間を整合させることである。 次に、クロスアテンションエンコーダを利用して、得られた潜在コードを$\mathcal{w}$と$\mathcal{w^+}$と$\mathcal{f}$に変換する。 我々の実験では、基礎的潜在空間である $\mathcal{w}$ の探索により、$\mathcal{w^+}$ の潜在コードの表現能力が向上し、$\mathcal{f}$ の機能が向上し、標準ベンチマークで最先端の再現性と編集性が得られた。 プロジェクトページ: https://kumapowerliu.github.io/clcae。

GAN inversion and editing via StyleGAN maps an input image into the embedding spaces ($\mathcal{W}$, $\mathcal{W^+}$, and $\mathcal{F}$) to simultaneously maintain image fidelity and meaningful manipulation. From latent space $\mathcal{W}$ to extended latent space $\mathcal{W^+}$ to feature space $\mathcal{F}$ in StyleGAN, the editability of GAN inversion decreases while its reconstruction quality increases. Recent GAN inversion methods typically explore $\mathcal{W^+}$ and $\mathcal{F}$ rather than $\mathcal{W}$ to improve reconstruction fidelity while maintaining editability. As $\mathcal{W^+}$ and $\mathcal{F}$ are derived from $\mathcal{W}$ that is essentially the foundation latent space of StyleGAN, these GAN inversion methods focusing on $\mathcal{W^+}$ and $\mathcal{F}$ spaces could be improved by stepping back to $\mathcal{W}$. In this work, we propose to first obtain the precise latent code in foundation latent space $\mathcal{W}$. We introduce contrastive learning to align $\mathcal{W}$ and the image space for precise latent code discovery. %The obtaining process is by using contrastive learning to align $\mathcal{W}$ and the image space. Then, we leverage a cross-attention encoder to transform the obtained latent code in $\mathcal{W}$ into $\mathcal{W^+}$ and $\mathcal{F}$, accordingly. Our experiments show that our exploration of the foundation latent space $\mathcal{W}$ improves the representation ability of latent codes in $\mathcal{W^+}$ and features in $\mathcal{F}$, which yields state-of-the-art reconstruction fidelity and editability results on the standard benchmarks. Project page: https://kumapowerliu.github.io/CLCAE.
翻訳日:2023-03-29 01:40:37 公開日:2023-03-26
# NeuMap: カメラローカライゼーションのためのオートトランスデコーダによるニューラル座標マッピング

NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera Localization ( http://arxiv.org/abs/2211.11177v2 )

ライセンス: Link先を確認
Shitao Tang, Sicong Tang, Andrea Tagliasacchi, Ping Tan and Yasutaka Furukawa(参考訳) 本稿では,NuMapと呼ばれるカメラローカライズのためのエンドツーエンドのニューラルマッピング手法を提案する。この手法は,トランスフォーマーベースのオートデコーダがクエリピクセルの3D座標を回帰する潜在符号のグリッドにシーン全体を符号化する。 最先端の機能マッチング手法では、各シーンをポイント単位の機能を持つ3Dポイントクラウドとして保存する必要がある。 圧縮が可能であるが、高い圧縮速度で性能が著しく低下する。 逆に、座標回帰法は、シーン情報をニューラルネットワークに格納することで高い圧縮を達成するが、ロバスト性が低下する。 NeuMapは両方のアプローチの利点を生かして活用する 1)効率的なシーン表現と学習可能な潜在コード 2) 問合せ画素の座標を推測するシーン非依存のトランスフォーマーベースのオートデコーダ。 このシーンに依存しないネットワーク設計は、大規模データから堅牢なマッチング先を学習し、ネットワーク重みを固定しつつ、新しいシーンのためのコードの迅速な最適化を可能にする。 5つのベンチマークの大規模な評価は、NeuMapが他の座標回帰手法を著しく上回り、より小さいシーン表現サイズで特徴マッチング手法に匹敵する性能を達成することを示している。 例えば、neumapは6mbのデータしか持たないaachen nightベンチマークで39.1%の精度を達成している。 コードはhttps://github.com/tangshitao/neumapで入手できる。

This paper presents an end-to-end neural mapping method for camera localization, dubbed NeuMap, encoding a whole scene into a grid of latent codes, with which a Transformer-based auto-decoder regresses 3D coordinates of query pixels. State-of-the-art feature matching methods require each scene to be stored as a 3D point cloud with per-point features, consuming several gigabytes of storage per scene. While compression is possible, performance drops significantly at high compression rates. Conversely, coordinate regression methods achieve high compression by storing scene information in a neural network but suffer from reduced robustness. NeuMap combines the advantages of both approaches by utilizing 1) learnable latent codes for efficient scene representation and 2) a scene-agnostic Transformer-based auto-decoder to infer coordinates for query pixels. This scene-agnostic network design learns robust matching priors from large-scale data and enables rapid optimization of codes for new scenes while keeping the network weights fixed. Extensive evaluations on five benchmarks show that NeuMap significantly outperforms other coordinate regression methods and achieves comparable performance to feature matching methods while requiring a much smaller scene representation size. For example, NeuMap achieves 39.1% accuracy in the Aachen night benchmark with only 6MB of data, whereas alternative methods require 100MB or several gigabytes and fail completely under high compression settings. The codes are available at https://github.com/Tangshitao/NeuMap
翻訳日:2023-03-29 01:39:46 公開日:2023-03-26
# 蓄積軌道誤差の最小化とデータセット蒸留の改善

Minimizing the Accumulated Trajectory Error to Improve Dataset Distillation ( http://arxiv.org/abs/2211.11004v3 )

ライセンス: Link先を確認
Jiawei Du, Yidi Jiang, Vincent Y. F. Tan, Joey Tianyi Zhou, Haizhou Li(参考訳) モデルベースのディープラーニングは、大規模な実世界データの提供によって、驚くべき成功を収めています。 しかし、そのような大量のデータを処理するには、計算、ストレージ、トレーニング、優れたニューラルネットワークアーキテクチャの探索といった面でかなりのコストがかかる。 そのため、最近データセット蒸留が注目されている。 このパラダイムでは、大規模な現実世界のデータセットから小さくてコンパクトな合成データセットに情報を蒸留することで、後者を理想的に処理することで、前者と同様のパフォーマンスが得られる。 最先端の手法は主に、実データと合成データのトレーニング中に得られた勾配をマッチングすることで、合成データセットの学習に依存する。 しかし, これらの勾配マッチング法は, 蒸留とその後の評価の相違による, いわゆる累積軌道誤差に悩まされている。 この累積軌道誤差の悪影響を軽減するために,最適化アルゴリズムが平坦な軌道を求めることを奨励する新しい手法を提案する。 合成データでトレーニングされた重みは、平坦軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。 提案手法は,高解像度画像を用いたImageNetデータセットのサブセットにおいて,勾配マッチング法の性能を最大4.7%向上させる。 また,異なる解像度のデータセットを用いて本手法の有効性と一般化性を検証し,ニューラルアーキテクチャ探索への適用性を示す。 コードはhttps://github.com/AngusDujw/FTD-distillationで入手できる。

Model-based deep learning has achieved astounding successes due in part to the availability of large-scale real-world data. However, processing such massive amounts of data comes at a considerable cost in terms of computations, storage, training and the search for good neural architectures. Dataset distillation has thus recently come to the fore. This paradigm involves distilling information from large real-world datasets into tiny and compact synthetic datasets such that processing the latter ideally yields similar performances as the former. State-of-the-art methods primarily rely on learning the synthetic dataset by matching the gradients obtained during training between the real and synthetic data. However, these gradient-matching methods suffer from the so-called accumulated trajectory error caused by the discrepancy between the distillation and subsequent evaluation. To mitigate the adverse impact of this accumulated trajectory error, we propose a novel approach that encourages the optimization algorithm to seek a flat trajectory. We show that the weights trained on synthetic data are robust against the accumulated errors perturbations with the regularization towards the flat trajectory. Our method, called Flat Trajectory Distillation (FTD), is shown to boost the performance of gradient-matching methods by up to 4.7% on a subset of images of the ImageNet dataset with higher resolution images. We also validate the effectiveness and generalizability of our method with datasets of different resolutions and demonstrate its applicability to neural architecture search. Code is available at https://github.com/AngusDujw/FTD-distillation.
翻訳日:2023-03-29 01:39:18 公開日:2023-03-26
# ネットワークプルーニングによる軽量オブジェクトトラッカの設計について:cnnかトランスフォーマーか?

On Designing Light-Weight Object Trackers through Network Pruning: Use CNNs or Transformers? ( http://arxiv.org/abs/2211.13769v2 )

ライセンス: Link先を確認
Saksham Aggarwal, Taneesh Gupta, Pawan Kumar Sahu, Arnav Chavan, Rishabh Tiwari, Dilip K. Prasad, Deepak K. Gupta(参考訳) 低消費電力デバイスにデプロイされるオブジェクトトラッカーは軽量である必要があるが、現在のSOTA(State-of-the-art)メソッドのほとんどは、CNNやトランスフォーマーを使って構築された計算量の多いバックボーンに依存している。 このようなモデルの大型化は低電力環境での展開を許さず、大型追跡モデルの圧縮型の設計は非常に重要である。 本稿では,CNNとトランスフォーマーをベースとしたニューラルアーキテクチャを用いて,高圧縮軽量オブジェクトトラッカーを設計可能であることを示す。 さらに、軽量トラッカーの設計に最も適したアーキテクチャ選択に関する比較研究も提供する。 CNNと変圧器を組み合わせたSOTAトラッカーの比較を行い, 各種圧縮比での安定性について検討した。 最後に、極端なプルーニングシナリオが1%以下のケースでは、オブジェクト追跡におけるネットワークプルーニングの限界を研究することが示される。 この研究は、既存のSOTAメソッドから高効率なトラッカーを設計するための深い洞察を提供する。

Object trackers deployed on low-power devices need to be light-weight, however, most of the current state-of-the-art (SOTA) methods rely on using compute-heavy backbones built using CNNs or transformers. Large sizes of such models do not allow their deployment in low-power conditions and designing compressed variants of large tracking models is of great importance. This paper demonstrates how highly compressed light-weight object trackers can be designed using neural architectural pruning of large CNN and transformer based trackers. Further, a comparative study on architectural choices best suited to design light-weight trackers is provided. A comparison between SOTA trackers using CNNs, transformers as well as the combination of the two is presented to study their stability at various compression ratios. Finally results for extreme pruning scenarios going as low as 1% in some cases are shown to study the limits of network pruning in object tracking. This work provides deeper insights into designing highly efficient trackers from existing SOTA methods.
翻訳日:2023-03-29 01:30:01 公開日:2023-03-26
# 見逃すものを見る - セマンティック補完学習による視覚言語事前学習

Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning ( http://arxiv.org/abs/2211.13437v2 )

ライセンス: Link先を確認
Yatai Ji, Rongcheng Tu, Jie Jiang, Weijie Kong, Chengfei Cai, Wenzhe Zhao, Hongfa Wang, Yujiu Yang, Wei Liu(参考訳) クロスモーダルアライメントは視覚言語前訓練(vlp)モデルにおいて、異なるモダリティ間の正しい対応情報を学ぶために不可欠である。 この目的のために、NLP事前学習領域におけるマスメッド言語モデリング(MLM)タスクの成功に触発されて、VLPはクロスモーダル相互作用をさらに促進するために多くのマスメッドモデリングタスクが提案されている。 以前のマスクモデリングタスクの核となるアイデアは、ローカルからローカルへのアライメントを学ぶために、目に見えるコンテキストに基づいてマスクトークンを再構築することである。 しかし、そのほとんどはマスクされたデータのために生成されたグローバルセマンティック機能にほとんど注意を払わず、結果としてグローバル表現のクロスモーダルアライメント能力が制限された。 そこで本稿では,既存のマスク型モデリングタスクを補完する新しい意味完成学習(scl)タスクを提案する。 具体的には、sclタスクは、他のモダリティから対応する情報をキャプチャすることで、マスクデータの欠落したセマンティクスを補完し、下流タスクのパフォーマンスに大きな影響を与える、より代表的なグローバル特徴の学習を促進する。 さらに,画像テキストとビデオテキストのマルチモーダルタスクを同時に実行可能にするフレキシブルなビジョンエンコーダを提案する。 実験の結果,視覚的質問応答,画像テキスト検索,ビデオテキスト検索など,様々な視覚言語ベンチマーク上での最先端性能が得られた。

Cross-modal alignment is essential for vision-language pre-training (VLP) models to learn the correct corresponding information across different modalities. For this purpose, inspired by the success of masked language modeling (MLM) tasks in the NLP pre-training area, numerous masked modeling tasks have been proposed for VLP to further promote cross-modal interactions. The core idea of previous masked modeling tasks is to focus on reconstructing the masked tokens based on visible context for learning local-to-local alignment. However, most of them pay little attention to the global semantic features generated for the masked data, resulting in a limited cross-modal alignment ability of global representations. Therefore, in this paper, we propose a novel Semantic Completion Learning (SCL) task, complementary to existing masked modeling tasks, to facilitate global-to-local alignment. Specifically, the SCL task complements the missing semantics of masked data by capturing the corresponding information from the other modality, promoting learning more representative global features which have a great impact on the performance of downstream tasks. Moreover, we present a flexible vision encoder, which enables our model to perform image-text and video-text multimodal tasks simultaneously. Experimental results show that our proposed method obtains state-of-the-art performance on various vision-language benchmarks, such as visual question answering, image-text retrieval, and video-text retrieval.
翻訳日:2023-03-29 01:29:44 公開日:2023-03-26
# BaRe-ESA: 登録されていない人体形状のためのリーマン的フレームワーク

BaRe-ESA: A Riemannian Framework for Unregistered Human Body Shapes ( http://arxiv.org/abs/2211.13185v2 )

ライセンス: Link先を確認
Emmanuel Hartman, Emery Pierson, Martin Bauer, Nicolas Charon, Mohamed Daoudi(参考訳) 本研究では,人体スキャン表現,補間,外挿のための新しいリーマン的フレームワークBasis Restricted Elastic Shape Analysis(BaRe-ESA)を提案する。 bare-esaは、未登録のメッシュ、すなわち、事前のポイントからポイント対応、あるいは一貫性のあるメッシュ構造を前提として、直接動作する。 この方法は、曲面の空間上の不変高階計量に付随するリーマン計量(非ユークリッド)を備える潜在空間表現に依存する。 FAUSTおよびDFAUSTデータセットの実験結果から、BaRe-ESAは、形状登録、補間、外挿の点で、以前のソリューションに関して大幅に改善されている。 モデルの有効性と強度は, 動き伝達やランダムな身体形状の生成, ポーズなどの応用でさらに実証される。

We present Basis Restricted Elastic Shape Analysis (BaRe-ESA), a novel Riemannian framework for human body scan representation, interpolation and extrapolation. BaRe-ESA operates directly on unregistered meshes, i.e., without the need to establish prior point to point correspondences or to assume a consistent mesh structure. Our method relies on a latent space representation, which is equipped with a Riemannian (non-Euclidean) metric associated to an invariant higher-order metric on the space of surfaces. Experimental results on the FAUST and DFAUST datasets show that BaRe-ESA brings significant improvements with respect to previous solutions in terms of shape registration, interpolation and extrapolation. The efficiency and strength of our model is further demonstrated in applications such as motion transfer and random generation of body shape and pose.
翻訳日:2023-03-29 01:28:51 公開日:2023-03-26
# ループ内の人間による知識グラフの拡張

Expanding Knowledge Graphs with Humans in the Loop ( http://arxiv.org/abs/2212.05189v2 )

ライセンス: Link先を確認
Emaad Manzoor, Jordan Tong, Sriniketh Vijayaraghavan, Rui Li(参考訳) キュレートされた知識グラフはドメインの専門知識を符号化し、いくつかのドメインにおけるレコメンデーション、セグメンテーション、広告ターゲティング、その他の機械学習システムのパフォーマンスを改善する。 ドメインに新しい概念が現れると、機械学習のパフォーマンスを維持するために知識グラフを拡張する必要がある。 しかし、手動で知識グラフを拡大することは、スケールでは不可能である。 本研究では,人間のループを用いた知識グラフ拡張手法を提案する。 具体的には、知識グラフが与えられた場合、このグラフに新たな概念の「親」を予測し、人間の専門家によるさらなる検証を行う。 本手法は正確であり,「人間フレンドリー」であることを示す。 具体的には, 予測が誤りであっても, 知識グラフ上で「近い」概念の真の親である親を予測できることを実証する。 次に、制御された実験により、この特性を満たすことにより、人間とアルゴリズムの協調のスピードと精度が向上することを示す。 さらに,pinterestのナレッジグラフ上での手法を評価し,精度と人間フレンドリー性の両方において競合する手法よりも優れていることを示す。 Pinterestで本番環境に展開すると、知識グラフの拡張に必要な時間を(手作業による拡張と比較して)約400%削減し、その後の広告収入の20%向上に寄与しました。

Curated knowledge graphs encode domain expertise and improve the performance of recommendation, segmentation, ad targeting, and other machine learning systems in several domains. As new concepts emerge in a domain, knowledge graphs must be expanded to preserve machine learning performance. Manually expanding knowledge graphs, however, is infeasible at scale. In this work, we propose a method for knowledge graph expansion with humans-in-the-loop. Concretely, given a knowledge graph, our method predicts the "parents" of new concepts to be added to this graph for further verification by human experts. We show that our method is both accurate and provably "human-friendly". Specifically, we prove that our method predicts parents that are "near" concepts' true parents in the knowledge graph, even when the predictions are incorrect. We then show, with a controlled experiment, that satisfying this property increases both the speed and the accuracy of the human-algorithm collaboration. We further evaluate our method on a knowledge graph from Pinterest and show that it outperforms competing methods on both accuracy and human-friendliness. Upon deployment in production at Pinterest, our method reduced the time needed for knowledge graph expansion by ~400% (compared to manual expansion), and contributed to a subsequent increase in ad revenue of 20%.
翻訳日:2023-03-29 01:23:21 公開日:2023-03-26
# ビデオ学習者のための微調整CLIPモデル

Fine-tuned CLIP Models are Efficient Video Learners ( http://arxiv.org/abs/2212.03640v3 )

ライセンス: Link先を確認
Hanoona Rasheed, Muhammad Uzair Khattak, Muhammad Maaz, Salman Khan, Fahad Shahbaz Khan(参考訳) 画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。 ビデオの同様のスケールでのトレーニングは不可能であるため、近年のアプローチでは、画像ベースのCLIPをビデオドメインに効果的に転送することに重点を置いている。 この追求では、細心の注意を要する時間情報とフレーム間の関係を学ぶために新しいパラメトリックモジュールが追加される。 さらに、結果モデルがビデオで学習されると、与えられたタスクの分散と一般化の側面の欠如に過剰にフィットする傾向があります。 画像レベルのクリップ表現をビデオに効果的に転送するには、どうすればよいのか? そこで本研究では,映像から映像へのドメイン間ギャップを埋めるために,簡易なビデオ微調整クリップ(vifi-clip)ベースラインが一般的に十分であることを示す。 定性解析により,クリップ画像エンコーダからのフレームレベルの処理が,vifi-clip内の時間的手がかりを暗黙的にモデル化するのに有効であることを示す。 このような微調整は、モデルがシーンダイナミクス、オブジェクトの移動、オブジェクト間の関係に集中するのに役立ちます。 完全な微調整が不可能な低データ体制では、まずファインチューニングを使用してドメインギャップをブリッジし、次に言語と視覚のプロンプトを学習してCLIP表現を適応する'ブリッジとプロンプト'アプローチを提案する。 ゼロショット・ベース・ツー・ノーベル一般化・少数ショット・完全教師付き設定を5つのビデオベンチマークで評価した。 私たちのコードはhttps://github.com/muzairkhattak/ViFi-CLIPで利用可能です。

Large-scale multi-modal training with image-text pairs imparts strong generalization to CLIP model. Since training on a similar scale for videos is infeasible, recent approaches focus on the effective transfer of image-based CLIP to the video domain. In this pursuit, new parametric modules are added to learn temporal information and inter-frame relationships which require meticulous design efforts. Furthermore, when the resulting models are learned on videos, they tend to overfit on the given task distribution and lack in generalization aspect. This begs the following question: How to effectively transfer image-level CLIP representations to videos? In this work, we show that a simple Video Fine-tuned CLIP (ViFi-CLIP) baseline is generally sufficient to bridge the domain gap from images to videos. Our qualitative analysis illustrates that the frame-level processing from CLIP image-encoder followed by feature pooling and similarity matching with corresponding text embeddings helps in implicitly modeling the temporal cues within ViFi-CLIP. Such fine-tuning helps the model to focus on scene dynamics, moving objects and inter-object relationships. For low-data regimes where full fine-tuning is not viable, we propose a `bridge and prompt' approach that first uses fine-tuning to bridge the domain gap and then learns prompts on language and vision side to adapt CLIP representations. We extensively evaluate this simple yet strong baseline on zero-shot, base-to-novel generalization, few-shot and fully supervised settings across five video benchmarks. Our code is available at https://github.com/muzairkhattak/ViFi-CLIP.
翻訳日:2023-03-29 01:22:36 公開日:2023-03-26
# ref-npr: 制御可能なシーンスタイライゼーションのための参照ベース非フォトリアリスティック放射場

Ref-NPR: Reference-Based Non-Photorealistic Radiance Fields for Controllable Scene Stylization ( http://arxiv.org/abs/2212.02766v2 )

ライセンス: Link先を確認
Yuechen Zhang, Zexin He, Jinbo Xing, Xufeng Yao, Jiaya Jia(参考訳) 現在の3dシーンスタイライゼーション手法は、テクスチャや色を任意のスタイル参照を使用してスタイルとして転送し、意味のある意味的対応を欠いている。 本稿では、この制限に対処するため、参照ベース非フォトリアリスティックレーダランス場(Ref-NPR)を紹介する。 単一のスタイル化された2Dビューを基準として、放射場を用いて3Dシーンをスタイリングする。 本稿では,新しい視点で擬似x線監督を得るために,スタイライズド参照ビューに基づく光線登録プロセスを提案する。 次に,コンテンツ画像における意味的対応を利用して,知覚的に類似したスタイルでオクルードされた領域を満たし,非フォトリアリスティックかつ連続的な斬新なビューシークエンスを生成する。 実験の結果,Ref-NPRは視覚的品質や意味的対応に関して,既存のシーンや映像のスタイリング手法よりも優れていた。 コードとデータはプロジェクトのページ https://ref-npr.github.io で公開されている。

Current 3D scene stylization methods transfer textures and colors as styles using arbitrary style references, lacking meaningful semantic correspondences. We introduce Reference-Based Non-Photorealistic Radiance Fields (Ref-NPR) to address this limitation. This controllable method stylizes a 3D scene using radiance fields with a single stylized 2D view as a reference. We propose a ray registration process based on the stylized reference view to obtain pseudo-ray supervision in novel views. Then we exploit semantic correspondences in content images to fill occluded regions with perceptually similar styles, resulting in non-photorealistic and continuous novel view sequences. Our experimental results demonstrate that Ref-NPR outperforms existing scene and video stylization methods regarding visual quality and semantic correspondence. The code and data are publicly available on the project page at https://ref-npr.github.io.
翻訳日:2023-03-29 01:21:50 公開日:2023-03-26
# プロンプト学習による伝播構造によるゼロショット騒音検出

Zero-Shot Rumor Detection with Propagation Structure via Prompt Learning ( http://arxiv.org/abs/2212.01117v3 )

ライセンス: Link先を確認
Hongzhan Lin, Pengyao Yi, Jing Ma, Haiyun Jiang, Ziyang Luo, Shuming Shi, Ruifang Liu(参考訳) 噂の広まりと破壊的な出来事は、ソーシャルメディア時代の真実を著しく妨げている。 以前の研究では、注釈付きリソースがないため、マイノリティ言語で提示される噂は検出しにくいことが示されている。 さらに、昨日のニュースに関わらない予期せぬ破壊的な出来事は、データリソースの不足を悪化させる。 本研究では,異なるドメインで発生する噂や異なる言語で提示される噂を早期に検出するためのゼロショットフレームワークを提案する。 より具体的には,まずソーシャルメディア上で拡散する噂を多様な伝搬スレッドとして表現し,その上で,プロンプトと噂データの両方に対する言語に依存しない文脈表現を学習するための階層的なプロンプトエンコーディング機構を設計する。 ドメイン適応をさらに強化するため,伝播スレッドからドメイン不変な構造特徴をモデル化し,コミュニティ応答の構造的位置表現を組み込む。 さらに、モデルトレーニングを改善するために、新しい仮想応答拡張法が使用される。 3つの実世界のデータセットで行った広範囲な実験により,提案モデルが最先端の手法よりも優れた性能を実現し,早期の噂検出に優れた能力を示すことを示した。

The spread of rumors along with breaking events seriously hinders the truth in the era of social media. Previous studies reveal that due to the lack of annotated resources, rumors presented in minority languages are hard to be detected. Furthermore, the unforeseen breaking events not involved in yesterday's news exacerbate the scarcity of data resources. In this work, we propose a novel zero-shot framework based on prompt learning to detect rumors falling in different domains or presented in different languages. More specifically, we firstly represent rumor circulated on social media as diverse propagation threads, then design a hierarchical prompt encoding mechanism to learn language-agnostic contextual representations for both prompts and rumor data. To further enhance domain adaptation, we model the domain-invariant structural features from the propagation threads, to incorporate structural position representations of influential community response. In addition, a new virtual response augmentation method is used to improve model training. Extensive experiments conducted on three real-world datasets demonstrate that our proposed model achieves much better performance than state-of-the-art methods and exhibits a superior capacity for detecting rumors at early stages.
翻訳日:2023-03-29 01:20:52 公開日:2023-03-26
# 画像テキストペアのみを用いたオープンワールドセマンティックセマンティックセグメンテーションのためのテキストグラウンドマスク生成学習

Learning to Generate Text-grounded Mask for Open-world Semantic Segmentation from Only Image-Text Pairs ( http://arxiv.org/abs/2212.00785v2 )

ライセンス: Link先を確認
Junbum Cha, Jonghwan Mun, Byungseok Roh(参考訳) 画像中の任意の視覚概念を,濃密なアノテーションを伴わない画像テキストペアのみを用いて,学習するオープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。 既存のオープンワールドセグメンテーション手法は、コントラスト学習(cl)を用いて多様な視覚概念を学習し、学習された画像レベルの理解をセグメンテーションタスクに移すことで印象的な進歩を示している。 しかし、これらのclベースの手法はトレーニング中の画像-テキストアライメントのみを考慮し、セグメンテーションはテスト時に領域-テキストアライメントを必要とするため、トレインテストの不一致に苦しむ。 本稿では,モデルが地域テキストアライメントを直接学習することを可能にする,新しいテキストグラウンド・コントラシブ・ラーニング(TCL)フレームワークを提案する。 本手法は,与えられたテキストに対するセグメンテーションマスクを生成し,マスク領域からテキスト地上画像を抽出し,TCLによるテキスト埋め込みと整合する。 我々のフレームワークは,地域テキストのアライメントを直接学習することにより,生成したセグメンテーションマスクの質を直接改善するモデルを奨励する。 さらに,厳密かつ公正な比較のために,広く用いられている8つのセマンティックセグメンテーションデータセットを用いた統一評価プロトコルを提案する。 TCLは、すべてのデータセットで大きなマージンを持つ最先端のゼロショットセグメンテーション性能を達成する。 コードはhttps://github.com/kakaobrain/tclで入手できる。

We tackle open-world semantic segmentation, which aims at learning to segment arbitrary visual concepts in images, by using only image-text pairs without dense annotations. Existing open-world segmentation methods have shown impressive advances by employing contrastive learning (CL) to learn diverse visual concepts and transferring the learned image-level understanding to the segmentation task. However, these CL-based methods suffer from a train-test discrepancy, since it only considers image-text alignment during training, whereas segmentation requires region-text alignment during testing. In this paper, we proposed a novel Text-grounded Contrastive Learning (TCL) framework that enables a model to directly learn region-text alignment. Our method generates a segmentation mask for a given text, extracts text-grounded image embedding from the masked region, and aligns it with text embedding via TCL. By learning region-text alignment directly, our framework encourages a model to directly improve the quality of generated segmentation masks. In addition, for a rigorous and fair comparison, we present a unified evaluation protocol with widely used 8 semantic segmentation datasets. TCL achieves state-of-the-art zero-shot segmentation performances with large margins in all datasets. Code is available at https://github.com/kakaobrain/tcl.
翻訳日:2023-03-29 01:20:32 公開日:2023-03-26
# ARO-Net: Anchored Radial Observations による入射場学習

ARO-Net: Learning Implicit Fields from Anchored Radial Observations ( http://arxiv.org/abs/2212.10275v2 )

ライセンス: Link先を確認
Yizhi Wang, Zeyu Huang, Ariel Shamir, Hui Huang, Hao Zhang, Ruizhen Hu(参考訳) 本研究では,3次元形状の暗黙的場表現を学習するための新しい形状エンコードであるanchored radial observations (aro)を提案する。 私たちの研究の主な考え方は、アンカーと呼ばれる一連の視点から部分的な観察を通して形状を推論することにあります。 フィボナッチサンプリングによる固定されたアンカーセットを用い,空間内の問合せ点の占有率を予測する座標ベースの深層ニューラルネットワークを設計することで,汎用的で統一的な形状表現を開発する。 グローバルな形状特徴を使用する従来のニューラル暗黙モデルとは異なる、私たちの形状エンコーダは、文脈的、クエリ特有の特徴で動作する。 ポイント占有率を予測するため、暗黙の復号を行う前に、入力クエリポイントを取り巻くアンカーの観点から局所的に観測された形状情報をエンコードしてアテンションモジュールを介して集約する。 aro-net と呼ばれるネットワークの質と汎用性を実証し,sparse point cloud から表面再構成し,新規かつ未発見のオブジェクトカテゴリ,"1-shape" トレーニング,再構築とテッセレーションのための最先端のニューラルおよび古典的手法との比較を行った。

We introduce anchored radial observations (ARO), a novel shape encoding for learning implicit field representation of 3D shapes that is category-agnostic and generalizable amid significant shape variations. The main idea behind our work is to reason about shapes through partial observations from a set of viewpoints, called anchors. We develop a general and unified shape representation by employing a fixed set of anchors, via Fibonacci sampling, and designing a coordinate-based deep neural network to predict the occupancy value of a query point in space. Differently from prior neural implicit models that use global shape feature, our shape encoder operates on contextual, query-specific features. To predict point occupancy, locally observed shape information from the perspective of the anchors surrounding the input query point are encoded and aggregated through an attention module, before implicit decoding is performed. We demonstrate the quality and generality of our network, coined ARO-Net, on surface reconstruction from sparse point clouds, with tests on novel and unseen object categories, "one-shape" training, and comparisons to state-of-the-art neural and classical methods for reconstruction and tessellation.
翻訳日:2023-03-29 01:13:40 公開日:2023-03-26
# PromptCAL: 一般化された新しいカテゴリー発見のための補助プロンプトによるコントラスト親和性学習

PromptCAL: Contrastive Affinity Learning via Auxiliary Prompts for Generalized Novel Category Discovery ( http://arxiv.org/abs/2212.05590v2 )

ライセンス: Link先を確認
Sheng Zhang, Salman Khan, Zhiqiang Shen, Muzammal Naseer, Guangyi Chen, Fahad Khan(参考訳) 既存の半教師付き学習モデルは、注釈なしの分布データで学習に顕著な成功を収めるが、多くの場合、閉じたセットの仮定により、新しい意味クラスからサンプリングされたラベルなしのデータでは学習できない。 本研究は,実用的ではあるが未探索の一般新規カテゴリー発見(GNCD)を目標とする。 gncd設定は、部分的にラベル付けされた既知のクラスの情報を利用して、既知のクラスや新しいクラスから来るラベルなしのトレーニングデータを分類することを目的としている。 本稿では,この課題に対処するために,PromptCALと呼ばれる補助視覚プロンプトを用いた2段階のコントラスト親和性学習法を提案する。 提案手法は,クラストークンと視覚的プロンプトのための既知のクラスと新しいクラスのセマンティッククラスタリングを改善するために,信頼性の高いペアワイズサンプル親和性を発見する。 まず,より洗練された親和性関係を実現するために,事前学習済み視覚トランスフォーマの意味的識別性を強化するための識別的即応正規化損失を提案し,さらに,この反復的半教師付き親和性グラフ生成法に基づく意味表現の校正のための対比親和性学習を提案する。 広範な実験評価により,本手法は限定的なアノテーションを用いても新規クラスの発見に有効であることを示し,汎用および細粒度ベンチマーク(cub-200では11%近く,imagenet-100では9%近く)において最先端のベンチマークを上回った。 私たちのコードはhttps://github.com/sheng-eatamath/promptcalで利用可能です。

Although existing semi-supervised learning models achieve remarkable success in learning with unannotated in-distribution data, they mostly fail to learn on unlabeled data sampled from novel semantic classes due to their closed-set assumption. In this work, we target a pragmatic but under-explored Generalized Novel Category Discovery (GNCD) setting. The GNCD setting aims to categorize unlabeled training data coming from known and novel classes by leveraging the information of partially labeled known classes. We propose a two-stage Contrastive Affinity Learning method with auxiliary visual Prompts, dubbed PromptCAL, to address this challenging problem. Our approach discovers reliable pairwise sample affinities to learn better semantic clustering of both known and novel classes for the class token and visual prompts. First, we propose a discriminative prompt regularization loss to reinforce semantic discriminativeness of prompt-adapted pre-trained vision transformer for refined affinity relationships.Besides, we propose contrastive affinity learning to calibrate semantic representations based on our iterative semi-supervised affinity graph generation method for semantically-enhanced supervision. Extensive experimental evaluation demonstrates that our PromptCAL method is more effective in discovering novel classes even with limited annotations and surpasses the current state-of-the-art on generic and fine-grained benchmarks (e.g., with nearly 11% gain on CUB-200, and 9% on ImageNet-100) on overall accuracy. Our code is available at https://github.com/sheng-eatamath/PromptCAL.
翻訳日:2023-03-29 01:10:52 公開日:2023-03-26
# cap4video:テキスト・ビデオ検索に補助キャプションは何ができるのか?

Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? ( http://arxiv.org/abs/2301.00184v2 )

ライセンス: Link先を確認
Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang(参考訳) 既存のテキストビデオ検索手法の多くは、ビデオの視覚的内容とテキスト検索文の相互マッチングに重点を置いている。 しかし、現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が含まれており、テキストクエリのマッチングに利用することができる。 この知見は,ウェブ規模の事前学習モデル(CLIPやGPT-2など)の知識を生かしたゼロショットビデオキャプションを用いて,ビデオから関連キャプションを直接生成する,テキストビデオ検索の新しいアプローチを提案する動機となった。 生成したキャプションを考えると、自然な疑問が生まれます。テキストビデオ検索にどのようなメリットがあるのでしょうか? これに対応するために、キャプションを3つの方法で活用する新しいフレームワークであるCap4Videoを紹介します。 i) 入力データ: ビデオキャプチャペアは、トレーニングデータを強化することができる。 ii)中間機能間相互作用:ビデオとキャプション間の相互機能間相互作用を行い,拡張された映像表現を生成する。 三 出力スコア: Query-Captionマッチングブランチは、元のQuery-Videoマッチングブランチを補完して、テキストビデオ検索を行うことができる。 本手法の有効性を実証するために包括的アブレーション研究を行う。 後処理を行わないCap4Videoは、MSR-VTT (51.4%)、VATEX (66.6%)、MSVD (51.8%)、DiDeMo (52.0%)の4つの標準テキストビデオ検索ベンチマークで最先端のパフォーマンスを達成した。 コードはhttps://github.com/whwu95/cap4videoで入手できる。

Most existing text-video retrieval methods focus on cross-modal matching between the visual content of videos and textual query sentences. However, in real-world scenarios, online videos are often accompanied by relevant text information such as titles, tags, and even subtitles, which can be utilized to match textual queries. This insight has motivated us to propose a novel approach to text-video retrieval, where we directly generate associated captions from videos using zero-shot video captioning with knowledge from web-scale pre-trained models (e.g., CLIP and GPT-2). Given the generated captions, a natural question arises: what benefits do they bring to text-video retrieval? To answer this, we introduce Cap4Video, a new framework that leverages captions in three ways: i) Input data: video-caption pairs can augment the training data. ii) Intermediate feature interaction: we perform cross-modal feature interaction between the video and caption to produce enhanced video representations. iii) Output score: the Query-Caption matching branch can complement the original Query-Video matching branch for text-video retrieval. We conduct comprehensive ablation studies to demonstrate the effectiveness of our approach. Without any post-processing, Cap4Video achieves state-of-the-art performance on four standard text-video retrieval benchmarks: MSR-VTT (51.4%), VATEX (66.6%), MSVD (51.8%), and DiDeMo (52.0%). The code is available at https://github.com/whwu95/Cap4Video .
翻訳日:2023-03-29 01:03:29 公開日:2023-03-26
# あらゆる物のインターネットにおける信頼管理

Trust Management in the Internet of Everything ( http://arxiv.org/abs/2212.14688v2 )

ライセンス: Link先を確認
Barbora Buhnova(参考訳) デジタル化は私たちを、人々、プロセス、データ、物事が互いに相互作用するだけでなく、自分自身で社会を形成し始める未来へと導く。 人工知能によって強化されたこれらの動的システムにおいて、人間と機械のレベルでの信頼管理と機械と機械の相互作用は、デジタル化された未来の安全で安全な進歩を監督する上で重要な要素となる。 本稿では,複雑なディジタルエコシステムにおける信頼管理の本質的要素について論じ,信頼管理の定義とコア概念を通じて読者を導く。 さらに、信頼構築が他の(おそらく自律的な)デジタルエージェントとの安全な対話を支援するためにどのように活用できるかを説明している。

Digitalization is leading us towards a future where people, processes, data and things are not only interacting with each other, but might start forming societies on their own. In these dynamic systems enhanced by artificial intelligence, trust management on the level of human-to-machine as well as machine-to-machine interaction becomes an essential ingredient in supervising safe and secure progress of our digitalized future. This tutorial paper discusses the essential elements of trust management in complex digital ecosystems, guiding the reader through the definitions and core concepts of trust management. Furthermore, it explains how trust-building can be leveraged to support people in safe interaction with other (possibly autonomous) digital agents, as trust governance may allow the ecosystem to trigger an auto-immune response towards untrusted digital agents, protecting human safety.
翻訳日:2023-03-29 01:02:17 公開日:2023-03-26
# PIRLNav: ObjectNavのイミュレーションとRLファインタニングによる事前トレーニング

PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav ( http://arxiv.org/abs/2301.07302v2 )

ライセンス: Link先を確認
Ram Ramrakhya, Dhruv Batra, Erik Wijmans, Abhishek Das(参考訳) objectgoal navigation -- 新たな環境に位置する仮想ロボットにオブジェクトへのナビゲートを依頼する。以前の研究では、人間のデモのデータセット上でbc(behavior clone)を使用した模倣学習(il)が有望な結果をもたらすことが示されている。しかし、これには制限がある。 1)BCの政策は、訓練が結果ではなく行動を模倣しているため、新しい州に悪影響を及ぼす。 2) デモの収集は費用がかかる。 一方、強化学習(rl)は微妙にスケーラブルであるが、望ましい行動を達成するには注意深い報酬工学が必要である。 PIRLNavは,人体実験とRLファインタニングを併用した,BCのための2段階学習方式である。 これは、objectnavで65.0\%$(以前の最先端よりも+5.0\%$ absolute)の成功率を達成するポリシーにつながる。 このbc$\rightarrow$rlトレーニングレシピを用いて,設計選択の厳密な経験的分析を行う。 まず,人間によるデモンストレーションを,例えば,最短経路 (SP) やタスク非依存フロンティア探索 (FE) といった,デモンストレーションの「自由」(自動生成)ソースに置き換えることができるかを検討する。 BC$\rightarrow$RL on human demonstrations, BC$\rightarrow$RL on SP and FE trajectories, even when controlled for same BC-pretraining success on Train, and even on a subset val episodes where BC-pretraining success favors SP or FE policy。 次に,bcプリトレーニングデータセットのサイズに応じて,rl微調整性能がどのようにスケールするかについて検討する。 BC-pretraining データセットのサイズを拡大し、BC の精度を高めるにつれて、RL-finetuning の改善は小さくなり、BC$\rightarrow$RL ポリシーのパフォーマンスの 90 % は、BC のデモの半数以下で達成できることがわかった。 最後に、objectnavポリシーの障害モードを分析し、さらに改善するためのガイドラインを提示します。

We study ObjectGoal Navigation -- where a virtual robot situated in a new environment is asked to navigate to an object. Prior work has shown that imitation learning (IL) using behavior cloning (BC) on a dataset of human demonstrations achieves promising results. However, this has limitations -- 1) BC policies generalize poorly to new states, since the training mimics actions not their consequences, and 2) collecting demonstrations is expensive. On the other hand, reinforcement learning (RL) is trivially scalable, but requires careful reward engineering to achieve desirable behavior. We present PIRLNav, a two-stage learning scheme for BC pretraining on human demonstrations followed by RL-finetuning. This leads to a policy that achieves a success rate of $65.0\%$ on ObjectNav ($+5.0\%$ absolute over previous state-of-the-art). Using this BC$\rightarrow$RL training recipe, we present a rigorous empirical analysis of design choices. First, we investigate whether human demonstrations can be replaced with `free' (automatically generated) sources of demonstrations, e.g. shortest paths (SP) or task-agnostic frontier exploration (FE) trajectories. We find that BC$\rightarrow$RL on human demonstrations outperforms BC$\rightarrow$RL on SP and FE trajectories, even when controlled for same BC-pretraining success on train, and even on a subset of val episodes where BC-pretraining success favors the SP or FE policies. Next, we study how RL-finetuning performance scales with the size of the BC pretraining dataset. We find that as we increase the size of BC-pretraining dataset and get to high BC accuracies, improvements from RL-finetuning are smaller, and that $90\%$ of the performance of our best BC$\rightarrow$RL policy can be achieved with less than half the number of BC demonstrations. Finally, we analyze failure modes of our ObjectNav policies, and present guidelines for further improving them.
翻訳日:2023-03-29 00:54:13 公開日:2023-03-26
# スポーツによるスケーラブルなビデオ理解ベンチマークの構築

Building Scalable Video Understanding Benchmarks through Sports ( http://arxiv.org/abs/2301.06866v3 )

ライセンス: Link先を確認
Aniket Agarwal, Alex Zhang, Karthik Narasimhan, Igor Gilitschenski, Vishvak Murahari, Yash Kant(参考訳) 長いビデオ理解を評価するための既存のベンチマークは、スケールやアノテーションの品質の欠如の2つの重要な側面で不足している。 これらの制限は、長いビデオの高密度アノテーションの収集が困難であることから生じる。 本稿では,自動アノテーションとビデオストリームアライメントパイプライン(ASAP)を紹介する。 4つの異なるスポーツのラベルのないビデオと、自由に利用可能な密集したwebアノテーション(つまり注釈)を合わせることで、asapの汎用性を示す。 次に、ASAPのスケーラビリティを活用して、大規模な長大ビデオ理解ベンチマークであるLCricを作成し、1000時間以上の高精細な注釈付きCricketビデオ(平均サンプル長約50分)をほぼゼロのアノテーションコストで収集します。 我々は,LCric 上の最新の映像理解モデルについて,大規模な合成多重選択クエリと回帰クエリを用いてベンチマークおよび解析を行った。 我々は、新たな研究の余地を示す人間のベースラインを確立する。 人間の研究では、ASAPがビデオやアノテーションを高い忠実度、精度、スピードで調整できることが示されています。 asapとベースラインのコードとともにデータセットは、ここでアクセスすることができる。

Existing benchmarks for evaluating long video understanding falls short on two critical aspects, either lacking in scale or quality of annotations. These limitations arise from the difficulty in collecting dense annotations for long videos, which often require manually labeling each frame. In this work, we introduce an automated Annotation and Video Stream Alignment Pipeline (abbreviated ASAP). We demonstrate the generality of ASAP by aligning unlabeled videos of four different sports with corresponding freely available dense web annotations (i.e. commentary). We then leverage ASAP scalability to create LCric, a large-scale long video understanding benchmark, with over 1000 hours of densely annotated long Cricket videos (with an average sample length of ~50 mins) collected at virtually zero annotation cost. We benchmark and analyze state-of-the-art video understanding models on LCric through a large set of compositional multi-choice and regression queries. We establish a human baseline that indicates significant room for new research to explore. Our human studies indicate that ASAP can align videos and annotations with high fidelity, precision, and speed. The dataset along with the code for ASAP and baselines can be accessed here: https://asap-benchmark.github.io/.
翻訳日:2023-03-29 00:53:12 公開日:2023-03-26
# 予後説明のためのMN-Pairコントラスト損傷表現とクラスタリング

MN-Pair Contrastive Damage Representation and Clustering for Prognostic Explanation ( http://arxiv.org/abs/2301.06077v3 )

ライセンス: Link先を確認
Takato Yasuno, Masahiro Okano, Junichiro Fujii(参考訳) インフラストラクチャー検査では、損傷表現は事前に定義された損傷グレードのクラスと常に一致しないため、2グレード間の重なり合う空間から、目に見えない損傷の詳細なクラスタやより複雑なクラスタが生成される。 損傷表現は基本的に複雑な特徴を持ち、従って全ての損傷クラスが完全に事前定義できるわけではない。 提案するmn-pairコントラスト学習手法は,より詳細なクラスタを含むことにより,事前定義されたクラスを越えて組込み損傷表現を探索するのに役立つ。 アンカーに近いM-1陽性画像の類似性と、重み付け損失関数の両方を用いてN-1負画像の相似性を最大化する。 1つの正のイメージを用いてNペアアルゴリズムよりも高速に学習する。 損傷表現を得るパイプラインを提案し,2次元還元空間上の密度ベースクラスタリングを用いてクラスタ識別の高精度化を行った。 また,MN対損傷距離学習のためのGrad-CAMを用いた損傷特徴の可視化を行った。 本手法は, 鋼製品欠陥, コンクリートのひび割れ, 方法の有効性の3つの実験的研究で実証し, 今後の課題について考察した。

For infrastructure inspections, damage representation does not constantly match the predefined classes of damage grade, resulting in detailed clusters of unseen damages or more complex clusters from overlapped space between two grades. The damage representation has fundamentally complex features; consequently, not all the damage classes can be perfectly predefined. The proposed MN-pair contrastive learning method helps to explore an embedding damage representation beyond the predefined classes by including more detailed clusters. It maximizes both the similarity of M-1 positive images close to an anchor and dissimilarity of N-1 negative images using both weighting loss functions. It learns faster than the N-pair algorithm using one positive image. We proposed a pipeline to obtain the damage representation and used a density-based clustering on a 2-D reduction space to automate finer cluster discrimination. We also visualized the explanation of the damage feature using Grad-CAM for MN-pair damage metric learning. We demonstrated our method in three experimental studies: steel product defect, concrete crack, and the effectiveness of our method and discuss future works.
翻訳日:2023-03-29 00:52:22 公開日:2023-03-26
# 3DAvatarGAN: パーソナライズされた編集可能なアバターのためのブリッジドメイン

3DAvatarGAN: Bridging Domains for Personalized Editable Avatars ( http://arxiv.org/abs/2301.02700v2 )

ライセンス: Link先を確認
Rameen Abdal, Hsin-Ying Lee, Peihao Zhu, Menglei Chai, Aliaksandr Siarohin, Peter Wonka, Sergey Tulyakov(参考訳) 現代の3D-GANは、一貫した構造を持つ大規模データセットのトレーニングによって幾何学とテクスチャを合成する。 このようなモデルを、しばしば未知の、高度に変動した幾何学とカメラ情報に基づくスタイル化された芸術データで訓練することは、まだ不可能である。 マルチビューの一貫性とテクスチャの質を維持しながら、3D GANをそのような芸術的データでトレーニングできるだろうか? そこで本研究では,ソースドメインが事前訓練された3D-GANであり,ターゲットドメインが2D-GANである適応フレームワークを提案する。 次に、2Dジェネレータからソース3Dジェネレータに知識を蒸留する。 そこで我々はまず,ドメイン間のカメラパラメータの分布を調整する最適化手法を提案する。 第二に,質の高いテクスチャを学習するために必要な規則化を提案し,平坦な形状などの幾何学的解の退化を回避した。 第3に,芸術領域の誇張された幾何学をモデル化するための変形に基づく手法について述べる。 最後に、ソースとターゲットドメインの潜在空間をリンクする3D-GANの新しい逆変換法を提案する。 私たちのコントリビューションは、初めて、芸術データセット上でパーソナライズされた3Dアバターの生成、編集、アニメーションを可能にしました。

Modern 3D-GANs synthesize geometry and texture by training on large-scale datasets with a consistent structure. Training such models on stylized, artistic data, with often unknown, highly variable geometry, and camera information has not yet been shown possible. Can we train a 3D GAN on such artistic data, while maintaining multi-view consistency and texture quality? To this end, we propose an adaptation framework, where the source domain is a pre-trained 3D-GAN, while the target domain is a 2D-GAN trained on artistic datasets. We then distill the knowledge from a 2D generator to the source 3D generator. To do that, we first propose an optimization-based method to align the distributions of camera parameters across domains. Second, we propose regularizations necessary to learn high-quality texture, while avoiding degenerate geometric solutions, such as flat shapes. Third, we show a deformation-based technique for modeling exaggerated geometry of artistic domains, enabling -- as a byproduct -- personalized geometric editing. Finally, we propose a novel inversion method for 3D-GANs linking the latent spaces of the source and the target domains. Our contributions -- for the first time -- allow for the generation, editing, and animation of personalized artistic 3D avatars on artistic datasets.
翻訳日:2023-03-29 00:52:02 公開日:2023-03-26
# 数値欠陥に対するディープニューラルネットワークアーキテクチャの信頼性保証

Reliability Assurance for Deep Neural Network Architectures Against Numerical Defects ( http://arxiv.org/abs/2302.06086v2 )

ライセンス: Link先を確認
Linyi Li, Yuhao Zhang, Luyao Ren, Yingfei Xiong, Tao Xie(参考訳) ディープニューラルネットワーク(DNN)の普及により、DNNベースのシステムの信頼性を保証することが非常に重要である。 システム障害などの深刻な信頼性問題は、DNNの最も頻繁な欠陥の一つである数値的な欠陥によって引き起こされる可能性がある。 数値欠陥に対する高い信頼性を確保するため,本論文では,潜在的な数値欠陥の検出,潜在的な欠陥の確認,欠陥修正の提案という,3つの信頼性保証タスクのための新しい手法を含むRANUM手法を提案する。 私たちの知る限りでは、RANUMは失敗防止テストによる潜在的な欠陥の可能性を確認し、自動的に修正を提案する最初のアプローチです。 63の現実世界のDNNアーキテクチャのベンチマークに関する大規模な実験は、RANUMが3つの信頼性保証タスクで最先端のアプローチより優れていることを示している。 さらに、オープンソースの開発者の修正と比較すると、40ケース中37ケースで、ranumが生成した修正は、人間の修正と同等か、それ以上に優れている。

With the widespread deployment of deep neural networks (DNNs), ensuring the reliability of DNN-based systems is of great importance. Serious reliability issues such as system failures can be caused by numerical defects, one of the most frequent defects in DNNs. To assure high reliability against numerical defects, in this paper, we propose the RANUM approach including novel techniques for three reliability assurance tasks: detection of potential numerical defects, confirmation of potential-defect feasibility, and suggestion of defect fixes. To the best of our knowledge, RANUM is the first approach that confirms potential-defect feasibility with failure-exhibiting tests and suggests fixes automatically. Extensive experiments on the benchmarks of 63 real-world DNN architectures show that RANUM outperforms state-of-the-art approaches across the three reliability assurance tasks. In addition, when the RANUM-generated fixes are compared with developers' fixes on open-source projects, in 37 out of 40 cases, RANUM-generated fixes are equivalent to or even better than human fixes.
翻訳日:2023-03-29 00:35:31 公開日:2023-03-26
# エクストリームマルチラベル分類の概観

Review of Extreme Multilabel Classification ( http://arxiv.org/abs/2302.05971v2 )

ライセンス: Link先を確認
Arpan Dasgupta, Siddhant Katyan, Shrutimoy Das, Pawan Kumar(参考訳) 極端なマルチラベル分類(英: Extreme multilabel classification、XML)は、機械学習における活発な関心領域である。 従来のマルチラベル分類と比較すると、このラベルの数は極めて多いため、極端なマルチラベル分類の名称である。 この場合、古典的な分類と全ての分類は、多くのラベルのためにスケールしないが、他の分類器も同様である。 ラベルと、より小さなラベル空間に機能を組み込むことは、重要な第一歩です。 その他の問題として、頭と尾のラベルの存在があり、テールラベルは比較的少ないサンプル数に存在するラベルである。 テールラベルの存在は埋め込み中に問題を引き起こす。 この領域では、圧縮センシングによるビット圧縮、木ベースの埋め込み、注意重みの使用を含むディープラーニングベースの潜在空間埋め込み、SVD、クラスタリング、ハッシュなどの線形代数ベースの埋め込みなど、幅広いアプローチが採用されている。 コミュニティは、頭や尾のラベルの予測を正しく識別するために有用なメトリクスセットを考案した。

Extreme multilabel classification or XML, is an active area of interest in machine learning. Compared to traditional multilabel classification, here the number of labels is extremely large, hence, the name extreme multilabel classification. Using classical one versus all classification wont scale in this case due to large number of labels, same is true for any other classifiers. Embedding of labels as well as features into smaller label space is an essential first step. Moreover, other issues include existence of head and tail labels, where tail labels are labels which exist in relatively smaller number of given samples. The existence of tail labels creates issues during embedding. This area has invited application of wide range of approaches ranging from bit compression motivated from compressed sensing, tree based embeddings, deep learning based latent space embedding including using attention weights, linear algebra based embeddings such as SVD, clustering, hashing, to name a few. The community has come up with a useful set of metrics to identify correctly the prediction for head or tail labels.
翻訳日:2023-03-29 00:35:13 公開日:2023-03-26
# HumanMAC:人間の動作予測のための仮面運動補完

HumanMAC: Masked Motion Completion for Human Motion Prediction ( http://arxiv.org/abs/2302.03665v2 )

ライセンス: Link先を確認
Ling-Hao Chen, Jiawei Zhang, Yewen Li, Yiren Pang, Xiaobo Xia, Tongliang Liu(参考訳) 人間の動作予測はコンピュータビジョンとコンピュータグラフィックスにおいて古典的な問題であり、幅広い実用的応用がある。 従来の効果はエンコーディング・デコード方式に基づく経験的性能を実現する。 このスタイルの方法は、まず前の動きを潜在表現にエンコードし、次に潜在表現を予測された動きに復号する。 しかし、実際には、複雑な損失制約、面倒なトレーニングプロセス、予測における異なるカテゴリーの動作の切り替えなど、いくつかの問題により、まだ満足できない。 本稿では、上記の課題に対処するため、先進的なスタイルから脱却し、新しい視点から新しい枠組みを提案する。 具体的には、我々のフレームワークはマスク付き補完方式で機能する。 トレーニング段階では、ランダムノイズから動きを生成する動き拡散モデルを学ぶ。 推論段階では, より連続かつ制御可能な予測を出力するために, 観測された動きに動き予測条件を付ける。 提案フレームワークは,最適化に1つの損失しか必要とせず,エンドツーエンドでトレーニングされる,有望なアルゴリズム特性を享受する。 さらに、異なるカテゴリーの動作を効果的に切り替えることができ、例えばアニメーションタスクのような現実的なタスクにおいて重要である。 ベンチマークに関する包括的な実験により,提案フレームワークの優位性が確認された。 プロジェクトページはhttps://lhchen.top/human-macで閲覧できる。

Human motion prediction is a classical problem in computer vision and computer graphics, which has a wide range of practical applications. Previous effects achieve great empirical performance based on an encoding-decoding style. The methods of this style work by first encoding previous motions to latent representations and then decoding the latent representations into predicted motions. However, in practice, they are still unsatisfactory due to several issues, including complicated loss constraints, cumbersome training processes, and scarce switch of different categories of motions in prediction. In this paper, to address the above issues, we jump out of the foregoing style and propose a novel framework from a new perspective. Specifically, our framework works in a masked completion fashion. In the training stage, we learn a motion diffusion model that generates motions from random noise. In the inference stage, with a denoising procedure, we make motion prediction conditioning on observed motions to output more continuous and controllable predictions. The proposed framework enjoys promising algorithmic properties, which only needs one loss in optimization and is trained in an end-to-end manner. Additionally, it accomplishes the switch of different categories of motions effectively, which is significant in realistic tasks, e.g., the animation task. Comprehensive experiments on benchmarks confirm the superiority of the proposed framework. The project page is available at https://lhchen.top/Human-MAC.
翻訳日:2023-03-29 00:33:59 公開日:2023-03-26
# CLIPモデルをScene Text Detectorに変換する

Turning a CLIP Model into a Scene Text Detector ( http://arxiv.org/abs/2302.14338v3 )

ライセンス: Link先を確認
Wenwen Yu, Yuliang Liu, Wei Hua, Deqiang Jiang, Bo Ren, Xiang Bai(参考訳) 最近の大規模コントラスト言語-画像事前学習(CLIP)モデルは、事前学習されたビジョンと言語知識を活用することで、様々な下流タスクに大きな可能性を示している。 リッチテキストとビジュアル情報を含むシーンテキストは、CLIPのようなモデルと本質的に関連している。 近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。 これらの研究とは対照的に,本研究では,CLIPモデルを事前学習せずに直接テキスト検出する手法であるTCMを提案する。 提案するtcmの利点を,(1)既存のシーンテキスト検出法を改善するために,基礎となるフレームワークの原則を適用することができる。 2)既存の手法,例えばラベル付きデータの10%を用いることで,f-measureの4つのベンチマークにおける平均22%のベースライン法の性能を大幅に向上させる。 3)クリップモデルを既存のシーンテキスト検出手法に変換することにより,より有望なドメイン適応能力を実現する。 コードはhttps://github.com/wenwenyu/TCMで公開される。

The recent large-scale Contrastive Language-Image Pretraining (CLIP) model has shown great potential in various downstream tasks via leveraging the pretrained vision and language knowledge. Scene text, which contains rich textual and visual information, has an inherent connection with a model like CLIP. Recently, pretraining approaches based on vision language models have made effective progresses in the field of text detection. In contrast to these works, this paper proposes a new method, termed TCM, focusing on Turning the CLIP Model directly for text detection without pretraining process. We demonstrate the advantages of the proposed TCM as follows: (1) The underlying principle of our framework can be applied to improve existing scene text detector. (2) It facilitates the few-shot training capability of existing methods, e.g., by using 10% of labeled data, we significantly improve the performance of the baseline method with an average of 22% in terms of the F-measure on 4 benchmarks. (3) By turning the CLIP model into existing scene text detection methods, we further achieve promising domain adaptation ability. The code will be publicly released at https://github.com/wenwenyu/TCM.
翻訳日:2023-03-29 00:27:17 公開日:2023-03-26
# 変圧器のサイバーセキュリティ問題

Cybersecurity Challenges of Power Transformers ( http://arxiv.org/abs/2302.13161v2 )

ライセンス: Link先を確認
Hossein Rahimpour, Joe Tusek, Alsharif Abuadbba, Aruna Seneviratne, Toan Phung, Ahmed Musleh, Boyu Liu(参考訳) 重要なインフラに対するサイバー脅威の高まりと、その破壊的な影響の可能性は大幅に増大している。 情報、データ分析、通信システムへの新たな電力グリッド技術への依存は、全電力ネットワークをサイバー脅威に脆弱にする。 電力トランスは電力グリッドの中で重要な役割を担い、後に工場のアドオンやインテリジェントな監視システムによって、トランスフォーマーのような臨界および長期リードタイムアセットの状況監視を改善するために一般的に拡張されている。 しかし、電源変圧器の接続性の向上は、サイバー攻撃の扉を開く。 そのため、サイバー脅威を検出し予防する必要性が重要になっている。 その第一歩は、電力変圧器に対するサイバー攻撃の可能性について、より深く理解することだ。 既存の文献の多くは配電網内のスマート機器に注意を払っており、提案手法の多くはモデルに基づく検出アルゴリズムに基づいている。 さらに、パワー要素、特にトランスミッションネットワーク内のトランスフォーマーのセキュリティ脆弱性に対処する作業はごくわずかである。 我々の知る限りでは、新たに登場したスマートトランスフォーマーに対するサイバーセキュリティの課題を体系的に研究する文献は存在しない。 本稿では、電力ネットワーク内の電力変圧器の脆弱性と攻撃ベクトル、攻撃シナリオ、攻撃に関連するリスクを探索することによって、この問題に対処する。

The rise of cyber threats on critical infrastructure and its potential for devastating consequences, has significantly increased. The dependency of new power grid technology on information, data analytic and communication systems make the entire electricity network vulnerable to cyber threats. Power transformers play a critical role within the power grid and are now commonly enhanced through factory add-ons or intelligent monitoring systems added later to improve the condition monitoring of critical and long lead time assets such as transformers. However, the increased connectivity of those power transformers opens the door to more cyber attacks. Therefore, the need to detect and prevent cyber threats is becoming critical. The first step towards that would be a deeper understanding of the potential cyber-attacks landscape against power transformers. Much of the existing literature pays attention to smart equipment within electricity distribution networks, and most methods proposed are based on model-based detection algorithms. Moreover, only a few of these works address the security vulnerabilities of power elements, especially transformers within the transmission network. To the best of our knowledge, there is no study in the literature that systematically investigate the cybersecurity challenges against the newly emerged smart transformers. This paper addresses this shortcoming by exploring the vulnerabilities and the attack vectors of power transformers within electricity networks, the possible attack scenarios and the risks associated with these attacks.
翻訳日:2023-03-29 00:26:14 公開日:2023-03-26
# SATBA:空間的注意に基づく見えないバックドア攻撃

SATBA: An Invisible Backdoor Attack Based On Spatial Attention ( http://arxiv.org/abs/2302.13056v2 )

ライセンス: Link先を確認
Huasong Zhou, Xiaowei Xu, Xiaodong Wang, and Leon Bevan Bullock(参考訳) バックドア攻撃はAIセキュリティに対する新たな脅威となり、Deep Neural Networks(DNN)は、隠れトリガーパターンに追加されたデータセットに基づいてトレーニングされる。 中毒モデルは通常良性サンプルに作用するが、トリガーパターンを含むサンプルに異常な結果をもたらす。 しかしながら、既存のバックドア攻撃のほとんどは、2つの重大な欠点に直面している: トリガーパターンは人間の検査によって見えやすく容易に検出され、インジェクションプロセスは天然サンプルの特徴やトリガーパターンの喪失につながるため、攻撃の成功率とモデルの精度が低下する。 本稿では,空間的注意機構とU型モデルを用いて,これらの制約を克服するSATBAという新しいバックドア攻撃を提案する。 我々の攻撃は空間的注意機構を利用してデータの特徴を抽出し、クリーンデータと相関する見えないトリガーパターンを生成する。 次に、U型モデルを使用して、これらのトリガーパターンを特徴損失を引き起こすことなく、元のデータに配置する。 我々は,3つの標準データセットにわたる3つの画像分類DNNに対する攻撃を評価し,高い攻撃成功率とバックドアディフェンスに対する堅牢性を実証した。 さらに,画像類似性に関する広範な実験を行い,攻撃のステルス性を強調した。

Backdoor attacks pose a new and emerging threat to AI security, where Deep Neural Networks (DNNs) are trained on datasets added to hidden trigger patterns. Although the poisoned model behaves normally on benign samples, it produces anomalous results on samples containing the trigger pattern. Nevertheless, most existing backdoor attacks face two significant drawbacks: their trigger patterns are visible and easy to detect by human inspection, and their injection process leads to the loss of natural sample features and trigger patterns, thereby reducing the attack success rate and the model accuracy. In this paper, we propose a novel backdoor attack named SATBA that overcomes these limitations by using spatial attention mechanism and U-type model. Our attack leverages spatial attention mechanism to extract data features and generate invisible trigger patterns that are correlated with clean data. Then it uses U-type model to plant these trigger patterns into the original data without causing noticeable feature loss. We evaluate our attack on three prominent image classification DNNs across three standard datasets and demonstrate that it achieves high attack success rate and robustness against backdoor defenses. Additionally, we also conduct extensive experiments on image similarity to highlight the stealthiness of our attack.
翻訳日:2023-03-29 00:25:54 公開日:2023-03-26
# AIとFCI:ChatGPTは導入物理を理解することができるか?

AI and the FCI: Can ChatGPT Project an Understanding of Introductory Physics? ( http://arxiv.org/abs/2303.01067v2 )

ライセンス: Link先を確認
Colin G. West(参考訳) ChatGPTは、大規模な言語モデル上に構築されたAIインターフェースで、人間の会話をエミュレートする巨大なテキストコーパスに基づいてトレーニングされている。 もっともらしい方法での会話能力以外にも、バーの試験やMBAのコースワークからの質問に答える能力や、コンピュータコードを書く上で有用な支援を提供する能力に注目が集まっている。 これらの明らかな能力は、ChatGPTを高等教育の完全性への脅威であり、逆に強力な教育ツールであるとの議論を引き起こしている。 本研究は,第1世代の大学物理学におけるChatGPT(ChatGPT3.5とChatGPT4)の2つのバージョンについて,FCI(Force Concept Inventory)の修正版を用いて,運動学とニュートン力学に関する概念物理学問題に対する正しい応答を与えることができるかどうかを予備分析する。 実験の結果,ChatGPT3.5は1学期を修了した大学生の中央値と一致または上回ることができるが,その性能は明らかに不均一であり,その結果は曖昧であることがわかった。 これらの測定により、ChatGPT4の性能は、入門力学のトピックに関して専門家物理学者のパフォーマンスと区別できない点に近づいていることがわかった。 研究が完了した後、我々は出版に先立つRef [1]を認識し、異なる修正バージョンのFCIを含む物理学クラスにおけるChatGPT3.5の能力の広範な解析を完了した。 この研究は、結果の一部を確認し、分析をChatGPT4に拡張したものだと考えています。

ChatGPT is a groundbreaking ``chatbot"--an AI interface built on a large language model that was trained on an enormous corpus of human text to emulate human conversation. Beyond its ability to converse in a plausible way, it has attracted attention for its ability to competently answer questions from the bar exam and from MBA coursework, and to provide useful assistance in writing computer code. These apparent abilities have prompted discussion of ChatGPT as both a threat to the integrity of higher education and conversely as a powerful teaching tool. In this work we present a preliminary analysis of how two versions of ChatGPT (ChatGPT3.5 and ChatGPT4) fare in the field of first-semester university physics, using a modified version of the Force Concept Inventory (FCI) to assess whether it can give correct responses to conceptual physics questions about kinematics and Newtonian dynamics. We demonstrate that, by some measures, ChatGPT3.5 can match or exceed the median performance of a university student who has completed one semester of college physics, though its performance is notably uneven and the results are nuanced. By these same measures, we find that ChatGPT4's performance is approaching the point of being indistinguishable from that of an expert physicist when it comes to introductory mechanics topics. After the completion of our work we became aware of Ref [1], which preceded us to publication and which completes an extensive analysis of the abilities of ChatGPT3.5 in a physics class, including a different modified version of the FCI. We view this work as confirming that portion of their results, and extending the analysis to ChatGPT4, which shows rapid and notable improvement in most, but not all respects.
翻訳日:2023-03-29 00:16:43 公開日:2023-03-26
# ISBNet: インスタンス対応サンプリングとボックス対応動的畳み込みを備えた3Dポイントクラウドインスタンスセグメンテーションネットワーク

ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution ( http://arxiv.org/abs/2303.00246v2 )

ライセンス: Link先を確認
Tuan Duc Ngo and Binh-Son Hua and Khoi Nguyen(参考訳) 既存の3dインスタンスのセグメンテーション手法はボトムアップ設計 -- ポイントをクラスタにグループ化するための手作業による微調整アルゴリズムと、リファインメントネットワークによって優先される。 しかし、クラスタの品質に依存することで、(1)同じ意味クラスを持つ近くのオブジェクトをまとめる、または(2)疎結合な領域を持つ大きなオブジェクトをまとめるときに、これらのメソッドは影響を受けやすい結果を生み出す。 これらの制限に対処するため、ISBNetは、インスタンスをカーネルとして表現し、動的畳み込みによってインスタンスマスクをデコードする新しいクラスタフリーメソッドである。 本稿では,高リコールおよび差別化カーネルを効率的に生成するために,サンプル候補に対するインスタンス対応Farthest Point Smplingという簡単な戦略を提案し,PointNet++にインスパイアされたローカルアグリゲーション層を利用して候補機能をエンコードする。 さらに,動的畳み込みにおける3次元軸方向境界ボックスの予測と活用により,さらに性能が向上することを示す。 本稿では,ScanNetV2 (55.9), S3DIS (60.8), STPLS3D (49.2) について,APの観点で新たな最先端結果を設定した。 ソースコードとトレーニングされたモデルはhttps://github.com/VinAIResearch/ISBNetで入手できる。

Existing 3D instance segmentation methods are predominated by the bottom-up design -- manually fine-tuned algorithm to group points into clusters followed by a refinement network. However, by relying on the quality of the clusters, these methods generate susceptible results when (1) nearby objects with the same semantic class are packed together, or (2) large objects with loosely connected regions. To address these limitations, we introduce ISBNet, a novel cluster-free method that represents instances as kernels and decodes instance masks via dynamic convolution. To efficiently generate high-recall and discriminative kernels, we propose a simple strategy named Instance-aware Farthest Point Sampling to sample candidates and leverage the local aggregation layer inspired by PointNet++ to encode candidate features. Moreover, we show that predicting and leveraging the 3D axis-aligned bounding boxes in the dynamic convolution further boosts performance. Our method set new state-of-the-art results on ScanNetV2 (55.9), S3DIS (60.8), and STPLS3D (49.2) in terms of AP and retains fast inference time (237ms per scene on ScanNetV2). The source code and trained models are available at https://github.com/VinAIResearch/ISBNet.
翻訳日:2023-03-29 00:15:11 公開日:2023-03-26
# 注意に基づくポイントクラウドエッジサンプリング

Attention-based Point Cloud Edge Sampling ( http://arxiv.org/abs/2302.14673v2 )

ライセンス: Link先を確認
Chengzhi Wu, Junwei Zheng, Julius Pfrommer, J\"urgen Beyerer(参考訳) ポイントクラウドサンプリングは、このデータ表現についてあまり研究されていないトピックである。 最も一般的なサンプリング方法は、古典的ランダムサンプリングと最遠点サンプリングである。 ニューラルネットワークの開発により、タスクベースの学習方法で点雲をサンプリングする様々な手法が提案されている。 しかし、これらの手法は、数学統計学から直接点を選択するのではなく、主に生成に基づくものである。 本稿では,画像のキャニーエッジ検出アルゴリズムに触発され,注意機構の助けを借りて,ポイントクラウドアウトラインの突出点をキャプチャする非生成的注意型ポイントクラウドエッジサンプリング法(apes)を提案する。 定性的および定量的な実験結果から, ベンチマークタスクにおいて, サンプリング法が優れた性能を示した。

Point cloud sampling is a less explored research topic for this data representation. The most commonly used sampling methods are still classical random sampling and farthest point sampling. With the development of neural networks, various methods have been proposed to sample point clouds in a task-based learning manner. However, these methods are mostly generative-based, rather than selecting points directly using mathematical statistics. Inspired by the Canny edge detection algorithm for images and with the help of the attention mechanism, this paper proposes a non-generative Attention-based Point cloud Edge Sampling method (APES), which captures salient points in the point cloud outline. Both qualitative and quantitative experimental results show the superior performance of our sampling method on common benchmark tasks.
翻訳日:2023-03-29 00:14:45 公開日:2023-03-26
# 任意スケール画像超解像に対する局所帰納正規化流れ

Local Implicit Normalizing Flow for Arbitrary-Scale Image Super-Resolution ( http://arxiv.org/abs/2303.05156v2 )

ライセンス: Link先を確認
Jie-En Yao, Li-Yuan Tsao, Yi-Chen Lo, Roy Tseng, Chia-Che Chang, Chun-Yi Lee(参考訳) フローベース手法は,高分解能(HR)画像の正規化フローによる分布を学習することにより,超解像(SR)の誤った性質に対処する上で有望な結果を示した。 しかし、これらの手法は予め定義された固定スケールのSRしか実行できず、現実の応用においてその可能性を制限する。 一方、任意のスケールのSRが注目され、大きな進歩を遂げた。 それでも、以前の任意のスケールのSR手法は不適切な問題を無視し、ピクセル当たりのL1損失でモデルを訓練し、曖昧なSR出力をもたらす。 そこで本研究では,これらの問題に対する統一解として,LINF(Local Implicit Normalizing Flow)を提案する。 LINFは、流れの正規化を伴う異なるスケーリング要因の下でテクスチャの詳細な分布をモデル化する。 したがって、LINFは任意のスケールの要素でテクスチャの詳細がリッチなフォトリアリスティックHR画像を生成することができる。 我々は、LINFを広範囲な実験により評価し、従来の任意スケールSR法と比較して、LINFが最先端の知覚品質を達成することを示す。

Flow-based methods have demonstrated promising results in addressing the ill-posed nature of super-resolution (SR) by learning the distribution of high-resolution (HR) images with the normalizing flow. However, these methods can only perform a predefined fixed-scale SR, limiting their potential in real-world applications. Meanwhile, arbitrary-scale SR has gained more attention and achieved great progress. Nonetheless, previous arbitrary-scale SR methods ignore the ill-posed problem and train the model with per-pixel L1 loss, leading to blurry SR outputs. In this work, we propose "Local Implicit Normalizing Flow" (LINF) as a unified solution to the above problems. LINF models the distribution of texture details under different scaling factors with normalizing flow. Thus, LINF can generate photo-realistic HR images with rich texture details in arbitrary scale factors. We evaluate LINF with extensive experiments and show that LINF achieves the state-of-the-art perceptual quality compared with prior arbitrary-scale SR methods.
翻訳日:2023-03-29 00:07:17 公開日:2023-03-26
# icl-d3ie: ドキュメント情報抽出のためのさまざまなデモによるインコンテキスト学習

ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction ( http://arxiv.org/abs/2303.05063v2 )

ライセンス: Link先を確認
Jiabang He, Lei Wang, Yi Hu, Ning Liu, Hui Liu, Xing Xu, and Heng Tao Shen(参考訳) GPT-3 や ChatGPT のような大規模言語モデル (LLM) は、いくつかの実例に基づく推論を含む、文脈内学習を伴う様々な自然言語処理 (NLP) タスクにおいて顕著な結果を示している。 NLPタスクの成功にもかかわらず、LLMが文脈内学習を用いて文書情報抽出(DIE)を行う能力を評価するための調査は行われていない。 LLMをDIEに適用することは、モダリティとタスクギャップという2つの課題をもたらす。 そこで本研究では,様々な種類の実演例を用いてllmによるダイ実行を可能にするicl-d3ieという,シンプルかつ効果的なインコンテキスト学習フレームワークを提案する。 具体的には、すべてのテストインスタンスのメリットを享受するためのハードトレーニングドキュメントから、最も困難で明確なセグメントを抽出する。 我々は、LLMが位置関係を理解することができる関係を記述するデモンストレーションを設計する。 簡単な解答抽出のためのフォーマッティングデモを導入する。 さらに、フレームワークは繰り返し更新することで様々なデモを改善している。 In-distribution (ID) 設定とout-of-distribution (OOD) 設定の両方でフルトレーニングを施した従来の事前学習手法と比較して, ICL-D3IE フレームワークは優れた性能が得られることを示す。

Large language models (LLMs), such as GPT-3 and ChatGPT, have demonstrated remarkable results in various natural language processing (NLP) tasks with in-context learning, which involves inference based on a few demonstration examples. Despite their successes in NLP tasks, no investigation has been conducted to assess the ability of LLMs to perform document information extraction (DIE) using in-context learning. Applying LLMs to DIE poses two challenges: the modality and task gap. To this end, we propose a simple but effective in-context learning framework called ICL-D3IE, which enables LLMs to perform DIE with different types of demonstration examples. Specifically, we extract the most difficult and distinct segments from hard training documents as hard demonstrations for benefiting all test instances. We design demonstrations describing relationships that enable LLMs to understand positional relationships. We introduce formatting demonstrations for easy answer extraction. Additionally, the framework improves diverse demonstrations by updating them iteratively. Our experiments on three widely used benchmark datasets demonstrate that the ICL-D3IE framework enables GPT-3/ChatGPT to achieve superior performance when compared to previous pre-trained methods fine-tuned with full training in both the in-distribution (ID) setting and in the out-of-distribution (OOD) setting.
翻訳日:2023-03-29 00:06:51 公開日:2023-03-26
# 財務における自然言語理解課題のためのモデル非依存メタラーニング

Model-Agnostic Meta-Learning for Natural Language Understanding Tasks in Finance ( http://arxiv.org/abs/2303.02841v2 )

ライセンス: Link先を確認
Bixing Yan, Shaoling Chen, Yuxuan He, Zhihan Li(参考訳) 自然言語理解(NLU)は、アノテーション付きデータやその領域の特殊言語が欠如しているため、財務面では困難である。 その結果,事前学習された言語モデルとマルチタスク学習を用いて,ロバストな表現を学習することを提案した。 しかし、アグレッシブな微調整は、しばしば過剰フィッティングを引き起こし、マルチタスク学習は、膨大な量のデータを含むタスクを好む。 本稿では,低リソース金融nluタスクにおけるモデル非依存なメタ学習アルゴリズム(maml)について検討する。 私たちの貢献には 1. GLUEデータセット、SNLI、Sci-Tail、Financial PhraseBankといった各種タスクを用いたMAML手法の性能について検討する。 2. 複数の単一型タスクによるmaml手法の性能について検討する:twitterテキストデータを用いた実シナリオ株価予測問題。 実験結果により,本手法は低リソース環境に高速かつ良好に適応できることを実証した。

Natural language understanding(NLU) is challenging for finance due to the lack of annotated data and the specialized language in that domain. As a result, researchers have proposed to use pre-trained language model and multi-task learning to learn robust representations. However, aggressive fine-tuning often causes over-fitting and multi-task learning may favor tasks with significantly larger amounts data, etc. To address these problems, in this paper, we investigate model-agnostic meta-learning algorithm(MAML) in low-resource financial NLU tasks. Our contribution includes: 1. we explore the performance of MAML method with multiple types of tasks: GLUE datasets, SNLI, Sci-Tail and Financial PhraseBank; 2. we study the performance of MAML method with multiple single-type tasks: a real scenario stock price prediction problem with twitter text data. Our models achieve the state-of-the-art performance according to the experimental results, which demonstrate that our method can adapt fast and well to low-resource situations.
翻訳日:2023-03-29 00:05:25 公開日:2023-03-26
# neuda:高忠実な暗黙的表面再構成のための神経変形型アンカー

NeuDA: Neural Deformable Anchor for High-Fidelity Implicit Surface Reconstruction ( http://arxiv.org/abs/2303.02375v2 )

ライセンス: Link先を確認
Bowen Cai, Jinchi Huang, Rongfei Jia, Chengfei Lv, Huan Fu(参考訳) 本報告では, 異種線キャストを利用した表面の暗黙的再構成について検討する。 IDRやNeuSといった以前の研究は、表面を予測・レンダリングする際に3次元空間の空間的コンテキストを見落としているため、小さな穴や構造物のような鋭い局所位相を捉えられない可能性がある。 そこで本研究では,階層型ボクセルグリッドであるneural deformable anchor (neuda) を用いた,高忠実度表面再構成のためのフレキシブルニューラルネットワークの暗黙表現を提案する。 NeuDAは、各頂点が直接埋め込み(または特徴)の代わりに3D位置(またはアンカー)を格納する階層的なアンカーグリッドを維持している。 異なる局所幾何構造を適応的に符号化できるようにアンカーグリッドを最適化する。 また,周波数符号化戦略を考察し,階層型アンカー構造の簡易な階層的位置符号化法を導入し,高周波・低周波形状と外観の特性を柔軟に活用する。 DTUとBlendedMVSのデータセットの実験は、NeuDAが有望なメッシュ表面を生成できることを実証している。

This paper studies implicit surface reconstruction leveraging differentiable ray casting. Previous works such as IDR and NeuS overlook the spatial context in 3D space when predicting and rendering the surface, thereby may fail to capture sharp local topologies such as small holes and structures. To mitigate the limitation, we propose a flexible neural implicit representation leveraging hierarchical voxel grids, namely Neural Deformable Anchor (NeuDA), for high-fidelity surface reconstruction. NeuDA maintains the hierarchical anchor grids where each vertex stores a 3D position (or anchor) instead of the direct embedding (or feature). We optimize the anchor grids such that different local geometry structures can be adaptively encoded. Besides, we dig into the frequency encoding strategies and introduce a simple hierarchical positional encoding method for the hierarchical anchor structure to flexibly exploit the properties of high-frequency and low-frequency geometry and appearance. Experiments on both the DTU and BlendedMVS datasets demonstrate that NeuDA can produce promising mesh surfaces.
翻訳日:2023-03-29 00:05:07 公開日:2023-03-26
# 人工材料のための人工知能:moir\'e atom

Artificial intelligence for artificial materials: moir\'e atom ( http://arxiv.org/abs/2303.08162v2 )

ライセンス: Link先を確認
Di Luo, Aidan P. Reddy, Trithep Devakul, and Liang Fu(参考訳) 原子的に薄いファンデルワールスヘテロ構造におけるMoir\'eエンジニアリングは、設計特性を持つ人工量子材料を生成する。 2次元フェルミオンニューラルネットワークを用いて、moir\e超格子ポテンシャル最小(moir\e原子)に閉じ込められた相互作用電子の多体問題を解く。 異方性moir\'eポテンシャルと組み合わされた強いクーロン相互作用は,走査型トンネル顕微鏡で観察可能な"wigner molecule"電荷密度分布に繋がることを示した。

Moir\'e engineering in atomically thin van der Waals heterostructures creates artificial quantum materials with designer properties. We solve the many-body problem of interacting electrons confined to a moir\'e superlattice potential minimum (the moir\'e atom) using a 2D fermionic neural network. We show that strong Coulomb interactions in combination with the anisotropic moir\'e potential lead to striking ``Wigner molecule" charge density distributions observable with scanning tunneling microscopy.
翻訳日:2023-03-28 23:57:19 公開日:2023-03-26
# マルチモデルアクティブラーニングによる統計ハードウェア設計

Statistical Hardware Design With Multi-model Active Learning ( http://arxiv.org/abs/2303.08054v4 )

ライセンス: Link先を確認
Alireza Ghaffari, Masoud Asgharian, Yvon Savaria(参考訳) 現代の社会に貢献する多くの新しいアプリケーションが複雑化するにつれ、効率的なコンピューティングプラットフォームを設計する必要がある。 しかし、効率的なハードウェアの設計は、複数のパラメータとその相互作用を扱う複雑な多目的問題である。 ハードウェア設計には多数のパラメータや目的があるので、可能な組み合わせをすべて合成することは、最適解を見つけるための実現可能な方法ではない。 この問題に取り組むための有望なアプローチは、望ましいハードウェア性能の統計的モデリングである。 本稿では,この問題を解決するためのモデルベースアクティブラーニング手法を提案する。 提案手法はベイズモデルを用いてハードウェア性能の様々な側面を特徴付ける。 また、より正確なモデルを作成するために、トランスファー学習とガウス回帰ブートストラップ技術とアクティブラーニングを併用しています。 提案手法は,設計空間探索と性能予測を同時に行うのに十分な精度のハードウェアモデルを提供する。 提案手法は,FPGAターゲット用マイクロアーキテクチャ設計やOpenCLカーネルなど,様々なハードウェア構成のための設計空間探索と性能予測を行う。 実験により,提案する統計モデルの予測力を維持しつつ,性能モデル作成に必要なサンプル数が大幅に減少することを示した。 例えば、性能予測設定では、提案手法はモデルを作成するのに65%のサンプルが必要であり、設計空間探索設定では、提案手法は50未満のサンプルを探索することで最適なパラメータ設定を見つけることができる。

With the rising complexity of numerous novel applications that serve our modern society comes the strong need to design efficient computing platforms. Designing efficient hardware is, however, a complex multi-objective problem that deals with multiple parameters and their interactions. Given that there are a large number of parameters and objectives involved in hardware design, synthesizing all possible combinations is not a feasible method to find the optimal solution. One promising approach to tackle this problem is statistical modeling of a desired hardware performance. Here, we propose a model-based active learning approach to solve this problem. Our proposed method uses Bayesian models to characterize various aspects of hardware performance. We also use transfer learning and Gaussian regression bootstrapping techniques in conjunction with active learning to create more accurate models. Our proposed statistical modeling method provides hardware models that are sufficiently accurate to perform design space exploration as well as performance prediction simultaneously. We use our proposed method to perform design space exploration and performance prediction for various hardware setups, such as micro-architecture design and OpenCL kernels for FPGA targets. Our experiments show that the number of samples required to create performance models significantly reduces while maintaining the predictive power of our proposed statistical models. For instance, in our performance prediction setting, the proposed method needs 65% fewer samples to create the model, and in the design space exploration setting, our proposed method can find the best parameter settings by exploring less than 50 samples.
翻訳日:2023-03-28 23:57:08 公開日:2023-03-26
# Blendshape Facial Animationにおける逆リグ問題の分散解

Distributed Solution of the Inverse Rig Problem in Blendshape Facial Animation ( http://arxiv.org/abs/2303.06370v2 )

ライセンス: Link先を確認
Stevo Rackovi\'c, Cl\'audia Soares, Du\v{s}an Jakoveti\'c(参考訳) アバターの現実的で魅力的なパフォーマンスを実現するため、リグ反転の問題は顔アニメーションの中心にある。 現代のブレンド形状モデルの複雑さが増すにつれて、実行時間は事実上実現可能なソリューションを超えて増加する。 より高速なソリューションへのアプローチとしては、顔の空間的性質を活用したクラスタリングがあり、分散メソッドに繋がる。 本稿では、重なり合うコンポーネントのより確実な推定を得るために、クラスタ結合を伴ってさらに一歩進める。 本アルゴリズムは,サブプロブレム間で重なり合う重みを共有する乗算器の交互方向法を適用する。 この手法を用いて得られた結果は、成功と視覚検査の異なる指標で測定されるように、単純クラスタ化アプローチに対する明確な優位性を示している。 この方法は任意の顔のクラスタリングに適用できる。 また,クラスタ数を無データに選択する新しい手法を提案する。 この方法は、結果として得られるクラスタリンググラフがスパースであるが必須情報を失うことなく、クラスタリングを見つける傾向がある。 最後に,上述のクラスタリング選択戦略に関して,優れたスコアを生成するデータフリークラスタリングアルゴリズムの新たな変種を提案する。

The problem of rig inversion is central in facial animation as it allows for a realistic and appealing performance of avatars. With the increasing complexity of modern blendshape models, execution times increase beyond practically feasible solutions. A possible approach towards a faster solution is clustering, which exploits the spacial nature of the face, leading to a distributed method. In this paper, we go a step further, involving cluster coupling to get more confident estimates of the overlapping components. Our algorithm applies the Alternating Direction Method of Multipliers, sharing the overlapping weights between the subproblems. The results obtained with this technique show a clear advantage over the naive clustered approach, as measured in different metrics of success and visual inspection. The method applies to an arbitrary clustering of the face. We also introduce a novel method for choosing the number of clusters in a data-free manner. The method tends to find a clustering such that the resulting clustering graph is sparse but without losing essential information. Finally, we give a new variant of a data-free clustering algorithm that produces good scores with respect to the mentioned strategy for choosing the optimal clustering.
翻訳日:2023-03-28 23:55:23 公開日:2023-03-26
# 動的信頼度によるスパイクニューラルネットワークの可能性の解き放つ

Unleashing the Potential of Spiking Neural Networks by Dynamic Confidence ( http://arxiv.org/abs/2303.10276v2 )

ライセンス: Link先を確認
Chen Li, Edward Jones, Steve Furber(参考訳) 本稿では,スパイキングニューラルネットワーク(SNN)の精度とレイテンシのトレードオフを緩和する新しい手法を提案する。 このアプローチでは、sn出力から時間とともに信頼情報をデコードし、各推論を終了するタイミングを動的に決定できる意思決定エージェントを開発する。 提案手法であるDynamic Confidenceは,SNNにいくつかの大きなメリットを提供する。 1. 実行時に動的にレイテンシを最適化し、既存の低レイテンシSNNアルゴリズムとは分離することができる。 CIFAR-10とImageNetデータセットに関する実験は、Dynamic Confidenceを適用した後、8つの異なる設定で平均40%のスピードアップを示した。 2) Dynamic Confidenceにおける意思決定エージェントは,パラメータ空間の構築が容易で,非常に堅牢であり,実装が非常に容易である。 3)提案手法は,現在のSNNが接近するターゲットを設定する任意のSNNのポテンシャルを可視化する。 例えば、SNNが各入力サンプルの最も適切な時刻で終了できる場合、ResNet-50 SNNは平均4.71タイムステップでImageNet上で82.47%の精度を達成できる。 SNNの可能性を解き放つには、信頼性の高い意思決定エージェントを構築し、高品質な基底真理推定を行う必要がある。 この点において、Dynamic ConfidenceはSNNの可能性を実現するための重要なステップである。

This paper presents a new methodology to alleviate the fundamental trade-off between accuracy and latency in spiking neural networks (SNNs). The approach involves decoding confidence information over time from the SNN outputs and using it to develop a decision-making agent that can dynamically determine when to terminate each inference. The proposed method, Dynamic Confidence, provides several significant benefits to SNNs. 1. It can effectively optimize latency dynamically at runtime, setting it apart from many existing low-latency SNN algorithms. Our experiments on CIFAR-10 and ImageNet datasets have demonstrated an average 40% speedup across eight different settings after applying Dynamic Confidence. 2. The decision-making agent in Dynamic Confidence is straightforward to construct and highly robust in parameter space, making it extremely easy to implement. 3. The proposed method enables visualizing the potential of any given SNN, which sets a target for current SNNs to approach. For instance, if an SNN can terminate at the most appropriate time point for each input sample, a ResNet-50 SNN can achieve an accuracy as high as 82.47% on ImageNet within just 4.71 time steps on average. Unlocking the potential of SNNs needs a highly-reliable decision-making agent to be constructed and fed with a high-quality estimation of ground truth. In this regard, Dynamic Confidence represents a meaningful step toward realizing the potential of SNNs.
翻訳日:2023-03-28 23:49:37 公開日:2023-03-26
# 自己整合性学習:ジェネレータと判別器の協調

Self-Consistent Learning: Cooperation between Generators and Discriminators ( http://arxiv.org/abs/2303.09075v2 )

ライセンス: Link先を確認
Tong Wu, Hao Wang, Zhongshen Zeng, Wei Wang, Hai-Tao Zheng, Jiaxing Zhang(参考訳) 下流の判別モデルのパフォーマンスを改善するために生成されたデータを使うことは、最近、事前学習された言語モデルの発展により、人気を集めている。 これまでのほとんどの研究では、生成モデルと識別モデルは別々に訓練されており、互いにどのような変化にも適応できない。 その結果、生成されたサンプルは実データ分布から容易に逸脱でき、識別モデルの改善はすぐに飽和に達する。 GAN(Generative Adversarial Network)は,共同トレーニングを実現するために,識別モデルを用いて生成モデルを訓練する。 しかし、標準的なGANの訓練は不安定で、しばしば収束に欠ける。 本稿では,これらの問題に対処するために,判別器と生成器が協調的に閉ループ形式で訓練される,$\textit{self- consistent learning}$フレームワークを提案する。 判別器とジェネレータは、スコアコンセンサスに到達するまで、交互トレーニングの複数のラウンドで互いに強化する。 このフレームワークはトレーニングが容易で、モード崩壊や非収束といった不安定性がないことが証明されている。 判別器は、ゼロショット設定における10以上の改善と、フルデータ設定における新たな最先端性能を達成する。

Using generated data to improve the performance of downstream discriminative models has recently gained popularity due to the great development of pre-trained language models. In most previous studies, generative models and discriminative models are trained separately and thus could not adapt to any changes in each other. As a result, the generated samples can easily deviate from the real data distribution, while the improvement of the discriminative model quickly reaches saturation. Generative adversarial networks (GANs) train generative models via an adversarial process with discriminative models to achieve joint training. However, the training of standard GANs is notoriously unstable and often falls short of convergence. In this paper, to address these issues, we propose a $\textit{self-consistent learning}$ framework, in which a discriminator and a generator are cooperatively trained in a closed-loop form. The discriminator and the generator enhance each other during multiple rounds of alternating training until a scoring consensus is reached. This framework proves to be easy to train and free from instabilities such as mode collapse and non-convergence. Extensive experiments on sentence semantic matching demonstrate the effectiveness of the proposed framework: the discriminator achieves 10+ AP of improvement on the zero-shot setting and new state-of-the-art performance on the full-data setting.
翻訳日:2023-03-28 23:47:52 公開日:2023-03-26
# リカレントニューラルネットワークを用いたトポロジカル秩序の探索

Investigating Topological Order using Recurrent Neural Networks ( http://arxiv.org/abs/2303.11207v2 )

ライセンス: Link先を確認
Mohamed Hibat-Allah, Roger G. Melko, Juan Carrasquilla(参考訳) 自然言語処理のために開発されたrecurrent neural networks(rnns)は、強い相関を持つ量子多体システムを正確に記述する大きな可能性を秘めている。 ここでは2次元RNNを用いて、位相秩序を示す2つの原始型量子多体ハミルトニアンを探索する。 特に, rnn波動関数は, トーリック符号の位相次数と, カゴメ格子上のボース・ハバードスピン液体を, その位相的絡み合いエントロピーを推定することにより効果的に捉えることができることを示す。 また、RNNは、最小の絡み合い状態自体よりも、最小の絡み合い状態のコヒーレントな重ね合わせを好む。 総じて、RNN波動関数はランドーの対称性破壊パラダイムを超える物質相を研究する強力なツールであることを示した。

Recurrent neural networks (RNNs), originally developed for natural language processing, hold great promise for accurately describing strongly correlated quantum many-body systems. Here, we employ 2D RNNs to investigate two prototypical quantum many-body Hamiltonians exhibiting topological order. Specifically, we demonstrate that RNN wave functions can effectively capture the topological order of the toric code and a Bose-Hubbard spin liquid on the kagome lattice by estimating their topological entanglement entropies. We also find that RNNs favor coherent superpositions of minimally-entangled states over minimally-entangled states themselves. Overall, our findings demonstrate that RNN wave functions constitute a powerful tool to study phases of matter beyond Landau's symmetry-breaking paradigm.
翻訳日:2023-03-28 23:39:41 公開日:2023-03-26
# 感情的に強化された話し顔生成

Emotionally Enhanced Talking Face Generation ( http://arxiv.org/abs/2303.11548v2 )

ライセンス: Link先を確認
Sahil Goyal, Shagun Uppal, Sarthak Bhagat, Yi Yu, Yifang Yin, Rajiv Ratn Shah(参考訳) いくつかの作品は、ビデオでの教育や言語翻訳など、様々な現実世界のアプリケーションとリップシンクされた話し顔を生成するエンドツーエンドのパイプラインを開発した。 しかし、これらの以前の作品は、人々の表情や感情にほとんど焦点を合わせていないため、現実的なビデオを作ることができない。 さらに、これらの手法の有効性は、トレーニングデータセット内の顔に大きく依存するので、目に見えない顔ではうまく動作しない可能性がある。 これを緩和するために,カテゴリー的感情を条件とした発話顔生成フレームワークを構築し,適切な表情の映像を生成し,より現実的で説得力のあるものにした。 6つの感情(emph{happiness}, \emph{sadness}, \emph{fear}, \emph{anger}, \emph{disgust}, \emph{neutral})の幅広い範囲において、我々のモデルが任意のアイデンティティ、感情、言語に適応できることを示します。 提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。 また,ユーザインタフェースのユーザビリティ,設計,機能に対する主観的な評価のためのユーザスタディも実施する。 プロジェクトページ: https://midas.iiitd.edu.in/emo/

Several works have developed end-to-end pipelines for generating lip-synced talking faces with various real-world applications, such as teaching and language translation in videos. However, these prior works fail to create realistic-looking videos since they focus little on people's expressions and emotions. Moreover, these methods' effectiveness largely depends on the faces in the training dataset, which means they may not perform well on unseen faces. To mitigate this, we build a talking face generation framework conditioned on a categorical emotion to generate videos with appropriate expressions, making them more realistic and convincing. With a broad range of six emotions, i.e., \emph{happiness}, \emph{sadness}, \emph{fear}, \emph{anger}, \emph{disgust}, and \emph{neutral}, we show that our model can adapt to arbitrary identities, emotions, and languages. Our proposed framework is equipped with a user-friendly web interface with a real-time experience for talking face generation with emotions. We also conduct a user study for subjective evaluation of our interface's usability, design, and functionality. Project page: https://midas.iiitd.edu.in/emo/
翻訳日:2023-03-28 23:29:39 公開日:2023-03-26
# セマンティックセグメンテーションに及ぼすインフルエンサーバックドアアタックの影響

Influencer Backdoor Attack on Semantic Segmentation ( http://arxiv.org/abs/2303.12054v2 )

ライセンス: Link先を確認
Haoheng Lan, Jindong Gu, Philip Torr, Hengshuang Zhao(参考訳) 深層ニューラルネットワークのトレーニングデータセットに少数の有毒サンプルが注入されると、ネットワークは推論中に悪意のある振る舞いを示すように誘導され、現実世界のアプリケーションに潜在的な脅威をもたらす。 分類学では主に研究されているが、セマンティックセグメンテーションに対するバックドア攻撃はほとんど見過ごされている。 分類とは異なり、セグメンテーションは与えられた画像内のすべてのピクセルを分類することを目的としている。 本研究では,推定中に特定のトリガを非勝利画素に注入することにより,被害者クラスのすべての画素を誤分類するセグメンテーションモデルに対するバックドア攻撃について検討する。 IBAは、すべての推定において、非ビビティ画素の分類精度を維持し、すべての犠牲者画素の誤分類を導出することが期待されている。 具体的には,2種類の IBA シナリオ,すなわち 1)自由位置iba:被害者クラスの画素以外はトリガーを自由に配置できる。 2)長距離IBA: 実用上の制約がある場合, トリガーは被害者の画素から離れた位置にしか配置できない。 セグメンテーションモデルのコンテキストアグリゲーション能力に基づいて,シナリオのIAAを改善する手法を提案する。 具体的には, 自由位置ibaに対して, 簡易かつ効果的に隣接する試料生成用トリガー注入戦略を提案する。 長距離IBAでは,新しいPixel Random Labeling戦略を提案する。 我々の広範な実験により、現在のセグメンテーションモデルがバックドア攻撃に苦しむことを明らかにし、提案手法が攻撃性能をさらに高めることを検証した。

When a small number of poisoned samples are injected into the training dataset of a deep neural network, the network can be induced to exhibit malicious behavior during inferences, which poses potential threats to real-world applications. While they have been intensively studied in classification, backdoor attacks on semantic segmentation have been largely overlooked. Unlike classification, semantic segmentation aims to classify every pixel within a given image. In this work, we explore backdoor attacks on segmentation models to misclassify all pixels of a victim class by injecting a specific trigger on non-victim pixels during inferences, which is dubbed Influencer Backdoor Attack (IBA). IBA is expected to maintain the classification accuracy of non-victim pixels and misleads classifications of all victim pixels in every single inference. Specifically, we consider two types of IBA scenarios, i.e., 1) Free-position IBA: the trigger can be positioned freely except for pixels of the victim class, and 2) Long-distance IBA: the trigger can only be positioned somewhere far from victim pixels, given the possible practical constraint. Based on the context aggregation ability of segmentation models, we propose techniques to improve IBA for the scenarios. Concretely, for free-position IBA, we propose a simple, yet effective Nearest Neighbor trigger injection strategy for poisoned sample creation. For long-distance IBA, we propose a novel Pixel Random Labeling strategy. Our extensive experiments reveal that current segmentation models do suffer from backdoor attacks, and verify that our proposed techniques can further increase attack performance.
翻訳日:2023-03-28 23:19:57 公開日:2023-03-26
# 文脈脱構築感情認識

Context De-confounded Emotion Recognition ( http://arxiv.org/abs/2303.11921v2 )

ライセンス: Link先を確認
Dingkang Yang, Zhaoyu Chen, Yuzheng Wang, Shunli Wang, Mingcheng Li, Siao Liu, Xiao Zhao, Shuai Huang, Zhiyan Dong, Peng Zhai, Lihua Zhang(参考訳) コンテキストアウェア感情認識(CAER)は,対象者の感情状態を文脈情報で知覚することを目的とした,重要かつ困難な課題である。 最近のアプローチは、主題や文脈から一見意味のある表現を抽出する洗練されたアーキテクチャやメカニズムを設計することに集中している。 しかし、長年見過ごされてきた問題は、既存のデータセットのコンテキストバイアスが、異なるコンテキストシナリオ間で感情状態のかなり不均衡な分布をもたらすことである。 具体的には、有害なバイアスは、既存のモデルを誤解して、従来の確率推定に基づいてスプリアス相関を学習し、モデルのパフォーマンスを著しく制限する共同創設者である。 そこで本稿では,これらのバイアスの影響からモデルを分離し,caerタスクにおける変数間の因果関係を調整因果グラフを用いて定式化する因果関係に基づく視点を提案する。 そこで本稿では, モデルトレーニングにおける真の因果効果を活用すべく, コンテクスト・カウサル・インターベンション・モジュール(CCIM)を提案する。 CCIMはプラグインであり、モデルに依存しない。 3つのベンチマークデータセットに関する広範な実験は、ccimの有効性と因果的洞察の意義を示している。

Context-Aware Emotion Recognition (CAER) is a crucial and challenging task that aims to perceive the emotional states of the target person with contextual information. Recent approaches invariably focus on designing sophisticated architectures or mechanisms to extract seemingly meaningful representations from subjects and contexts. However, a long-overlooked issue is that a context bias in existing datasets leads to a significantly unbalanced distribution of emotional states among different context scenarios. Concretely, the harmful bias is a confounder that misleads existing models to learn spurious correlations based on conventional likelihood estimation, significantly limiting the models' performance. To tackle the issue, this paper provides a causality-based perspective to disentangle the models from the impact of such bias, and formulate the causalities among variables in the CAER task via a tailored causal graph. Then, we propose a Contextual Causal Intervention Module (CCIM) based on the backdoor adjustment to de-confound the confounder and exploit the true causal effect for model training. CCIM is plug-in and model-agnostic, which improves diverse state-of-the-art approaches by considerable margins. Extensive experiments on three benchmark datasets demonstrate the effectiveness of our CCIM and the significance of causal insight.
翻訳日:2023-03-28 23:19:07 公開日:2023-03-26
# CLIP$^2$: 実世界のクラウドデータからのコントラスト言語イメージポイント事前学習

CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World Point Cloud Data ( http://arxiv.org/abs/2303.12417v2 )

ライセンス: Link先を確認
Yihan Zeng, Chenhan Jiang, Jiageng Mao, Jianhua Han, Chaoqiang Ye, Qingqiu Huang, Dit-Yan Yeung, Zhen Yang, Xiaodan Liang, Hang Xu(参考訳) 大規模な未ラベルのテキストイメージペアの恩恵を受けるコントラスト言語-画像事前学習は、オープンワールドの視覚理解タスクにおいて優れたパフォーマンスを示している。 しかし、テキスト3Dデータペアが限られているため、VLM(2D Vision-Language Models)の成功を3D空間に適用することは未解決の問題である。 3d理解にvlmを利用する既存の作品は、一般的には3dデータの中間的な2d表現を構築するが、3dジオメトリ情報を失うコストがかかる。 オープンワールドの3dビジョン理解に向けて、新しいプロキシアライメント機構を用いて現実のシナリオで転送可能な3dポイントクラウド表現を直接学習するために、コントラスト型言語-イメージポイントクラウドプリトレーニング(clip$^2$)を提案する。 具体的には、自然に存在する2dおよび3dシナリオの対応を活用し、これらの複雑なシナリオから、適切に整合し、インスタンスベースのテキストイメージポイントプロキシを構築する。 さらに,セマンティクスとインスタンスレベルのアラインポイントクラウド表現を学ぶための,クロスモーダルなコントラスト目標を提案する。 室内および屋外の両方のシナリオにおける実験結果から、学習した3D表現は、ゼロショットや少数ショットの3D認識を含む下流タスクにおいて大きな伝達能力を持つことが示された。 さらに,実シナリオにおける異なる表現の能力の分析を行い,オプショナルアンサンブルスキームを提案する。

Contrastive Language-Image Pre-training, benefiting from large-scale unlabeled text-image pairs, has demonstrated great performance in open-world vision understanding tasks. However, due to the limited Text-3D data pairs, adapting the success of 2D Vision-Language Models (VLM) to the 3D space remains an open problem. Existing works that leverage VLM for 3D understanding generally resort to constructing intermediate 2D representations for the 3D data, but at the cost of losing 3D geometry information. To take a step toward open-world 3D vision understanding, we propose Contrastive Language-Image-Point Cloud Pretraining (CLIP$^2$) to directly learn the transferable 3D point cloud representation in realistic scenarios with a novel proxy alignment mechanism. Specifically, we exploit naturally-existed correspondences in 2D and 3D scenarios, and build well-aligned and instance-based text-image-point proxies from those complex scenarios. On top of that, we propose a cross-modal contrastive objective to learn semantic and instance-level aligned point cloud representation. Experimental results on both indoor and outdoor scenarios show that our learned 3D representation has great transfer ability in downstream tasks, including zero-shot and few-shot 3D recognition, which boosts the state-of-the-art methods by large margins. Furthermore, we provide analyses of the capability of different representations in real scenarios and present the optional ensemble scheme.
翻訳日:2023-03-28 21:34:57 公開日:2023-03-26
# 視覚変換器用ウェーブレットニューラル演算子によるマルチスケールアテンション

Multiscale Attention via Wavelet Neural Operators for Vision Transformers ( http://arxiv.org/abs/2303.12398v2 )

ライセンス: Link先を確認
Anahita Nekoozadeh, Mohammad Reza Ahmadzadeh, Zahra Mardani, Morteza Mardani(参考訳) トランスフォーマーはコンピュータビジョンで広く成功を収めた。 彼らの心には自己認識(SA)メカニズムがあり、これはインプット内の各トークンと他のトークンを重み付けによって関連付ける誘導バイアスである。 標準のsa機構は、シーケンス長と二次的な複雑さを持ち、高分解能の視覚に現れる長いシーケンスに有用である。 近年,fftで効率的に実装されるグローバル畳み込みに基づく高分解能注意のための適応フーリエニューラル演算子 (afno) が提案されている。 しかし、AFNOグローバルフィルタリングは、自然画像によく見られる小型で中規模な構造をうまく表すことはできない。 配列サイズが線形に複雑になるウェーブレットニューラル演算子を利用して、粗大から細大のスケール構造を活用するために、マルチスケールウェーブレット注意(MWA)を導入する。 vit の注意を mwa に置き換え,cifar と imagenet の分類で実験を行った結果,afno や global filter network (gfn) といった代替フーリエベースの注意よりも大幅な改善が見られた。

Transformers have achieved widespread success in computer vision. At their heart, there is a Self-Attention (SA) mechanism, an inductive bias that associates each token in the input with every other token through a weighted basis. The standard SA mechanism has quadratic complexity with the sequence length, which impedes its utility to long sequences appearing in high resolution vision. Recently, inspired by operator learning for PDEs, Adaptive Fourier Neural Operators (AFNO) were introduced for high resolution attention based on global convolution that is efficiently implemented via FFT. However, the AFNO global filtering cannot well represent small and moderate scale structures that commonly appear in natural images. To leverage the coarse-to-fine scale structures we introduce a Multiscale Wavelet Attention (MWA) by leveraging wavelet neural operators which incurs linear complexity in the sequence size. We replace the attention in ViT with MWA and our experiments with CIFAR and ImageNet classification demonstrate significant improvement over alternative Fourier-based attentions such as AFNO and Global Filter Network (GFN).
翻訳日:2023-03-28 21:34:11 公開日:2023-03-26
# AIと政策設計に関する早期協議を通しての妥当性の検討

Recentering Validity Considerations through Early-Stage Deliberations Around AI and Policy Design ( http://arxiv.org/abs/2303.14602v1 )

ライセンス: Link先を確認
Anna Kawakami, Amanda Coston, Haiyi Zhu, Hoda Heidari, Kenneth Holstein(参考訳) AIベースの意思決定ツールは、医療、刑事司法、児童福祉といった、現実世界の複雑な領域に急速に普及している。 増え続ける研究機関は、AIシステム設計の有効性に関する調査を拡大するよう求めている。 しかし、現実の環境では、関連する組織および公開ポリシーの設計を考慮せずに、AIツールの有効性に関する質問に完全に対処することができないことが多い。 しかし、AIツールがポリシーとどのようにインターフェースするかに関する考慮は、ツールを設計またはデプロイした後、しばしば振り返りでのみ議論される。 本稿では、新しいプロジェクトの初期段階において、aiベースの技術と関連する政策の設計に関するマルチテイクホルダの審議を促進する機会について論じる。

AI-based decision-making tools are rapidly spreading across a range of real-world, complex domains like healthcare, criminal justice, and child welfare. A growing body of research has called for increased scrutiny around the validity of AI system designs. However, in real-world settings, it is often not possible to fully address questions around the validity of an AI tool without also considering the design of associated organizational and public policies. Yet, considerations around how an AI tool may interface with policy are often only discussed retrospectively, after the tool is designed or deployed. In this short position paper, we discuss opportunities to promote multi-stakeholder deliberations around the design of AI-based technologies and associated policies, at the earliest stages of a new project.
翻訳日:2023-03-28 18:48:04 公開日:2023-03-26
# pore: データ中毒攻撃に対する堅牢な推奨システム

PORE: Provably Robust Recommender Systems against Data Poisoning Attacks ( http://arxiv.org/abs/2303.14601v1 )

ライセンス: Link先を確認
Jinyuan Jia and Yupei Liu and Yuepeng Hu and Neil Zhenqiang Gong(参考訳) データ中毒は、注意深い評価スコアで偽ユーザーをレコメンダシステムに注入することで、攻撃者が望む任意のレコメンデーションを行うレコメンデーションシステムspoofを攻撃します。 我々は、そのようなデータ中毒攻撃とその防御、すなわち、新しい防衛は既存の攻撃に対して防御するために設計され、新しい攻撃はそれらを壊すように設計されている。 このようなキャット・アンド・モーズゲームを防止するため,本研究では,ロバストなレコメンダシステムを構築する最初のフレームワークであるporeを提案する。 POREは、既存のレコメンデータシステムを、ターゲットのないデータ中毒攻撃に対して確実に堅牢に変換することが可能で、レコメンデータシステム全体のパフォーマンスを低下させることを目的としている。 攻撃がない場合、poreはユーザーに対してトップ$n$アイテムを推奨する。 POREは、データ中毒攻撃を受けたユーザに対して、少なくとも$N$アイテムの$r$を推奨していることを証明しています。 さらに,ユーザ毎に$r$を計算できる効率的なアルゴリズムを設計した。 人気のあるベンチマークデータセット上でPOREを実証的に評価する。

Data poisoning attacks spoof a recommender system to make arbitrary, attacker-desired recommendations via injecting fake users with carefully crafted rating scores into the recommender system. We envision a cat-and-mouse game for such data poisoning attacks and their defenses, i.e., new defenses are designed to defend against existing attacks and new attacks are designed to break them. To prevent such a cat-and-mouse game, we propose PORE, the first framework to build provably robust recommender systems in this work. PORE can transform any existing recommender system to be provably robust against any untargeted data poisoning attacks, which aim to reduce the overall performance of a recommender system. Suppose PORE recommends top-$N$ items to a user when there is no attack. We prove that PORE still recommends at least $r$ of the $N$ items to the user under any data poisoning attack, where $r$ is a function of the number of fake users in the attack. Moreover, we design an efficient algorithm to compute $r$ for each user. We empirically evaluate PORE on popular benchmark datasets.
翻訳日:2023-03-28 18:47:52 公開日:2023-03-26
# スマートシティ:都市のレジリエンスと市民の自由のバランスをとる

Smart Cities: Striking a Balance Between Urban Resilience and Civil Liberties ( http://arxiv.org/abs/2303.14597v1 )

ライセンス: Link先を確認
Sangchul Park(参考訳) 都市インフラと情報技術を統合することで、都市はより賢く、より弾力的になっています。 しかし、スマートシティは、市民活動の検知、プロファイリング、予測における市民の自由の進歩を逆転させ、接続性、移動性、エネルギー消費における市民の自律性を損なうこと、デジタルインフラの民営化を懸念している。 これに対し、都市はプライバシー強化技術、コホートモデリング、公正で説明可能な機械学習など、技術的なブレークスルーを展開する必要がある。 しかし、都市で技術を投げることは常に市民の自由の懸念に対処できないため、都市は透明性を確保し、市民の参加を奨励し、レジリエンスと自由のバランスについて市民の信頼を得る必要がある。

Cities are becoming smarter and more resilient by integrating urban infrastructure with information technology. However, concerns grow that smart cities might reverse progress on civil liberties when sensing, profiling, and predicting citizen activities; undermining citizen autonomy in connectivity, mobility, and energy consumption; and deprivatizing digital infrastructure. In response, cities need to deploy technical breakthroughs, such as privacy-enhancing technologies, cohort modelling, and fair and explainable machine learning. However, as throwing technologies at cities cannot always address civil liberty concerns, cities must ensure transparency and foster citizen participation to win public trust about the way resilience and liberties are balanced.
翻訳日:2023-03-28 18:47:33 公開日:2023-03-26
# テンソル積の内部像

An inside view of the tensor product ( http://arxiv.org/abs/2303.14596v1 )

ライセンス: Link先を確認
Rafael D. Sorkin(参考訳) ベクトル空間 $~V~$ がベクトル空間のテンソル積 $A$ と $B$ を与えられたとき、単純なテンソルの族 $a{\otimes}b$ から $A$ と $B$ を$V$ 内に再構成する。 量子力学への応用においては、合成系のコンポーネントサブシステムを、非絡み合った純粋な状態から再構成する。 我々の構成は函手と自然同型の圏論的概念の例と見なすことができ、これらの概念の背後にある直観を持ち出し、それらを批判するためにこれを使う。 また、量子場論におけるエントロピーの絡み合いへの応用など、さらなる研究へのいくつかの提案も提示されている。

Given a vector-space $~V~$ which is the tensor product of vector-spaces $A$ and $B$, we reconstruct $A$ and $B$ from the family of simple tensors $a{\otimes}b$ within $V$. In an application to quantum mechanics, one would be reconstructing the component subsystems of a composite system from its unentangled pure states. Our constructions can be viewed as instances of the category-theoretic concepts of functor and natural isomorphism, and we use this to bring out the intuition behind these concepts, and also to critique them. Also presented are some suggestions for further work, including a hoped-for application to entanglement entropy in quantum field theory.
翻訳日:2023-03-28 18:47:18 公開日:2023-03-26
# 後方特徴投影による連続学習における線形分離性維持

Preserving Linear Separability in Continual Learning by Backward Feature Projection ( http://arxiv.org/abs/2303.14595v1 )

ライセンス: Link先を確認
Qiao Gu, Dongsub Shim, Florian Shkurti(参考訳) 破滅的な忘れは、連続的な学習において大きな課題であり、モデルでは、以前見られたタスクからデータにアクセスできない、あるいは制限された、新しいタスクを学習する必要がある。 この課題に対処するため,特徴空間における知識蒸留に基づく手法が提案され,忘れの低減が図られている。 しかし、ほとんどの特徴蒸留法は、プラスチック性の必要性を見越して、新しい特徴を古いものと一致させるよう直接に制約している。 安定性と可塑性のトレードオフを改善するため,我々は,新しい特徴を学習可能な線形変換へと変化させる連続学習法である後方特徴投影法(bfp)を提案する。 BFPは古いクラスの線形分離性を保ちつつ、新しいフィーチャの方向が新しいクラスに対応できるようにしている。 BFPは既存のエクスペリエンスリプレイメソッドと統合することができ、パフォーマンスを大幅に向上させることができる。 また,BFPは連続学習中に線形分離性が良好に維持され,高い分類精度が得られるような表現空間の学習にも有効であることを示す。

Catastrophic forgetting has been a major challenge in continual learning, where the model needs to learn new tasks with limited or no access to data from previously seen tasks. To tackle this challenge, methods based on knowledge distillation in feature space have been proposed and shown to reduce forgetting. However, most feature distillation methods directly constrain the new features to match the old ones, overlooking the need for plasticity. To achieve a better stability-plasticity trade-off, we propose Backward Feature Projection (BFP), a method for continual learning that allows the new features to change up to a learnable linear transformation of the old features. BFP preserves the linear separability of the old classes while allowing the emergence of new feature directions to accommodate new classes. BFP can be integrated with existing experience replay methods and boost performance by a significant margin. We also demonstrate that BFP helps learn a better representation space, in which linear separability is well preserved during continual learning and linear probing achieves high classification accuracy.
翻訳日:2023-03-28 18:47:05 公開日:2023-03-26
# 強化学習における一般化のための新しい品質多様性手法の探求

Exploring Novel Quality Diversity Methods For Generalization in Reinforcement Learning ( http://arxiv.org/abs/2303.14592v1 )

ライセンス: Link先を確認
Brad Windsor, Brandon O'Shea, Mengxi Wu(参考訳) 強化学習分野は、成果と再適用の弱さに強く依存しており、スーパーヒューマンレベルでgoをプレイするコンピュータは、tic-tac-toeでは依然としてひどい。 本稿では,ネットワークの学習方法が一般化を改善するかどうかを問う。 具体的には,コア品質の多様性アルゴリズムを探索し,最近の2つのアルゴリズムと比較し,既存手法の欠点に対処する新しいアルゴリズムを提案する。 これらの方法の結果は期待される性能よりもかなり低いが,本研究は品質多様性における行動基準の選択,微分訓練と進化訓練の相互作用,進化探索におけるオフライン強化学習とランダム学習の役割に関する重要なポイントを提起する。

The Reinforcement Learning field is strong on achievements and weak on reapplication; a computer playing GO at a super-human level is still terrible at Tic-Tac-Toe. This paper asks whether the method of training networks improves their generalization. Specifically we explore core quality diversity algorithms, compare against two recent algorithms, and propose a new algorithm to deal with shortcomings in existing methods. Although results of these methods are well below the performance hoped for, our work raises important points about the choice of behavior criterion in quality diversity, the interaction of differential and evolutionary training methods, and the role of offline reinforcement learning and randomized learning in evolutionary search.
翻訳日:2023-03-28 18:46:46 公開日:2023-03-26
# FairGAT: 公正を意識したグラフアテンションネットワーク

FairGAT: Fairness-aware Graph Attention Networks ( http://arxiv.org/abs/2303.14591v1 )

ライセンス: Link先を確認
O. Deniz Kose, Yanning Shen(参考訳) グラフは、遺伝子ネットワークや電力グリッドのような様々な複雑なシステムのモデリングを容易にし、その基盤となる関係を分析する。 グラフ上の学習は最近注目を集めており、特にグラフニューラルネットワークベースのソリューションはグラフアテンションネットワーク(gats)がグラフベースのタスクで最も広く使われているニューラルネットワークの1つとなっている。 学習におけるグラフ構造の利用は,アルゴリズムバイアスの増幅をもたらすことが示されているが,GATにおける注意設計がアルゴリズムバイアスに与える影響は研究されていない。 そこで本研究では,gatに基づくノード分類学習におけるアルゴリズムバイアスの源泉を示すために,まず理論解析を行った。 そして,その理論的な結果に基づいて,公正な注意設計を活用する新しいアルゴリズムであるFairGATを開発した。 実世界のネットワークにおける実験結果は、fairgatがグループフェアネス対策を改善し、また、ノード分類とリンク予測のためのフェアネス対応ベースラインと同等のユーティリティを提供することを示した。

Graphs can facilitate modeling various complex systems such as gene networks and power grids, as well as analyzing the underlying relations within them. Learning over graphs has recently attracted increasing attention, particularly graph neural network-based (GNN) solutions, among which graph attention networks (GATs) have become one of the most widely utilized neural network structures for graph-based tasks. Although it is shown that the use of graph structures in learning results in the amplification of algorithmic bias, the influence of the attention design in GATs on algorithmic bias has not been investigated. Motivated by this, the present study first carries out a theoretical analysis in order to demonstrate the sources of algorithmic bias in GAT-based learning for node classification. Then, a novel algorithm, FairGAT, that leverages a fairness-aware attention design is developed based on the theoretical findings. Experimental results on real-world networks demonstrate that FairGAT improves group fairness measures while also providing comparable utility to the fairness-aware baselines for node classification and link prediction.
翻訳日:2023-03-28 18:46:33 公開日:2023-03-26
# SASS:主題認識文の簡略化のためのデータと方法

SASS: Data and Methods for Subject Aware Sentence Simplification ( http://arxiv.org/abs/2303.14589v1 )

ライセンス: Link先を確認
Brad Windsor, Luke Martin, Anand Tyagi(参考訳) 文の単純化は、文章をより読みやすく理解しやすくすることで、文の汎用的な単純化に焦点を当てる傾向がある。 本稿では,文全体を単純化するのではなく,主観的認識文の単純化を行うモデルを訓練するためのデータセットを提供する。 抽象的な要約に使われるモデルアーキテクチャにインスパイアされたデータセットのモデルもテストします。 我々は、生成したデータの一部を手渡し、それらの手書きの単純化をさらに操作することでデータセットを増強する。 以上の結果から,データ拡張,データマスキング,モデルアーキテクチャの選択が,主観的認識の単純化の比較に有効なベースラインであることが示唆された。

Sentence simplification tends to focus on the generic simplification of sentences by making them more readable and easier to understand. This paper provides a dataset aimed at training models that perform subject aware sentence simplifications rather than simplifying sentences as a whole. We also test models on that dataset which are inspired by model architecture used in abstractive summarization. We hand generated portions of the data and augment the dataset by further manipulating those hand written simplifications. Our results show that data-augmentation, data-masking, and model architecture choices used in summarization provide a solid baseline for comparison on subject aware simplification.
翻訳日:2023-03-28 18:46:15 公開日:2023-03-26
# オンライン学習の本質の集合 : CSE-SET

A Set of Essentials for Online Learning : CSE-SET ( http://arxiv.org/abs/2303.14621v1 )

ライセンス: Link先を確認
J. Dulangi Kanchana, Gayashan Amarasinghe, Vishaka Nanayakkara, Amal Shehan Perera(参考訳) 遠隔学習は新しい概念ではない。 オンラインで行われる教育や学習は遠隔教育の一形態である。 オンライン学習は従来の学習に代わる便利な方法だ。 多くの研究者が教育機関や各国でのオンライン教育の利用を調査している。 本研究では,オンライン学習プロセスにおいて,利害関係者がモチベーションを失わないようにするために,効果的なオンライン学習の必須事項を整理する。 また、本研究では、学生や他の利害関係者がオンライン学習に熱意を持って取り組み、オンライン学習への取り組みを動機付ける一連の要因も挙げている。

Distance learning is not a novel concept. Education or learning conducted online is a form of distance education. Online learning presents a convenient alternative to traditional learning. Numerous researchers have investigated the usage of online education in educational institutions and across nations. A set of essentials for effective online learning are elaborated in this study to ensure stakeholders would not get demotivated in the online learning process. Also, the study lists a set of factors that motivate students and other stakeholders to engage in online learning with enthusiasm and work towards online learning.
翻訳日:2023-03-28 18:39:49 公開日:2023-03-26
# 量子シラード熱エンジンの有限時間最適化

Finite-Time Optimization of Quantum Szilard heat engine ( http://arxiv.org/abs/2303.14619v1 )

ライセンス: Link先を確認
Tan-Ji Zhou, Yu-Han Ma, and C. P. Sun(参考訳) 本稿では,情報エンジンの動作を高速化するために,スピンを作用物質とする量子粒子を持つ有限時間量子Szilardエンジン(QSE)を提案する。 ws と md の間の相互情報 $i(t_{\rm{m}})$ によって定量化された粒子の方向情報をキャプチャするために、有限な測定時間 $t_{{\rm m}}$ 内のスピン状態を調べるための maxwell's demon (md) を導入する。 QSE の効率 $\eta$ は $\eta\leq1-(1-\eta_{\rm{C}}){\rm ln}2/I(t_{{\rm M}})$, ここでは $I(t_{{\rm M}})/\rm{ln}2$ が量子測定の理想性を特徴づけ、準定常状態における理想的な測定で到達したカルノーの効率に対して 1$ に近づく。 QSEのパワーは、短時間では$P\propto t_{{\rm M}}^{3}$、長期では$P\propto t_{\rm M}^{-1}$とスケールする。 加えて、ランダウアーの原理によって要求されるMDのメモリを消去するエネルギーコストを考えると、QSEが正の仕事を出力することを保証できる閾値時間が存在する。

We propose a finite-time quantum Szilard engine (QSE) with a quantum particle with spin as the working substance (WS) to accelerate the operation of information engines. We introduce a Maxwell's demon (MD) to probe the spin state within a finite measurement time $t_{{\rm M}}$ to capture the which-way information of the particle, quantified by the mutual information $I(t_{\rm{M}})$ between WS and MD. We establish that the efficiency $\eta$ of QSE is bounded by $\eta\leq1-(1-\eta_{\rm{C}}){\rm ln}2/I(t_{{\rm M}})$, where $I(t_{{\rm M}})/\rm{ln}2$ characterizes the ideality of quantum measurement, and approaches $1$ for the Carnot efficiency reached under ideal measurement in quasi-static regime. We find that the power of QSE scales as $P\propto t_{{\rm M}}^{3}$ in the short-time regime and as $P\propto t_{\rm M}^{-1}$ in the long-time regime. Additionally, considering the energy cost for erasing the MD's memory required by Landauer's principle, there exists a threshold time that guarantees QSE to output positive work.
翻訳日:2023-03-28 18:39:40 公開日:2023-03-26
# BoxVIS: Boxアノテーションによるビデオインスタンスのセグメンテーション

BoxVIS: Video Instance Segmentation with Box Annotations ( http://arxiv.org/abs/2303.14618v1 )

ライセンス: Link先を確認
Minghan Li and Lei Zhang(参考訳) ピクセル単位でオブジェクトマスクをビデオにラベル付けするのは高価で労力がかかる。 その結果、既存のビデオインスタンスセグメンテーション(VIS)データセットにおけるピクセルワイズアノテーションの量は少なく、訓練されたVISモデルの一般化能力を制限している。 代替案として、バウンディングボックスを使ってビデオにインスタンスをラベル付ける方法がある。 最近のbox-supervised image instance segmentationの成功に触発されて、我々はまず最先端のpixel-supervised visモデルをbox-supervised vis(boxvis)ベースラインに適応させ、わずかなパフォーマンス低下だけを観察した。 そこで我々は,BoxVISの性能を2つの側面から改善することを提案する。 まず, 空間的・時間的整合性を改善するために, 箱型ガイド付き時空間対親和性(STPA)損失を提案する。 第2に、現在のVISベンチマークからビデオを統合し、COCOデータセットから短い擬似ビデオクリップに変換することにより、大規模ボックス付きVISデータセット(BVISD)を収集する。 提案するbvisdとstpa損失により,トレーニングしたboxvisモデルは,有望なインスタンスマスク予測性能を示す。 具体的には、YouTube-VIS 2021 と OVIS の有効セットで 43.2\% と 29.0\% のマスク AP を達成し、16\% のアノテーション時間とコストしか使用せず、最先端のピクセル管理型 VIS モデルと同等またはそれ以上の一般化性能を示す。 BoxVISのコードとデータは \url{https://github.com/MinghanLi/BoxVIS} にある。

It is expensive and labour-extensive to label the pixel-wise object masks in a video. As a results, the amount of pixel-wise annotations in existing video instance segmentation (VIS) datasets is small, limiting the generalization capability of trained VIS models. An alternative but much cheaper solution is to use bounding boxes to label instances in videos. Inspired by the recent success of box-supervised image instance segmentation, we first adapt the state-of-the-art pixel-supervised VIS models to a box-supervised VIS (BoxVIS) baseline, and observe only slight performance degradation. We consequently propose to improve BoxVIS performance from two aspects. First, we propose a box-center guided spatial-temporal pairwise affinity (STPA) loss to predict instance masks for better spatial and temporal consistency. Second, we collect a larger scale box-annotated VIS dataset (BVISD) by consolidating the videos from current VIS benchmarks and converting images from the COCO dataset to short pseudo video clips. With the proposed BVISD and the STPA loss, our trained BoxVIS model demonstrates promising instance mask prediction performance. Specifically, it achieves 43.2\% and 29.0\% mask AP on the YouTube-VIS 2021 and OVIS valid sets, respectively, exhibiting comparable or even better generalization performance than state-of-the-art pixel-supervised VIS models by using only 16\% annotation time and cost. Codes and data of BoxVIS can be found at \url{https://github.com/MinghanLi/BoxVIS}.
翻訳日:2023-03-28 18:39:09 公開日:2023-03-26
# Neural Graph Reasoning: 複雑な論理クエリアンサリングとグラフデータベース

Neural Graph Reasoning: Complex Logical Query Answering Meets Graph Databases ( http://arxiv.org/abs/2303.14617v1 )

ライセンス: Link先を確認
Hongyu Ren, Mikhail Galkin, Michael Cochez, Zhaocheng Zhu, Jure Leskovec(参考訳) 複雑な論理クエリ応答(clqa)はグラフ機械学習の最近出現したタスクであり、単純な1ホップリンク予測を超えて、潜在空間における大規模で潜在的に不完全なグラフに対するマルチホップ論理推論のより複雑なタスクを解決する。 様々な種類の複雑なクエリやグラフモダリティを効率的なシステムで扱うために、多くの研究が理論的および実践的な軸に沿って分野を拡大した。 本稿では,グラフタイプ(モダリティ,推論領域,背景意味論),モデリング側面(エンコーダ,プロセッサ,デコーダ),サポートクエリ(演算子,パターン,投影変数),データセット,評価指標,アプリケーションなど,さまざまな角度から分野を詳細に研究したCLQAの総合的な調査を行う。 CLQAタスクを精査し、ニューラルグラフデータベース(NGDB)の概念を導入する。 グラフデータベース(グラフDB)の考え方を拡張したNGDBは、Neural Graph StorageとNeural Graph Engineで構成されている。 Neural Graph Storageの内部では、グラフストア、機能ストアを設計し、エンコーダを使用して潜伏埋め込みストアにさらに情報を埋め込みます。 クエリが与えられたら、Neural Query Engineはクエリ計画と実行の方法を学び、Neural Graph Storageと対話することで正しい結果の効率よく検索する。 従来のグラフDBと比較すると、NGDBは埋め込みストアを使用して様々なモードの機能の柔軟で統一されたモデリングを可能にする。 さらに、グラフが不完全であれば、通常のグラフ DB が回復できない答えを頑健に検索することができる。 最後に,今後の研究に期待できる方向性,未解決問題,NGDBの応用について述べる。

Complex logical query answering (CLQA) is a recently emerged task of graph machine learning that goes beyond simple one-hop link prediction and solves a far more complex task of multi-hop logical reasoning over massive, potentially incomplete graphs in a latent space. The task received a significant traction in the community; numerous works expanded the field along theoretical and practical axes to tackle different types of complex queries and graph modalities with efficient systems. In this paper, we provide a holistic survey of CLQA with a detailed taxonomy studying the field from multiple angles, including graph types (modality, reasoning domain, background semantics), modeling aspects (encoder, processor, decoder), supported queries (operators, patterns, projected variables), datasets, evaluation metrics, and applications. Refining the CLQA task, we introduce the concept of Neural Graph Databases (NGDBs). Extending the idea of graph databases (graph DBs), NGDB consists of a Neural Graph Storage and a Neural Graph Engine. Inside Neural Graph Storage, we design a graph store, a feature store, and further embed information in a latent embedding store using an encoder. Given a query, Neural Query Engine learns how to perform query planning and execution in order to efficiently retrieve the correct results by interacting with the Neural Graph Storage. Compared with traditional graph DBs, NGDBs allow for a flexible and unified modeling of features in diverse modalities using the embedding store. Moreover, when the graph is incomplete, they can provide robust retrieval of answers which a normal graph DB cannot recover. Finally, we point out promising directions, unsolved problems and applications of NGDB for future research.
翻訳日:2023-03-28 18:38:39 公開日:2023-03-26
# Indicator Localization と Self-Supervised Learning を用いたメラノーマ診断のための説明可能な人工知能アーキテクチャ

Explainable Artificial Intelligence Architecture for Melanoma Diagnosis Using Indicator Localization and Self-Supervised Learning ( http://arxiv.org/abs/2303.14615v1 )

ライセンス: Link先を確認
Ruitong Sun, Mohammad Rostami(参考訳) メラノーマ(Melanoma)は、発育初期の診断で治療可能な致死性のがんである。 皮膚病変は悪性黒色腫の診断の典型的な指標であるが,早期の悪性黒色腫と良性黒色腫の類似性が高いため診断が遅れることも多い。 深層学習(DL)は皮膚病変の画像を高精度に分類するためのソリューションとして用いられるが、深層学習の臨床応用は大きな課題に直面している。 その理由は、ディープラーニングモデルの意思決定プロセスは、しばしば解釈できないため、信頼が難しいブラックボックスになるからです。 メラノーマ診断のための説明可能な深層学習アーキテクチャを開発し,その決定に対して臨床的に解釈可能な視覚的な説明を生成する。 提案するアーキテクチャは,既存のアーキテクチャよりも臨床的説明に極めてよく適合していることを示す。

Melanoma is a prevalent lethal type of cancer that is treatable if diagnosed at early stages of development. Skin lesions are a typical indicator for diagnosing melanoma but they often led to delayed diagnosis due to high similarities of cancerous and benign lesions at early stages of melanoma. Deep learning (DL) can be used as a solution to classify skin lesion pictures with a high accuracy, but clinical adoption of deep learning faces a significant challenge. The reason is that the decision processes of deep learning models are often uninterpretable which makes them black boxes that are challenging to trust. We develop an explainable deep learning architecture for melanoma diagnosis which generates clinically interpretable visual explanations for its decisions. Our experiments demonstrate that our proposed architectures matches clinical explanations significantly better than existing architectures.
翻訳日:2023-03-28 18:38:11 公開日:2023-03-26
# GestureDiffuCLIP:CLIP潜伏剤を用いたジェスチャ拡散モデル

GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents ( http://arxiv.org/abs/2303.14613v1 )

ライセンス: Link先を確認
Tenglong Ao, Zeyi Zhang, Libin Liu(参考訳) 近年,スタイリングされた共同音声ジェスチャーの自動生成が注目されている。 従来のシステムでは,事前に定義されたテキストラベルやモーションクリップによるスタイルコントロールが可能で,ユーザの意図を正確に伝えるには柔軟性に欠けることが多い。 本稿では,フレキシブルなスタイル制御による,リアルでスタイリッシュなコスピーチジェスチャを合成するニューラルネットワークフレームワークであるjuicediffuclipを提案する。 本稿では,CLIP(Contrastive-Language-Image-Pre-Training)モデルのパワーを活用し,テキストやモーションクリップ,ビデオなどの複数の入力モードから,効率的なスタイル表現を抽出する新しいCLIP誘導機構を提案する。 我々のシステムは,高品質なジェスチャを生成するために潜時拡散モデルを学び,適応インスタンス正規化(AdaIN)層を介してスタイルのCLIP表現をジェネレータに注入する。 さらに、コントラスト学習に基づく意味論的に正しいジェスチャー生成を可能にするジェスチャー記述アライメント機構を考案する。 我々のシステムは、個々の身体部分のきめ細かいスタイル制御を可能にするよう拡張することもできる。 我々は、様々なスタイル記述に対するモデルの柔軟性と一般化性を示す、広範な例を示します。 ユーザ・スタディにおいて,本システムは,人間の類似性,適切性,スタイル正確性に関する最先端のアプローチを上回っていることを示す。

The automatic generation of stylized co-speech gestures has recently received increasing attention. Previous systems typically allow style control via predefined text labels or example motion clips, which are often not flexible enough to convey user intent accurately. In this work, we present GestureDiffuCLIP, a neural network framework for synthesizing realistic, stylized co-speech gestures with flexible style control. We leverage the power of the large-scale Contrastive-Language-Image-Pre-training (CLIP) model and present a novel CLIP-guided mechanism that extracts efficient style representations from multiple input modalities, such as a piece of text, an example motion clip, or a video. Our system learns a latent diffusion model to generate high-quality gestures and infuses the CLIP representations of style into the generator via an adaptive instance normalization (AdaIN) layer. We further devise a gesture-transcript alignment mechanism that ensures a semantically correct gesture generation based on contrastive learning. Our system can also be extended to allow fine-grained style control of individual body parts. We demonstrate an extensive set of examples showing the flexibility and generalizability of our model to a variety of style descriptions. In a user study, we show that our system outperforms the state-of-the-art approaches regarding human likeness, appropriateness, and style correctness.
翻訳日:2023-03-28 18:37:56 公開日:2023-03-26
# deepfake in the metaverse: バーチャルゲーム、ミーティング、オフィスのセキュリティへの影響

Deepfake in the Metaverse: Security Implications for Virtual Gaming, Meetings, and Offices ( http://arxiv.org/abs/2303.14612v1 )

ライセンス: Link先を確認
Shahroz Tariq, Alsharif Abuadbba, Kristen Moore(参考訳) metaverseは、没入型でインタラクティブな仮想世界を作る可能性から、さまざまな業界から大きな注目を集めている。 しかし、メタバースにおけるディープフェイクの統合は、特に偽造に関して深刻なセキュリティ上の影響をもたらす。 本稿では,ゲーム,オンライン会議,仮想オフィスなど,メタバースにおけるディープフェイクのセキュリティへの影響について検討する。 この論文は、ゲームシナリオにおけるディープフェイクの擬人化、メタバースにおけるオンラインミーティングの擬人化、メタバースにおける仮想オフィスの物理的認証の欠如、アタッカーによる偽人化の容易化などについて論じている。 これらのセキュリティ上の懸念の意義は、cia(secretity, integrity, and availability)トライアドに関連して議論されている。 この論文では、ダークバースやデジタルクローンといった関連する問題や、仮想世界のセキュリティ脅威に対処する規制やプライバシーに関する懸念についても検討している。

The metaverse has gained significant attention from various industries due to its potential to create a fully immersive and interactive virtual world. However, the integration of deepfakes in the metaverse brings serious security implications, particularly with regard to impersonation. This paper examines the security implications of deepfakes in the metaverse, specifically in the context of gaming, online meetings, and virtual offices. The paper discusses how deepfakes can be used to impersonate in gaming scenarios, how online meetings in the metaverse open the door for impersonation, and how virtual offices in the metaverse lack physical authentication, making it easier for attackers to impersonate someone. The implications of these security concerns are discussed in relation to the confidentiality, integrity, and availability (CIA) triad. The paper further explores related issues such as the darkverse, and digital cloning, as well as regulatory and privacy concerns associated with addressing security threats in the virtual world.
翻訳日:2023-03-28 18:37:32 公開日:2023-03-26
# 混合サンプルデータの増大がモデル解釈可能性に及ぼす影響

Analyzing Effects of Mixed Sample Data Augmentation on Model Interpretability ( http://arxiv.org/abs/2303.14608v1 )

ライセンス: Link先を確認
Soyoun Won, Sung-Ho Bae, Seong Tae Kim(参考訳) データ拡張戦略は、ディープニューラルネットワーク(DNN)のトレーニングに積極的に使用される。 近年の研究では,様々な課題に有効であることが示唆されている。 しかし,データ拡張がDNNの解釈可能性に与える影響については,まだ広く研究されていない。 本稿では,モデルが異なるデータ拡張法で訓練され,解釈可能性の観点から評価されるデータ拡張戦略と解釈可能性の関係について検討する。 解釈可能性の定量化のために,人間との整合,モデルへの忠実性,モデルにおける認識可能な概念の数という3つの評価手法を考案する。 総合的な実験によると、混合サンプルデータ拡張で訓練されたモデルは、特にCutMixとSaliencyMixの拡張において、解釈可能性の低下を示す。 この新たな発見は、特にミッションクリティカルなアプリケーションにおいて、モデル解釈可能性に影響を及ぼすため、混合サンプルデータ拡張を慎重に採用することが重要であることを示唆している。

Data augmentation strategies are actively used when training deep neural networks (DNNs). Recent studies suggest that they are effective at various tasks. However, the effect of data augmentation on DNNs' interpretability is not yet widely investigated. In this paper, we explore the relationship between interpretability and data augmentation strategy in which models are trained with different data augmentation methods and are evaluated in terms of interpretability. To quantify the interpretability, we devise three evaluation methods based on alignment with humans, faithfulness to the model, and the number of human-recognizable concepts in the model. Comprehensive experiments show that models trained with mixed sample data augmentation show lower interpretability, especially for CutMix and SaliencyMix augmentations. This new finding suggests that it is important to carefully adopt mixed sample data augmentation due to the impact on model interpretability, especially in mission-critical applications.
翻訳日:2023-03-28 18:37:14 公開日:2023-03-26
# 緑の連合学習

Green Federated Learning ( http://arxiv.org/abs/2303.14604v1 )

ライセンス: Link先を確認
Ashkan Yousefpour, Shen Guo, Ashish Shenoy, Sayan Ghosh, Pierre Stock, Kiwan Maeng, Schalk-Willem Kr\"uger, Michael Rabbat, Carole-Jean Wu, Ilya Mironov(参考訳) AIの急速な進歩は、ますます大規模で計算集約的な機械学習モデルとデータセットによって支えられている。 その結果、最先端モデルのトレーニングに使用される計算量は指数関数的に増加し(2015年から2022年までの10ヶ月毎に倍増)、結果として炭素フットプリントが大きくなった。 Federated Learning (FL) - 分散エンティティのデータを使用して集中モデルをトレーニングするための協調機械学習技術である。 戦略的に配置されたデータセンターで再生可能エネルギーを確実に活用できる中央集権型AIとは異なり、クロスデバイスFLは、多様なエネルギー源を持つ数億のグローバル分散エンドユーザーデバイスを活用することができる。 グリーンAIは、精度、収束速度、その他の指標とともに、炭素フットプリントがAIの評価基準と見なされる、新しくて重要な研究領域である。 本稿では, FLパラメータの最適化と, 競争性能とトレーニング時間に整合した二酸化炭素排出量を最小化するための設計選択を含むグリーンFLの概念を提案する。 この作品の貢献は2つある。 まず,何百万台もの携帯電話上で動作している実世界のFLタスクを直接測定することで,FLの二酸化炭素排出量を定量化するためのデータ駆動型アプローチを採用する。 第2に,生産型FLシステムにおけるエネルギー効率,性能,時間-トレーニングのトレードオフに関する研究から学んだ課題,ガイドライン,教訓を提示する。 我々の発見は、FLがカーボンフットプリントを減らす方法に関する貴重な洞察を与え、Green AIの領域における将来の研究の基盤を提供する。

The rapid progress of AI is fueled by increasingly large and computationally intensive machine learning models and datasets. As a consequence, the amount of compute used in training state-of-the-art models is exponentially increasing (doubling every 10 months between 2015 and 2022), resulting in a large carbon footprint. Federated Learning (FL) - a collaborative machine learning technique for training a centralized model using data of decentralized entities - can also be resource-intensive and have a significant carbon footprint, particularly when deployed at scale. Unlike centralized AI that can reliably tap into renewables at strategically placed data centers, cross-device FL may leverage as many as hundreds of millions of globally distributed end-user devices with diverse energy sources. Green AI is a novel and important research area where carbon footprint is regarded as an evaluation criterion for AI, alongside accuracy, convergence speed, and other metrics. In this paper, we propose the concept of Green FL, which involves optimizing FL parameters and making design choices to minimize carbon emissions consistent with competitive performance and training time. The contributions of this work are two-fold. First, we adopt a data-driven approach to quantify the carbon emissions of FL by directly measuring real-world at-scale FL tasks running on millions of phones. Second, we present challenges, guidelines, and lessons learned from studying the trade-off between energy efficiency, performance, and time-to-train in a production FL system. Our findings offer valuable insights into how FL can reduce its carbon footprint, and they provide a foundation for future research in the area of Green AI.
翻訳日:2023-03-28 18:37:00 公開日:2023-03-26
# 有毒なTwitterプロフィールのトップ1%に関する縦断的研究

A longitudinal study of the top 1% toxic Twitter profiles ( http://arxiv.org/abs/2303.14603v1 )

ライセンス: Link先を確認
Hina Qayyum, Benjamin Zi Hao Zhao, Ian D. Wood, Muhammad Ikram, Mohamed Ali Kaafar, Nicolas Kourtellis(参考訳) ToxicityはTwitterを含むオンラインソーシャルネットワークに根ざしている。 これは、非常に少数のプロファイルによって毒性が生成されるパレート様分布に従っており、これらの毒性プロファイルの分析と特徴付けが重要である。 以前の研究は、プラットフォーム上で毒性を特徴付けるために、散発的なイベント中心の毒性コンテンツに重点を置いてきた。 代わりに、プロファイル中心の観点から有害なコンテンツを特徴づけるという問題にアプローチする。 我々は143万のtwitterプロフィールを調査し、twitter上の有害コンテンツ生産者のトップ1%の行動に焦点を当てた。 合計で2億9300万のつぶやきが16年のアクティビティにまたがっていて、その縦断データは、関係するすべてのプロフィールのタイムラインを再構築できる。 これらのタイムラインを使って、最も有毒なtwitterプロフィールの振る舞いを他のtwitter人口と比較した。 本研究では,その頻度,頻度,ハッシュタグやURLの性質,プロフィールメタデータ,ボットメータースコアなどに基づいて,非常に有毒なアカウントからツイートを投稿するパターンについて検討する。 ツイートはハッシュタグ、URL、ドメインの多様性の低い狭いテーマに保たれており、テーマ的には互いに似ており、偽のフォロワースコアに基づいて、前駆者に影響を与える意図のあるボットのような行動の可能性が高いことが判明した。 私たちの研究は、twitterの有毒プロフィールのトップ1%に対する洞察を提供し、twitterの有毒性を調査するためのプロファイル中心のアプローチを確立しています。

Toxicity is endemic to online social networks including Twitter. It follows a Pareto like distribution where most of the toxicity is generated by a very small number of profiles and as such, analyzing and characterizing these toxic profiles is critical. Prior research has largely focused on sporadic, event centric toxic content to characterize toxicity on the platform. Instead, we approach the problem of characterizing toxic content from a profile centric point of view. We study 143K Twitter profiles and focus on the behavior of the top 1 percent producers of toxic content on Twitter, based on toxicity scores of their tweets availed by Perspective API. With a total of 293M tweets, spanning 16 years of activity, the longitudinal data allow us to reconstruct the timelines of all profiles involved. We use these timelines to gauge the behavior of the most toxic Twitter profiles compared to the rest of the Twitter population. We study the pattern of tweet posting from highly toxic accounts, based on the frequency and how prolific they are, the nature of hashtags and URLs, profile metadata, and Botometer scores. We find that the highly toxic profiles post coherent and well articulated content, their tweets keep to a narrow theme with lower diversity in hashtags, URLs, and domains, they are thematically similar to each other, and have a high likelihood of bot like behavior, likely to have progenitors with intentions to influence, based on high fake followers score. Our work contributes insight into the top 1 percent of toxic profiles on Twitter and establishes the profile centric approach to investigate toxicity on Twitter to be beneficial.
翻訳日:2023-03-28 18:36:31 公開日:2023-03-26
# デモ映像からターゲット画像へのグラウンディング

Affordance Grounding from Demonstration Video to Target Image ( http://arxiv.org/abs/2303.14644v1 )

ライセンス: Link先を確認
Joya Chen, Difei Gao, Kevin Qinghong Lin, Mike Zheng Shou(参考訳) 人間は専門家のデモンストレーションから学び、自分の問題を解決するのが得意です。 インテリジェントなロボットやarメガネなどのアシスタントをこの能力で装備するには、デモビデオから人間の手とのインタラクション(つまり、アプライアンス)を接地し、ユーザーのarグラスビューのようなターゲット画像に適用することが不可欠である。 1) 微粒度予測の必要性, (2) 映像不一致を不適切にカバーし, 接地に悪影響を及ぼす限られた訓練データなどにより, 映像対画像の接地作業は困難である。 そこで本研究では,より細粒度なトランスベースのデコーダを備えたAffordance Transformer (Afformer)を提案する。 さらに,ビデオ画像データの合成と文脈変化のシミュレーションを行う自己指導型事前学習技術であるMask Affordance Hand(MaskAHand)を導入する。 MaskAHandによる事前トレーニングは、OPRAデータセットの大幅な37%の改善を含む、複数のベンチマークで最先端のパフォーマンスを達成する。 コードはhttps://github.com/showlab/afformerで入手できる。

Humans excel at learning from expert demonstrations and solving their own problems. To equip intelligent robots and assistants, such as AR glasses, with this ability, it is essential to ground human hand interactions (i.e., affordances) from demonstration videos and apply them to a target image like a user's AR glass view. The video-to-image affordance grounding task is challenging due to (1) the need to predict fine-grained affordances, and (2) the limited training data, which inadequately covers video-image discrepancies and negatively impacts grounding. To tackle them, we propose Affordance Transformer (Afformer), which has a fine-grained transformer-based decoder that gradually refines affordance grounding. Moreover, we introduce Mask Affordance Hand (MaskAHand), a self-supervised pre-training technique for synthesizing video-image data and simulating context changes, enhancing affordance grounding across video-image discrepancies. Afformer with MaskAHand pre-training achieves state-of-the-art performance on multiple benchmarks, including a substantial 37% improvement on the OPRA dataset. Code is made available at https://github.com/showlab/afformer.
翻訳日:2023-03-28 18:30:18 公開日:2023-03-26
# POAR: オープンワールド歩行者属性認識を目指して

POAR: Towards Open-World Pedestrian Attribute Recognition ( http://arxiv.org/abs/2303.14643v1 )

ライセンス: Link先を確認
YUE Zhang, Suchen Wang, Shichao Kan, Zhenyu Weng, Yigang Cen, Yap-peng Tan(参考訳) 歩行者属性認識(PAR)は、監視システムにおける歩行者の属性を予測することを目的としている。 既存のメソッドは、事前に定義された属性クラスを持つマルチラベル分類器をトレーニングすることでpar問題に対処する。 しかし、現実世界の歩行者属性をすべて使い果たすことは不可能である。 この問題に対処するため,新しい歩行者用オープン属性認識(POAR)フレームワークを開発した。 私たちのキーとなる考え方は、画像テキスト検索問題としてPOAR問題を定式化することです。 マスク戦略を用いたトランスフォーマーベースの画像エンコーダを設計する。 特定の歩行者(例えば、頭、上体、下体、足など)に焦点を当て、対応する属性を視覚的な埋め込みにエンコードするために、一連の属性トークンが導入される。 各属性カテゴリは自然言語文として記述され、テキストエンコーダによってエンコードされる。 次に,属性の視覚埋め込みとテキスト埋め込みの類似度を計算し,入力画像に対して最適な属性記述を求める。 属性カテゴリごとに特定の分類器を学習する既存の方法とは異なり、歩行者を部分レベルでモデル化し、未知の属性を扱うための探索方法を探る。 最後に、歩行者画像が複数の属性を構成することができるため、マスク付きトークンによるMTMC損失をトレーニングするために提案する。 オープン属性の設定でベンチマークパーデータセットで広範な実験が行われている。 提案手法の有効性を検証し,POARタスクの強いベースラインを形成可能なPOAR手法の有効性を確認した。

Pedestrian attribute recognition (PAR) aims to predict the attributes of a target pedestrian in a surveillance system. Existing methods address the PAR problem by training a multi-label classifier with predefined attribute classes. However, it is impossible to exhaust all pedestrian attributes in the real world. To tackle this problem, we develop a novel pedestrian open-attribute recognition (POAR) framework. Our key idea is to formulate the POAR problem as an image-text search problem. We design a Transformer-based image encoder with a masking strategy. A set of attribute tokens are introduced to focus on specific pedestrian parts (e.g., head, upper body, lower body, feet, etc.) and encode corresponding attributes into visual embeddings. Each attribute category is described as a natural language sentence and encoded by the text encoder. Then, we compute the similarity between the visual and text embeddings of attributes to find the best attribute descriptions for the input images. Different from existing methods that learn a specific classifier for each attribute category, we model the pedestrian at a part-level and explore the searching method to handle the unseen attributes. Finally, a many-to-many contrastive (MTMC) loss with masked tokens is proposed to train the network since a pedestrian image can comprise multiple attributes. Extensive experiments have been conducted on benchmark PAR datasets with an open-attribute setting. The results verified the effectiveness of the proposed POAR method, which can form a strong baseline for the POAR task.
翻訳日:2023-03-28 18:29:53 公開日:2023-03-26
# CRRS:魚眼画像の多点表現のための同心長方形回帰戦略

CRRS: Concentric Rectangles Regression Strategy for Multi-point Representation on Fisheye Images ( http://arxiv.org/abs/2303.14639v1 )

ライセンス: Link先を確認
Xihan Wang, Xi Xu, Yu Gao, Yi Yang, Yufeng Yue and Mengyin Fu(参考訳) 現代の物体検出器は、オブジェクトを表現する従来の方法として長方形の境界ボックスを利用する。 魚眼画像に関して言えば、長方形の箱は意味的な情報よりも背景ノイズが多い。 マルチポイント表現は提案されているが、回帰精度と収束度は広く使われている矩形箱よりも劣っている。 本研究では,歪み画像に対する多点表現の利点をさらに活用するために,同心矩形回帰戦略(crrs)を提案する。 重み付けにスムースな平均損失を採用し,予測結果に対するハイパーパラメータの効果について検討した。 さらに、検出器性能を推定するための不規則なIoUを得るために、正確な画素レベル法が設計されている。 従来のミューティポイント表現と比較すると、CRRSは精度と安定性の両方でトレーニング性能を向上させることができる。 また,マルチタスク重み付け戦略がこの設計において回帰プロセスを促進することを証明した。

Modern object detectors take advantage of rectangular bounding boxes as a conventional way to represent objects. When it comes to fisheye images, rectangular boxes involve more background noise rather than semantic information. Although multi-point representation has been proposed, both the regression accuracy and convergence still perform inferior to the widely used rectangular boxes. In order to further exploit the advantages of multi-point representation for distorted images, Concentric Rectangles Regression Strategy(CRRS) is proposed in this work. We adopt smoother mean loss to allocate weights and discuss the effect of hyper-parameter to prediction results. Moreover, an accurate pixel-level method is designed to obtain irregular IoU for estimating detector performance. Compared with the previous work for muti-point representation, the experiments show that CRRS can improve the training performance both in accurate and stability. We also prove that multi-task weighting strategy facilitates regression process in this design.
翻訳日:2023-03-28 18:29:32 公開日:2023-03-26
# モデルトレーニングのメモリ節約状況はどのようなものか?

What is the State of Memory Saving for Model Training? ( http://arxiv.org/abs/2303.14633v1 )

ライセンス: Link先を確認
Xiaoxuan Liu, Siddharth Jha, Chuyan Zhu, Zhuohan Li, Alvin Cheung(参考訳) 大きなニューラルネットワークは、多くのドメインにわたるタスクの正確性と一般化を改善することができる。 しかし、ハードウェアメモリが限られているため、この傾向はいつまでも継続できない。 その結果,グラデーションチェックポイントや量子化,スワップングなど,メモリボトルネックを軽減するメモリ最適化手法(moms)が数多く考案された。 本研究では,メモリ最適化手法について検討し,ピークメモリ使用率を実際に低下させるが,トレーニングスループットを最大9.3倍低減できることを示す。 実践者のための実践的ガイドラインとして,記憶とトレーニング時間のトレードオフを定量的に説明するための,シンプルで効果的なパフォーマンスモデルPAPAYAを提案する。 PAPAYAは、異なるモデルをトレーニングする際に、いつ様々なメモリ最適化手法を適用するかを決定するために使用できる。 メモリ最適化技術がパパイヤから派生した意味に基づいてより有利な状況について概説する。 我々は, PAPAYAの精度と, 様々なマシンモデルにおける導出効果を評価し, ピークメモリ/スループット予測における0.97R以上のスコアを達成し, 視覚およびNLPタスク上での5つの評価モデル間のMOMの有効性を正確に予測した。

Large neural networks can improve the accuracy and generalization on tasks across many domains. However, this trend cannot continue indefinitely due to limited hardware memory. As a result, researchers have devised a number of memory optimization methods (MOMs) to alleviate the memory bottleneck, such as gradient checkpointing, quantization, and swapping. In this work, we study memory optimization methods and show that, although these strategies indeed lower peak memory usage, they can actually decrease training throughput by up to 9.3x. To provide practical guidelines for practitioners, we propose a simple but effective performance model PAPAYA to quantitatively explain the memory and training time trade-off. PAPAYA can be used to determine when to apply the various memory optimization methods in training different models. We outline the circumstances in which memory optimization techniques are more advantageous based on derived implications from PAPAYA. We assess the accuracy of PAPAYA and the derived implications on a variety of machine models, showing that it achieves over 0.97 R score on predicting the peak memory/throughput, and accurately predicts the effectiveness of MOMs across five evaluated models on vision and NLP tasks.
翻訳日:2023-03-28 18:29:19 公開日:2023-03-26
# 時間的エゴネット部分グラフ遷移

Temporal Egonet Subgraph Transitions ( http://arxiv.org/abs/2303.14632v1 )

ライセンス: Link先を確認
Daniel Gonzalez Cedre, Sophia Abraham, Lucas Parzianello, Eric Tsai(参考訳) 動的相互作用をどのように要約するか? 本稿では,時間的エゴネットサブグラフ遷移という,ノード埋め込みに基づく解決策を提案する。

How do we summarize dynamic behavioral interactions? We introduce a possible node-embedding-based solution to this question: temporal egonet subgraph transitions.
翻訳日:2023-03-28 18:28:58 公開日:2023-03-26
# 動的シーンにおけるマルチスケール特徴融合による複数フレーム自己監督深度推定

Multi-Frame Self-Supervised Depth Estimation with Multi-Scale Feature Fusion in Dynamic Scenes ( http://arxiv.org/abs/2303.14628v1 )

ライセンス: Link先を確認
Jiquan Zhong, Xiaolin Huang, Xiao Yu(参考訳) 特徴マッチングにより時空間情報を集約することにより,単一フレームアプローチによる単眼深度推定を改善する。 しかし、時空間の特徴は動的シーンの精度を低下させる。 性能を向上させるため、最近の手法では特徴マッチングと動的シーンのための複雑なアーキテクチャを提案する傾向がある。 本稿では,シンプルな学習フレームワークと機能拡張設計を組み合わせることで,優れた性能が得られることを示す。 1) 幾何学的説明性を持つ新しい動的物体検出法を提案する。 検出された動的オブジェクトはトレーニング中に除外され、静的環境の仮定を保証し、マルチフレーム深度推定の精度劣化問題を緩和する。 2)マルチフレーム深度ネットワークにおける特徴マッチングのために,多スケール特徴融合が提案されている。 3) 頑健な教師ネットワークと信頼性保証を備えた頑健な知識蒸留が提案され, テスト中に計算複雑性を増大させることなく多フレーム深度推定を改善する。 提案手法は,マルチフレーム深度推定において優れた性能向上を実現することを示す。

Multi-frame methods improve monocular depth estimation over single-frame approaches by aggregating spatial-temporal information via feature matching. However, the spatial-temporal feature leads to accuracy degradation in dynamic scenes. To enhance the performance, recent methods tend to propose complex architectures for feature matching and dynamic scenes. In this paper, we show that a simple learning framework, together with designed feature augmentation, leads to superior performance. (1) A novel dynamic objects detecting method with geometry explainability is proposed. The detected dynamic objects are excluded during training, which guarantees the static environment assumption and relieves the accuracy degradation problem of the multi-frame depth estimation. (2) Multi-scale feature fusion is proposed for feature matching in the multi-frame depth network, which improves feature matching, especially between frames with large camera motion. (3) The robust knowledge distillation with a robust teacher network and reliability guarantee is proposed, which improves the multi-frame depth estimation without computation complexity increase during the test. The experiments show that our proposed methods achieve great performance improvement on the multi-frame depth estimation.
翻訳日:2023-03-28 18:28:56 公開日:2023-03-26
# mrcn:可視赤外人物再同定のための新しいモダリティ復元・補償ネットワーク

MRCN: A Novel Modality Restitution and Compensation Network for Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2303.14626v1 )

ライセンス: Link先を確認
Yukang Zhang, Yan Yan, Jie Li, Hanzi Wang(参考訳) 可視的赤外線人物再識別 (VI-ReID) は, 可視像と赤外線像の相互差が大きいため, 異なるスペクトルをまたいで識別を探索することを目的とした課題である。 矛盾を減らす鍵は、アイデンティティ非関連な干渉をフィルタリングし、モダリティ不変の人物表現を効果的に学習することである。 本稿では,2つのモダリティ間のギャップを狭めるために,新しいモダリティ再構成補償ネットワーク(MRCN)を提案する。 具体的には、まず2つのインスタンス正規化(IN)層を用いてモダリティの差を小さくする。 次に, 識別情報除去におけるIN層の影響を低減し, モダリティの相違を低減するため, モダリティ再生モジュール (MRM) とモダリティ補償モジュール (MCM) を提案し, 除去情報からモダリティ関連特徴とモダリティ関連特徴をそれぞれ抽出する。 次に、モダリティ関連特徴は正規化された可視および赤外線の特徴に回帰するために使用され、モダリティ関連特徴は他のモダリティの特徴を補うために使用される。 さらに, モダリティ関連特徴とモダリティ関連特徴をより適切に分離するために, ネットワークがモダリティ関連特徴とモダリティ関連特徴を効果的に学習できるよう, 新たなCQC(Central-Quadruplet Causal)損失を提案する。 SYSU-MM01およびRegDBデータセットに対する本手法の優位性を検証するため,大規模な実験を行った。 より顕著に、我々の手法はRanc-1の95.1%、RegDBデータセットのmAPの89.2%を達成している。

Visible-infrared person re-identification (VI-ReID), which aims to search identities across different spectra, is a challenging task due to large cross-modality discrepancy between visible and infrared images. The key to reduce the discrepancy is to filter out identity-irrelevant interference and effectively learn modality-invariant person representations. In this paper, we propose a novel Modality Restitution and Compensation Network (MRCN) to narrow the gap between the two modalities. Specifically, we first reduce the modality discrepancy by using two Instance Normalization (IN) layers. Next, to reduce the influence of IN layers on removing discriminative information and to reduce modality differences, we propose a Modality Restitution Module (MRM) and a Modality Compensation Module (MCM) to respectively distill modality-irrelevant and modality-relevant features from the removed information. Then, the modality-irrelevant features are used to restitute to the normalized visible and infrared features, while the modality-relevant features are used to compensate for the features of the other modality. Furthermore, to better disentangle the modality-relevant features and the modality-irrelevant features, we propose a novel Center-Quadruplet Causal (CQC) loss to encourage the network to effectively learn the modality-relevant features and the modality-irrelevant features. Extensive experiments are conducted to validate the superiority of our method on the challenging SYSU-MM01 and RegDB datasets. More remarkably, our method achieves 95.1% in terms of Rank-1 and 89.2% in terms of mAP on the RegDB dataset.
翻訳日:2023-03-28 18:28:39 公開日:2023-03-26
# ワイヤレス知覚によるAI生成デジタルコンテンツの誘導

Guiding AI-Generated Digital Content with Wireless Perception ( http://arxiv.org/abs/2303.14624v1 )

ライセンス: Link先を確認
Jiacheng Wang, Hongyang Du, Dusit Niyato, Zehui Xiong, Jiawen Kang, Shiwen Mao, and Xuemin (Sherman) Shen(参考訳) 人工知能(AI)の最近の進歩は、トレーニングデータの急増と相まって、デジタルコンテンツ生成にAIが広く使われるようになり、ChatGPTが代表的な例となっている。 効率と多様性の増大にもかかわらず、aiモデルの固有の不安定性は、これらのモデルをユーザに望ましいコンテンツを生み出すために導く上で、永続的な課題となる。 本稿では,AIGC(AIGC)と無線知覚(WP)を統合し,デジタルコンテンツ制作の品質向上のための統合されたWP-AIGCフレームワークを提案する。 このフレームワークは、単語の正確な記述が難しいユーザの姿勢を読み取るために、新しいマルチスケール認識技術を採用し、それをスケルトン画像としてAIGCモデルに送信する。 これらの画像とユーザのサービス要件に基づいて、AIGCモデルは対応するデジタルコンテンツを生成する。 生産プロセスはAIGCモデルの制約としてユーザの姿勢を強制するため、生成されたコンテンツはユーザの要求に適合する。 さらに、WP-AIGCはユーザのフィードバックを受け入れることができ、エッジサーバでのコンピューティングリソースの調整がサービス品質を改善することができる。 実験の結果、WP-AIGCフレームワークの有効性を検証するとともに、AIモデルをデジタルコンテンツの正確な生成に導く新しいアプローチとしての可能性を強調した。

Recent advances in artificial intelligence (AI), coupled with a surge in training data, have led to the widespread use of AI for digital content generation, with ChatGPT serving as a representative example. Despite the increased efficiency and diversity, the inherent instability of AI models poses a persistent challenge in guiding these models to produce the desired content for users. In this paper, we introduce an integration of wireless perception (WP) with AI-generated content (AIGC) and propose a unified WP-AIGC framework to improve the quality of digital content production. The framework employs a novel multi-scale perception technology to read user's posture, which is difficult to describe accurately in words, and transmits it to the AIGC model as skeleton images. Based on these images and user's service requirements, the AIGC model generates corresponding digital content. Since the production process imposes the user's posture as a constraint on the AIGC model, it makes the generated content more aligned with the user's requirements. Additionally, WP-AIGC can also accept user's feedback, allowing adjustment of computing resources at edge server to improve service quality. Experiments results verify the effectiveness of the WP-AIGC framework, highlighting its potential as a novel approach for guiding AI models in the accurate generation of digital content.
翻訳日:2023-03-28 18:28:06 公開日:2023-03-26
# 強化学習を伴わない逆強化学習

Inverse Reinforcement Learning without Reinforcement Learning ( http://arxiv.org/abs/2303.14623v1 )

ライセンス: Link先を確認
Gokul Swamy, Sanjiban Choudhury, J. Andrew Bagnell, Zhiwei Steven Wu(参考訳) 逆強化学習(Inverse Reinforcement Learning、IRL)は、専門家によるデモンストレーションを合理化する報酬関数の学習を目的とした、模倣学習のための強力なテクニックセットである。 残念なことに、従来のIRL法は計算の弱点に悩まされており、サブルーチンとしてハード強化学習(RL)問題を繰り返し解決する必要がある。 これは還元の観点から直観に反する:我々は、模倣学習の簡単な問題をrlのより難しい問題を反復的に解くまで削減した。 別の研究のスレッドは、強いポリシーが時間を費やす状態の分布のサイド情報へのアクセスは、RL問題を解く際のサンプルと計算の複雑さを劇的に減らすことを証明している。 本研究では,RLサブルーチンのグローバル探索成分を緩和し,理論上の指数的高速化を実現するために,専門家の状態分布を利用する,より情報に富んだ模倣学習の削減を初めて示す。 実際、継続的制御タスクの先行技術を大幅にスピードアップすることができることが分かりました。

Inverse Reinforcement Learning (IRL) is a powerful set of techniques for imitation learning that aims to learn a reward function that rationalizes expert demonstrations. Unfortunately, traditional IRL methods suffer from a computational weakness: they require repeatedly solving a hard reinforcement learning (RL) problem as a subroutine. This is counter-intuitive from the viewpoint of reductions: we have reduced the easier problem of imitation learning to repeatedly solving the harder problem of RL. Another thread of work has proved that access to the side-information of the distribution of states where a strong policy spends time can dramatically reduce the sample and computational complexities of solving an RL problem. In this work, we demonstrate for the first time a more informed imitation learning reduction where we utilize the state distribution of the expert to alleviate the global exploration component of the RL subroutine, providing an exponential speedup in theory. In practice, we find that we are able to significantly speed up the prior art on continuous control tasks.
翻訳日:2023-03-28 18:27:45 公開日:2023-03-26
# コヒーレント状態の位相符号化に基づく量子秘密共有実験

Experimental quantum secret sharing based on phase encoding of coherent states ( http://arxiv.org/abs/2303.14622v1 )

ライセンス: Link先を確認
Ao Shen, Xiao-Yu Cao, Yang Wang, Yao Fu, Jie Gu, Wen-Bo Liu, Chen-Xun Weng, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 量子鍵分布(QKD)のセキュリティは、現実的なデバイスと理論的な仮定の相違によって著しく脅かされている。 近年,モード依存によるサイドチャネル,トロイの木馬のアタック,パルス相関など,現在の技術における任意のソース欠陥に対するセキュリティを提供するために,参照手法と呼ばれる重要なフレームワークが提案されている。 そこで本研究では,レーザーパルスを用いた4相測定デバイス非依存QKDの安全性を示す基準手法を採用した。 本稿では,ソース欠陥の特徴と実験との接続,コヒーレント攻撃に対する有限鍵解析について述べる。 また,本プロトコルの有効性を実証実験により実証し,20dbチャネル損失を持つ253bpsのセキュアな鍵レートを実現する。 従来のQKDプロトコルと不完全なデバイスを比較すると、セキュア鍵レートと送信距離の両方が大幅に向上し、デバイス不完全なセキュアQKDの実用的展開における可能性を示す。

The security of quantum key distribution (QKD) is severely threatened by discrepancies between realistic devices and theoretical assumptions. Recently, a significant framework called the reference technique was proposed to provide security against arbitrary source flaws under current technology such as state preparation flaws, side channels caused by mode dependencies, the Trojan horse atttacks and pulse correlations. Here, we adopt the reference technique to prove security of an efficient four-phase measurement-device-independent QKD using laser pulses against potential source imperfections. We present a characterization of source flaws and connect them to experiments, together with a finite-key analysis against coherent attacks. In addition, we demonstrate the feasibility of our protocol through a proof-of-principle experimental implementation and achieve a secure key rate of 253 bps with a 20 dB channel loss. Compared with previous QKD protocols with imperfect devices, our study considerably improves both the secure key rate and the transmission distance, and shows application potential in the practical deployment of secure QKD with device imperfections.
翻訳日:2023-03-28 18:27:29 公開日:2023-03-26
# 不完全な構造因果モデルによる対物フェアネスの達成

Achieving Counterfactual Fairness with Imperfect Structural Causal Model ( http://arxiv.org/abs/2303.14665v1 )

ライセンス: Link先を確認
Tri Dung Duong, Qian Li, Guandong Xu(参考訳) 対実公正は、実際の世界(観測データ)における個人に対するモデル予測と、対実世界(つまり、個人が他の敏感なグループに属している場合)の間の差別を緩和する。 既存の研究では、反事実推論のための変数間の相関を捉える構造因果モデルを事前に定義する必要があるが、基礎となる因果モデルは通常不明であり、現実のシナリオでは検証が難しい。 さらに、因果モデルの誤特定は、モデル予測のパフォーマンス低下につながる可能性があり、不公平な決定をする。 本研究では, 構造因果モデルの強い仮定を緩和して, 対実的公正な結果が得られるような, 対実的公正性のための新しいミニマックスゲーム理論モデルを提案する。 さらに,提案したミニマックスモデルの誤差境界も理論的に証明する。 複数の実世界のデータセットにおける実証実験は、正確さと公平さの両方において、我々の優れたパフォーマンスを示している。 ソースコードは \url{https://github.com/tridungduong16/counterfactual_fairness_game_theoretic}で入手できる。

Counterfactual fairness alleviates the discrimination between the model prediction toward an individual in the actual world (observational data) and that in counterfactual world (i.e., what if the individual belongs to other sensitive groups). The existing studies need to pre-define the structural causal model that captures the correlations among variables for counterfactual inference; however, the underlying causal model is usually unknown and difficult to be validated in real-world scenarios. Moreover, the misspecification of the causal model potentially leads to poor performance in model prediction and thus makes unfair decisions. In this research, we propose a novel minimax game-theoretic model for counterfactual fairness that can produce accurate results meanwhile achieve a counterfactually fair decision with the relaxation of strong assumptions of structural causal models. In addition, we also theoretically prove the error bound of the proposed minimax model. Empirical experiments on multiple real-world datasets illustrate our superior performance in both accuracy and fairness. Source code is available at \url{https://github.com/tridungduong16/counterfactual_fairness_game_theoretic}.
翻訳日:2023-03-28 18:20:48 公開日:2023-03-26
# otavatar: コントロール可能な三面レンダリングを備えたワンショットトークフェイスアバター

OTAvatar: One-shot Talking Face Avatar with Controllable Tri-plane Rendering ( http://arxiv.org/abs/2303.14662v1 )

ライセンス: Link先を確認
Zhiyuan Ma, Xiangyu Zhu, Guojun Qi, Zhen Lei, Lei Zhang(参考訳) 制御性、一般化性、効率性は、ニューラル暗黙の場で表される顔アバターを構成する主要な目的である。 しかし,既存の手法では3つの要件を同時に満たすことはできなかった。 彼らは静的な肖像画に集中し、特定の主題に表現能力を制限するか、あるいはかなりの計算コストに悩まされ、柔軟性が制限される。 本稿では,顔アバターを汎用制御可能な3面描画ソリューションで構築し,顔アバターを1つのポートレートから構築できるワンショットトーキングフェイスアバター(OTAvatar)を提案する。 具体的には、OTAvatarはまず肖像画を動きのない識別コードに変換する。 次に、IDコードと動作コードを用いて効率の良いCNNを変調し、所望の動作で被写体を符号化する三面体定式ボリュームを生成する。 最後に、ボリュームレンダリングを使用して、任意のビューで画像を生成する。 私たちのソリューションの核心は、最適化ベースの反転によって潜在コード内のアイデンティティと動きを分離する、新しい逆変換戦略です。 効率の良いトリプレーン表現の恩恵を受け、a100上で35ドルのfpsで汎用顔アバターの制御可能なレンダリングを実現する。 実験では、トレーニングセット外の被験者に対するクロスアイデンティティ再現の有望な性能と3D一貫性が示された。

Controllability, generalizability and efficiency are the major objectives of constructing face avatars represented by neural implicit field. However, existing methods have not managed to accommodate the three requirements simultaneously. They either focus on static portraits, restricting the representation ability to a specific subject, or suffer from substantial computational cost, limiting their flexibility. In this paper, we propose One-shot Talking face Avatar (OTAvatar), which constructs face avatars by a generalized controllable tri-plane rendering solution so that each personalized avatar can be constructed from only one portrait as the reference. Specifically, OTAvatar first inverts a portrait image to a motion-free identity code. Second, the identity code and a motion code are utilized to modulate an efficient CNN to generate a tri-plane formulated volume, which encodes the subject in the desired motion. Finally, volume rendering is employed to generate an image in any view. The core of our solution is a novel decoupling-by-inverting strategy that disentangles identity and motion in the latent code via optimization-based inversion. Benefiting from the efficient tri-plane representation, we achieve controllable rendering of generalized face avatar at $35$ FPS on A100. Experiments show promising performance of cross-identity reenactment on subjects out of the training set and better 3D consistency.
翻訳日:2023-03-28 18:20:31 公開日:2023-03-26
# 学習アルゴリズムの一般化誤差に対する情報理論境界の厳密性について

On the tightness of information-theoretic bounds on generalization error of learning algorithms ( http://arxiv.org/abs/2303.14658v1 )

ライセンス: Link先を確認
Xuetong Wu, Jonathan H. Manton, Uwe Aickelin, Jingge Zhu(参考訳) russoとxuによって始められた最近の一連の研究は、学習アルゴリズムの一般化誤差が情報尺度によって上限を上回ることができることを示した。 関連するほとんどの研究において、期待される一般化誤差の収束率は$O(\sqrt{\lambda/n})$の形で、$\lambda$はデータと学習された仮説の間の相互情報や条件的相互情報のような情報理論的な量である。 しかし、このような学習率は、多くの学習シナリオで$o(\lambda/n)$の ``fast rate" と比較すると、一般的に ``slow" と見なされる。 本研究では,まず,正方根が必ずしも低速であるとは限らないことを示し,適切な仮定の下では,このバウンドを用いて高速速度結果が得られることを示す。 さらに,$(\eta,c)$-central条件と呼ばれる高速レート一般化エラーに必要な臨界条件を特定する。 この条件下では,経験的リスク最小化や正規化バージョンのような特定の学習アルゴリズムに対する収束速度が速い一般化誤差と過剰リスクに関する情報理論的な境界を与える。 最後に、境界の有効性を示すいくつかの分析例が与えられる。

A recent line of works, initiated by Russo and Xu, has shown that the generalization error of a learning algorithm can be upper bounded by information measures. In most of the relevant works, the convergence rate of the expected generalization error is in the form of $O(\sqrt{\lambda/n})$ where $\lambda$ is some information-theoretic quantities such as the mutual information or conditional mutual information between the data and the learned hypothesis. However, such a learning rate is typically considered to be ``slow", compared to a ``fast rate" of $O(\lambda/n)$ in many learning scenarios. In this work, we first show that the square root does not necessarily imply a slow rate, and a fast rate result can still be obtained using this bound under appropriate assumptions. Furthermore, we identify the critical conditions needed for the fast rate generalization error, which we call the $(\eta,c)$-central condition. Under this condition, we give information-theoretic bounds on the generalization error and excess risk, with a fast convergence rate for specific learning algorithms such as empirical risk minimization and its regularized version. Finally, several analytical examples are given to show the effectiveness of the bounds.
翻訳日:2023-03-28 18:20:08 公開日:2023-03-26
# GOAL: リアルタイムサッカー解説生成のための知識ベースビデオキャプションベンチマーク

GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation ( http://arxiv.org/abs/2303.14655v1 )

ライセンス: Link先を確認
Ji Qi, Jifan Yu, Teng Tu, Kunyu Gao, Yifan Xu, Xinyu Guan, Xiaozhi Wang, Yuxiao Dong, Bin Xu, Lei Hou, Juanzi Li, Jie Tang, Weidong Guo, Hui Liu, Yu Xu(参考訳) 近年のビデオキャプションモデルが出現したにも拘わらず、背景知識に基づく鮮明できめ細かなビデオ記述(すなわち、適切な推論を伴うドメイン固有のシーンについての長い情報的解説)をいかに生成するかはまだ未解決であり、自動スポーツ物語などの優れた応用例がある。 本稿では,8.9k 以上のサッカー映像クリップ,22k文,42k 知識トリプルのベンチマークを行い,新たな課題設定を知識ベースビデオキャプション (kgvc) として提案する。 さらに,既存の手法を実験的に適用して,この課題の解決の難しさと可能性を示す。

Despite the recent emergence of video captioning models, how to generate vivid, fine-grained video descriptions based on the background knowledge (i.e., long and informative commentary about the domain-specific scenes with appropriate reasoning) is still far from being solved, which however has great applications such as automatic sports narrative. In this paper, we present GOAL, a benchmark of over 8.9k soccer video clips, 22k sentences, and 42k knowledge triples for proposing a challenging new task setting as Knowledge-grounded Video Captioning (KGVC). Moreover, we conduct experimental adaption of existing methods to show the difficulty and potential directions for solving this valuable and applicable task.
翻訳日:2023-03-28 18:19:48 公開日:2023-03-26
# SDTracker: 合成データに基づくマルチオブジェクト追跡

SDTracker: Synthetic Data Based Multi-Object Tracking ( http://arxiv.org/abs/2303.14653v1 )

ライセンス: Link先を確認
Yingda Guan, Zhengyang Feng, Huiying Chang, Kuo Du, Tingting Li, Min Wang(参考訳) 本研究では,実世界のシーンのマルチオブジェクト追跡のための合成データのポテンシャルを,ドメイン一般化と半教師付き方式で活用する手法であるsdtrackerを提案する。 まず、画像Netデータセットを補助的に使用し、合成データのスタイルをランダム化する。 ドメイン外データでは、同じサンプルから異なる"スティル化"イメージ間でのピラミッドの整合性損失をさらに強制し、ドメイン不変性を学ぶ。 第2に、未ラベルのMOT17トレーニングデータを効果的に活用するために擬似ラベル方式を採用する。 高品質な擬似ラベルを得るために、各シーケンスの信頼しきい値の探索に近似ポリシー最適化(PPO2)アルゴリズムを適用する。 未ラベルのMOT17トレーニングセットと、開発後処理によってアップグレードされた純粋なモーショントラッキング戦略を組み合わせると、最終的に61.4HOTAに達する。

We present SDTracker, a method that harnesses the potential of synthetic data for multi-object tracking of real-world scenes in a domain generalization and semi-supervised fashion. First, we use the ImageNet dataset as an auxiliary to randomize the style of synthetic data. With out-of-domain data, we further enforce pyramid consistency loss across different "stylized" images from the same sample to learn domain invariant features. Second, we adopt the pseudo-labeling method to effectively utilize the unlabeled MOT17 training data. To obtain high-quality pseudo-labels, we apply proximal policy optimization (PPO2) algorithm to search confidence thresholds for each sequence. When using the unlabeled MOT17 training set, combined with the pure-motion tracking strategy upgraded via developed post-processing, we finally reach 61.4 HOTA.
翻訳日:2023-03-28 18:19:34 公開日:2023-03-26
# フラストショットセグメンテーションのための階層的密度相関蒸留法

Hierarchical Dense Correlation Distillation for Few-Shot Segmentation ( http://arxiv.org/abs/2303.14652v1 )

ライセンス: Link先を確認
Bohao Peng, Zhuotao Tian, Xiaoyang Wu, Chenyao Wang, Shu Liu, Jingyong Su, Jiaya Jia(参考訳) few-shot semantic segmentation (fss) は、わずか一握りのアノテーションでクラスに依存しないクラスをセグメンテーションすることを目的としている。 セマンティクスの特徴とプロトタイプ表現に限定された以前の手法では、粗いセグメンテーションの粒度と列車のセットオーバーフィッティングに苦しむ。 本研究では,トランスアーキテクチャに基づく階層型デカップリングマッチングネットワーク(HDMNet)マイニングピクセルレベルのサポート相関を設計する。 セルフアテンションモジュールは、クエリとサポート機能のカスケードマッチングを実現する手段として、階層的な密集した機能を確立するのに役立つ。 さらに,列車セットの過度適合を低減し,粗解からの意味対応を利用した相関蒸留を導入し,きめ細かなセグメンテーションを促進するためのマッチングモジュールを提案する。 我々の手法は実験で十分に機能する。 私たちは、coco~dataset one-shot設定で50.0\%$ miouと5-shotセグメンテーションで56.0\%$をそれぞれ達成しました。

Few-shot semantic segmentation (FSS) aims to form class-agnostic models segmenting unseen classes with only a handful of annotations. Previous methods limited to the semantic feature and prototype representation suffer from coarse segmentation granularity and train-set overfitting. In this work, we design Hierarchically Decoupled Matching Network (HDMNet) mining pixel-level support correlation based on the transformer architecture. The self-attention modules are used to assist in establishing hierarchical dense features, as a means to accomplish the cascade matching between query and support features. Moreover, we propose a matching module to reduce train-set overfitting and introduce correlation distillation leveraging semantic correspondence from coarse resolution to boost fine-grained segmentation. Our method performs decently in experiments. We achieve $50.0\%$ mIoU on \coco~dataset one-shot setting and $56.0\%$ on five-shot segmentation, respectively.
翻訳日:2023-03-28 18:19:19 公開日:2023-03-26
# 一度だけセグメンテーション:リアルタイムパノプティクスセグメンテーションを目指して

You Only Segment Once: Towards Real-Time Panoptic Segmentation ( http://arxiv.org/abs/2303.14651v1 )

ライセンス: Link先を確認
Jie Hu, Linyan Huang, Tianhe Ren, Shengchuan Zhang, Rongrong Ji, and Liujuan Cao(参考訳) 本稿では,リアルタイムのpanopticセグメンテーションフレームワークであるyosoを提案する。 YOSOは、並列カーネルとイメージ特徴マップ間の動的畳み込みを通じてマスクを予測し、インスタンスとセマンティックセグメンテーションの両方で1回だけセグメンテーションする必要がある。 計算オーバーヘッドを削減するために,特徴マップ抽出のための特徴ピラミッドアグリゲータと,panopticカーネル生成のための分離可能な動的デコーダを設計した。 アグリゲータは補間優先モジュールを畳み込み優先の方法で再パラメータ化し、追加コストなしでパイプラインを大幅に高速化する。 デコーダは分離可能な動的畳み込みを介してマルチヘッドクロスアテンションを実行し、効率と精度を向上させる。 我々の知る限りでは、YOSOは最先端のモデルと比較して競争力のあるパフォーマンスを提供する初めてのリアルタイム・パノプティクス・セグメンテーション・フレームワークです。 具体的には、46.4 pq、45.6 fps、52.5 pq、22.6 fps、38.0 pq、35.4 fps on ade20k、34.1 pq、7.1 fpsである。 コードはhttps://github.com/hujiecpp/YOSO.comで入手できる。

In this paper, we propose YOSO, a real-time panoptic segmentation framework. YOSO predicts masks via dynamic convolutions between panoptic kernels and image feature maps, in which you only need to segment once for both instance and semantic segmentation tasks. To reduce the computational overhead, we design a feature pyramid aggregator for the feature map extraction, and a separable dynamic decoder for the panoptic kernel generation. The aggregator re-parameterizes interpolation-first modules in a convolution-first way, which significantly speeds up the pipeline without any additional costs. The decoder performs multi-head cross-attention via separable dynamic convolution for better efficiency and accuracy. To the best of our knowledge, YOSO is the first real-time panoptic segmentation framework that delivers competitive performance compared to state-of-the-art models. Specifically, YOSO achieves 46.4 PQ, 45.6 FPS on COCO; 52.5 PQ, 22.6 FPS on Cityscapes; 38.0 PQ, 35.4 FPS on ADE20K; and 34.1 PQ, 7.1 FPS on Mapillary Vistas. Code is available at https://github.com/hujiecpp/YOSO.
翻訳日:2023-03-28 18:19:05 公開日:2023-03-26
# Farspredict: リンク予測のためのベンチマークデータセット

Farspredict: A benchmark dataset for link prediction ( http://arxiv.org/abs/2303.14647v1 )

ライセンス: Link先を確認
Najmeh Torabian, Behrouz Minaei-Bidgoli and Mohsen Jahanshahi(参考訳) 知識グラフ埋め込み(KGE)によるリンク予測は知識グラフ補完の一般的な方法である。 さらに、非英語知識グラフの学習kgsは、これらの言語の文脈における知識抽出と知識グラフ推論を促進する。 しかし、非英語KGEにおける多くの課題は知識グラフの実体と関係の低次元表現を学習するのに役立つ。 本稿ではFarsbase(ペルシア語で最も包括的な知識グラフ)に基づくペルシアの知識グラフ「ファース予測」を提案する。 また、知識グラフ構造がKGEのリンク予測精度にどのように影響するかを説明する。 Farspredictを評価するために、KGEの一般的なモデルを実装し、結果をFreebaseと比較した。 解析結果から,知識グラフの最適化により,KGEの機能向上が図られている。 その結果、新たなペルシャ知識グラフが達成された。 Farspredict 上の KGE モデルの実装はフリーベースよりも優れていることが多い。 最後に,farspredictの品質向上に有効な改善点と,その改善点について論じる。

Link prediction with knowledge graph embedding (KGE) is a popular method for knowledge graph completion. Furthermore, training KGEs on non-English knowledge graph promote knowledge extraction and knowledge graph reasoning in the context of these languages. However, many challenges in non-English KGEs pose to learning a low-dimensional representation of a knowledge graph's entities and relations. This paper proposes "Farspredict" a Persian knowledge graph based on Farsbase (the most comprehensive knowledge graph in Persian). It also explains how the knowledge graph structure affects link prediction accuracy in KGE. To evaluate Farspredict, we implemented the popular models of KGE on it and compared the results with Freebase. Given the analysis results, some optimizations on the knowledge graph are carried out to improve its functionality in the KGE. As a result, a new Persian knowledge graph is achieved. Implementation results in the KGE models on Farspredict outperforming Freebases in many cases. At last, we discuss what improvements could be effective in enhancing the quality of Farspredict and how much it improves.
翻訳日:2023-03-28 18:18:40 公開日:2023-03-26
# 機械学習による配車計画に関する研究

A Survey of Machine Learning-Based Ride-Hailing Planning ( http://arxiv.org/abs/2303.14646v1 )

ライセンス: Link先を確認
Dacheng Wen, Yupeng Li, Francis C.M. Lau(参考訳) ライドハイリング(Ride-hailing)は、携帯電話アプリケーションを通じてドアツードアの旅行サービスにアクセスするための持続可能な輸送パラダイムである。 配車システムには2つの主要な計画課題がある:(1)配車サービスの需要と需要のバランスをとるために、乗客を乗せるために利用可能な車両を割り当てる、(2)特定の場所に積極的に移動させる、の2つである。 近年,機械学習を利用した配車計画の研究が数多く行われている。 本稿では,機械学習に基づく配車計画の最新動向について概観する。 本報告では, 集合的マッチング, 分散的マッチング, 集合的再配置, 分散的再配置, 共同的マッチングと再配置を含む, それらの計画課題と解法の種類に応じて, 関連作業の異なるカテゴリを慎重に適合させる分類法を提案する。 我々はさらに、機械学習に基づく配車計画戦略の実証研究に欠かせない、多くの現実世界のデータセットとシミュレータに光を当てた。 最後に、この急速に成長している研究・実践分野に有望な研究の方向性をいくつか提案する。

Ride-hailing is a sustainable transportation paradigm where riders access door-to-door traveling services through a mobile phone application, which has attracted a colossal amount of usage. There are two major planning tasks in a ride-hailing system: (1) matching, i.e., assigning available vehicles to pick up the riders, and (2) repositioning, i.e., proactively relocating vehicles to certain locations to balance the supply and demand of ride-hailing services. Recently, many studies of ride-hailing planning that leverage machine learning techniques have emerged. In this article, we present a comprehensive overview on latest developments of machine learning-based ride-hailing planning. To offer a clear and structured review, we introduce a taxonomy into which we carefully fit the different categories of related works according to the types of their planning tasks and solution schemes, which include collective matching, distributed matching, collective repositioning, distributed repositioning, and joint matching and repositioning. We further shed light on many real-world datasets and simulators that are indispensable for empirical studies on machine learning-based ride-hailing planning strategies. At last, we propose several promising research directions for this rapidly growing research and practical field.
翻訳日:2023-03-28 18:18:26 公開日:2023-03-26
# セクタパッチ埋め込み:魚眼画像の歪みパターンに準拠した埋め込みモジュール

Sector Patch Embedding: An Embedding Module Conforming to The Distortion Pattern of Fisheye Image ( http://arxiv.org/abs/2303.14645v1 )

ライセンス: Link先を確認
Dianyi Yang, Jiadong Tang, Yu Gao, Yi Yang, Mengyin Fu(参考訳) 魚眼カメラは大きな視野(LFOV)を持ちながら画像歪みに悩まされる。 そしてこの事実は、魚眼視力のタスクにおけるパフォーマンスの低下につながります。 解決策の1つは、現在の魚眼画像の視覚アルゴリズムを最適化することである。 しかし、cnn法やトランスフォーマー法の多くは、歪み情報を効率的に活用する能力に欠ける。 本研究では,魚眼画像の歪みパターンに応じて,セクタパッチ埋め込み(SPE)と呼ばれる新しいパッチ埋め込み手法を提案する。 さらに、ImageNet-1Kに基づく合成魚眼データセットを作成し、データセット上でのトランスフォーマーモデルの性能について検討した。 ViTとPVTの分類トップ1の精度は、それぞれ0.75%と2.8%向上している。 実験の結果,提案手法は魚眼画像の歪みを知覚し,特徴を抽出するのに役立つことがわかった。 本手法は他のトランスフォーマーモデルにも容易に適用できる。 ソースコードはhttps://github.com/IN2-ViAUn/Sector-Patch-Embeddingにある。

Fisheye cameras suffer from image distortion while having a large field of view(LFOV). And this fact leads to poor performance on some fisheye vision tasks. One of the solutions is to optimize the current vision algorithm for fisheye images. However, most of the CNN-based methods and the Transformer-based methods lack the capability of leveraging distortion information efficiently. In this work, we propose a novel patch embedding method called Sector Patch Embedding(SPE), conforming to the distortion pattern of the fisheye image. Furthermore, we put forward a synthetic fisheye dataset based on the ImageNet-1K and explore the performance of several Transformer models on the dataset. The classification top-1 accuracy of ViT and PVT is improved by 0.75% and 2.8% with SPE respectively. The experiments show that the proposed sector patch embedding method can better perceive distortion and extract features on the fisheye images. Our method can be easily adopted to other Transformer-based models. Source code is at https://github.com/IN2-ViAUn/Sector-Patch-Embedding.
翻訳日:2023-03-28 18:17:53 公開日:2023-03-26
# 乳児期臨床監視・評価のためのモバイルソリューション -一般運動アプリ-

Mobile solutions for clinical surveillance and evaluation in infancy -- General Movement Apps ( http://arxiv.org/abs/2303.14699v1 )

ライセンス: Link先を確認
Peter B Marschik, Amanda KL Kwong, Nelson Silva, Joy E Olsen, Martin Schulte-Ruether, Sven Bolte, Maria Ortqvist, Abbey Eeles, Luise Poustka, Christa Einspieler, Karin Nielsen-Saines, Dajie Zhang, Alicia J Spittle(参考訳) プレヒト・ジェネラル・ムーブメント・アセスメント (Prechtl General Movements Assessment, GMA) は、幼児期の神経発達を評価するための臨床および研究者用ツールボックスとなっている。 ビデオ録画から幼児の動きを観察することを考えると、これらの記録を得るためにスマートフォンアプリケーションを活用することは、この分野の自然な進歩のようだ。 本稿では,一般移動ビデオ取得のためのアプリの開発を振り返り,利用可能なアプリの応用と研究について述べ,モバイルソリューションの今後の方向性と研究と臨床実践におけるユーザビリティについて論じる。 我々は、これらの発展につながった背景を理解することの重要性を強調し、経路に沿った障壁やファシリテータを含む新しい技術を導入する。 GMAppとBaby Moves Appは、GMAのアクセシビリティを高めるために開発された最初のアプリで、NeuroMotionとInMotionという2つのアプリがその後デザインされた。 Baby Movesアプリが最も頻繁に利用されている。 GMAのモバイル化に向けて,フィールドの進展を加速し,研究廃棄物を減らすための協力を提唱する。 本稿では,クロスサイトデータ収集の標準化,ローカルコンテキストとプライバシ法への適応,ユーザフィードバックの活用,継続的なソフトウェア更新を可能にする持続可能なIT構造など,今後のコラボレーションソリューションを提案する。

The Prechtl General Movements Assessment (GMA) has become a clinician and researcher tool-box for evaluating neurodevelopment in early infancy. Given it involves observation of infant movements from video recordings, utilising smartphone applications to obtain these recordings seems like the natural progression for the field. In this review, we look back on the development of apps for acquiring general movement videos, describe the application and research studies of available apps, and discuss future directions of mobile solutions and their usability in research and clinical practice. We emphasise the importance of understanding the background that has led to these developments while introducing new technologies, including the barriers and facilitators along the pathway. The GMApp and Baby Moves App were the first ones developed to increase accessibility of the GMA, with two further apps, NeuroMotion and InMotion, designed since. The Baby Moves app has been applied most frequently. For the mobile future of GMA, we advocate collaboration to boost the field's progression and to reduce research waste. We propose future collaborative solutions including standardisation of cross-sites data collection, adaption to local context and privacy laws, employment of user feedback, and sustainable IT structures enabling continuous software updating.
翻訳日:2023-03-28 18:11:41 公開日:2023-03-26
# 大容量持続バーコードに対する安定性定理

A stability theorem for bigraded persistence barcodes ( http://arxiv.org/abs/2303.14694v1 )

ライセンス: Link先を確認
Anthony Bahri, Ivan Limonchenko, Taras Panov, Jongbaek Song and Donald Stanley(参考訳) 我々は,有限擬距離空間 x のbigraded 持続ホモロジー加群とbigraded barcodes を,x のvietoris-rips 濾過に付随するモーメントアングル複体の通常のホモロジーと二重ホモロジーを用いて定義する。

We define the bigraded persistent homology modules and the bigraded barcodes of a finite pseudo-metric space X using the ordinary and double homology of the moment-angle complex associated with the Vietoris-Rips filtration of X. We prove the stability theorem for the bigraded persistent double homology modules and barcodes.
翻訳日:2023-03-28 18:11:19 公開日:2023-03-26
# 強化学習によるロボットパッケージング最適化

Robotic Packaging Optimization with Reinforcement Learning ( http://arxiv.org/abs/2303.14693v1 )

ライセンス: Link先を確認
Eveline Drijver, Rodrigo P\'erez-Dattari, Jens Kober, Cosimo Della Santina and Zlatan Ajanovi\'c(参考訳) 廃棄物やリードタイムを最小化しながら生産性と柔軟性を最大化する需要が高まっているため、インテリジェント製造の重要性が高まっている。 本研究は,コンベアベルトから容器に食品を輸送する自動二次ロボット食品包装ソリューションについて検討する。 これらのソリューションの大きな問題は、大幅な生産性低下を引き起こす可能性のある製品供給の変化である。 この問題に対処するために使用される従来のルールベースのアプローチは、しばしば不十分であり、業界の要求に違反する。 一方、強化学習は、経験に基づいて応答性と予測ポリシーを学習することで、この問題を解決する可能性を秘めている。 しかし,高度に複雑な制御方式では利用が困難である。 本稿では,コンベアベルトの速度を最適化し,制御系の他の部分との干渉を最小限に抑えた強化学習フレームワークを提案する。 実世界のデータでテストすると、このフレームワークはパフォーマンス要件(99.8%の製品)を超え、品質(100%の箱)を維持している。 既存のソリューションと比較して,提案フレームワークは生産性を向上し,よりスムーズに制御でき,計算時間を短縮できる。

Intelligent manufacturing is becoming increasingly important due to the growing demand for maximizing productivity and flexibility while minimizing waste and lead times. This work investigates automated secondary robotic food packaging solutions that transfer food products from the conveyor belt into containers. A major problem in these solutions is varying product supply which can cause drastic productivity drops. Conventional rule-based approaches, used to address this issue, are often inadequate, leading to violation of the industry's requirements. Reinforcement learning, on the other hand, has the potential of solving this problem by learning responsive and predictive policy, based on experience. However, it is challenging to utilize it in highly complex control schemes. In this paper, we propose a reinforcement learning framework, designed to optimize the conveyor belt speed while minimizing interference with the rest of the control system. When tested on real-world data, the framework exceeds the performance requirements (99.8% packed products) and maintains quality (100% filled boxes). Compared to the existing solution, our proposed framework improves productivity, has smoother control, and reduces computation time.
翻訳日:2023-03-28 18:11:12 公開日:2023-03-26
# 実用的な量子鍵分布のセキュリティに対する光注入の効果

Effect of light injection on the security of practical quantum key distribution ( http://arxiv.org/abs/2303.14683v1 )

ライセンス: Link先を確認
Liying Han, Yang Li, Hao Tan, Weiyang Zhang, Wenqi Cai, Juan Yin, Jigang Ren, Feihu Xu, Shengkai Liao, Chengzhi Peng(参考訳) 量子物理学の基本法則に基づく量子鍵分布(QKD)は、遠隔ユーザー間で安全な鍵の分配を可能にする。 しかし、現実的なデバイスにおける不完全性は潜在的なセキュリティリスクを引き起こす可能性があり、実際的なセキュリティ分析において正確に特徴づけられ、考慮されなければならない。 実用的なQKDシステムのコアコンポーネントの1つである高速光変調器は、必要な量子状態の準備に使用できる。 ここでは、位相変調器や強度変調器を含むLiNbO3に基づく光変調器は、外部光照射による光屈折効果に弱いことが分かる。 外部光のパワーを変えることで、盗聴者は準備された状態の強度を制御でき、QKDのセキュリティに潜在的な脅威をもたらす。 我々は,LiNbO3系光変調器に対する光照射の影響を実験的に検証し,グリーン光照射攻撃によるセキュリティリスクとその対策について検討した。

Quantum key distribution (QKD) based on the fundamental laws of quantum physics can allow the distribution of secure keys between distant users. However, the imperfections in realistic devices may lead to potential security risks, which must be accurately characterized and considered in practical security analysis. High-speed optical modulators, being as one of the core components of practical QKD systems, can be used to prepare the required quantum states. Here, we find that optical modulators based on LiNbO3, including phase modulators and intensity modulators, are vulnerable to photorefractive effect caused by external light injection. By changing the power of external light, eavesdroppers can control the intensities of the prepared states, posing a potential threat to the security of QKD. We have experimentally demonstrated the influence of light injection on LiNbO3-based optical modulators and analyzed the security risks caused by the potential green light injection attack, along with the corresponding countermeasures.
翻訳日:2023-03-28 18:10:55 公開日:2023-03-26
# オブジェクト中心画像生成のためのリレーショナルインダクティブビアーゼ

Relational Inductive Biases for Object-Centric Image Generation ( http://arxiv.org/abs/2303.14681v1 )

ライセンス: Link先を確認
Luca Butera, Andrea Cini, Alberto Ferrante, Cesare Alippi(参考訳) 所望の出力の特定の特徴に基づく条件付き画像生成は、現代の生成モデルの主要な要素である。 既存のアプローチのほとんどはフリーフォームテキストに基づく生成条件付けに焦点を当てているが、一部のニッチ研究では画像の内容を記述するためにシーングラフを使用している。 本稿では,オブジェクト中心関係表現に基づく画像生成を条件づける新しい手法について検討する。 特に,その構造と関連するスタイルを表す属性グラフ上の画像に,特定のオブジェクトの生成を条件付ける手法を提案する。 このようなアーキテクチャバイアスは、生成プロセスの操作と条件付けを容易にする特性を伴い、トレーニング手順の定期化を可能にする。 提案フレームワークは,基礎となるグラフと出力画像となる2dグリッドの両方で動作する畳み込み演算子を組み合わせたニューラルネットワークアーキテクチャによって実装されている。 結果として得られたモデルは、下流生成タスクにおけるソフトインダクティブバイアスとして使用できるオブジェクトのマルチチャネルマスクを生成することを学ぶ。 実験の結果,提案手法は,人間のポーズを条件とした画像生成のベースラインと好適に比較できることがわかった。

Conditioning image generation on specific features of the desired output is a key ingredient of modern generative models. Most existing approaches focus on conditioning the generation based on free-form text, while some niche studies use scene graphs to describe the content of the image to be generated. This paper explores novel methods to condition image generation that are based on object-centric relational representations. In particular, we propose a methodology to condition the generation of a particular object in an image on the attributed graph representing its structure and associated style. We show that such architectural biases entail properties that facilitate the manipulation and conditioning of the generative process and allow for regularizing the training procedure. The proposed framework is implemented by means of a neural network architecture combining convolutional operators that operate on both the underlying graph and the 2D grid that becomes the output image. The resulting model learns to generate multi-channel masks of the object that can be used as a soft inductive bias in the downstream generative task. Empirical results show that the proposed approach compares favorably against relevant baselines on image generation conditioned on human poses.
翻訳日:2023-03-28 18:10:40 公開日:2023-03-26
# ZBS: インスタンスレベルの背景モデリングと前景選択によるゼロショット背景サブトラクション

ZBS: Zero-shot Background Subtraction via Instance-level Background Modeling and Foreground Selection ( http://arxiv.org/abs/2303.14679v1 )

ライセンス: Link先を確認
Yongqi An, Xu Zhao, Tao Yu, Haiyun Guo, Chaoyang Zhao, Ming Tang, Jinqiao Wang(参考訳) 背景サブトラクション(BGS)は、ビデオフレーム内のすべての移動物体を抽出し、二元前景セグメンテーションマスクを得る。 ディープラーニングはこの分野で広く使われている。 教師なしBGS法と比較すると、教師なしBGS法はより一般化されている。 しかし、従来の教師なしのディープラーニングbgsアルゴリズムは、シャドウやナイトライトのような高度なシナリオでは性能が悪く、事前に定義されたカテゴリ外のオブジェクトを検出できない。 本研究ではゼロショット背景抽出(ZBS)と呼ばれるゼロショット物体検出に基づく教師なしBGSアルゴリズムを提案する。 提案手法は、ゼロショットオブジェクト検出の利点をフル活用して、オープン語彙のインスタンスレベルの背景モデルを構築する。 これにより、新しいフレームの検出結果と背景モデルを比較することにより、前景を効果的に抽出することができる。 ZBSは洗練されたシナリオでうまく機能し、リッチで拡張可能なカテゴリを持つ。 さらに,未確認環境におけるオブジェクト検出の放棄など,他のタスクにも容易に一般化できる。 実験により、ZBSは、CDnet 2014データセット上で、最先端の教師なしBGSメソッドを4.70%のF-Measureで超えることを示した。 コードはhttps://github.com/CASIA-IVA-Lab/ZBSで公開されている。

Background subtraction (BGS) aims to extract all moving objects in the video frames to obtain binary foreground segmentation masks. Deep learning has been widely used in this field. Compared with supervised-based BGS methods, unsupervised methods have better generalization. However, previous unsupervised deep learning BGS algorithms perform poorly in sophisticated scenarios such as shadows or night lights, and they cannot detect objects outside the pre-defined categories. In this work, we propose an unsupervised BGS algorithm based on zero-shot object detection called Zero-shot Background Subtraction (ZBS). The proposed method fully utilizes the advantages of zero-shot object detection to build the open-vocabulary instance-level background model. Based on it, the foreground can be effectively extracted by comparing the detection results of new frames with the background model. ZBS performs well for sophisticated scenarios, and it has rich and extensible categories. Furthermore, our method can easily generalize to other tasks, such as abandoned object detection in unseen environments. We experimentally show that ZBS surpasses state-of-the-art unsupervised BGS methods by 4.70% F-Measure on the CDnet 2014 dataset. The code is released at https://github.com/CASIA-IVA-Lab/ZBS.
翻訳日:2023-03-28 18:10:22 公開日:2023-03-26
# PDPP:教育ビデオにおけるプロシージャ計画のための拡散計画

PDPP:Projected Diffusion for Procedure Planning in Instructional Videos ( http://arxiv.org/abs/2303.14676v1 )

ライセンス: Link先を確認
Hanlin Wang, Yilu Wu, Sheng Guo, Limin Wang(参考訳) 本稿では,非構造化映像における現状の視覚的観察から目標指向の計画を作成することを目的とした,指導ビデオにおける手順計画の問題について検討する。 以前の研究は、この問題をシーケンス計画問題として位置づけ、重い中間視覚観察または自然言語指示を監督として活用し、複雑な学習スキームと高価なアノテーションコストを生み出した。 対照的に,この問題は分布適合問題として扱われる。 この意味では, 拡散モデル(pdpp)を用いて, 中間動作列分布全体をモデル化し, この分布から計画問題をサンプリングプロセスに変換する。 さらに,コストのかかる中間監督を除去し,代わりに指導ビデオからのタスクラベルを監督として使用する。 我々のモデルはU-Netに基づく拡散モデルであり、学習した分布からのアクションシーケンスを与えられた開始と終了の観測で直接サンプリングする。 さらに,学習およびサンプリング過程において,モデルに対して正確な条件付きガイドを提供するための効率的なプロジェクション手法を適用した。 異なるスケールの3つのデータセットで実験したところ、PDPPモデルはタスクの監督なしに複数のメトリクスで最先端のパフォーマンスを達成できることがわかった。 コードとトレーニングされたモデルはhttps://github.com/MCG-NJU/PDPPで入手できる。

In this paper, we study the problem of procedure planning in instructional videos, which aims to make goal-directed plans given the current visual observations in unstructured real-life videos. Previous works cast this problem as a sequence planning problem and leverage either heavy intermediate visual observations or natural language instructions as supervision, resulting in complex learning schemes and expensive annotation costs. In contrast, we treat this problem as a distribution fitting problem. In this sense, we model the whole intermediate action sequence distribution with a diffusion model (PDPP), and thus transform the planning problem to a sampling process from this distribution. In addition, we remove the expensive intermediate supervision, and simply use task labels from instructional videos as supervision instead. Our model is a U-Net based diffusion model, which directly samples action sequences from the learned distribution with the given start and end observations. Furthermore, we apply an efficient projection method to provide accurate conditional guides for our model during the learning and sampling process. Experiments on three datasets with different scales show that our PDPP model can achieve the state-of-the-art performance on multiple metrics, even without the task supervision. Code and trained models are available at https://github.com/MCG-NJU/PDPP.
翻訳日:2023-03-28 18:10:03 公開日:2023-03-26
# sat2密度:衛星画像対からの忠実密度学習

Sat2Density: Faithful Density Learning from Satellite-Ground Image Pairs ( http://arxiv.org/abs/2303.14672v1 )

ライセンス: Link先を確認
Ming Qian, Jincheng Xiong, Gui-Song Xia, Nan Xue(参考訳) 本稿では,衛星画像対を用いた衛星画像の正確な3次元形状表現を開発することを目的とする。 衛星画像から地上パノラマ画像を生成するという課題に焦点をあてている。 ボリュームトリクスのニューラルレンダリングで用いられる密度場表現から着想を得て,sat2densityと呼ばれる新しいアプローチを提案する。 本手法は,3次元シーンの忠実な密度場を幾何学的に学習するために,地上パノラマの特性を利用した。 トレーニング中に余分な3D情報を必要とする他の方法とは異なり、Sat2Densityは2Dのみの監視から密度表現を通じて、正確で忠実な3D形状を自動的に学習することができる。 この進歩は、地上視パノラマ合成タスクを大幅に改善する。 さらに,3次元空間における衛星画像と地上画像の関係を理解するための新しい幾何学的視点を提案する。

This paper aims to develop an accurate 3D geometry representation of satellite images using satellite-ground image pairs. Our focus is on the challenging problem of generating ground-view panoramas from satellite images. We draw inspiration from the density field representation used in volumetric neural rendering and propose a new approach, called Sat2Density. Our method utilizes the properties of ground-view panoramas for the sky and non-sky regions to learn faithful density fields of 3D scenes in a geometric perspective. Unlike other methods that require extra 3D information during training, our Sat2Density can automatically learn the accurate and faithful 3D geometry via density representation from 2D-only supervision. This advancement significantly improves the ground-view panorama synthesis task. Additionally, our study provides a new geometric perspective to understand the relationship between satellite and ground-view images in 3D space.
翻訳日:2023-03-28 18:09:42 公開日:2023-03-26
# ceflow:正規化フローを用いた表データのためのロバストで効率的な反事実説明フレームワーク

CeFlow: A Robust and Efficient Counterfactual Explanation Framework for Tabular Data using Normalizing Flows ( http://arxiv.org/abs/2303.14668v1 )

ライセンス: Link先を確認
Tri Dung Duong, Qian Li, Guandong Xu(参考訳) 対実的説明は、望ましい結果を得るためにサンプルの摂動を生成する解釈可能な機械学習の一形態である。 生成されたサンプルは、サンプルを変更することで、エンドユーザに望ましい結果の観察方法を案内するインストラクションとして機能する。 可変オートエンコーダ (VAE) を用いて実現可能な改善を実現する手法が提案されているが, 2つの大きな限界がある。 1) 反事実生成が禁止的に遅いため,アルゴリズムがインタラクティブな環境にデプロイされることが防止される。 2) 逆実説明アルゴリズムは, 変分オートエンコーダのサンプリング手順におけるランダム性による不安定な結果を生成する。 本研究では、上記の制約に対処するため、連続的および分類的特徴の混合型に対して正規化フローを利用する堅牢で効率的な対実的説明フレームワークであるCeFlowを設計する。 数値実験により,本手法は最先端手法と良好に比較できることが示された。 ソースはhttps://github.com/tridungduong16/fairce.gitで公開しています。

Counterfactual explanation is a form of interpretable machine learning that generates perturbations on a sample to achieve the desired outcome. The generated samples can act as instructions to guide end users on how to observe the desired results by altering samples. Although state-of-the-art counterfactual explanation methods are proposed to use variational autoencoder (VAE) to achieve promising improvements, they suffer from two major limitations: 1) the counterfactuals generation is prohibitively slow, which prevents algorithms from being deployed in interactive environments; 2) the counterfactual explanation algorithms produce unstable results due to the randomness in the sampling procedure of variational autoencoder. In this work, to address the above limitations, we design a robust and efficient counterfactual explanation framework, namely CeFlow, which utilizes normalizing flows for the mixed-type of continuous and categorical features. Numerical experiments demonstrate that our technique compares favorably to state-of-the-art methods. We release our source at https://github.com/tridungduong16/fairCE.git for reproducing the results.
翻訳日:2023-03-28 18:09:28 公開日:2023-03-26
# 一般化問題:効率的なオンライン知識蒸留のためのパラメータハイブリダイゼーションによる損失最小化

Generalization Matters: Loss Minima Flattening via Parameter Hybridization for Efficient Online Knowledge Distillation ( http://arxiv.org/abs/2303.14666v1 )

ライセンス: Link先を確認
Tianli Zhang, Mengqi Xue, Jiangtao Zhang, Haofei Zhang, Yu Wang, Lechao Cheng, Jie Song and Mingli Song(参考訳) 既存のオンライン知識蒸留(OKD)技術の多くは、学生の一般化能力を改善するために様々な知識を生み出すために洗練されたモジュールを必要とする。 本稿では,よく設計されたモジュールの代わりにマルチモデル設定を十分に活用して,高い一般化性能を有する蒸留効果を実現する。 一般に、モデル一般化は損失景観の平坦さに反映することができる。 複数のモデルのパラメータ平均化はより平坦な最小値を見つけることができるため、okd のマルチスチューデントモデルのサンプル凸結合にプロセスを拡張できることに着想を得た。 具体的には,各学習バッチで学生のパラメータを線形に重み付けすることにより,学生を取り巻くパラメータを表現するハイブリッドウェイトモデル(HWM)を構築する。 HWMの監督的損失は、学生の周囲の風景の曲率を推定し、一般化を明示的に測定することができる。 そこで,HWMの損失を学生のトレーニングに統合し,パラメータハイブリダイゼーション(OKDPH)による新しいOKDフレームワークを提案する。 パラメータの冗長性を考慮するとhwmが崩壊する可能性があり、さらに学生の類似性を高めるために融合操作を導入する。 平坦な最小値を求めるSOTA(State-of-the-art(SOTA) OKD法やSOTA(SOTA)法と比較すると,より少ないパラメータで高い性能を実現し,軽量でロバストな特性を持つOKDの恩恵を受けることができる。 私たちのコードはhttps://github.com/tianlizhang/OKDPHで公開されています。

Most existing online knowledge distillation(OKD) techniques typically require sophisticated modules to produce diverse knowledge for improving students' generalization ability. In this paper, we strive to fully utilize multi-model settings instead of well-designed modules to achieve a distillation effect with excellent generalization performance. Generally, model generalization can be reflected in the flatness of the loss landscape. Since averaging parameters of multiple models can find flatter minima, we are inspired to extend the process to the sampled convex combinations of multi-student models in OKD. Specifically, by linearly weighting students' parameters in each training batch, we construct a Hybrid-Weight Model(HWM) to represent the parameters surrounding involved students. The supervision loss of HWM can estimate the landscape's curvature of the whole region around students to measure the generalization explicitly. Hence we integrate HWM's loss into students' training and propose a novel OKD framework via parameter hybridization(OKDPH) to promote flatter minima and obtain robust solutions. Considering the redundancy of parameters could lead to the collapse of HWM, we further introduce a fusion operation to keep the high similarity of students. Compared to the state-of-the-art(SOTA) OKD methods and SOTA methods of seeking flat minima, our OKDPH achieves higher performance with fewer parameters, benefiting OKD with lightweight and robust characteristics. Our code is publicly available at https://github.com/tianlizhang/OKDPH.
翻訳日:2023-03-28 18:09:01 公開日:2023-03-26
# celebv-text:大規模顔テキストビデオデータセット

CelebV-Text: A Large-Scale Facial Text-Video Dataset ( http://arxiv.org/abs/2303.14717v1 )

ライセンス: Link先を確認
Jianhui Yu, Hao Zhu, Liming Jiang, Chen Change Loy, Weidong Cai, Wayne Wu(参考訳) テキスト駆動生成モデルはビデオ生成と編集で栄えている。 しかし、高品質なビデオや関連性の高いテキストを含む適切なデータセットがないため、顔中心のテキスト対ビデオ生成は依然として課題である。 本稿では,顔テキスト対ビデオ生成タスクの研究を容易にするために,顔テキスト対ビデオペアの大規模,多様,高品質なデータセットであるcelebv-textを提案する。 CelebV-Textは、7万本の顔ビデオクリップと多様なビジュアルコンテンツで構成され、それぞれに半自動テキスト生成戦略を用いて生成された20のテキストをペアリングする。 提供されるテキストは高品質で、静的属性と動的属性の両方を正確に記述する。 celebv-textが他のデータセットよりも優れていることは、ビデオ、テキスト、テキストビデオの包括的な統計分析を通じて証明される。 celebv-textの有効性とポテンシャルは、広範な自己評価を通じてさらに示される。 顔テキスト対ビデオ生成タスクの評価を標準化する代表的な手法を用いて、ベンチマークを構築する。 すべてのデータとモデルが公開されている。

Text-driven generation models are flourishing in video generation and editing. However, face-centric text-to-video generation remains a challenge due to the lack of a suitable dataset containing high-quality videos and highly relevant texts. This paper presents CelebV-Text, a large-scale, diverse, and high-quality dataset of facial text-video pairs, to facilitate research on facial text-to-video generation tasks. CelebV-Text comprises 70,000 in-the-wild face video clips with diverse visual content, each paired with 20 texts generated using the proposed semi-automatic text generation strategy. The provided texts are of high quality, describing both static and dynamic attributes precisely. The superiority of CelebV-Text over other datasets is demonstrated via comprehensive statistical analysis of the videos, texts, and text-video relevance. The effectiveness and potential of CelebV-Text are further shown through extensive self-evaluation. A benchmark is constructed with representative methods to standardize the evaluation of the facial text-to-video generation task. All data and models are publicly available.
翻訳日:2023-03-28 18:02:19 公開日:2023-03-26
# 不確実性に基づくオフライン強化学習におけるバランスポリシ制約とアンサンブルサイズ

Balancing policy constraint and ensemble size in uncertainty-based offline reinforcement learning ( http://arxiv.org/abs/2303.14716v1 )

ライセンス: Link先を確認
Alex Beeson and Giovanni Montana(参考訳) オフライン強化学習エージェントは、固定データセットから最適なポリシーを求める。 環境相互作用が禁止されているため、エージェントは価値見積の誤りを複雑化から防ぎ、学習過程を崩壊させるという重大な課題に直面した。 アンサンブルを用いた不確実性推定は、高分散値推定を解析することにより、データ駆動アクションに基づいて堅牢なポリシーを学ぶことができる。 しかし、十分なペナルティ化を容易にするための大規模なアンサンブルの必要性は、かなりの計算オーバーヘッドをもたらす。 本研究では,不確実性を規制するメカニズムとしての政策制約の役割と,制約レベルとアンサンブルサイズの間のバランスについて検討する。 ポリシー更新に行動クローンを組み込むことにより,ベンチマークタスクにおける最先端性能を維持しつつ,計算要求を大幅に低減し,はるかに小さなアンサンブルサイズで十分なペナル化が達成できることを実証的に示す。 さらに、このような手法がオンラインの微調整を安定させ、厳格な性能低下を回避しつつ、継続的な政策改善を可能にする方法を示す。

Offline reinforcement learning agents seek optimal policies from fixed data sets. With environmental interaction prohibited, agents face significant challenges in preventing errors in value estimates from compounding and subsequently causing the learning process to collapse. Uncertainty estimation using ensembles compensates for this by penalising high-variance value estimates, allowing agents to learn robust policies based on data-driven actions. However, the requirement for large ensembles to facilitate sufficient penalisation results in significant computational overhead. In this work, we examine the role of policy constraints as a mechanism for regulating uncertainty, and the corresponding balance between level of constraint and ensemble size. By incorporating behavioural cloning into policy updates, we show empirically that sufficient penalisation can be achieved with a much smaller ensemble size, substantially reducing computational demand while retaining state-of-the-art performance on benchmarking tasks. Furthermore, we show how such an approach can facilitate stable online fine tuning, allowing for continued policy improvement while avoiding severe performance drops.
翻訳日:2023-03-28 18:02:03 公開日:2023-03-26
# 超高分解能光コヒーレンストモグラフィにおける超反射特性の教師なし検出

Unsupervised detection of small hyperreflective features in ultrahigh resolution optical coherence tomography ( http://arxiv.org/abs/2303.14711v1 )

ライセンス: Link先を確認
Marcel Reimann, Jungeun Won, Hiroyuki Takahashi, Antonio Yaghy, Yunchan Hwang, Stefan Ploner, Junhong Lin, Jessica Girgis, Kenneth Lam, Siyu Chen, Nadia K. Waheed, Andreas Maier, James G. Fujimoto(参考訳) 高速超高分解能スキャナやそれに対応する信号処理技術の開発など,光コヒーレンストモグラフィーの進歩により網膜疾患の新しいバイオマーカーが明らかにされている。 新しく見える特徴は、例えば、加齢に伴う黄斑変性における小さな超反射的スペックである。 これらの新しいマーカーの同定は、疾患の進行と治療結果との関連性を調べる上で重要である。 したがって、3dボリュームスキャンでこれらの特徴を確実に検出する必要がある。 ボリューム全体の手動ラベリングは不可能であるため、自動検出の必要性が生じる。 ラベル付きデータセットは一般に公開されておらず、スキャンプロトコルやスキャナータイプには大きなバリエーションがある。 そこで本研究では,局所的ピーク検出とランダムウォーカーセグメンテーションに基づく教師なしアプローチに着目し,ボリュームのbスキャン毎に小さな特徴を検出する。

Recent advances in optical coherence tomography such as the development of high speed ultrahigh resolution scanners and corresponding signal processing techniques may reveal new potential biomarkers in retinal diseases. Newly visible features are, for example, small hyperreflective specks in age-related macular degeneration. Identifying these new markers is crucial to investigate potential association with disease progression and treatment outcomes. Therefore, it is necessary to reliably detect these features in 3D volumetric scans. Because manual labeling of entire volumes is infeasible a need for automatic detection arises. Labeled datasets are often not publicly available and there are usually large variations in scan protocols and scanner types. Thus, this work focuses on an unsupervised approach that is based on local peak-detection and random walker segmentation to detect small features on each B-scan of the volume.
翻訳日:2023-03-28 18:01:43 公開日:2023-03-26
# CBAM注意と二重層BiLSTMアーキテクチャによるマルチモーダル感性分析の探索

Exploring Multimodal Sentiment Analysis via CBAM Attention and Double-layer BiLSTM Architecture ( http://arxiv.org/abs/2303.14708v1 )

ライセンス: Link先を確認
Huiru Wang, Xiuhong Li, Zenyu Ren, Dan Yang, chunming Ma(参考訳) マルチモーダルデータはより多くのモーダル情報を含んでいるため、マルチモーダル感情分析は最近の研究ホットスポットとなっている。 しかし,余剰情報は特徴抽出後の特徴の融合に容易に関与し,融合後の特徴の表現に一定の影響を及ぼす。 そこで本研究では,新たなマルチモーダル感情分析モデルを提案する。 本モデルでは, BERT+BiLSTMを特徴抽出器として, 文中の長距離依存性を抽出し, 入力シーケンスの位置情報を考慮し, よりリッチなテキスト特徴を得る。 冗長な情報を除去し、画像とテキストの特徴の相関にネットワークがより注意を払うために、テキスト特徴と画像特徴をスプライシングした後、cnnとcbamの注意が加えられ、特徴表現能力が向上する。 MVSA-SingleデータセットとHFMデータセットでは,ベースラインモデルと比較して,我々のモデルのACCが1.78%,1.91%向上し,F1値が3.09%,2.0%向上した。 実験の結果,本モデルは先進モデルと同様に音響効果が得られた。

Because multimodal data contains more modal information, multimodal sentiment analysis has become a recent research hotspot. However, redundant information is easily involved in feature fusion after feature extraction, which has a certain impact on the feature representation after fusion. Therefore, in this papaer, we propose a new multimodal sentiment analysis model. In our model, we use BERT + BiLSTM as new feature extractor to capture the long-distance dependencies in sentences and consider the position information of input sequences to obtain richer text features. To remove redundant information and make the network pay more attention to the correlation between image and text features, CNN and CBAM attention are added after splicing text features and picture features, to improve the feature representation ability. On the MVSA-single dataset and HFM dataset, compared with the baseline model, the ACC of our model is improved by 1.78% and 1.91%, and the F1 value is enhanced by 3.09% and 2.0%, respectively. The experimental results show that our model achieves a sound effect, similar to the advanced model.
翻訳日:2023-03-28 18:01:30 公開日:2023-03-26
# クリーンネRF:視野依存性観測を考慮したNeRFの改質

Clean-NeRF: Reformulating NeRF to account for View-Dependent Observations ( http://arxiv.org/abs/2303.14707v1 )

ライセンス: Link先を確認
Xinhang Liu, Yu-Wing Tai, Chi-Keung Tang(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、前例のない新しいビュー合成結果を達成したが、スパース・インプット・ビューと高ビュー依存の外観を持つ大規模乱雑なシーンの処理に苦慮している。 特に、既存のnerfベースのモデルは、不透明な3dシーンの全ボリューム内をホバリングする霧のような"floaters"という形で多くの再構成エラーが観察される、ボリュームリコンストラクションによるぼやけたレンダリングをしばしば不正確なものにする傾向がある。 このような不正確さは、nerfが正確な3d nerf登録、オブジェクト検出、セグメンテーションなどを行う可能性を妨げるものであり、これらの重要な3d基本的なコンピュータビジョン問題に直接対処するための重要な研究努力は、おそらく限られている。 本稿では,複雑なシーンにおける3次元再構成と新しいビューレンダリングのためのクリーンネRFを提案する。 我々の重要な洞察は、従来のNeRF再建に欠如している有効外観と幾何学的制約を強制することである。 1) トレーニングビューにおけるビュー依存的外観の自動検出とモデル化による密度推定の干渉を防止すること。 2) 推定中に各トレース線に対して行われた幾何補正手順。 clean-NeRFはプラグインとして実装することができ、既存のNeRFベースのメソッドを追加入力なしですぐに利用できる。 コードはリリースされる。

While Neural Radiance Fields (NeRFs) had achieved unprecedented novel view synthesis results, they have been struggling in dealing with large-scale cluttered scenes with sparse input views and highly view-dependent appearances. Specifically, existing NeRF-based models tend to produce blurry rendering with the volumetric reconstruction often inaccurate, where a lot of reconstruction errors are observed in the form of foggy "floaters" hovering within the entire volume of an opaque 3D scene. Such inaccuracies impede NeRF's potential for accurate 3D NeRF registration, object detection, segmentation, etc., which possibly accounts for only limited significant research effort so far to directly address these important 3D fundamental computer vision problems to date. This paper analyzes the NeRF's struggles in such settings and proposes Clean-NeRF for accurate 3D reconstruction and novel view rendering in complex scenes. Our key insights consist of enforcing effective appearance and geometry constraints, which are absent in the conventional NeRF reconstruction, by 1) automatically detecting and modeling view-dependent appearances in the training views to prevent them from interfering with density estimation, which is complete with 2) a geometric correction procedure performed on each traced ray during inference. Clean-NeRF can be implemented as a plug-in that can immediately benefit existing NeRF-based methods without additional input. Codes will be released.
翻訳日:2023-03-28 18:01:10 公開日:2023-03-26
# BlobGAN-3D:屋内シーンの空間差を考慮した3次元生成モデル

BlobGAN-3D: A Spatially-Disentangled 3D-Aware Generative Model for Indoor Scenes ( http://arxiv.org/abs/2303.14706v1 )

ライセンス: Link先を確認
Qian Wang, Yiqun Wang, Michael Birsak, Peter Wonka(参考訳) 実世界の3D特性をモデル化する3D認識画像合成が注目されている。 しかし、生成した画像の現実的なオブジェクトレベルの編集を多目的シナリオで行うことは依然として課題である。 最近、BlobGANと呼ばれる2D GANが、実世界の屋内シーンデータセット上で、優れたマルチオブジェクト編集機能を示した。 本稿では,オリジナルの2D BlobGANを3D対応で改良したBlobGAN-3Dを提案する。 2Dブロブを3Dブロブに拡張することにより、シーン内の個々のオブジェクトの絡み合いを維持しながら、明示的なカメラポーズ制御を可能にする。 我々は,BlobGANのオブジェクトレベルの編集機能を維持し,シーン内のオブジェクトの3D位置を柔軟に制御する。 本手法を実世界の屋内データセットでテストし,本手法が2次元ブロブガンや他の3次元認識ganベースラインと同等の画質を実現すると同時に,多目的実世界シナリオにおいてカメラのポーズ制御やオブジェクトレベルの編集を可能にしていることを示す。

3D-aware image synthesis has attracted increasing interest as it models the 3D nature of our real world. However, performing realistic object-level editing of the generated images in the multi-object scenario still remains a challenge. Recently, a 2D GAN termed BlobGAN has demonstrated great multi-object editing capabilities on real-world indoor scene datasets. In this work, we propose BlobGAN-3D, which is a 3D-aware improvement of the original 2D BlobGAN. We enable explicit camera pose control while maintaining the disentanglement for individual objects in the scene by extending the 2D blobs into 3D blobs. We keep the object-level editing capabilities of BlobGAN and in addition allow flexible control over the 3D location of the objects in the scene. We test our method on real-world indoor datasets and show that our method can achieve comparable image quality compared to the 2D BlobGAN and other 3D-aware GAN baselines while being able to enable camera pose control and object-level editing in the challenging multi-object real-world scenarios.
翻訳日:2023-03-28 18:00:43 公開日:2023-03-26
# ニューラルネットワークにおける強化学習と教師なし学習の融合によるシナプス可塑性制御

Control of synaptic plasticity via the fusion of reinforcement learning and unsupervised learning in neural networks ( http://arxiv.org/abs/2303.14705v1 )

ライセンス: Link先を確認
Mohammad Modiri(参考訳) 脳は様々なタスクを迅速かつ効率的に実行することを学ぶことができる。 それでも、私たちが学べるメカニズムのほとんどは、不明確か信じられないほど複雑です。 近年、脳の驚くべき学習能力の背後にある構造とメカニズムを理解しモデル化するために、神経科学と人工知能においてかなりの努力がなされている。 しかし、認知神経科学の現在の理解においては、シナプスの可塑性が我々の驚くべき学習能力に不可欠な役割を果たすことが広く受け入れられている。 このメカニズムはCredit Assignment Problem(CAP)としても知られ、神経科学と人工知能(AI)における根本的な課題である。 神経科学者の観察は、相乗的可塑性におけるエラーフィードバックシステムと教師なし学習を含む2つの重要なメカニズムの役割を明確に裏付けている。 このインスピレーションにより、強化学習(RL)と教師なし学習(UL)の融合により、新しい学習規則が提案される。 提案した計算モデルでは, 非線形最適制御理論を用いて, 誤差フィードバックループ系に類似し, 出力誤差をニューロン膜電位(ニューロン状態)に投影し, ニューロン膜電位やニューロン活動に基づく教師なし学習規則を用いて, シナプス塑性力学をシミュレートし, 出力誤差を最小限に抑える。

The brain can learn to execute a wide variety of tasks quickly and efficiently. Nevertheless, most of the mechanisms that enable us to learn are unclear or incredibly complicated. Recently, considerable efforts have been made in neuroscience and artificial intelligence to understand and model the structure and mechanisms behind the amazing learning capability of the brain. However, in the current understanding of cognitive neuroscience, it is widely accepted that synaptic plasticity plays an essential role in our amazing learning capability. This mechanism is also known as the Credit Assignment Problem (CAP) and is a fundamental challenge in neuroscience and Artificial Intelligence (AI). The observations of neuroscientists clearly confirm the role of two important mechanisms including the error feedback system and unsupervised learning in synaptic plasticity. With this inspiration, a new learning rule is proposed via the fusion of reinforcement learning (RL) and unsupervised learning (UL). In the proposed computational model, the nonlinear optimal control theory is used to resemble the error feedback loop systems and project the output error to neurons membrane potential (neurons state), and an unsupervised learning rule based on neurons membrane potential or neurons activity are utilized to simulate synaptic plasticity dynamics to ensure that the output error is minimized.
翻訳日:2023-03-28 18:00:24 公開日:2023-03-26
# タスク指向メモリ効率プルーニングアダプタ

Task-oriented Memory-efficient Pruning-Adapter ( http://arxiv.org/abs/2303.14704v1 )

ライセンス: Link先を確認
Guorun Wang, Qingqing Cao, Jun Yang, Yaoru Sun(参考訳) 大規模言語モデルの優れた性能とサイズ拡大は、パラメーター効率の学習において注目を集めている。 主なアプローチはアダプタとプルーニングの2つです。 適応者はモデルを凍結し、側面に新しい重み行列を与えることで、トレーニングの時間とメモリを大幅に削減することができるが、そのコストは、評価とテストが時間とメモリ消費を増加させることである。 プルーニングは、ある程度の重量を減らし、残りの重量を減らし、非常に高い記憶と訓練時間のコストでトレーニングの複雑さを犠牲にして、評価と試験のコストを比較的低くする。 したがって、トレーニングと推論の効率は同時には得られません。 本研究では,トレーニングとメモリの高メモリ効率を実現するタスク指向のPruning-Adapter手法を提案し,トレーニング時間を短縮し,GLUEタスクの精度を大幅に低下させることなく,トレーニングと推論の効率を同時に達成する。

The Outstanding performance and growing size of Large Language Models has led to increased attention in parameter efficient learning. The two predominant approaches are Adapters and Pruning. Adapters are to freeze the model and give it a new weight matrix on the side, which can significantly reduce the time and memory of training, but the cost is that the evaluation and testing will increase the time and memory consumption. Pruning is to cut off some weight and re-distribute the remaining weight, which sacrifices the complexity of training at the cost of extremely high memory and training time, making the cost of evaluation and testing relatively low. So efficiency of training and inference can't be obtained in the same time. In this work, we propose a task-oriented Pruning-Adapter method that achieve a high memory efficiency of training and memory, and speeds up training time and ensures no significant decrease in accuracy in GLUE tasks, achieving training and inference efficiency at the same time.
翻訳日:2023-03-28 18:00:00 公開日:2023-03-26
# 深層ニューラルネットワークによるh&e染色画像からの大腸癌分子サブタイプ予測

Biologically-primed deep neural network improves colorectal Cancer Molecular subtypes prediction from H&E stained images ( http://arxiv.org/abs/2303.14703v1 )

ライセンス: Link先を確認
Hadar Hezi, Daniel Shats, Daniel Gurevich, Yosef E. Maruvka, Moti Freiman(参考訳) 大腸癌(crc)分子サブタイプは治療の選択肢を決定する上で重要な役割を果たす。 免疫療法はCRCのマイクロサテライト不安定(MSI)サブタイプに有効であるが、マイクロサテライト安定性(MSS)サブタイプには有効ではない。 近年,H&E染色組織像からCRCサブタイプの自動決定のための畳み込みニューラルネットワーク (CNN) が提案されている。 しかしながら、以前のcnnアーキテクチャはmsiまたはmssのバイナリ結果のみを考慮し、病理組織学的画像表現型に影響を与える可能性のある追加の生物学的手がかりを考慮しない。 本研究では,H\&E染色画像からのCRCサブタイプ分類のための生物プライドCNN(BP-CNN)アーキテクチャを提案する。 BP-CNNは,2値分類結果を生物学的にインフォームドされた複数クラスにキャストすることで,生物学的な手がかりを付加する。 TCGA-CRC-DXコホートにおけるモデル開発のための5倍のクロスバリデーション実験装置を用いてBP-CNNアプローチを評価し,ベースラインバイナリ分類CNNと比較した。 auc: 0.824$\pm$0.02 vs. 0.761$\pm$0.04, paired t-test, p$<$0.05) または cpg-island methylation phenotype (cimp) 分子特徴 (auc: 0.834$\pm$0.01 vs. 0.787$\pm$0.03, paired t-test, p$<0.05) を用いた場合、bp-cnnは優れた性能を示した。 CIMPとSNPの組み合わせにより分類精度はさらに向上した(AUC: 0.847$\pm$0.01 vs. 0.787$\pm$0.03, paired t-test, p$=0.01)。 bp-cnnアプローチは, 癌組織像の表現型に影響を与える生物学的手がかりと, 病理組織像データから癌サブタイプを決定するディープラーニング手法の精度を向上させる可能性を秘めている。

Colorectal cancer (CRC) molecular subtypes play a crucial role in determining treatment options. Immunotherapy is effective for the microsatellite instability (MSI) subtype of CRC, but not for the microsatellite stability (MSS) subtype. Recently, convolutional neural networks (CNNs) have been proposed for automated determination of CRC subtypes from H\&E stained histopathological images. However, previous CNN architectures only consider binary outcomes of MSI or MSS, and do not account for additional biological cues that may affect the histopathological imaging phenotype. In this study, we propose a biologically-primed CNN (BP-CNN) architecture for CRC subtype classification from H\&E stained images. Our BP-CNN accounts for additional biological cues by casting the binary classification outcome into a biologically-informed multi-class outcome. We evaluated the BP-CNN approach using a 5-fold cross-validation experimental setup for model development on the TCGA-CRC-DX cohort, comparing it to a baseline binary classification CNN. Our BP-CNN achieved superior performance when using either single-nucleotide-polymorphism (SNP) molecular features (AUC: 0.824$\pm$0.02 vs. 0.761$\pm$0.04, paired t-test, p$<$0.05) or CpG-Island methylation phenotype (CIMP) molecular features (AUC: 0.834$\pm$0.01 vs. 0.787$\pm$0.03, paired t-test, p$<$0.05). A combination of CIMP and SNP models further improved classification accuracy (AUC: 0.847$\pm$0.01 vs. 0.787$\pm$0.03, paired t-test, p$=$0.01). Our BP-CNN approach has the potential to provide insight into the biological cues that influence cancer histopathological imaging phenotypes and to improve the accuracy of deep-learning-based methods for determining cancer subtypes from histopathological imaging data.
翻訳日:2023-03-28 17:59:44 公開日:2023-03-26
# 改良ARモデルによる3次元形状生成の学習

Learning Versatile 3D Shape Generation with Improved AR Models ( http://arxiv.org/abs/2303.14700v1 )

ライセンス: Link先を確認
Simian Luo, Xuelin Qian, Yanwei Fu, Yinda Zhang, Ying Tai, Zhenyu Zhang, Chengjie Wang, Xiangyang Xue(参考訳) 自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。 このアプローチは強力な形状生成のために3Dドメインに拡張されているが、ボリュームグリッド上の高価な計算とグリッド次元に沿った曖昧な自己回帰順序という2つの制限がある。 これらの制約を克服するために,ボリュームグリッドの代わりに潜在ベクトルに基づく離散表現学習を適用した3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。 提案手法は計算コストを低減させるだけでなく,より扱いやすい順序でジョイント分布を学習することで幾何学的詳細を保存できる。 さらに,モデルアーキテクチャの簡略化により,点群やカテゴリ,画像,テキストといった様々な条件付き入力を結合することで,無条件から条件付き生成へと自然に拡張することができる。 広範な実験により、imamは複数のカテゴリの多様で忠実な形状を合成し、最先端のパフォーマンスを達成することが示されている。

Auto-Regressive (AR) models have achieved impressive results in 2D image generation by modeling joint distributions in the grid space. While this approach has been extended to the 3D domain for powerful shape generation, it still has two limitations: expensive computations on volumetric grids and ambiguous auto-regressive order along grid dimensions. To overcome these limitations, we propose the Improved Auto-regressive Model (ImAM) for 3D shape generation, which applies discrete representation learning based on a latent vector instead of volumetric grids. Our approach not only reduces computational costs but also preserves essential geometric details by learning the joint distribution in a more tractable order. Moreover, thanks to the simplicity of our model architecture, we can naturally extend it from unconditional to conditional generation by concatenating various conditioning inputs, such as point clouds, categories, images, and texts. Extensive experiments demonstrate that ImAM can synthesize diverse and faithful shapes of multiple categories, achieving state-of-the-art performance.
翻訳日:2023-03-28 17:58:58 公開日:2023-03-26
# インストラクションデータスケーリングが大規模言語モデルに及ぼす影響を探る:実世界の事例を事例として

Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases ( http://arxiv.org/abs/2303.14742v1 )

ライセンス: Link先を確認
Yunjie Ji, Yong Deng, Yan Gong, Yiping Peng, Qiang Niu, Lei Zhang, Baochang Ma, Xiangang Li(参考訳) chatgptの成功は、最近それを再現するために多くの努力を惹きつけており、命令のチューニング戦略が目覚ましい結果を達成する上で重要な要因となっている。 インストラクションチューニングは、モデルの性能と一般化を著しく向上させるだけでなく、モデルが生成した結果を人間の音声パターンとより整合させる。 しかし、現在の研究では、特に実世界のユースケースにおいて、異なる量の命令データがモデル性能に与える影響をほとんど研究していない。 本稿では,命令データのスケールの異なる命令チューニングに基づく大規模言語モデルの性能について検討する。 実験では、12の主要オンラインユースケースからなる評価データセットを構築した。 ベースモデルとしてbloomz-7b1-mtを用いると 1) 単に命令データの量を増やすだけで、オープンエンド生成などのタスクが継続的に改善される。 2) 数学やコードなどのタスクでは,データサイズを増大させながら,モデル性能曲線はかなり平坦なままである。 さらに,これらの現象の原因を解析し,高品質なトレーニングデータ,スケールベースモデル,ハードタスクに特化したトレーニング方法など,今後の研究の方向性を提案する。 トレーニングと評価のデータセットとモデルチェックポイントをリリースします。

The success of ChatGPT has recently attracted numerous efforts to replicate it, with instruction-tuning strategies being a key factor in achieving remarkable results. Instruction-tuning not only significantly enhances the model's performance and generalization but also makes the model's generated results more consistent with human speech patterns. However current research rarely studies the impact of different amounts of instruction data on model performance, especially in the real-world use cases. In this paper we explore the performance of large language models based on instruction tuning across different scales of instruction data. An evaluation dataset consisting of 12 major online use cases is constructed in the experiment. With Bloomz-7B1-mt as the base model, the results show that 1) merely increasing the amount of instruction data leads to continuous improvement in tasks such as open-ended generation, 2) in tasks such as math and code, the model performance curve remains quite flat while increasing data size. We further analyze the possible causes of these phenomena and propose potential future research directions such as effectively selecting high-quality training data, scaling base models and training methods specialized for hard tasks. We will release our training and evaluation datasets, as well as model checkpoints.
翻訳日:2023-03-28 17:53:40 公開日:2023-03-26
# 凝縮物質物理学におけるゲージ不変性と異常

Gauge Invariance and Anomalies in Condensed Matter Physics ( http://arxiv.org/abs/2303.14741v1 )

ライセンス: Link先を確認
J\"urg Fr\"ohlich(参考訳) この論文は、凝縮物質物理学における電子状態の研究のための強力な形式主義の要約から始まり、"Gauge Theory of States/Phases of Matter"と呼ばれる。 その形式主義において顕著な役割を果たしているキラル異常は、リコールされる。 次に1+1次元のカイラル異常の量子線への応用をスケッチする。 その後、2次元(2d)ガッピング(非圧縮性)電子液体における量子ホール効果のいくつかの要素をレビューする。 特に、ホール絶縁体およびチャーン絶縁体において、異常なキラルエッジ電流と2次元ギャップ電子液体における異常流入の役割について論じる。 このような系のバルクで有効な輸送方程式を導出するトポロジカルチャーン・サイモンズ作用とそれに伴う異常エッジ作用を導出する。 一般の「アーベル」ホール絶縁体の分類の結果を概説する。 チャーン・シモンの作用に関するいくつかの発言の後、ある種の2次元キラルフォトニック波ガイドをスケッチした。 次に、スピン軌道相互作用を持つ電子ガスの時間反転不変2次元位相絶縁体におけるカイラルエッジスピン電流とバルク応答方程式の解析を続ける。 次に3Dシステムにおけるキラル磁気効果と軸-電気力学について概説する。 これは「アキソニオン絶縁体」を含む3次元位相絶縁体の一般理論の概要を準備する基礎となる。 カイラル磁気効果を示すワイル半金属と、動的軸索状自由度を持つ3次元系のモット遷移に関するいくつかの発言がこのレビューを締めくくっている。 }

This paper begins with a summary of a powerful formalism for the study of electronic states in condensed matter physics called "Gauge Theory of States/Phases of Matter." The chiral anomaly, which plays quite a prominent role in that formalism, is recalled. I then sketch an application of the chiral anomaly in 1+1 dimensions to quantum wires. Subsequently, some elements of the quantum Hall effect in two-dimensional (2D) gapped ("incompressible") electron liquids are reviewed. In particular, I discuss the role of anomalous chiral edge currents and of anomaly inflow in 2D gapped electron liquids with explicitly or spontaneously broken time reversal, i.e., in Hall- and Chern insulators. The topological Chern-Simons action yielding the transport equations valid in the bulk of such systems and the associated anomalous edge action are derived. The results of a general classification of "abelian" Hall insulators are outlined. After some remarks on induced Chern-Simons actions, I sketch results on certain 2D chiral photonic wave guides. I then continue with an analysis of chiral edge spin-currents and the bulk response equations in time-reversal invariant 2D topological insulators of electron gases with spin-orbit interactions. The "chiral magnetic effect" in 3D systems and axion-electrodynamics are reviewed next. This prepares the ground for an outline of a general theory of 3D topological insulators, including "axionic insulators". Some remarks on Weyl semi-metals, which exhibit the chiral magnetic effect, and on Mott transitions in 3D systems with dynamical axion-like degrees of freedom conclude this review.}
翻訳日:2023-03-28 17:53:06 公開日:2023-03-26
# Sparse-View CBCT再構成のための幾何認識減衰場学習

Geometry-Aware Attenuation Field Learning for Sparse-View CBCT Reconstruction ( http://arxiv.org/abs/2303.14739v1 )

ライセンス: Link先を確認
Zhentao Liu, Yu Fang, Changjian Li, Han Wu, Yuan Liu, Zhiming Cui, Dinggang Shen(参考訳) Cone Beam Computed Tomography (CBCT) は歯科医療において最も広く用いられている画像診断法である。 従来のアルゴリズムでは、高画質のCBCT画像(すなわち減衰場)を再構成するために、数百のX線投影が必要であるため、少ない視野のCBCT再構成が放射線線量を減らす主な焦点となっている。 新規患者のデータ不足や一般化能力の低下に苦しむ一方で、いくつかの試みがなされている。 本稿では,まず多視点x線投影から体積特徴を符号化し,次に所望の減衰場に復号する新しい減衰場エンコーダ・デコーダフレームワークを提案する。 重要な洞察は、ボリューム機能を構築する際に、多視点cbct再構成の性質に準拠し、幾何認識空間特徴クエリと適応特徴fusingによるビュー一貫性を強調する。 さらに、データ人口から得られた事前知識情報は、スパースビュー入力を扱う際の一般化能力を保証する。 総合的な評価は, 再建品質の面で優位性を示し, 下流の応用は, 実際の診療施設における本手法の有効性をさらに検証している。

Cone Beam Computed Tomography (CBCT) is the most widely used imaging method in dentistry. As hundreds of X-ray projections are needed to reconstruct a high-quality CBCT image (i.e., the attenuation field) in traditional algorithms, sparse-view CBCT reconstruction has become a main focus to reduce radiation dose. Several attempts have been made to solve it while still suffering from insufficient data or poor generalization ability for novel patients. This paper proposes a novel attenuation field encoder-decoder framework by first encoding the volumetric feature from multi-view X-ray projections, then decoding it into the desired attenuation field. The key insight is when building the volumetric feature, we comply with the multi-view CBCT reconstruction nature and emphasize the view consistency property by geometry-aware spatial feature querying and adaptive feature fusing. Moreover, the prior knowledge information learned from data population guarantees our generalization ability when dealing with sparse view input. Comprehensive evaluations have demonstrated the superiority in terms of reconstruction quality, and the downstream application further validates the feasibility of our method in real-world clinics.
翻訳日:2023-03-28 17:52:39 公開日:2023-03-26
# 筆跡生成のための手書き文字と文字スタイルの相違

Disentangling Writer and Character Styles for Handwriting Generation ( http://arxiv.org/abs/2303.14736v1 )

ライセンス: Link先を確認
Gang Dai, Yifan Zhang, Qingfeng Wang, Qing Du, Zhuliang Yu, Zhuoman Liu, Shuangping Huang(参考訳) 多様な手書きを合成する訓練マシンは興味深いタスクだ。 近年,RNNを用いたタイマライズされたオンライン漢字生成手法が提案されている。 しかし、その方法は主に人物全体の筆跡を捉え、同一人物が書いた文字間の微妙な不一致を無視することに焦点を当てている。 例えば、人の手書き文字は通常、一般的な一様性(グリフのスラントやアスペクト比など)を示すが、文字の細部(例えば、ストロークの長さや曲率)にはまだ小さなスタイルのバリエーションがある。 そこで本研究では,文字レベルと文字レベルの両方のスタイル表現を個々の手書き文字から切り離し,リアルな手書き文字を合成することを提案する。 具体的には,2つの相補的コントラストを用いたSDT(style-disentangled Transformer)を用いて,参照サンプルのスタイル共通性を抽出し,各サンプルの詳細なスタイルパターンを抽出する。 様々な言語スクリプトに関する広範囲な実験がsdtの有効性を実証している。 特に,2つの学習されたスタイル表現が,異なる周波数の情報を提示し,異なるスタイル抽出の重要性を強調した。 私たちのソースコードは、https://github.com/dailenson/SDT.comで公開されています。

Training machines to synthesize diverse handwritings is an intriguing task. Recently, RNN-based methods have been proposed to generate stylized online Chinese characters. However, these methods mainly focus on capturing a person's overall writing style, neglecting subtle style inconsistencies between characters written by the same person. For example, while a person's handwriting typically exhibits general uniformity (e.g., glyph slant and aspect ratios), there are still small style variations in finer details (e.g., stroke length and curvature) of characters. In light of this, we propose to disentangle the style representations at both writer and character levels from individual handwritings to synthesize realistic stylized online handwritten characters. Specifically, we present the style-disentangled Transformer (SDT), which employs two complementary contrastive objectives to extract the style commonalities of reference samples and capture the detailed style patterns of each sample, respectively. Extensive experiments on various language scripts demonstrate the effectiveness of SDT. Notably, our empirical findings reveal that the two learned style representations provide information at different frequency magnitudes, underscoring the importance of separate style extraction. Our source code is public at: https://github.com/dailenson/SDT.
翻訳日:2023-03-28 17:52:18 公開日:2023-03-26
# Bias-Variance解析に基づく線形次元の解釈可能化

Interpretable Linear Dimensionality Reduction based on Bias-Variance Analysis ( http://arxiv.org/abs/2303.14734v1 )

ライセンス: Link先を確認
Paolo Bonetti, Alberto Maria Metelli, Marcello Restelli(参考訳) 実データにおける機械学習アプリケーションの中心的な問題の1つは、入力機能の選択である。 理想的には、設計者は、元のデータセットに含まれる完全な情報を保存するために、関連する、非冗長な特徴のみを選択するべきである。 この手順は、高次元問題を扱う際に生じる過剰適合や次元の呪いといった問題を緩和するのに役立つ。 一方で、結果を改善するために活用できる情報を含む可能性があるため、一部の機能を単に破棄するのは望ましいことではない。 代わりに、次元の縮小技術は、データセット内の特徴の数を制限するように設計され、それらを低次元空間に投影し、おそらく全ての元の特徴を考慮している。 しかし、次元の縮小技術の適用によって生じる投影された特徴は通常解釈が困難である。 本稿では,得られた特徴の解釈性を維持するための原理的次元性低減手法を考案する。 具体的には、線形モデルに対するバイアス分散分析を提案し、これらの理論結果を利用して線形関連特徴集合(LinCFA)を設計し、相関が「十分大きい」場合、連続特徴群を平均で集約する。 このように、全ての特徴を考慮し、次元性を減らし、解釈可能性を保持する。 最後に,提案アルゴリズムの理論的結果を確認するための合成データセットと,有望な応用を示すための実データセットの数値検証を行う。

One of the central issues of several machine learning applications on real data is the choice of the input features. Ideally, the designer should select only the relevant, non-redundant features to preserve the complete information contained in the original dataset, with little collinearity among features and a smaller dimension. This procedure helps mitigate problems like overfitting and the curse of dimensionality, which arise when dealing with high-dimensional problems. On the other hand, it is not desirable to simply discard some features, since they may still contain information that can be exploited to improve results. Instead, dimensionality reduction techniques are designed to limit the number of features in a dataset by projecting them into a lower-dimensional space, possibly considering all the original features. However, the projected features resulting from the application of dimensionality reduction techniques are usually difficult to interpret. In this paper, we seek to design a principled dimensionality reduction approach that maintains the interpretability of the resulting features. Specifically, we propose a bias-variance analysis for linear models and we leverage these theoretical results to design an algorithm, Linear Correlated Features Aggregation (LinCFA), which aggregates groups of continuous features with their average if their correlation is "sufficiently large". In this way, all features are considered, the dimensionality is reduced and the interpretability is preserved. Finally, we provide numerical validations of the proposed algorithm both on synthetic datasets to confirm the theoretical results and on real datasets to show some promising applications.
翻訳日:2023-03-28 17:51:57 公開日:2023-03-26
# クロスモーダル生成によるセマンティックニューラルデコーディング

Semantic Neural Decoding via Cross-Modal Generation ( http://arxiv.org/abs/2303.14730v1 )

ライセンス: Link先を確認
Xuelin Qian, Yikai Wang, Yanwei Fu, Xiangyang Xue, Jianfeng Feng(参考訳) セマンティック・ニューラル・デコーディングは、脳の記録から観察されたイメージを再構成することで、人間の脳の認知過程を解明することを目的としている。 近年の研究では、fmri信号に基づく画像を生成するために深層生成モデルが用いられているが、一貫性のある意味論による高品質な生成を達成することは大きな課題となっている。 本稿では,fMRI信号を直接符号化し,意味情報を抽出するエンドツーエンドフレームワークSemanSigを提案する。 semansigは、深い生成モデルを利用して、セマンティック情報を高品質な画像にデコードする。 本フレームワークの有効性を高めるため,fMRI信号の内部表現空間として ImageNet クラスプロトタイプ空間を用い,信号冗長性と学習困難性を低減した。 これにより、生成モデルをデコードするための意味豊かで視覚的に親しみやすい内部表現を形成する。 特に、semansigは大きなfmriデータセットで事前トレーニングを必要とせず、fmri信号が制限された場合でも、スクラッチからトレーニングした場合に非常によく機能する。 実験結果は,一貫性のあるセマンティクスを用いた高品質画像生成におけるsemansigの有効性を検証する。

Semantic neural decoding aims to elucidate the cognitive processes of the human brain by reconstructing observed images from brain recordings. Although recent works have utilized deep generative models to generate images conditioned on fMRI signals, achieving high-quality generation with consistent semantics has proven to be a formidable challenge. To address this issue, we propose an end-to-end framework, SemanSig, which directly encodes fMRI signals and extracts semantic information. SemanSig leverages a deep generative model to decode the semantic information into high-quality images. To enhance the effectiveness of our framework, we use the ImageNet class prototype space as the internal representation space of fMRI signals, thereby reducing signal redundancy and learning difficulty. Consequently, this forms a semantic-rich and visually-friendly internal representation for generative models to decode. Notably, SemanSig does not require pre-training on a large fMRI dataset, and performs remarkably well when trained from scratch, even when the fMRI signal is limited. Our experimental results validate the effectiveness of SemanSig in achieving high-quality image generation with consistent semantics.
翻訳日:2023-03-28 17:51:35 公開日:2023-03-26
# one click++: 弱い教師付き3dシーン理解のためのセルフトレーニング

One Thing One Click++: Self-Training for Weakly Supervised 3D Scene Understanding ( http://arxiv.org/abs/2303.14727v1 )

ライセンス: Link先を確認
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu(参考訳) ポイントクラウドセマンティクスやインスタンスセグメンテーションといった3dシーンの理解には、多くの場合、大規模な注釈付きトレーニングデータが必要であるが、ポイントワイズラベルを準備するには面倒すぎることは明らかである。 近年,ポイントラベルの少ない3dネットワークを訓練する手法が提案されているが,そのアプローチを極端に取り入れて,アノテータがオブジェクト毎に1つのポイントをラベル付けるだけでよい‘one thing one click,’を提案する。 ネットワークトレーニングにおいて,これらの極端にスパースなラベルを活用するために,グラフ伝搬モジュールによって促進されるトレーニングとラベル伝搬を反復的に行う,新たな自己学習アプローチを設計する。 また,カテゴリごとのプロトタイプを生成するために関係ネットワークを採用し,擬似ラベル品質を高め,反復学習を指導する。 さらに,本モデルは,ポイントクラスタリング戦略を備えた3次元インスタンスセグメンテーションと互換性がある。 scannet-v2 と s3dis の両方の実験結果は、非常に疎結合なアノテーションを持つ我々の自己学習アプローチが、既存の3dセマンティクスとインスタンスセグメンテーションのための弱い教師付きメソッドを大きなマージンで上回っていることを示している。 コードとモデルはhttps://github.com/liuzhengzhe/One-Thing-One-Click.comで公開されている。

3D scene understanding, e.g., point cloud semantic and instance segmentation, often requires large-scale annotated training data, but clearly, point-wise labels are too tedious to prepare. While some recent methods propose to train a 3D network with small percentages of point labels, we take the approach to an extreme and propose ``One Thing One Click,'' meaning that the annotator only needs to label one point per object. To leverage these extremely sparse labels in network training, we design a novel self-training approach, in which we iteratively conduct the training and label propagation, facilitated by a graph propagation module. Also, we adopt a relation network to generate the per-category prototype to enhance the pseudo label quality and guide the iterative training. Besides, our model can be compatible to 3D instance segmentation equipped with a point-clustering strategy. Experimental results on both ScanNet-v2 and S3DIS show that our self-training approach, with extremely-sparse annotations, outperforms all existing weakly supervised methods for 3D semantic and instance segmentation by a large margin, and our results are also comparable to those of the fully supervised counterparts. Codes and models are available at https://github.com/liuzhengzhe/One-Thing-One-Click.
翻訳日:2023-03-28 17:51:15 公開日:2023-03-26
# ブラインドテキスト画像の超解像化に先立つ生成構造学習

Learning Generative Structure Prior for Blind Text Image Super-resolution ( http://arxiv.org/abs/2303.14726v1 )

ライセンス: Link先を確認
Xiaoming Li, Wangmeng Zuo, Chen Change Loy(参考訳) blind text image super- resolution (sr) は多様なフォントスタイルと未知の劣化に対処する必要があるため、難しい。 この問題に対処するため、既存の手法は、損失制約または中間特徴条件によってSRタスクを規則化するために並列に文字認識を行う。 それでも、高いレベルの事前は深刻な劣化に遭遇しても失敗する可能性がある。 さらに、複数の図形記号やイデオロギー記号を一つの文字に組み合わせた漢字など、複雑な構造の文字を合成する。 本研究は,キャラクター構造に焦点をあてた先行小説を提示する。 特に,豊かで多様な構造をスタイルガンにカプセル化し,そのような生成的構造を復元に先立って活用することを学ぶ。 StyleGANの生成空間を制限するために、異なるフォントスタイルを扱う際に文字の構造に従わないよう、コードブックに各文字の離散的な特徴を格納する。 その後、コードはStyleGANを駆動し、テキストSRを支援するために高解像度の構造の詳細を生成する。 キャラクタ認識に基づく先行構造と比較して,提案手法は,指定されたキャラクタの忠実かつ正確なストロークを復元するために,より強固なキャラクタ固有の指導を行う。 合成および実データ集合に関する広範囲な実験は、ロバストテキストsrの促進に先立って提案された生成構造の性能を示す。

Blind text image super-resolution (SR) is challenging as one needs to cope with diverse font styles and unknown degradation. To address the problem, existing methods perform character recognition in parallel to regularize the SR task, either through a loss constraint or intermediate feature condition. Nonetheless, the high-level prior could still fail when encountering severe degradation. The problem is further compounded given characters of complex structures, e.g., Chinese characters that combine multiple pictographic or ideographic symbols into a single character. In this work, we present a novel prior that focuses more on the character structure. In particular, we learn to encapsulate rich and diverse structures in a StyleGAN and exploit such generative structure priors for restoration. To restrict the generative space of StyleGAN so that it obeys the structure of characters yet remains flexible in handling different font styles, we store the discrete features for each character in a codebook. The code subsequently drives the StyleGAN to generate high-resolution structural details to aid text SR. Compared to priors based on character recognition, the proposed structure prior exerts stronger character-specific guidance to restore faithful and precise strokes of a designated character. Extensive experiments on synthetic and real datasets demonstrate the compelling performance of the proposed generative structure prior in facilitating robust text SR.
翻訳日:2023-03-28 17:50:48 公開日:2023-03-26
# 自然言語推論, 調査

Nature Language Reasoning, A Survey ( http://arxiv.org/abs/2303.14725v1 )

ライセンス: Link先を確認
Fei Yu, Hongbo Zhang, Benyou Wang(参考訳) 本稿では,自然言語処理(NLP)分野における自然言語推論について,概念的にも実用的にも,より明確な視点を提案する。 概念的には、我々は、哲学とNLPシナリオの両方に基づいて、NLPにおける自然言語推論の明確な定義を提供し、どのタスクが推論を必要とするかを議論し、推論の分類を導入します。 本稿は,古典論理推論,自然言語推論,マルチホップ質問応答,コモンセンス推論を中心に,NLPにおける自然言語推論に関する総合的な文献レビューを行う。 本稿は,多段階推論の強力なパラダイムである後方推論を同定し,考察し,自然言語推論研究における最も重要な将来方向の1つとしてデファシブル推論を導入する。 ニューロシンボリック手法と数学的推論を除外し,単一モダリティ非構造化自然言語テキストに注目した。

This survey paper proposes a clearer view of natural language reasoning in the field of Natural Language Processing (NLP), both conceptually and practically. Conceptually, we provide a distinct definition for natural language reasoning in NLP, based on both philosophy and NLP scenarios, discuss what types of tasks require reasoning, and introduce a taxonomy of reasoning. Practically, we conduct a comprehensive literature review on natural language reasoning in NLP, mainly covering classical logical reasoning, natural language inference, multi-hop question answering, and commonsense reasoning. The paper also identifies and views backward reasoning, a powerful paradigm for multi-step reasoning, and introduces defeasible reasoning as one of the most important future directions in natural language reasoning research. We focus on single-modality unstructured natural language text, excluding neuro-symbolic techniques and mathematical reasoning.
翻訳日:2023-03-28 17:50:25 公開日:2023-03-26
# 自然性周辺検出学習データを用いたドライバプロファイリングとベイズワークロード推定

Driver Profiling and Bayesian Workload Estimation Using Naturalistic Peripheral Detection Study Data ( http://arxiv.org/abs/2303.14720v1 )

ライセンス: Link先を確認
Nermin Caber, Jiaming Liang, Bashar I. Ahmad, Simon Godsill, Alexandra Bremers, Philip Thomas, David Oxtoby and Lee Skrypchuk(参考訳) ドライバーのメンタルワークロードの監視は、車載情報システムとの安全なインタラクションの開始と維持を容易にする。 本稿では,運転実績データから負荷推定を行う問題に対処する。 まず,自然条件下での周辺検出タスクの修正により,主観的な作業負荷データを収集する手法を提案する。 心的負荷を誘発する主要な環境要因は、例えば前方の車両の接合や挙動などのビデオ分析によって特定される。 第二に、最先端の時系列分類器(例えば畳み込みニューラルネットワークと変換技術)を用いた教師付き学習フレームワークが、旅行中に経験した平均作業量に基づいてプロファイルドライバに導入された。 ベイズフィルタリング手法は、ドライバーの即時作業負荷である(ほぼ)リアルタイムに逐次推定するために提案される。 この計算効率が高く柔軟な方法は、ドライバー(例えば、推定平均負荷プロファイルを組み込む)にパーソナライズしやすく、運転/環境コンテキスト(例えば、道路タイプ)に適応し、新しいソースからのデータストリームで拡張することができる。 提案したプロファイリングの有効性と即時ワークロード推定手法の有効性を,道路調査データを用いて実証し,F_{1}$スコアを最大92%,81%とした。

Monitoring drivers' mental workload facilitates initiating and maintaining safe interactions with in-vehicle information systems, and thus delivers adaptive human machine interaction with reduced impact on the primary task of driving. In this paper, we tackle the problem of workload estimation from driving performance data. First, we present a novel on-road study for collecting subjective workload data via a modified peripheral detection task in naturalistic settings. Key environmental factors that induce a high mental workload are identified via video analysis, e.g. junctions and behaviour of vehicle in front. Second, a supervised learning framework using state-of-the-art time series classifiers (e.g. convolutional neural network and transform techniques) is introduced to profile drivers based on the average workload they experience during a journey. A Bayesian filtering approach is then proposed for sequentially estimating, in (near) real-time, the driver's instantaneous workload. This computationally efficient and flexible method can be easily personalised to a driver (e.g. incorporate their inferred average workload profile), adapted to driving/environmental contexts (e.g. road type) and extended with data streams from new sources. The efficacy of the presented profiling and instantaneous workload estimation approaches are demonstrated using the on-road study data, showing $F_{1}$ scores of up to 92% and 81%, respectively.
翻訳日:2023-03-28 17:50:12 公開日:2023-03-26
# BlackVIP:ロバストトランスファー学習のためのブラックボックスビジュアルプロンプト

BlackVIP: Black-Box Visual Prompting for Robust Transfer Learning ( http://arxiv.org/abs/2303.14773v1 )

ライセンス: Link先を確認
Changdae Oh, Hyeji Hwang, Hee-young Lee, YongTaek Lim, Geunyoung Jung, Jiyoung Jung, Hosik Choi, Kyungwoo Song(参考訳) 大規模事前学習モデル(PTM)の急増に伴い、これらのモデルを多くの下流タスクに微調整することが重要な問題となっている。 その結果,大規模モデルのパラメータ効率のよい伝達学習 (PETL) が注目されている。 最近のPETL法は素晴らしい性能を示しているが、楽観的な仮定に依存している。 1) PTM のパラメータ全体のセットが利用可能で、 2)微調整のための十分な大きなメモリ容量を備える。 しかしながら、現実世界のほとんどのアプリケーションでは、PTMは明確なパラメータアクセシビリティを持たないブラックボックスAPIまたはプロプライエタリなソフトウェアとして提供される。 また、現代のPTMにおいて大きなメモリ要件を満たすことは困難である。 本研究では,モデルアーキテクチャやパラメータの知識のないPTMを効率的に適応するブラックボックスビジュアルプロンプト(BlackVIP)を提案する。 BlackVIPには2つのコンポーネントがある。 1)コーディネーター及び 2) 傾斜補正を伴う同時摂動確率近似(SPSA-GC)。 コーディネーターは入力に依存した画像形状の視覚的プロンプトを設計し、分散/位置シフトに対するわずかな適応とロバスト性を改善する。 SPSA-GCは、コーディネータを更新するターゲットモデルの勾配を効率的に推定する。 16のデータセットに対する大規模な実験では、最小限のメモリ要件で、PTMのパラメータにアクセスすることなく、BlackVIPが多様なドメインへの堅牢な適応を可能にすることが示されている。 コード: \url{https://github.com/changdaeoh/BlackVIP}

With the surge of large-scale pre-trained models (PTMs), fine-tuning these models to numerous downstream tasks becomes a crucial problem. Consequently, parameter efficient transfer learning (PETL) of large models has grasped huge attention. While recent PETL methods showcase impressive performance, they rely on optimistic assumptions: 1) the entire parameter set of a PTM is available, and 2) a sufficiently large memory capacity for the fine-tuning is equipped. However, in most real-world applications, PTMs are served as a black-box API or proprietary software without explicit parameter accessibility. Besides, it is hard to meet a large memory requirement for modern PTMs. In this work, we propose black-box visual prompting (BlackVIP), which efficiently adapts the PTMs without knowledge about model architectures and parameters. BlackVIP has two components; 1) Coordinator and 2) simultaneous perturbation stochastic approximation with gradient correction (SPSA-GC). The Coordinator designs input-dependent image-shaped visual prompts, which improves few-shot adaptation and robustness on distribution/location shift. SPSA-GC efficiently estimates the gradient of a target model to update Coordinator. Extensive experiments on 16 datasets demonstrate that BlackVIP enables robust adaptation to diverse domains without accessing PTMs' parameters, with minimal memory requirements. Code: \url{https://github.com/changdaeoh/BlackVIP}
翻訳日:2023-03-28 17:43:35 公開日:2023-03-26
# 効率的なモデルパッチングのための$\delta$-networks

$\Delta$-Networks for Efficient Model Patching ( http://arxiv.org/abs/2303.14772v1 )

ライセンス: Link先を確認
Chaitanya Devaguptapu, Samarth Sinha, K J Joseph, Vineeth N Balasubramanian, Animesh Garg(参考訳) 大規模なデータセットに事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。 このプロセスは、事前訓練されたモデルが微調整された各タスクに対して、時間とともにモデルのコピーを保存する必要がある。 最近のモデルパッチ作業に基づいて、モデルのコピーを保存することなく、効率的にニューラルネットワークモデルを微調整するための$\delta$-patchingを提案する。 この目的を達成するために,$\Delta$-Networksと呼ばれるシンプルで軽量な手法を提案する。 設定とアーキテクチャのバリエーションに関する包括的な実験によると、$\Delta$-Networksは、トレーニングされるパラメータのごく一部だけを必要としながら、以前のモデルパッチ処理よりも優れている。 また、この手法は、転送学習やゼロショットドメイン適応といった他の問題設定や、検出やセグメンテーションといった他のタスクにも適用可能であることを示す。

Models pre-trained on large-scale datasets are often finetuned to support newer tasks and datasets that arrive over time. This process necessitates storing copies of the model over time for each task that the pre-trained model is finetuned to. Building on top of recent model patching work, we propose $\Delta$-Patching for finetuning neural network models in an efficient manner, without the need to store model copies. We propose a simple and lightweight method called $\Delta$-Networks to achieve this objective. Our comprehensive experiments across setting and architecture variants show that $\Delta$-Networks outperform earlier model patching work while only requiring a fraction of parameters to be trained. We also show that this approach can be used for other problem settings such as transfer learning and zero-shot domain adaptation, as well as other tasks such as detection and segmentation.
翻訳日:2023-03-28 17:43:12 公開日:2023-03-26
# プロトタイプ-サンプル関係蒸留:リプレイフリー連続学習に向けて

Prototype-Sample Relation Distillation: Towards Replay-Free Continual Learning ( http://arxiv.org/abs/2303.14771v1 )

ライセンス: Link先を確認
Nader Asadi, MohammadReza Davar, Sudhir Mudur, Rahaf Aljundi and Eugene Belilovsky(参考訳) 連続学習(CL)では、破滅的な忘れ込みと闘いながら効果的な適応のバランスをとることが中心的な課題である。 最近のベストパフォーマンス手法の多くは、例えばリプレイバッファのような様々なタスクデータを用いて、破滅的な忘れの問題に取り組む。 以前のタスクデータへのアクセスは、例えばタスクデータが機密性やプロプライエタリな場合など、多くの現実世界のシナリオで制限される。 従来のタスクデータを使う必要性を克服するため,本研究では,忘れやすいことを示す強力な表現学習手法から始める。 従来のクラスプロトタイプの関連性と組込み類似性を維持しつつ,表現とクラスプロトタイプを共同学習するための包括的アプローチを提案する。 具体的には、サンプルを埋め込み空間にマッピングし、教師付きコントラスト損失を用いて表現を学習する。 クラスプロトタイプは同じ潜在空間で継続的に進化し、任意の時点で学習と予測を可能にする。 先行課題データを保持しないプロトタイプを継続的に適応させるために,新しい課題データと比較して相対的な類似性を維持するために,クラスプロトタイプを制約する新しい蒸留損失を提案する。 この手法は、大量のデータに依存するアプローチだけでなく、データを使用しない他の方法よりも優れているタスクインクリメンタル設定における最先端のパフォーマンスをもたらす。 また,本手法は,格納されたデータポイントを使わずに,クラスインクリメンタル設定において高い性能を提供することを示す。

In Continual learning (CL) balancing effective adaptation while combating catastrophic forgetting is a central challenge. Many of the recent best-performing methods utilize various forms of prior task data, e.g. a replay buffer, to tackle the catastrophic forgetting problem. Having access to previous task data can be restrictive in many real-world scenarios, for example when task data is sensitive or proprietary. To overcome the necessity of using previous tasks data, in this work, we start with strong representation learning methods that have been shown to be less prone to forgetting. We propose a holistic approach to jointly learn the representation and class prototypes while maintaining the relevance of old class prototypes and their embedded similarities. Specifically, samples are mapped to an embedding space where the representations are learned using a supervised contrastive loss. Class prototypes are evolved continually in the same latent space, enabling learning and prediction at any point. To continually adapt the prototypes without keeping any prior task data, we propose a novel distillation loss that constrains class prototypes to maintain relative similarities as compared to new task data. This method yields state-of-the-art performance in the task-incremental setting where we are able to outperform other methods that both use no data as well as approaches relying on large amounts of data. Our method is also shown to provide strong performance in the class-incremental setting without using any stored data points.
翻訳日:2023-03-28 17:42:58 公開日:2023-03-26
# Koala: 事前トレーニングコーパスによるオーバーラップの定量化指標

Koala: An Index for Quantifying Overlaps with Pre-training Corpora ( http://arxiv.org/abs/2303.14770v1 )

ライセンス: Link先を確認
Thuy-Trang Vu, Xuanli He, Gholamreza Haffari, Ehsan Shareghi(参考訳) 近年では,大規模言語モデル(llm)のダウンストリーム動作における事前トレーニングデータの役割の検証に注目が集まっている。 その重要性にもかかわらず、大規模な事前学習コーパスの分析を支援する公開ツールは存在しない。 この空間の研究を支援するために,圧縮接尾辞アレイを用いた大規模事前学習コーパス上での探索可能なインデックスであるKoalaを高効率な圧縮率と探索支援で立ち上げる。 最初のリリースでは、OPT 175B事前トレーニングデータの公開比率をインデックス化しています。 Koalaは、現在のベンチマークと将来のベンチマークに関する法医学的な分析を行うためのフレームワークを提供し、LLMからの出力の記憶度を評価する。 koalaはhttps://koala-index.erc.monash.edu/で公開されている。

In very recent years more attention has been placed on probing the role of pre-training data in Large Language Models (LLMs) downstream behaviour. Despite the importance, there is no public tool that supports such analysis of pre-training corpora at large scale. To help research in this space, we launch Koala, a searchable index over large pre-training corpora using compressed suffix arrays with highly efficient compression rate and search support. In its first release we index the public proportion of OPT 175B pre-training data. Koala provides a framework to do forensic analysis on the current and future benchmarks as well as to assess the degree of memorization in the output from the LLMs. Koala is available for public use at https://koala-index.erc.monash.edu/.
翻訳日:2023-03-28 17:42:33 公開日:2023-03-26
# コラボレーティブノイズラベルクリーナー:映画におけるマルチモーダルハイライト検出のための学習シーンアウェアトレーラー

Collaborative Noisy Label Cleaner: Learning Scene-aware Trailers for Multi-modal Highlight Detection in Movies ( http://arxiv.org/abs/2303.14768v1 )

ライセンス: Link先を確認
Bei Gan, Xiujun Shu, Ruizhi Qiao, Haoqian Wu, Keyu Chen, Hanjun Li, Bo Ren(参考訳) 映画のハイライトは、効率的なブラウジングとソーシャルメディアプラットフォームにおける重要な役割を担っている。 既存の取り組みに基づき、(1)異なるアノテーションに対して、ラベル付けハイライトは不確実性を持ち、不正確で時間のかかるアノテーションをもたらす。 2) 従来の教師なしや教師なしの設定に加えて、例えばトレーラーのような既存のビデオコーパスは有用であるが、フルハイライトをカバーするためにしばしば騒々しく不完全である。 本研究では,より実用的で有望な設定,すなわち強調検出を「雑音ラベルによる学習」として再構成する。 この設定は、時間を要する手動アノテーションを必要とせず、既存の豊富なビデオコーパスを十分に活用することができる。 まず,映画トレーラーをベースとしたシーンセグメンテーションを用いて,ノイズのあるラベルである完全ショットを得る。 そこで我々は,騒音のハイライトモーメントから学習するために,協調雑音のラベルクリーナー(CLC)フレームワークを提案する。 CLCは2つのモジュールから構成される: 拡張クロスプロパゲーション (ACP) とマルチモダリティクリーニング (MMC) である。 前者は、近縁な音声視覚信号を利用して、それらを融合してマルチモーダル表現を学習することを目的としている。 後者は、異なるモダリティ間の損失の変化を観察することで、よりクリーンなハイライトラベルを実現することを目的としている。 CLCの有効性を検証するために,MovieLightsという大規模ハイライトデータセットをさらに収集する。 MovieLightsとYouTube Highlightsのデータセットに関する総合的な実験は、我々のアプローチの有効性を実証している。 コードはhttps://github.com/TencentYoutuResearch/HighlightDetection-CLCで公開されている。

Movie highlights stand out of the screenplay for efficient browsing and play a crucial role on social media platforms. Based on existing efforts, this work has two observations: (1) For different annotators, labeling highlight has uncertainty, which leads to inaccurate and time-consuming annotations. (2) Besides previous supervised or unsupervised settings, some existing video corpora can be useful, e.g., trailers, but they are often noisy and incomplete to cover the full highlights. In this work, we study a more practical and promising setting, i.e., reformulating highlight detection as "learning with noisy labels". This setting does not require time-consuming manual annotations and can fully utilize existing abundant video corpora. First, based on movie trailers, we leverage scene segmentation to obtain complete shots, which are regarded as noisy labels. Then, we propose a Collaborative noisy Label Cleaner (CLC) framework to learn from noisy highlight moments. CLC consists of two modules: augmented cross-propagation (ACP) and multi-modality cleaning (MMC). The former aims to exploit the closely related audio-visual signals and fuse them to learn unified multi-modal representations. The latter aims to achieve cleaner highlight labels by observing the changes in losses among different modalities. To verify the effectiveness of CLC, we further collect a large-scale highlight dataset named MovieLights. Comprehensive experiments on MovieLights and YouTube Highlights datasets demonstrate the effectiveness of our approach. Code has been made available at: https://github.com/TencentYoutuResearch/HighlightDetection-CLC
翻訳日:2023-03-28 17:42:20 公開日:2023-03-26
# データダイエットにおける深層学習」は再現されるか? 全体としてはそうですが、初期化時のGraNdはそうではありません

Does `Deep Learning on a Data Diet' reproduce? Overall yes, but GraNd at Initialization does not ( http://arxiv.org/abs/2303.14753v1 )

ライセンス: Link先を確認
Andreas Kirsch(参考訳) Paul氏ら(2021年)の論文“Deep Learning on a Data Diet”では、ニューラルネットワークのトレーニング中にデータセットをプルーニングするための2つの革新的なメトリクスが紹介されている。 我々はepoch 20でel2nスコアの結果を再現できるが、初期化時のグランドスコアについても同じことは言えない。 しかし、訓練中のGraNdスコアは有用なプルーニング信号を提供する。 初期化時のグランドスコアは、トレーニングが行われる前に複数のランダム初期化モデルで入力サンプルの平均勾配ノルムを計算する。 解析の結果,初期化時のGraNdスコアとサンプルの入力基準との間には強い相関関係がみられ,後者がデータプルーニングのための安価な新しいベースラインであった可能性が示唆された。 残念ながら、初期化時のGraNdスコアや入力ノルムは、パフォーマンスのランダムプルーニングを超えない。 これは、Paul et al. (2021)の発見の1つと矛盾する。 私たちは、元のJAXリポジトリの更新バージョンと新しく実装されたPyTorchコードベースの両方を使って、彼らのCIFAR-10結果を再現できなかった。 2021年4月に修正されたチェックポイント復元コード(https://github.com/google/flax/commit/28fbd95500f4f2f2f9924d2560062fa50e919b1a5)のバグが見つかった。

The paper 'Deep Learning on a Data Diet' by Paul et al. (2021) introduces two innovative metrics for pruning datasets during the training of neural networks. While we are able to replicate the results for the EL2N score at epoch 20, the same cannot be said for the GraNd score at initialization. The GraNd scores later in training provide useful pruning signals, however. The GraNd score at initialization calculates the average gradient norm of an input sample across multiple randomly initialized models before any training has taken place. Our analysis reveals a strong correlation between the GraNd score at initialization and the input norm of a sample, suggesting that the latter could have been a cheap new baseline for data pruning. Unfortunately, neither the GraNd score at initialization nor the input norm surpasses random pruning in performance. This contradicts one of the findings in Paul et al. (2021). We were unable to reproduce their CIFAR-10 results using both an updated version of the original JAX repository and in a newly implemented PyTorch codebase. An investigation of the underlying JAX/FLAX code from 2021 surfaced a bug in the checkpoint restoring code that was fixed in April 2021 (https://github.com/google/flax/commit/28fbd95500f4bf2f9924d2560062fa50e919b1a5).
翻訳日:2023-03-28 17:41:56 公開日:2023-03-26
# 映像に基づく3次元人物空間のグローバル・ローカルモデリングと形状推定

Global-to-Local Modeling for Video-based 3D Human Pose and Shape Estimation ( http://arxiv.org/abs/2303.14747v1 )

ライセンス: Link先を確認
Xiaolong Shen, Zongxin Yang, Xiaohan Wang, Jianxin Ma, Chang Zhou, Yi Yang(参考訳) フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。 これらの2つのメトリクスは時間的一貫性の異なる範囲に責任があるが、既存の最先端の手法はそれらを統一された問題として扱い、ネットワークの設計には単調なモデリング構造(RNNやアテンションベースブロックなど)を使用する。 しかしながら、単一種類のモデリング構造を使用することは、短期的および長期的な時間的相関の学習のバランスをとることが困難であり、ネットワークをその1つに偏らせる可能性があるため、グローバルロケーションシフト、時間的不整合、局所的詳細の不足といった望ましくない予測につながる。 これらの問題を解決するため,エンドツーエンドのGlobal-to-Local Transformer (GLoT) において,長期的および短期的相関のモデル化を構造的に分離することを提案する。 まず, 長期モデリングのためのMasked Pose and Shape Estimation戦略により, グローバルトランスフォーマーを導入する。 この戦略はグローバルトランスフォーマーを刺激し、複数のフレームの特徴をランダムにマスキングすることで、フレーム間の相関をさらに学ぶ。 第2に、ローカルトランスフォーマーは、ヒューマンメッシュのローカル詳細を活用し、クロスアテンションを利用してグローバルトランスフォーマーと対話する責任がある。 さらに,非結合なグローバル局所表現と暗黙的キネマティック制約によってフレーム内推定を洗練するために階層的空間相関回帰器を導入する。 我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。 コードはhttps://github.com/sxl142/GLoTで入手できる。

Video-based 3D human pose and shape estimations are evaluated by intra-frame accuracy and inter-frame smoothness. Although these two metrics are responsible for different ranges of temporal consistency, existing state-of-the-art methods treat them as a unified problem and use monotonous modeling structures (e.g., RNN or attention-based block) to design their networks. However, using a single kind of modeling structure is difficult to balance the learning of short-term and long-term temporal correlations, and may bias the network to one of them, leading to undesirable predictions like global location shift, temporal inconsistency, and insufficient local details. To solve these problems, we propose to structurally decouple the modeling of long-term and short-term correlations in an end-to-end framework, Global-to-Local Transformer (GLoT). First, a global transformer is introduced with a Masked Pose and Shape Estimation strategy for long-term modeling. The strategy stimulates the global transformer to learn more inter-frame correlations by randomly masking the features of several frames. Second, a local transformer is responsible for exploiting local details on the human mesh and interacting with the global transformer by leveraging cross-attention. Moreover, a Hierarchical Spatial Correlation Regressor is further introduced to refine intra-frame estimations by decoupled global-local representation and implicit kinematic constraints. Our GLoT surpasses previous state-of-the-art methods with the lowest model parameters on popular benchmarks, i.e., 3DPW, MPI-INF-3DHP, and Human3.6M. Codes are available at https://github.com/sxl142/GLoT.
翻訳日:2023-03-28 17:41:34 公開日:2023-03-26
# 非マルコフ効果を含む導波管-QED系における巨大原子絡み合い

Giant-atom entanglement in waveguide-QED systems including non-Markovian effect ( http://arxiv.org/abs/2303.14746v1 )

ライセンス: Link先を確認
Xian-Li Yin, Jie-Qiao Liao(参考訳) 共用1次元導波路に結合した2つの巨大原子間の量子絡み合いの発生について検討する。 ここで、各巨大原子は2つの異なる結合点で導波路と相互作用する。 単一結合点に対するwigner-weisskopfフレームワークの中で、分割、連結、ネスト結合の3つの異なる結合構成で、2つの巨大原子の進化を支配する時間遅延量子マスター方程式を得る。 各結合構成について、まずは単励起状態と二重励起状態という2つの異なる分離状態にある巨大原子のマルコフ的および非マルコフ的絡み合いダイナミクスを考える。 その結果, 生成した絡み合いは, 位相シフト, 時間遅延, 原子初期状態, 結合構成に依存することがわかった。 単励起初期状態に対しては、暗黒状態の出現によりマルコフ系と非マルコフ系の両方において、各結合に対して定常状態の絡み合いが存在する。 二重励起初期状態については, 両レジームの位相シフトを調整し, 突然の絡み合いを観察した。 特に、ネストカップリングの最大到達可能な絡み合いは、分離結合および連結カップリングのそれよりも約1桁大きい。 また,これら3つの結合構成の最大絡み合いは,時間遅延が小さい場合にも拡張できることがわかった。 この研究は、量子情報処理に幅広い可能性を持つ巨大原子導波路-QED系に基づく量子ネットワークの絡み合いの生成と制御に利用することができる。

We study the generation of quantum entanglement between two giant atoms coupled to a common one-dimensional waveguide. Here each giant atom interacts with the waveguide at two separate coupling points. Within the Wigner-Weisskopf framework for single coupling points, we obtain the time-delayed quantum master equations governing the evolution of the two giant atoms for three different coupling configurations: separated, braided, and nested couplings. For each coupling configuration, we consider both the Markovian and non-Markovian entanglement dynamics of the giant atoms, which are initially in two different separable states: single- and double-excitation states. Our results show that the generated entanglement depends on the phase shift, time delay, atomic initial state, and the coupling configuration. For the single-excitation initial state, there exists the steady-state entanglement for each coupling in both the Markovian and non-Markovian regimes due to the appearance of the dark state. For the double-excitation initial state, we observe entanglement sudden birth via adjusting the phase shift in both regimes. In particular, the maximally achievable entanglement for the nested coupling is about one order of magnitude larger than those of separate and braided couplings. We also find that the maximal entanglement for these three coupling configurations can be enhanced in the case of small time delays. This work can be utilized for the generation and control of entanglement in quantum networks based on giant-atom waveguide-QED systems, which have wide potential applications in quantum information processing.
翻訳日:2023-03-28 17:41:02 公開日:2023-03-26
# 超次元計算によるてんかん検出のための一般モデルとパーソナライズドモデルの組み合わせ

Combining General and Personalized Models for Epilepsy Detection with Hyperdimensional Computing ( http://arxiv.org/abs/2303.14745v1 )

ライセンス: Link先を確認
Una Pale, Tomas Teijeiro, David Atienza(参考訳) てんかんは慢性神経疾患であり、有病率が高い。 しかし, 日常生活におけるてんかん検出と継続的な外来モニタリングを実現するための十分な技術支援はいまだにない。 超次元(HD)コンピューティングは、より単純な学習プロセスと低いメモリ要求によって特徴付けられるウェアラブルデバイスの興味深い代替手段である。 本研究では,hdコンピューティングと,そのモデルの構築と保存方法が,てんかん検出のためのより高度な機械学習モデルをさらに理解し,比較し,作成するためのいくつかの側面を実証する。 これらの可能性は、ランダムな森林やニューラルネットワークなど、他の最先端モデルでは実現不可能である。 異なるクラス毎のモデルのオブジェクト間類似性(セイズレと非セイズレ)を比較し、パーソナライズされたモデルから一般化されたモデルを作成する過程を研究し、最終的に、パーソナライズされたモデルと一般化されたモデルを組み合わせてハイブリッドモデルを作成する方法について研究する。 これによりてんかん検出性能が向上する。 また、2つの異なるデータセットで作成されたモデル間の知識転送もテストしました。 最後に、これらすべての例は、エンジニアリングの観点から、ウェアラブルのためのより良いモデルを作るだけでなく、個々のてんかんパターンをよりよく理解するための神経学的視点から、非常に興味深いものになり得る。

Epilepsy is a chronic neurological disorder with a significant prevalence. However, there is still no adequate technological support to enable epilepsy detection and continuous outpatient monitoring in everyday life. Hyperdimensional (HD) computing is an interesting alternative for wearable devices, characterized by a much simpler learning process and also lower memory requirements. In this work, we demonstrate a few additional aspects in which HD computing, and the way its models are built and stored, can be used for further understanding, comparing, and creating more advanced machine learning models for epilepsy detection. These possibilities are not feasible with other state-of-the-art models, such as random forests or neural networks. We compare inter-subject similarity of models per different classes (seizure and non-seizure), then study the process of creation of generalized models from personalized ones, and in the end, how to combine personalized and generalized models to create hybrid models. This results in improved epilepsy detection performance. We also tested knowledge transfer between models created on two different datasets. Finally, all those examples could be highly interesting not only from an engineering perspective to create better models for wearables, but also from a neurological perspective to better understand individual epilepsy patterns.
翻訳日:2023-03-28 17:40:40 公開日:2023-03-26
# Mind the Backbone:ロバストオブジェクト検出のためのバックボーン歪みの最小化

Mind the Backbone: Minimizing Backbone Distortion for Robust Object Detection ( http://arxiv.org/abs/2303.14744v1 )

ライセンス: Link先を確認
Kuniaki Saito, Donghyun Kim, Piotr Teterwak, Rogerio Feris, Kate Saenko(参考訳) ドメインシフトにロバストなオブジェクト検出器の構築は、現実世界のアプリケーションにとって非常に重要です。 以前のアプローチでは、事前トレーニングされたバックボーンを微調整し、それをin-distribution (id)データにオーバーフィットさせ、out-of-distribution (ood) 一般化に有用な特徴を歪めるリスクを負う。 本稿では,バックボーンの脆弱性を特徴的歪みを測定する手法としてRGN(Relative Gradient Norm)を提案し,高いRGNがOOD性能の低下と実際に相関していることを示す。 RGNの分析は興味深い結果をもたらす: 一部のバックボーンは微調整中にOODの堅牢性を失うが、そのアーキテクチャが初期モデルから過度にパラメータが変化するのを防ぐため、ロバスト性を失う。 これらの結果から,両バックボーンのOOD堅牢性を高めるためのレシピを提案する。 具体的には、調整したバックボーンが一般化可能な特徴を失うのを防ぐため、勾配更新を最小化するための正規化とアーキテクチャの選択について検討する。 提案手法は互いに補完し,多様なアーキテクチャやデータセットのベースラインよりも大幅に改善されている。

Building object detectors that are robust to domain shifts is critical for real-world applications. Prior approaches fine-tune a pre-trained backbone and risk overfitting it to in-distribution (ID) data and distorting features useful for out-of-distribution (OOD) generalization. We propose to use Relative Gradient Norm (RGN) as a way to measure the vulnerability of a backbone to feature distortion, and show that high RGN is indeed correlated with lower OOD performance. Our analysis of RGN yields interesting findings: some backbones lose OOD robustness during fine-tuning, but others gain robustness because their architecture prevents the parameters from changing too much from the initial model. Given these findings, we present recipes to boost OOD robustness for both types of backbones. Specifically, we investigate regularization and architectural choices for minimizing gradient updates so as to prevent the tuned backbone from losing generalizable features. Our proposed techniques complement each other and show substantial improvements over baselines on diverse architectures and datasets.
翻訳日:2023-03-28 17:40:19 公開日:2023-03-26
# 変圧器を用いたカモフラージュ物体検出のための特徴収縮ピラミッド

Feature Shrinkage Pyramid for Camouflaged Object Detection with Transformers ( http://arxiv.org/abs/2303.14816v1 )

ライセンス: Link先を確認
Zhou Huang, Hang Dai, Tian-Zhu Xiang, Shuo Wang, Huai-Xin Chen, Jie Qin, Huan Xiong(参考訳) 視覚トランスフォーマーは、最近、迷彩物体検出において強力なグローバルコンテキストモデリング能力を示している。 しかし、それらは2つの大きな制限に悩まされている: 有効でない局所性モデリングとデコーダの特徴集約が不十分であり、これは不明瞭な背景から微妙な手がかりを探索するカモフラージュされた物体検出とは無関係である。 そこで,本稿では,カモフラージュ物体検出のための漸進的縮小により,局所性に富んだ隣り合う変圧器機能を階層的にデコードすることを目的とした,新しい変圧器型特徴縮小ピラミッドネットワーク(fspnet)を提案する。 具体的には,非局所トークン拡張モジュール(NL-TEM)を提案する。NL-TEMは,非局所的な機構を用いて隣接するトークンと相互作用し,トークン内のグラフに基づく高次関係を探索し,トランスフォーマーの局所表現を強化する。 さらに,隣接する相互作用モジュール (AIM) を持つ機能縮小デコーダ (FSD) を設計し, 隣り合うトランスフォーマーの特徴を層間収縮ピラミッドを通じて徐々に集約し, オブジェクト情報の復号化に可能な限り有効な手がかりを蓄積する。 大規模な定量的および定性的な実験により、提案モデルが既存の24の競合相手に対して、6つの広く使用されている評価指標の下で3つの挑戦的なCODベンチマークデータセットで大きく上回っていることが示された。 私たちのコードはhttps://github.com/zhouhuang23/fspnetで公開されています。

Vision transformers have recently shown strong global context modeling capabilities in camouflaged object detection. However, they suffer from two major limitations: less effective locality modeling and insufficient feature aggregation in decoders, which are not conducive to camouflaged object detection that explores subtle cues from indistinguishable backgrounds. To address these issues, in this paper, we propose a novel transformer-based Feature Shrinkage Pyramid Network (FSPNet), which aims to hierarchically decode locality-enhanced neighboring transformer features through progressive shrinking for camouflaged object detection. Specifically, we propose a nonlocal token enhancement module (NL-TEM) that employs the non-local mechanism to interact neighboring tokens and explore graph-based high-order relations within tokens to enhance local representations of transformers. Moreover, we design a feature shrinkage decoder (FSD) with adjacent interaction modules (AIM), which progressively aggregates adjacent transformer features through a layer-bylayer shrinkage pyramid to accumulate imperceptible but effective cues as much as possible for object information decoding. Extensive quantitative and qualitative experiments demonstrate that the proposed model significantly outperforms the existing 24 competitors on three challenging COD benchmark datasets under six widely-used evaluation metrics. Our code is publicly available at https://github.com/ZhouHuang23/FSPNet.
翻訳日:2023-03-28 17:34:26 公開日:2023-03-26
# WinCLIP: Zero-/Few-Shot 異常分類とセグメンテーション

WinCLIP: Zero-/Few-Shot Anomaly Classification and Segmentation ( http://arxiv.org/abs/2303.14814v1 )

ライセンス: Link先を確認
Jongheon Jeong, Yang Zou, Taewan Kim, Dongqing Zhang, Avinash Ravichandran, Onkar Dabeer(参考訳) 視覚異常分類とセグメンテーションは産業品質検査の自動化に不可欠である。 この分野における先行研究の焦点は、タスク固有のイメージとアノテーションを必要とする品質検査タスクごとにカスタムモデルをトレーニングすることであった。 本稿では,ゼロショットと少数ノーマルショットの異常分類とセグメンテーションに対処して,この手法から脱却する。 最近のビジョン言語モデルであるCLIPは、フルスーパービジョンと比較して、競合するゼロショット/フェーショットのパフォーマンスで革命的な一般性を示している。 しかし、CLIPは異常分類とセグメンテーションタスクでは不足している。 そこで我々は,(1)状態語とプロンプトテンプレートに合成アンサンブルを付加したウィンドウベースCLIP(WinCLIP)を提案し,(2)テキストに整合したウィンドウ/パッチ/イメージレベルの特徴の効率的な抽出と集約を行う。 また,通常の画像からの補完情報を利用する,少数正規ショット拡張WinCLIP+を提案する。 MVTec-AD(およびVisA)では、WinCLIPは91.8%/85.1% (78.1%/79.6%)を達成し、WinCLIP+は93.1%/95.2% (83.8%/96.4%)を1ノーマルショットで達成し、最先端の技術をはるかに上回っている。

Visual anomaly classification and segmentation are vital for automating industrial quality inspection. The focus of prior research in the field has been on training custom models for each quality inspection task, which requires task-specific images and annotation. In this paper we move away from this regime, addressing zero-shot and few-normal-shot anomaly classification and segmentation. Recently CLIP, a vision-language model, has shown revolutionary generality with competitive zero-/few-shot performance in comparison to full-supervision. But CLIP falls short on anomaly classification and segmentation tasks. Hence, we propose window-based CLIP (WinCLIP) with (1) a compositional ensemble on state words and prompt templates and (2) efficient extraction and aggregation of window/patch/image-level features aligned with text. We also propose its few-normal-shot extension WinCLIP+, which uses complementary information from normal images. In MVTec-AD (and VisA), without further tuning, WinCLIP achieves 91.8%/85.1% (78.1%/79.6%) AUROC in zero-shot anomaly classification and segmentation while WinCLIP+ does 93.1%/95.2% (83.8%/96.4%) in 1-normal-shot, surpassing state-of-the-art by large margins.
翻訳日:2023-03-28 17:34:01 公開日:2023-03-26
# ゴール条件強化学習を用いた生成モデル学習

Learning Generative Models with Goal-conditioned Reinforcement Learning ( http://arxiv.org/abs/2303.14811v1 )

ライセンス: Link先を確認
Mariana Vargas Vieyra, Pierre M\'enard(参考訳) 目標条件付き強化学習を用いた生成モデル学習のための,新しい代替フレームワークを提案する。 目標条件付きエージェント(GCエージェント)と監視エージェント(Sエージェント)の2つのエージェントを定義した。 ユーザ入力の初期状態が与えられると、gcエージェントはトレーニングセットの再構築を学習する。 この文脈では、トレーニングセットの要素は目標です。 訓練中、Sエージェントは目標を知らないままGCエージェントを模倣することを学ぶ。 S-エージェントで新しいサンプルを生成する。 変分オートエンコーダと同様に、再構成項とgcエージェントポリシーと(goal非依存)sエージェントポリシーの相違からなる負のログライク性の上界を導出する。 本手法は画像合成のタスクにおいて多様で高品質なサンプルを生成できることを実証的に証明する。

We present a novel, alternative framework for learning generative models with goal-conditioned reinforcement learning. We define two agents, a goal conditioned agent (GC-agent) and a supervised agent (S-agent). Given a user-input initial state, the GC-agent learns to reconstruct the training set. In this context, elements in the training set are the goals. During training, the S-agent learns to imitate the GC-agent while remaining agnostic of the goals. At inference we generate new samples with the S-agent. Following a similar route as in variational auto-encoders, we derive an upper bound on the negative log-likelihood that consists of a reconstruction term and a divergence between the GC-agent policy and the (goal-agnostic) S-agent policy. We empirically demonstrate that our method is able to generate diverse and high quality samples in the task of image synthesis.
翻訳日:2023-03-28 17:33:30 公開日:2023-03-26
# コントラスト変換器:トランスフォーマー固有のパッチを用いたコントラスト学習方式

Contrastive Transformer: Contrastive Learning Scheme with Transformer innate Patches ( http://arxiv.org/abs/2303.14806v1 )

ライセンス: Link先を確認
Sander Riis{\o}en Jyhne, Per-Arne Andersen, Morten Goodwin(参考訳) 本稿では,Transformer固有のパッチを用いたコントラスト学習方式であるContrastive Transformerを提案する。 Contrastive Transformerは、画像分類によく使用される既存のコントラスト学習技術を提供し、セマンティックセグメンテーションのような下流の密集した予測タスクに役立てる。 このスキームは、教師付きパッチレベルのコントラスト学習を行い、地上の真理マスクに基づいてパッチを選択し、その後、ハードネガティブおよびハード陽性サンプリングに使用される。 このスキームは、すべての視覚変換アーキテクチャに適用され、実装が容易であり、最小限のメモリフットプリントを導入する。 さらに、このスキームは、各パッチがイメージとして扱われるため、巨大なバッチサイズの必要性を取り除く。 本研究では,低分解能データ,大等級不均衡,類似意味クラスで知られている空中画像セグメンテーションにContrastive Transformerを適用して検証する。 ISPRS Potsdam空中画像セグメンテーションデータセットにおけるContrastive Transformerスキームの有効性を示すための広範な実験を行った。 さらに,複数の異なるトランスフォーマーアーキテクチャに適用することで,本手法の一般化可能性を示す。 最終的に、結果はすべてのクラスで平均IoUが一貫した増加を示した。

This paper presents Contrastive Transformer, a contrastive learning scheme using the Transformer innate patches. Contrastive Transformer enables existing contrastive learning techniques, often used for image classification, to benefit dense downstream prediction tasks such as semantic segmentation. The scheme performs supervised patch-level contrastive learning, selecting the patches based on the ground truth mask, subsequently used for hard-negative and hard-positive sampling. The scheme applies to all vision-transformer architectures, is easy to implement, and introduces minimal additional memory footprint. Additionally, the scheme removes the need for huge batch sizes, as each patch is treated as an image. We apply and test Contrastive Transformer for the case of aerial image segmentation, known for low-resolution data, large class imbalance, and similar semantic classes. We perform extensive experiments to show the efficacy of the Contrastive Transformer scheme on the ISPRS Potsdam aerial image segmentation dataset. Additionally, we show the generalizability of our scheme by applying it to multiple inherently different Transformer architectures. Ultimately, the results show a consistent increase in mean IoU across all classes.
翻訳日:2023-03-28 17:33:18 公開日:2023-03-26
# 複合ボソニックジョセフソン接合の平衡外ダイナミクスにおける多体効果

Many-body effects in the out-of-equilibrium dynamics of a composite bosonic Josephson junction ( http://arxiv.org/abs/2303.14804v1 )

ライセンス: Link先を確認
Sudip Kumar Haldar, Anal Bhowmik, Ofir E. Alon(参考訳) 一次元複合二重井戸ポテンシャルに閉じ込められたボース気体の平衡外多体量子力学は、ボソン(MCTDHB)法を用いて、多体シュリンガー方程式を数値的に解くことによって研究される。 複合ダブルウェルは、中央にハンプを有する2つの変形した高調波井戸をマージして形成される。 生存確率,フラグメンテーション,多粒子位置および運動量分散の時間的進化により,そのダイナミクスを特徴づけた。 本研究は、高軌道が動力学的に果たす顕著な役割を実証し、複雑な多体力学を正確に記述するために、関連する全ての軌道を考慮に入れたMCTDHBのような多体技術の必要性を強調した。 さらに,特定の相互作用強度に対応する粒子数に対する断片化の普遍性も高次軌道で示されることを示した。 したがって、2つの軌道のみによって記述できる系に限定されないロバストな現象である。

The out-of-equilibrium many-body quantum dynamics of an interacting Bose gas trapped in a one-dimensional composite double-well potential is studied by solving the many-body Schr\"odinger equation numerically accurately by employing the multiconfigurational time-dependent Hartree for bosons (MCTDHB) method. The composite double-well is formed by merging two deformed harmonic wells having a hump at their centre. We characterised the dynamics by the time evolution of survival probability, fragmentation, and many-particle position and momentum variances. Our study demonstrates the prominent role played by the higher orbitals in the dynamics and thereby highlighted the necessity of a many-body technique like MCTDHB which can take into account all the relevant orbitals for the accurate description of complex many-body dynamics. Further, we showed that the universality of fragmentation with respect to the number of particles corresponding to a particular interaction strength is also exhibited by the higher-order orbitals. Therefore, it is a robust phenomenon not limited to systems that can be described by two orbitals only.
翻訳日:2023-03-28 17:32:56 公開日:2023-03-26
# 非配向曲面上の非対称量子符号

Asymmetric quantum codes on non-orientable surfaces ( http://arxiv.org/abs/2303.14803v1 )

ライセンス: Link先を確認
Waldir S. Soares Jr., Douglas F. Copatti, Giuliano G. La Guardia and Eduardo B. Silva(参考訳) 本稿では,非対称な量子曲面符号(AQSC)の新しい族を,双曲幾何学のツールを適用して$g\geq 2$の非配向曲面上に構築する。 より正確には、非配向曲面の種数$g$が偶数$(g=2h)$であるなら、対応するAQSCのパラメータは、種数$h$の配向曲面から得られる曲面コードのパラメータと等しいことを証明している。 さらに、$s$ が $g$ の向き付け不可能な曲面であれば、$s$ 上の $\{p, q\}$ 上の新しい曲面コードは、同じ $\{p, q\}$ の向き付け可能な曲面上に構築された aqsc の比率より、$k/n$ の比率が良いことを示す。

In this paper, we construct new families of asymmetric quantum surface codes (AQSCs) over non-orientable surfaces of genus $g\geq 2$ by applying tools of hyperbolic geometry. More precisely, we prove that if the genus $g$ of a non-orientable surface is even $(g=2h)$, then the parameters of the corresponding AQSC are equal to the parameters of a surface code obtained from an orientable surface of genus $h$. Additionally, if $S$ is a non-orientable surface of genus $g$, we show that the new surface code constructed on a $\{p, q\}$ tessellation over $S$ has the ratio $k/n$ better than the ratio of an AQSC constructed on the same $\{p, q\}$ tessellation over an orientable surface of the same genus $g$.
翻訳日:2023-03-28 17:32:37 公開日:2023-03-26
# FAStEN:高次元機能回帰における特徴選択と推定のための効率的な適応手法

FAStEN: an efficient adaptive method for feature selection and estimation in high-dimensional functional regressions ( http://arxiv.org/abs/2303.14801v1 )

ライセンス: Link先を確認
Tobia Boschi, Lorenzo Testa, Francesca Chiaromonte, Matthew Reimherr(参考訳) 関数回帰分析は、現代の多くの科学応用において確立されたツールである。 大規模で複雑なデータセットを含む回帰問題はユビキタスであり、オーバーフィットを避け、正確な予測を達成するためには特徴選択が不可欠である。 スパース高次元関数オンファンクション回帰問題において特徴選択を行うための新しい,柔軟で,超効率的なアプローチを提案し,それをスカラー・オンファンクション・フレームワークに拡張する方法を示す。 本手法は,機能データ,最適化,機械学習技術を組み合わせることで,特徴選択とパラメータ推定を同時に行う。 機能主成分の性質と2重拡張ラグランジアン問題に固有のスパーシティを利用して計算コストを大幅に削減し,選択精度を向上させる適応スキームを提案する。 広範なシミュレーション研究を通じて,提案手法を既存の競争相手に対してベンチマークし,係数の質を犠牲にすることなく,cpu時間と選択性能の面での大幅な向上を実証した。 最後に、AOMIC PIOP1による脳MRIデータへの応用について述べる。

Functional regression analysis is an established tool for many contemporary scientific applications. Regression problems involving large and complex data sets are ubiquitous, and feature selection is crucial for avoiding overfitting and achieving accurate predictions. We propose a new, flexible, and ultra-efficient approach to perform feature selection in a sparse high dimensional function-on-function regression problem, and we show how to extend it to the scalar-on-function framework. Our method combines functional data, optimization, and machine learning techniques to perform feature selection and parameter estimation simultaneously. We exploit the properties of Functional Principal Components, and the sparsity inherent to the Dual Augmented Lagrangian problem to significantly reduce computational cost, and we introduce an adaptive scheme to improve selection accuracy. Through an extensive simulation study, we benchmark our approach to the best existing competitors and demonstrate a massive gain in terms of CPU time and selection performance without sacrificing the quality of the coefficients' estimation. Finally, we present an application to brain fMRI data from the AOMIC PIOP1 study.
翻訳日:2023-03-28 17:32:19 公開日:2023-03-26
# 磁場中の電子のヘリカルビーム : schr\"odinger方程式とdirac方程式の新しい解析解

Helical beams of electrons in a magnetic field: New analytic solutions of the Schr\"odinger and Dirac equations ( http://arxiv.org/abs/2303.14797v1 )

ライセンス: Link先を確認
Iwo Bialynicki-Birula and Zofia Bialynicka-Birula(参考訳) 我々は,一様磁場中の粒子の運動を記述するschr\"odinger,klein-gordon,dirac方程式の新しい解を導出する。 定常解とは対照的に、我々の解は古典的なヘリカル軌道と非常によく似た量子粒子の挙動を示す。 これらの解は相対論的量子力学におけるエーレンフェスト定理の意味のイラストとしても役立つ。

We derive new solutions of the Schr\"odinger, Klein-Gordon and Dirac equations which describe the motion of particles in a uniform magnetic field. In contrast to the well known stationary solutions, our solutions exhibit the behavior of quantum particles which very closely resembles classical helical trajectories. These solutions also serve as an illustration of the meaning of the Ehrenfest theorem in relativistic quantum mechanics.
翻訳日:2023-03-28 17:32:01 公開日:2023-03-26
# 正方形Jigsawパズル解法のための多相緩和ラベル

Multi-Phase Relaxation Labeling for Square Jigsaw Puzzle Solving ( http://arxiv.org/abs/2303.14793v1 )

ライセンス: Link先を確認
Ben Vardi, Alessandro Torcinovich, Marina Khoroshiltseva, Marcello Pelillo, Ohad Ben-Shahar(参考訳) 本稿では,グローバル最適化に基づく正方形ジグソーパズルの解法を提案する。 この手法は完全に自動的であり、事前情報を前提とせず、既知のあるいは未知のピース指向を持つパズルを扱うことができる。 最適化プロセスの中核は非線形緩和ラベル付けであり,局所的な制約から大域解を導出するためのよく確立された手法であるが,ここでは古典的スキームと異なり,実現可能なパズル解への収束を保証する多相法を提案する。 アルゴリズムの新規性に加えて,隣接するパズルピース間の親和性の定量化のための新しい互換性関数も提示する。 競合的な結果とマルチフェーズアプローチの利点は、標準データセット上で実証される。

We present a novel method for solving square jigsaw puzzles based on global optimization. The method is fully automatic, assumes no prior information, and can handle puzzles with known or unknown piece orientation. At the core of the optimization process is nonlinear relaxation labeling, a well-founded approach for deducing global solutions from local constraints, but unlike the classical scheme here we propose a multi-phase approach that guarantees convergence to feasible puzzle solutions. Next to the algorithmic novelty, we also present a new compatibility function for the quantification of the affinity between adjacent puzzle pieces. Competitive results and the advantage of the multi-phase approach are demonstrated on standard datasets.
翻訳日:2023-03-28 17:31:53 公開日:2023-03-26
# 動的誘導学習を用いたプログレッシブフュージョン変換器によるRGBT追跡

RGBT Tracking via Progressive Fusion Transformer with Dynamically Guided Learning ( http://arxiv.org/abs/2303.14778v1 )

ライセンス: Link先を確認
Yabin Zhu, Chenglong Li, Xiao Wang, Jin Tang, Zhixiang Huang(参考訳) 既存のTransformerベースのRGBTトラッキング手法では、2つのモダリティを融合するためにクロスアテンションを使用するか、自己アテンションとクロスアテンションを使用してモダリティ固有情報とモダリティ共有情報の両方をモデル化する。 しかしながら、モダリティ間の顕著な外観ギャップは、融合過程における特定のモダリティの特徴表現能力を制限する。 そこで本研究では,ロバストなrgbt追跡のためのマルチモーダル表現に単一モダリティ情報を段階的に統合するプログレッシブ・フュージョントランスフォーマを提案する。 特にProFormerは、まず自己注意モジュールを使用してマルチモーダル表現を協調的に抽出し、次に2つの相互注意モジュールを使用してそれぞれ二重モーダルの特徴と相互作用する。 このように、モダリティ固有の情報はマルチモーダル表現で活性化することができる。 最後に、フィードフォワードネットワークを用いて、2つの相互作用したマルチモーダル表現を融合し、最終的なマルチモーダル表現をさらに強化する。 さらに、既存のRGBTトラッカーの学習手法は、最終分類のためにマルチモーダル特徴を1つに融合するか、競争的学習戦略を通じて単調分岐と融合分岐の関係を利用する。 しかし、単一のモダリティブランチの学習を無視したり、ひとつのブランチが適切に最適化されない結果になる。 これらの問題を解決するために,各分岐の表現能力を高めるために,順応的に優れた分岐を用いて他の分岐の学習を誘導する動的学習アルゴリズムを提案する。 提案するproformerは,rgbt210,rgbt234,lasher,vtuavデータセットに新たな最先端性能をセットする。

Existing Transformer-based RGBT tracking methods either use cross-attention to fuse the two modalities, or use self-attention and cross-attention to model both modality-specific and modality-sharing information. However, the significant appearance gap between modalities limits the feature representation ability of certain modalities during the fusion process. To address this problem, we propose a novel Progressive Fusion Transformer called ProFormer, which progressively integrates single-modality information into the multimodal representation for robust RGBT tracking. In particular, ProFormer first uses a self-attention module to collaboratively extract the multimodal representation, and then uses two cross-attention modules to interact it with the features of the dual modalities respectively. In this way, the modality-specific information can well be activated in the multimodal representation. Finally, a feed-forward network is used to fuse two interacted multimodal representations for the further enhancement of the final multimodal representation. In addition, existing learning methods of RGBT trackers either fuse multimodal features into one for final classification, or exploit the relationship between unimodal branches and fused branch through a competitive learning strategy. However, they either ignore the learning of single-modality branches or result in one branch failing to be well optimized. To solve these problems, we propose a dynamically guided learning algorithm that adaptively uses well-performing branches to guide the learning of other branches, for enhancing the representation ability of each branch. Extensive experiments demonstrate that our proposed ProFormer sets a new state-of-the-art performance on RGBT210, RGBT234, LasHeR, and VTUAV datasets.
翻訳日:2023-03-28 17:31:41 公開日:2023-03-26
# びまん性グリオーマ分類のための組織学と分子マーカーのマルチタスク学習

Multi-task Learning of Histology and Molecular Markers for Classifying Diffuse Glioma ( http://arxiv.org/abs/2303.14845v1 )

ライセンス: Link先を確認
Xiaofei Wang and Stephen Price and Chao Li(参考訳) 最近のがんの病理診断は、分子製造と組織学的特徴の統合にシフトしつつある。 分子マーカーと組織学を効果的に統合するデジタル病理学法が緊急に必要であり、現実世界のシナリオにおいてより正確な診断につながる可能性がある。 本稿では,分子マーカーと組織学的特徴を共同で予測し,その相互作用をモデル化するための最初の試みについて述べる。 具体的には,組織学と分子マーカーを共同で予測する階層型マルチタスクマルチインスタンス学習フレームワークを提案する。 さらに,分子マーカーの共起をモデル化する共起確率に基づくラベル補正グラフネットワークを提案する。 最後に,組織学と分子マーカーの相互作用をモデル化するために,動的信頼度制約損失を伴うオミック間相互作用戦略を設計する。 実験により, 拡散グリオーマの分類法や, 関連組織学, 分子マーカーを多施設データセットで比較した。

Most recently, the pathology diagnosis of cancer is shifting to integrating molecular makers with histology features. It is a urgent need for digital pathology methods to effectively integrate molecular markers with histology, which could lead to more accurate diagnosis in the real world scenarios. This paper presents a first attempt to jointly predict molecular markers and histology features and model their interactions for classifying diffuse glioma bases on whole slide images. Specifically, we propose a hierarchical multi-task multi-instance learning framework to jointly predict histology and molecular markers. Moreover, we propose a co-occurrence probability-based label correction graph network to model the co-occurrence of molecular markers. Lastly, we design an inter-omic interaction strategy with the dynamical confidence constraint loss to model the interactions of histology and molecular markers. Our experiments show that our method outperforms other state-of-the-art methods in classifying diffuse glioma,as well as related histology and molecular markers on a multi-institutional dataset.
翻訳日:2023-03-28 17:26:01 公開日:2023-03-26
# 量子ニューラルネットワークにおける収束解析:ニューラルタンジェントカーネルからの逸脱

Analyzing Convergence in Quantum Neural Networks: Deviations from Neural Tangent Kernels ( http://arxiv.org/abs/2303.14844v1 )

ライセンス: Link先を確認
Xuchen You, Shouvanik Chakrabarti, Boyang Chen, Xiaodi Wu(参考訳) 量子ニューラルネットワーク(QNN)は、近未来のノイズ中間スケール量子(NISQ)コンピュータで効率的に実装できるパラメータ化マッピングである。 古典的な勾配に基づく最適化と組み合わせることで教師あり学習に利用できる。 既存の実証的および理論的研究にもかかわらず、QNNトレーニングの収束は完全には理解されていない。 古典的ニューラルネットワークの力学を探索する上でのニューラルタンジェントカーネル(NTK)の成功に触発された最近の研究は、タンジェントカーネルの量子バージョンを調べることによって、過度にパラメータ化されたQNNを研究することを提案する。 本研究では,量子演算のユニタリティにより,ランダム初期化で導出される接核回帰から得られる非無視可能な偏差が存在することを,qnnの動力学を考察し,一般の考え方とは定性的に異なることを示した。 偏差の結果として、任意の核回帰ダイナミクスの説明力を超えたポーリの測定値を持つqnnの最大部分線型収束が証明される。 次に、超パラメータ化の限界におけるQNNの実際のダイナミクスを示す。 新しいダイナミクスは、トレーニング中の収束率の変化を捉え、測定範囲が高速なQNN収束にとって重要であることを示唆している。

A quantum neural network (QNN) is a parameterized mapping efficiently implementable on near-term Noisy Intermediate-Scale Quantum (NISQ) computers. It can be used for supervised learning when combined with classical gradient-based optimizers. Despite the existing empirical and theoretical investigations, the convergence of QNN training is not fully understood. Inspired by the success of the neural tangent kernels (NTKs) in probing into the dynamics of classical neural networks, a recent line of works proposes to study over-parameterized QNNs by examining a quantum version of tangent kernels. In this work, we study the dynamics of QNNs and show that contrary to popular belief it is qualitatively different from that of any kernel regression: due to the unitarity of quantum operations, there is a non-negligible deviation from the tangent kernel regression derived at the random initialization. As a result of the deviation, we prove the at-most sublinear convergence for QNNs with Pauli measurements, which is beyond the explanatory power of any kernel regression dynamics. We then present the actual dynamics of QNNs in the limit of over-parameterization. The new dynamics capture the change of convergence rate during training and implies that the range of measurements is crucial to the fast QNN convergence.
翻訳日:2023-03-28 17:25:44 公開日:2023-03-26
# 深度3次元視覚課題における精密幾何データの重要性について

On the Importance of Accurate Geometry Data for Dense 3D Vision Tasks ( http://arxiv.org/abs/2303.14840v1 )

ライセンス: Link先を確認
HyunJun Jung, Patrick Ruhkamp, Guangyao Zhai, Nikolas Brasch, Yitong Li, Yannick Verdie, Jifei Song, Yiren Zhou, Anil Armagan, Slobodan Ilic, Ales Leonardis, Nassir Navab, Benjamin Busam(参考訳) 密集した3D視覚問題を解決する学習ベースの手法は、通常3Dセンサーのデータに基づいて訓練される。 それぞれの測定距離の原理は、利点と欠点をもたらす。 これらは典型的には、マルチモーダルデータセットが欠如しているため、文献では比較も議論もされない。 テクスチャレス領域は、動きやステレオからの構造に問題があり、反射材料はアクティブセンシングに問題を引き起こし、透明な物体の距離は既存のハードウェアで測定するために複雑である。 不正確または破損したデータのトレーニングは、モデルバイアスとハッパー一般化能力を誘導する。 これらの影響は、評価中にセンサ測定が基礎的真理と見なされる場合、注目されない。 本稿では,深度推定と再構成の密集した3次元視覚課題に対するセンサ誤差の影響について検討する。 センサ特性が学習予測に及ぼす影響を厳密に示し,日常生活環境における各種技術から生じる一般化問題に注目する。 評価のために、D-ToF、I-ToF、パッシブ/アクティブステレオ、モノクラーRGB+Pといったコモディティセンサーからの測定値を含む、https://github.com/Junggy/HAMMER-dataset}で利用可能なデータセットを慎重に設計した。 本研究は、センサノイズの影響を定量化し、高密度視力推定とターゲットデータ融合を改善する方法について検討する。

Learning-based methods to solve dense 3D vision problems typically train on 3D sensor data. The respectively used principle of measuring distances provides advantages and drawbacks. These are typically not compared nor discussed in the literature due to a lack of multi-modal datasets. Texture-less regions are problematic for structure from motion and stereo, reflective material poses issues for active sensing, and distances for translucent objects are intricate to measure with existing hardware. Training on inaccurate or corrupt data induces model bias and hampers generalisation capabilities. These effects remain unnoticed if the sensor measurement is considered as ground truth during the evaluation. This paper investigates the effect of sensor errors for the dense 3D vision tasks of depth estimation and reconstruction. We rigorously show the significant impact of sensor characteristics on the learned predictions and notice generalisation issues arising from various technologies in everyday household environments. For evaluation, we introduce a carefully designed dataset\footnote{dataset available at https://github.com/Junggy/HAMMER-dataset} comprising measurements from commodity sensors, namely D-ToF, I-ToF, passive/active stereo, and monocular RGB+P. Our study quantifies the considerable sensor noise impact and paves the way to improved dense vision estimates and targeted data fusion.
翻訳日:2023-03-28 17:25:22 公開日:2023-03-26
# 局所双曲系における局所化から一様スクランブルへの動的遷移

A dynamical transition from localized to uniform scrambling in locally hyperbolic systems ( http://arxiv.org/abs/2303.14839v1 )

ライセンス: Link先を確認
Mathias Steinhuber, Peter Schlagheck, Juan Diego Urbina, Klaus Richter(参考訳) 量子相関の高速スクランブルは、短いehrenfest時間スケールでの時間外コリケータ(otocs)の指数的成長に反映され、古典的限界を持つ量子システムにおける量子カオスの主要なシグネチャと見なされる。 Hummelらによる最近の2つの作品。 [1] および Scaffidi et al による。 [2],不安定不動点付近に半古典的に局在する初期状態や完全非局在化(無限温度)により,可積分性(多体)系のスクランブルレートに有意差が認められた。 具体的には、量子 Lyapunov exponent $\lambda_{\rm q}$ OTOC の成長を定量化する量子 Lyapunov exponent $\lambda_{\rm q}=2\lambda_{\rm s}$ または $\lambda_{\rm q}=\lambda_{\rm w}$ によって、双曲的不動点の安定性指数 $\lambda_{\rm s}$ で与えられる。 ここでは、この固定点付近に最初に局在したウェーブパケットが、これらの2つの領域間で異なる(it dynamical)遷移を特徴とすることを示す。 本稿では,この現象の物理像を提供する解析的半古典的アプローチを提案し,Bose-Hubbardダイマーの局所不安定なダイナミクスのパラメータ範囲全体における広範な数値シミュレーションにより,我々の研究結果を支援する。 この遷移の存在は、可積分系における不安定なセパラトリクス力学の指標であることを示す。 これにより、指数関数的なオトク成長挙動の中で、不安定な可積分(多体)ダイナミクスと、均一な成長を特徴とする真のカオスダイナミクスを区別することができる。

Fast scrambling of quantum correlations, reflected by the exponential growth of Out-of-Time-Order Correlators (OTOCs) on short pre-Ehrenfest time scales, is commonly considered as a major signature of quantum chaos in quantum systems with a classical limit. In two recent works, by Hummel et al. [1] and by Scaffidi et al. [2], a significant difference in the scrambling rate of integrable (many-body) systems was observed, depending on the initial state being semiclassically localized around unstable fixed points or fully delocalized (infinite temperature). Specifically, the quantum Lyapunov exponent $\lambda_{\rm q}$ quantifying the OTOC growth is given, respectively, by $\lambda_{\rm q}=2\lambda_{\rm s}$ or $\lambda_{\rm q}=\lambda_{\rm w}$ in terms of the stability exponent $\lambda_{\rm s}$ of the hyperbolic fixed point. Here we show that a wave packet, initially localized around this fixed point, features a distinct {\it dynamical} transition between these two regions. We present an analytical semiclassical approach providing a physical picture of this phenomenon and support our findings by extensive numerical simulations in the whole parameter range of locally unstable dynamics of a Bose-Hubbard dimer. Our results suggest that the existence of this transition is a hallmark of unstable separatrix dynamics in integrable systems. This allows one to distinguish, within the exponential OTOC growth behavior, unstable integrable (many-body) dynamics from genuine chaotic dynamics featuring uniform growth.
翻訳日:2023-03-28 17:24:59 公開日:2023-03-26
# ハンドメッシュと生体力学的に可能な運動パラメータの軽量推定

Lightweight Estimation of Hand Mesh and Biomechanically Feasible Kinematic Parameters ( http://arxiv.org/abs/2303.14838v1 )

ライセンス: Link先を確認
Zhipeng Fan and Yao Wang(参考訳) 3dハンドポーズ推定は、暗黙の奥行きあいまいさとしばしば強い自己完結性のため、ロボティクスとコンピュータビジョンのコミュニティの両方にとって長年の課題である。 近年,手足の骨格に加え,手ポーズと形状の同時推定が注目されている。 state-of-the-artメソッドは、モデルフリーアプローチを採用し、ハンドメッシュの頂点を直接推定し、パラメトリックハンドメッシュのパラメータを直接レグレッションする従来のモデルベースメソッドよりも優れた精度を提供する。 しかしながら、推定すべきメッシュ頂点の数が多いため、これらのメソッドは推論が遅いことが多い。 画像から手メッシュを効率的に推定するために,従来提案していた画像-画像-画像間アプローチの効率的なバリエーションを提案する。 近年の効率的なニューラルアーキテクチャの進歩を活かし,推定精度を犠牲にすることなく計算量を大幅に削減した。 さらに,ロボットハンドを制御するためにポーズ推定を利用するために必要となる,生体力学的に実現可能な関節回転パラメータのセットに,推定ハンドメッシュを変換する逆キネマティック(IK)ネットワークを導入する。 最後に, ikネットがもたらした誤差を補償するために, 回転パラメータと形状パラメータを洗練するために, 任意後処理モジュールを提案する。 我々の Lite I2L Mesh Net は、元の I2L ハンドメッシュ推定器の計算複雑性の総和を 13 % 以下で、最先端の関節およびメッシュ推定精度を達成する。 ik netとポスト最適化モジュールの追加は、小さな計算コストでわずかに精度を向上させることができるが、より重要なことは、ロボットアプリケーションに必要な運動パラメータを提供する。

3D hand pose estimation is a long-standing challenge in both robotics and computer vision communities due to its implicit depth ambiguity and often strong self-occlusion. Recently, in addition to the hand skeleton, jointly estimating hand pose and shape has gained more attraction. State-of-the-art methods adopt a model-free approach, estimating the vertices of the hand mesh directly and providing superior accuracy compared to traditional model-based methods directly regressing the parameters of the parametric hand mesh. However, with the large number of mesh vertices to estimate, these methods are often slow in inference. We propose an efficient variation of the previously proposed image-to-lixel approach to efficiently estimate hand meshes from the images. Leveraging recent developments in efficient neural architectures, we significantly reduce the computation complexity without sacrificing the estimation accuracy. Furthermore, we introduce an inverted kinematic(IK) network to translate the estimated hand mesh to a biomechanically feasible set of joint rotation parameters, which is necessary for applications that leverage pose estimation for controlling robotic hands. Finally, an optional post-processing module is proposed to refine the rotation and shape parameters to compensate for the error introduced by the IK net. Our Lite I2L Mesh Net achieves state-of-the-art joint and mesh estimation accuracy with less than $13\%$ of the total computational complexity of the original I2L hand mesh estimator. Adding the IK net and post-optimization modules can improve the accuracy slightly at a small computation cost, but more importantly, provide the kinematic parameters required for robotic applications.
翻訳日:2023-03-28 17:24:19 公開日:2023-03-26
# Illuminati: サイバーセキュリティ分析のためのグラフニューラルネットワークの解説

Illuminati: Towards Explaining Graph Neural Networks for Cybersecurity Analysis ( http://arxiv.org/abs/2303.14836v1 )

ライセンス: Link先を確認
Haoyu He, Yuede Ji, H. Howie Huang(参考訳) グラフニューラルネットワーク(gnns)は、不正検出からソフトウェア脆弱性解析まで、多くのサイバーセキュリティアプリケーションのための多層グラフモデルの作成に利用されている。 残念ながら、従来のニューラルネットワークと同様に、GNNも透明性の欠如に悩まされている。 以前の研究は、GNNモデルの特定の要因の説明に焦点を当てていた。 本研究では,GNNモデルを用いたサイバーセキュリティアプリケーションのための包括的かつ正確な説明フレームワークであるIlluminatiを設計,実装した。 グラフと事前訓練されたGNNモデルによって、IlluminatiはGNNモデルの事前知識を必要とせず、予測に寄与する重要なノード、エッジ、属性を特定できる。 Illuminatiを2つのサイバーセキュリティアプリケーション、すなわちコード脆弱性検出とスマートコントラクト脆弱性検出で評価する。 実験の結果、illuminatiは最先端の手法よりも正確な説明結果を得ることができ、illuminatiが特定したサブグラフの87.6%は元の予測を保ち、77.3%で他のグラフよりも10.3%向上した。 さらに、Illuminatiの説明はドメインの専門家によって容易に理解でき、サイバーセキュリティアプリケーションの開発に重要な有用性を示している。

Graph neural networks (GNNs) have been utilized to create multi-layer graph models for a number of cybersecurity applications from fraud detection to software vulnerability analysis. Unfortunately, like traditional neural networks, GNNs also suffer from a lack of transparency, that is, it is challenging to interpret the model predictions. Prior works focused on specific factor explanations for a GNN model. In this work, we have designed and implemented Illuminati, a comprehensive and accurate explanation framework for cybersecurity applications using GNN models. Given a graph and a pre-trained GNN model, Illuminati is able to identify the important nodes, edges, and attributes that are contributing to the prediction while requiring no prior knowledge of GNN models. We evaluate Illuminati in two cybersecurity applications, i.e., code vulnerability detection and smart contract vulnerability detection. The experiments show that Illuminati achieves more accurate explanation results than state-of-the-art methods, specifically, 87.6% of subgraphs identified by Illuminati are able to retain their original prediction, an improvement of 10.3% over others at 77.3%. Furthermore, the explanation of Illuminati can be easily understood by the domain experts, suggesting the significant usefulness for the development of cybersecurity applications.
翻訳日:2023-03-28 17:23:50 公開日:2023-03-26
# SEM-POS: 文法的にも意味的にも正しいビデオキャプション

SEM-POS: Grammatically and Semantically Correct Video Captioning ( http://arxiv.org/abs/2303.14829v1 )

ライセンス: Link先を確認
Asmar Nadeem, Adrian Hilton, Robert Dawes, Graham Thomas, Armin Mustafa(参考訳) ビデオキャプションにおいて、文法的かつ意味的に正しいキャプションを生成することは難しい課題である。 既存の方法から生成されたキャプションは、文法構造と一致しない単語単位か、入力されたビデオからのキー情報を見落としている。 これらの問題に対処するために,視覚空間的特徴を持つ音声(POS)の異なる部分から特徴を符号化して融合するGlobal-Local Fusion Block (GLFB)を導入した,新しいグローバルローカルフュージョンネットワークを導入する。 POSブロック - Det + Subject, Aux Verb, Verb, Det + Object の監視には 'determinant + subject' と 'auxiliary verb' と 'verb' と 'determinant + object' という,異なるPOSコンポーネントの新たな組み合わせを使用します。 POSブロックと共に新しいグローバルローカル融合ネットワークは、視覚特徴を言語記述と整合させ、文法的かつ意味論的に正しいキャプションを生成する。 ベンチマークMSVDおよびMSRVTTデータセットの大規模定性的・定量的実験により,提案手法が既存の手法に比べて文法的・意味論的に正しい字幕を生成することを示す。 posブロックとglfb上のアブレーションは、提案手法に対する貢献の影響を示している。

Generating grammatically and semantically correct captions in video captioning is a challenging task. The captions generated from the existing methods are either word-by-word that do not align with grammatical structure or miss key information from the input videos. To address these issues, we introduce a novel global-local fusion network, with a Global-Local Fusion Block (GLFB) that encodes and fuses features from different parts of speech (POS) components with visual-spatial features. We use novel combinations of different POS components - 'determinant + subject', 'auxiliary verb', 'verb', and 'determinant + object' for supervision of the POS blocks - Det + Subject, Aux Verb, Verb, and Det + Object respectively. The novel global-local fusion network together with POS blocks helps align the visual features with language description to generate grammatically and semantically correct captions. Extensive qualitative and quantitative experiments on benchmark MSVD and MSRVTT datasets demonstrate that the proposed approach generates more grammatically and semantically correct captions compared to the existing methods, achieving the new state-of-the-art. Ablations on the POS blocks and the GLFB demonstrate the impact of the contributions on the proposed method.
翻訳日:2023-03-28 17:23:30 公開日:2023-03-26
# visda 2022チャレンジ:産業廃棄物選別のためのドメイン適応

VisDA 2022 Challenge: Domain Adaptation for Industrial Waste Sorting ( http://arxiv.org/abs/2303.14828v1 )

ライセンス: Link先を確認
Dina Bashkirova, Samarth Mishra, Diala Lteif, Piotr Teterwak, Donghyun Kim, Fadi Alladkani, James Akl, Berk Calli, Sarah Adel Bargal, Kate Saenko, Daehan Kim, Minseok Seo, YoungJin Jeon, Dong-Geol Choi, Shahaf Ettedgui, Raja Giryes, Shady Abu-Hussein, Binhui Xie, Shuang Li(参考訳) ラベル効率が高く、信頼性の高いセマンティクスセグメンテーションは、多くの実生活アプリケーション、特に廃棄物ソートのような高い視覚的多様性を持つ産業環境では不可欠である。 産業廃棄物の選別における最大の課題の1つは, 選別施設の位置, 施設で利用可能な設備, 年次などの要因による入力流の極端な多様性であり, いずれも廃棄物流の組成や視覚的外観に大きな影響を及ぼす。 このようなデータの変化は‘ビジュアルドメイン’と呼ばれ、産業廃棄物のセマンティクスセグメンテーションを成功させるためには、このようなドメインへのラベル効率の高いモデルの適用が必要である。 この課題に対してコンピュータビジョンモデルの能力をテストするために, 産業廃棄物浄化のための領域適応に関するVisDA 2022チャレンジを提示する。 我々の課題は, 2つの実物回収施設から収集した完全注釈型廃棄物選別データセットzerowasteと, 新規に生成した合成廃棄物選別データセットsynthwasteを組み込んだものである。 このコンペでは 2つの疑問に答えることを目指しています 1) ドメインのギャップを最小限に抑えるために、ドメイン適応手法を活用できますか? そして 2) 合成データ拡張はこのタスクの性能を改善し、データ分散の変化に適応できるか? コンペの結果, 産業廃棄物の検出が実領域適応問題を引き起こし, 増補, センシングなどのドメイン一般化技術が未ラベル対象領域の総合的性能を改善し, 合成データの利用が効果的な課題であることがわかった。 https://ai.bu.edu/visda-2022/

Label-efficient and reliable semantic segmentation is essential for many real-life applications, especially for industrial settings with high visual diversity, such as waste sorting. In industrial waste sorting, one of the biggest challenges is the extreme diversity of the input stream depending on factors like the location of the sorting facility, the equipment available in the facility, and the time of year, all of which significantly impact the composition and visual appearance of the waste stream. These changes in the data are called ``visual domains'', and label-efficient adaptation of models to such domains is needed for successful semantic segmentation of industrial waste. To test the abilities of computer vision models on this task, we present the VisDA 2022 Challenge on Domain Adaptation for Industrial Waste Sorting. Our challenge incorporates a fully-annotated waste sorting dataset, ZeroWaste, collected from two real material recovery facilities in different locations and seasons, as well as a novel procedurally generated synthetic waste sorting dataset, SynthWaste. In this competition, we aim to answer two questions: 1) can we leverage domain adaptation techniques to minimize the domain gap? and 2) can synthetic data augmentation improve performance on this task and help adapt to changing data distributions? The results of the competition show that industrial waste detection poses a real domain adaptation problem, that domain generalization techniques such as augmentations, ensembling, etc., improve the overall performance on the unlabeled target domain examples, and that leveraging synthetic data effectively remains an open problem. See https://ai.bu.edu/visda-2022/
翻訳日:2023-03-28 17:23:04 公開日:2023-03-26
# MGTBench: ベンチマークマシン生成テキスト検出

MGTBench: Benchmarking Machine-Generated Text Detection ( http://arxiv.org/abs/2303.14822v1 )

ライセンス: Link先を確認
Xinlei He and Xinyue Shen and Zeyuan Chen and Michael Backes and Yang Zhang(参考訳) 今日では、テキスト分類、感情分析、言語翻訳、質問応答など、さまざまな自然言語処理(NLP)タスクにおいて、大きな言語モデル(LLM)が革命的な力を示している。 このように、機械生成テキスト(MGT)の検出は、LLMの進歩と普及に伴ってますます重要になっている。 これらのモデルは、人間が書いたテキストと区別しにくい人間のような言語を生成でき、それは、真正性、説明責任、潜在的なバイアスに関する懸念を引き起こす。 しかし,MGTBench と呼ばれるMGT検出のためのベンチマークフレームワークを提案することで,MGT に対する既存の検出手法を異なるモデルアーキテクチャ,データセット,実験条件で評価し,その結果,異なる手法にまたがる包括的な評価フレームワークが欠如している。 ChatGPT(これまで最も代表的で強力なLCM)が生成した公開データセットの広範囲な評価は、現在の検出手法のほとんどがMGTに対して満足度が低いことを示している。 例外的にChatGPT Detectorは、ChatGPT生成したテキストで訓練され、MGTの検出に優れた性能を示す。 ともあれ、MGTの逆転型摂動のごく一部しかChatGPT検出器を回避できないことに留意し、より堅牢なMGT検出方法の必要性を強調した。 MGTBenchは,それぞれのデータセット上での最先端のMGT検出手法の評価や,より高度なMGT検出手法の開発など,将来の調査を加速するためのベンチマークツールとして機能することを期待している。 ソースコードとデータセットはhttps://github.com/xinleihe/mgtbench.com/で利用可能です。

Nowadays large language models (LLMs) have shown revolutionary power in a variety of natural language processing (NLP) tasks such as text classification, sentiment analysis, language translation, and question-answering. In this way, detecting machine-generated texts (MGTs) is becoming increasingly important as LLMs become more advanced and prevalent. These models can generate human-like language that can be difficult to distinguish from text written by a human, which raises concerns about authenticity, accountability, and potential bias. However, existing detection methods against MGTs are evaluated under different model architectures, datasets, and experimental settings, resulting in a lack of a comprehensive evaluation framework across different methodologies In this paper, we fill this gap by proposing the first benchmark framework for MGT detection, named MGTBench. Extensive evaluations on public datasets with curated answers generated by ChatGPT (the most representative and powerful LLMs thus far) show that most of the current detection methods perform less satisfactorily against MGTs. An exceptional case is ChatGPT Detector, which is trained with ChatGPT-generated texts and shows great performance in detecting MGTs. Nonetheless, we note that only a small fraction of adversarial-crafted perturbations on MGTs can evade the ChatGPT Detector, thus highlighting the need for more robust MGT detection methods. We envision that MGTBench will serve as a benchmark tool to accelerate future investigations involving the evaluation of state-of-the-art MGT detection methods on their respective datasets and the development of more advanced MGT detection methods. Our source code and datasets are available at https://github.com/xinleihe/MGTBench.
翻訳日:2023-03-28 17:22:32 公開日:2023-03-26
# フレームフレキシブルネットワーク

Frame Flexible Network ( http://arxiv.org/abs/2303.14817v1 )

ライセンス: Link先を確認
Yitian Zhang, Yue Bai, Chang Liu, Huan Wang, Sheng Li, Yun Fu(参考訳) 既存のビデオ認識アルゴリズムは、フレーム番号の異なる入力に対して、常に異なるトレーニングパイプラインを実行する。 トレーニングに使われていない他のフレームを用いてモデルを評価すると、時間周波数偏差現象として要約された性能が著しく低下する(図1参照)。 この問題を解決するために,フレームフレキシブルネットワーク(FFN)と呼ばれる汎用フレームワークを提案する。これは,異なるフレームでモデルを評価して計算を調整するだけでなく,複数のモデルを保存する際のメモリコストを大幅に削減する。 具体的には、FFNは複数のトレーニングシーケンスを統合し、MFAL(Multi-Frequency Alignment)を用いて時間周波数不変表現を学習し、MFAD(Multi-Frequency Adaptation)を活用して表現能力をさらに強化する。 さまざまなアーキテクチャと一般的なベンチマークを使用した総合的な実証検証は、FFNの有効性と一般化を確証している(例えば、Uniformer上のSomething V1データセットのFrame 4/8/16における7.08/5.15/2.17%のパフォーマンス向上)。 コードはhttps://github.com/BeSpontaneous/FFN.comで入手できる。

Existing video recognition algorithms always conduct different training pipelines for inputs with different frame numbers, which requires repetitive training operations and multiplying storage costs. If we evaluate the model using other frames which are not used in training, we observe the performance will drop significantly (see Fig.1), which is summarized as Temporal Frequency Deviation phenomenon. To fix this issue, we propose a general framework, named Frame Flexible Network (FFN), which not only enables the model to be evaluated at different frames to adjust its computation, but also reduces the memory costs of storing multiple models significantly. Concretely, FFN integrates several sets of training sequences, involves Multi-Frequency Alignment (MFAL) to learn temporal frequency invariant representations, and leverages Multi-Frequency Adaptation (MFAD) to further strengthen the representation abilities. Comprehensive empirical validations using various architectures and popular benchmarks solidly demonstrate the effectiveness and generalization of FFN (e.g., 7.08/5.15/2.17% performance gain at Frame 4/8/16 on Something-Something V1 dataset over Uniformer). Code is available at https://github.com/BeSpontaneous/FFN.
翻訳日:2023-03-28 17:22:02 公開日:2023-03-26
# ランダムフォレスト分類器を用いた自動ナンバープレート認識

Automatic Number Plate Recognition using Random Forest Classifier ( http://arxiv.org/abs/2303.14856v1 )

ライセンス: Link先を確認
Zuhaib Akhtar and Rashid Ali(参考訳) 自動ナンバープレート認識システム(ANPRS、Automatic Number Plate Recognition System)は、車両のナンバープレートを認識する大量監視システムである。 このシステムは一般に交通管理アプリケーションで使用される。 ノイズや低照度、必要な時間枠内でナンバープレートを検出するのは非常に効率的である。 本稿では,車両後部・前部画像の処理によるナンバープレート認識手法を提案する。 画像がキャプチャされると、処理は前処理、ナンバープレートのローカライゼーション、文字分割、文字認識の4つのステップに分けられる。 プリプロセシングは、さらに処理のために画像を強化し、ナンバープレートローカライゼーションは画像からナンバープレート領域を抽出し、文字セグメンテーションは抽出されたナンバープレートから個々の文字を分離し、文字認識はランダム森林分類アルゴリズムを用いて光学文字を識別する。 実験の結果、この方法の精度は90.9%であることが判明した。

Automatic Number Plate Recognition System (ANPRS) is a mass surveillance embedded system that recognizes the number plate of the vehicle. This system is generally used for traffic management applications. It should be very efficient in detecting the number plate in noisy as well as in low illumination and also within required time frame. This paper proposes a number plate recognition method by processing vehicle's rear or front image. After image is captured, processing is divided into four steps which are Pre-Processing, Number plate localization, Character segmentation and Character recognition. Pre-Processing enhances the image for further processing, number plate localization extracts the number plate region from the image, character segmentation separates the individual characters from the extracted number plate and character recognition identifies the optical characters by using random forest classification algorithm. Experimental results reveal that the accuracy of this method is 90.9%.
翻訳日:2023-03-28 17:13:01 公開日:2023-03-26