このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20220309)

# (参考訳) 自然言語処理とアンサンブル学習を用いたフィルター薬物による肝障害文学 [全文訳有]

Filter Drug-induced Liver Injury Literature with Natural Language Processing and Ensemble Learning ( http://arxiv.org/abs/2203.11015v1 )

ライセンス: CC BY 4.0
Xianghao Zhan, Fanjin Wang, Olivier Gevaert(参考訳) 薬物性肝障害 (DILI) は、肝臓を損傷する薬物の副作用である。 重度DILI症例では肝不全や死亡などの生命予後も報告された。 したがって、DILI関連事象は承認されたすべての薬物に対して厳格に監視され、肝毒性は新しい薬物候補にとって重要な評価基準となった。 これらのDILI関連報告は、病院の記録、臨床試験の結果、およびin vitroおよびin vivoの実験を含む研究論文に記録されている。 従来、過去の出版物からのデータ抽出は、情報抽出の効率を大幅に低下させるリソース要求のマニュアルラベリングに大きく依存していた。 近年の人工知能、特に自然言語処理(NLP)技術の発展により、バイオメディカルテキストの自動処理が可能になった。 本研究では,camda(massive data analysis)チャレンジの批判的評価から得られた約28,000の論文(タイトルと要約)に基づいて,dili文献のフィルタリングによるモデル性能のベンチマークを行った。 4つの単語ベクトル化手法のうち,TF-IDFとロジスティック回帰を用いたモデルでは,社内テストセットで0.957の精度で性能が向上した。 さらに、同様の全体的な性能を持つアンサンブルモデルが実装され、潜在的なdiliレポートの無視を避けるために偽陰性症例を小さくするために微調整された。 CAMDA委員会によって提供されたホールドアウト検証データにおいて,アンサンブルモデルの精度は0.954,F1スコアは0.955であった。 さらに, 肯定的/否定的予測における重要な単語をモデル解釈により同定した。 全体として、アンサンブルモデルは十分な分類結果に達し、研究者はDILI関連の文献を迅速にフィルタリングすることができる。

Drug-induced liver injury (DILI) describes the adverse effects of drugs that damage liver. Life-threatening results including liver failure or death were also reported in severe DILI cases. Therefore, DILI-related events are strictly monitored for all approved drugs and the liver toxicity became important assessments for new drug candidates. These DILI-related reports are documented in hospital records, in clinical trial results, and also in research papers that contain preliminary in vitro and in vivo experiments. Conventionally, data extraction from previous publications relies heavily on resource-demanding manual labelling, which considerably decreased the efficiency of the information extraction process. The recent development of artificial intelligence, particularly, the rise of natural language processing (NLP) techniques, enabled the automatic processing of biomedical texts. In this study, based on around 28,000 papers (titles and abstracts) provided by the Critical Assessment of Massive Data Analysis (CAMDA) challenge, we benchmarked model performances on filtering out DILI literature. Among four word vectorization techniques, the model using term frequency-inverse document frequency (TF-IDF) and logistic regression outperformed others with an accuracy of 0.957 with our in-house test set. Furthermore, an ensemble model with similar overall performances was implemented and was fine-tuned to lower the false-negative cases to avoid neglecting potential DILI reports. The ensemble model achieved a high accuracy of 0.954 and an F1 score of 0.955 in the hold-out validation data provided by the CAMDA committee. Moreover, important words in positive/negative predictions were identified via model interpretation. Overall, the ensemble model reached satisfactory classification results, which can be further used by researchers to rapidly filter DILI-related literature.
翻訳日:2022-03-27 11:32:12 公開日:2022-03-09
# cits: 組合せ最適化問題を解決するためのコヒーレントイジング木探索アルゴリズム

CITS: Coherent Ising Tree Search Algorithm Towards Solving Combinatorial Optimization Problems ( http://arxiv.org/abs/2203.09926v1 )

ライセンス: Link先を確認
Cen Yunuo, Das Debasis, Fong Xuanyao(参考訳) シミュレートアニーリング(SA)は、組合せ最適化問題の解を自然にイジング・ハミルトンの基底状態にマッピングできるため、古典的ヒューリスティックアルゴリズムの中でより注目される。 しかし、実用的な実装では、焼鈍プロセスは任意に遅くならないため、期待された定常ボルツマン分布から逸脱し、局所エネルギー最小に閉じ込められる可能性がある。 この問題を解決するために,親ノードと子ノードが現在のスピン状態と将来のスピン状態を表すSAに基づいて,マルコフ連鎖から再帰的な深さ制限木への探索空間を拡張したヒューリスティック探索アルゴリズムを提案する。 各イテレーションにおいて、アルゴリズムは'look ahead'という意味で木に沿って探索することで、実現可能な探索空間内で最適に近い解を選択する。 さらに、コヒーレントイジングマシン (CIM) による動機付けにより、スピン状態の離散表現を正規化項による連続表現に緩和し、振動子の縮小力学を利用して選択された木ノードの周辺を探索する。 提案アルゴリズムを代表的NPハード問題(MAX-CUT)で検証し,半定値プログラミング(SDP)やSA,シミュレートされたCIMと比較した。 以上の結果から,本手法は主観的ヒューリスティックssaとcimよりも,np最適化問題に対する解を少ない時間内に提供できることがわかった。

Simulated annealing (SA) attracts more attention among classical heuristic algorithms because the solution of the combinatorial optimization problem can be naturally mapped to the ground state of the Ising Hamiltonian. However, in practical implementation, the annealing process cannot be arbitrarily slow and hence, it may deviate from the expected stationary Boltzmann distribution and become trapped in a local energy minimum. To overcome this problem, this paper proposes a heuristic search algorithm by expanding search space from a Markov chain to a recursive depth limited tree based on SA, where the parent and child nodes represent the current and future spin states. At each iteration, the algorithm will select the best near-optimal solution within the feasible search space by exploring along the tree in the sense of `look ahead'. Furthermore, motivated by coherent Ising machine (CIM), we relax the discrete representation of spin states to continuous representation with a regularization term and utilize the reduced dynamics of the oscillators to explore the surrounding neighborhood of the selected tree nodes. We tested our algorithm on a representative NP-hard problem (MAX-CUT) to illustrate the effectiveness of this algorithm compared to semi-definite programming (SDP), SA, and simulated CIM. Our results show that above the primal heuristics SA and CIM, our high-level tree search strategy is able to provide solutions within fewer epochs for Ising formulated NP-optimization problems.
翻訳日:2022-03-27 05:49:41 公開日:2022-03-09
# SoCフロー仕様マイニングのための双方向変換器

Deep Bidirectional Transformers for SoC Flow Specification Mining ( http://arxiv.org/abs/2203.13182v1 )

ライセンス: Link先を確認
Md Rubel Ahmed, Hao Zheng(参考訳) 高品質なシステムレベルのメッセージフロー仕様は、システムオンチップ(SoC)設計の包括的な検証につながる可能性がある。 本稿では,SoCIP通信トレースから正確なフロー仕様を生成するための注意機構を利用する破壊的手法を提案する。 提案手法は,既存のフロー仕様マイニングツールがしばしば抱えるマルチコア設計の並列性と並列性によって引き起こされるSoCトレースの複雑さを克服することができる。 高度にインターリーブされたトレースの実験は、フロー仕様マイニング問題に特化したいくつかのツールと比較して、有望なフロー再構成を示している。

High-quality system-level message flow specifications can lead to comprehensive validation of system-on-chip (SoC) designs. We propose a disruptive method that utilizes an attention mechanism to produce accurate flow specifications from SoC IP communication traces. The proposed method can overcome the inherent complexity of SoC traces induced by the concurrency and parallelism of multicore designs that existing flow specification mining tools often find extremely challenging. Experiments on highly interleaved traces show promising flow reconstruction compared to several tools dedicated to the flow specification mining problem.
翻訳日:2022-03-27 05:48:51 公開日:2022-03-09
# (参考訳) AM-FM表現を用いた人間の注意検出

Human Attention Detection Using AM-FM Representations ( http://arxiv.org/abs/2203.07093v1 )

ライセンス: CC BY 4.0
Wenjing Shi(参考訳) デジタルビデオからの人間の活動検出は、コンピュータビジョンと画像処理コミュニティに多くの課題をもたらす。 近年,様々な成功度で人的活動を検出する手法が開発されている。 しかし、一般的な人間の活動検出問題は、特に手法が「野生で」働く必要がある場合(例えば、画像幾何学を正確に制御することなく)、非常に難しいままである。 論文は位相に基づく解法を探求する (i)顔を検出する (二)後頭部 (iii)頭部の前後の関節検出、及び (4)画像形状を制御せずに、標準的なビデオカメラを用いて、頭部が左か右かを向いているか。 位相に基づく手法は、振幅変調周波数変調(AM-FM)モデルを利用する単純で堅牢な手法の開発に基づいている。 この手法は,AOLME(Advancing Out-of-school Learning in Mathematics and Engineering)プロジェクトから抽出したビデオフレームを用いて検証される。 データセットは、カメラを見ている10人の学生13,265枚の画像と、カメラから目をそらしている5人の学生6,122枚の画像で構成された。 カメラに面した学生は、その97.1%が左を向いており、95.9%が右を向いていると正しく分類できた。 カメラの背面を向いている学生は、その87.6%が左を向いており、93.3%が右を向いていると正しく分類できた。 その結果,AM-FMに基づく手法は人間の活動映像を解析する上で非常に有望であることが示唆された。

Human activity detection from digital videos presents many challenges to the computer vision and image processing communities. Recently, many methods have been developed to detect human activities with varying degree of success. Yet, the general human activity detection problem remains very challenging, especially when the methods need to work 'in the wild' (e.g., without having precise control over the imaging geometry). The thesis explores phase-based solutions for (i) detecting faces, (ii) back of the heads, (iii) joint detection of faces and back of the heads, and (iv) whether the head is looking to the left or the right, using standard video cameras without any control on the imaging geometry. The proposed phase-based approach is based on the development of simple and robust methods that rely on the use of Amplitude Modulation- Frequency Modulation (AM-FM) models. The approach is validated using video frames extracted from the Advancing Out-of-school Learning in Mathematics and Engineering (AOLME) project. The dataset consisted of 13,265 images from ten students looking at the camera, and 6,122 images from five students looking away from the camera. For the students facing the camera, the method was able to correctly classify 97.1% of them looking to the left and 95.9% of them looking to the right. For the students facing the back of the camera, the method was able to correctly classify 87.6% of them looking to the left and 93.3% of them looking to the right. The results indicate that AM-FM based methods hold great promise for analyzing human activity videos.
翻訳日:2022-03-20 23:13:11 公開日:2022-03-09
# SuperCone: 統一予測セグメントシステムのための概念メタラーニングによる異種エキスパートのモデリング

SuperCone: Modeling Heterogeneous Experts with Concept Meta-learning for Unified Predictive Segments System ( http://arxiv.org/abs/2203.07029v1 )

ライセンス: Link先を確認
Keqian Li, Yifan Hu(参考訳) 予測セグメントによるユーザ理解は、より効率的かつ効率的な情報交換において、現代企業にとって重要な役割を担っている。 例えば、ユーザーが特定のスポーツやエンターテイメントの分野に特定の関心を持っているかどうかを予測することで、より関連性の高いコンテンツを提供することができる。 しかし、データ不足とタスクの不均一性のため、棚モデルのアーキテクチャをオフにして捉えるのが難しい、多くのロングテール予測タスクが存在する。 本稿では、上記の課題に対処する統合述語セグメントシステムであるSuperConeについて述べる。 それは、各ユーザの不均一なデジタルフットプリントを要約したフラットな概念表現の上に構築され、予測タスクのそれぞれを、"スーパーラーニング"(super learning)と呼ばれるアプローチを使って一様にモデル化する。 これに続いて,最善のヘテロジニアスな専門家の参加を柔軟に学習すると同時に,上記の入力概念の深い表現を学習し,一意なシグナルを捉えて専門家を増強する,エンドツーエンドのディープラーニングアーキテクチャ設計を提供する。 実験の結果、SuperConeは様々な述語セグメントタスクやいくつかの公開構造化データ学習ベンチマークにおいて、最先端のレコメンデーションとランキングアルゴリズムより優れていることが示された。

Understanding users through predicative segments play an essential role for modern enterprises for more efficient and efficient information exchange. For example, by predicting whether a user has particular interest in a particular area of sports or entertainment, we can better serve the user with more relevant and tailored content. However, there exists a large number of long tail prediction tasks that are hard to capture by off the shelf model architectures due to data scarcity and task heterogeneity. In this work, we present SuperCone, our unified predicative segments system that addresses the above challenges. It builds on top of a flat concept representation that summarizes each user's heterogeneous digital footprints, and uniformly models each of the prediction task using an approach called "super learning ", that is, combining prediction models with diverse architectures or learning method that are not compatible with each other or even completely unknown. Following this, we provide end to end deep learning architecture design that flexibly learns to attend to best suited heterogeneous experts while at the same time learns deep representations of the input concepts that augments the above experts by capturing unique signal. Experiments show that SuperCone can outperform state-of-the-art recommendation and ranking algorithms on a wide range of predicative segment tasks, as well as several public structured data learning benchmarks.
翻訳日:2022-03-20 22:49:25 公開日:2022-03-09
# 責任あるAIのためのソフトウェアエンジニアリングのロードマップ

Towards a Roadmap on Software Engineering for Responsible AI ( http://arxiv.org/abs/2203.08594v1 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Jon Whittle, Zhenchang Xing(参考訳) AIは世界を変えつつあるが、その振る舞いと決定を責任を持って行う能力には深刻な懸念がある。 責任あるAIのための多くの倫理規定、原則、およびフレームワークが最近発行されている。 しかし、それらはハイレベルであり、実践するのは困難です。 一方、ほとんどのAI研究者はアルゴリズム的なソリューションに重点を置いている。一方、責任あるAI課題は、実際にはAIシステムのエンジニアリングライフサイクルとコンポーネント全体を横断している。 本稿では、責任あるAIを運用する際のギャップを埋めるため、責任あるAIのためのソフトウェアエンジニアリングのロードマップを作成することを目的とする。 ロードマップは焦点をあてる (i)責任あるaiシステムのマルチレベルガバナンスを確立すること。 (ii)責任あるaiシステムのためのプロセス指向のプラクティスを組み込んだ開発プロセスのセットアップ 三 システムレベルのアーキテクチャスタイル、パターン、技法により、責任AIをAIシステムに設計する。

Although AI is transforming the world, there are serious concerns about its ability to behave and make decisions responsibly. Many ethical regulations, principles, and frameworks for responsible AI have been issued recently. However, they are high level and difficult to put into practice. On the other hand, most AI researchers focus on algorithmic solutions, while the responsible AI challenges actually crosscut the entire engineering lifecycle and components of AI systems. To close the gap in operationalizing responsible AI, this paper aims to develop a roadmap on software engineering for responsible AI. The roadmap focuses on (i) establishing multi-level governance for responsible AI systems, (ii) setting up the development processes incorporating process-oriented practices for responsible AI systems, and (iii) building responsible-AI-by-de sign into AI systems through system-level architectural style, patterns and techniques.
翻訳日:2022-03-20 22:48:31 公開日:2022-03-09
# (参考訳) グリオーマ患者に対する効果的な治療計画のための人工知能ソリューション [全文訳有]

Artificial Intelligence Solution for Effective Treatment Planning for Glioblastoma Patients ( http://arxiv.org/abs/2203.05563v1 )

ライセンス: CC BY 4.0
Vikram Goddla(参考訳) グリオ芽腫は成人で最も多い悪性脳腫瘍である。 毎年約20万人がグリオ芽腫で死亡している。 グリオブラスト腫患者は、至適治療で12カ月、治療なしで約4カ月生存する。 グリオ芽腫は異種壊死性腫瘤として出現し,血管新生浮腫に囲まれている。 現在の治療基準には、外科的切除、放射線治療、化学療法が含まれており、脳腫瘍亜領域の正確なセグメンテーションが必要である。 効果的な治療計画のためには、化学療法の陽性予後因子であるメチルグアニンメチルトランスフェラーゼ(MGMT)のプロモーターのメチル化状態を特定することが不可欠である。 しかし、現在の脳腫瘍の分画の方法は退屈で主観的でスケーラブルではなく、mgmtプロモーターのメチル化状態を決定する最新の技術は外科的侵襲的処置であり、費用と時間を要する。 したがって、MGMTプロモーターのメチル化状態を予測し、治療計画の改善と生存率の向上を図るため、脳腫瘍を分別する自動化ツールや非侵襲的な方法を開発する必要がある。 私は人工知能を利用した統合診断ソリューションを作成し、脳腫瘍のサブリージョンを自動的に分割し、脳MRIスキャンを用いてMGMTプロモーターのメチル化状態を予測する。 私のAIソリューションは、現在の標準を超えるパフォーマンスを持つ大規模なデータセットで実証されています。 私のソリューションでは、医師は脳MRI画像を提出し、数分でセグメンテーションとメチル化の予測を取得し、効果的な治療計画で脳腫瘍患者を誘導し、最終的に生存時間を改善することができる。

Glioblastomas are the most common malignant brain tumors in adults. Approximately 200000 people die each year from Glioblastoma in the world. Glioblastoma patients have a median survival of 12 months with optimal therapy and about 4 months without treatment. Glioblastomas appear as heterogeneous necrotic masses with irregular peripheral enhancement, surrounded by vasogenic edema. The current standard of care includes surgical resection, radiotherapy and chemotherapy, which require accurate segmentation of brain tumor subregions. For effective treatment planning, it is vital to identify the methylation status of the promoter of Methylguanine Methyltransferase (MGMT), a positive prognostic factor for chemotherapy. However, current methods for brain tumor segmentation are tedious, subjective and not scalable, and current techniques to determine the methylation status of MGMT promoter involve surgically invasive procedures, which are expensive and time consuming. Hence there is a pressing need to develop automated tools to segment brain tumors and non-invasive methods to predict methylation status of MGMT promoter, to facilitate better treatment planning and improve survival rate. I created an integrated diagnostics solution powered by Artificial Intelligence to automatically segment brain tumor subregions and predict MGMT promoter methylation status, using brain MRI scans. My AI solution is proven on large datasets with performance exceeding current standards and field tested with data from teaching files of local neuroradiologists. With my solution, physicians can submit brain MRI images, and get segmentation and methylation predictions in minutes, and guide brain tumor patients with effective treatment planning and ultimately improve survival time.
翻訳日:2022-03-14 23:49:10 公開日:2022-03-09
# 2022年ロシア・ウクライナ危機のためのweiboデータセット

A Weibo Dataset for the 2022 Russo-Ukrainian Crisis ( http://arxiv.org/abs/2203.05967v1 )

ライセンス: Link先を確認
Yi R. Fung and Heng Ji(参考訳) TwitterやWeiboのようなオンラインソーシャルネットワークは、人々の情報と反応の交換方法において重要な役割を果たす。 それぞれの危機は、ドメイン、エンティティ、イベントタイプの違いにより、さまざまなタスク(例えば、情報抽出、複雑なイベント理解、誤情報検出など)に対するモデルのポータビリティを研究する新たな機会を含んでいる。 ロシア・ウクライナ危機ワイボー(RUW)データセットを公開し、最初のリリースで350万以上のユーザー投稿とコメントを公開しています。 私たちのデータはhttps://github.com/y rf1/russiaukraine_we ibo_datasetで入手できます。

Online social networks such as Twitter and Weibo play an important role in how people stay informed and exchange reactions. Each crisis encompasses a new opportunity to study the portability of models for various tasks (e.g., information extraction, complex event understanding, misinformation detection, etc.), due to differences in domain, entities, and event types. We present the Russia-Ukraine Crisis Weibo (RUW) dataset, with over 3.5M user posts and comments in the first release. Our data is available at https://github.com/y rf1/RussiaUkraine_we ibo_dataset.
翻訳日:2022-03-14 13:58:41 公開日:2022-03-09
# 実時間MRI映像における音節境界改善のための誤り訂正方式

An error correction scheme for improved air-tissue boundary in real-time MRI video for speech production ( http://arxiv.org/abs/2203.06004v1 )

ライセンス: Link先を確認
Anwesha Roy, Varun Belagali, Prasanta Kumar Ghosh(参考訳) 実時間磁気共鳴画像(rtMRI)の3次元畳み込みニューラルネットワーク(3D-CNN)モデルにより, 音声合成における空気-形状境界(ATB)セグメンテーションの最高の性能が得られた。 しかし,本モデルの評価は,本論文で報告されている他のABBセグメンテーション手法と同様に,原点と予測輪郭全体の動的時間ワープ(DTW)距離を用いて行われる。 このような評価手段は、予測された輪郭の局所的誤差を捉えない。 予測された輪郭の慎重な分析は、DTW距離のようなグローバルな評価基準で取得されていない輪郭1(上唇、硬口蓋、胸骨からなるATB)と輪郭2(顎、下唇、舌基、喉頭を含むATB)の舌基部などの領域における誤差を明らかにする。 本研究では,このような誤りを自動的に検出し,修正手法を提案する。 また,contour1とcontour2に分離してatbセグメンテーションを行うための2つの新しい評価指標を提案する。 提案した検出および補正戦略により、この2つの評価指標は、contour1では61.8%、61.4%、contour2では67.8%、28.4%改善される。 一方、従来のdtw距離はcontour1では44.6%、contour2では4.0%改善している。

The best performance in Air-tissue boundary (ATB) segmentation of real-time Magnetic Resonance Imaging (rtMRI) videos in speech production is known to be achieved by a 3-dimensional convolutional neural network (3D-CNN) model. However, the evaluation of this model, as well as other ATB segmentation techniques reported in the literature, is done using Dynamic Time Warping (DTW) distance between the entire original and predicted contours. Such an evaluation measure may not capture local errors in the predicted contour. Careful analysis of predicted contours reveals errors in regions like the velum part of contour1 (ATB comprising of upper lip, hard palate, and velum) and tongue base section of contour2 (ATB covering jawline, lower lip, tongue base, and epiglottis), which are not captured in a global evaluation metric like DTW distance. In this work, we automatically detect such errors and propose a correction scheme for the same. We also propose two new evaluation metrics for ATB segmentation separately in contour1 and contour2 to explicitly capture two types of errors in these contours. The proposed detection and correction strategies result in an improvement of these two evaluation metrics by 61.8% and 61.4% for contour1 and by 67.8% and 28.4% for contour2. Traditional DTW distance, on the other hand, improves by 44.6% for contour1 and 4.0% for contour2.
翻訳日:2022-03-14 13:48:18 公開日:2022-03-09
# オーディオデータを用いた道路インシデント監視のための深層畳み込みニューラルネットワーク

Deep Convolutional Neural Network for Roadway Incident Surveillance Using Audio Data ( http://arxiv.org/abs/2203.06059v1 )

ライセンス: Link先を確認
Zubayer Islam, Mohamed Abdel-Aty(参考訳) 衝突事故の特定と予測は、輸送システムの安全状態を理解する上で重要な役割を果たす。 既存のシステムは、これらのモデルの分類と訓練に、クラッシュデータと相関するトラフィックパラメータを用いるが、我々は、クラッシュイベントを正確に識別できる新しい感覚ユニット(マイクロホン)を提案する。 オーディオイベントは、クラッシュなどのイベントを分類するために収集および分析することができる。 本稿では,道路イベントの分類に深層畳み込みニューラルネットワーク(CNN)を用いることを実証した。 MFCC(Mel Frequency Cepstral Coefficients)、Mel-filterbank Energy spectrum、Fourier Spectrumといった重要なオーディオパラメータを特徴セットとして用いた。 さらに、データセットは時間やピッチシフトといったオーディオ拡張技術を使用して、より多くのサンプルデータで拡張された。 特徴抽出とともに、このデータ拡張は妥当な精度を達成することができる。 事故、タイヤスキー、ホーン、サイレン音などの4つの事象は、交通事業者や救急隊員にとって有用な道路の危険を示すために正確に識別することができる。 提案手法は最大94%の精度が得られる。 このようなオーディオシステムは、完全なカバレッジなしでビデオベースのセンサーを補完できるIoT(Internet of Things)プラットフォームの一部として実装することができる。

Crash events identification and prediction plays a vital role in understanding safety conditions for transportation systems. While existing systems use traffic parameters correlated with crash data to classify and train these models, we propose the use of a novel sensory unit that can also accurately identify crash events: microphone. Audio events can be collected and analyzed to classify events such as crash. In this paper, we have demonstrated the use of a deep Convolutional Neural Network (CNN) for road event classification. Important audio parameters such as Mel Frequency Cepstral Coefficients (MFCC), log Mel-filterbank energy spectrum and Fourier Spectrum were used as feature set. Additionally, the dataset was augmented with more sample data by the use of audio augmentation techniques such as time and pitch shifting. Together with the feature extraction this data augmentation can achieve reasonable accuracy. Four events such as crash, tire skid, horn and siren sounds can be accurately identified giving indication of a road hazard that can be useful for traffic operators or paramedics. The proposed methodology can reach accuracy up to 94%. Such audio systems can be implemented as a part of an Internet of Things (IoT) platform that can complement video-based sensors without complete coverage.
翻訳日:2022-03-14 13:47:14 公開日:2022-03-09
# Twitterでソーシャルボットを検知するオンラインユーザープロファイリング

Online User Profiling to Detect Social Bots on Twitter ( http://arxiv.org/abs/2203.05966v1 )

ライセンス: Link先を確認
Maryam Heidari, James H Jr Jones, Ozlem Uzuner(参考訳) ソーシャルメディアプラットフォームは、日常生活の多くの面で影響力のあるトレンドを露呈することができる。 しかし、それらの動きは偽情報によって汚染されることがある。 ソーシャルボットはソーシャルメディアの重要な偽情報源の1つだ。 ソーシャルボットは社会や世論に深刻なサイバー脅威をもたらす可能性がある。 本研究の目的は、ツイートのテキストから抽出されたユーザのプロファイルに基づいてボットを検出する機械学習モデルを開発することである。 オンラインユーザーのプロフィールには、年齢、性別、教育、パーソナリティなどのユーザーの個人情報が表示される。 本研究では,ユーザのオンライン投稿に基づいてユーザのプロフィールを構築する。 まず、ユーザのオンラインコメントによって生成されるユーザの個人情報に基づいて、マシンラーニングモデルによるボット検出を改善することを目的としています。 2つのオンライン投稿を比較すると、個人情報の類似性はボットと人間の区別を困難にする。 しかし、この研究は2つのオンライン投稿間の個人情報の類似性を、新しいボット検出モデルに有利にする。 提案したボット検出モデルは,年齢,性格,性別,ユーザのオンライン投稿からの教育などの個人情報に基づくユーザプロファイルを生成し,個人情報に基づく予測精度の高いソーシャルボットの検出を行う機械学習モデルを提案する。 第2に、Cresci 2017データセットに6900以上のTwitterアカウントのユーザプロファイルを表示する、新しい公開データセットを作成する。

Social media platforms can expose influential trends in many aspects of everyday life. However, the movements they represent can be contaminated by disinformation. Social bots are one of the significant sources of disinformation in social media. Social bots can pose serious cyber threats to society and public opinion. This research aims to develop machine learning models to detect bots based on the extracted user's profile from a Tweet's text. Online users' profile shows the user's personal information, such as age, gender, education, and personality. In this work, the user's profile is constructed based on the user's online posts. This work's main contribution is three-fold: First, we aim to improve bot detection through machine learning models based on the user's personal information generated by the user's online comments. When comparing two online posts, the similarity of personal information makes it difficult to differentiate a bot from a human user. However, this research turns personal information similarity among two online posts into an advantage for the new bot detection model. The new proposed model for bot detection creates user profiles based on personal information such as age, personality, gender, education from users' online posts and introduces a machine learning model to detect social bots with high prediction accuracy based on personal information. Second, create a new public data set that shows the user's profile for more than 6900 Twitter accounts in the Cresci 2017 data set.
翻訳日:2022-03-14 12:25:55 公開日:2022-03-09
# フーリエ領域解析によるディープ・ビジョン・トランスフォーマーの反Oversmoothing:理論から実践へ

Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain Analysis: From Theory to Practice ( http://arxiv.org/abs/2203.05962v1 )

ライセンス: Link先を確認
Peihao Wang, Wenqing Zheng, Tianlong Chen, Zhangyang Wang(参考訳) Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。 しかし、畳み込みニューラルネットワーク(CNN)とは異なり、観察された注意崩壊やパッチ均一性のため、ViTの性能は、深さが大きくなるにつれて急速に飽和することが知られている。 経験的なソリューションがいくつかあるが、このスケーラビリティの問題を研究する厳格なフレームワークは、いまだに理解できない。 本稿ではまず,フーリエスペクトル領域からVT特徴を解析するための厳密な理論枠組みを確立する。 自己保持機構は本質的に低域通過フィルタに比例し,ViTが深度を拡大した場合,過度な低域通過フィルタにより特徴写像は直流(DC)成分のみを保持することになることを示す。 次に、望ましくない低域制限を緩和する2つの単純かつ効果的な手法を提案する。 attnscaleと呼ばれる最初のテクニックは、セルフアテンションブロックをローパスとハイパスのコンポーネントに分解し、その後、これら2つのフィルタを再スケールして結合し、オールパスの自己アテンションマトリックスを生成する。 2つ目のテクニックはFeatScaleと呼ばれ、周波数帯域を分割して高周波数信号の増幅を行う。 どちらの手法も効率的かつハイパーパラメータフリーであり、注意崩壊やパッチ均一性といった関連するViTトレーニングアーティファクトを効果的に克服している。 当社の技術を複数のViT亜種にシームレスにプラグインすることで、ViTがより深いアーキテクチャの恩恵を受けるのに一貫して役立ち、パフォーマンスが1.1%向上する(例えば、パラメータのオーバーヘッドがほとんどない)ことを示す。 コードと事前トレーニングされたモデルは、https://github.com/V ITA-Group/ViT-Anti-O versmoothing.comで公開しています。

Vision Transformer (ViT) has recently demonstrated promise in computer vision problems. However, unlike Convolutional Neural Networks (CNN), it is known that the performance of ViT saturates quickly with depth increasing, due to the observed attention collapse or patch uniformity. Despite a couple of empirical solutions, a rigorous framework studying on this scalability issue remains elusive. In this paper, we first establish a rigorous theory framework to analyze ViT features from the Fourier spectrum domain. We show that the self-attention mechanism inherently amounts to a low-pass filter, which indicates when ViT scales up its depth, excessive low-pass filtering will cause feature maps to only preserve their Direct-Current (DC) component. We then propose two straightforward yet effective techniques to mitigate the undesirable low-pass limitation. The first technique, termed AttnScale, decomposes a self-attention block into low-pass and high-pass components, then rescales and combines these two filters to produce an all-pass self-attention matrix. The second technique, termed FeatScale, re-weights feature maps on separate frequency bands to amplify the high-frequency signals. Both techniques are efficient and hyperparameter-free, while effectively overcoming relevant ViT training artifacts such as attention collapse and patch uniformity. By seamlessly plugging in our techniques to multiple ViT variants, we demonstrate that they consistently help ViTs benefit from deeper architectures, bringing up to 1.1% performance gains "for free" (e.g., with little parameter overhead). We publicly release our codes and pre-trained models at https://github.com/V ITA-Group/ViT-Anti-O versmoothing.
翻訳日:2022-03-14 12:23:09 公開日:2022-03-09
# hdl:ハイブリッド深層学習による心臓解析用デジタル双生児心筋速度マップの合成

HDL: Hybrid Deep Learning for the Synthesis of Myocardial Velocity Maps in Digital Twins for Cardiac Analysis ( http://arxiv.org/abs/2203.05564v1 )

ライセンス: Link先を確認
Xiaodan Xing, Javier Del Ser, Yinzhe Wu, Yang Li, Jun Xia, Lei Xu, David Firmin, Peter Gatehouse, Guang Yang(参考訳) 医療データに基づく合成デジタルツインは、デジタル医療における取得、ラベル付け、意思決定手順を加速する。 デジタル・ヘルスケア・ツインの中核となるのはモデルに基づくデータ合成であり、解剖学や生化学的現象のモデリングの複雑さに対処せずにリアルな医療信号を生成することができる。 残念ながら、心臓データ合成のアルゴリズムは文献ではほとんど研究されていない。 心臓検査における重要なイメージングモダリティは、3方向シネ多スライス心筋速度マッピング(3dir mvm)であり、左室の3つの直交方向における心臓運動の定量的評価を提供する。 長い取得時間と複雑な取得は、この画像の合成デジタル双対をより緊急に生成する。 本研究では,合成3Dir MVMデータを対象としたハイブリッドディープラーニング(HDL)ネットワークを提案する。 提案アルゴリズムは,前景背景生成方式を備えたハイブリッドUNetとジェネレーティブ・アドバーサリアル・ネットワークによって特徴付けられる。 実験結果から, 時間分解能3Dir MVM CMRデータ (PSNR=42.32) と正確な左室分画 (DICE=0.92) を同時に合成できることが示唆された。 これらの結果から,HDLアルゴリズムは心筋速度マッピングデータシミュレーションのための実世界のデジタルツインに実装可能であることが示唆された。 我々の知る限り、この研究は3Dir MVM CMRのデジタル双生児の研究で最初のものであり、人工心臓データによる臨床研究の効率向上に大きな可能性を示している。

Synthetic digital twins based on medical data accelerate the acquisition, labelling and decision making procedure in digital healthcare. A core part of digital healthcare twins is model-based data synthesis, which permits the generation of realistic medical signals without requiring to cope with the modelling complexity of anatomical and biochemical phenomena producing them in reality. Unfortunately, algorithms for cardiac data synthesis have been so far scarcely studied in the literature. An important imaging modality in the cardiac examination is three-directional CINE multi-slice myocardial velocity mapping (3Dir MVM), which provides a quantitative assessment of cardiac motion in three orthogonal directions of the left ventricle. The long acquisition time and complex acquisition produce make it more urgent to produce synthetic digital twins of this imaging modality. In this study, we propose a hybrid deep learning (HDL) network, especially for synthetic 3Dir MVM data. Our algorithm is featured by a hybrid UNet and a Generative Adversarial Network with a foreground-backgroun d generation scheme. The experimental results show that from temporally down-sampled magnitude CINE images (six times), our proposed algorithm can still successfully synthesise high temporal resolution 3Dir MVM CMR data (PSNR=42.32) with precise left ventricle segmentation (DICE=0.92). These performance scores indicate that our proposed HDL algorithm can be implemented in real-world digital twins for myocardial velocity mapping data simulation. To the best of our knowledge, this work is the first one in the literature investigating digital twins of the 3Dir MVM CMR, which has shown great potential for improving the efficiency of clinical studies via synthesised cardiac data.
翻訳日:2022-03-14 12:21:15 公開日:2022-03-09
# ベンズフィルタの深層学習

Deep Learning for the Benes Filter ( http://arxiv.org/abs/2203.05561v1 )

ライセンス: Link先を確認
Alexander Lobbe(参考訳) ベンズフィルタは、1次元におけるよく知られた連続時間確率フィルタリングモデルであり、明示的に解けるという利点がある。 進化方程式の観点からは、ベンズフィルタは係数関数の特定の集合が与えられたフィルタリング方程式の解でもある。 一般に、フィルタリング確率偏微分方程式(spde: filter stochastic partial differential equation)は、部分的かつ潜在的に騒がしい観測を行う基礎となる信号の条件分布の進化方程式として現れる。 彼らの数値近似は、特に数値気象予測のような高次元の設定において、正確で高速な手法を積極的に求めている理論家や実践者にとって中心的な問題である。 本稿では,深層学習によって達成されたベンズモデルの解の密度のメッシュフリーニューラルネットワーク表現に基づく,新しい数値手法の簡単な研究を行う。 従来のspde分割法に基づき,信号処理の正規化条件分布を回復するための再帰正規化手順を含む。 そこで, ニューラルネットワークの領域選択におけるフィルタモデル方程式における非線形性の役割について検討した。 さらに,ベネスモデルに対する適応領域を用いたニューラルネットワーク手法の最初の研究について述べる。

The Benes filter is a well-known continuous-time stochastic filtering model in one dimension that has the advantage of being explicitly solvable. From an evolution equation point of view, the Benes filter is also the solution of the filtering equations given a particular set of coefficient functions. In general, the filtering stochastic partial differential equations (SPDE) arise as the evolution equations for the conditional distribution of an underlying signal given partial, and possibly noisy, observations. Their numerical approximation presents a central issue for theoreticians and practitioners alike, who are actively seeking accurate and fast methods, especially for such high-dimensional settings as numerical weather prediction, for example. In this paper we present a brief study of a new numerical method based on the mesh-free neural network representation of the density of the solution of the Benes model achieved by deep learning. Based on the classical SPDE splitting method, our algorithm includes a recursive normalisation procedure to recover the normalised conditional distribution of the signal process. Within the analytically tractable setting of the Benes filter, we discuss the role of nonlinearity in the filtering model equations for the choice of the domain of the neural network. Further we present the first study of the neural network method with an adaptive domain for the Benes model.
翻訳日:2022-03-14 12:19:27 公開日:2022-03-09
# (参考訳) Kernel Packet: Mat\'ern相関を用いたガウスプロセス回帰のための厳密でスケーラブルなアルゴリズム

Kernel Packet: An Exact and Scalable Algorithm for Gaussian Process Regression with Mat\'ern Correlations ( http://arxiv.org/abs/2203.03116v2 )

ライセンス: CC BY 4.0
Haoyuan Chen, Liang Ding, Rui Tuo(参考訳) 滑らか度パラメータ$\nu$が半整数であるようなMat\'ern相関を用いた1次元ガウス過程回帰の正確かつスケーラブルなアルゴリズムを開発した。 提案されたアルゴリズムは$\mathcal{o}(\nu^3 n)$演算と$\mathcal{o}(\nu n)$ストレージのみを必要とする。 これは、$\nu$ が修正され、通常ほとんどのアプリケーションで非常に小さいため、線形コストの解法をもたらす。 提案手法は, フルグリッドやスパースグリッドを用いた場合の多次元問題に適用可能である。 提案手法は,Mat\'ern相関関数の新たな理論に基づく。 これらの相関関数の適切な再配置は、カーネルパケットと呼ばれるコンパクトにサポートされた関数を生成することができる。 基底関数としてカーネルパケットの集合を用いると、共分散行列がスパース表現され、アルゴリズムが提案される。 シミュレーション研究により、提案アルゴリズムは適用可能な場合、計算時間と予測精度の両方において既存のアルゴリズムよりも大幅に優れていることが示された。

We develop an exact and scalable algorithm for one-dimensional Gaussian process regression with Mat\'ern correlations whose smoothness parameter $\nu$ is a half-integer. The proposed algorithm only requires $\mathcal{O}(\nu^3 n)$ operations and $\mathcal{O}(\nu n)$ storage. This leads to a linear-cost solver since $\nu$ is chosen to be fixed and usually very small in most applications. The proposed method can be applied to multi-dimensional problems if a full grid or a sparse grid design is used. The proposed method is based on a novel theory for Mat\'ern correlation functions. We find that a suitable rearrangement of these correlation functions can produce a compactly supported function, called a "kernel packet". Using a set of kernel packets as basis functions leads to a sparse representation of the covariance matrix that results in the proposed algorithm. Simulation studies show that the proposed algorithm, when applicable, is significantly superior to the existing alternatives in both the computational time and predictive accuracy.
翻訳日:2022-03-12 05:00:50 公開日:2022-03-09
# (参考訳) ブラインド画像超解像における劣化分布の学習 [全文訳有]

Learning the Degradation Distribution for Blind Image Super-Resolution ( http://arxiv.org/abs/2203.04962v1 )

ライセンス: CC BY 4.0
Zhengxiong Luo, Yan Huang, Shang Li, Liang Wang, Tieniu Tan(参考訳) 合成高分解能 (HR) \&低分解能 (LR) 対は既存の超解像 (SR) 法で広く用いられている。 合成画像とテスト画像の領域ギャップを避けるため、従来の手法は決定論的モデルを用いて合成(劣化)過程を適応的に学習しようとする。 しかし、実際のシナリオにおけるいくつかの劣化は確率的であり、画像の内容によって決定できない。 これらの決定論的モデルは、下記のSRモデルの性能を制限する劣化のランダムな要因と内容非依存の部分のモデル化に失敗する可能性がある。 本稿では,確率分解モデル (PDM) を提案する。このモデルでは,分解 $\mathbf{D}$ を確率変数として研究し,事前確率変数 $\mathbf{z}$ から $\mathbf{D}$ への写像をモデル化して分布を学習する。 従来の決定論的劣化モデルと比較して、PDMはより多様な劣化をモデル化し、テスト画像の様々な劣化をよりよくカバーするHR-LRペアを生成することができ、SRモデルが特定の劣化に過度に適合することを防ぐことができる。 広範な実験により、srモデルが異なるデータセットでより良いパフォーマンスを達成するのに役立つことを実証した。 ソースコードは \url{git@github.com:great log/unpairedsr.git} でリリースされる。

Synthetic high-resolution (HR) \& low-resolution (LR) pairs are widely used in existing super-resolution (SR) methods. To avoid the domain gap between synthetic and test images, most previous methods try to adaptively learn the synthesizing (degrading) process via a deterministic model. However, some degradations in real scenarios are stochastic and cannot be determined by the content of the image. These deterministic models may fail to model the random factors and content-independent parts of degradations, which will limit the performance of the following SR models. In this paper, we propose a probabilistic degradation model (PDM), which studies the degradation $\mathbf{D}$ as a random variable, and learns its distribution by modeling the mapping from a priori random variable $\mathbf{z}$ to $\mathbf{D}$. Compared with previous deterministic degradation models, PDM could model more diverse degradations and generate HR-LR pairs that may better cover the various degradations of test images, and thus prevent the SR model from over-fitting to specific ones. Extensive experiments have demonstrated that our degradation model can help the SR model achieve better performance on different datasets. The source codes are released at \url{git@github.com:great log/UnpairedSR.git}.
翻訳日:2022-03-12 04:23:13 公開日:2022-03-09
# (参考訳) 再生可能エネルギーシステムにおけるデジタル双生児の移動学習 [全文訳有]

Transfer Learning as an Essential Tool for Digital Twins in Renewable Energy Systems ( http://arxiv.org/abs/2203.05026v1 )

ライセンス: CC BY 4.0
Chandana Priya Nivarthi(参考訳) 機械学習(ML)の次のフロンティアであるTransfer Learning(TL)は、膨大なトレーニングデータの必要性、データサンプルの高価で時間のかかるラベル付けプロセス、モデルの長期トレーニングなど、MLで直面するさまざまな課題により、近年、大きな人気を集めている。 TLは、以前解決されたタスクから新しいタスクへの知識の転送に焦点を当てており、これらの問題を解決するのに有用である。 デジタル双生児や他のインテリジェントなシステムは、以前得られた知識を利用し、より自律的な方法で新しいタスクを解決し、知識ベースを漸進的に増やすためにTLを利用する必要がある。 そこで本稿では,再生可能エネルギーシステムにおける電力予測と異常検出における重要な課題を特定し,これらの課題を満たすためのtlフレームワークを提案する。 この記事では、欠落したセンサデータを扱うために、機能埋め込みアプローチを提案する。 提案したTL法は、有機コンピューティングの文脈でシステムをより自律的にするのに役立つ。

Transfer learning (TL), the next frontier in machine learning (ML), has gained much popularity in recent years, due to the various challenges faced in ML, like the requirement of vast amounts of training data, expensive and time-consuming labelling processes for data samples, and long training duration for models. TL is useful in tackling these problems, as it focuses on transferring knowledge from previously solved tasks to new tasks. Digital twins and other intelligent systems need to utilise TL to use the previously gained knowledge and solve new tasks in a more self-reliant way, and to incrementally increase their knowledge base. Therefore, in this article, the critical challenges in power forecasting and anomaly detection in the context of renewable energy systems are identified, and a potential TL framework to meet these challenges is proposed. This article also proposes a feature embedding approach to handle the missing sensors data. The proposed TL methods help to make a system more autonomous in the context of organic computing.
翻訳日:2022-03-12 04:05:54 公開日:2022-03-09
# (参考訳) 推移情報理論とその深部生成モデルへの応用 [全文訳有]

The Transitive Information Theory and its Application to Deep Generative Models ( http://arxiv.org/abs/2203.05074v1 )

ライセンス: CC BY 4.0
Trung Ngo and Ville Hautam\"aki and Merja Hein\"aniemi(参考訳) パラドックス的には、変分オートエンコーダ(VAE)は、実写画像を生成するために強力なデコーダモデルを利用するが、学習した表現を崩壊させるか、あるいは非絡み合う表現の正規化係数を増大させるが、最終的には曖昧な例を生成する。 既存の方法では、圧縮と再構成の間のレート歪みのトレードオフに問題を絞り込む。 良好な復元モデルは,より詳細な情報をエンコードする高容量潜水器を学習するが,前者は後方から完全に切り離されたランダムノイズであり,生成の制御性を許容しない,平均場変動推論では,それらのユニットを可算な新規出力に再結合するタスクを強制しない,という2つの大きな問題に悩まされている。 その結果、一般化のために学習した表現を再結合する機構とともに、不整合表現の階層構造を学習するシステムを開発した。 これは、VAEの前に制御可能な学習を行うために、最小限の帰納バイアスを導入することで達成される。 このアイデアは,2つの変数間の相互情報を第3変数への相互情報を通じて交互に最大化することで,VOE設計における速度歪みのボトルネックを回避できる,という過渡的情報理論によって支持される。 特に,セマフォワエ(semafovae)というモデル(コンピュータ科学における類似概念に触発された)は,制御可能な方法で高品質な例を生成し,不連続要因の円滑なトラバーサルを行い,異なる階層レベルで介入できることを示した。

Paradoxically, a Variational Autoencoder (VAE) could be pushed in two opposite directions, utilizing powerful decoder model for generating realistic images but collapsing the learned representation, or increasing regularization coefficient for disentangling representation but ultimately generating blurry examples. Existing methods narrow the issues to the rate-distortion trade-off between compression and reconstruction. We argue that a good reconstruction model does learn high capacity latents that encode more details, however, its use is hindered by two major issues: the prior is random noise which is completely detached from the posterior and allow no controllability in the generation; mean-field variational inference doesn't enforce hierarchy structure which makes the task of recombining those units into plausible novel output infeasible. As a result, we develop a system that learns a hierarchy of disentangled representation together with a mechanism for recombining the learned representation for generalization. This is achieved by introducing a minimal amount of inductive bias to learn controllable prior for the VAE. The idea is supported by here developed transitive information theory, that is, the mutual information between two target variables could alternately be maximized through the mutual information to the third variable, thus bypassing the rate-distortion bottleneck in VAE design. In particular, we show that our model, named SemafoVAE (inspired by the similar concept in computer science), could generate high-quality examples in a controllable manner, perform smooth traversals of the disentangled factors and intervention at a different level of representation hierarchy.
翻訳日:2022-03-12 03:56:55 公開日:2022-03-09
# (参考訳) NLX-GPT:視覚・視覚言語課題における自然言語説明モデル [全文訳有]

NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks ( http://arxiv.org/abs/2203.05081v1 )

ライセンス: CC BY 4.0
Fawaz Sammani, Tanmoy Mukherjee, Nikos Deligiannis(参考訳) 自然言語説明(NLE)モデルは、ヒューマンフレンドリーでハイレベルできめ細かい自然言語文を生成することによって、ブラックボックスシステムの意思決定プロセスを説明することを目的としている。 現在のNLEモデルは、視覚または視覚言語モデル(タスクモデル)、例えばVQAモデル(言語モデル)、GPT(言語モデル)の意思決定プロセスを説明する。 追加のメモリリソースとタスクモデルに必要な推論時間以外には、タスクと説明モデルは完全に独立しており、回答を予測するための推論プロセスから説明を分離している。 NLX-GPTは汎用的でコンパクトで忠実な言語モデルであり,回答を同時に予測し,それを説明できる。 まず,画像の一般的な理解のために,画像キャプチャペアの大規模データに対して事前学習を行い,説明とともにテキスト予測タスクとして回答を定式化する。 リージョンの提案やタスクモデルがなければ、その結果、フレームワーク全体の評価スコアが向上し、パラメータが大幅に少なくなり、現在のSoAモデルよりも15$\times$高速になります。 次に,説明を多用し,データバイアスを多用し,複数の形式に分類し,評価する問題に対処する。 そこで我々は,(1)説明予測と(2)ラベルを必要としない自己評価フレームワークである検索に基づく攻撃の2つの新しい評価手法を設計した。 コードはhttps://github.com/f awazsammani/nlxgpt。

Natural language explanation (NLE) models aim at explaining the decision-making process of a black box system via generating natural language sentences which are human-friendly, high-level and fine-grained. Current NLE models explain the decision-making process of a vision or vision-language model (a.k.a., task model), e.g., a VQA model, via a language model (a.k.a., explanation model), e.g., GPT. Other than the additional memory resources and inference time required by the task model, the task and explanation models are completely independent, which disassociates the explanation from the reasoning process made to predict the answer. We introduce NLX-GPT, a general, compact and faithful language model that can simultaneously predict an answer and explain it. We first conduct pre-training on large scale data of image-caption pairs for general understanding of images, and then formulate the answer as a text prediction task along with the explanation. Without region proposals nor a task model, our resulting overall framework attains better evaluation scores, contains much less parameters and is 15$\times$ faster than the current SoA model. We then address the problem of evaluating the explanations which can be in many times generic, data-biased and can come in several forms. We therefore design 2 new evaluation measures: (1) explain-predict and (2) retrieval-based attack, a self-evaluation framework that requires no labels. Code is at: https://github.com/f awazsammani/nlxgpt.
翻訳日:2022-03-12 03:11:03 公開日:2022-03-09
# 低ビット幅およびハードウェア対応ニューラルネットワークのための2次量子化

Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural Networks ( http://arxiv.org/abs/2203.05025v1 )

ライセンス: Link先を確認
Dominika Przewlocka-Rus, Syed Shakib Sarwar, H. Ekin Sumbul, Yuecheng Li, Barbara De Salvo(参考訳) リアルタイムに制約のあるアプリケーションのために、低消費電力の組み込みデバイスにディープニューラルネットワークをデプロイするには、メモリの最適化とネットワークの計算の複雑さが必要となる。 既存の研究の多くは線形量子化を採用しており、重量ビット幅の精度は8より低い。 重みの分布は通常一様ではない(ほとんどの重みは0を中心に集中している)ので、対数量子化のような他の方法は、重みの分布の形状をより正確に保存できるため、より適している。 さらに、base-2対数表現を用いることで、ビットシフトに置き換えることで乗算を最適化することができる。 本稿では,低ビット精度を利用する非線形量子化手法について検討し,適切なハードウェア実装オプションを同定する。 我々は、低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発し、異なるタスクのための最先端浮動小数点モデルと同等の精度を実現した。 提案手法を用いた場合の効率向上を示すため,PoT重み符号化手法を探索し,MACユニットのハードウェア設計を3種類の量子化スキーム(均一,PoT,Additive-PoT(AP oT))で検討した。 実験の結果、低ビット幅精度では、非一様量子化は均一性よりも優れており、同時にPoT量子化はニューラルネットワークの計算複雑性を大幅に減少させることがわかった。

Deploying Deep Neural Networks in low-power embedded devices for real time-constrained applications requires optimization of memory and computational complexity of the networks, usually by quantizing the weights. Most of the existing works employ linear quantization which causes considerable degradation in accuracy for weight bit widths lower than 8. Since the distribution of weights is usually non-uniform (with most weights concentrated around zero), other methods, such as logarithmic quantization, are more suitable as they are able to preserve the shape of the weight distribution more precise. Moreover, using base-2 logarithmic representation allows optimizing the multiplication by replacing it with bit shifting. In this paper, we explore non-linear quantization techniques for exploiting lower bit precision and identify favorable hardware implementation options. We developed the Quantization Aware Training (QAT) algorithm that allowed training of low bit width Power-of-Two (PoT) networks and achieved accuracies on par with state-of-the-art floating point models for different tasks. We explored PoT weight encoding techniques and investigated hardware designs of MAC units for three different quantization schemes - uniform, PoT and Additive-PoT (APoT) - to show the increased efficiency when using the proposed approach. Eventually, the experiments showed that for low bit width precision, non-uniform quantization performs better than uniform, and at the same time, PoT quantization vastly reduces the computational complexity of the neural network.
翻訳日:2022-03-11 15:44:15 公開日:2022-03-09
# 多様体系サロゲートおよびディープニューラル作用素における過パラメータ化の影響について

On the influence of over-parameterizatio n in manifold based surrogates and deep neural operators ( http://arxiv.org/abs/2203.05071v1 )

ライセンス: Link先を確認
Katiana Kontolati, Somdatta Goswami, Michael D. Shields, George Em Karniadakis(参考訳) 非滑らかな力学を示す複雑な物理化学過程に対する正確で一般化可能な近似器の構築は困難である。 本研究では,多様体型多項式カオス展開 (m-PCE) とディープニューラル演算子 (DeepONet) の2つの新しい展開と比較を行い,オーバーパラメータ化が一般化に与える影響について検討する。 2次元時間依存反応拡散系を不確実性源で解き、2種間の自己触媒化学反応をモデル化し、一般化精度の観点からこれらの手法の性能を示す。 まず、入力関数と出力QoIの2つの別々の埋め込みによって形成された潜在空間間のマッピングを構築することで、m-PCEの拡張を提案する。 DeepONetの精度を高めるために、損失関数に重み自己適応性を導入する。 我々はm-PCEとDeepONetの性能が比較的スムーズな入出力マッピングの場合と同等であることを示した。 しかし、非滑らかなダイナミクスを考慮すると、DeepONetは高い精度を示す。 また,m-PCEの場合,過度な過パラメータ化は分布内および外部の両方において,より一般化され,一方,積極的な過パラメータ化は過適合となる。 対照的に、超過パラメータのdeeponetは滑らかと非スムースの両方のダイナミクスのより優れた一般化をもたらす。 さらに、上記のモデルの性能を別の演算子学習モデルであるフーリエニューラル演算子と比較し、その過度パラメータ化がより良い一般化をもたらすことを示す。 実験の結果,m-PCEは非常に低いトレーニングコストで高い精度が得られるのに対し,過度にパラメータ化されたDeepONetは高いトレーニングコストでより精度と堅牢性が得られることがわかった。 どちらの方法でも、推論コストは無視できる。

Constructing accurate and generalizable approximators for complex physico-chemical processes exhibiting highly non-smooth dynamics is challenging. In this work, we propose new developments and perform comparisons for two promising approaches: manifold-based polynomial chaos expansion (m-PCE) and the deep neural operator (DeepONet), and we examine the effect of over-parameterizatio n on generalization. We demonstrate the performance of these methods in terms of generalization accuracy by solving the 2D time-dependent Brusselator reaction-diffusion system with uncertainty sources, modeling an autocatalytic chemical reaction between two species. We first propose an extension of the m-PCE by constructing a mapping between latent spaces formed by two separate embeddings of input functions and output QoIs. To enhance the accuracy of the DeepONet, we introduce weight self-adaptivity in the loss function. We demonstrate that the performance of m-PCE and DeepONet is comparable for cases of relatively smooth input-output mappings. However, when highly non-smooth dynamics is considered, DeepONet shows higher accuracy. We also find that for m-PCE, modest over-parameterizatio n leads to better generalization, both within and outside of distribution, whereas aggressive over-parameterizatio n leads to over-fitting. In contrast, an even highly over-parameterized DeepONet leads to better generalization for both smooth and non-smooth dynamics. Furthermore, we compare the performance of the above models with another operator learning model, the Fourier Neural Operator, and show that its over-parameterizatio n also leads to better generalization. Our studies show that m-PCE can provide very good accuracy at very low training cost, whereas a highly over-parameterized DeepONet can provide better accuracy and robustness to noise but at higher training cost. In both methods, the inference cost is negligible.
翻訳日:2022-03-11 15:43:48 公開日:2022-03-09
# ドメイン適応のための十分な条件の連結:ソース誘導の不確実性、緩和された発散および不一致の局在

Connecting sufficient conditions for domain adaptation: source-guided uncertainty, relaxed divergences and discrepancy localization ( http://arxiv.org/abs/2203.05076v1 )

ライセンス: Link先を確認
Sofien Dhouib, Setareh Maghsudi(参考訳) ドメイン適応の最近の進歩により、ソースドメインのリスクが低く、機能限界が等しくなり、適応の性能が低下する。 同時に、厳密なアライメントとともに、高密度領域から決定境界を遠ざける教師なしの標的ドメイン項を組み込むことで適応性が向上する、という実証的な証拠が示される。 本稿では,対象リスクの新しいバウンドによる観測を理論的に正当化し,発散に対する緩和の2つの概念,すなわち$\beta-$relaxed divergences とローカライゼーションを結びつける。 この接続により、ソースドメインのカテゴリ構造を考慮された分岐の緩和に組み込むことができ、特にラベルシフトケースの扱いがより良くなることが証明できる。

Recent advances in domain adaptation establish that requiring a low risk on the source domain and equal feature marginals degrade the adaptation's performance. At the same time, empirical evidence shows that incorporating an unsupervised target domain term that pushes decision boundaries away from the high-density regions, along with relaxed alignment, improves adaptation. In this paper, we theoretically justify such observations via a new bound on the target risk, and we connect two notions of relaxation for divergence, namely $\beta-$relaxed divergences and localization. This connection allows us to incorporate the source domain's categorical structure into the relaxation of the considered divergence, provably resulting in a better handling of the label shift case in particular.
翻訳日:2022-03-11 15:43:16 公開日:2022-03-09
# 学習可能な埋め込み指標における回転行列学習のためのDescent法

Givens Coordinate Descent Methods for Rotation Matrix Learning in Trainable Embedding Indexes ( http://arxiv.org/abs/2203.05082v1 )

ライセンス: Link先を確認
Yunjiang Jiang, Han Zhang, Yiming Qiu, Yun Xiao, Bo Long, Wen-Yun Yang(参考訳) 製品量子化(PQ)と空間回転が組み合わされ、現代の近接近接探索システム(ANN)において、埋め込み用のディスクストレージを著しく圧縮し、内部積計算を高速化するために広く使われている。 しかし、既存の回転学習法は固定埋め込みの量子化歪みを最小限に抑えており、常に埋め込みが更新されるエンドツーエンドのトレーニングシナリオには適用できない。 本稿では,リー群理論の幾何学的直観,特に特殊直交群 $SO(n)$ に基づいて,任意の凸対象に対して有意収束する回転行列を学習するために,ブロックガジン座標降下アルゴリズム群を提案する。 最先端のSVD法と比較して、Givensアルゴリズムはより並列化可能であり、現代のGPUの桁違いのランタイムを削減し、実験結果により安定に収束する。 エンドツーエンドのトレーニングシナリオでは、バニラ製品の量子化が大幅に改善される。

Product quantization (PQ) coupled with a space rotation, is widely used in modern approximate nearest neighbor (ANN) search systems to significantly compress the disk storage for embeddings and speed up the inner product computation. Existing rotation learning methods, however, minimize quantization distortion for fixed embeddings, which are not applicable to an end-to-end training scenario where embeddings are updated constantly. In this paper, based on geometric intuitions from Lie group theory, in particular the special orthogonal group $SO(n)$, we propose a family of block Givens coordinate descent algorithms to learn rotation matrix that are provably convergent on any convex objectives. Compared to the state-of-the-art SVD method, the Givens algorithms are much more parallelizable, reducing runtime by orders of magnitude on modern GPUs, and converge more stably according to experimental studies. They further improve upon vanilla product quantization significantly in an end-to-end training scenario.
翻訳日:2022-03-11 15:41:08 公開日:2022-03-09
# 学習画像圧縮のためのニューラルデータ依存変換

Neural Data-Dependent Transform for Learned Image Compression ( http://arxiv.org/abs/2203.04963v1 )

ライセンス: Link先を確認
Dezhao Wang, Wenhan Yang, Yueyu Hu, Jiaying Liu(参考訳) 学習された画像圧縮は、優れたモデリング能力によって大きな成功を収めてきたが、各入力画像のレート・歪み最適化(RDO)をさらに考えることは滅多にない。 この可能性を学習コーデックで探究するため,我々はまず,ニューラルネットワーク依存変換を構築し,各画像の符号化効率を共同で最適化する継続的オンラインモード決定機構を導入する。 具体的には、画像コンテンツストリームとは別に、デコーダ側で変換パラメータを生成するために追加のモデルストリームを使用します。 モデルストリームの存在は、より抽象的なニューラルシンタクスを学習し、画像の潜在表現をよりコンパクトにクラスタリングするのに役立つ。 トランスフォーメーションステージ以外にも、余分なデコードオーバーヘッドに関わらず、高品質な再構築を必要とするシナリオに対して、ニューラルシンタクスベースの後処理を採用しています。 さらに、モデルストリームの関与により、オンラインの方法で表現とデコーダの両方、すなわちテスト時にrdoを最適化することができる。 従来のコーデックのコーディングモードのような連続的なオンラインモードの決定と等価であり、個々の入力画像に基づいてコーディング効率を向上させる。 実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示され,従来のVVC(Versatile Video Coding)や他の最先端の学習ベース手法と比較して,符号化効率の優位性が示された。

Learned image compression has achieved great success due to its excellent modeling capacity, but seldom further considers the Rate-Distortion Optimization (RDO) of each input image. To explore this potential in the learned codec, we make the first attempt to build a neural data-dependent transform and introduce a continuous online mode decision mechanism to jointly optimize the coding efficiency for each individual image. Specifically, apart from the image content stream, we employ an additional model stream to generate the transform parameters at the decoder side. The presence of a model stream enables our model to learn more abstract neural-syntax, which helps cluster the latent representations of images more compactly. Beyond the transform stage, we also adopt neural-syntax based post-processing for the scenarios that require higher quality reconstructions regardless of extra decoding overhead. Moreover, the involvement of the model stream further makes it possible to optimize both the representation and the decoder in an online way, i.e. RDO at the testing time. It is equivalent to a continuous online mode decision, like coding modes in the traditional codecs, to improve the coding efficiency based on the individual input image. The experimental results show the effectiveness of the proposed neural-syntax design and the continuous online mode decision mechanism, demonstrating the superiority of our method in coding efficiency compared to the latest conventional standard Versatile Video Coding (VVC) and other state-of-the-art learning-based methods.
翻訳日:2022-03-11 15:38:36 公開日:2022-03-09
# Injective Multiple Instance Pooling を用いた転移性癌の予後予測

Metastatic Cancer Outcome Prediction with Injective Multiple Instance Pooling ( http://arxiv.org/abs/2203.04964v1 )

ライセンス: Link先を確認
Jianan Chen and Anne L. Martel(参考訳) 癌ステージは、多くのがんタイプの患者の予後と管理の大きな決定要因であり、CTやMRIなどの医学的画像モダリティを用いて評価されることが多い。 これらの医用画像は、各ステージグループ内の患者を階層化し、予後アルゴリズムをさらに改善するための豊富な情報を含んでいる。 がん死の大半は転移性疾患と多焦点性疾患によるものであるが、注釈付きデータセットや標準研究フレームワークが欠如していることから、複数の腫瘍患者のための画像バイオマーカーの構築は難しい課題となっている。 本稿では2つの公開データセットを処理し,多局所性転移性癌の予後予測のためのベンチマークコホートを合計341名設定する。 一般的な複数インスタンス分類ネットワークにおける表現性の欠如を特定し,結果予測に適した2つのインジェクティブ多重インスタンスプール関数を提案する。 本研究は, 肺がん非小細胞癌における複数症例の学習が, 頭頸部CT結果予測ベンチマークの課題において, 最先端のパフォーマンスを達成できることを示すものである。 我々は、処理されたマルチ焦点データセット、コード、中間ファイル、すなわち抽出された放射能の特徴をリリースし、より透明で再現可能な研究を支援する。

Cancer stage is a large determinant of patient prognosis and management in many cancer types, and is often assessed using medical imaging modalities, such as CT and MRI. These medical images contain rich information that can be explored to stratify patients within each stage group to further improve prognostic algorithms. Although the majority of cancer deaths result from metastatic and multifocal disease, building imaging biomarkers for patients with multiple tumors has been a challenging task due to the lack of annotated datasets and standard study framework. In this paper, we process two public datasets to set up a benchmark cohort of 341 patient in total for studying outcome prediction of multifocal metastatic cancer. We identify the lack of expressiveness in common multiple instance classification networks and propose two injective multiple instance pooling functions that are better suited to outcome prediction. Our results show that multiple instance learning with injective pooling functions can achieve state-of-the-art performance in the non-small-cell lung cancer CT and head and neck CT outcome prediction benchmarking tasks. We will release the processed multifocal datasets, our code and the intermediate files i.e. extracted radiomic features to support further transparent and reproducible research.
翻訳日:2022-03-11 15:38:11 公開日:2022-03-09
# UNeXt:MLPベースのRapid Medical Image Segmentation Network

UNeXt: MLP-based Rapid Medical Image Segmentation Network ( http://arxiv.org/abs/2203.04967v1 )

ライセンス: Link先を確認
Jeya Maria Jose Valanarasu and Vishal M. Patel(参考訳) UNetとその最新の拡張であるTransUNetは、ここ数年で主要な医療画像分割手法である。 しかし、これらのネットワークはパラメータ重く計算が複雑で使用が遅いため、ポイントオブケアアプリケーションにおける高速画像分割には効果的に適用できない。 本研究では,画像分割のための畳み込み多層パーセプトロン(mlp)ベースのネットワークであるunextを提案する。 我々はUNeXtを初期畳み込みステージと後期段階のMLPステージで効果的に設計する。 我々は, 畳み込み特徴を効率的にトークン化し, 投影し, 表現をモデル化するトークン化MLPブロックを提案する。 性能をさらに向上するため,ローカル依存の学習に集中するために,入力のチャネルをMPPに切り替えることを提案する。 潜在空間でトークン化されたMLPを使用することで、パラメータの数と計算の複雑さを減らし、セグメンテーションに役立つより良い表現を得られる。 ネットワークは様々なレベルのエンコーダとデコーダの間のスキップ接続も構成している。 複数の医用画像セグメンテーションデータセット上でunextをテストした結果,パラメータ数を72倍削減し,計算複雑性を68倍削減し,推論速度を10倍向上するとともに,最先端の医用画像セグメンテーションアーキテクチャよりも優れたセグメンテーション性能を得ることができた。 コードはhttps://github.com/j eya-maria-jose/UNeXt -pytorchで入手できる。

UNet and its latest extensions like TransUNet have been the leading medical image segmentation methods in recent years. However, these networks cannot be effectively adopted for rapid image segmentation in point-of-care applications as they are parameter-heavy, computationally complex and slow to use. To this end, we propose UNeXt which is a Convolutional multilayer perceptron (MLP) based network for image segmentation. We design UNeXt in an effective way with an early convolutional stage and a MLP stage in the latent stage. We propose a tokenized MLP block where we efficiently tokenize and project the convolutional features and use MLPs to model the representation. To further boost the performance, we propose shifting the channels of the inputs while feeding in to MLPs so as to focus on learning local dependencies. Using tokenized MLPs in latent space reduces the number of parameters and computational complexity while being able to result in a better representation to help segmentation. The network also consists of skip connections between various levels of encoder and decoder. We test UNeXt on multiple medical image segmentation datasets and show that we reduce the number of parameters by 72x, decrease the computational complexity by 68x, and improve the inference speed by 10x while also obtaining better segmentation performance over the state-of-the-art medical image segmentation architectures. Code is available at https://github.com/j eya-maria-jose/UNeXt -pytorch
翻訳日:2022-03-11 15:37:45 公開日:2022-03-09
# 専門家のデモからコントロールを学ぶ

Learning to control from expert demonstrations ( http://arxiv.org/abs/2203.05012v1 )

ライセンス: Link先を確認
Alimzhan Sultangazin, Luigi Pannocchi, Lucas Fraile, and Paulo Tabuada(参考訳) 本稿では,専門家による有限個の実演から安定制御器を学習する問題について再検討する。 まず, フィードバック線形化システムに着目し, 実演が十分長く, かつ少なくともn+1 ドル以上あり, 制御対象システムの状態数を$n$ とした場合に, 実演を安定化制御に組み合わせる方法を示す。 n+1$ 以上のデモンストレーションがある場合、安定化コントローラを構築するために最適な $n+1$ デモを最適に選択する方法について議論する。 次に、これらの結果を、積分器の連鎖を含む高次元システムに組み込むことができる一連のシステムに拡張する。 提案手法の有効性は,crazyflie 2.0 quadrotor に適用することにより実証された。

In this paper, we revisit the problem of learning a stabilizing controller from a finite number of demonstrations by an expert. By first focusing on feedback linearizable systems, we show how to combine expert demonstrations into a stabilizing controller, provided that demonstrations are sufficiently long and there are at least $n+1$ of them, where $n$ is the number of states of the system being controlled. When we have more than $n+1$ demonstrations, we discuss how to optimally choose the best $n+1$ demonstrations to construct the stabilizing controller. We then extend these results to a class of systems that can be embedded into a higher-dimensional system containing a chain of integrators. The feasibility of the proposed algorithm is demonstrated by applying it on a CrazyFlie 2.0 quadrotor.
翻訳日:2022-03-11 15:30:43 公開日:2022-03-09
# 特徴学習による地上重力波模倣の検出と診断

Detecting and Diagnosing Terrestrial Gravitational-Wave Mimics Through Feature Learning ( http://arxiv.org/abs/2203.05086v1 )

ライセンス: Link先を確認
Robert E. Colgan, Zsuzsa M\'arka, Jingkai Yan, Imre Bartos, John N. Wright, and Szabolcs M\'arka(参考訳) 複雑化するにつれて、必然的に発生し、手動で診断や修正が困難または不可能である過渡的異常を検出、診断、修正できる自動的な方法の必要性が高まっている。 我々の文明で最も敏感で複雑なシステムの中には、重力波によって引き起こされる距離の驚くほど小さな変化を探索する検出器がある。 このような検出器の極端な複雑さと精度は、その感度と有効性を著しく制限できる過渡的なノイズ問題に直面する。 本研究では,このような複雑系の突発的過渡異常を検知し,特徴付ける手法の実証を行う。 重力波観測装置の高感度測定を汚染し、彼らが聴いているかすかな天体物理信号の曖昧さや模倣を行う地球起源のノイズアーティファクト。 具体的には、高度に解釈可能な畳み込み分類器が、異常自体を観察することなく、補助検出器データから過渡的異常を自動的に検出する方法を実証する。 モデルの他の有用な機能として,数万の補助データチャネルを少数の関連チャネルに削減するための自動変数選択の実行方法,それらのチャネルにおける異常の予測に対する行動シグネチャの識別方法,個々の異常やそれに関連するチャネルを調査する手段としての利用方法などが紹介されている。

As engineered systems grow in complexity, there is an increasing need for automatic methods that can detect, diagnose, and even correct transient anomalies that inevitably arise and can be difficult or impossible to diagnose and fix manually. Among the most sensitive and complex systems of our civilization are the detectors that search for incredibly small variations in distance caused by gravitational waves -- phenomena originally predicted by Albert Einstein to emerge and propagate through the universe as the result of collisions between black holes and other massive objects in deep space. The extreme complexity and precision of such detectors causes them to be subject to transient noise issues that can significantly limit their sensitivity and effectiveness. In this work, we present a demonstration of a method that can detect and characterize emergent transient anomalies of such massively complex systems. We illustrate the performance, precision, and adaptability of the automated solution via one of the prevalent issues limiting gravitational-wave discoveries: noise artifacts of terrestrial origin that contaminate gravitational wave observatories' highly sensitive measurements and can obscure or even mimic the faint astrophysical signals for which they are listening. Specifically, we demonstrate how a highly interpretable convolutional classifier can automatically learn to detect transient anomalies from auxiliary detector data without needing to observe the anomalies themselves. We also illustrate several other useful features of the model, including how it performs automatic variable selection to reduce tens of thousands of auxiliary data channels to only a few relevant ones; how it identifies behavioral signatures predictive of anomalies in those channels; and how it can be used to investigate individual anomalies and the channels associated with them.
翻訳日:2022-03-11 15:30:29 公開日:2022-03-09
# 資源効率の良い不変ネットワーク:アンロール最適化による指数ゲイン

Resource-Efficient Invariant Networks: Exponential Gains by Unrolled Optimization ( http://arxiv.org/abs/2203.05006v1 )

ライセンス: Link先を確認
Sam Buchanan, Jingkai Yan, Ellie Haber, John Wright(参考訳) ニュアンス変換への不変性を達成することは、堅牢で信頼性の高い視覚システムの構築における根本的な課題である。 既存の不変性に対するアプローチは、変換の族次元と指数関数的にスケールし、ポーズや視点の変化のような視覚データの自然な変動に対処できない。 我々は,これらの手法の共通する限界を明らかにした。それらは,変換の高次元空間を横断するサンプリングに依存する - そして,多くのシナリオにおいてサンプリングよりも高次元探索に有効な方法を提供する最適化に代えて,不変ネットワークを構築するための新しい計算プリミティブを提案する。 本研究では,提案手法の効率向上と健全性に関する実証的・理論的確証を与え,簡単な階層的物体検出タスクのための効率的な不変ネットワークの構築と未進行最適化の併用の有用性を実証する。 私たちのネットワークと実験のコードは、https://github.com/s dbuch/refine.comで利用可能です。

Achieving invariance to nuisance transformations is a fundamental challenge in the construction of robust and reliable vision systems. Existing approaches to invariance scale exponentially with the dimension of the family of transformations, making them unable to cope with natural variabilities in visual data such as changes in pose and perspective. We identify a common limitation of these approaches--they rely on sampling to traverse the high-dimensional space of transformations--and propose a new computational primitive for building invariant networks based instead on optimization, which in many scenarios provides a provably more efficient method for high-dimensional exploration than sampling. We provide empirical and theoretical corroboration of the efficiency gains and soundness of our proposed method, and demonstrate its utility in constructing an efficient invariant network for a simple hierarchical object detection task when combined with unrolled optimization. Code for our networks and experiments is available at https://github.com/s dbuch/refine.
翻訳日:2022-03-11 14:41:12 公開日:2022-03-09
# 顔認識アルゴリズムのためのフェアネスモデルの評価

Evaluating Proposed Fairness Models for Face Recognition Algorithms ( http://arxiv.org/abs/2203.05051v1 )

ライセンス: Link先を確認
John J. Howard, Eli J. Laird, Yevgeniy B. Sirotin, Rebecca E. Rubin, Jerry L. Tipton, and Arun R. Vemury(参考訳) 深層学習の開始と訓練データの普及により,学術・商業組織による顔認識アルゴリズムの開発が急速に進んでいる。 顔認識アルゴリズムの性能テストは年々の性能向上を示すが、これらのシステムの誤差率はテストセットの人口構成によって異なる。 アルゴリズムのパフォーマンスの「デモグラフィ微分」は、特定のグループに対して不平等または不公平な結果をもたらす可能性があり、顔認識システムの世界的普及への懸念が高まる。 その結果、米国と欧州の規制機関は、「差別的影響」(欧州連合人工知能法)と「公正」(米国連邦取引委員会)のために生体認証システムの監査を必要とする新しい規則を提案した。 しかし、生体認証システムの公平性を測定する基準はまだ存在しない。 本稿では,米国と欧州の科学者による顔認識アルゴリズムの公正度(公正度)の2つの尺度を特徴付ける。 提案手法は, 顔認証の誤り率の分散に適用する場合, 一般に経験されるように解釈することが困難であることがわかった。 そこで本研究では,顔認識アルゴリズムの公正度測定において望ましい特性の集合を概説した,FFMC(Functional Fairness Measure Criteria)と呼ばれる解釈可能性基準を提案する。 我々はさらに,新しい公正度尺度であるGini Aggregation Rate for Biometric Equitability (GARBE)を開発し,Pareto最適化と組み合わせて,精度/公平性トレードオフ空間に基づいた代替アルゴリズムを選択する方法を示す。 最後に、我々のデータセットをオープンソースとして公開しました。 これは現在、この種のオープンソースデータセットとしては最大のものだと考えています。

The development of face recognition algorithms by academic and commercial organizations is growing rapidly due to the onset of deep learning and the widespread availability of training data. Though tests of face recognition algorithm performance indicate yearly performance gains, error rates for many of these systems differ based on the demographic composition of the test set. These "demographic differentials" in algorithm performance can contribute to unequal or unfair outcomes for certain groups of people, raising concerns with increased worldwide adoption of face recognition systems. Consequently, regulatory bodies in both the United States and Europe have proposed new rules requiring audits of biometric systems for "discriminatory impacts" (European Union Artificial Intelligence Act) and "fairness" (U.S. Federal Trade Commission). However, no standard for measuring fairness in biometric systems yet exists. This paper characterizes two proposed measures of face recognition algorithm fairness (fairness measures) from scientists in the U.S. and Europe. We find that both proposed methods are challenging to interpret when applied to disaggregated face recognition error rates as they are commonly experienced in practice. To address this, we propose a set of interpretability criteria, termed the Functional Fairness Measure Criteria (FFMC), that outlines a set of properties desirable in a face recognition algorithm fairness measure. We further develop a new fairness measure, the Gini Aggregation Rate for Biometric Equitability (GARBE), and show how, in conjunction with the Pareto optimization, this measure can be used to select among alternative algorithms based on the accuracy/fairness trade-space. Finally, we have open-sourced our dataset of machine-readable, demographically disaggregated error rates. We believe this is currently the largest open-source dataset of its kind.
翻訳日:2022-03-11 14:40:55 公開日:2022-03-09
# リンクレベルセグメンテーションについて

On Linking Level Segments ( http://arxiv.org/abs/2203.05057v1 )

ライセンス: Link先を確認
Colan Biemer and Seth Cooper(参考訳) 手続き的コンテンツ生成における研究の一般的な領域は、より大きなレベルを形成するために使用できる短い部分のレベルセグメントの作成である。 以前の研究では、これらの大きなレベルを形成するために基本的な結合を使用してきた。 しかし、セグメント自体がコンプリタブルで十分に形成されているとしても、コンプリタブルはコンプリタブルでゲーム内構造が壊れる可能性があるレベル(例えばマリオの不正なパイプ)を生成することができない。 タイルベースのゲームとしては、サイドスクロールのプラットフォーム、垂直のプラットフォーム、トップダウンのローグのような3つがあります。 さらに、マルコフ連鎖と木探索アルゴリズムを用いて、2つのレベルセグメント間のリンクを見つけ、フィルタを用いて、リンクされたセグメント内のコンプリータビリティとアンブロークなゲーム内構造を確実にする。 さらに、これらのリンクはマルチセグメントレベルでうまく機能することを示す。 この手法はセグメント間のリンクを確実に見つけ、設計者のニーズを満たすようにカスタマイズできる。

An increasingly common area of study in procedural content generation is the creation of level segments: short pieces that can be used to form larger levels. Previous work has used basic concatenation to form these larger levels. However, even if the segments themselves are completable and well-formed, concatenation can fail to produce levels that are completable and can cause broken in-game structures (e.g. malformed pipes in Mario). We show this with three tile-based games: a side-scrolling platformer, a vertical platformer, and a top-down roguelike. Additionally, we present a Markov chain and a tree search algorithm that finds a link between two level segments, which uses filters to ensure completability and unbroken in-game structures in the linked segments. We further show that these links work well for multi-segment levels. We find that this method reliably finds links between segments and is customizable to meet a designer's needs.
翻訳日:2022-03-11 14:39:01 公開日:2022-03-09
# 動的インスタンスドメイン適応

Dynamic Instance Domain Adaptation ( http://arxiv.org/abs/2203.05028v1 )

ライセンス: Link先を確認
Zhongying Deng, Kaiyang Zhou, Da Li, Junjun He, Yi-Zhe Song, Tao Xiang(参考訳) 教師なしドメイン適応(UDA)に関する既存の研究は、各ドメインのトレーニングサンプルがドメインラベル(例えば、絵画、写真)を伴っていると仮定している。 各ドメインのサンプルは同じディストリビューションに従っており、ドメインラベルは機能アライメントを通じてドメイン不変の機能を学ぶために利用される。 しかし、そのような仮定はしばしば真ではない——細かな領域が数多く存在することが多い(例えば、数十の近代的な絵画様式が発達し、それぞれが古典様式と劇的に異なる)。 したがって、各人工的かつ粗い領域にまたがる特徴分布の整列を強制することは効果的ではない。 本稿では,単一ソースと複数ソースのUDAをまったく異なる視点から扱い,各インスタンスを細かなドメインとみなす。 したがって、ドメイン間のフィーチャーアライメントは冗長である。 そこで我々は動的インスタンスドメイン適応(DIDA)を提案する。 具体的には、適応畳み込みカーネルを持つ動的ニューラルネットワークを開発し、各インスタンスにドメインに依存しない深い特徴を適応させるために、インスタンス適応残差を生成する。 これにより、共有分類器は、いかなるドメインアノテーションにも依存せずに、ソースデータとターゲットドメインデータの両方に適用できる。 さらに,ラベル付きソースと擬似ラベル付きターゲットデータの両方に対して,クロスエントロピー損失のみを用いた単純な半教師付き学習パラダイムを採用する。 我々のモデルはDIDA-Netと呼ばれ、Digits、Office-Home、DomainNet、Digit-Five、PACSなど、一般的に使用されている複数の単一ソースおよびマルチソースUDAデータセットに対して最先端のパフォーマンスを実現しています。

Most existing studies on unsupervised domain adaptation (UDA) assume that each domain's training samples come with domain labels (e.g., painting, photo). Samples from each domain are assumed to follow the same distribution and the domain labels are exploited to learn domain-invariant features via feature alignment. However, such an assumption often does not hold true -- there often exist numerous finer-grained domains (e.g., dozens of modern painting styles have been developed, each differing dramatically from those of the classic styles). Therefore, forcing feature distribution alignment across each artificially-defined and coarse-grained domain can be ineffective. In this paper, we address both single-source and multi-source UDA from a completely different perspective, which is to view each instance as a fine domain. Feature alignment across domains is thus redundant. Instead, we propose to perform dynamic instance domain adaptation (DIDA). Concretely, a dynamic neural network with adaptive convolutional kernels is developed to generate instance-adaptive residuals to adapt domain-agnostic deep features to each individual instance. This enables a shared classifier to be applied to both source and target domain data without relying on any domain annotation. Further, instead of imposing intricate feature alignment losses, we adopt a simple semi-supervised learning paradigm using only a cross-entropy loss for both labeled source and pseudo labeled target data. Our model, dubbed DIDA-Net, achieves state-of-the-art performance on several commonly used single-source and multi-source UDA datasets including Digits, Office-Home, DomainNet, Digit-Five, and PACS.
翻訳日:2022-03-11 14:38:45 公開日:2022-03-09
# トランスファーブルGNNによる適応軌道予測

Adaptive Trajectory Prediction via Transferable GNN ( http://arxiv.org/abs/2203.05046v1 )

ライセンス: Link先を確認
Yi Xu, Lichen Wang, Yizhou Wang, Yun Fu(参考訳) 歩行者の軌道予測は、自律運転やロボット工学のような幅広いAIアプリケーションにおいて不可欠な要素である。 既存の方法では、トレーニングとテストの動作は同じパターンを踏襲し、潜在的な分布の違い(ショッピングモールや通りなど)を無視している。 この問題は避けられない性能低下をもたらす。 この問題に対処するため,我々はT-GNN(Transferable Graph Neural Network)フレームワークを提案する。 具体的には、ドメイン固有知識が減少する構造運動知識を探索するために、ドメイン不変GNNを提案する。 さらに,注目に基づく適応型知識学習モジュールを提案し,より詳細な個別レベルの特徴表現を提案する。 このようにして、異なる軌道領域にまたがる格差が緩和される。 実際の軌道予測実験はより困難であり, 実験結果により提案モデルの優れた性能が検証された。 私たちの知る限りでは、私たちの研究は、さまざまなドメインにわたる実用的な歩行者追跡予測のためのベンチマークとテクニックのギャップを埋める先駆者です。

Pedestrian trajectory prediction is an essential component in a wide range of AI applications such as autonomous driving and robotics. Existing methods usually assume the training and testing motions follow the same pattern while ignoring the potential distribution differences (e.g., shopping mall and street). This issue results in inevitable performance decrease. To address this issue, we propose a novel Transferable Graph Neural Network (T-GNN) framework, which jointly conducts trajectory prediction as well as domain alignment in a unified framework. Specifically, a domain invariant GNN is proposed to explore the structural motion knowledge where the domain specific knowledge is reduced. Moreover, an attention-based adaptive knowledge learning module is further proposed to explore fine-grained individual-level feature representation for knowledge transfer. By this way, disparities across different trajectory domains will be better alleviated. More challenging while practical trajectory prediction experiments are designed, and the experimental results verify the superior performance of our proposed model. To the best of our knowledge, our work is the pioneer which fills the gap in benchmarks and techniques for practical pedestrian trajectory prediction across different domains.
翻訳日:2022-03-11 14:38:21 公開日:2022-03-09
# 能動学習による限定ラベル予算下での光フロートレーニング

Optical Flow Training under Limited Label Budget via Active Learning ( http://arxiv.org/abs/2203.05053v1 )

ライセンス: Link先を確認
Shuai Yuan, Xian Sun, Hannah Kim, Shuzhi Yu, Carlo Tomasi(参考訳) 光流予測器の監視トレーニングは、一般に教師なしトレーニングよりも精度が高い。 しかし、改善されたパフォーマンスは、しばしばアノテーションコストが高くなる。 半教師付きトレーニングは、アノテーションコストに対して精度をトレードオフする。 単純かつ効果的な半教師付きトレーニング手法を用いて,ラベルのごく一部でも教師なしトレーニングに比べてフロー精度が大幅に向上することを示す。 さらに,単純なヒューリスティックスに基づく能動的学習手法を提案し,同じ目標精度を達成するために必要なラベル数をさらに削減する。 人工的および実際の光フローデータセットにおける実験により、我々の半教師付きネットワークは、一般的にラベルの約50%が必要であり、sintel上でアクティブラーニングを行う場合、20%程度であることが示された。 また、アクティブな学習パフォーマンスに影響を与える可能性のある要因を分析し、示す。 コードはもうすぐ利用可能になる。

Supervised training of optical flow predictors generally yields better accuracy than unsupervised training. However, the improved performance comes at an often high annotation cost. Semi-supervised training trades off accuracy against annotation cost. We use a simple yet effective semi-supervised training method to show that even a small fraction of labels can improve flow accuracy by a significant margin over unsupervised training. In addition, we propose active learning methods based on simple heuristics to further reduce the number of labels required to achieve the same target accuracy. Our experiments on both synthetic and real optical flow datasets show that our semi-supervised networks generally need around 50% of the labels to achieve close to full-label accuracy, and only around 20% with active learning on Sintel. We also analyze and show insights on the factors that may influence our active learning performance. Code will be made available soon.
翻訳日:2022-03-11 14:38:03 公開日:2022-03-09
# SynWoodScape: 自動走行のための総合魚眼カメラデータセット

SynWoodScape: Synthetic Surround-view Fisheye Camera Dataset for Autonomous Driving ( http://arxiv.org/abs/2203.05056v1 )

ライセンス: Link先を確認
Ahmed Rida Sekkat, Yohan Dupuis, Varun Ravi Kumar, Hazem Rashed, Senthil Yogamani, Pascal Vasseur, Paul Honeine(参考訳) 周囲カメラは自動走行のための主要なセンサーであり、近接場知覚に使用される。 商用車両で最もよく使われるセンサーの1つである。 190{\deg}の視野を持つ4台の魚眼カメラが、車両の周囲の360{\deg}をカバーしている。 放射歪が大きいため、標準アルゴリズムは簡単には拡張できない。 以前は、WoodScapeという最初の公開魚眼サラウンドビューデータセットをリリースしました。 本研究では,サラウンドビューデータセットの合成版をリリースし,その弱点の多くをカバーし,拡張する。 まず、画素単位の光学的流れと深さの基底真理を得ることができない。 第2に、WoodScapeは様々なフレームをサンプリングするために4つのカメラを同時に備えていなかった。 しかし、これは、新しいデータセットで有効になるマルチカメラアルゴリズムを設計できないことを意味する。 我々は,CARLAシミュレータにおいて,WoodScapeの構成に適合するサラウンドビュー魚眼形状投影を実装し,SynWoodScapeを作成した。 10以上のタスクに対するアノテーションを備えた合成データセットから80kイメージをリリースします。 ベースラインのコードとサポートスクリプトもリリースしています。

Surround-view cameras are a primary sensor for automated driving, used for near field perception. It is one of the most commonly used sensors in commercial vehicles. Four fisheye cameras with a 190{\deg} field of view cover the 360{\deg} around the vehicle. Due to its high radial distortion, the standard algorithms do not extend easily. Previously, we released the first public fisheye surround-view dataset named WoodScape. In this work, we release a synthetic version of the surround-view dataset, covering many of its weaknesses and extending it. Firstly, it is not possible to obtain ground truth for pixel-wise optical flow and depth. Secondly, WoodScape did not have all four cameras simultaneously in order to sample diverse frames. However, this means that multi-camera algorithms cannot be designed, which is enabled in the new dataset. We implemented surround-view fisheye geometric projections in CARLA Simulator matching WoodScape's configuration and created SynWoodScape. We release 80k images from the synthetic dataset with annotations for 10+ tasks. We also release the baseline code and supporting scripts.
翻訳日:2022-03-11 14:36:47 公開日:2022-03-09
# HealthPrompt: 臨床自然言語処理のためのゼロショット学習パラダイム

HealthPrompt: A Zero-shot Learning Paradigm for Clinical Natural Language Processing ( http://arxiv.org/abs/2203.05061v1 )

ライセンス: Link先を確認
Sonish Sivarajkumar, Yanshan Wang(参考訳) ディープラーニングアルゴリズムは、大規模注釈付き臨床テキストデータセットの可用性に依存する。 このような公開データセットの欠如は、臨床自然言語処理(NLP)システムの開発における最大のボトルネックである。 Zero-Shot Learning(ZSL)は、ディープラーニングモデルを使用して、トレーニングデータがない新しいクラスからインスタンスを分類する。 プロンプトベースの学習は、NLPタスクのためのタスクベースのテンプレートを定義する新しいZSL技術である。 healthpromptと呼ばれる新しいプロンプトベースの臨床nlpフレームワークを開発し,臨床テキストにプロンプトベース学習のパラダイムを適用した。 このテクニックでは、事前訓練された言語モデル(PLM)を微調整するのではなく、プロンプトテンプレートを定義することでタスク定義を調整する。 我々は6つの異なるplmにおけるhealthpromptの詳細な分析を行った。 本実験は,臨床テキストのコンテキストを効果的に把握し,トレーニングデータなしで極めて良好に動作できることを証明した。

Deep learning algorithms are dependent on the availability of large-scale annotated clinical text datasets. The lack of such publicly available datasets is the biggest bottleneck for the development of clinical Natural Language Processing(NLP) systems. Zero-Shot Learning(ZSL) refers to the use of deep learning models to classify instances from new classes of which no training data have been seen before. Prompt-based learning is an emerging ZSL technique where we define task-based templates for NLP tasks. We developed a novel prompt-based clinical NLP framework called HealthPrompt and applied the paradigm of prompt-based learning on clinical texts. In this technique, rather than fine-tuning a Pre-trained Language Model(PLM), the task definitions are tuned by defining a prompt template. We performed an in-depth analysis of HealthPrompt on six different PLMs in a no-data setting. Our experiments prove that prompts effectively capture the context of clinical texts and perform remarkably well without any training data.
翻訳日:2022-03-11 13:43:11 公開日:2022-03-09
# SAGE:深層強化学習におけるミオピックモデルのためのシンボリックゴールの生成

SAGE: Generating Symbolic Goals for Myopic Models in Deep Reinforcement Learning ( http://arxiv.org/abs/2203.05079v1 )

ライセンス: Link先を確認
Andrew Chester, Michael Dann, Fabio Zambetta, John Thangarajah(参考訳) モデルに基づく強化学習アルゴリズムは通常、モデルなしのアルゴリズムよりもサンプル効率が高い。 残念ながら、多くの興味深いドメインは、従来のモデルベースのアプローチで必要とされる完全なモデルを特定するには複雑すぎる。 モデルを学ぶには多くの環境サンプルが必要だが、環境の探索が難しい場合は重要な情報を捉えないこともある。 不完全なモデルを定義し、エージェントに最適な使い方を学ばせることができれば、多くのドメインに対する部分的理解を活用できるでしょう。 この問題に対処する既存のハイブリッド計画と学習システムは、利用可能なモデルの種類に非常に制限のある仮定を課し、幅広いドメインに適用性を制限することが多い。 本研究では,これまで使用できなかった不完全モデルのクラスを活用するための学習と計画を組み合わせたアルゴリズムであるSAGEを提案する。 これは、象徴的な計画とニューラルネットワークのアプローチの長所を、タクシーの世界とマインクラフトのバリエーションで競合する手法を上回る、新しい方法で組み合わせている。

Model-based reinforcement learning algorithms are typically more sample efficient than their model-free counterparts, especially in sparse reward problems. Unfortunately, many interesting domains are too complex to specify the complete models required by traditional model-based approaches. Learning a model takes a large number of environment samples, and may not capture critical information if the environment is hard to explore. If we could specify an incomplete model and allow the agent to learn how best to use it, we could take advantage of our partial understanding of many domains. Existing hybrid planning and learning systems which address this problem often impose highly restrictive assumptions on the sorts of models which can be used, limiting their applicability to a wide range of domains. In this work we propose SAGE, an algorithm combining learning and planning to exploit a previously unusable class of incomplete models. This combines the strengths of symbolic planning and neural learning approaches in a novel way that outperforms competing methods on variations of taxi world and Minecraft.
翻訳日:2022-03-11 13:42:36 公開日:2022-03-09
# 逆応答を伴う普遍回帰

Universal Regression with Adversarial Responses ( http://arxiv.org/abs/2203.05067v1 )

ライセンス: Link先を確認
Mo\"ise Blanchard, Patrick Jaillet(参考訳) 一般に分離可能な距離空間上の非i.i.d.インスタンス列のクラスで逆応答を持つ回帰アルゴリズムを提供する。 また,この回帰文脈における学習可能性の特徴付けを行う。 我々は,値応答の制約を伴わずに学習者の強い一貫性を求める普遍的一貫性を考える。 解析により、そのような目的は定常過程よりもはるかに大きなインスタンス列に対して達成可能であることを示し、値空間の基本的な二分法を明らかにする。 さらに、楽観的に普遍的な学習規則、すなわち、普遍的な一貫性を達成できなければ、他のアルゴリズムも失敗する。 非境界損失に対しては,非i.i.d.インスタンス列の大きなクラスの下で逆回帰を行うアルゴリズムが存在するような軽度可積分条件を提案する。 さらに,本解析は,シーケンス上のモーメント条件を伴わない逆応答下で一貫性のある一般距離空間における平均推定に関する学習規則も提供する。

We provide algorithms for regression with adversarial responses under large classes of non-i.i.d. instance sequences, on general separable metric spaces, with provably minimal assumptions. We also give characterizations of learnability in this regression context. We consider universal consistency which asks for strong consistency of a learner without restrictions on the value responses. Our analysis shows that such objective is achievable for a significantly larger class of instance sequences than stationary processes, and unveils a fundamental dichotomy between value spaces: whether finite-horizon mean-estimation is achievable or not. We further provide optimistically universal learning rules, i.e., such that if they fail to achieve universal consistency, any other algorithm will fail as well. For unbounded losses, we propose a mild integrability condition under which there exist algorithms for adversarial regression under large classes of non-i.i.d. instance sequences. In addition, our analysis also provides a learning rule for mean-estimation in general metric spaces that is consistent under adversarial responses without any moment conditions on the sequence, a result of independent interest.
翻訳日:2022-03-11 13:42:18 公開日:2022-03-09
# 文選択:音声認識のための大規模言語モデルデータ選択

Sentence-Select: Large-Scale Language Model Data Selection for Rare-Word Speech Recognition ( http://arxiv.org/abs/2203.05008v1 )

ライセンス: Link先を確認
W. Ronny Huang, Cal Peyser, Tara N. Sainath, Ruoming Pang, Trevor Strohman, Shankar Kumar(参考訳) 言語モデル融合は、音声データでは稀だがテキストのみのコーパス(型付き検索ログ)で豊富な単語を認識するのに役立つ。 しかし、そのようなコーパスは、(1)大きすぎる、(2)ドメインミスしたコンテンツに富む、(3)大きすぎる("weather"のような重複検索クエリが多すぎる)といった下流のパフォーマンスを妨げる特性を持っている。 言語モデリングデータを選択するための3つの簡単な戦略は、全体的な性能を損なうことなく、レアワード認識を大幅に改善できることを示す。 まず、重みに対処するため、ソフトログ機能に従ってデータをダウンサンプリングし、高い頻度(ヘッド)文を調整可能に削減する。 第2に,レアワード露光を促進するために,アコースティックデータに稀な単語を明示的にフィルタリングする。 最後に、パープレキシティに基づくコントラスト選択によるドメインミスマッチに取り組み、対象ドメインにマッチする例をフィルタリングする。 web検索クエリの大規模なコーパスを53倍ダウンセレクトし,ダウンセレクションを行わずにlmパープレキシティを達成する。 最先端の音声生成エンジンと浅く融合すると、生コーパスで訓練されたベースラインlmと比較して、希少語文に対して最大24%のwr削減が達成される(全体のwrは変化しない)。 これらの利得は、ライブ音声検索トラフィックのサイドバイサイド評価によってさらに検証される。

Language model fusion helps smart assistants recognize words which are rare in acoustic data but abundant in text-only corpora (typed search logs). However, such corpora have properties that hinder downstream performance, including being (1) too large, (2) beset with domain-mismatched content, and (3) heavy-headed rather than heavy-tailed (excessively many duplicate search queries such as "weather"). We show that three simple strategies for selecting language modeling data can dramatically improve rare-word recognition without harming overall performance. First, to address the heavy-headedness, we downsample the data according to a soft log function, which tunably reduces high frequency (head) sentences. Second, to encourage rare-word exposure, we explicitly filter for words rare in the acoustic data. Finally, we tackle domain-mismatch via perplexity-based contrastive selection, filtering for examples matched to the target domain. We down-select a large corpus of web search queries by a factor of 53x and achieve better LM perplexities than without down-selection. When shallow-fused with a state-of-the-art, production speech engine, our LM achieves WER reductions of up to 24% relative on rare-word sentences (without changing overall WER) compared to a baseline LM trained on the raw corpus. These gains are further validated through favorable side-by-side evaluations on live voice search traffic.
翻訳日:2022-03-11 13:39:41 公開日:2022-03-09
# (参考訳) 生成型adversarial networkによるnextgネットワークの機械学習

Machine Learning in NextG Networks via Generative Adversarial Networks ( http://arxiv.org/abs/2203.04453v1 )

ライセンス: CC BY 4.0
Ender Ayanoglu and Kemal Davaslioglu and Yalin E. Sagduyu(参考訳) GAN(Generative Adversarial Networks)は、機械学習(ML)アルゴリズムで、異常な動作の検出と緩和とともに、競合するリソース割り当て問題に対処する能力を持つ。 本稿では,認知ネットワークのコンテキストにおける次世代通信(NextG)の利用について検討する。 i) スペクトル共有 二 異常を検出すること、及び 三 防犯攻撃の緩和 GANには以下の利点がある。 まず、彼らはフィールドデータを学習し、合成できます。 第2に、半教師付きデータを用いて事前学習の分類を可能にする。 第3に、解像度の向上が促進される。 第4に、スペクトル中の崩壊したビットの回復を可能にする。 本稿は、GANの基本、異なる種類のGANの比較、コンピュータビジョンおよび画像処理におけるGANのパフォーマンス測定、無線アプリケーション、無線アプリケーションのための多くのデータセット、一般的な分類器のパフォーマンス測定、GANに関する文献調査を提供する。 i)-iii) 以上及び今後の研究方向 NextG通信におけるGANのユースケースとして,信号分類(例えばユーザ認証)における異常検出に対して,自動エンコーダなどの他の最先端ML技術よりも効率よくGANが適用可能であることを示す。

Generative Adversarial Networks (GANs) are Machine Learning (ML) algorithms that have the ability to address competitive resource allocation problems together with detection and mitigation of anomalous behavior. In this paper, we investigate their use in next-generation (NextG) communications within the context of cognitive networks to address i) spectrum sharing, ii) detecting anomalies, and iii) mitigating security attacks. GANs have the following advantages. First, they can learn and synthesize field data, which can be costly, time consuming, and nonrepeatable. Second, they enable pre-training classifiers by using semi-supervised data. Third, they facilitate increased resolution. Fourth, they enable the recovery of corrupted bits in the spectrum. The paper provides the basics of GANs, a comparative discussion on different kinds of GANs, performance measures for GANs in computer vision and image processing as well as wireless applications, a number of datasets for wireless applications, performance measures for general classifiers, a survey of the literature on GANs for i)-iii) above, and future research directions. As a use case of GAN for NextG communications, we show that a GAN can be effectively applied for anomaly detection in signal classification (e.g., user authentication) outperforming another state-of-the-art ML technique such as an autoencoder.
翻訳日:2022-03-11 05:39:00 公開日:2022-03-09
# (参考訳) 衛星画像と畳み込みニューラルネットワークを用いた疾病リスクマッピングのための自律型モスキートハビタット検出 [全文訳有]

Autonomous Mosquito Habitat Detection Using Satellite Imagery and Convolutional Neural Networks for Disease Risk Mapping ( http://arxiv.org/abs/2203.04463v1 )

ライセンス: CC BY 4.0
Sriram Elango, Nandini Ramachandran, Russanne Low(参考訳) 蚊は毎年100万人以上の死者を出す病気の媒介者として知られている。 自然の蚊の生息地の大部分は、従来の地上技術を用いて大まかに検出することが難しい立水を含む地域である。 ドローン、uav、その他の航空画像技術のような現代のアプローチは、実装時に費用がかかり、より詳細な空間スケールでのみ正確である一方、提案された畳み込みニューラルネットワーク(cnn)アプローチは、病気のリスクマッピングや、よりグローバルなスケールでの予防的取り組みに応用することができる。 自律的な蚊生息地検出技術の性能を評価することにより、蚊媒介疾患の伝染を防止することができる。 提案手法は,衛星画像にコンピュータビジョンを応用して概念実証を行うことにより,地上技術を用いた調査が困難である広範囲の蚊生息地の時空間分布を特定することを目的とする。 本研究は,3種類のCNNモデルの評価と結果から,大規模な蚊の生息地予測の精度を推定するものである。 このアプローチのために、様々な地理的特徴を含むデータセットが構築された。 池・堤防・入江・河川などの大型の土地被覆変数を用いて蚊の生息地を分類し, 微小な場所を省略し, 精度を高くした。 データセットを用いて,複数のcnnネットワークを訓練し,生息地予測精度の評価を行った。 CNNベースのアプローチを利用可能な衛星画像に活用することは、ほとんどの空中撮像技術とは異なり、コスト効率が高くスケーラブルである。 実験の結果、ヨロフ4は大規模な蚊の生息地を特定するため、蚊の生息地検出において高い精度を得た。

Mosquitoes are known vectors for disease transmission that cause over one million deaths globally each year. The majority of natural mosquito habitats are areas containing standing water that are challenging to detect using conventional ground-based technology on a macro scale. Contemporary approaches, such as drones, UAVs, and other aerial imaging technology are costly when implemented and are only most accurate on a finer spatial scale whereas the proposed convolutional neural network(CNN) approach can be applied for disease risk mapping and further guide preventative efforts on a more global scale. By assessing the performance of autonomous mosquito habitat detection technology, the transmission of mosquito-borne diseases can be prevented in a cost-effective manner. This approach aims to identify the spatiotemporal distribution of mosquito habitats in extensive areas that are difficult to survey using ground-based technology by employing computer vision on satellite imagery for proof of concept. The research presents an evaluation and the results of 3 different CNN models to determine their accuracy of predicting large-scale mosquito habitats. For this approach, a dataset was constructed containing a variety of geographical features. Larger land cover variables such as ponds/lakes, inlets, and rivers were utilized to classify mosquito habitats while minute sites were omitted for higher accuracy on a larger scale. Using the dataset, multiple CNN networks were trained and evaluated for accuracy of habitat prediction. Utilizing a CNN-based approach on readily available satellite imagery is cost-effective and scalable, unlike most aerial imaging technology. Testing revealed that YOLOv4 obtained greater accuracy in mosquito habitat detection for identifying large-scale mosquito habitats.
翻訳日:2022-03-11 05:37:56 公開日:2022-03-09
# (参考訳) Answer-Agnostic Paragraph-level Multi-Question Generation の評価について [全文訳有]

On the Evaluation of Answer-Agnostic Paragraph-level Multi-Question Generation ( http://arxiv.org/abs/2203.04464v1 )

ライセンス: CC BY 4.0
Jishnu Ray Chowdhury, Debanjan Mahata, Cornelia Caragea(参考訳) 我々は,ある段落から有意な質問の集合を,その回答を事前に知ることなく予測するタスクについて検討する。 主な貢献は2つある。 まず、ハンガリーのアルゴリズムを用いて、与えられたペアを得点する前に、予測された質問を基準に割り当てることにより、参照集合に対して予測された質問集合を評価する新しい方法を提案する。 提案手法は,参照範囲を適切に考慮できるため,従来の手法に比べて理論的,実用的特性が優れていることを示す。 第2に,事前学習したseq2seqモデルを用いて,与えられた段落に関連する質問セットを生成し,選択するための異なる戦略を比較する。 コードは利用可能です。

We study the task of predicting a set of salient questions from a given paragraph without any prior knowledge of the precise answer. We make two main contributions. First, we propose a new method to evaluate a set of predicted questions against the set of references by using the Hungarian algorithm to assign predicted questions to references before scoring the assigned pairs. We show that our proposed evaluation strategy has better theoretical and practical properties compared to prior methods because it can properly account for the coverage of references. Second, we compare different strategies to utilize a pre-trained seq2seq model to generate and select a set of questions related to a given paragraph. The code is available.
翻訳日:2022-03-11 05:26:06 公開日:2022-03-09
# (参考訳) ポーズ誘導粗視フレームワークによる部分レベルの動作解析 [全文訳有]

Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework ( http://arxiv.org/abs/2203.04476v1 )

ライセンス: CC BY 4.0
Xiaodong Chen, Xinchen Liu, Wu Liu, Kun Liu, Dong Wu, Yongdong Zhang, Tao Mei(参考訳) ビデオからのアクション認識、すなわち、動画を事前に定義されたアクションタイプに分類することは、人工知能、マルチメディア、および信号処理のコミュニティで人気のあるトピックである。 しかし、既存の手法は通常、入力ビデオ全体を考慮し、粗いビデオレベルのクラスラベルを持つ畳み込みニューラルネットワーク(CNN)のようなモデルを学ぶ。 これらのメソッドは、ビデオのアクションクラスだけを出力できるが、ビデオがなぜ特定のアクションを示すのかを、詳細に説明可能なヒントを提供することはできない。 したがって、研究者たちは新しいタスクであるpart-level action parsing(pap)に集中し始める。これはビデオレベルのアクションを予測するだけでなく、ビデオ内の各人のフレームレベルの細かなアクションや身体部位の相互作用を認識することを目的としている。 そこで本研究では,この課題に対する粗大なフレームワークを提案する。 特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。 さらに,部分レベルの動作解析における精度と計算のバランスをとるために,セグメントレベルの特徴によって部分レベルの動作を認識することを提案する。 さらに,身体部位の曖昧さを克服するために,身体部位を正確に局在化するためのポーズ誘導位置埋め込み法を提案する。 大規模データセット、すなわちKinetics-TPSの包括的な実験を通じて、我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。

Action recognition from videos, i.e., classifying a video into one of the pre-defined action types, has been a popular topic in the communities of artificial intelligence, multimedia, and signal processing. However, existing methods usually consider an input video as a whole and learn models, e.g., Convolutional Neural Networks (CNNs), with coarse video-level class labels. These methods can only output an action class for the video, but cannot provide fine-grained and explainable cues to answer why the video shows a specific action. Therefore, researchers start to focus on a new task, Part-level Action Parsing (PAP), which aims to not only predict the video-level action but also recognize the frame-level fine-grained actions or interactions of body parts for each person in the video. To this end, we propose a coarse-to-fine framework for this challenging task. In particular, our framework first predicts the video-level class of the input video, then localizes the body parts and predicts the part-level action. Moreover, to balance the accuracy and computation in part-level action parsing, we propose to recognize the part-level actions by segment-level features. Furthermore, to overcome the ambiguity of body parts, we propose a pose-guided positional embedding method to accurately localize body parts. Through comprehensive experiments on a large-scale dataset, i.e., Kinetics-TPS, our framework achieves state-of-the-art performance and outperforms existing methods over a 31.10% ROC score.
翻訳日:2022-03-11 05:07:47 公開日:2022-03-09
# (参考訳) 3SD:ラベルなしのセルフ・スーパービジョン・サリエンシ検出 [全文訳有]

3SD: Self-Supervised Saliency Detection With No Labels ( http://arxiv.org/abs/2203.04478v1 )

ライセンス: CC BY 4.0
Rajeev Yasarla, Renliang Weng, Wongun Choi, Vishal Patel, and Amir Sadeghian(参考訳) 本稿では,概念的にシンプルな塩分濃度検出手法を提案する。 本手法は,擬似地下真実ラベルをトレーニングに用いた。 生成された疑似gtラベルは、人間のアノテーション(ピクセル単位でのラベルやスクリブルのような弱いラベルなど)を必要としない。 最近の研究では、分類タスクから抽出された特徴が、画像中のサルエントオブジェクトの構造や意味情報といった重要なサルエンシー手がかりを提供することが示された。 提案手法は3SDと呼ばれる手法を用いて,クラスアクティベーションマップ(CAMマップ)を得るために,有能なオブジェクト検出と並行して,自己教師付き分類タスクのブランチを追加する。 これらのCAMマップと入力画像のエッジは、3Dネットワークをトレーニングするために擬似GTサリエンシマップを生成するために使用される。 具体的には,分類タスクのための複数の画像パッチを用いたコントラスト学習に基づくトレーニングを提案する。 比較的損失を伴うマルチパッチ分類は,画像全体のナイーブ分類と比較してCAMマップの品質を向上させる。 6つのベンチマークデータセットの実験では、ラベルなしでは、我々の3SDメソッドは既存の弱教師付きおよび非教師付きメソッドよりも優れており、その性能は完全な教師付きメソッドと同等である。 コードはhttps://github.com/r ajeevyasarla/3sdで入手できる。

We present a conceptually simple self-supervised method for saliency detection. Our method generates and uses pseudo-ground truth labels for training. The generated pseudo-GT labels don't require any kind of human annotations (e.g., pixel-wise labels or weak labels like scribbles). Recent works show that features extracted from classification tasks provide important saliency cues like structure and semantic information of salient objects in the image. Our method, called 3SD, exploits this idea by adding a branch for a self-supervised classification task in parallel with salient object detection, to obtain class activation maps (CAM maps). These CAM maps along with the edges of the input image are used to generate the pseudo-GT saliency maps to train our 3SD network. Specifically, we propose a contrastive learning-based training on multiple image patches for the classification task. We show the multi-patch classification with contrastive loss improves the quality of the CAM maps compared to naive classification on the entire image. Experiments on six benchmark datasets demonstrate that without any labels, our 3SD method outperforms all existing weakly supervised and unsupervised methods, and its performance is on par with the fully-supervised methods. Code is available at :https://github.com/ rajeevyasarla/3SD
翻訳日:2022-03-11 04:57:17 公開日:2022-03-09
# (参考訳) スタイル転送に基づく画像ステガノグラフィ [全文訳有]

Image Steganography based on Style Transfer ( http://arxiv.org/abs/2203.04500v1 )

ライセンス: CC BY 4.0
Donghui Hu, Yu Zhang, Cong Yu, Jian Wang, Yaofei Wang(参考訳) 画像ステガノグラフィ(image steganography)は、画像を隠密通信のカバーとして用いる技術と科学である。 ニューラルネットワークの発展に伴い、従来の画像ステガノグラフィーは深層学習に基づくステガナリシスによって検出される可能性が高い。 これを改善するために,スタイル転送に基づく画像ステガノグラフィーネットワークを提案し,秘密メッセージの埋め込みをイメージスタイリゼーションとして表すことができる。 コンテンツ画像形式を変換しながら秘密情報を埋め込みます。 潜在空間では、秘密情報はカバー画像の潜在表現に統合され、通常のスタイル化された画像と区別できないステゴ画像を生成する。 事前トレーニングなしで、エンドツーエンドの教師なしモデルである。 ベンチマークデータセットの広範な実験により,stego画像の信頼性,品質,安全性が実証された。

Image steganography is the art and science of using images as cover for covert communications. With the development of neural networks, traditional image steganography is more likely to be detected by deep learning-based steganalysis. To improve upon this, we propose image steganography network based on style transfer, and the embedding of secret messages can be disguised as image stylization. We embed secret information while transforming the content image style. In latent space, the secret information is integrated into the latent representation of the cover image to generate the stego images, which are indistinguishable from normal stylized images. It is an end-to-end unsupervised model without pre-training. Extensive experiments on the benchmark dataset demonstrate the reliability, quality and security of stego images generated by our steganographic network.
翻訳日:2022-03-11 04:38:57 公開日:2022-03-09
# (参考訳) ReVar: 分散サンプリングによる政策評価の強化

ReVar: Strengthening Policy Evaluation via Reduced Variance Sampling ( http://arxiv.org/abs/2203.04510v1 )

ライセンス: CC BY 4.0
Subhojyoti Mukherjee, Josiah P. Hanna, Robert Nowak(参考訳) 本稿では,マルコフ決定過程(MDP)における政策評価のためのデータ収集の問題について検討する。 政策評価において、我々は目標政策を与えられ、MDPとして形式化された環境で得られる期待累積報酬を見積もる。 まず,報奨分布の分散に関する知識を用いたオラクルデータ収集戦略を導出することにより,木構造MDPのクラス内で最適なデータ収集の理論を開発する。 次に,oracle 戦略と比較して報酬分散が未知な場合の oracle 戦略を近似し,その下位最適化性に限定した reduced variance sampling (revar) アルゴリズムを導入する。 最後に、revarがoracleの戦略に匹敵する平均二乗誤差でポリシー評価につながり、ターゲットポリシーを実行するよりもかなり低いことを実証的に検証します。

This paper studies the problem of data collection for policy evaluation in Markov decision processes (MDPs). In policy evaluation, we are given a target policy and asked to estimate the expected cumulative reward it will obtain in an environment formalized as an MDP. We develop theory for optimal data collection within the class of tree-structured MDPs by first deriving an oracle data collection strategy that uses knowledge of the variance of the reward distributions. We then introduce the Reduced Variance Sampling (ReVar) algorithm that approximates the oracle strategy when the reward variances are unknown a priori and bound its sub-optimality compared to the oracle strategy. Finally, we empirically validate that ReVar leads to policy evaluation with mean squared error comparable to the oracle strategy and significantly lower than simply running the target policy.
翻訳日:2022-03-11 04:30:12 公開日:2022-03-09
# (参考訳) cp-vit:progressive sparsity predictionによるカスケードビジョントランスフォーマリンニング [全文訳有]

CP-ViT: Cascade Vision Transformer Pruning via Progressive Sparsity Prediction ( http://arxiv.org/abs/2203.04570v1 )

ライセンス: CC BY 4.0
Zhuoran Song, Yihong Xu, Zhezhi He, Li Jiang, Naifeng Jing, and Xiaoyao Liang(参考訳) vision transformer (vit) は様々なコンピュータビジョンアプリケーションで競争力のある精度を達成しているが、その計算コストはリソース制限のあるモバイルデバイスへのデプロイを妨げる。 我々はViTの空間性を探究し、正確な画像認識に十分な情報パッチと頭部を観察する。 本稿では,vitモデルの分散性を漸進的かつ動的に予測し,精度損失を最小化しつつ計算冗長性を低減し,cp-vitというカスケードプルーニングフレームワークを提案する。 具体的には,vitモデル上で情報パッチとヘッドを保存し,精度を向上させるために累積スコアを定義する。 また,層認識注意範囲に基づく動的プルーニング比調整手法を提案する。 cp-vitは、幅広いvitモデルに適用可能で、微調整の有無に関わらず、優れた精度を実現することができる、実用的なデプロイメントに適用できる。 各種事前学習モデルを用いたImageNet, CIFAR-10, CIFAR-100の大規模実験により, CP-ViTの有効性と効率が示された。 CP-ViT法は, 50 % のパッチを段階的に刻むことにより, 40 % のFLOPを削減し, 精度損失を 1 % に抑える。

Vision transformer (ViT) has achieved competitive accuracy on a variety of computer vision applications, but its computational cost impedes the deployment on resource-limited mobile devices. We explore the sparsity in ViT and observe that informative patches and heads are sufficient for accurate image recognition. In this paper, we propose a cascade pruning framework named CP-ViT by predicting sparsity in ViT models progressively and dynamically to reduce computational redundancy while minimizing the accuracy loss. Specifically, we define the cumulative score to reserve the informative patches and heads across the ViT model for better accuracy. We also propose the dynamic pruning ratio adjustment technique based on layer-aware attention range. CP-ViT has great general applicability for practical deployment, which can be applied to a wide range of ViT models and can achieve superior accuracy with or without fine-tuning. Extensive experiments on ImageNet, CIFAR-10, and CIFAR-100 with various pre-trained models have demonstrated the effectiveness and efficiency of CP-ViT. By progressively pruning 50\% patches, our CP-ViT method reduces over 40\% FLOPs while maintaining accuracy loss within 1\%.
翻訳日:2022-03-11 04:27:50 公開日:2022-03-09
# (参考訳) ラブンの進行行列を解くためのニューロベクター・シンボリック・アーキテクチャ [全文訳有]

A Neuro-vector-symboli c Architecture for Solving Raven's Progressive Matrices ( http://arxiv.org/abs/2203.04571v1 )

ライセンス: CC BY 4.0
Michael Hersche, Mustafa Zeqiri, Luca Benini, Abu Sebastian, Abbas Rahimi(参考訳) ディープニューラルネットワークもシンボリックAIも、人間に表されるインテリジェンスにアプローチしていない。 これは主に、ニューラルネットワークが結合表現(いわゆるバインディング問題)から異なるオブジェクトを分解できないのに対して、シンボリックAIは排他的なルールサーチに悩まされているためである。 この2つの問題は、いまだに2つのパラダイムのベストを組み合わせることを目的としたニューロシンボリックaiで顕著である。 本稿では,ニューラルネットワークと記号論理的推論の共通言語として機能する固定幅ホログラフィックベクトル化表現に対して,その強力な演算子を活用することにより,提案したニューロベクトル-シンボルアーキテクチャ(NVSA)に対処できることを示す。 NVSAの有効性は、Ravenの進行行列を解くことによって示される。 nvsaは、ravenの平均精度97.7%、i-ravenデータセット98.8%という新しい記録を達成し、cpu上のシンボリック論理推論よりも2桁高速な実行を実現している。

Neither deep neural networks nor symbolic AI alone have approached the kind of intelligence expressed in humans. This is mainly because neural networks are not able to decompose distinct objects from their joint representation (the so-called binding problem), while symbolic AI suffers from exhaustive rule searches, among other problems. These two problems are still pronounced in neuro-symbolic AI which aims to combine the best of the two paradigms. Here, we show that the two problems can be addressed with our proposed neuro-vector-symboli c architecture (NVSA) by exploiting its powerful operators on fixed-width holographic vectorized representations that serve as a common language between neural networks and symbolic logical reasoning. The efficacy of NVSA is demonstrated by solving the Raven's progressive matrices. NVSA achieves a new record of 97.7% average accuracy in RAVEN, and 98.8% in I-RAVEN datasets, with two orders of magnitude faster execution than the symbolic logical reasoning on CPUs.
翻訳日:2022-03-11 04:15:42 公開日:2022-03-09
# (参考訳) 強化型メタアクティブラーニング [全文訳有]

Reinforced Meta Active Learning ( http://arxiv.org/abs/2203.04573v1 )

ライセンス: CC BY 4.0
Michael Katz, Eli Kravchik(参考訳) ストリームベースのアクティブラーニングでは、学習手順は通常、ラベルのないデータインスタンスのストリームにアクセスでき、各インスタンスがラベル付けしてトレーニングに使用するか、あるいは破棄するかを決定する必要があります。 この設定でトレーニングに必要なラベル付きサンプルの数を最小限に抑えるために、最も有益なデータサンプルを識別し保持する、活発な学習戦略が数多く存在する。 これらのスキームの多くはルールベースであり、不確実性の概念に依存しており、データサンプルがどれだけ小さいかが分類器の判断境界から決定される。 近年、データから直接最適な選択戦略を学習する試みがいくつかあるが、それらの多くは、いくつかの理由から、まだ一般的性に欠けている。 1)特定の分類設定に焦点を当てる。 2) ルールベースのメトリクスに依存しています。 3) 関連タスクにおいて, アクティブ学習者のオフライン事前学習が必要である。 本研究では,これらの制約に対処し,データから直接情報伝達度を学習するオンラインストリームベースのメタアクティブ学習手法を提案し,関連するタスクにおいてアクティブ学習者の事前学習を必要とせずに,一般的な分類問題に適用できる。 本手法は, 強化学習に基づいて, エピソジックなポリシー探索と, モデル学習と協調して, アクティブ学習者の訓練に使用される文脈的包括的アプローチを組み合わせる。 本手法が既存の最先端手法よりも効率的にトレーニングサンプルを選択できることを実データで示す。

In stream-based active learning, the learning procedure typically has access to a stream of unlabeled data instances and must decide for each instance whether to label it and use it for training or to discard it. There are numerous active learning strategies which try to minimize the number of labeled samples required for training in this setting by identifying and retaining the most informative data samples. Most of these schemes are rule-based and rely on the notion of uncertainty, which captures how small the distance of a data sample is from the classifier's decision boundary. Recently, there have been some attempts to learn optimal selection strategies directly from the data, but many of them are still lacking generality for several reasons: 1) They focus on specific classification setups, 2) They rely on rule-based metrics, 3) They require offline pre-training of the active learner on related tasks. In this work we address the above limitations and present an online stream-based meta active learning method which learns on the fly an informativeness measure directly from the data, and is applicable to a general class of classification problems without any need for pretraining of the active learner on related tasks. The method is based on reinforcement learning and combines episodic policy search and a contextual bandits approach which are used to train the active learner in conjunction with training of the model. We demonstrate on several real datasets that this method learns to select training samples more efficiently than existing state-of-the-art methods.
翻訳日:2022-03-11 03:51:15 公開日:2022-03-09
# (参考訳) 欠損モダリティ合成とモダリティレベルアテンション融合による脳腫瘍のマルチモーダルセグメンテーション [全文訳有]

Multi-modal Brain Tumor Segmentation via Missing Modality Synthesis and Modality-level Attention Fusion ( http://arxiv.org/abs/2203.04586v1 )

ライセンス: CC0 1.0
Ziqi Huang, Li Lin, Pujin Cheng, Linkai Peng, Xiaoying Tang(参考訳) マルチモーダル磁気共鳴(mr)イメージングは、脳グリオーマの診断と解析に大きな可能性がある。 臨床シナリオでは、単一のスキャンプロセスでT1、T2、FLAIRなどの一般的なMR配列を同時に得ることができる。 しかし、t1ceのようなコントラスト拡張モダリティを取得するには、追加時間、コスト、コントラストエージェントの注入が必要である。 そのため、パフォーマンス向上のために下流タスク(例えば脳腫瘍のセグメンテーション)への追加入力としても使用できる不利用可能なモダリティを合成する方法を開発することは臨床的に有意義である。 本研究では,マルチモーダルな潜在特徴を抽出し,注意重みを動的に割り当てて異なるモダリティを融合させる,MAF-Net(Modality-Le vel Attention Fusion Network)というエンドツーエンドフレームワークを提案する。 BraTS2020における広範囲な実験により,提案したMAF-Netはより優れたT1ce合成性能(SSIM0.8879,PSNR22.7 8)と正確な脳腫瘍セグメンテーション(Diceスコア67.9%,41.8%,88.0%)が得られることがわかった。

Multi-modal magnetic resonance (MR) imaging provides great potential for diagnosing and analyzing brain gliomas. In clinical scenarios, common MR sequences such as T1, T2 and FLAIR can be obtained simultaneously in a single scanning process. However, acquiring contrast enhanced modalities such as T1ce requires additional time, cost, and injection of contrast agent. As such, it is clinically meaningful to develop a method to synthesize unavailable modalities which can also be used as additional inputs to downstream tasks (e.g., brain tumor segmentation) for performance enhancing. In this work, we propose an end-to-end framework named Modality-Level Attention Fusion Network (MAF-Net), wherein we innovatively conduct patchwise contrastive learning for extracting multi-modal latent features and dynamically assigning attention weights to fuse different modalities. Through extensive experiments on BraTS2020, our proposed MAF-Net is found to yield superior T1ce synthesis performance (SSIM of 0.8879 and PSNR of 22.78) and accurate brain tumor segmentation (mean Dice scores of 67.9%, 41.8% and 88.0% on segmenting the tumor core, enhancing tumor and whole tumor).
翻訳日:2022-03-11 03:35:55 公開日:2022-03-09
# (参考訳) Margin Disparity Disrepancy を用いたFMCWレーダ構成における教師なし領域適応 [全文訳有]

Unsupervised Domain Adaptation across FMCW Radar Configurations Using Margin Disparity Discrepancy ( http://arxiv.org/abs/2203.04588v1 )

ライセンス: CC BY 4.0
Rodrigo Hernangomez, Igor Bjelakovic, Lorenzo Servadei, and Slawomir Stanczak(参考訳) 商用レーダーセンシングは関連性を高めており、機械学習アルゴリズムは、この無線技術を監視や医療といった分野に広めるための重要な要素の1つである。 しかしながら、レーダデータセットはまだ乏しく、すべてのレーダシステム、環境条件、設計パラメータに対してはまだ一般化できない。 そのため、機械学習対応レーダーアプリケーションをデプロイするためには、ある程度の微調整が必要である。 本研究では,周波数変調連続波を用いたディープラーニングの人間行動分類の文脈において,レーダー構成にまたがる教師なし領域適応の問題を考える。 そこで我々は,コンピュータビジョンの分野ですでに成功しているMargin Disparity Discrepancyの理論に着目する手法に注目した。 我々の実験は、この手法をレーダーデータに拡張し、同じ分類問題に対する少数ショット教師付きアプローチに匹敵する精度を達成する。

Commercial radar sensing is gaining relevance and machine learning algorithms constitute one of the key components that are enabling the spread of this radio technology into areas like surveillance or healthcare. However, radar datasets are still scarce and generalization cannot be yet achieved for all radar systems, environment conditions or design parameters. A certain degree of fine tuning is, therefore, usually required to deploy machine-learning-ena bled radar applications. In this work, we consider the problem of unsupervised domain adaptation across radar configurations in the context of deep-learning human activity classification using frequency-modulated continuous-wave. For that, we focus on the theory-inspired technique of Margin Disparity Discrepancy, which has already been proved successful in the area of computer vision. Our experiments extend this technique to radar data, achieving a comparable accuracy to fewshot supervised approaches for the same classification problem.
翻訳日:2022-03-11 03:21:16 公開日:2022-03-09
# (参考訳) 人工知能におけるベンチマーク作成と飽和のグローバルダイナミクスのマッピング [全文訳有]

Mapping global dynamics of benchmark creation and saturation in artificial intelligence ( http://arxiv.org/abs/2203.04592v1 )

ライセンス: CC BY 4.0
Adriano Barbosa-Silva, Simon Ott, Kathrin Blagec, Jan Brauner, Matthias Samwald(参考訳) ベンチマークは、人工知能(AI)の進歩の測定と操縦に不可欠である。 しかし、最近の研究は、AIベンチマークの状況、ベンチマークオーバーフィット、ベンチマーク飽和、ベンチマークデータセット作成の集中化の増加といった問題を報告している。 AIベンチマークエコシステムの健全性の監視を容易にするため,ベンチマーク作成と飽和のグローバルなダイナミクスの凝縮マップを作成する手法を紹介した。 コンピュータビジョンと自然言語処理の全領域をカバーする1688ベンチマークのデータをキュレートし、ベンチマークの大部分がほぼ飽和状態に近づき、多くのベンチマークが広く利用できないこと、さまざまなAIタスクに対するベンチマークのパフォーマンス向上が予期せぬバーストの傾向にあることを示した。 今後の作業は、大規模なコミュニティコラボレーションと、実際のユーティリティとAIの影響に対するベンチマークのパフォーマンス向上のマッピングに焦点を当てるべきである、と結論付けている。

Benchmarks are crucial to measuring and steering progress in artificial intelligence (AI). However, recent studies raised concerns over the state of AI benchmarking, reporting issues such as benchmark overfitting, benchmark saturation and increasing centralization of benchmark dataset creation. To facilitate monitoring of the health of the AI benchmarking ecosystem, we introduce methodologies for creating condensed maps of the global dynamics of benchmark creation and saturation. We curated data for 1688 benchmarks covering the entire domains of computer vision and natural language processing, and show that a large fraction of benchmarks quickly trended towards near-saturation, that many benchmarks fail to find widespread utilization, and that benchmark performance gains for different AI tasks were prone to unforeseen bursts. We conclude that future work should focus on large-scale community collaboration and on mapping benchmark performance gains to real-world utility and impact of AI.
翻訳日:2022-03-11 03:10:07 公開日:2022-03-09
# (参考訳) 制約付きボトルネックオートエンコーダを用いたデータ駆動型検出器信号特性評価 [全文訳有]

Data-driven detector signal characterization with constrained bottleneck autoencoders ( http://arxiv.org/abs/2203.04604v1 )

ライセンス: CC BY 4.0
C\'esar Jes\'us Valls, Thorsten Lux and Federico S\'anchez(参考訳) 高エネルギー物理学における一般的な手法は、システムの物理パラメータから検出器の期待信号へのパラメトリックマップを構築するデータに追従したモデルを用いて検出器の応答を特徴づけることである。 基礎となるモデルが不明な場合、この手法を適用することは困難であり、しばしば、モデリングエラーを導入した仮定を単純化する。 本稿では,波形玩具モデルを用いて,制約付きボトルネックオートエンコーダによるディープラーニングを用いて,未知検出応答モデルを直接データから学習する方法を提案する。 その結果,信号がランダムノイズの影響を受けても,優れた性能が得られることがわかった。 訓練されたアルゴリズムは同時にモデルの物理パラメータの推定を行い、高い忠実度で検出器応答をシミュレートし、検出器信号にノイズを与える。

A common technique in high energy physics is to characterize the response of a detector by means of models tunned to data which build parametric maps from the physical parameters of the system to the expected signal of the detector. When the underlying model is unknown it is difficult to apply this method, and often, simplifying assumptions are made introducing modeling errors. In this article, using a waveform toy model we present how deep learning in the form of constrained bottleneck autoencoders can be used to learn the underlying unknown detector response model directly from data. The results show that excellent performance results can be achieved even when the signals are significantly affected by random noise. The trained algorithm can be used simultaneously to perform estimations on the physical parameters of the model, simulate the detector response with high fidelity and to denoise detector signals.
翻訳日:2022-03-11 03:01:00 公開日:2022-03-09
# (参考訳) 弱幹細胞コロニーセグメンテーションにおける注意効果多重学習 [全文訳有]

Attention-effective multiple instance learning on weakly stem cell colony segmentation ( http://arxiv.org/abs/2203.04606v1 )

ライセンス: CC BY 4.0
Novanto Yudistira, Muthu Subash Kavitha, Jeny Rajan, Takio Kurita(参考訳) 誘導多能性幹細胞(iPSC)コロニーの検出は、しばしばコロニーの特徴を正確に抽出する必要がある。 しかし、既存のコンピュータシステムは、コロニー条件を分類するための前処理による輪郭の分割に依存していた。 コロニー条件の分類における効率を最大化するために,弱教師付き環境下でのマルチインスタンス学習(MIL)を提案する。 単一のモデルで設計され、細かなラベル付きサンプルを使わずに、弱いセグメンテーションとコロニーの分類を生成する。 単一モデルとして、MILコロニー分類のためのバイナリイメージレベルのラベルをトレーニングするために、U-netライクな畳み込みニューラルネットワーク(CNN)を用いる。 さらに,興味の対象を特定するために,簡単な後処理手法を用いた。 提案手法は従来の5倍のクロスバリデーションとレシーバ動作特性(ROC)曲線を用いて比較した。 MIL-netの最大精度は95%であり、従来の手法よりも15%高い。 さらに,画素単位の基底画像を用いずに,画像レベルラベルに基づいてipscコロニーの位置を解釈する能力は,コロニー条件認識においてより魅力的で費用対効果が高い。

The detection of induced pluripotent stem cell (iPSC) colonies often needs the precise extraction of the colony features. However, existing computerized systems relied on segmentation of contours by preprocessing for classifying the colony conditions were task-extensive. To maximize the efficiency in categorizing colony conditions, we propose a multiple instance learning (MIL) in weakly supervised settings. It is designed in a single model to produce weak segmentation and classification of colonies without using finely labeled samples. As a single model, we employ a U-net-like convolution neural network (CNN) to train on binary image-level labels for MIL colonies classification. Furthermore, to specify the object of interest we used a simple post-processing method. The proposed approach is compared over conventional methods using five-fold cross-validation and receiver operating characteristic (ROC) curve. The maximum accuracy of the MIL-net is 95%, which is 15 % higher than the conventional methods. Furthermore, the ability to interpret the location of the iPSC colonies based on the image level label without using a pixel-wise ground truth image is more appealing and cost-effective in colony condition recognition.
翻訳日:2022-03-11 02:50:12 公開日:2022-03-09
# (参考訳) 楕円体モデルによる物体ベース視覚カメラポーズ推定と3次元認識楕円予測 [全文訳有]

Object-Based Visual Camera Pose Estimation From Ellipsoidal Model and 3D-Aware Ellipse Prediction ( http://arxiv.org/abs/2203.04613v1 )

ライセンス: CC BY 4.0
Matthieu Zins, Gilles Simon, Marie-Odile Berger(参考訳) 本稿では,映像の視聴条件に頑健で,シーンの詳細なモデルを必要としない,単一の画像から初期カメラポーズ推定を行う手法を提案する。 この方法は、ロボット工学や拡張現実のアプリケーションをあらゆる環境、特に正確な3dモデルや膨大な真実データがない環境で簡単に展開することの必要性が増している。 観察条件に関係なく、物体を確実に検出する深層学習技術を活用する。 以前の研究では、楕円雲によってオブジェクトのシーンの幾何学を抽象化することで、様々なアプリケーションのニーズに十分正確にカメラのポーズを計算できることを示した。 これらの手法は有望ではあるが、画像オブジェクトの近似として検出境界ボックスに取り付けられた楕円を用いている。 本稿では、さらに一歩進んで、3次元楕円体と直交する物体の楕円近似を視点投影の観点から検出する学習法を提案する。 実験により,提案手法により計算結果の精度が著しく向上することが確認された。 これは、データ取得のトレーニングという観点で、非常に少ない労力で達成されます – 数百のキャリブレーションされたイメージのうち、手動のオブジェクトアノテーションが必要なのは3つだけです。 コードとモデルはhttps://gitlab.inria .fr/tangram/3d-aware -ellipses-for-visual -localizationでリリースされる

In this paper, we propose a method for initial camera pose estimation from just a single image which is robust to viewing conditions and does not require a detailed model of the scene. This method meets the growing need of easy deployment of robotics or augmented reality applications in any environments, especially those for which no accurate 3D model nor huge amount of ground truth data are available. It exploits the ability of deep learning techniques to reliably detect objects regardless of viewing conditions. Previous works have also shown that abstracting the geometry of a scene of objects by an ellipsoid cloud allows to compute the camera pose accurately enough for various application needs. Though promising, these approaches use the ellipses fitted to the detection bounding boxes as an approximation of the imaged objects. In this paper, we go one step further and propose a learning-based method which detects improved elliptic approximations of objects which are coherent with the 3D ellipsoids in terms of perspective projection. Experiments prove that the accuracy of the computed pose significantly increases thanks to our method. This is achieved with very little effort in terms of training data acquisition - a few hundred calibrated images of which only three need manual object annotation. Code and models are released at https://gitlab.inria .fr/tangram/3d-aware -ellipses-for-visual -localization
翻訳日:2022-03-11 02:37:23 公開日:2022-03-09
# (参考訳) Slangvolution: Slangにおける意味的変化と周波数ダイナミクスの因果解析 [全文訳有]

Slangvolution: A Causal Analysis of Semantic Change and Frequency Dynamics in Slang ( http://arxiv.org/abs/2203.04651v1 )

ライセンス: CC BY 4.0
Daphna Keidar, Andreas Opedal, Zhijing Jin, Mrinmaya Sachan(参考訳) 言語は継続的に変化を続けており、これらの変化の根底にあるメカニズムはまだ議論の余地がある。 本研究では,多様な分布要因が言語変化にどのように関連しているかをモデル化するために,因果性のレンズを通して言語進化にアプローチする。 特に,特定のグループや社会的設定に制限される非公式な言語であるスラングについて検討する。 本研究では,スラング語の意味変化と頻度変化を分析し,標準の非スラング語と比較する。 因果的発見と因果的推論技術を用いて,単語タイプ(スラング/ノンスラング)が意味的変化と周波数シフトの両方に与える影響,およびその頻度,ポリセミーおよび音声の一部との関係を計測する。 例えば、スラング語は意味的変化が少ないが、時間とともに周波数シフトが大きくなる傾向が示されている。

Languages are continuously undergoing changes, and the mechanisms that underlie these changes are still a matter of debate. In this work, we approach language evolution through the lens of causality in order to model not only how various distributional factors associate with language change, but how they causally affect it. In particular, we study slang, which is an informal language that is typically restricted to a specific group or social setting. We analyze the semantic change and frequency shift of slang words and compare them to those of standard, nonslang words. With causal discovery and causal inference techniques, we measure the effect that word type (slang/nonslang) has on both semantic change and frequency shift, as well as its relationship to frequency, polysemy and part of speech. Our analysis provides some new insights in the study of semantic change, e.g., we show that slang words undergo less semantic change but tend to have larger frequency shifts over time.
翻訳日:2022-03-11 02:11:09 公開日:2022-03-09
# (参考訳) ASET: テキストコレクションのアドホックな構造化探索 [Extended Abstract] [全文訳有]

ASET: Ad-hoc Structured Exploration of Text Collections [Extended Abstract] ( http://arxiv.org/abs/2203.04663v1 )

ライセンス: CC BY 4.0
Benjamin H\"attasch, Jan-Micha Bodensohn, Carsten Binnig(参考訳) 本稿では,テキストコレクションの構造化探索をアドホックに行うことが可能な aset というシステムを提案する。 ASETの主な考え方は、まず名前付きエンティティ認識器などの既存の抽出器を用いてテキストから情報ナゲットのスーパーセットを抽出し、次に埋め込みに基づいてユーザから要求された構造化テーブル定義にマッチする2段階のアプローチである。 評価において,ASETは,事前の抽出パイプラインを設計することなく,実世界のテキストコレクションから構造化されたデータを高品質に抽出できることを示す。

In this paper, we propose a new system called ASET that allows users to perform structured explorations of text collections in an ad-hoc manner. The main idea of ASET is to use a new two-phase approach that first extracts a superset of information nuggets from the texts using existing extractors such as named entity recognizers and then matches the extractions to a structured table definition as requested by the user based on embeddings. In our evaluation, we show that ASET is thus able to extract structured data from real-world text collections in high quality without the need to design extraction pipelines upfront.
翻訳日:2022-03-11 01:47:41 公開日:2022-03-09
# (参考訳) 潜時語彙化属性解析としてのNested Named Entity Recognition [全文訳有]

Nested Named Entity Recognition as Latent Lexicalized Constituency Parsing ( http://arxiv.org/abs/2203.04665v1 )

ライセンス: CC0 1.0
Chao Lou, Songlin Yang, Kewei Tu(参考訳) ネストされた名前付きエンティティ認識(NER)が注目されている。 最近(Fu et al, 2021)は、ネストしたNERに取り組むために、スパンベースの選挙区パーサーを適用している。 彼らはネストした実体を部分観測された構成木として扱い、部分的辺縁化のためのマスク付き内部アルゴリズムを提案する。 しかし、その方法はエンティティヘッドを活用できないため、エンティティ参照検出やエンティティ型付けで有用であることが示されている。 本研究では, ネストされたエンティティをモデル化するために, より表現力のある構造, 単語でアノテートされた構成成分木を利用する。 eisner-sattaアルゴリズムを利用して部分辺縁化と推論を効率的に行う。 さらに,(1)2段階戦略,(2)ヘッド正規化損失,(3)ヘッドアウェアラベリング損失を用いて性能を向上させることを提案する。 各成分の機能について徹底的なアブレーション研究を行う。 実験により,ACE2004,ACE2005,NNE の最先端性能とGENIAの競合性能を実現し,高速な推論速度を実現した。

Nested named entity recognition (NER) has been receiving increasing attention. Recently, (Fu et al, 2021) adapt a span-based constituency parser to tackle nested NER. They treat nested entities as partially-observed constituency trees and propose the masked inside algorithm for partial marginalization. However, their method cannot leverage entity heads, which have been shown useful in entity mention detection and entity typing. In this work, we resort to more expressive structures, lexicalized constituency trees in which constituents are annotated by headwords, to model nested entities. We leverage the Eisner-Satta algorithm to perform partial marginalization and inference efficiently. In addition, we propose to use (1) a two-stage strategy (2) a head regularization loss and (3) a head-aware labeling loss in order to enhance the performance. We make a thorough ablation study to investigate the functionality of each component. Experimentally, our method achieves the state-of-the-art performance on ACE2004, ACE2005 and NNE, and competitive performance on GENIA, and meanwhile has a fast inference speed.
翻訳日:2022-03-11 01:35:00 公開日:2022-03-09
# (参考訳) 高速度3次元MRIの深層学習による再構成 [全文訳有]

Deep learning-based reconstruction of highly accelerated 3D MRI ( http://arxiv.org/abs/2203.04674v1 )

ライセンス: CC BY 4.0
Sangtae Ahn, Uri Wollner, Graeme McKinnon, Isabelle Heukensfeldt Jansen, Rafi Brada, Dan Rettmann, Ty A. Cashen, John Huston, J. Kevin DeMarco, Robert Y. Shih, Joshua D. Trzasko, Christopher J. Hardy, Thomas K. F. Foo(参考訳) 目的: 高アンサンプされたマルチコイルk空間データから画像を再構成する深層学習法を用いて脳の3次元MRIスキャンを高速化する手法: 高アンサンプされたk空間データから高アンサンプされたk空間データから複雑な画像を再構成するために、3次元T1重み付き脳スキャンデータをトレーニングした。 3次元MPRAGE脳スキャンデータを用いて,従来の2倍加速度のパラレルイメージング法と比較して,10倍加速度で再検討した。 snr, アーティファクト, 灰色/白質コントラスト, 解像度/シャープネス, 深い灰色マッター, 小脳縁, 前頭葉, 全体的な品質は, 経験豊富な放射線科医によって評価された。 さらに, 3D MPRAGEおよびLAVAスキャンを健常者3名と健常者1名を対象に, 3次元T1重み付きLAVA(Liver Acquisition with Volume Acceleration)腹部CTデータを用いて検討した。 結果:10倍加速のDL-Speedの定性スコアは2倍加速の平行画像の定性スコアよりも高かった。 DL-Speedは、LAVAデータの定量的測定値において圧縮センシング法より優れていた。 DL-Speedは前向きアンサンプされたスキャンデータに対して合理的に良好な性能を示し,スキャン時間の2~5倍の削減を実現した。 結論: DL-Speedは3次元MPRAGEとLAVAを最大10倍の加速で加速し, 診断画像の品質とリアルタイム再構成を維持しながら, 従来の並列画像と加速の2~5倍の高速スキャンを実現した。 脳スキャンデータトレーニングdl-speedも腹部溶岩スキャンデータ再構成時に良好に動作し,ネットワークの汎用性を示した。

Purpose: To accelerate brain 3D MRI scans by using a deep learning method for reconstructing images from highly-undersampled multi-coil k-space data Methods: DL-Speed, an unrolled optimization architecture with dense skip-layer connections, was trained on 3D T1-weighted brain scan data to reconstruct complex-valued images from highly-undersampled k-space data. The trained model was evaluated on 3D MPRAGE brain scan data retrospectively-unde rsampled with a 10-fold acceleration, compared to a conventional parallel imaging method with a 2-fold acceleration. Scores of SNR, artifacts, gray/white matter contrast, resolution/sharpness , deep gray-matter, cerebellar vermis, anterior commissure, and overall quality, on a 5-point Likert scale, were assessed by experienced radiologists. In addition, the trained model was tested on retrospectively-unde rsampled 3D T1-weighted LAVA (Liver Acquisition with Volume Acceleration) abdominal scan data, and prospectively-unders ampled 3D MPRAGE and LAVA scans in three healthy volunteers and one, respectively. Results: The qualitative scores for DL-Speed with a 10-fold acceleration were higher than or equal to those for the parallel imaging with 2-fold acceleration. DL-Speed outperformed a compressed sensing method in quantitative metrics on retrospectively-unde rsampled LAVA data. DL-Speed was demonstrated to perform reasonably well on prospectively-unders ampled scan data, realizing a 2-5 times reduction in scan time. Conclusion: DL-Speed was shown to accelerate 3D MPRAGE and LAVA with up to a net 10-fold acceleration, achieving 2-5 times faster scans compared to conventional parallel imaging and acceleration, while maintaining diagnostic image quality and real-time reconstruction. The brain scan data-trained DL-Speed also performed well when reconstructing abdominal LAVA scan data, demonstrating versatility of the network.
翻訳日:2022-03-11 01:15:28 公開日:2022-03-09
# (参考訳) 機械学習に基づくネットワーク侵入検知システムの相互評価 [全文訳有]

The Cross-evaluation of Machine Learning-based Network Intrusion Detection Systems ( http://arxiv.org/abs/2203.04686v1 )

ライセンス: CC BY-SA 4.0
Giovanni Apruzzese and Luca Pajola and Mauro Conti(参考訳) 教師付き機械学習(ML)によるネットワーク侵入検知システム(NIDS)の強化は困難である。 ML-NIDSはトレーニングされ、評価されなければならない。 このようなラベルは、高価な専門家の知識を必要とし、結果として実際のデプロイメントの欠如と、常に同じ古いデータに依存する論文によるものだ。 ラベル付きデータセットを公開する取り組みによって、状況は最近改善された。 しかし、過去のほとんどの作品はこのようなデータセットを単に'yet another'テストベッドとして使用し、そのような可用性によって提供される追加のポテンシャルを見渡していた。 対照的に、既存のラベル付きデータを用いてML-NIDSの相互評価を促進する。 このようなアプローチは限定的な注意しか受けておらず、その複雑さのため専用の治療が必要である。 そこで我々は,最初のクロス評価モデルを提案する。 我々のモデルは、クロス評価によって評価できる幅広い現実的なユースケースを強調し、最先端のML-NIDSの未知の品質を発見できる。 例えば、検出面は拡張可能で、追加のラベル付けコストは発生しない。 しかし、このような横断的な評価は難しい。 そこで我々は,ネットワークフローに基づく信頼性の高いクロス評価のための最初のフレームワークであるXeNIDSを提案する。 XeNIDSを6つのよく知られたデータセットに使用することにより、ML-NIDSの相互評価の隠れた可能性だけでなく、リスクも示す。

Enhancing Network Intrusion Detection Systems (NIDS) with supervised Machine Learning (ML) is tough. ML-NIDS must be trained and evaluated, operations requiring data where benign and malicious samples are clearly labelled. Such labels demand costly expert knowledge, resulting in a lack of real deployments, as well as on papers always relying on the same outdated data. The situation improved recently, as some efforts disclosed their labelled datasets. However, most past works used such datasets just as a 'yet another' testbed, overlooking the added potential provided by such availability. In contrast, we promote using such existing labelled data to cross-evaluate ML-NIDS. Such approach received only limited attention and, due to its complexity, requires a dedicated treatment. We hence propose the first cross-evaluation model. Our model highlights the broader range of realistic use-cases that can be assessed via cross-evaluations, allowing the discovery of still unknown qualities of state-of-the-art ML-NIDS. For instance, their detection surface can be extended--at no additional labelling cost. However, conducting such cross-evaluations is challenging. Hence, we propose the first framework, XeNIDS, for reliable cross-evaluations based on Network Flows. By using XeNIDS on six well-known datasets, we demonstrate the concealed potential, but also the risks, of cross-evaluations of ML-NIDS.
翻訳日:2022-03-11 01:00:42 公開日:2022-03-09
# (参考訳) fragmgan: 断片的データインプテーションと予測のための生成的逆ネット [全文訳有]

FragmGAN: Generative Adversarial Nets for Fragmentary Data Imputation and Prediction ( http://arxiv.org/abs/2203.04692v1 )

ライセンス: CC BY-SA 4.0
Fang Fang, Shenliao Bao(参考訳) 現代の科学研究と応用は、しばしば「フラッグメントデータ」に遭遇し、インプテーションと予測に大きな課題をもたらす。 応答パターンの構造を活用することにより,GAN(Generative Adversarial Nets)に基づく,断片的なデータ計算とラベル予測を同時に扱う,統一的で柔軟なフレームワークを提案する。 FragmGANは、理論的な保証がないか、完全なランダム(MCAR)のみを考慮している他のほとんどの生成モデルベースの計算方法とは異なり、提案されたFragmGANはデータのランダム(MAR)による計算を理論的に保証するが、ヒントメカニズムは不要である。 FragmGANは、ジェネレータと識別器を同時にトレーニングする。 この結合機構は、広範な実験において予測性能に大きな利点を示す。

Modern scientific research and applications very often encounter "fragmentary data" which brings big challenges to imputation and prediction. By leveraging the structure of response patterns, we propose a unified and flexible framework based on Generative Adversarial Nets (GAN) to deal with fragmentary data imputation and label prediction at the same time. Unlike most of the other generative model based imputation methods that either have no theoretical guarantee or only consider Missing Completed At Random (MCAR), the proposed FragmGAN has theoretical guarantees for imputation with data Missing At Random (MAR) while no hint mechanism is needed. FragmGAN trains a predictor with the generator and discriminator simultaneously. This linkage mechanism shows significant advantages for predictive performances in extensive experiments.
翻訳日:2022-03-11 00:05:45 公開日:2022-03-09
# (参考訳) 対人攻撃に対するロバスト連合学習による音声感情認識 [全文訳有]

Robust Federated Learning Against Adversarial Attacks for Speech Emotion Recognition ( http://arxiv.org/abs/2203.04696v1 )

ライセンス: CC BY 4.0
Yi Chang, Sofiane Laridi, Zhao Ren, Gregory Palmer, Bj\"orn W. Schuller, Marco Fisichella(参考訳) 機械学習と音声処理の発展により、近年は音声感情認識が一般的な研究テーマとなっている。 しかし、音声感情認識のインターネット・オブ・シング応用において、サーバにアップロードして処理する場合、音声データは保護できない。 さらに、ディープニューラルネットワークは人間と区別できない敵の摂動に弱いことが証明されている。 摂動から生じる敵対的な攻撃は、感情状態の誤った予測に深いニューラルネットワークをもたらす可能性がある。 本稿では,データと深層ニューラルネットワークの両方を保護するための新しい対角学習フレームワークを提案する。 提案されたフレームワークは 一 データのプライバシーに関する連合学習、及び 二 訓練段階における敵の訓練及びモデル堅牢性の試験段階におけるランダム化 提案手法は,音声データを局所的に保護し,一連の攻撃に対するモデルのロバスト性を向上させることができることを示す。

Due to the development of machine learning and speech processing, speech emotion recognition has been a popular research topic in recent years. However, the speech data cannot be protected when it is uploaded and processed on servers in the internet-of-things applications of speech emotion recognition. Furthermore, deep neural networks have proven to be vulnerable to human-indistinguisha ble adversarial perturbations. The adversarial attacks generated from the perturbations may result in deep neural networks wrongly predicting the emotional states. We propose a novel federated adversarial learning framework for protecting both data and deep neural networks. The proposed framework consists of i) federated learning for data privacy, and ii) adversarial training at the training stage and randomisation at the testing stage for model robustness. The experiments show that our proposed framework can effectively protect the speech data locally and improve the model robustness against a series of adversarial attacks.
翻訳日:2022-03-10 23:45:25 公開日:2022-03-09
# (参考訳) Gym-saturation:Satur ation ProversのためのOpenAI Gym環境 [全文訳有]

Gym-saturation: an OpenAI Gym environment for saturation provers ( http://arxiv.org/abs/2203.04699v1 )

ライセンス: CC BY 4.0
Boris Shminke(参考訳) gm-saturationは、定理を証明できる強化学習(RL)エージェントのためのOpenAI Gym環境である。 現在、クローサル正規形(cnf)の定理プロバース(tptp)ライブラリの何千もの問題の形式言語で書かれた定理のみがサポートされている。 gym-saturationは'given clause'アルゴリズム(ヴァンパイアとe proverで使われるものと似ている)を実装している。 pythonで書かれた`gym-saturation`はpyresにインスパイアされた。 典型的な Automated Theorem Prover (ATP) のモノリシックなアーキテクチャとは対照的に, ‘gym-saturation’ は各エージェントに対して,自分自身で句を選択して経験からトレーニングする機会を提供する。 特定のエージェントと組み合わせることで、"gym-saturation"はATPとして機能する。 ヒューリスティックスに基づく訓練を受けていないエージェントであっても、"ジャム飽和"はTPTP v7.5.0から688(8257)のCNF問題に対する難題を見つけることができる。

`gym-saturation` is an OpenAI Gym environment for reinforcement learning (RL) agents capable of proving theorems. Currently, only theorems written in a formal language of the Thousands of Problems for Theorem Provers (TPTP) library in clausal normal form (CNF) are supported. `gym-saturation` implements the 'given clause' algorithm (similar to the one used in Vampire and E Prover). Being written in Python, `gym-saturation` was inspired by PyRes. In contrast to the monolithic architecture of a typical Automated Theorem Prover (ATP), `gym-saturation` gives different agents opportunities to select clauses themselves and train from their experience. Combined with a particular agent, `gym-saturation` can work as an ATP. Even with a non trained agent based on heuristics, `gym-saturation` can find refutations for 688 (of 8257) CNF problems from TPTP v7.5.0.
翻訳日:2022-03-10 23:19:58 公開日:2022-03-09
# (参考訳) 言語モデル駆動ネガティブサンプリング [全文訳有]

Language Model-driven Negative Sampling ( http://arxiv.org/abs/2203.04703v1 )

ライセンス: CC BY 4.0
Mirza Mohtashim Alam, Md Rashad Al Hasan Rony, Semab Ali, Jens Lehmann, Sahar Vahdati(参考訳) 知識グラフ埋め込み(英: Knowledge Graph Embeddings, KGE)は、知識グラフ(英: knowledge graph, KG)の実体と関係をベクトル空間にエンコードし、究極の下流タスク(リンク予測、質問応答)の表現学習と推論を目的としている。 KGE はクローズドワールドの仮定に従い、KG の現在のすべての事実を正(正)であると仮定するので、既存の三重項の真性テストの学習過程において負のサンプルを必要とする。 したがって、ランダム分布を介して既存の正のサンプルから負のサンプルを作成するいくつかのアプローチがある。 負のサンプリングを生成するこの選択は、埋め込みモデルの性能と一般化に影響を及ぼす。 本稿では,KGsにおける既存のリッチテキスト知識を考慮したネガティブサンプリング手法を提案する。 % 提案手法はKG内のエンティティの他の関連する表現をクラスタリングするために利用される。 特に、事前訓練された言語モデル(LM)を用いて、シンボルエンティティの文脈表現を得る。 提案手法は,他の手法と比較して,より有意義な負のサンプルを生成することができる。 提案手法は,複数のベンチマークデータセットにまたがって,提案手法の有効性を示す。 さらに、他の手法が不足しているクラスタリングタスクにおいて、我々のアプローチの機能をケースで示します。

Knowledge Graph Embeddings (KGEs) encode the entities and relations of a knowledge graph (KG) into a vector space with a purpose of representation learning and reasoning for an ultimate downstream task (i.e., link prediction, question answering). Since KGEs follow closed-world assumption and assume all the present facts in KGs to be positive (correct), they also require negative samples as a counterpart for learning process for truthfulness test of existing triples. Therefore, there are several approaches for creating negative samples from the existing positive ones through a randomized distribution. This choice of generating negative sampling affects the performance of the embedding models as well as their generalization. In this paper, we propose an approach for generating negative sampling considering the existing rich textual knowledge in KGs. %The proposed approach is leveraged to cluster other relevant representations of the entities inside a KG. Particularly, a pre-trained Language Model (LM) is utilized to obtain the contextual representation of symbolic entities. Our approach is then capable of generating more meaningful negative samples in comparison to other state of the art methods. Our comprehensive evaluations demonstrate the effectiveness of the proposed approach across several benchmark datasets for like prediction task. In addition, we show cased our the functionality of our approach on a clustering task where other methods fall short.
翻訳日:2022-03-10 23:12:49 公開日:2022-03-09
# (参考訳) グループベースセグメンテーションのための統一トランスフォーマフレームワーク:コセグメンテーション,コサリエンシー検出,ビデオサルエント物体検出 [全文訳有]

A Unified Transformer Framework for Group-based Segmentation: Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection ( http://arxiv.org/abs/2203.04708v1 )

ライセンス: CC0 1.0
Yukun Su, Jingliang Deng, Ruizhou Sun, Guosheng Lin, Qingyao Wu(参考訳) 人間は、動的な世界に住んでいるため、画像のグループやビデオのフレームから学習することで、オブジェクトをマイニングする傾向があります。 コンピュータビジョン領域では、コセグメンテーション(CoS)、コセグメンテーション検出(CoSD)、ビデオサルエントオブジェクト検出(VSOD)に焦点をあてて、コセグメンテーション(CoS)を検出する。 しかし、従来のアプローチでは、これらの類似したタスク上で異なるネットワークを個別に設計しており、互いに適用することは困難であり、ディープラーニングフレームワークの転送可能性の上限を低くする。 さらに、画像グループ内の機能間および機能内におけるヒントを十分に活用できていない。 本稿では,これらの問題に取り組むための統一フレームワークであるufo(unified framework for co-object segmentation)を提案する。 具体的には、まず、画像の特徴をパッチトークンとみなし、自己保持機構を通じてそれらの長距離依存関係をキャプチャするトランスフォーマーブロックを導入する。 これにより、ネットワークが関連するオブジェクト間のパッチ構造上の類似性を発掘するのに役立つ。 さらに,部分的アクティベーションを回避するために,自己マスクを生成するMLP内学習モジュールを提案する。 4つのCoSベンチマーク(PASCAL、iCoseg、Internet、MSRC)、3つのCoSDベンチマーク(Cosal2015、CoSOD3k、CocA)と4つのVSODベンチマーク(DAVIS16、FBMS、ViSal、SegV2)の大規模な実験により、我々の手法は、同じネットワークアーキテクチャを用いて3つの異なるタスクにおいて、精度と速度の両方において、140 FPSまでリアルタイムに到達できる他の最先端技術よりも優れていることが示された。

Humans tend to mine objects by learning from a group of images or several frames of video since we live in a dynamic world. In the computer vision area, many researches focus on co-segmentation (CoS), co-saliency detection (CoSD) and video salient object detection (VSOD) to discover the co-occurrent objects. However, previous approaches design different networks on these similar tasks separately, and they are difficult to apply to each other, which lowers the upper bound of the transferability of deep learning frameworks. Besides, they fail to take full advantage of the cues among inter- and intra-feature within a group of images. In this paper, we introduce a unified framework to tackle these issues, term as UFO (Unified Framework for Co-Object Segmentation). Specifically, we first introduce a transformer block, which views the image feature as a patch token and then captures their long-range dependencies through the self-attention mechanism. This can help the network to excavate the patch structured similarities among the relevant objects. Furthermore, we propose an intra-MLP learning module to produce self-mask to enhance the network to avoid partial activation. Extensive experiments on four CoS benchmarks (PASCAL, iCoseg, Internet and MSRC), three CoSD benchmarks (Cosal2015, CoSOD3k, and CocA) and four VSOD benchmarks (DAVIS16, FBMS, ViSal and SegV2) show that our method outperforms other state-of-the-arts on three different tasks in both accuracy and speed by using the same network architecture , which can reach 140 FPS in real-time.
翻訳日:2022-03-10 23:02:23 公開日:2022-03-09
# (参考訳) ブラックボックス型骨格型ヒューマンアクティビティ分類器 [全文訳有]

Defending Black-box Skeleton-based Human Activity Classifiers ( http://arxiv.org/abs/2203.04713v1 )

ライセンス: CC BY 4.0
He Wang, Yunfeng Diao, Zichang Tan, Guodong Guo(参考訳) ディープラーニングは多くのタスクにおいて ‘go to’ ソリューションと見なされているが、悪意のある攻撃に対する本質的な脆弱性が大きな懸念となっている。 この脆弱性は、モデル、タスク、データ、攻撃者など、さまざまな要因に影響を受けている。 その結果,様々な応用において,適応学習やランダム化平滑化といった手法が提案されている。 本稿では,時系列データとして重要でありながら,攻撃に対する防御が不十分なスケルトンに基づく人間行動認識について検討する。 本手法は,(1)頑健な識別型分類器のベイズエネルギーに基づく新しい定式化,(2)逆方向のサンプル多様体の新しいパラメータ化,(3)逆方向のサンプルと分類器の両方に対する新しいベイズ処理によって特徴付けられる。 我々は,ベイズエネルギーをベースとした競争訓練(BEAT)の枠組みを命名した。 BEATは単純だがエレガントで、脆弱性のあるブラックボックス分類器を精度を犠牲にすることなく堅牢なものに変える。 様々な攻撃の下で、幅広いアクション分類器やデータセットにまたがる驚くべき、普遍的な効果を示す。

Deep learning has been regarded as the `go to' solution for many tasks today, but its intrinsic vulnerability to malicious attacks has become a major concern. The vulnerability is affected by a variety of factors including models, tasks, data, and attackers. Consequently, methods such as Adversarial Training and Randomized Smoothing have been proposed to tackle the problem in a wide range of applications. In this paper, we investigate skeleton-based Human Activity Recognition, which is an important type of time-series data but under-explored in defense against attacks. Our method is featured by (1) a new Bayesian Energy-based formulation of robust discriminative classifiers, (2) a new parameterization of the adversarial sample manifold of actions, and (3) a new post-train Bayesian treatment on both the adversarial samples and the classifier. We name our framework Bayesian Energy-based Adversarial Training or BEAT. BEAT is straightforward but elegant, which turns vulnerable black-box classifiers into robust ones without sacrificing accuracy. It demonstrates surprising and universal effectiveness across a wide range of action classifiers and datasets, under various attacks.
翻訳日:2022-03-10 22:33:36 公開日:2022-03-09
# (参考訳) ヒューマン・ゲイズを用いた外科的活動認識 [全文訳有]

Using Human Gaze For Surgical Activity Recognition ( http://arxiv.org/abs/2203.04752v1 )

ライセンス: CC BY 4.0
Abdishakour Awale, Duygu Sarikaya(参考訳) 外科的活動の自動認識は、外科医にフィードバックを提供する上で重要な役割を担い、コンピュータ支援手術システムに向けた基本的なステップである。 人間の視線と視覚は視覚的注意に関する重要な情報を持ち、コンピュータビジョンシステムで使用することができる。 最先端の手術活動認識モデルは、空間的特徴を学習するが、これらのモデルはいずれも人間の視線と視覚の塩分を利用するものではない。 本研究では,手術映像における活動認識のための空間的時間的注意機構を用いた人間の視線の利用を提案する。 我々のモデルは、I3Dベースのアーキテクチャで構成され、3D畳み込みを用いて時空間の特徴を学習し、人間の視線を用いて注意マップを学習する。 手術用ビデオ理解データセットであるJIGSAWSのSuturingタスクを用いて,本モデルの評価を行った。 本課題におけるランダムなビデオセグメントのサブセットに対する評価は,86.2%の精度で有望な結果が得られることを示唆している。

Automatically recognizing surgical activities plays an important role in providing feedback to surgeons, and is a fundamental step towards computer-aided surgical systems. Human gaze and visual saliency carry important information about visual attention, and can be used in computer vision systems. Although state-of-the-art surgical activity recognition models learn spatial temporal features, none of these models make use of human gaze and visual saliency. In this study, we propose to use human gaze with a spatial temporal attention mechanism for activity recognition in surgical videos. Our model consists of an I3D-based architecture, learns spatio-temporal features using 3D convolutions, as well as learning an attention map using human gaze. We evaluated our model on the Suturing task of JIGSAWS which is a publicly available surgical video understanding dataset. Our evaluations on a subset of random video segments in this task suggest that our approach achieves promising results with an accuracy of 86.2%.
翻訳日:2022-03-10 22:14:51 公開日:2022-03-09
# (参考訳) キーワード特性に基づくエンハンストピック分析 [全文訳有]

Enhance Topics Analysis based on Keywords Properties ( http://arxiv.org/abs/2203.04786v1 )

ライセンス: CC BY 4.0
Antonio Penta(参考訳) トピックモデリングは、ドキュメントのコレクションの探索と取得に使用される最も一般的なテキスト分析手法の1つである。 トピックモデルアルゴリズムの評価は、各コーパスに対して比較すべきトピックのゴールドスタンダードリストがないため、依然として非常に難しい課題である。 そこで本研究では,最も有意義なトピックを選択できるキーワード特性に基づく特異度スコアを提案する。 このアプローチは、ユーザが最も有意義なトピックに集中するのに役立つ。 実験では,文献に提示された最近のコヒーレンススコアに基づく解よりもはるかに低い情報損失により,異なる要因のトピックモデリング結果を圧縮できることを示した。

Topic Modelling is one of the most prevalent text analysis technique used to explore and retrieve collection of documents. The evaluation of the topic model algorithms is still a very challenging tasks due to the absence of gold-standard list of topics to compare against for every corpus. In this work, we present a specificity score based on keywords properties that is able to select the most informative topics. This approach helps the user to focus on the most informative topics. In the experiments, we show that we are able to compress the state-of-the-art topic modelling results of different factors with an information loss that is much lower than the solution based on the recent coherence score presented in literature.
翻訳日:2022-03-10 21:51:48 公開日:2022-03-09
# (参考訳) 効率的な切り離しやスイッチリストの結合は不要 [全文訳有]

No Efficient Disjunction or Conjunction of Switch-Lists ( http://arxiv.org/abs/2203.04788v1 )

ライセンス: CC BY 4.0
Stefan Mengel(参考訳) 2つのスイッチリストの切断は指数関数的に表現サイズを吹き飛ばすことが示されている。 スイッチリストはサイズが大きくなることなく無効化できるため、スイッチリストの結合は一般に指数的な爆発を引き起こすことを示す。

It is shown that disjunction of two switch-lists can blow up the representation size exponentially. Since switch-lists can be negated without any increase in size, this shows that conjunction of switch-lists also leads to an exponential blow-up in general.
翻訳日:2022-03-10 21:45:55 公開日:2022-03-09
# (参考訳) マニフォールドの幾何学的最適化と深層学習への応用

Geometric Optimisation on Manifolds with Applications to Deep Learning ( http://arxiv.org/abs/2203.04794v1 )

ライセンス: CC BY 4.0
Mario Lezcano-Casado(参考訳) 我々は、データサイエンティスト、実践者、応用研究者のワークフローに組み込むのに効率的で拡張性があり、簡単な方法で、これらの強力なツールを使用する非専門家を支援するPythonライブラリを設計し、実装します。 このライブラリで実装されたアルゴリズムは、ユーザビリティとGPU効率を念頭に設計されており、任意のPyTorchモデルに1行のコードで追加することができる。 時系列解析の設定における多様体上の最適化の適用におけるこれらのツールの有効性を示す。 この設定では、直交とユニタリの最適化は、反復モデルの制約と規則化、および勾配の消滅と爆発を避けるために用いられる。 GeoTorchのために設計されたアルゴリズムは、このモデルの標準的なテストにおいて、アート結果の状態を達成できます。 我々は比較幾何学のツールを使って最適化問題に関心のある量に限界を与える。 特に、リーマン指数の第2微分のノルムに明示的な境界を与えるために、(Kaul 1976) の作業の上に構築する。

We design and implement a Python library to help the non-expert using all these powerful tools in a way that is efficient, extensible, and simple to incorporate into the workflow of the data scientist, practitioner, and applied researcher. The algorithms implemented in this library have been designed with usability and GPU efficiency in mind, and they can be added to any PyTorch model with just one extra line of code. We showcase the effectiveness of these tools on an application of optimisation on manifolds in the setting of time series analysis. In this setting, orthogonal and unitary optimisation is used to constraint and regularise recurrent models and avoid vanishing and exploding gradient problems. The algorithms designed for GeoTorch allow us to achieve state of the art results in the standard tests for this family of models. We use tools from comparison geometry to give bounds on quantities that are of interest in optimisation problems. In particular, we build on the work of (Kaul 1976) to give explicit bounds on the norm of the second derivative of the Riemannian exponential.
翻訳日:2022-03-10 21:40:46 公開日:2022-03-09
# (参考訳) 小型物体検出のためのスライス推論によるヨーロモデルの評価 [全文訳有]

Evaluation of YOLO Models with Sliced Inference for Small Object Detection ( http://arxiv.org/abs/2203.04799v1 )

ライセンス: CC BY 4.0
Muhammed Can Keles, Batuhan Salmanoglu, Mehmet Serdar Guzel, Baran Gursoy, Gazi Erkan Bostanci(参考訳) 小型物体検出は、UAV、監視、農業など多くの分野に応用されている。 本研究では,最も人気が高く,使いやすい物体検出モデルの1つである小物体検出の課題に対して,アート・ヨーロに基づく物体検出モデルの性能について検討する。 本研究では, YOLOv5およびYOLOXモデルについて検討した。 また,スライシング助成推論の効果について検討し,スライシング助成推論モデルの微調整を行った。 モデルのトレーニングと評価にはVisDrone2019Detデータセットを使用しました。 このデータセットは、ほとんどのオブジェクトが画像サイズに比べて比較的小さいという意味で難しい。 この研究は、小さなオブジェクト検出のためにYOLOv5とYOLOXモデルをベンチマークすることを目的としている。 スライス推論はすべての実験でap50スコアを増加させ、yolov5モデルではyoloxモデルよりもこの効果が大きかった。 スライスされた微調整とスライスされた推論が組み合わさって全てのモデルに大幅な改善をもたらした。 AP50の最高スコアは VisDrone2019Det test-dev サブセットの YOLOv5- Large モデルで、スコアは 48.8 であった。

Small object detection has major applications in the fields of UAVs, surveillance, farming and many others. In this work we investigate the performance of state of the art Yolo based object detection models for the task of small object detection as they are one of the most popular and easy to use object detection models. We evaluated YOLOv5 and YOLOX models in this study. We also investigate the effects of slicing aided inference and fine-tuning the model for slicing aided inference. We used the VisDrone2019Det dataset for training and evaluating our models. This dataset is challenging in the sense that most objects are relatively small compared to the image sizes. This work aims to benchmark the YOLOv5 and YOLOX models for small object detection. We have seen that sliced inference increases the AP50 score in all experiments, this effect was greater for the YOLOv5 models compared to the YOLOX models. The effects of sliced fine-tuning and sliced inference combined produced substantial improvement for all models. The highest AP50 score was achieved by the YOLOv5- Large model on the VisDrone2019Det test-dev subset with the score being 48.8.
翻訳日:2022-03-10 21:39:30 公開日:2022-03-09
# (参考訳) NeRF-Pose:弱教師付き6次元オブジェクトポース推定のための1次再構成-Then-Regressアプローチ [全文訳有]

NeRF-Pose: A First-Reconstruct-Th en-Regress Approach for Weakly-supervised 6D Object Pose Estimation ( http://arxiv.org/abs/2203.04802v1 )

ライセンス: CC BY 4.0
Fu Li, Hao Yu, Ivan Shugurov, Benjamin Busam, Shaowu Yang, Slobodan Ilic(参考訳) 単眼画像における3次元物体のポス推定は,コンピュータビジョンの基本的かつ長年の課題である。 既存の6Dポーズ推定のためのディープラーニングアプローチは通常、3Dオブジェクトモデルと6Dポーズアノテーションの可用性を前提にしている。 しかしながら、実データにおける6dポーズの正確なアノテーションは複雑で、時間を要するが、スケーラブルではない。 これらの問題を回避するため,本研究では2次元オブジェクトセグメンテーションと既知の相対カメラポーズのみを必要とするnrf-poseという弱い教師付き再構成ベースパイプラインを提案する。 第1の再構築-再帰的アイデアに従って、我々はまず、暗黙の神経表現の形で、複数のビューからオブジェクトを再構築する。 そこで我々は,画像と再構成されたモデル間の画素単位の2D-3D対応を予測するために,ポーズ回帰ネットワークを訓練する。 推論では、アプローチは入力として1つのイメージのみを必要とする。 予測応答から安定かつ正確なポーズを推定するために、NeRF対応PnP+RANSACアルゴリズムを用いる。 linemod と linemod-occlusion の実験により,提案手法は,弱いラベルでのみ訓練されるにも関わらず,最高の6次元ポーズ推定法と比較して,最先端の精度を示した。 さらに、よりリアルなトレーニングイメージでHomebrewed DBデータセットを拡張して、弱教師付きタスクをサポートし、このデータセット上で説得力のある結果を得る。 拡張データセットとコードはまもなくリリースされる予定だ。

Pose estimation of 3D objects in monocular images is a fundamental and long-standing problem in computer vision. Existing deep learning approaches for 6D pose estimation typically rely on the assumption of availability of 3D object models and 6D pose annotations. However, precise annotation of 6D poses in real data is intricate, time-consuming and not scalable, while synthetic data scales well but lacks realism. To avoid these problems, we present a weakly-supervised reconstruction-based pipeline, named NeRF-Pose, which needs only 2D object segmentation and known relative camera poses during training. Following the first-reconstruct-th en-regress idea, we first reconstruct the objects from multiple views in the form of an implicit neural representation. Then, we train a pose regression network to predict pixel-wise 2D-3D correspondences between images and the reconstructed model. At inference, the approach only needs a single image as input. A NeRF-enabled PnP+RANSAC algorithm is used to estimate stable and accurate pose from the predicted correspondences. Experiments on LineMod and LineMod-Occlusion show that the proposed method has state-of-the-art accuracy in comparison to the best 6D pose estimation methods in spite of being trained only with weak labels. Besides, we extend the Homebrewed DB dataset with more real training images to support the weakly supervised task and achieve compelling results on this dataset. The extended dataset and code will be released soon.
翻訳日:2022-03-10 21:30:02 公開日:2022-03-09
# (参考訳) 大規模分子モデリングデータセットにおけるベンチマークグラフマー [全文訳有]

Benchmarking Graphormer on Large-Scale Molecular Modeling Datasets ( http://arxiv.org/abs/2203.04810v1 )

ライセンス: CC BY 4.0
Yu Shi, Shuxin Zheng, Guolin Ke, Yifei Shen, Jiacheng You, Jiyan He, Shengjie Luo, Chang Liu, Di He, Tie-Yan Liu(参考訳) この技術ノートは、アーキテクチャ設計の変更や3D分子動力学シミュレーションへの適応を含む、最近のGraphormerのアップデートについて説明している。 これらの簡単な修正により、Graphormerはバニラモデルよりも大規模な分子モデリングデータセットでより良い結果を得ることができ、2次元および3次元の分子グラフモデリングタスクで一貫して性能向上が得られる。 さらに、グローバルな受容場と適応的な集約戦略により、Graphormerは従来のメッセージパッシングベースのGNNよりも強力であることを示す。 実験上、graphormerはkdd cup 2021で使用されたpcqm4m量子化学データセットで報告された結果よりもはるかに少ないmaeを達成できた。 一方、最近のopen catalyst challengeはneurips 2021ワークショップのコンペティショントラックであり、先進的なaiモデルによる触媒-吸着反応システムのモデル化を目的としている。 すべてのコードはhttps://github.com/M icrosoft/Graphormer. comにある。

This technical note describes the recent updates of Graphormer, including architecture design modifications, and the adaption to 3D molecular dynamics simulation. With these simple modifications, Graphormer could attain better results on large-scale molecular modeling datasets than the vanilla one, and the performance gain could be consistently obtained on 2D and 3D molecular graph modeling tasks. In addition, we show that with a global receptive field and an adaptive aggregation strategy, Graphormer is more powerful than classic message-passing-base d GNNs. Empirically, Graphormer could achieve much less MAE than the originally reported results on the PCQM4M quantum chemistry dataset used in KDD Cup 2021. In the meanwhile, it greatly outperforms the competitors in the recent Open Catalyst Challenge, which is a competition track on NeurIPS 2021 workshop, and aims to model the catalyst-adsorbate reaction system with advanced AI models. All codes could be found at https://github.com/M icrosoft/Graphormer.
翻訳日:2022-03-10 21:11:21 公開日:2022-03-09
# (参考訳) Text-DIAE: テキスト認識と文書強調のための劣化不変オートエンコーダ [全文訳有]

Text-DIAE: Degradation Invariant Autoencoders for Text Recognition and Document Enhancement ( http://arxiv.org/abs/2203.04814v1 )

ライセンス: CC BY 4.0
Mohamed Ali Souibgui, Sanket Biswas, Andres Mafla, Ali Furkan Biten, Alicia Forn\'es, Yousri Kessentini, Josep Llad\'os, Lluis Gomez, Dimosthenis Karatzas(参考訳) 本研究では,テキスト認識(手書き・シーンテキスト)と文書画像強調の2つの課題を解決するためのテキスト劣化不変オートエンコーダ(Text-DIAE)を提案する。 3つのプリテキストタスクを,ラベル付きデータの使用なしに事前トレーニング中に最適化される学習目標として定義する。 プレテキストの目的のそれぞれは、最後のダウンストリームタスクに特化している。 特定の領域における各劣化の重要性を示すアブレーション実験を行っている。 実験結果から, 従来手法では, 従来手法では比較的損失に基づく限界がなく, 同時に, 収束するデータサンプルが少ないことがわかった。 最後に,本手法は手書き文字認識と文書画像強調において,既存の教師付きおよび自己監督型設定において,最先端の手法をはるかに上回ることを示す。 私たちのコードとトレーニングされたモデルは、~\url{ http://Upon_Acceptan ce}で公開されます。

In this work, we propose Text-Degradation Invariant Auto Encoder (Text-DIAE) aimed to solve two tasks, text recognition (handwritten or scene-text) and document image enhancement. We define three pretext tasks as learning objectives to be optimized during pre-training without the usage of labelled data. Each of the pre-text objectives is specifically tailored for the final downstream tasks. We conduct several ablation experiments that show the importance of each degradation for a specific domain. Exhaustive experimentation shows that our method does not have limitations of previous state-of-the-art based on contrastive losses while at the same time requiring essentially fewer data samples to converge. Finally, we demonstrate that our method surpasses the state-of-the-art significantly in existing supervised and self-supervised settings in handwritten and scene text recognition and document image enhancement. Our code and trained models will be made publicly available at~\url{ http://Upon_Acceptan ce}.
翻訳日:2022-03-10 21:02:43 公開日:2022-03-09
# (参考訳) LTLf仕様に対する不満足なコアの計算

Computing unsatisfiable cores for LTLf specifications ( http://arxiv.org/abs/2203.04834v1 )

ライセンス: CC BY 4.0
Marco Roveri and Claudio Di Ciccio and Chiara Di Francescomarino and Chiara Ghidini(参考訳) 有限トレース(ltlf: linear-time temporal logic on finite traces)は、多くのアプリケーションドメイン(例えば、計画、ビジネスプロセス管理、実行時のモニタリング、リアクティブ合成)で仕様を作成するためのデファクトスタンダードになりつつある。 いくつかの研究がそれぞれの満足度問題にアプローチした。 本稿では,LTLf仕様における不満足なコア抽出の問題について検討する。 LTLfの適合性チェックへの最先端アプローチの適応を利用して、不満足なコアを抽出する4つのアルゴリズムを提案する。 それぞれのツールに異なるアプローチを実装し、一連の基準ベンチマークで実験的な評価を行い、満足できないものに制限する。 結果は、異なるアルゴリズムやツールの実現可能性、有効性、相補性を示している。

Linear-time temporal logic on finite traces (LTLf) is rapidly becoming a de-facto standard to produce specifications in many application domains (e.g., planning, business process management, run-time monitoring, reactive synthesis). Several studies approached the respective satisfiability problem. In this paper, we investigate the problem of extracting the unsatisfiable core in LTLf specifications. We provide four algorithms for extracting an unsatisfiable core leveraging the adaptation of state-of-the-art approaches to LTLf satisfiability checking. We implement the different approaches within the respective tools and carry out an experimental evaluation on a set of reference benchmarks, restricting to the unsatisfiable ones. The results show the feasibility, effectiveness, and complementarities of the different algorithms and tools.
翻訳日:2022-03-10 20:39:34 公開日:2022-03-09
# (参考訳) Federated Minimax Optimization:改良された収束解析とアルゴリズム

Federated Minimax Optimization: Improved Convergence Analyses and Algorithms ( http://arxiv.org/abs/2203.04850v1 )

ライセンス: CC BY 4.0
Pranay Sharma, Rohan Panda, Gauri Joshi and Pramod K. Varshney(参考訳) 本稿では,GANなどの現代の機械学習アプリケーションにおいて,非凸最小値最適化が注目されている。 これらのアプリケーションにおける大規模エッジベーストレーニングデータの収集は、フェデレーション学習で使用されるような、通信効率のよい分散最適化アルゴリズムを呼び出す。 本稿では,SGDAアルゴリズムの局所更新版である局所確率勾配勾配上昇(SGDA)を解析する。 SGDAはミニマックス最適化で使用されるコアアルゴリズムであるが、分散環境では十分に理解されていない。 局所 sgda が非凸凸および非凸非凸ミニマックス問題のクラスに対して \textit{order-optimal} サンプル複雑性を持つことを証明し、クライアント数に関して \textit{linear speedup} を楽しむ。 既存の文献における収束とコミュニケーションの保証を改善する,新しい,より厳密な分析手法を提案する。 非凸PLおよび非凸1点凹関数に対しては、集中化ミニマックス問題に対する既存の複雑性結果を改善する。 さらに,同じ収束保証を持つモーメントに基づく局所更新アルゴリズムを提案する。

In this paper, we consider nonconvex minimax optimization, which is gaining prominence in many modern machine learning applications such as GANs. Large-scale edge-based collection of training data in these applications calls for communication-effici ent distributed optimization algorithms, such as those used in federated learning, to process the data. In this paper, we analyze Local stochastic gradient descent ascent (SGDA), the local-update version of the SGDA algorithm. SGDA is the core algorithm used in minimax optimization, but it is not well-understood in a distributed setting. We prove that Local SGDA has \textit{order-optimal} sample complexity for several classes of nonconvex-concave and nonconvex-nonconcave minimax problems, and also enjoys \textit{linear speedup} with respect to the number of clients. We provide a novel and tighter analysis, which improves the convergence and communication guarantees in the existing literature. For nonconvex-PL and nonconvex-one-point- concave functions, we improve the existing complexity results for centralized minimax problems. Furthermore, we propose a momentum-based local-update algorithm, which has the same convergence guarantees, but outperforms Local SGDA as demonstrated in our experiments.
翻訳日:2022-03-10 20:38:30 公開日:2022-03-09
# (参考訳) イントロスペクティブリビジョンを用いた自然言語推論のためのニューロシンボリック自然論理 [全文訳有]

Neuro-symbolic Natural Logic with Introspective Revision for Natural Language Inference ( http://arxiv.org/abs/2203.04857v1 )

ライセンス: CC BY 4.0
Yufei Feng, Xiaoyu Yang, Xiaodan Zhu, Michael Greenspan(参考訳) イントロスペクティブリビジョンを用いた強化学習に基づくニューロシンボリックな自然言語フレームワークを提案する。 モデルでは、イントロスペクティブなリビジョンアルゴリズムが中間の象徴的推論ステップを修正して報酬獲得操作を発見し、外部の知識を活用してスプリアスな推論とトレーニングの非効率を緩和するポリシーグラデーションを通じて、特定の推論パスをサンプリングし、報酬を与える。 このフレームワークは、入力の絡み合いを避けるために適切に設計された局所的関係モデルによってサポートされている。 提案モデルは,既存のデータセットの既存モデルと比較して,一調性推論,体系的一般化,解釈可能性において優れた能力を示す。

We introduce a neuro-symbolic natural logic framework based on reinforcement learning with introspective revision. The model samples and rewards specific reasoning paths through policy gradient, in which the introspective revision algorithm modifies intermediate symbolic reasoning steps to discover reward-earning operations as well as leverages external knowledge to alleviate spurious reasoning and training inefficiency. The framework is supported by properly designed local relation models to avoid input entangling, which helps ensure the interpretability of the proof paths. The proposed model has built-in interpretability and shows superior capability in monotonicity inference, systematic generalization, and interpretability, compared to previous models on the existing datasets.
翻訳日:2022-03-10 20:36:06 公開日:2022-03-09
# (参考訳) PET:自然言語テキストからのプロセス抽出のための新しいデータセット [全文訳有]

PET: A new Dataset for Process Extraction from Natural Language Text ( http://arxiv.org/abs/2203.04860v1 )

ライセンス: CC BY 4.0
Patrizio Bellan, Han van der Aa, Mauro Dragoni, Chiara Ghidini and Simone Paolo Ponzetto(参考訳) nlpにはテキストからエンティティや関係を抽出するという長い伝統があるが、これまではプロセス記述のテキストコーパスのような構造化されていないデータからビジネスプロセスを取得する作業はほとんど存在しない。 この作業では、このギャップを埋め、自然言語処理からデータ駆動情報抽出方法論をブリッジする最初のステップと、ビジネスプロセス管理から目的を定式化することを目的としています。 そこで我々は,アクティビティ,ゲートウェイ,アクター,フロー情報に注釈を付けたビジネスプロセス記述の最初のコーパスを開発する。 我々は、アノテーションスキーマとガイドラインの詳細な概要、およびテキストからのビジネスプロセス抽出の難しさと課題をベンチマークするための様々なベースラインを含む、新しいリソースを提示します。

Although there is a long tradition of work in NLP on extracting entities and relations from text, to date there exists little work on the acquisition of business processes from unstructured data such as textual corpora of process descriptions. With this work we aim at filling this gap and establishing the first steps towards bridging data-driven information extraction methodologies from Natural Language Processing and the model-based formalization that is aimed from Business Process Management. For this, we develop the first corpus of business process descriptions annotated with activities, gateways, actors and flow information. We present our new resource, including a detailed overview of the annotation schema and guidelines, as well as a variety of baselines to benchmark the difficulty and challenges of business process extraction from text.
翻訳日:2022-03-10 20:11:30 公開日:2022-03-09
# (参考訳) 分散語埋め込みの教師なしアライメント [全文訳有]

Unsupervised Alignment of Distributional Word Embeddings ( http://arxiv.org/abs/2203.04863v1 )

ライセンス: CC BY 4.0
Ai\"ssatou Diallo(参考訳) クロスドメインアライメントは、機械翻訳から伝達学習までのタスクにおいて重要な役割を果たす。 近年,単言語組込みで動作する純粋に教師なしの手法が,指導に頼らずに二言語レキシコンを推定することに成功した。 しかし、現在の最先端技術は点ベクトルのみに焦点を当てているが、分布埋め込みは単語を表現する際によりリッチな意味情報を埋め込むことが証明されている。 本稿では,確率的埋め込みを整合するための確率的最適化手法を提案する。 最後に,単言語データを用いて学習した単語埋め込みを整合させることにより,教師なし単語翻訳の問題に対する評価を行った。 提案手法は,複数の言語対にまたがるバイリンガル語彙誘導タスクにおいて優れた性能を示し,ポイントベクタに基づく手法よりも優れた性能を示す。

Cross-domain alignment play a key roles in tasks ranging from machine translation to transfer learning. Recently, purely unsupervised methods operating on monolingual embeddings have successfully been used to infer a bilingual lexicon without relying on supervision. However, current state-of-the art methods only focus on point vectors although distributional embeddings have proven to embed richer semantic information when representing words. In this paper, we propose stochastic optimization approach for aligning probabilistic embeddings. Finally, we evaluate our method on the problem of unsupervised word translation, by aligning word embeddings trained on monolingual data. We show that the proposed approach achieves good performance on the bilingual lexicon induction task across several language pairs and performs better than the point-vector based approach.
翻訳日:2022-03-10 20:01:27 公開日:2022-03-09
# (参考訳) Reverse Engineering $\ell_p$ attack: 回復保証付きブロックスパース最適化アプローチ [全文訳有]

Reverse Engineering $\ell_p$ attacks: A block-sparse optimization approach with recovery guarantees ( http://arxiv.org/abs/2203.04886v1 )

ライセンス: CC BY 4.0
Darshan Thaker, Paris Giampouras, Ren\'e Vidal(参考訳) ディープニューラルネットワークベースの分類器は、$\ell_p$-bounded norm adversarial attackのような入力に対する知覚できない摂動に弱いことが示されている。 これは多くの防衛手法の開発を動機付け、新たな攻撃によって破壊されるなどしている。 本稿では、リバースエンジニアリング対逆攻撃の異なるが関連する問題に焦点をあてる。 具体的には、攻撃された信号が与えられた場合、攻撃の種類を決定できる条件($\ell_1$, $\ell_2$, $\ell_\infty$)を調べ、クリーンな信号を復元する。 この問題は、信号と攻撃の両方がクラスごとに1つの部分空間と攻撃タイプごとに1つの部分空間を含む部分空間の結合にあると仮定されるブロックスパースリカバリ問題である。 我々は,攻撃信号がクリーン信号と攻撃信号の和として分解できる部分空間上の幾何学的条件を導出する。 さらに、信号と攻撃を含む部分空間を決定することにより、信号を分類し、攻撃タイプを決定することもできる。 桁と面の分類実験は,提案手法の有効性を示す。

Deep neural network-based classifiers have been shown to be vulnerable to imperceptible perturbations to their input, such as $\ell_p$-bounded norm adversarial attacks. This has motivated the development of many defense methods, which are then broken by new attacks, and so on. This paper focuses on a different but related problem of reverse engineering adversarial attacks. Specifically, given an attacked signal, we study conditions under which one can determine the type of attack ($\ell_1$, $\ell_2$ or $\ell_\infty$) and recover the clean signal. We pose this problem as a block-sparse recovery problem, where both the signal and the attack are assumed to lie in a union of subspaces that includes one subspace per class and one subspace per attack type. We derive geometric conditions on the subspaces under which any attacked signal can be decomposed as the sum of a clean signal plus an attack. In addition, by determining the subspaces that contain the signal and the attack, we can also classify the signal and determine the attack type. Experiments on digit and face classification demonstrate the effectiveness of the proposed approach.
翻訳日:2022-03-10 19:51:49 公開日:2022-03-09
# (参考訳) フェデレートサンプルソフトマックスを用いた効率的な画像表現学習 [全文訳有]

Efficient Image Representation Learning with Federated Sampled Softmax ( http://arxiv.org/abs/2203.04888v1 )

ライセンス: CC BY 4.0
Sagar M. Waghmare, Hang Qi, Huizhong Chen, Mikhail Sirotenko and Tomer Meron(参考訳) 分散データでのイメージ表現の学習は、データがデータサイロをまたいで集約できない場合に多くの利点をもたらす。 ソフトマックスクロスエントロピー損失は非常に効果的であり、画像表現の学習によく用いられる。 多数のクラスを使用することは、集中学習におけるこのような表現の記述力に特に有益であることが証明されている。 しかしながら,flクライアントの計算と通信に対する要求はクラス数に比例して増加するため,連合学習による分散データを扱うことは容易ではない。 本研究では,フェデレート学習を用いた画像表現学習において,資源効率の高いFedSS(Federated sampled softmax)を提案する。 具体的には、flクライアントは一連のクラスをサンプリングし、グローバルフルソフトマックス目標に近似するサンプルソフトマックス目標に対して対応するモデルパラメータのみを最適化する。 損失の定式化について検討し,本手法が標準ソフトマックス法と同等の性能を示しながら,クライアント装置に転送および最適化されるパラメータの数を著しく削減することを示す。 本研究は,多数のクラスを含む分散データに対して,フェデレーション設定下で画像表現を効率的に学習する可能性を示す。

Learning image representations on decentralized data can bring many benefits in cases where data cannot be aggregated across data silos. Softmax cross entropy loss is highly effective and commonly used for learning image representations. Using a large number of classes has proven to be particularly beneficial for the descriptive power of such representations in centralized learning. However, doing so on decentralized data with Federated Learning is not straightforward as the demand on FL clients' computation and communication increases proportionally to the number of classes. In this work we introduce federated sampled softmax (FedSS), a resource-efficient approach for learning image representation with Federated Learning. Specifically, the FL clients sample a set of classes and optimize only the corresponding model parameters with respect to a sampled softmax objective that approximates the global full softmax objective. We examine the loss formulation and empirically show that our method significantly reduces the number of parameters transferred to and optimized by the client devices, while performing on par with the standard full softmax method. This work creates a possibility for efficiently learning image representations on decentralized data with a large number of classes under the federated setting.
翻訳日:2022-03-10 19:19:51 公開日:2022-03-09
# (参考訳) Tinyデバイス上での推論のための脳誘発低次元計算分類器 [全文訳有]

A Brain-Inspired Low-Dimensional Computing Classifier for Inference on Tiny Devices ( http://arxiv.org/abs/2203.04894v1 )

ライセンス: CC BY-SA 4.0
Shijin Duan, Xiaolin Xu and Shaolei Ren(参考訳) 脳のような認識を模倣し、並列性を活用することで、高次元コンピューティング(HDC)分類器は、デバイス上の効率的な推論を実現するための軽量なフレームワークとして登場してきた。 それにもかかわらず、彼らは2つの基本的な欠点、ヒューリスティックトレーニングプロセスと超高次元を持ち、その結果、限られたリソース制約を持つ小さなデバイスの能力を超えた、準最適推論精度と大きなモデルサイズをもたらす。 本稿では,これらの根本的な欠点に対処し,低次元コンピューティング(LDC)代替案を提案する。 具体的には、LCC分類器を等価ニューラルネットワークにマッピングすることで、原則化されたトレーニングアプローチを使用してモデルを最適化する。 最も重要なことは、既存のHDCモデルの超高次元を桁違いに(例えば8000対4/64)削減しながら、推論精度を向上させることができることである。 我々は、小型デバイス上での推論のための異なるデータセットを考慮し、LCC分類器を評価する実験を行い、アクセラレーションのためのFPGAプラットフォーム上で異なるモデルを実装する。 その結果、LCC分類器は、既存の脳にインスパイアされたHDCモデルに対して圧倒的な優位性を示し、特に小型デバイスでの推論に適していることがわかった。

By mimicking brain-like cognition and exploiting parallelism, hyperdimensional computing (HDC) classifiers have been emerging as a lightweight framework to achieve efficient on-device inference. Nonetheless, they have two fundamental drawbacks, heuristic training process and ultra-high dimension, which result in sub-optimal inference accuracy and large model sizes beyond the capability of tiny devices with stringent resource constraints. In this paper, we address these fundamental drawbacks and propose a low-dimensional computing (LDC) alternative. Specifically, by mapping our LDC classifier into an equivalent neural network, we optimize our model using a principled training approach. Most importantly, we can improve the inference accuracy while successfully reducing the ultra-high dimension of existing HDC models by orders of magnitude (e.g., 8000 vs. 4/64). We run experiments to evaluate our LDC classifier by considering different datasets for inference on tiny devices, and also implement different models on an FPGA platform for acceleration. The results highlight that our LDC classifier offers an overwhelming advantage over the existing brain-inspired HDC models and is particularly suitable for inference on tiny devices.
翻訳日:2022-03-10 19:04:26 公開日:2022-03-09
# (参考訳) Few-shot Vision-Language Transfer Learningのためのモデル非依存型マルチタスクファインタニング [全文訳有]

Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language Transfer Learning ( http://arxiv.org/abs/2203.04904v1 )

ライセンス: CC BY 4.0
Zhenhailong Wang, Hang Yu, Manling Li, Han Zhao, Heng Ji(参考訳) 最先端のゼロショット性能を達成したにも拘わらず、既存のビジョン言語モデル(例えばCLIP)は、ドメイン固有の分類タスク(例えばFungi Classification)にはまだ不足している。 少数ショット転送学習の文脈では、従来の微調整は、高度に表現力のあるモデルがトレーニングデータのスプリアス相関を利用するのを防げない。 一方、モデルに依存しないメタラーニング(MAML)は、トランスファーラーニングの自然な代替手段であるが、暗黙の2階最適化による高価な計算は、大規模モデルやデータセットでの使用を制限する。 本研究は、一様タスクサンプリングに基づく簡易かつ効率的な微調整戦略により、未確認タスクにおける既存の視覚言語モデルの一般化をさらに改善することを目的とする。 本手法をモデル非依存型マルチタスクファインチューニング(MAMF)と呼ぶ。 mamlと比較して、mamfは二段階最適化を捨て、一階勾配のみを使用するため、スケーラブルで計算効率がよい。 均一なタスクサンプリング手順により、MAMFは5つのベンチマークデータセット上で、数ショット転送学習のための古典的な微調整法より一貫して優れている。 経験的に, 1次mamlの有効性は事前学習したモデルのゼロショット性能に大きく依存しており, 単純なアルゴリズムでは, ゼロショット性能の低いより難しいデータセットに対して1次mamlを上回ることができる。

Despite achieving state-of-the-art zero-shot performance, existing vision-language models, e.g., CLIP, still fall short of domain-specific classification tasks, e.g., Fungi Classification. In the context of few-shot transfer learning, traditional fine-tuning fails to prevent highly expressive model from exploiting spurious correlations in the training data. On the other hand, although model-agnostic meta-learning (MAML) presents as a natural alternative for transfer learning, the expensive computation due to implicit second-order optimization limits its use in large-scale models and datasets. In this work we aim to further improve the generalization of existing vision-language models on unseen tasks via a simple yet efficient fine-tuning strategy based on uniform task sampling. We term our method as Model-Agnostic Multitask Fine-tuning (MAMF). Compared with MAML, MAMF discards the bi-level optimization and uses only first-order gradients, which makes it easily scalable and computationally efficient. Due to the uniform task sampling procedure, MAMF consistently outperforms the classical fine-tuning method for few-shot transfer learning on five benchmark datasets. Empirically, we further discover that the effectiveness of first-order MAML is highly dependent on the zero-shot performance of the pretrained model, and our simple algorithm can outperform first-order MAML on more challenging datasets with low zero-shot performance.
翻訳日:2022-03-10 18:49:57 公開日:2022-03-09
# (参考訳) DUAL:音声離散単位適応学習によるテキストレス音声質問応答 [全文訳有]

DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning ( http://arxiv.org/abs/2203.04911v1 )

ライセンス: CC BY 4.0
Guan-Ting Lin, Yung-Sung Chuang, Ho-Lam Chung, Shu-wen Yang, Hsuan-Jui Chen, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, Lin-shan Lee(参考訳) 音声質問応答(sqa)は近年,研究の注目を集め,著しい進歩を遂げている。 しかし,既存のSQA手法は,収集に要する時間的・コスト的制約である自動音声認識(ASR)の転写に依存している。 本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。 DAULは、音声文書から音声応答の時間間隔を直接予測することができる。 また、実シナリオでSQAをテストするために、Natural Multi-Speaker Spoken Question Answering (NMSQA) という新しいSQAベンチマークコーパスもリリースした。 実験の結果, DUALはカスケードアプローチ(ASR+テキストQA)と競合し, DUALは実世界の音声に対して堅牢であることがわかった。 私たちは、コミュニティからより多くのSQAイノベーションを刺激するために、コードとモデルをオープンソースにします。

Spoken Question Answering (SQA) has gained research attention and made remarkable progress in recent years. However, existing SQA methods rely on Automatic Speech Recognition (ASR) transcripts, which are time and cost-prohibitive to collect. This work proposes an ASR transcript-free SQA framework named Discrete Unit Adaptive Learning (DUAL), which leverages unlabeled data for pre-training and is fine-tuned by the SQA downstream task. DAUL can directly predict the time interval of the spoken answer from the spoken document. We also release a new SQA benchmark corpus Natural Multi-speaker Spoken Question Answering (NMSQA) for testing SQA in realistic scenarios. The experimental results show that DUAL performs competitively with the cascade approach (ASR + text QA), and DUAL is robust to real-world speech. We will open-source our code and model to inspire more SQA innovations from the community
翻訳日:2022-03-10 18:37:05 公開日:2022-03-09
# (参考訳) 値の欠如による時系列のモニタリング:深い確率的アプローチ [全文訳有]

Monitoring Time Series With Missing Values: a Deep Probabilistic Approach ( http://arxiv.org/abs/2203.04916v1 )

ライセンス: CC BY 4.0
Oshri Barazani, David Tolpin(参考訳) システムは通常、多変量時系列の収集とストリーミングを通じて、健康とセキュリティのために監視される。 多層リカレントニューラルネットワークアーキテクチャの導入による時系列予測の進歩により、トレンドの微妙な変化に基づいて、高次元時系列で予測し、新規性を早期に特定および分類することが可能になった。 しかしながら、多変量時系列予測に対する主流なアプローチは、進行中の予測が不確実性を含む必要がある場合や、データの欠落に対して堅牢な場合をうまく処理しない。 我々は,不確実性の完全な確率的処理を伴う高次元時系列予測の最先端手法を組み合わせた,時系列監視のための新しいアーキテクチャを提案する。 時系列予測と新規性検出のアーキテクチャの利点を,特に部分的に欠落したデータを用いて実証し,実世界のデータセットに対する最先端のアプローチと比較した。

Systems are commonly monitored for health and security through collection and streaming of multivariate time series. Advances in time series forecasting due to adoption of multilayer recurrent neural network architectures make it possible to forecast in high-dimensional time series, and identify and classify novelties early, based on subtle changes in the trends. However, mainstream approaches to multi-variate time series predictions do not handle well cases when the ongoing forecast must include uncertainty, nor they are robust to missing data. We introduce a new architecture for time series monitoring based on combination of state-of-the-art methods of forecasting in high-dimensional time series with full probabilistic handling of uncertainty. We demonstrate advantage of the architecture for time series forecasting and novelty detection, in particular with partially missing data, and empirically evaluate and compare the architecture to state-of-the-art approaches on a real-world data set.
翻訳日:2022-03-10 18:24:14 公開日:2022-03-09
# (参考訳) 重病患者に対する高リスク意思決定において解釈可能な因果推論が重要である理由とその方法

Why Interpretable Causal Inference is Important for High-Stakes Decision Making for Critically Ill Patients and How To Do It ( http://arxiv.org/abs/2203.04920v1 )

ライセンス: CC BY 4.0
Harsh Parikh, Kentaro Hoffman, Haoqi Sun, Wendong Ge, Jin Jing, Rajesh Amerineni, Lin Liu, Jimeng Sun, Sahar Zafar, Aaron Struck, Alexander Volfovsky, Cynthia Rudin, M. Brandon Westover(参考訳) 医師は、医療状況や薬物の因果的影響が絡み合っているため、リスクの高い医療状況や治療の効果を簡単に見積もることができない。 高い次元の観察的因果推論のための十分な高品質のデータはなく、rctは倫理的に実行できないことが多い。 However, mechanistic knowledge is available, including how drugs are absorbed into the body, and the combination of this knowledge with the limited data could potentially suffice -- if we knew how to combine them. In this work, we present a framework for interpretable estimation of causal effects for critically ill patients under exactly these complex conditions: interactions between drugs and observations over time, patient data sets that are not large, and mechanistic knowledge that can substitute for lack of data. We apply this framework to an extremely important problem affecting critically ill patients, namely the effect of seizures and other potentially harmful electrical events in the brain (called epileptiform activity -- EA) on outcomes. データの高利得と高ノイズを考えると、複雑な問題への対処には解釈可能性が不可欠である。 一致したグループの解釈可能性により、神経学者は私たちの因果解析の質を検証するためにチャートレビューを行うことができた。 例えば、私たちの研究は、高レベルの発作様活動(75%のEA負荷)を経験し、6時間窓の治療を受けていない患者が、平均すると、重度の脳損傷、生涯障害、死亡などの有害な結果の確率が16.7%上昇していることを示している。 軽度ながら長期にわたるEA(平均EA負荷>50%)の患者は、副作用のリスクが11.2%増加した。

Many fundamental problems affecting the care of critically ill patients lead to similar analytical challenges: physicians cannot easily estimate the effects of at-risk medical conditions or treatments because the causal effects of medical conditions and drugs are entangled. They also cannot easily perform studies: there are not enough high-quality data for high-dimensional observational causal inference, and RCTs often cannot ethically be conducted. However, mechanistic knowledge is available, including how drugs are absorbed into the body, and the combination of this knowledge with the limited data could potentially suffice -- if we knew how to combine them. In this work, we present a framework for interpretable estimation of causal effects for critically ill patients under exactly these complex conditions: interactions between drugs and observations over time, patient data sets that are not large, and mechanistic knowledge that can substitute for lack of data. We apply this framework to an extremely important problem affecting critically ill patients, namely the effect of seizures and other potentially harmful electrical events in the brain (called epileptiform activity -- EA) on outcomes. Given the high stakes involved and the high noise in the data, interpretability is critical for troubleshooting such complex problems. Interpretability of our matched groups allowed neurologists to perform chart reviews to verify the quality of our causal analysis. For instance, our work indicates that a patient who experiences a high level of seizure-like activity (75% high EA burden) and is untreated for a six-hour window, has, on average, a 16.7% increased chance of adverse outcomes such as severe brain damage, lifetime disability, or death. We find that patients with mild but long-lasting EA (average EA burden >= 50%) have their risk of an adverse outcome increased by 11.2%.
翻訳日:2022-03-10 18:15:33 公開日:2022-03-09
# (参考訳) 動き・感情・関係性を考慮した三角文字アニメーションサンプリング [全文訳有]

Triangular Character Animation Sampling with Motion, Emotion, and Relation ( http://arxiv.org/abs/2203.04930v1 )

ライセンス: CC BY 4.0
Yizhou Zhao, Liang Qiu, Wensi Ai, Pan Lu, Song-Chun Zhu(参考訳) 個々のキャラクターのアニメーション化は劇的な進歩を遂げている。 しかし、文字間のアクティビティ、特にインタラクションに関するアクティビティに対する自動制御は、まだ不十分です。 本稿では,キャラクターの身体の動き,表情,社会的関係を関連づけることで,アニメーションのサンプリングと合成を行う新しいエネルギーベースフレームワークを提案する。 本研究では,確率的文法モデルである空間時間アンドオーグラフ(ST-AOG)を提案し,動き,感情,関係の文脈的関係を符号化し,条件付きランダムフィールドで三角形を形成する。 2文字インタラクションのラベル付きデータセットからモデルをトレーニングします。 実験により,本手法は2文字間の社会的関係を認識し,マルコフ・チェイン・モンテカルロ(MCMC)を用いて鮮明な動きと感情の新たな場面をサンプリングできることが示された。 そこで本手法では,3次元キャラクタアニメーションの自動生成,非プレーヤキャラクタ(NPC)間のインタラクションの合成,バーチャルリアリティ(VR)におけるマシン感情インテリジェンス(EQ)の強化を実現する。

Dramatic progress has been made in animating individual characters. However, we still lack automatic control over activities between characters, especially those involving interactions. In this paper, we present a novel energy-based framework to sample and synthesize animations by associating the characters' body motions, facial expressions, and social relations. We propose a Spatial-Temporal And-Or graph (ST-AOG), a stochastic grammar model, to encode the contextual relationship between motion, emotion, and relation, forming a triangle in a conditional random field. We train our model from a labeled dataset of two-character interactions. Experiments demonstrate that our method can recognize the social relation between two characters and sample new scenes of vivid motion and emotion using Markov Chain Monte Carlo (MCMC) given the social relation. Thus, our method can provide animators with an automatic way to generate 3D character animations, help synthesize interactions between Non-Player Characters (NPCs), and enhance machine emotion intelligence (EQ) in virtual reality (VR).
翻訳日:2022-03-10 17:59:51 公開日:2022-03-09
# (参考訳) FDD大規模MIMOシステムにおけるダウンリンクチャネル推定のための深部生成モデル

Deep Generative Models for Downlink Channel Estimation in FDD Massive MIMO Systems ( http://arxiv.org/abs/2203.04935v1 )

ライセンス: CC BY 4.0
Javad Mirzaei, Shahram ShahbazPanahi, Raviraj Adve, Navaneetha Gopal(参考訳) 周波数分割二重化 (fdd) 大量多入力多重出力 (mimo) システムにおけるダウンリンクチャネル状態情報取得は, トレーニングやフィードバックのオーバーヘッドが大きいため困難である。 本稿では,この課題に対処する深層生成モデル(DGM)に基づく手法を提案する。 アップリンクチャネルとダウンリンクチャネルの部分的相互性を明らかにすることで、アップリンクとダウンリンクの両方でよく見られるため、まず、アップリンクとダウンリンクの両方で、経路ゲイン、遅延、角度(AoAs)および角度(AoD)の周波数非依存のチャネルパラメータを推定する。 そして、非常に短い訓練信号を用いてダウンリンク訓練により、周波数特異的なチャネルパラメータ、すなわち各伝搬経路の位相を推定する。 最初のステップでは、チャネルパラメータの下位分布を事前分布として、チャネル推定アルゴリズムに組み込む。 私たちはDGMを使ってこの分布を学習します。 シミュレーションの結果,提案したDGMを用いたチャネル推定手法は,信号-雑音比(SNR)における従来のチャネル推定手法よりも優れていた。 さらに、少数のダウンリンクパイロット測定を用いて、ほぼ最適性能を達成する。

It is well accepted that acquiring downlink channel state information in frequency division duplexing (FDD) massive multiple-input multiple-output (MIMO) systems is challenging because of the large overhead in training and feedback. In this paper, we propose a deep generative model (DGM)-based technique to address this challenge. Exploiting the partial reciprocity of uplink and downlink channels, we first estimate the frequency-independen t underlying channel parameters, i.e., the magnitudes of path gains, delays, angles-of-arrivals (AoAs) and angles-of-departures (AoDs), via uplink training, since these parameters are common in both uplink and downlink. Then, the frequency-specific underlying channel parameters, namely, the phase of each propagation path, are estimated via downlink training using a very short training signal. In the first step, we incorporate the underlying distribution of the channel parameters as a prior into our channel estimation algorithm. We use DGMs to learn this distribution. Simulation results indicate that our proposed DGM-based channel estimation technique outperforms, by a large gap, the conventional channel estimation techniques in practical ranges of signal-to-noise ratio (SNR). In addition, a near-optimal performance is achieved using only few downlink pilot measurements.
翻訳日:2022-03-10 17:47:37 公開日:2022-03-09
# (参考訳) 学習データにおけるトレンドの同定による可視化レコメンダのバイアスへの対処:群集フィードの統計的分析によるVizMLの改善 [全文訳有]

Addressing Bias in Visualization Recommenders by Identifying Trends in Training Data: Improving VizML Through a Statistical Analysis of the Plotly Community Feed ( http://arxiv.org/abs/2203.04937v1 )

ライセンス: CC BY 4.0
Allen Tu, Priyanka Mehta, Alexander Wu, Nandhini Krishnan, Amar Mujumdar(参考訳) 機械学習は、高いスケーラビリティと表現力のために、可視化の推奨に有望なアプローチである。 研究者は、データセットと視覚化例のコーパスでトレーニングすることで、入力データから可視化を予測するニューラルネットワークを作成することができる。 しかし、これらの機械学習モデルは、トレーニングデータの傾向を反映し、パフォーマンスに悪影響を及ぼす可能性がある。 本研究は,統計的解析によりトレーニングデータの傾向を特定することで,機械学習可視化推薦システムにおけるトレーニングバイアスに対処することを目的とする。

Machine learning is a promising approach to visualization recommendation due to its high scalability and representational power. Researchers can create a neural network to predict visualizations from input data by training it over a corpus of datasets and visualization examples. However, these machine learning models can reflect trends in their training data that may negatively affect their performance. Our research project aims to address training bias in machine learning visualization recommendation systems by identifying trends in the training data through statistical analysis.
翻訳日:2022-03-10 17:46:37 公開日:2022-03-09
# (参考訳) モデル予測制御のための時間差学習 [全文訳有]

Temporal Difference Learning for Model Predictive Control ( http://arxiv.org/abs/2203.04955v1 )

ライセンス: CC BY 4.0
Nicklas Hansen, Xiaolong Wang, Hao Su(参考訳) データ駆動型モデル予測制御は、モデルフリーな手法よりも2つの大きな利点がある。 しかし、長い地平線を計画することは費用がかかり、環境の正確なモデルを得ることは困難である。 本研究では,モデルフリー手法とモデルベース手法の長所を組み合わせる。 短時間の地平線上での局所軌道最適化には,学習タスク指向潜在力学モデルを用い,学習終端値関数を用いて,時間差分学習によって共に学習される長期回帰を推定する。 本手法は,DMControlやMeta-Worldといった画像ベース連続制御タスクの事前作業よりも,より優れたサンプル効率と漸近性能を実現する。 コードとビデオの結果はhttps://nicklashanse n.github.io/td-mpcで確認できる。

Data-driven model predictive control has two key advantages over model-free methods: a potential for improved sample efficiency through model learning, and better performance as computational budget for planning increases. However, it is both costly to plan over long horizons and challenging to obtain an accurate model of the environment. In this work, we combine the strengths of model-free and model-based methods. We use a learned task-oriented latent dynamics model for local trajectory optimization over a short horizon, and use a learned terminal value function to estimate long-term return, both of which are learned jointly by temporal difference learning. Our method, TD-MPC, achieves superior sample efficiency and asymptotic performance over prior work on both state and image-based continuous control tasks from DMControl and Meta-World. Code and video results are available at https://nicklashanse n.github.io/td-mpc.
翻訳日:2022-03-10 17:38:51 公開日:2022-03-09
# モンテカルロ木探索とリスク指標を用いた不確定環境における協調軌道計画

Cooperative Trajectory Planning in Uncertain Environments with Monte Carlo Tree Search and Risk Metrics ( http://arxiv.org/abs/2203.04452v1 )

ライセンス: Link先を確認
Philipp Stegmaier, Karl Kurzer, J. Marius Z\"ollner(参考訳) 自動走行車は、今日の交通にスムーズに統合するために、人間と協力する能力を必要とする。 協調の概念はよく知られているが、堅牢で効率的な協調軌道計画法の開発は依然として課題である。 この課題の1つの側面は、センサーの精度が制限されているため、環境の状態を囲む不確実性である。 この不確実性は、部分的に観測可能なマルコフ決定プロセスによって表される。 本研究は,モンテカルロ木探索に基づく協調軌道計画手法を連続行動空間に拡張することにより,この問題に対処する。 ルート信念状態の形で不確実性を明示的にモデル化し、そこから木の開始状態がサンプリングされる。 木がモンテカルロ木探索で構築された後、その結果はカーネル回帰を用いて返却分布に集約される。 最終選択には,信頼性の低下とリスク条件値の2つのリスク指標を適用する。 最終選択政策におけるリスクメトリクスの統合は、不確実な環境におけるベースラインを一貫して上回り、より安全な軌道を生成することが証明できる。

Automated vehicles require the ability to cooperate with humans for a smooth integration into today's traffic. While the concept of cooperation is well known, the development of a robust and efficient cooperative trajectory planning method is still a challenge. One aspect of this challenge is the uncertainty surrounding the state of the environment due to limited sensor accuracy. This uncertainty can be represented by a Partially Observable Markov Decision Process. Our work addresses this problem by extending an existing cooperative trajectory planning approach based on Monte Carlo Tree Search for continuous action spaces. It does so by explicitly modeling uncertainties in the form of a root belief state, from which start states for trees are sampled. After the trees have been constructed with Monte Carlo Tree Search, their results are aggregated into return distributions using kernel regression. For the final selection, we apply two risk metrics, namely a Lower Confidence Bound and a Conditional Value at Risk. It can be demonstrated that the integration of risk metrics in the final selection policy consistently outperforms a baseline in uncertain environments, generating considerably safer trajectories.
翻訳日:2022-03-10 17:05:15 公開日:2022-03-09
# フィールドエンハンスド強化学習によるマルチロボット協調学習

Multi-robot Cooperative Pursuit via Potential Field-Enhanced Reinforcement Learning ( http://arxiv.org/abs/2203.04700v1 )

ライセンス: Link先を確認
Zheng Zhang, Xiaohan Wang, Qingrui Zhang, and Tianjiang Hu(参考訳) ローカルな観察に照らして、分散した方法で脱走者を狩猟する集団ロボットを協調させることは、有望ではあるが、大きな課題である。 本稿では,強化学習と人工電位場法を組み合わせたハイブリッド協調探索アルゴリズムにより,本課題に対処する。 提案アルゴリズムでは,動的環境に適応する協調的追従政策を学習するために,分散強化学習を用いる。 人工電位場法は、データ効率と一般化能力を改善するために予め定義されたルールとして学習プロセスに統合される。 数値シミュレーションにより,提案するハイブリッド設計は,バニラ強化学習から学習するか,ポテンシャル場法で設計した追跡方針を上回っていることが示された。 さらに,学習した追従ポリシーを実世界の移動ロボットに伝達することで実験を行う。 実験により,複数の協調的追跡戦略の学習における提案アルゴリズムの有効性と可能性を示す。

It is of great challenge, though promising, to coordinate collective robots for hunting an evader in a decentralized manner purely in light of local observations. In this paper, this challenge is addressed by a novel hybrid cooperative pursuit algorithm that combines reinforcement learning with the artificial potential field method. In the proposed algorithm, decentralized deep reinforcement learning is employed to learn cooperative pursuit policies that are adaptive to dynamic environments. The artificial potential field method is integrated into the learning process as predefined rules to improve the data efficiency and generalization ability. It is shown by numerical simulations that the proposed hybrid design outperforms the pursuit policies either learned from vanilla reinforcement learning or designed by the potential field method. Furthermore, experiments are conducted by transferring the learned pursuit policies into real-world mobile robots. Experimental results demonstrate the feasibility and potential of the proposed algorithm in learning multiple cooperative pursuit strategies.
翻訳日:2022-03-10 17:04:58 公開日:2022-03-09
# fMRI復号のためのグラフ畳み込みネットワークによる意味グラフ周波数の選択

Pruning Graph Convolutional Networks to select meaningful graph frequencies for fMRI decoding ( http://arxiv.org/abs/2203.04455v1 )

ライセンス: Link先を確認
Yassine El Ouahidi, Hugo Tessier, Giulia Lioi, Nicolas Farrugia, Bastien Pasdeloup and Vincent Gripon(参考訳) グラフ信号処理は、脳に関心のある領域における活動間の空間的依存関係を包含できるため、脳信号を操作する有望なフレームワークである。 本研究では,fMRI信号の復号化に最も有用なグラフ周波数について,より深く理解することに興味がある。 この目的のために,ディープラーニングアーキテクチャを導入し,プルーニング手法を適用してその周波数を自動的に識別する。 我々は、様々なデータセット、アーキテクチャ、グラフを実験し、低グラフ周波数がfMRIデコーディングにおいて常に最も重要なものとして認識されていることを示す。 この研究は、fmriの復号精度と解釈性を高めるために、グラフベースのメソッドをデプロイする方法に関する新しい洞察を提供すると信じています。

Graph Signal Processing is a promising framework to manipulate brain signals as it allows to encompass the spatial dependencies between the activity in regions of interest in the brain. In this work, we are interested in better understanding what are the graph frequencies that are the most useful to decode fMRI signals. To this end, we introduce a deep learning architecture and adapt a pruning methodology to automatically identify such frequencies. We experiment with various datasets, architectures and graphs, and show that low graph frequencies are consistently identified as the most important for fMRI decoding, with a stronger contribution for the functional graph over the structural one. We believe that this work provides novel insights on how graph-based methods can be deployed to increase fMRI decoding accuracy and interpretability.
翻訳日:2022-03-10 17:04:23 公開日:2022-03-09
# ニューラルフォワード・インテンシティ・ポアソン過程による気候と政治暴力の興奮因果関係の解明

Revealing the Excitation Causality between Climate and Political Violence via a Neural Forward-Intensity Poisson Process ( http://arxiv.org/abs/2203.04511v1 )

ライセンス: Link先を確認
Schyler C. Sun, Bailu Jin, Zhuangkun Wei, Weisi Guo(参考訳) 気候と政治暴力の因果関係は複雑なメカニズムで区切られている。 現在の量的因果モデルは1つ以上の仮定に依拠している:(1)気候ドライバは絶え間なく競合を発生させ、(2)因果メカニズムは競合生成パラメータと線形な関係を持ち、(3)事前分布を知らせるのに十分なデータがある。 しかし、紛争ドライバーは、しばしば暴力につながる社会変革プロセス(例えば、干ばつによって農業生産者が都市民兵に加わることを強制する)を興奮させるが、それ以上の気候効果は必ずしもさらなる暴力に寄与しない。 したがって、この分岐関係は非常に非線形であるだけでなく、高分解能モデリングの事前仮定をサポートするデータの欠如もしばしばある。 本稿では,神経前方伸縮ポアソン過程(neural forward-intensity poisson process, nfipp)モデルを提案することにより,上記の因果モデル課題を克服することを目的とする。 nfippは、気候変動による政治的暴力における潜在的非線形因果メカニズムを捉えるように設計されている一方で、ばらばらでタイミング不明なデータに頑健である。 我々の研究結果は過去20年間にわたって行われており、極端な気候現象と様々な国における政治的暴力との興奮に基づく因果関係が明らかになっている。 気候変動による紛争モデルの結果は、質的気候脆弱性指数と対比評価される。 さらに、予測可能性の向上または低下を図り、解釈を伝える上でドメインの専門知識の重要性を示す歴史的事象をラベル付けする。

The causal mechanism between climate and political violence is fraught with complex mechanisms. Current quantitative causal models rely on one or more assumptions: (1) the climate drivers persistently generate conflict, (2) the causal mechanisms have a linear relationship with the conflict generation parameter, and/or (3) there is sufficient data to inform the prior distribution. Yet, we know conflict drivers often excite a social transformation process which leads to violence (e.g., drought forces agricultural producers to join urban militia), but further climate effects do not necessarily contribute to further violence. Therefore, not only is this bifurcation relationship highly non-linear, there is also often a lack of data to support prior assumptions for high resolution modeling. Here, we aim to overcome the aforementioned causal modeling challenges by proposing a neural forward-intensity Poisson process (NFIPP) model. The NFIPP is designed to capture the potential non-linear causal mechanism in climate induced political violence, whilst being robust to sparse and timing-uncertain data. Our results span 20 recent years and reveal an excitation-based causal link between extreme climate events and political violence across diverse countries. Our climate-induced conflict model results are cross-validated against qualitative climate vulnerability indices. Furthermore, we label historical events that either improve or reduce our predictability gain, demonstrating the importance of domain expertise in informing interpretation.
翻訳日:2022-03-10 17:03:02 公開日:2022-03-09
# 反応運動生成のための正則化深手距離場

Regularized Deep Signed Distance Fields for Reactive Motion Generation ( http://arxiv.org/abs/2203.04739v1 )

ライセンス: Link先を確認
Puze Liu, Kuo Zhang, Davide Tateo, Snehal Jauhri, Jan Peters and Georgia Chalvatzaki(参考訳) 自律ロボットは現実世界の動的環境で動作し、狭い空間で人間と協調するべきである。 ロボットが構造されたラボや製造環境を離れることを可能にする重要な要素は、周囲の世界とのオンラインとリアルタイムの衝突を評価する能力だ。 距離に基づく制約は、ロボットがアクションを計画し、安全に行動し、人間とハードウェアの両方を保護するために基本となる。 しかし、異なるアプリケーションでは異なる距離分解能が必要となり、様々なヒューリスティックなアプローチによって距離場 w.r.t. 障害物の測定が行われ、計算コストが高く、動的障害物回避ユースケースでの使用を妨げている。 本研究では,高次元の多様体や人間のような調音体に対して微細な分解能を持たせながら,任意のスケールで滑らかな距離場を計算できる単一ニューラル暗黙関数ReDSDFを提案する。 共有作業空間における全身制御(WBC)と安全ロボットインタラクション(HRI)のための代表的タスクにおけるアプローチの有効性を示す。 最後に,移動マニピュレータロボットを用いたHRIハンドオーバタスクにおける実世界の応用概念の実証を行う。

Autonomous robots should operate in real-world dynamic environments and collaborate with humans in tight spaces. A key component for allowing robots to leave structured lab and manufacturing settings is their ability to evaluate online and real-time collisions with the world around them. Distance-based constraints are fundamental for enabling robots to plan their actions and act safely, protecting both humans and their hardware. However, different applications require different distance resolutions, leading to various heuristic approaches for measuring distance fields w.r.t. obstacles, which are computationally expensive and hinder their application in dynamic obstacle avoidance use-cases. We propose Regularized Deep Signed Distance Fields (ReDSDF), a single neural implicit function that can compute smooth distance fields at any scale, with fine-grained resolution over high-dimensional manifolds and articulated bodies like humans, thanks to our effective data generation and a simple inductive bias during training. We demonstrate the effectiveness of our approach in representative simulated tasks for whole-body control (WBC) and safe Human-Robot Interaction (HRI) in shared workspaces. Finally, we provide proof of concept of a real-world application in a HRI handover task with a mobile manipulator robot.
翻訳日:2022-03-10 17:02:18 公開日:2022-03-09
# DISCO: 包括的で説明可能な偽情報検出

DISCO: Comprehensive and Explainable Disinformation Detection ( http://arxiv.org/abs/2203.04928v1 )

ライセンス: Link先を確認
Dongqi Fu, Yikun Ban, Hanghang Tong, Ross Maciejewski, Jingrui He(参考訳) 偽情報を故意に広めて一般大衆に影響を及ぼし、政治的議題や金融市場の操作など、社会に対する偽情報の否定的な影響を指摘できる。 本稿では,複数の側面からの自動偽情報検出に係わる課題と進歩を特定し,DisCOと呼ばれる包括的かつ説明可能な偽情報検出フレームワークを提案する。 誤情報の多様性を利用し、予測の不透明性に対処する。 次に,実世界の偽ニュース検出タスクにおけるディスコの検出精度と説明の満足度を示す。 DISCOのデモビデオとソースコードが公開されている。 当社のデモは、識別、理解、説明可能性全体の制限に対処するための道を開くことを期待しています。

Disinformation refers to false information deliberately spread to influence the general public, and the negative impact of disinformation on society can be observed for numerous issues, such as political agendas and manipulating financial markets. In this paper, we identify prevalent challenges and advances related to automated disinformation detection from multiple aspects, and propose a comprehensive and explainable disinformation detection framework called DISCO. It leverages the heterogeneity of disinformation and addresses the prediction opaqueness. Then we provide a demonstration of DISCO on a real-world fake news detection task with satisfactory detection accuracy and explanation. The demo video and source code of DISCO is now publicly available. We expect that our demo could pave the way for addressing the limitations of identification, comprehension, and explainability as a whole.
翻訳日:2022-03-10 17:01:42 公開日:2022-03-09
# cmx:トランスフォーマーを用いたrgb-x意味セグメンテーションのためのクロスモーダル融合

CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers ( http://arxiv.org/abs/2203.04838v1 )

ライセンス: Link先を確認
Huayao Liu, Jiaming Zhang, Kailun Yang, Xinxin Hu, Rainer Stiefelhagen(参考訳) RGB画像のセマンティックセグメンテーションの性能は補足的モダリティから情報的特徴を活用することで向上することができる。 本稿では,rgb-xセマンティクスセグメンテーションのための視覚変換型クロスモーダル融合フレームワークcmxを提案する。 様々な不確かさを包含する異なるセンシングモダリティを一般化するために、包括的なクロスモーダル相互作用を提供するべきだと考える。 CMXは2つのストリームで構築され、RGB画像と相補的モダリティ(X-モダリティ)から特徴を抽出する。 各特徴抽出段階において,交叉型特徴整流モジュール (cm-frm) を設計し,他のモダリティから特徴を空間的およびチャネル的次元に組み合わせ,現在のモダリティの特徴を校正する。 修正された機能ペアでは、最終的なセマンティックな予測のために、機能融合モジュール(FFM)をデプロイします。 FFMは、長距離コンテキストの交換を可能にするクロスアテンション機構で構築され、グローバルレベルで両方のモダリティの機能を向上する。 大規模な実験により、CMXは様々なマルチモーダルの組み合わせに一般化され、4つのRGB-Depthベンチマーク、RGB-ThermalとRGB-Polarizationデータセットで最先端のパフォーマンスを達成する。 さらに,データ融合の汎用性を検討するために,イベントスケープデータセットに基づくrgbイベントセマンティクスセグメンテーションベンチマークを構築し,cmxが新たな最先端を設定する。 コードはhttps://github.com/h uaaaliu/RGBX_Semanti c_Segmentationで入手できる。

The performance of semantic segmentation of RGB images can be advanced by exploiting informative features from supplementary modalities. In this work, we propose CMX, a vision-transformer-b ased cross-modal fusion framework for RGB-X semantic segmentation. To generalize to different sensing modalities encompassing various uncertainties, we consider that comprehensive cross-modal interactions should be provided. CMX is built with two streams to extract features from RGB images and the complementary modality (X-modality). In each feature extraction stage, we design a Cross-Modal Feature Rectification Module (CM-FRM) to calibrate the feature of the current modality by combining the feature from the other modality, in spatial- and channel-wise dimensions. With rectified feature pairs, we deploy a Feature Fusion Module (FFM) to mix them for the final semantic prediction. FFM is constructed with a cross-attention mechanism, which enables exchange of long-range contexts, enhancing both modalities' features at a global level. Extensive experiments show that CMX generalizes to diverse multi-modal combinations, achieving state-of-the-art performances on four RGB-Depth benchmarks, as well as RGB-Thermal and RGB-Polarization datasets. Besides, to investigate the generalizability to dense-sparse data fusion, we establish a RGB-Event semantic segmentation benchmark based on the EventScape dataset, on which CMX sets the new state-of-the-art. Code is available at https://github.com/h uaaaliu/RGBX_Semanti c_Segmentation
翻訳日:2022-03-10 16:59:55 公開日:2022-03-09
# 検出と位置不確かさを用いたマルチエージェントアクティブサーチ

Multi-Agent Active Search using Detection and Location Uncertainty ( http://arxiv.org/abs/2203.04524v1 )

ライセンス: Link先を確認
Arundhati Banerjee, Ramina Ghods, Jeff Schneider(参考訳) アクティブサーチ(active search)とは、自律ロボット(agents)が、観察履歴に適応する意思決定アルゴリズムを用いて、探索空間内の興味のある対象(ターゲット)を検出するタスクである。 捜索救助任務、野生生物のパトロール、環境モニタリングに重要な用途がある。 アクティブ検索アルゴリズムは、検出の不確実性と位置不確実性という2つのタイプの不確実性と競合する必要がある。 以前の作業は、一般的にこれらのうちの1つに焦点を合わせ、他方を無視したり、エンジニアリングしたりしていました。 ロボット工学におけるより一般的なアプローチは、位置不確実性に注目し、検出確率を0または1に閾値付けすることで検出不確実性を取り除くことである。 一方,ターゲット位置の正確性を仮定し,検出の不確実性に注目することが,スパース信号処理文献では一般的である。 本研究では,目標検出と位置不確実性の両方を共同処理する推論手法を提案する。 次に、トンプソンサンプリングを用いて、単一のエージェントとマルチエージェント設定の両方で効率的な能動探索を可能にする決定アルゴリズムを構築する。 種々のエージェントやターゲットに対するシミュレーション実験を行い、我々の推論と決定アルゴリズムが、ターゲット検出と位置不確実性の両方を考慮に入れた競合するベースラインを上回っていることを示す。

Active search refers to the task of autonomous robots (agents) detecting objects of interest (targets) in a search space using decision making algorithms that adapt to the history of their observations. It has important applications in search and rescue missions, wildlife patrolling and environment monitoring. Active search algorithms must contend with two types of uncertainty: detection uncertainty and location uncertainty. Prior work has typically focused on one of these while ignoring or engineering away the other. The more common approach in robotics is to focus on location uncertainty and remove detection uncertainty by thresholding the detection probability to zero or one. On the other hand, it is common in the sparse signal processing literature to assume the target location is accurate and focus on the uncertainty of its detection. In this work, we propose an inference method to jointly handle both target detection and location uncertainty. We then build a decision making algorithm on this inference method that uses Thompson sampling to enable efficient active search in both the single agent and multi-agent settings. We perform experiments in simulation over varying number of agents and targets to show that our inference and decision making algorithms outperform competing baselines that only account for either target detection or location uncertainty.
翻訳日:2022-03-10 16:58:27 公開日:2022-03-09
# 多目的報酬一般化:ストックおよび暗号取引における選択アプリケーションのためのディープ強化学習の性能向上

Multi-Objective reward generalization: Improving performance of Deep Reinforcement Learning for selected applications in stock and cryptocurrency trading ( http://arxiv.org/abs/2203.04579v1 )

ライセンス: Link先を確認
Federico Cornalba, Constantin Disselkamp, Davide Scassola, Christopher Helf(参考訳) 株式および暗号通貨取引における多目的深層強化学習の可能性を検討する。 より具体的には、計算速度アップを補完し、累積報酬のディスカウント係数を学習プロセスに追加することにより、一般化された設定 \`a la fontaine と friedman arxiv:1809.06364(報酬重み付け機構は前もって指定されず、学習プロセスに組み込まれている)の上に構築する。 まず,得られた多目的アルゴリズムの一般化を検証し,その予測が対応する単目的戦略よりも安定であることを示す予備的な統計的証拠を提供する。 第2に,報奨機構が不十分な場合(非nullフィードバックが時間とともに頻繁に発生する場合)に,Multi-Objectiveアルゴリズムが対応するSingle-Objective戦略に対して明確なエッジを持つことを示す。 最後に,ディスカウント係数の一般化特性について考察する。 コード全体はオープンソースフォーマットで提供されています。

We investigate the potential of Multi-Objective, Deep Reinforcement Learning for stock and cryptocurrency trading. More specifically, we build on the generalized setting \`a la Fontaine and Friedman arXiv:1809.06364 (where the reward weighting mechanism is not specified a priori, but embedded in the learning process) by complementing it with computational speed-ups, and adding the cumulative reward's discount factor to the learning process. Firstly, we verify that the resulting Multi-Objective algorithm generalizes well, and we provide preliminary statistical evidence showing that its prediction is more stable than the corresponding Single-Objective strategy's. Secondly, we show that the Multi-Objective algorithm has a clear edge over the corresponding Single-Objective strategy when the reward mechanism is sparse (i.e., when non-null feedback is infrequent over time). Finally, we discuss the generalization properties of the discount factor. The entirety of our code is provided in open source format.
翻訳日:2022-03-10 16:58:07 公開日:2022-03-09
# ジェンダー識別における話者識別実験

Speaker Identification Experiments Under Gender De-Identification ( http://arxiv.org/abs/2203.04638v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Enric Sesa-Nogueras, Stefano Marinozzi(参考訳) 本研究は,マルチメディアコンテンツの識別のためのCOSTアクションIC1206に基づく。 音声認識器が失敗確率に等しい成功確率を持つ場合、ピッチの修正度を求めるために、音声性認識器における音声修正の4つのアルゴリズムをテストした。 本分析の目的は, 音声のトーン変化の強度, 品質, 可逆性, 変化の可逆性を評価することである。 キーワード識別; 音声アルゴリズム

The present work is based on the COST Action IC1206 for De-identification in multimedia content. It was performed to test four algorithms of voice modifications on a speech gender recognizer to find the degree of modification of pitch when the speech recognizer have the probability of success equal to the probability of failure. The purpose of this analysis is to assess the intensity of the speech tone modification, the quality, the reversibility and not-reversibility of the changes made. Keywords DeIdentification; Speech Algorithms
翻訳日:2022-03-10 16:57:46 公開日:2022-03-09
# 量子ニューラルネットワークの力場生成

Quantum neural networks force fields generation ( http://arxiv.org/abs/2203.04666v1 )

ライセンス: Link先を確認
Oriel Kiss, Francesco Tacchino, Sofia Vallecorsa and Ivano Tavernelli(参考訳) 分子動力学法を大規模に効率的に実装するためには, 正確な分子力場が重要である。 過去10年間で、機械学習の手法は、アブイニシアト法で生成された有限サイズのアンサンブルに基づいて訓練された場合、エネルギーと力の正確な値を予測するという素晴らしい性能を実証してきた。 同時に、量子コンピュータはそのような問題に対処するための新しい実行可能な計算パラダイムを提供し始めている。 一方、量子アルゴリズムは電子構造計算の範囲を広げるために特に用いられる可能性がある。 一方で、量子機械学習は、量子優位への代替的かつ有望な道として浮上している。 ここでは、この第2の経路に従い、ニューラルネットワークポテンシャルを学習するための古典解と量子解の直接接続を確立する。 この目的のために、量子ニューラルネットワークアーキテクチャを設計し、複雑さが増大する異なる分子にうまく適用します。 量子モデルは、古典的モデルに比べてより大きな有効次元を示し、競争性能に到達できるため、量子機械学習による自然科学応用において潜在的な量子優位性を指摘できる。

Accurate molecular force fields are of paramount importance for the efficient implementation of molecular dynamics techniques at large scales. In the last decade, machine learning methods have demonstrated impressive performances in predicting accurate values for energy and forces when trained on finite size ensembles generated with ab initio techniques. At the same time, quantum computers have recently started to offer new viable computational paradigms to tackle such problems. On the one hand, quantum algorithms may notably be used to extend the reach of electronic structure calculations. On the other hand, quantum machine learning is also emerging as an alternative and promising path to quantum advantage. Here we follow this second route and establish a direct connection between classical and quantum solutions for learning neural network potentials. To this end, we design a quantum neural network architecture and apply it successfully to different molecules of growing complexity. The quantum models exhibit larger effective dimension with respect to classical counterparts and can reach competitive performances, thus pointing towards potential quantum advantages in natural science applications via quantum machine learning.
翻訳日:2022-03-10 16:57:38 公開日:2022-03-09
# マイクログリッド安定化のための機械学習に基づく最適フィードバック制御

Machine Learning based Optimal Feedback Control for Microgrid Stabilization ( http://arxiv.org/abs/2203.04815v1 )

ライセンス: Link先を確認
Tianwei Xia, Kai Sun, Wei Kang(参考訳) マイクログリッドは、特に再生可能エネルギー資源を利用する場合、従来の電力網よりも運用上の柔軟性と不確実性を有する。 エネルギー記憶に基づくフィードバックコントローラは、マイクログリッドの望ましくないダイナミクスを補償して安定性を向上させることができる。 しかし、大きな障害を受けるマイクログリッドの最適フィードバック制御は、ハミルトン・ヤコビ・ベルマン問題を解く必要がある。 本稿では機械学習に基づく最適フィードバック制御方式を提案する。 そのトレーニングデータセットは、それぞれ小さな障害と大きな障害に対処するリニアクアクラティックレギュレータとブルートフォースメソッドから生成される。 そして、最適なフィードバック制御を目的としたデータから3層ニューラルネットワークを構築する。 提案する制御方式のリアルタイム性能をテストするために,修正クントール2領域システムに基づくマイクログリッドモデルについて事例研究を行った。

Microgrids have more operational flexibilities as well as uncertainties than conventional power grids, especially when renewable energy resources are utilized. An energy storage based feedback controller can compensate undesired dynamics of a microgrid to improve its stability. However, the optimal feedback control of a microgrid subject to a large disturbance needs to solve a Hamilton-Jacobi-Bell man problem. This paper proposes a machine learning-based optimal feedback control scheme. Its training dataset is generated from a linear-quadratic regulator and a brute-force method respectively addressing small and large disturbances. Then, a three-layer neural network is constructed from the data for the purpose of optimal feedback control. A case study is carried out for a microgrid model based on a modified Kundur two-area system to test the real-time performance of the proposed control scheme.
翻訳日:2022-03-10 16:56:53 公開日:2022-03-09
# 一般騒音分布に対する$\ell_0$攻撃下のバイナリ分類

Binary Classification Under $\ell_0$ Attacks for General Noise Distribution ( http://arxiv.org/abs/2203.04855v1 )

ライセンス: Link先を確認
Payam Delgosha and Hamed Hassani and Ramtin Pedarsani(参考訳) 逆の例は最近、データの小さな摂動がパフォーマンスの大幅な低下をもたらすという事実から、機械学習の分野でかなりの注目を集めている。 この現象は通常悪意のある敵によってモデル化され、特定の規範に縛られるような制約された方法でデータに摂動を適用することができる。 本稿では,この問題を,$\ell_0$ノルムに制約されている場合,すなわち,入力の一定数の座標を摂動することができるが,それらの座標を摂動できるかに制限はない。 この設定の組合せの性質のため、この問題に対処するためには、堅牢な機械学習の標準技術を超える必要がある。 我々は,真ラベルのノイズの多いデータサンプルを,逆方向の摂動の後に提示するバイナリ分類シナリオを考察する。 本稿では,非線形成分であるトランザクションを用いた分類法を紹介し,非漸近的シナリオにおいて,逆元が$\sqrt{d}$データサンプル以上の摂動に制限されている限り,逆元が存在しない場合に最適な分類誤差をほぼ達成できることを示す。 驚くべきことに、逆の議論を用いて位相遷移を観察すると、敵が$\sqrt{d}$座標以上を摂動できるなら、分類器はランダムな推測よりはうまくいかない。

Adversarial examples have recently drawn considerable attention in the field of machine learning due to the fact that small perturbations in the data can result in major performance degradation. This phenomenon is usually modeled by a malicious adversary that can apply perturbations to the data in a constrained fashion, such as being bounded in a certain norm. In this paper, we study this problem when the adversary is constrained by the $\ell_0$ norm; i.e., it can perturb a certain number of coordinates in the input, but has no limit on how much it can perturb those coordinates. Due to the combinatorial nature of this setting, we need to go beyond the standard techniques in robust machine learning to address this problem. We consider a binary classification scenario where $d$ noisy data samples of the true label are provided to us after adversarial perturbations. We introduce a classification method which employs a nonlinear component called truncation, and show in an asymptotic scenario, as long as the adversary is restricted to perturb no more than $\sqrt{d}$ data samples, we can almost achieve the optimal classification error in the absence of the adversary, i.e. we can completely neutralize adversary's effect. Surprisingly, we observe a phase transition in the sense that using a converse argument, we show that if the adversary can perturb more than $\sqrt{d}$ coordinates, no classifier can do better than a random guess.
翻訳日:2022-03-10 16:56:41 公開日:2022-03-09
# 分散平均推定と最適化のための相関量子化

Correlated quantization for distributed mean estimation and optimization ( http://arxiv.org/abs/2203.04925v1 )

ライセンス: Link先を確認
Ananda Theertha Suresh, Ziteng Sun, Jae Hun Ro, Felix Yu(参考訳) 通信制約下での分散平均推定と最適化の問題について検討する。 本稿では,誤差保証が絶対範囲ではなくデータ点の偏差に依存する相関量子化プロトコルを提案する。 この設計ではデータセットの濃度特性に関する事前の知識は必要ありません。 分散最適化アルゴリズムにおいて,提案プロトコルをサブルーチンとして適用することで,収束率の向上が期待できる。 また、軽度の仮定でプロトコルの最適性を証明する。 実験の結果,提案手法は,既存の平均推定プロトコルを様々なタスクで上回っていることがわかった。

We study the problem of distributed mean estimation and optimization under communication constraints. We propose a correlated quantization protocol whose error guarantee depends on the deviation of data points instead of their absolute range. The design doesn't need any prior knowledge on the concentration property of the dataset, which is required to get such dependence in previous works. We show that applying the proposed protocol as sub-routine in distributed optimization algorithms leads to better convergence rates. We also prove the optimality of our protocol under mild assumptions. Experimental results show that our proposed algorithm outperforms existing mean estimation protocols on a diverse set of tasks.
翻訳日:2022-03-10 16:56:14 公開日:2022-03-09
# 画像分類のためのRenyi Fair Information Bottleneck

Renyi Fair Information Bottleneck for Image Classification ( http://arxiv.org/abs/2203.04950v1 )

ライセンス: Link先を確認
Adam Gronowski and William Paul and Fady Alajaji and Bahman Gharesifard and Philippe Burlina(参考訳) 本研究では,Renyi Fair Information Bottleneck (RFIB) と呼ばれる機械学習における公正性を保証する新しい手法を開発した。 公平な表現を学習するための2つの異なるフェアネス制約 - 人口的パリティと均等化されたオッズ - を考察し、Renyiの発散を調節可能なパラメータ$\alpha$で利用し、実用性、公正性、表現のコンパクト性の3つの制約を考慮に入れた変分的アプローチにより損失関数を導出する。 そして,EyePACSの医用画像データセットを用いて画像分類法の性能を評価し,その精度とRawlsの最小精度を含む多種多種多種多種多様の実用/公正度測定値を用いて,技術技術の競合状態と性能を比較検討した。

We develop a novel method for ensuring fairness in machine learning which we term as the Renyi Fair Information Bottleneck (RFIB). We consider two different fairness constraints - demographic parity and equalized odds - for learning fair representations and derive a loss function via a variational approach that uses Renyi's divergence with its tunable parameter $\alpha$ and that takes into account the triple constraints of utility, fairness, and compactness of representation. We then evaluate the performance of our method for image classification using the EyePACS medical imaging dataset, showing it outperforms competing state of the art techniques with performance measured using a variety of compound utility/fairness metrics, including accuracy gap and Rawls' minimal accuracy.
翻訳日:2022-03-10 16:56:05 公開日:2022-03-09
# (参考訳) ImageNetの精度と知覚的類似性の間の驚くべきトレードオフについて [全文訳有]

On the surprising tradeoff between ImageNet accuracy and perceptual similarity ( http://arxiv.org/abs/2203.04946v1 )

ライセンス: CC BY 4.0
Manoj Kumar, Neil Houlsby, Nal Kalchbrenner, Ekin D. Cubuk(参考訳) 画像間の知覚距離は、事前訓練された深い特徴の空間で測定されるように、画像の類似性を評価するための低レベルのピクセルベースのメトリクスよりも優れている。 AlexNetやVGGのような古い精度の低いモデルが知覚的類似性を捉える能力はよく知られているが、近代的モデルやより正確なモデルはあまり研究されていない。 まず,イメージネットの精度と,resnet, efficientnets, vision transformersなどの現代的なネットワークの知覚スコアとの驚くべき逆相関を観察する。 次に,画像Netの精度と知覚スコアの関係について,深さ,幅,トレーニングステップ数,体重減少,ラベルの平滑化,ドロップアウトについて検討した。 高い精度は知覚スコアをある時点まで改善するが、中~高精度体制において、確率と知覚スコアの間のパレートフロンティアを明らかにする。 我々は、歪み不変性、空間周波数感度、代替知覚関数を用いて、この関係をさらに探究する。 興味深いことに、ImageNetでトレーニングされた5時間未満の浅いResNetは、監督された人間の知覚判断に基づいてトレーニングされた以前の最高のネットワークと一致している。

Perceptual distances between images, as measured in the space of pre-trained deep features, have outperformed prior low-level, pixel-based metrics on assessing image similarity. While the capabilities of older and less accurate models such as AlexNet and VGG to capture perceptual similarity are well known, modern and more accurate models are less studied. First, we observe a surprising inverse correlation between ImageNet accuracy and Perceptual Scores of modern networks such as ResNets, EfficientNets, and Vision Transformers: that is better classifiers achieve worse Perceptual Scores. Then, we perform a large-scale study and examine the ImageNet accuracy/Perceptual Score relationship on varying the depth, width, number of training steps, weight decay, label smoothing, and dropout. Higher accuracy improves Perceptual Score up to a certain point, but we uncover a Pareto frontier between accuracies and Perceptual Score in the mid-to-high accuracy regime. We explore this relationship further using distortion invariance, spatial frequency sensitivity, and alternative perceptual functions. Interestingly we discover shallow ResNets, trained for less than 5 epochs only on ImageNet, whose emergent Perceptual Score matches the prior best networks trained directly on supervised human perceptual judgements.
翻訳日:2022-03-10 16:53:12 公開日:2022-03-09
# CNNとGCNの融合による3次元顔アライメント

3D Dense Face Alignment with Fused Features by Aggregating CNNs and GCNs ( http://arxiv.org/abs/2203.04643v1 )

ライセンス: Link先を確認
Yanda Meng, Xu Chen, Dongxu Gao, Yitian Zhao, Xiaoyun Yang, Yihong Qiao, Xiaowei Huang and Yalin Zheng(参考訳) 本稿では,1つの2次元画像から3次元面の頂点の座標をエンドツーエンドに回帰する,新しい多レベルアグリゲーションネットワークを提案する。 これは標準畳み込みニューラルネットワーク(cnns)とグラフ畳み込みネットワーク(gcns)をシームレスに組み合わせて実現されている。 cnnとgcnsの異なる層とステージにまたがる特徴を反復的かつ階層的に融合することにより、3d顔メッシュの直接的特徴学習の利点を享受するために、顔アライメントと3d顔再構成を同時に行うことができる。 いくつかの挑戦的なデータセットの実験により、我々の手法は2次元および3次元の顔アライメントタスクにおける最先端のアプローチよりも優れていることが示された。

In this paper, we propose a novel multi-level aggregation network to regress the coordinates of the vertices of a 3D face from a single 2D image in an end-to-end manner. This is achieved by seamlessly combining standard convolutional neural networks (CNNs) with Graph Convolution Networks (GCNs). By iteratively and hierarchically fusing the features across different layers and stages of the CNNs and GCNs, our approach can provide a dense face alignment and 3D face reconstruction simultaneously for the benefit of direct feature learning of 3D face mesh. Experiments on several challenging datasets demonstrate that our method outperforms state-of-the-art approaches on both 2D and 3D face alignment tasks.
翻訳日:2022-03-10 16:27:25 公開日:2022-03-09
# 単一画像からの人間の顔の正常・可視性推定

Normal and Visibility Estimation of Human Face from a Single Image ( http://arxiv.org/abs/2203.04647v1 )

ライセンス: Link先を確認
Fuzhi Zhong, Rui Wang, Yuchi Huo, Hujun Bao(参考訳) 近年の人間固有の画像の研究は、入射照明の可視性を考慮し始め、球面調和による光伝達関数を符号化している。 本稿では,このような光伝達関数を,表面の正規性に関連する可視性と余弦項に分解することができることを示す。 このような分解により、可視性に加えて表面の正常性を取り戻すことができる。 本稿では,実世界画像の学習のための再構成損失を用いた深層学習手法を提案する。 以上の結果から,従来の作品と比較して,視認性効果が強い地域では,表面の正常さやシェーディングの詳細がよりよく明らかとなった。

Recent work on the intrinsic image of humans starts to consider the visibility of incident illumination and encodes the light transfer function by spherical harmonics. In this paper, we show that such a light transfer function can be further decomposed into visibility and cosine terms related to surface normal. Such decomposition allows us to recover the surface normal in addition to visibility. We propose a deep learning-based approach with a reconstruction loss for training on real-world images. Results show that compared with previous works, the reconstruction of human face from our method better reveals the surface normal and shading details especially around regions where visibility effect is strong.
翻訳日:2022-03-10 16:27:10 公開日:2022-03-09
# 不適切な事前学習モデルはより良い特徴外乱である

Inadequately Pre-trained Models are Better Feature Extractors ( http://arxiv.org/abs/2203.04668v1 )

ライセンス: Link先を確認
Andong Deng, Xingjian Li, Zhibing Li, Di Hu, Chengzhong Xu, Dejing Dou(参考訳) プレトレーニングは、ディープラーニング時代、特にアノテーション不足のシナリオにおいて、一般的な学習パラダイムである。 より優れたImageNet事前訓練モデルが、アーキテクチャの観点から、以前の研究で下流タスクへの転送性を改善するために実証されている。 しかし,本論文では,同じ事前学習過程において,機能抽出器 (FE) として使用する場合, 未訓練の中期のモデルでは十分に訓練されたモデルよりも優れ, 微調整 (FT) 性能は依然としてソース性能とともに向上することを示した。 これは、ImageNet上のトップ1精度とターゲットデータ上の転送結果との間には、確固とした正の相関がないことを明らかにする。 FEとFTの矛盾する現象に基づき,より優れた特徴抽出器の微調整を行なわず,ソフトマックス層以前の特徴を包括的に分析し,洞察に富んだ説明を行う。 我々の発見は、事前学習中、モデルはまず大きな特異値に対応するスペクトル成分を学習し、残差成分は微調整時により寄与することを示唆している。

Pre-training has been a popular learning paradigm in deep learning era, especially in annotation-insuffici ent scenario. Better ImageNet pre-trained models have been demonstrated, from the perspective of architecture, by previous research to have better transferability to downstream tasks. However, in this paper, we found that during the same pre-training process, models at middle epochs, which is inadequately pre-trained, can outperform fully trained models when used as feature extractors (FE), while the fine-tuning (FT) performance still grows with the source performance. This reveals that there is not a solid positive correlation between top-1 accuracy on ImageNet and the transferring result on target data. Based on the contradictory phenomenon between FE and FT that better feature extractor fails to be fine-tuned better accordingly, we conduct comprehensive analyses on features before softmax layer to provide insightful explanations. Our discoveries suggest that, during pre-training, models tend to first learn spectral components corresponding to large singular values and the residual components contribute more when fine-tuning.
翻訳日:2022-03-10 16:27:00 公開日:2022-03-09
# 人体再構成のための構造認識フロー生成

Structure-Aware Flow Generation for Human Body Reshaping ( http://arxiv.org/abs/2203.04670v1 )

ライセンス: Link先を確認
Jianqiang Ren, Yuan Yao, Biwen Lei, Miaomiao Cui, Xuansong Xie(参考訳) ボディリシェーピングは、ポートレート写真のリタッチにおいて重要な手順である。 人体の複雑な構造と多彩な外観のため、既存の手法はボディーモルファブルモデルを介して3dドメインにフォールバックするか、キーポイントベースの画像変形に頼り、非効率と不満足な視覚品質をもたらす。 本稿では,骨格や部品親和性フィールドなどの体の構造的事前の指導の下で,エンドツーエンドのフロー生成アーキテクチャを定式化し,任意のポーズや衣服による前例のない制御性能を実現することにより,これらの制約に対処する。 視覚の知覚相関と人体の構造相関の両方を捉えて、関連部位間の操作一貫性を強化する構成的注意機構を導入する。 包括的評価のために,5000枚の肖像画と専門的な修正対象を含むBR-5Kという,最初の大規模ボディーリフォームデータセットを構築した。 広範な実験により,我々のアプローチは,視覚性能,制御性,効率の点で,既存の最先端手法を大きく上回っていることが示された。 データセットは当社のwebサイトで利用可能です。 https://github.com/j ianqiangren/bodyresh aping5k。

Body reshaping is an important procedure in portrait photo retouching. Due to the complicated structure and multifarious appearance of human bodies, existing methods either fall back on the 3D domain via body morphable model or resort to keypoint-based image deformation, leading to inefficiency and unsatisfied visual quality. In this paper, we address these limitations by formulating an end-to-end flow generation architecture under the guidance of body structural priors, including skeletons and Part Affinity Fields, and achieve unprecedentedly controllable performance under arbitrary poses and garments. A compositional attention mechanism is introduced for capturing both visual perceptual correlations and structural associations of the human body to reinforce the manipulation consistency among related parts. For a comprehensive evaluation, we construct the first large-scale body reshaping dataset, namely BR-5K, which contains 5,000 portrait photos as well as professionally retouched targets. Extensive experiments demonstrate that our approach significantly outperforms existing state-of-the-art methods in terms of visual performance, controllability, and efficiency. The dataset is available at our website: https://github.com/J ianqiangRen/BodyResh aping5K.
翻訳日:2022-03-10 16:26:41 公開日:2022-03-09
# flexit: 柔軟なセマンティック画像翻訳を目指して

FlexIT: Towards Flexible Semantic Image Translation ( http://arxiv.org/abs/2203.04705v1 )

ライセンス: Link先を確認
Guillaume Couairon and Asya Grechka and Jakob Verbeek and Holger Schwenk and Matthieu Cord(参考訳) GANのような深層生成モデルは、画像合成における技術状況を大幅に改善し、人間の顔のような構造化領域で近距離の写実画像を生成することができる。 この成功に基づいて、画像編集に関する最近の研究は、画像がGAN潜在空間に投影され、潜在ベクトルを操作することによって進められている。 しかし、これらのアプローチは、狭い領域の画像のみを変換でき、限られた数の編集操作しかできないという点で制限されている。 我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。 本手法は,セマンティック画像翻訳の限界を押し上げ,フレキシブルかつ自然な編集を実現する。 まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。 オートエンコーダの潜在空間を用いて、入力画像を目標点に向けて反復的に変換し、新しい正規化項の一貫性と品質を確保する。 本稿では,セマンティック画像翻訳のための評価プロトコルを提案し,imagenet上での手法を徹底的に評価する。 コードは公開される予定だ。

Deep generative models, like GANs, have considerably improved the state of the art in image synthesis, and are able to generate near photo-realistic images in structured domains such as human faces. Based on this success, recent work on image editing proceeds by projecting images to the GAN latent space and manipulating the latent vector. However, these approaches are limited in that only images from a narrow domain can be transformed, and with only a limited number of editing operations. We propose FlexIT, a novel method which can take any input image and a user-defined text instruction for editing. Our method achieves flexible and natural editing, pushing the limits of semantic image translation. First, FlexIT combines the input image and text into a single target point in the CLIP multimodal embedding space. Via the latent space of an auto-encoder, we iteratively transform the input image toward the target point, ensuring coherence and quality with a variety of novel regularization terms. We propose an evaluation protocol for semantic image translation, and thoroughly evaluate our method on ImageNet. Code will be made publicly available.
翻訳日:2022-03-10 16:26:23 公開日:2022-03-09
# ハイパースペクトル画像分類のための中心マスク前処理によるマルチスケール畳み込み変換器

Multiscale Convolutional Transformer with Center Mask Pretraining for Hyperspectral Image Classificationtion ( http://arxiv.org/abs/2203.04771v1 )

ライセンス: Link先を確認
Yifan Wang, Sen Jia, Zhongfan Zhang(参考訳) ハイパースペクトラル画像(hsi)は広汎なマクロ視野を持つだけでなく、スペクトル情報も豊富に含むため、ハイパースペクトラル画像関連研究の主要な応用の一つであるスペクトル情報によって表面オブジェクトの種類を識別できる。近年では、畳み込みニューラルネットワーク(cnn)が最も影響力のある深層学習手法が提案されている。 しかし, CNN を用いた手法は, 長距離依存の捕捉が困難であり, モデルトレーニングに大量のラベル付きデータを必要とするため, HSI 分類分野における自己教師付き学習手法の多くは, 入力サンプルの再構成に基づいており, ラベルなしサンプルの有効利用は困難である。 CNNネットワークの欠点に対処するために,トランスフォーマーネットワークとよりうまく結合可能な空間スペクトル情報の効率的な抽出を実現するために,HSI のための高速なマルチスケール畳み込み組込みモジュールを提案する。 マスクオートエンコーダと同様に、我々の事前学習法は、エンコーダ内の中央画素の対応するトークンのみをマスクし、残りのトークンをデコーダに入力して中央画素のスペクトル情報を再構成する。

Hyperspectral images (HSI) not only have a broad macroscopic field of view but also contain rich spectral information, and the types of surface objects can be identified through spectral information, which is one of the main applications in hyperspectral image related research.In recent years, more and more deep learning methods have been proposed, among which convolutional neural networks (CNN) are the most influential. However, CNN-based methods are difficult to capture long-range dependencies, and also require a large amount of labeled data for model training.Besides, most of the self-supervised training methods in the field of HSI classification are based on the reconstruction of input samples, and it is difficult to achieve effective use of unlabeled samples. To address the shortcomings of CNN networks, we propose a noval multi-scale convolutional embedding module for HSI to realize effective extraction of spatial-spectral information, which can be better combined with Transformer network.In order to make more efficient use of unlabeled data, we propose a new self-supervised pretask. Similar to Mask autoencoder, but our pre-training method only masks the corresponding token of the central pixel in the encoder, and inputs the remaining token into the decoder to reconstruct the spectral information of the central pixel.Such a pretask can better model the relationship between the central feature and the domain feature, and obtain more stable training results.
翻訳日:2022-03-10 16:26:06 公開日:2022-03-09
# 強靭な周期生成対向ネットワークとマルチタスク学習支援深度推定に基づく霧気候における高精度自己監督型単眼視覚計測

A high-precision self-supervised monocular visual odometry in foggy weather based on robust cycled generative adversarial networks and multi-task learning aided depth estimation ( http://arxiv.org/abs/2203.04812v1 )

ライセンス: Link先を確認
Xiuyuan Li, Jiangang Yu, Fengchao Li, Guowen An(参考訳) 本稿では,霧の多い天候下での航法用に特別に設計された高精度自己教師付き単眼型voを提案する。 サイクル生成対向ネットワークは、前と後ろの半サイクルに一貫した推定を強制することで高品質な自己監督損失を得るように設計されている。 さらに,霧の天候下での自己監督的損失に対する複雑な光度変化の干渉を取り除くために,勾配に基づく損失と知覚的損失を導入する。 深度推定の問題点を解決するために,霧の天候下での湿地画像の深度推定と送信マップ計算との強い相関関係に基づいて,自己教師付きマルチタスク学習支援深度推定モジュールを設計する。 合成フォギーキッティデータセットを用いた実験の結果,提案する自己教師付き単眼型voは,他の最先端単眼型voよりも奥行きとポーズ推定が良好であることが判明した。

This paper proposes a high-precision self-supervised monocular VO, which is specifically designed for navigation in foggy weather. A cycled generative adversarial network is designed to obtain high-quality self-supervised loss via forcing the forward and backward half-cycle to output consistent estimation. Moreover, gradient-based loss and perceptual loss are introduced to eliminate the interference of complex photometric change on self-supervised loss in foggy weather. To solve the ill-posed problem of depth estimation, a self-supervised multi-task learning aided depth estimation module is designed based on the strong correlation between the depth estimation and transmission map calculation of hazy images in foggy weather. The experimental results on the synthetic foggy KITTI dataset show that the proposed self-supervised monocular VO performs better in depth and pose estimation than other state-of-the-art monocular VO in the literature, indicating the designed method is more suitable for foggy weather.
翻訳日:2022-03-10 16:23:57 公開日:2022-03-09
# 共振器を用いた高精度水中物体検出と空間変圧器ネットワークの改善

A high-precision underwater object detection based on joint self-supervised deblurring and improved spatial transformer network ( http://arxiv.org/abs/2203.04822v1 )

ライセンス: Link先を確認
Xiuyuan Li, Fengchao Li, Jiangang Yu, Guowen An(参考訳) 深層学習に基づく水中物体検出(UOD)は、様々な視点から得られた十分な水中物体画像を得るのが困難であるため、依然として大きな課題である。 これらの課題に対処するために,共同自己監督型デブロアリングと空間トランスフォーマネットワークの改良に基づく高精度UDDを提案する。 設計したマルチタスク学習支援オブジェクト検出アーキテクチャに自己教師付きデブロアリングサブネットを導入し、共有特徴抽出モジュールに検出サブネットのクリーンな特徴を出力させる。 異なる視点からの不備な写真の制限を軽減するため、空間トランスフォーマーネットワークを改良し、視点変換に基づいてネットワーク内の画像特徴を適応的に強化する。 実験の結果, URPC2017では47.9 mAP, URPC2018では70.3 mAPを達成し, 最先端の UOD 法よりも高い性能を示した。

Deep learning-based underwater object detection (UOD) remains a major challenge due to the degraded visibility and difficulty to obtain sufficient underwater object images captured from various perspectives for training. To address these issues, this paper presents a high-precision UOD based on joint self-supervised deblurring and improved spatial transformer network. A self-supervised deblurring subnetwork is introduced into the designed multi-task learning aided object detection architecture to force the shared feature extraction module to output clean features for detection subnetwork. Aiming at alleviating the limitation of insufficient photos from different perspectives, an improved spatial transformer network is designed based on perspective transformation, adaptively enriching image features within the network. The experimental results show that the proposed UOD approach achieved 47.9 mAP in URPC2017 and 70.3 mAP in URPC2018, outperforming many state-of-the-art UOD methods and indicating the designed method is more suitable for UOD.
翻訳日:2022-03-10 16:23:37 公開日:2022-03-09
# ハイパースペクトル画像再構成のための粗対有限スパース変換器

Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction ( http://arxiv.org/abs/2203.04845v1 )

ライセンス: Link先を確認
Jing Lin, Yuanhao Cai, Xiaowan Hu, Haoqian Wang, Xin Yuan, Yulun Zhang, Radu Timofte, Luc Van Gool(参考訳) 符号化開口スナップショット分光画像(CASSI)の逆問題、すなわち2次元圧縮測定から3次元ハイパースペクトル画像(HSI)を復元するために多くのアルゴリズムが開発された。 近年、学習に基づく手法は有望な性能を示し、主流研究の方向性を支配している。 しかし、既存のCNNベースの手法は、長距離依存と非局所的な自己相似性を捉える際の限界を示す。 従来のTransformerベースの手法では、不正なトークンを密にサンプリングし、コンテンツに関係のないトークン間のマルチヘッド自己アテンション(MSA)を計算する。 これはhsi信号の空間的スパース性に適合せず、モデルのスケーラビリティを制限している。 本稿では,hsi再構成のための深層学習にhsiスパース性を埋め込んだ,新しい変圧器ベース法である粗・微粒間スパーストランスフォーマ(cst)を提案する。 特に,提案したスペクトル認識スクリーニング機構(SASM)を用いて,粗いパッチ選択を行う。 そして、選択したパッチをカスタマイズしたスペクトル集約ハッシュ化マルチヘッドセルフアテンション(sah-msa)に供給して、微細な画素クラスタリングと自己相似性キャプチャを行う。 総合実験の結果, cstは計算コストを下げつつ, 最先端の手法を著しく上回っていることがわかった。 コードとモデルは公開される予定だ。

Many algorithms have been developed to solve the inverse problem of coded aperture snapshot spectral imaging (CASSI), i.e., recovering the 3D hyperspectral images (HSIs) from a 2D compressive measurement. In recent years, learning-based methods have demonstrated promising performance and dominated the mainstream research direction. However, existing CNN-based methods show limitations in capturing long-range dependencies and non-local self-similarity. Previous Transformer-based methods densely sample tokens, some of which are uninformative, and calculate the multi-head self-attention (MSA) between some tokens that are unrelated in content. This does not fit the spatially sparse nature of HSI signals and limits the model scalability. In this paper, we propose a novel Transformer-based method, coarse-to-fine sparse Transformer (CST), firstly embedding HSI sparsity into deep learning for HSI reconstruction. In particular, CST uses our proposed spectra-aware screening mechanism (SASM) for coarse patch selecting. Then the selected patches are fed into our customized spectra-aggregation hashing multi-head self-attention (SAH-MSA) for fine pixel clustering and self-similarity capturing. Comprehensive experiments show that our CST significantly outperforms state-of-the-art methods while requiring cheaper computational costs. The code and models will be made public.
翻訳日:2022-03-10 16:23:18 公開日:2022-03-09
# 健全物体検出・深さ推定・輪郭抽出の連成学習

Joint Learning of Salient Object Detection, Depth Estimation and Contour Extraction ( http://arxiv.org/abs/2203.04895v1 )

ライセンス: Link先を確認
Xiaoqi Zhao, Youwei Pang, Lihe Zhang and Huchuan Lu(参考訳) 色独立性,照度不変性,深度マップによる位置識別により,複雑な環境下での塩物抽出に重要な補足情報を提供することができる。 しかし、高品質な深度センサーは高価であり、広くは適用できない。 一般的な深度センサはノイズとスパース深度情報を生成するため、深度に基づくネットワークは不可逆的な干渉をもたらす。 本稿では,RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。 具体的には,深度推定,サルエント物体検出,輪郭推定の3つの補完タスクを統合する。 マルチタスク機構は、補助タスクからタスク認識機能を学ぶためのモデルを促進する。 これにより、深度情報を完了して浄化することができる。 さらに,マルチモーダルフィルタトランス(mft)モジュールを導入し,各モダリティに対してトランスフォーマティ固有のフィルタを3つ装備し,トランスフォーマティ特性を生成する。 提案したモデルは,テストフェーズ中にディープフリー方式で動作する。 実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。 また,既存のRGB-D SOD法の性能向上に寄与する。

Benefiting from color independence, illumination invariance and location discrimination attributed by the depth map, it can provide important supplemental information for extracting salient objects in complex environments. However, high-quality depth sensors are expensive and can not be widely applied. While general depth sensors produce the noisy and sparse depth information, which brings the depth-based networks with irreversible interference. In this paper, we propose a novel multi-task and multi-modal filtered transformer (MMFT) network for RGB-D salient object detection (SOD). Specifically, we unify three complementary tasks: depth estimation, salient object detection and contour estimation. The multi-task mechanism promotes the model to learn the task-aware features from the auxiliary tasks. In this way, the depth information can be completed and purified. Moreover, we introduce a multi-modal filtered transformer (MFT) module, which equips with three modality-specific filters to generate the transformer-enhanced feature for each modality. The proposed model works in a depth-free style during the testing phase. Experiments show that it not only significantly surpasses the depth-based RGB-D SOD methods on multiple datasets, but also precisely predicts a high-quality depth map and salient contour at the same time. And, the resulted depth map can help existing RGB-D SOD methods obtain significant performance gain.
翻訳日:2022-03-10 16:22:54 公開日:2022-03-09
# 医療データを用いた下流のフェアネス洞窟

Downstream Fairness Caveats with Synthetic Healthcare Data ( http://arxiv.org/abs/2203.04462v1 )

ライセンス: Link先を確認
Karan Bhanot, Ioana Baldini, Dennis Wei, Jiaming Zeng and Kristin P. Bennett(参考訳) 本稿では,合成した医療データを用いたバイアス評価を行い,フェアネス緩和手法が有用性に与える影響について検討する。 プライバシー法は患者のプライバシーを守るために電子医療記録(EMR)のような健康データへのアクセスを制限する。 これらの法律は研究の再現性を妨げている。 合成データは、プライバシーリスクのない実際の医療データに似たデータへのアクセスを可能にする、実行可能なソリューションである。 医療データセットは、特定の保護されたグループが他よりも悪い結果をもたらすバイアスを持つ可能性がある。 実際のデータはバイアスがあり、合成された健康データの公平さが問題になる。 本稿では、性別と人種バイアスの2つの医療データセット上で生成されたモデルの公平性を評価する。 データセットの合成バージョンを、healthganと呼ばれる生成的逆ネットワークを用いて生成し、実モデルと合成モデルのバランスのとれた精度と公平性スコアを比較する。 合成データは, 実データと比較してフェアネス特性が異なること, フェアネス緩和技術が異なること, 合成データはバイアスフリーではないことを強調する。

This paper evaluates synthetically generated healthcare data for biases and investigates the effect of fairness mitigation techniques on utility-fairness. Privacy laws limit access to health data such as Electronic Medical Records (EMRs) to preserve patient privacy. Albeit essential, these laws hinder research reproducibility. Synthetic data is a viable solution that can enable access to data similar to real healthcare data without privacy risks. Healthcare datasets may have biases in which certain protected groups might experience worse outcomes than others. With the real data having biases, the fairness of synthetically generated health data comes into question. In this paper, we evaluate the fairness of models generated on two healthcare datasets for gender and race biases. We generate synthetic versions of the dataset using a Generative Adversarial Network called HealthGAN, and compare the real and synthetic model's balanced accuracy and fairness scores. We find that synthetic data has different fairness properties compared to real data and fairness mitigation techniques perform differently, highlighting that synthetic data is not bias free.
翻訳日:2022-03-10 16:20:26 公開日:2022-03-09
# HAIDA:認知障害の神経リハビリテーションのためのバイオメトリック技術治療ツール

HAIDA: Biometric technological therapy tools for neurorehabilitation of Cognitive Impairment ( http://arxiv.org/abs/2203.04645v1 )

ライセンス: Link先を確認
Elsa Fernandez, Jordi Sole-Casals, Pilar M. Calvo, Marcos Faundez-Zanuy, Karmele Lopez-de-Ipina(参考訳) 認知症、特にアルツハイマーs病(ad)と軽度認知障害(mci)は高齢者が抱える最も重要な疾患の1つである。 音楽療法は認知障害の分野において最も広く用いられている非薬理学療法の1つであり、音楽は気分、行動、不安の低下、思い出、感情表現、運動の促進に影響を与えている。 本研究では,認知障害を指向した多プラットフォーム音楽療法支援システムであるHAIDAについて紹介する。 この時点でシステムは使用中であり、最初のデータセットを記録している。

Dementia, and specially Alzheimer s disease (AD) and Mild Cognitive Impairment (MCI) are one of the most important diseases suffered by elderly population. Music therapy is one of the most widely used non-pharmacological treatment in the field of cognitive impairments, given that music influences their mood, behavior, the decrease of anxiety, as well as facilitating reminiscence, emotional expressions and movement. In this work we present HAIDA, a multi-platform support system for Musical Therapy oriented to cognitive impairment, which includes not only therapy tools but also non-invasive biometric analysis, speech, activity and hand activity. At this moment the system is on use and recording the first sets of data.
翻訳日:2022-03-10 16:20:10 公開日:2022-03-09
# グラフ構造データに対する線形融合Gromov-Wasserstein距離について

On a linear fused Gromov-Wasserstein distance for graph structured data ( http://arxiv.org/abs/2203.04711v1 )

ライセンス: Link先を確認
Dai Hai Nguyen, Koji Tsuda(参考訳) 本稿では、グラフ構造化データをベクトル空間に埋め込み、ノードの特徴とグラフのトポロジーを考慮に入れて最適なトランスポート(ot)問題に組み込むフレームワークを提案する。 次に、埋め込み間のユークリッド距離として定義される2つのグラフ間の新しい距離、リニアFGWを提案する。 提案される距離の利点は2つある。 1)カーネルベースのフレームワークにおけるグラフ間の類似性を測定するために,ノードの特徴とグラフの構造を考慮することができる。 2)カーネルマトリクスの計算は,ペアワイズなotベースの距離,特にgromov-wassersteinの融合よりもはるかに高速であり,大規模データセットを扱うことができる。 線形fgwの理論的性質を考察した後,分類およびクラスタリングタスクに関する実験結果を示し,提案する線形fgwの有効性を示した。

We present a framework for embedding graph structured data into a vector space, taking into account node features and topology of a graph into the optimal transport (OT) problem. Then we propose a novel distance between two graphs, named linearFGW, defined as the Euclidean distance between their embeddings. The advantages of the proposed distance are twofold: 1) it can take into account node feature and structure of graphs for measuring the similarity between graphs in a kernel-based framework, 2) it can be much faster for computing kernel matrix than pairwise OT-based distances, particularly fused Gromov-Wasserstein, making it possible to deal with large-scale data sets. After discussing theoretical properties of linearFGW, we demonstrate experimental results on classification and clustering tasks, showing the effectiveness of the proposed linearFGW.
翻訳日:2022-03-10 16:19:59 公開日:2022-03-09
# ダイナミックThresholdingを用いた積み重ねリカレントオートエンコーダ法による無人航空機センサデータの異常検出

Anomaly Detection for Unmanned Aerial Vehicle Sensor Data Using a Stacked Recurrent Autoencoder Method with Dynamic Thresholding ( http://arxiv.org/abs/2203.04734v1 )

ライセンス: Link先を確認
Victoria Bell1, Divish Rengasamy, Benjamin Rothwell, Grazziela P Figueredo(参考訳) 近年の航空技術の発展により、無人航空機(UAV)は国際的に商業・軍事活動にますます統合されつつある。 航空機データの応用に関する研究は、安全性の向上、運用コストの削減、航空技術の次のフロンティアの開発に不可欠である。 これらの理由から、航空機の異常動作を正確に識別できる異常検知システムを持つことが不可欠である。 本稿では,Long Short-Term Memory (LSTM) Deep Learning Autoencoderをベースとした,新しい動的しきい値決定アルゴリズムとUAVデータセットの異常検出のための重み付き損失関数を組み込んだシステムを提案する。 動的しきい値と重み付き損失関数は、精度と真の故障検出速度の両方において標準静的しきい値法に有望な改善を示した。

With substantial recent developments in aviation technologies, Unmanned Aerial Vehicles (UAVs) are becoming increasingly integrated in commercial and military operations internationally. Research into the applications of aircraft data is essential in improving safety, reducing operational costs, and developing the next frontier of aerial technology. Having an outlier detection system that can accurately identify anomalous behaviour in aircraft is crucial for these reasons. This paper proposes a system incorporating a Long Short-Term Memory (LSTM) Deep Learning Autoencoder based method with a novel dynamic thresholding algorithm and weighted loss function for anomaly detection of a UAV dataset, in order to contribute to the ongoing efforts that leverage innovations in machine learning and data analysis within the aviation industry. The dynamic thresholding and weighted loss functions showed promising improvements to the standard static thresholding method, both in accuracy-related performance metrics and in speed of true fault detection.
翻訳日:2022-03-10 16:19:44 公開日:2022-03-09
# 政策探索のための次元削減と優先探索

Dimensionality Reduction and Prioritized Exploration for Policy Search ( http://arxiv.org/abs/2203.04791v1 )

ライセンス: Link先を確認
Marius Memmel, Puze Liu, Davide Tateo, Jan Peters(参考訳) Black-boxポリシー最適化は、パラメータレベルでポリシーを探索し更新する強化学習アルゴリズムのクラスである。 このタイプのアルゴリズムは、運動プリミティブや微分不可能なポリシーを持つロボット工学に広く応用されている。 さらに、これらのアプローチは、動作レベルでの探索がアクチュエータの損傷や他の安全性問題を引き起こす可能性がある場合に特に関係している。 しかし、ブラックボックス最適化はポリシーの寸法が増加するとうまくスケールしないため、実世界のシステムでは入手にコストがかかるサンプルの需要が高まる。 多くの実践的応用において、ポリシーパラメータは戻り値に等しく寄与しない。 最も関連するパラメータを特定することで、探索を狭め、学習をスピードアップすることができる。 さらに、有効なパラメータのみを更新するにはサンプルが少ないため、メソッドのスケーラビリティが向上する。 本稿では,有効パラメータの探索を優先し,完全共分散行列更新に対処する新しい手法を提案する。 アルゴリズムは最近のアプローチよりも高速に学習し,最新の結果を得るためにはサンプル数が少なくなる。 効果的なパラメータを選択するために,ピアソン相関係数と相互情報について検討する。 本稿では,ロボットシミュレーションを含む複数のシミュレーション環境において,相対エントロピーポリシー探索アルゴリズムに対する我々のアプローチの能力を紹介する。 コードはhttps://git.ias.info rmatik.tu-darmstadt. de/ias\_code/aistats 2022/dr-creps}{git.ias.informatik.t u-darmstadt.de/ias\_ code/aistats2022/dr- crepsで入手できる。

Black-box policy optimization is a class of reinforcement learning algorithms that explores and updates the policies at the parameter level. This class of algorithms is widely applied in robotics with movement primitives or non-differentiable policies. Furthermore, these approaches are particularly relevant where exploration at the action level could cause actuator damage or other safety issues. However, Black-box optimization does not scale well with the increasing dimensionality of the policy, leading to high demand for samples, which are expensive to obtain in real-world systems. In many practical applications, policy parameters do not contribute equally to the return. Identifying the most relevant parameters allows to narrow down the exploration and speed up the learning. Furthermore, updating only the effective parameters requires fewer samples, improving the scalability of the method. We present a novel method to prioritize the exploration of effective parameters and cope with full covariance matrix updates. Our algorithm learns faster than recent approaches and requires fewer samples to achieve state-of-the-art results. To select the effective parameters, we consider both the Pearson correlation coefficient and the Mutual Information. We showcase the capabilities of our approach on the Relative Entropy Policy Search algorithm in several simulated environments, including robotics simulations. Code is available at https://git.ias.info rmatik.tu-darmstadt. de/ias\_code/aistats 2022/dr-creps}{git.ias.informatik.t u-darmstadt.de/ias\_ code/aistats2022/dr- creps.
翻訳日:2022-03-10 16:18:07 公開日:2022-03-09
# 制御された特徴選択のための誤差に基づくノックオフ推論

Error-based Knockoffs Inference for Controlled Feature Selection ( http://arxiv.org/abs/2203.04483v1 )

ライセンス: Link先を確認
Xuebin Zhao, Hong Chen, Yingjie Wang, Weifu Li, Tieliang Gong, Yulong Wang, Feng Zheng(参考訳) 近年,高次元有限サンプル条件下での制御された特徴選択に対処する手段として,モデルXノックオフ方式が提案されている。 しかし、モデルXのノックオフの手順は係数に基づく特徴の重要性に大きく依存しており、偽発見率(FDR)の制御のみに関係している。 本稿では,その適応性と柔軟性をさらに高めるために,ノックオフ機能,エラーに基づく特徴重要度統計,ステップダウン手順を統合することで,誤差に基づくノックオフ推定手法を提案する。 提案手法は回帰モデルを指定する必要はなく, 擬似発見率(FDP), FDR, k- Familywise error rate(k-FWER)の制御に関する理論的保証で特徴選択を処理できる。 実験による評価は,シミュレーションデータと実データの両方に対するアプローチの競合性能を示す。

Recently, the scheme of model-X knockoffs was proposed as a promising solution to address controlled feature selection under high-dimensional finite-sample settings. However, the procedure of model-X knockoffs depends heavily on the coefficient-based feature importance and only concerns the control of false discovery rate (FDR). To further improve its adaptivity and flexibility, in this paper, we propose an error-based knockoff inference method by integrating the knockoff features, the error-based feature importance statistics, and the stepdown procedure together. The proposed inference procedure does not require specifying a regression model and can handle feature selection with theoretical guarantees on controlling false discovery proportion (FDP), FDR, or k-familywise error rate (k-FWER). Empirical evaluations demonstrate the competitive performance of our approach on both simulated and real data.
翻訳日:2022-03-10 16:17:42 公開日:2022-03-09
# 人工知能を用いた電子イオン衝突型検出器の設計

Design of Detectors at the Electron Ion Collider with Artificial Intelligence ( http://arxiv.org/abs/2203.04530v1 )

ライセンス: Link先を確認
Cristiano Fanelli(参考訳) デザインのための人工知能(AI)は、多くの分野にわたる比較的新しいが活発な研究分野である。 意外なことに、AIで検出器を設計するというのは、その初期段階の分野だ。 電子イオン衝突型加速器は、強い力を研究する究極の機械である。 eicは、中央、遠方、遠後方の領域を含むように約35メートルの広さを持つ統合検出器を備えた大規模な実験である。 中心検出器の設計は複数のサブ検出器で構成され、それぞれが多次元の設計空間と複数の設計基準を特徴とする。 Geant4によるシミュレーションは一般に計算集約であり、検出器設計の最適化にはノイズのある目的だけでなく、微分不可能な用語が含まれる。 この文脈では、AIは複雑な組合せ問題を効率的に解決するための最先端のソリューションを提供することができる。 特に, プロトコラボレーションの一つであるECCEは, EIC検出器のトラッキングシステムの設計に多目的最適化を用いる可能性について, 検出器の提案中に検討している。 本稿では,これらの技術の概要とeic検出器の提案における最近の進歩について述べる。 将来の高エネルギー核物理学実験は、より効率的な検出器を設計するためにAIベースの戦略を活用することができる。

Artificial Intelligence (AI) for design is a relatively new but active area of research across many disciplines. Surprisingly when it comes to designing detectors with AI this is an area at its infancy. The Electron Ion Collider is the ultimate machine to study the strong force. The EIC is a large-scale experiment with an integrated detector that extends for about $\pm$35 meters to include the central, far-forward, and far-backward regions. The design of the central detector is made by multiple sub-detectors, each in principle characterized by a multidimensional design space and multiple design criteria also called objectives. Simulations with Geant4 are typically compute intensive, and the optimization of the detector design may include non-differentiable terms as well as noisy objectives. In this context, AI can offer state of the art solutions to solve complex combinatorial problems in an efficient way. In particular, one of the proto-collaborations , ECCE, has explored during the detector proposal the possibility of using multi-objective optimization to design the tracking system of the EIC detector. This document provides an overview of these techniques and recent progress made during the EIC detector proposal. Future high energy nuclear physics experiments can leverage AI-based strategies to design more efficient detectors by optimizing their performance driven by physics criteria and minimizing costs for their realization.
翻訳日:2022-03-10 16:17:26 公開日:2022-03-09
# 効率よく計算可能なビンガム損失関数をもつ確率的回転表現とその詩推定への応用

Probabilistic Rotation Representation With an Efficiently Computable Bingham Loss Function and Its Application to Pose Estimation ( http://arxiv.org/abs/2203.04456v1 )

ライセンス: Link先を確認
Hiroya Sato, Takuya Ikeda, Koichi Nishiwaki(参考訳) 近年,オブジェクトのポーズ推定にディープラーニングフレームワークが広く用いられている。 四元数は6次元ポーズの回転表現の一般的な選択であるが、観測の不確実性を表すことはできない。 不確実性を扱うために、ビンガム分布は、曖昧性表現に加えて、SO(3) 上の滑らかな表現のような適切な特徴を持つので、有望な解である。 しかし、これは正規化定数の複雑な計算を必要とする。 これは、Bingham表現に基づくニューラルネットワークのトレーニングにおける損失計算のボトルネックである。 そこで,ビンガム分布に対する高速計算可能かつ実装が容易な損失関数を提案する。 また,ビンガム分布のパラメトリゼーションを考察するだけでなく,損失関数に基づく応用も示す。

In recent years, a deep learning framework has been widely used for object pose estimation. While quaternion is a common choice for rotation representation of 6D pose, it cannot represent an uncertainty of the observation. In order to handle the uncertainty, Bingham distribution is one promising solution because this has suitable features, such as a smooth representation over SO(3), in addition to the ambiguity representation. However, it requires the complex computation of the normalizing constants. This is the bottleneck of loss computation in training neural networks based on Bingham representation. As such, we propose a fast-computable and easy-to-implement loss function for Bingham distribution. We also show not only to examine the parametrization of Bingham distribution but also an application based on our loss function.
翻訳日:2022-03-10 16:13:23 公開日:2022-03-09
# PHTrans:医療画像セグメンテーションのためのグローバルおよびローカル表現の並列集約

PHTrans: Parallelly Aggregating Global and Local Representations for Medical Image Segmentation ( http://arxiv.org/abs/2203.04568v1 )

ライセンス: Link先を確認
Wentao Liu, Tong Tian, Weijin Xu, Huihua Yang, and Xipeng Pan(参考訳) コンピュータビジョンにおけるTransformerの成功は、医療画像コミュニティで注目を集めている。 特に医用画像セグメンテーションでは、畳み込みニューラルネットワーク(CNN)とTransformerに基づく優れたハイブリッドアーキテクチャが紹介され、優れたパフォーマンスを実現している。 しかし、モジュラートランスフォーマーをCNNに組み込むこれらの手法のほとんどは、その潜在能力を最大限に発揮するのに苦労している。 本稿では,グローバルな特徴と局所的な特徴から階層的表現を生成し,それらを適応的に集約するためにトランスフォーマーとCNNを並列にハイブリッド化するPHTransという,医用画像分割のための新しいハイブリッドアーキテクチャを提案する。 具体的には、phtransはu字型のエンコーダ-デコーダ設計に従い、畳み込みブロックと修正された3dスウィントランスが局所的な特徴とグローバルな依存関係を別々に学習し、出力の寸法を統一して機能集約を実現するためのパラレルハイバードモジュールを深い段階で導入する。 マルチAtlas Labeling Beyond the Cranial Vault と Automated Cardiac Diagnosis Challeng データセットの双方の大規模な実験結果が、その有効性を裏付け、一貫して最先端の手法よりも優れている。

The success of Transformer in computer vision has attracted increasing attention in the medical imaging community. Especially for medical image segmentation, many excellent hybrid architectures based on convolutional neural networks (CNNs) and Transformer have been presented and achieve impressive performance. However, most of these methods, which embed modular Transformer into CNNs, struggle to reach their full potential. In this paper, we propose a novel hybrid architecture for medical image segmentation called PHTrans, which parallelly hybridizes Transformer and CNN in main building blocks to produce hierarchical representations from global and local features and adaptively aggregate them, aiming to fully exploit their strengths to obtain better segmentation performance. Specifically, PHTrans follows the U-shaped encoder-decoder design and introduces the parallel hybird module in deep stages, where convolution blocks and the modified 3D Swin Transformer learn local features and global dependencies separately, then a sequence-to-volume operation unifies the dimensions of the outputs to achieve feature aggregation. Extensive experimental results on both Multi-Atlas Labeling Beyond the Cranial Vault and Automated Cardiac Diagnosis Challeng datasets corroborate its effectiveness, consistently outperforming state-of-the-art methods.
翻訳日:2022-03-10 16:12:37 公開日:2022-03-09
# Uni4Eye:眼科画像分類のためのマスク付き画像モデリング変換器による2次元および3次元自己教師型事前トレーニング

Uni4Eye: Unified 2D and 3D Self-supervised Pre-training via Masked Image Modeling Transformer for Ophthalmic Image Classification ( http://arxiv.org/abs/2203.04614v1 )

ライセンス: Link先を確認
Zhiyuan Cai and Huaqing He and Li Lin and Xiaoying Tang(参考訳) 大規模ラベル付きデータセットは、コンピュータビジョンにおける教師付きディープラーニングの成功の重要な要因である。 しかし,手動アノテーションは時間と労力を要するため,特に眼科画像解析では,注釈データの数が限られている。 自己教師付き学習(SSL)メソッドは、大量のアノテーションを必要としないため、ラベルのないデータを活用する大きな機会をもたらす。 2d画像と3d画像の両方を同時に利用しながら、できるだけ多くのラベルのない眼科画像を使用するためには、次元障壁を破る必要がある。 本稿では,Uni4Eyeという名前の汎用自己教師型トランスフォーマーフレームワークを提案する。 Uni4Eyeはグローバルな機能抽出器として機能し、視覚変換器(ViT)アーキテクチャでMasked Image Modelingタスクに基づいてベースを構築する。 2dと3dの両方の入力画像を共同処理するために、vitのオリジンパッチ埋め込みモジュールを置き換えるために、統一パッチ埋め込みモジュールを使用する。 さらに,マルチタスクデコーダモジュールの設計を行い,入力画像とその勾配マップ上で2つの再構成タスクを同時に実行し,コンバージェンス改善のための判別表現を提供する。 我々は,6つの下流眼科画像分類タスクにおいて,事前訓練したUni4Eyeエンコーダの性能を評価する。 Uni4Eyeの優位性は他の最先端のSSL事前トレーニング手法と比較することで確立されている。

A large-scale labeled dataset is a key factor for the success of supervised deep learning in computer vision. However, a limited number of annotated data is very common, especially in ophthalmic image analysis, since manual annotation is time-consuming and labor-intensive. Self-supervised learning (SSL) methods bring huge opportunities for better utilizing unlabeled data, as they do not need massive annotations. With an attempt to use as many as possible unlabeled ophthalmic images, it is necessary to break the dimension barrier, simultaneously making use of both 2D and 3D images. In this paper, we propose a universal self-supervised Transformer framework, named Uni4Eye, to discover the inherent image property and capture domain-specific feature embedding in ophthalmic images. Uni4Eye can serve as a global feature extractor, which builds its basis on a Masked Image Modeling task with a Vision Transformer (ViT) architecture. We employ a Unified Patch Embedding module to replace the origin patch embedding module in ViT for jointly processing both 2D and 3D input images. Besides, we design a dual-branch multitask decoder module to simultaneously perform two reconstruction tasks on the input image and its gradient map, delivering discriminative representations for better convergence. We evaluate the performance of our pre-trained Uni4Eye encoder by fine-tuning it on six downstream ophthalmic image classification tasks. The superiority of Uni4Eye is successfully established through comparisons to other state-of-the-art SSL pre-training methods.
翻訳日:2022-03-10 16:12:10 公開日:2022-03-09
# プレンオプティクスカメラの光線追跡誘導設計

Ray Tracing-Guided Design of Plenoptic Cameras ( http://arxiv.org/abs/2203.04660v1 )

ライセンス: Link先を確認
Tim Michels and Reinhard Koch(参考訳) 光ファイバーカメラの設計には、2つの異なる光学系、すなわちメインレンズとマイクロレンズの配列の組み合わせが必要である。 また、従来のカメラの構成過程は、主に画像を単一の平面に焦点を合わせることを目的としているが、レンズカメラの場合、予め定義された被写界深度や、近隣のマイクロレンズ画像における所望の差といった追加の要件がある。 この複雑さのため、複数のplenopticカメラの設定を手動で作成するのは、しばしば時間がかかります。 本研究では,本研究で得られた主レンズデータとともにシミュレーションフレームワークを仮定し,残余開口,センサ,マイクロレンズアレイパラメータを異なる制約セットで計算する手法を提案する。 我々のレイトレーシングに基づくアプローチは, 求められる制約を満たしながら, 一般的に使用される同軸近似を用いて生成するペンダントを上回らせるモデルが示される。 30光カメラの設計を含む実装と評価の両方が公開されている。

The design of a plenoptic camera requires the combination of two dissimilar optical systems, namely a main lens and an array of microlenses. And while the construction process of a conventional camera is mainly concerned with focusing the image onto a single plane, in the case of plenoptic cameras there can be additional requirements such as a predefined depth of field or a desired range of disparities in neighboring microlens images. Due to this complexity, the manual creation of multiple plenoptic camera setups is often a time-consuming task. In this work we assume a simulation framework as well as the main lens data given and present a method to calculate the remaining aperture, sensor and microlens array parameters under different sets of constraints. Our ray tracing-based approach is shown to result in models outperforming their pendants generated with the commonly used paraxial approximations in terms of image quality, while still meeting the desired constraints. Both the implementation and evaluation setup including 30 plenoptic camera designs are made publicly available.
翻訳日:2022-03-10 16:11:44 公開日:2022-03-09
# プレンオプティクスおよび従来型カメラの校正法評価のための現実的地上真理データの作成

Creating Realistic Ground Truth Data for the Evaluation of Calibration Methods for Plenoptic and Conventional Cameras ( http://arxiv.org/abs/2203.04661v1 )

ライセンス: Link先を確認
Tim Michels, Arne Petersen and Reinhard Koch(参考訳) カメラキャリブレーション法は通常、既知のキャリブレーションパターンの画像を取得し、検出された対応を使って推定されたカメラモデルのパラメータを最適化する。 これらの手法の有意義な評価は、現実的な合成データの可用性に依存する。 従来の一般的なカメラに関する研究では、合成データはピンホールカメラで完璧な画像をレンダリングし、その後、想定されたカメラモデルに従ってレンダリングや対応に歪みや収差を加えることで作成された。 この方法は、全てのカメラが仮定されたモデルに完全に準拠するわけではないため、評価をバイアスすることができる。 さらに、光学カメラキャリブレーションの分野では、合成地上真実データが全く利用できない。 両タイプのカメラのキャリブレーション手法の偏りのない評価に使用できるリアルな地上真理データを作成するために,後方方向のレイトレーシングに基づく手法を提案することで,これらの問題に対処する。

Camera calibration methods usually consist of capturing images of known calibration patterns and using the detected correspondences to optimize the parameters of the assumed camera model. A meaningful evaluation of these methods relies on the availability of realistic synthetic data. In previous works concerned with conventional cameras the synthetic data was mainly created by rendering perfect images with a pinhole camera and subsequently adding distortions and aberrations to the renderings and correspondences according to the assumed camera model. This method can bias the evaluation since not every camera perfectly complies with an assumed model. Furthermore, in the field of plenoptic camera calibration there is no synthetic ground truth data available at all. We address these problems by proposing a method based on backward ray tracing to create realistic ground truth data that can be used for an unbiased evaluation of calibration methods for both types of cameras.
翻訳日:2022-03-10 16:11:27 公開日:2022-03-09
# plenopticカメラのシミュレーション

Simulation of Plenoptic Cameras ( http://arxiv.org/abs/2203.04662v1 )

ライセンス: Link先を確認
Tim Michels, Arne Petersen, Luca Palmieri, Reinhard Koch(参考訳) プレノプティカルカメラは、画像再焦点や深度計算などの様々な用途に使用可能な、空間的および角カラー情報のキャプチャを可能にする。 しかし、これらのカメラは高価であり、現在この分野の研究には地上の真実比較のデータがない。 本研究では, フレキシブルで使い易いフレキシブルなブレンダーモデルについて述べる。一方, 研究用の地上真実データの提供が可能であり, 他方で, 望まれるアプリケーションに対して, カメラの有用性を安価に評価することができる。 さらに,レンダリング結果が実カメラと同じ画像劣化効果を示し,シミュレーションを公開できることを示した。

Plenoptic cameras enable the capturing of spatial as well as angular color information which can be used for various applications among which are image refocusing and depth calculations. However, these cameras are expensive and research in this area currently lacks data for ground truth comparisons. In this work we describe a flexible, easy-to-use Blender model for the different plenoptic camera types which is on the one hand able to provide the ground truth data for research and on the other hand allows an inexpensive assessment of the cameras usefulness for the desired applications. Furthermore we show that the rendering results exhibit the same image degradation effects as real cameras and make our simulation publicly available.
翻訳日:2022-03-10 16:11:12 公開日:2022-03-09
# VGQ-CNN: グレープ品質予測のための固定カメラとトップグラスを超えて

VGQ-CNN: Moving Beyond Fixed Cameras and Top-Grasps for Grasp Quality Prediction ( http://arxiv.org/abs/2203.04874v1 )

ライセンス: Link先を確認
A. Konrad, J. McDonald, R. Villing(参考訳) 本稿では、6-DOFグリップのためのグリップ品質予測ネットワークであるVersatile Grasp Quality Convolutional Neural Network (VGQ-CNN)を提案する。 VGQ-CNNは、ネットワークを再トレーニングすることなく、広い範囲のカメラポーズや移動ロボットから見える物体の把握を評価する際に使用できる。 ネットワークへの入力としてグリップ方向を明示的に定義することにより、VGQ-CNNは、GQ-CNNのような画像ベースグリップ評価手法で使用される4-DOFグリップを超えて、6-DOFグリップポーズを評価することができる。 我々は、VGQ-CNNを新しいVersatile Graspデータセット(VG-dset)でトレーニングし、幅広いカメラポーズから観察された6-DOFのグリップを含む。 VGQ-CNNは、様々なカメラポーズに一般化しながら、テストスプリットで82.1%のバランス精度を達成する。 一方、gq-cnnの76.6%に対して、オーバーヘッドカメラとトップグラップの競合性能は74.2%である。 また,共有エンコーダアーキテクチャを用いて推論を高速化し,CPU上で12msで128個の品質予測を行うネットワークアーキテクチャであるFAST-VGQ-CNNを提案する。 コードとデータはhttps://figshare.com /s/b12b37b14b747b105 24eで入手できる。

We present the Versatile Grasp Quality Convolutional Neural Network (VGQ-CNN), a grasp quality prediction network for 6-DOF grasps. VGQ-CNN can be used when evaluating grasps for objects seen from a wide range of camera poses or mobile robots without the need to retrain the network. By defining the grasp orientation explicitly as an input to the network, VGQ-CNN can evaluate 6-DOF grasp poses, moving beyond the 4-DOF grasps used in most image-based grasp evaluation methods like GQ-CNN. We train VGQ-CNN on our new Versatile Grasp dataset (VG-dset), containing 6-DOF grasps observed from a wide range of camera poses. VGQ-CNN achieves a balanced accuracy of 82.1% on our test-split while generalising to a variety of camera poses. Meanwhile, it achieves competitive performance for overhead cameras and top-grasps with a balanced accuracy of 74.2% compared to GQ-CNN's 76.6%. We also propose a modified network architecture, FAST-VGQ-CNN, that speeds up inference using a shared encoder architecture and can make 128 grasp quality predictions in 12ms on a CPU. Code and data are available at https://figshare.com /s/b12b37b14b747b105 24e.
翻訳日:2022-03-10 16:10:59 公開日:2022-03-09
# 彩度選択操作による低光度画像と映像強調

Low-light Image and Video Enhancement via Selective Manipulation of Chromaticity ( http://arxiv.org/abs/2203.04889v1 )

ライセンス: Link先を確認
Sumit Shekhar, Max Reimann, Amir Semmo, Sebastian Pasewaldt, J\"urgen D\"ollner, Matthias Trapp(参考訳) 低照度環境下での画像取得は品質の低下と視覚美学の著しい劣化に苦しむ。 これは、取得した画像の視覚知覚と、取得後に適用される様々なコンピュータビジョンおよび画像処理アルゴリズムの性能に影響する。 特にビデオの場合、時間領域の追加は、品質を時間的にコヒーレントな方法で保存する必要があるため、より難しくなります。 低照度画像と映像強調のための簡易かつ効果的なアプローチを提案する。 そこで本研究では,画像色度を適応的に計算する「適応色度」を提案する。 以上の適応性により、多くの既存技術が採用している照明と反射率への低照度画像分解のコストのかかるステップを回避できる。 提案手法のすべてのステージは,ポイントベース操作とハイパスフィルタとローパスフィルタのみで構成されており,フレーム単位の動画に適用した場合,時間的不整合の量は無視できる。 標準低照度画像データセットを用いた結果から,本アルゴリズムの有効性と,その質的,定量的優越性を示す。 野生で撮影されたビデオについては,最先端のアプローチと比較して,提案手法の好みを示すためにユーザ調査を行った。

Image acquisition in low-light conditions suffers from poor quality and significant degradation in visual aesthetics. This affects the visual perception of the acquired image and the performance of various computer vision and image processing algorithms applied after acquisition. Especially for videos, the additional temporal domain makes it more challenging, wherein we need to preserve quality in a temporally coherent manner. We present a simple yet effective approach for low-light image and video enhancement. To this end, we introduce "Adaptive Chromaticity", which refers to an adaptive computation of image chromaticity. The above adaptivity allows us to avoid the costly step of low-light image decomposition into illumination and reflectance, employed by many existing techniques. All stages in our method consist of only point-based operations and high-pass or low-pass filtering, thereby ensuring that the amount of temporal incoherence is negligible when applied on a per-frame basis for videos. Our results on standard lowlight image datasets show the efficacy of our algorithm and its qualitative and quantitative superiority over several state-of-the-art techniques. For videos captured in the wild, we perform a user study to demonstrate the preference for our method in comparison to state-of-the-art approaches.
翻訳日:2022-03-10 16:10:37 公開日:2022-03-09
# 微分可能光モデルによるデータ駆動点拡散関数モデリングの再考

Rethinking data-driven point spread function modeling with a differentiable optical model ( http://arxiv.org/abs/2203.04908v1 )

ライセンス: Link先を確認
Tobias Liaudat, Jean-Luc Starck, Martin Kilbinger, Pierre-Antoine Frugier(参考訳) 天文学において、広視野光学機器を持つ近日宇宙望遠鏡は空間的に異なる点拡散関数(PSF)を持つ。 ある科学的目標は、PSFの直接測定が提供されていないターゲット位置でのPSFの高忠実度推定を必要とする。 PSFの観測は視野(FOV)のどこかの位置で可能であるが、それらはアンダーサンプリングされ、ノイズがあり、楽器の通過帯域の波長に統合されている。 PSFモデリングでは、これらの観測から、どんな波長でもFOV内の任意の位置でも超解像PSFを推測できるモデルを構築する必要がある。 現在のデータ駆動型PSFモデルは空間変動や超解像に対処できるが、色の変化を捉えることはできない。 我々のモデルはWaveDiffと呼ばれ、望遠鏡の点拡散関数場のデータ駆動モデリングにおけるパラダイムシフトを提案する。 モデリングフレームワークに微分可能な光フォワードモデルを追加することにより、データ駆動モデリング空間をピクセルからウェーブフロントに変更する。 提案モデルは,機械学習コミュニティが最近開発した,効率的な自動微分技術と,最新の確率的一階最適化技術に依存している。 我々のフレームワークは、物理的に動機づけられ、特別なキャリブレーションデータを必要としない強力なモデルを構築するための道を開く。 本稿では,宇宙望遠鏡の簡易設定におけるWaveDiffモデルについて述べる。 提案するフレームワークは,既存のデータ駆動アプローチに対するパフォーマンスのブレークスルーを表している。 画素再構成誤差は観測解像度で6倍、超解像度で44倍減少する。 楕円性誤差を少なくとも20の係数で減少させ、サイズ誤差を250以上の係数で減少させる。 ノイズの多い広帯域インフォーカス観測のみを用いることで、回折によるPSF色変化を捉えることができた。

In astronomy, upcoming space telescopes with wide-field optical instruments have a spatially varying point spread function (PSF). Certain scientific goals require a high-fidelity estimation of the PSF at target positions where no direct measurement of the PSF is provided. Even though observations of the PSF are available at some positions of the field of view (FOV), they are undersampled, noisy, and integrated in wavelength in the instrument's passband. PSF modeling requires building a model from these observations that can infer a super-resolved PSF at any wavelength and any position in the FOV. Current data-driven PSF models can tackle spatial variations and super-resolution, but are not capable of capturing chromatic variations. Our model, coined WaveDiff, proposes a paradigm shift in the data-driven modeling of the point spread function field of telescopes. By adding a differentiable optical forward model into the modeling framework, we change the data-driven modeling space from the pixels to the wavefront. The proposed model relies on efficient automatic differentiation technology as well as modern stochastic first-order optimization techniques recently developed by the thriving machine-learning community. Our framework paves the way to building powerful models that are physically motivated and do not require special calibration data. This paper demonstrates the WaveDiff model on a simplified setting of a space telescope. The proposed framework represents a performance breakthrough with respect to existing data-driven approaches. The pixel reconstruction errors decrease 6-fold at observation resolution and 44-fold for a 3x super-resolution. The ellipticity errors are reduced by a factor of at least 20 and the size error by a factor of more than 250. By only using noisy broad-band in-focus observations, we successfully capture the PSF chromatic variations due to diffraction.
翻訳日:2022-03-10 16:10:18 公開日:2022-03-09
# (参考訳) サブモジュラー最適化によるデータ効率の高い構造化pruning [全文訳有]

Data-Efficient Structured Pruning via Submodular Optimization ( http://arxiv.org/abs/2203.04940v1 )

ライセンス: CC BY 4.0
Marwa El Halabi, Suraj Srinivas, Simon Lacoste-Julien(参考訳) 構造化プルーニング(Structured pruning)は、大きなトレーニング済みニューラルネットワークを圧縮する上で、その性能に大きな影響を及ぼすことなく効果的なアプローチである。 しかし、現在の構造化プルーニング法は自然界において非常に経験的であり、理論的な保証は提供せず、しばしば微調整を必要とするため、限定データ方式では適用できない。 サブモジュール最適化に基づく,データ効率のよい構造化プルーニング手法を提案する。 特に、与えられた層に対して、プルーニングによって誘導される次の層の入力の変化を最小限に抑えるために、ニューロン/チャネルを選択し、次の層に対する新しい重み付けに対応する。 この選択問題は弱部分モジュラル最大化問題であり,効率的なグリーディアルゴリズムを用いて確実に近似できることを示す。 本手法は,限られた数のトレーニングデータしか使用せず,ラベルも使用しない数少ない文献の1つである。 提案手法は, 各種単発プルーニング設定において, 一般的なベースラインメソッドよりも優れた性能を示す。

Structured pruning is an effective approach for compressing large pre-trained neural networks without significantly affecting their performance, which involves removing redundant regular regions of weights. However, current structured pruning methods are highly empirical in nature, do not provide any theoretical guarantees, and often require fine-tuning, which makes them inapplicable in the limited-data regime. We propose a principled data-efficient structured pruning method based on submodular optimization. In particular, for a given layer, we select neurons/channels to prune and corresponding new weights for the next layer, that minimize the change in the next layer's input induced by pruning. We show that this selection problem is a weakly submodular maximization problem, thus it can be provably approximated using an efficient greedy algorithm. Our method is one of the few in the literature that uses only a limited-number of training data and no labels. Our experimental results demonstrate that our method outperforms popular baseline methods in various one-shot pruning settings.
翻訳日:2022-03-10 16:08:44 公開日:2022-03-09
# Onception: リアルタイム機械翻訳のためのエキスパートアドバイスによるアクティブラーニング

Onception: Active Learning with Expert Advice for Real World Machine Translation ( http://arxiv.org/abs/2203.04507v1 )

ライセンス: Link先を確認
V\^ania Mendon\c{c}a (1 and 2), Ricardo Rei (1 and 2 and 3), Luisa Coheur (1 and 2), Alberto Sardinha (1 and 2) ((1) INESC-ID Lisboa, (2) Instituto Superior T\'ecnico, (3) Unbabel AI)(参考訳) アクティブラーニングは、アノテートする価値のあるインスタンスを選択することによって、低リソース設定(つまり、アノテートデータが不足している場合)において重要な役割を果たす。 機械翻訳の最も活発な学習アプローチは、ソース言語における文プールの存在を前提としており、翻訳や後編集を提供するために人間のアノテーションに依存している。 本稿では,実世界のヒューマン・イン・ザ・ループシナリオを想定する。 (i)原文は、容易には入手できないが、その代わりにストリームに到着することができる。 (二) 自動翻訳は、人文内翻訳は翻訳を探しているが提供できないユーザであるため、正しい/編集された翻訳ではなく、評価の形でフィードバックを受ける。 入力される各ペアのソース翻訳が人間のフィードバックに合うかどうかを決定するための課題として、ストリームベースのアクティブな学習クエリ戦略を数多く採用する。 さらに,特定の言語ペアと機械翻訳モデルに対して,どのクエリ戦略がもっとも適切かは事前に分かっていないので,専門家のアドバイスとともに,複数の戦略を動的に組み合わせることを提案する。 実験の結果,能動学習を用いることで,人間同士の相互作用が少なく,最高の機械翻訳システムに収束できることがわかった。 さらに、予測を使った複数の戦略と専門家のアドバイスを組み合わせることで、より少ないインタラクションで複数のアクティブな学習戦略を上回ります。

Active learning can play an important role in low-resource settings (i.e., where annotated data is scarce), by selecting which instances may be more worthy to annotate. Most active learning approaches for Machine Translation assume the existence of a pool of sentences in a source language, and rely on human annotators to provide translations or post-edits, which can still be costly. In this paper, we assume a real world human-in-the-loop scenario in which: (i) the source sentences may not be readily available, but instead arrive in a stream; (ii) the automatic translations receive feedback in the form of a rating, instead of a correct/edited translation, since the human-in-the-loop might be a user looking for a translation, but not be able to provide one. To tackle the challenge of deciding whether each incoming pair source-translations is worthy to query for human feedback, we resort to a number of stream-based active learning query strategies. Moreover, since we not know in advance which query strategy will be the most adequate for a certain language pair and set of Machine Translation models, we propose to dynamically combine multiple strategies using prediction with expert advice. Our experiments show that using active learning allows to converge to the best Machine Translation systems with fewer human interactions. Furthermore, combining multiple strategies using prediction with expert advice often outperforms several individual active learning strategies with even fewer interactions.
翻訳日:2022-03-10 15:21:00 公開日:2022-03-09
# 言語多様性:人間に可視で、機械で爆発する

Language Diversity: Visible to Humans, Exploitable by Machines ( http://arxiv.org/abs/2203.04723v1 )

ライセンス: Link先を確認
G\'abor Bella, Erdenebileg Byambadorj, Yamini Chandrashekar, Khuyagbaatar Batsuren, Danish Ashgar Cheema, Fausto Giunchiglia(参考訳) ユニバーサル・ナレッジ・コア (Universal Knowledge Core, UKC) は、言語多様性と数千以上の言語をカバーする多言語語彙データベースである。 データベースとそのツールとデータカタログの目的は、多様性というやや抽象的な概念を人間にとって視覚的に理解し、マシンによって公式に活用できるようにすることである。 UKCのWebサイトでは、何百万もの個々の単語とその意味を探索できるだけでなく、共通言語間の意味、語彙の類似性、コグネートクラスタ、語彙的ギャップなど、言語間収束とばらつきの現象も見られる。 ukc livelanguage catalogは、コンピュータ処理可能な形式の語彙データへのアクセスを提供し、言語横断アプリケーションで再利用できるようにしている。

The Universal Knowledge Core (UKC) is a large multilingual lexical database with a focus on language diversity and covering over a thousand languages. The aim of the database, as well as its tools and data catalogue, is to make the somewhat abstract notion of diversity visually understandable for humans and formally exploitable by machines. The UKC website lets users explore millions of individual words and their meanings, but also phenomena of cross-lingual convergence and divergence, such as shared interlingual meanings, lexicon similarities, cognate clusters, or lexical gaps. The UKC LiveLanguage Catalogue, in turn, provides access to the underlying lexical data in a computer-processable form, ready to be reused in cross-lingual applications.
翻訳日:2022-03-10 15:17:55 公開日:2022-03-09
# 階層型ラテント言語を用いたデモンストレーションからのワンショット学習

One-Shot Learning from a Demonstration with Hierarchical Latent Language ( http://arxiv.org/abs/2203.04806v1 )

ライセンス: Link先を確認
Nathaniel Weir and Xingdi Yuan and Marc-Alexandre C\^ot\'e and Matthew Hausknecht and Romain Laroche and Ida Momennejad and Harm Van Seijen and Benjamin Van Durme(参考訳) 人間は、言語の表現力のある構成性によって助けられ、デモンストレーションによって素早く学ぶ能力を持っている。 見えないタスク実行手順を記述し、実行を他のコンテキストに一般化することができる。 本研究では,タスクを言語的に,手続き的に基本概念から構成する,グラウンドエージェントにおけるこの種の一般化スキルをテストする環境である describeworld を紹介する。 エージェントはMinecraftのようなグリッドでひとつのタスクのデモを観察し、新しいマップで同じタスクを実行するように要求される。 このような一般化を実現するために,タスク推論とサブタスク計画の両レベルで階層的潜在言語を取り入れたニューラルエージェントを提案する。 我々のエージェントはまず、証明されていないタスクのテキスト記述を生成し、次にこの記述を利用してそれを複製する。 複数の評価シナリオと一連の一般化テストを通して、テキストベースの推論を行うエージェントは、タスクをランダムに分割した状態での課題に対してより適当であることがわかった。

Humans have the capability, aided by the expressive compositionality of their language, to learn quickly by demonstration. They are able to describe unseen task-performing procedures and generalize their execution to other contexts. In this work, we introduce DescribeWorld, an environment designed to test this sort of generalization skill in grounded agents, where tasks are linguistically and procedurally composed of elementary concepts. The agent observes a single task demonstration in a Minecraft-like grid world, and is then asked to carry out the same task in a new map. To enable such a level of generalization, we propose a neural agent infused with hierarchical latent language--both at the level of task inference and subtask planning. Our agent first generates a textual description of the demonstrated unseen task, then leverages this description to replicate it. Through multiple evaluation scenarios and a suite of generalization tests, we find that agents that perform text-based inference are better equipped for the challenge under a random split of tasks.
翻訳日:2022-03-10 15:17:40 公開日:2022-03-09
# ModulE:知識グラフのためのモジュール埋め込み

ModulE: Module Embedding for Knowledge Graphs ( http://arxiv.org/abs/2203.04702v1 )

ライセンス: Link先を確認
Jingxuan Chai and Guangming Shi(参考訳) 知識グラフ埋め込み(KGE)は知識グラフの欠落リンクを予測する強力なツールであることが示されている。 しかし、既存の手法は主に関係パターンのモデル化に焦点を合わせ、単に実体、複素体、四元空間といったベクトル空間にエンティティを埋め込む。 より厳密で理論的な観点から埋め込み空間をモデル化するために、回転に基づくモデルのための新しい一般群論に基づく埋め込みフレームワークを提案する。 さらに、より利用可能な KGE モデルを探索するために、より一般的な群構造、加群、ベクトル空間の一般化概念を利用する。 具体的には、より汎用的な組み込みメソッドであるモジュールを導入し、そのモジュールにエンティティを投影します。 module$_{\mathbb{r},\mathbb{c}}$, module$_{\mathbb{r},\mathbb{h}}$ と module$_{\mathbb{h},\mathbb{h}}$ の3つのインスタンスモデルを構築した。 実験結果は、非可換環上のモジュールにエンティティを埋め込むモジュール$_{\mathbb{h},\mathbb{h}}$が、複数のベンチマークデータセットで最先端のパフォーマンスを達成することを示した。

Knowledge graph embedding (KGE) has been shown to be a powerful tool for predicting missing links of a knowledge graph. However, existing methods mainly focus on modeling relation patterns, while simply embed entities to vector spaces, such as real field, complex field and quaternion space. To model the embedding space from a more rigorous and theoretical perspective, we propose a novel general group theory-based embedding framework for rotation-based models, in which both entities and relations are embedded as group elements. Furthermore, in order to explore more available KGE models, we utilize a more generic group structure, module, a generalization notion of vector space. Specifically, under our framework, we introduce a more generic embedding method, ModulE, which projects entities to a module. Following the method of ModulE, we build three instantiating models: ModulE$_{\mathbb{R},\mathbb{C}}$, ModulE$_{\mathbb{R},\mathbb{H}}$ and ModulE$_{\mathbb{H},\mathbb{H}}$, by adopting different module structures. Experimental results show that ModulE$_{\mathbb{H},\mathbb{H}}$ which embeds entities to a module over non-commutative ring, achieves state-of-the-art performance on multiple benchmark datasets.
翻訳日:2022-03-10 15:17:23 公開日:2022-03-09
# エッジ上のディープニューラルネットワークの更新圧縮

Update Compression for Deep Neural Networks on the Edge ( http://arxiv.org/abs/2203.04516v1 )

ライセンス: Link先を確認
Bo Chen, Ali Bakhshi, Gustavo Batista, Brian Ng, Tat-Jun Chin(参考訳) 人工知能(AI)アプリケーションの増加には、エッジデバイス上でのディープニューラルネットワーク(DNN)の実行が含まれる。 多くの実用的な理由により、モデルの洗練、コンセプトドリフト、学習タスクの完全な変更など、デプロイ後のエッジデバイス上でdnnモデルを更新する必要がある。 本稿では,dnnモデルのコピーに基づいてサーバ側で再トレーニングを行い,デプロイされたモデルを更新するために必要なデータのみをエッジに送信するシナリオについて検討する。 しかし,帯域幅の制約のため,更新に必要な伝送量を最小にしたい。 モデル更新を圧縮するために行列分解に基づく単純なアプローチを開発します -- これはモデル自体を圧縮するのと異なります。 重要なアイデアは、現在のモデルで既存の知識を保存し、エッジでモデルを再構成するために使用できるアップデートの小さな追加パラメータのみを最適化することだ。 本手法を連合学習における類似技術と比較し,同じ精度を達成するためには既存手法の更新サイズの半分以下が必要となるのが普通であった。

An increasing number of artificial intelligence (AI) applications involve the execution of deep neural networks (DNNs) on edge devices. Many practical reasons motivate the need to update the DNN model on the edge device post-deployment, such as refining the model, concept drift, or outright change in the learning task. In this paper, we consider the scenario where retraining can be done on the server side based on a copy of the DNN model, with only the necessary data transmitted to the edge to update the deployed model. However, due to bandwidth constraints, we want to minimise the transmission required to achieve the update. We develop a simple approach based on matrix factorisation to compress the model update -- this differs from compressing the model itself. The key idea is to preserve existing knowledge in the current model and optimise only small additional parameters for the update which can be used to reconstitute the model on the edge. We compared our method to similar techniques used in federated learning; our method usually requires less than half of the update size of existing methods to achieve the same accuracy.
翻訳日:2022-03-10 15:15:14 公開日:2022-03-09
# ChiTransformer:キューから信頼性の高いステレオへ

ChiTransformer:Towar ds Reliable Stereo from Cues ( http://arxiv.org/abs/2203.04554v1 )

ライセンス: Link先を確認
Qing Su, Shihao Ji(参考訳) 現在のステレオマッチング技術は、制限された探索空間、オクルードされた領域、そして大きさによって挑戦される。 単一画像深度推定はこれらの課題から回避され、抽出された単眼手がかりで満足な結果が得られるが、立体的関係の欠如は単眼予測の信頼性を低下させる。 両シナリオでこれらの課題に対処するため,視覚変換器(ViT)にGPCA層を施し,自己注意によって集約された広範囲なコンテキスト情報を保持しつつ,ビュー間の特徴感度パターンの検索を可能にする。 その後、取得したパターン対とのブレンディング層により、単一のビューからの単眼的手がかりを条件的に修正する。 このクロスオーバー設計は、生物学的に人間の視覚系における光学チャスマ構造と類似している。 実験により,本アーキテクチャは最先端の自己教師型ステレオアプローチよりも11%向上し,リチリニアおよび非直立線形(魚眼など)の画像でも使用できることがわかった。

Current stereo matching techniques are challenged by restricted searching space, occluded regions, and sheer size. While single image depth estimation is spared from these challenges and can achieve satisfactory results with the extracted monocular cues, the lack of stereoscopic relationship renders the monocular prediction less reliable on its own, especially in highly dynamic or cluttered environments. To address these issues in both scenarios, we present an optic-chiasm-inspire d self-supervised binocular depth estimation method, wherein vision transformer (ViT) with a gated positional cross-attention (GPCA) layer is designed to enable feature-sensitive pattern retrieval between views while retaining the extensive context information aggregated through self-attentions. Monocular cues from a single view are thereafter conditionally rectified by a blending layer with the retrieved pattern pairs. This crossover design is biologically analogous to the optic-chasma structure in human visual system and hence the name, ChiTransformer. Our experiments show that this architecture yields substantial improvements over state-of-the-art self-supervised stereo approaches by 11%, and can be used on both rectilinear and non-rectilinear (e.g., fisheye) images.
翻訳日:2022-03-10 15:14:58 公開日:2022-03-09
# ソースフリービデオ領域適応のための時間一貫性の学習

Learning Temporal Consistency for Source-Free Video Domain Adaptation ( http://arxiv.org/abs/2203.04559v1 )

ライセンス: Link先を確認
Yuecong Xu, Jianfei Yang, Haozhi Cao, Keyu Wu, Wu Min, Zhenghua Chen(参考訳) ビデオベースのUnsupervised Domain Adaptation (VUDA)メソッドは、ビデオモデルの堅牢性を改善し、異なる環境におけるアクション認識タスクに適用できるようにする。 しかし,これらの手法は適応処理中に常にソースデータにアクセスする必要がある。 しかし、多くの現実世界のアプリケーションでは、ソースビデオドメインの主題やシーンは、ターゲットビデオドメインのものと無関係であるべきです。 データプライバシに重点を置いているため、ソースデータアクセスを必要とするメソッドは深刻なプライバシー問題を引き起こす。 したがって、そのような問題に対処するため、より実用的なドメイン適応シナリオを、SFVDA (Source-Free Video-based Domain Adaptation) として定式化する。 画像データには Source-Free Domain Adaptation (SFDA) の方法がいくつかあるが、ビデオのマルチモーダル性によりSFVDAの性能が劣化し、追加の時間的特徴がある。 本稿では,局所的な時間的特徴にまたがる特徴的一貫性とソース予測的一貫性という2つの新しい目標によって保証される時間的一貫性を学習することにより,sfvdaに対処する新しい注意的時間的一貫性ネットワーク(atcon)を提案する。 ATCoNはさらに、予測信頼度に基づいて、局所的な時間的特徴に出席することで、効果的な全体時間的特徴を構築する。 実験により,様々なドメイン間動作認識ベンチマークにおけるATCoNの最先端性能が実証された。

Video-based Unsupervised Domain Adaptation (VUDA) methods improve the robustness of video models, enabling them to be applied to action recognition tasks across different environments. However, these methods require constant access to source data during the adaptation process. Yet in many real-world applications, subjects and scenes in the source video domain should be irrelevant to those in the target video domain. With the increasing emphasis on data privacy, such methods that require source data access would raise serious privacy issues. Therefore, to cope with such concern, a more practical domain adaptation scenario is formulated as the Source-Free Video-based Domain Adaptation (SFVDA). Though there are a few methods for Source-Free Domain Adaptation (SFDA) on image data, these methods yield degenerating performance in SFVDA due to the multi-modality nature of videos, with the existence of additional temporal features. In this paper, we propose a novel Attentive Temporal Consistent Network (ATCoN) to address SFVDA by learning temporal consistency, guaranteed by two novel consistency objectives, namely feature consistency and source prediction consistency, performed across local temporal features. ATCoN further constructs effective overall temporal features by attending to local temporal features based on prediction confidence. Empirical results demonstrate the state-of-the-art performance of ATCoN across various cross-domain action recognition benchmarks.
翻訳日:2022-03-10 15:14:33 公開日:2022-03-09
# ラベル付きサンプルの高速学習のためのアクティブセルフセミビジョン学習

Active Self-Semi-Supervised Learning for Few Labeled Samples Fast Training ( http://arxiv.org/abs/2203.04560v1 )

ライセンス: Link先を確認
Ziting Wen, Oscar Pizarro, Stefan Williams(参考訳) トレーニングの高速化とアノテーションの削減は、さまざまな実践領域に深層モデルを適用する上で重要な2つの問題である。 現在、半教師付き学習は、少ないアノテーションでトレーニングで大きな成功を収めている。 しかしながら、ランダムサンプリングによって生成される低品質のラベル付きサンプルは、アノテーションの数を減らすのが難しくなる。 本稿では,自己教師付き特徴のラベル伝搬により先行する先行擬似ラベルを用いた半教師付きモデルのブートストラップを行うアクティブな自己教師付き学習フレームワークを提案する。 なぜなら、事前の精度は特徴の質だけでなく、ラベル付きサンプルの選択によっても影響を受けるからである。 我々は,より優れた擬似ラベルを得るために,能動的学習とラベル伝搬戦略を開発した。 その結果,アノテーションをほとんど使わずにモデルの性能を大幅に向上し,トレーニング時間を大幅に短縮できる。 3つの半教師付き学習ベンチマークの実験は効果を示す。 本手法は,訓練時間の約1/3で標準半教師付きアプローチと同様の精度を実現し,アノテーションの少ない場合(cifar-10では84.10\%,ラベル10。

Faster training and fewer annotations are two key issues for applying deep models to various practical domains. Now, semi-supervised learning has achieved great success in training with few annotations. However, low-quality labeled samples produced by random sampling make it difficult to continue to reduce the number of annotations. In this paper we propose an active self-semi-supervised training framework that bootstraps semi-supervised models with good prior pseudo-labels, where the priors are obtained by label propagation over self-supervised features. Because the accuracy of the prior is not only affected by the quality of features, but also by the selection of the labeled samples. We develop active learning and label propagation strategies to obtain better prior pseudo-labels. Consequently, our framework can greatly improve the performance of models with few annotations and greatly reduce the training time. Experiments on three semi-supervised learning benchmarks demonstrate effectiveness. Our method achieves similar accuracy to standard semi-supervised approaches in about 1/3 of the training time, and even outperform them when fewer annotations are available (84.10\% in CIFAR-10 with 10 labels).
翻訳日:2022-03-10 15:14:11 公開日:2022-03-09
# 地域認識型顔スワッピング

Region-Aware Face Swapping ( http://arxiv.org/abs/2203.04564v1 )

ライセンス: Link先を確認
Chao Xu, Jiangning Zhang, Miao Hua, Qian He, Zili Yi, Yong Liu(参考訳) 本稿では, 局所的な顔領域認識 (fra) の分岐部である \textbf{1)} を用いて, 同一性に一貫性のある高分解能顔生成を実現するために, トランスフォーマを導入することで, クロススケールな意味的相互作用を効果的にモデル化する手法を提案する。 \textbf{2} Global Source Feature-Adaptive (SFA)ブランチは、アイデンティティ一貫性のあるスワップされた顔を生成するグローバルID関連キューをさらに補完する。 さらに,StyleGAN2 に組み込まれた \textit{Face Mask Predictor} (FMP) モジュールを提案する。 定性的かつ定量的な実験により,SOTA法よりも高精細度で高精細度な顔を生成する方法が,SOTA MegaFSを5.87$\uparrow$で上回る96.70のID検索で得られた。

This paper presents a novel Region-Aware Face Swapping (RAFSwap) network to achieve identity-consistent harmonious high-resolution face generation in a local-global manner: \textbf{1)} Local Facial Region-Aware (FRA) branch augments local identity-relevant features by introducing the Transformer to effectively model misaligned cross-scale semantic interaction. \textbf{2)} Global Source Feature-Adaptive (SFA) branch further complements global identity-relevant cues for generating identity-consistent swapped faces. Besides, we propose a \textit{Face Mask Predictor} (FMP) module incorporated with StyleGAN2 to predict identity-relevant soft facial masks in an unsupervised manner that is more practical for generating harmonious high-resolution faces. Abundant experiments qualitatively and quantitatively demonstrate the superiority of our method for generating more identity-consistent high-resolution swapped faces over SOTA methods, \eg, obtaining 96.70 ID retrieval that outperforms SOTA MegaFS by 5.87$\uparrow$.
翻訳日:2022-03-10 15:13:52 公開日:2022-03-09
# トレーニングフリーハイブリッド画像変換による非ボックス逆攻撃

Practical No-box Adversarial Attacks with Training-free Hybrid Image Transformation ( http://arxiv.org/abs/2203.04607v1 )

ライセンス: Link先を確認
Qilong Zhang, Chaoning Zhang, Chaoqun Li, Jingkuan Song, Lianli Gao, Heng Tao Shen(参考訳) 近年、ディープニューラルネットワーク(DNN)の敵対的脆弱性が注目されている。 すべての脅威モデルの中で、No-box攻撃は最も実用的だが、ターゲットモデルや類似の代替モデルに関する知識を頼らず、新しい代替モデルをトレーニングするためのデータセットにアクセスできないため、非常に難しい。 近年の手法ではそのような攻撃を緩やかに試みているが、その性能は不十分であり、訓練の計算オーバーヘッドは高価である。 本稿では,No-box 脅威モデルの下での textbf{training-free} 対向摂動の存在を一歩前進させ,実時間で異なる DNN を攻撃するのに有効であることを示す。 低レベルの特徴を持つ高周波成分(HFC)ドメインが分類において重要な役割を担っていることを観察した結果、我々は主に周波数成分を操作することで画像を攻撃する。 具体的には、元のhfcの抑制とノイズhfcの添加により摂動を制御する。 実効性雑音性HFCの要件を実験的,実験的に分析し,局所的に均一で反復的で密度が高いことを示す。 ImageNetデータセットの大規模な実験により,提案手法の有効性が示された。 これはよく知られた10のモデルに対して平均で \textbf{98.13\%} の成功率で攻撃し、これは \textbf{29.39\%} による最先端のno-box攻撃を上回っている。 さらに,本手法は主流転送ベースのブラックボックス攻撃と競合する。

In recent years, the adversarial vulnerability of deep neural networks (DNNs) has raised increasing attention. Among all the threat models, no-box attacks are the most practical but extremely challenging since they neither rely on any knowledge of the target model or similar substitute model, nor access the dataset for training a new substitute model. Although a recent method has attempted such an attack in a loose sense, its performance is not good enough and computational overhead of training is expensive. In this paper, we move a step forward and show the existence of a \textbf{training-free} adversarial perturbation under the no-box threat model, which can be successfully used to attack different DNNs in real-time. Motivated by our observation that high-frequency component (HFC) domains in low-level features and plays a crucial role in classification, we attack an image mainly by manipulating its frequency components. Specifically, the perturbation is manipulated by suppression of the original HFC and adding of noisy HFC. We empirically and experimentally analyze the requirements of effective noisy HFC and show that it should be regionally homogeneous, repeating and dense. Extensive experiments on the ImageNet dataset demonstrate the effectiveness of our proposed no-box method. It attacks ten well-known models with a success rate of \textbf{98.13\%} on average, which outperforms state-of-the-art no-box attacks by \textbf{29.39\%}. Furthermore, our method is even competitive to mainstream transfer-based black-box attacks.
翻訳日:2022-03-10 15:13:31 公開日:2022-03-09
# 物理的敵パッチの評価と生成

Evaluation and Generation of Physical Adversarial Patch ( http://arxiv.org/abs/2203.04623v1 )

ライセンス: Link先を確認
Xiao Yang, Yinpeng Dong, Tianyu Pang, Zihao Xiao, Hang Su, Jun Zhu(参考訳) 近年の研究では、顔認証システムのセキュリティ上の懸念を生じさせる物理的敵パッチに対する顔認識モデルの脆弱性が明らかにされている。 しかし、複雑な物理条件下での攻撃アルゴリズムの再現性を確保することは依然として困難であり、既存の手法の体系的評価が欠如している。 したがって、物理的世界における顔認識の脆弱性を包括的に評価できるフレームワークを開発することが不可欠である。 そこで,本稿では,物理的顔のデジタル対応として機能する3d顔モデルを用いて,物理的世界における顔の複雑な変換をシミュレートする。 汎用フレームワークは、さまざまな顔のバリエーションや物理的条件を制御し、再現可能な評価を包括的に行うことができる。 このデジタルシミュレータを用いて,3次元顔変換とリアルな物理的変動を考慮したface3dadv法を提案する。 広範な実験により、face3dadvは様々なホワイトボックスとブラックボックスの顔認識モデルに対して、シミュレートされた環境と物理的環境の両方において、様々な物理的に実現可能な敵パッチの有効性を著しく改善できることが確認された。

Recent studies have revealed the vulnerability of face recognition models against physical adversarial patches, which raises security concerns about the deployed face recognition systems. However, it is still challenging to ensure the reproducibility for most attack algorithms under complex physical conditions, which leads to the lack of a systematic evaluation of the existing methods. It is therefore imperative to develop a framework that can enable a comprehensive evaluation of the vulnerability of face recognition in the physical world. To this end, we propose to simulate the complex transformations of faces in the physical world via 3D-face modeling, which serves as a digital counterpart of physical faces. The generic framework allows us to control different face variations and physical conditions to conduct reproducible evaluations comprehensively. With this digital simulator, we further propose a Face3DAdv method considering the 3D face transformations and realistic physical variations. Extensive experiments validate that Face3DAdv can significantly improve the effectiveness of diverse physically realizable adversarial patches in both simulated and physical environments, against various white-box and black-box face recognition models.
翻訳日:2022-03-10 15:13:04 公開日:2022-03-09
# (参考訳) 身体的フィードバックから学ぶ:オブジェクト中心のワンショット適応法 [全文訳有]

Learning from Physical Human Feedback: An Object-Centric One-Shot Adaptation Method ( http://arxiv.org/abs/2203.04951v1 )

ライセンス: CC BY 4.0
Alvin Shek, Rui Chen and Changliu Liu(参考訳) ロボットが新しい環境やタスクに効果的に展開するためには、介入中に人間が示すフィードバックを理解する必要がある。 これは望ましくない振る舞いを修正するか、追加の好みを示すことができる。 既存の手法では、繰り返し発生するインタラクションや、データ非効率で新しいタスクへの転送がほとんどできない既知の報酬機能を前提としています。 人間のタスクをオブジェクト中心のサブタスクで記述し、特定のオブジェクトに関連する物理的介入を解釈することで、これらの仮定を緩和する。 提案手法であるObject Preference Adaptation (OPA)は,2つの重要な段階から構成される。 1) 多様な行動を生み出すための基本方針を事前学習すること、及び 2)モデル内の特定の重みのみを人間のフィードバックに従ってオンラインアップする。 高速でシンプルな適応の鍵は、エージェントとオブジェクト間の一般的な相互作用のダイナミクスが固定され、オブジェクト固有の好みだけが更新されることです。 私たちの適応はオンラインで行われ、人間の介入(ワンショット)を1つだけ必要とします。 高価な人間のデモではなく、安価な合成データに基づいてトレーニングされたこのポリシーは、ユーザ研究における挑戦的で現実的なタスクに対する人間の摂動に印象的な適応を示している。 ビデオ、コード、補足資料。

For robots to be effectively deployed in novel environments and tasks, they must be able to understand the feedback expressed by humans during intervention. This can either correct undesirable behavior or indicate additional preferences. Existing methods either require repeated episodes of interactions or assume prior known reward features, which is data-inefficient and can hardly transfer to new tasks. We relax these assumptions by describing human tasks in terms of object-centric sub-tasks and interpreting physical interventions in relation to specific objects. Our method, Object Preference Adaptation (OPA), is composed of two key stages: 1) pre-training a base policy to produce a wide variety of behaviors, and 2) online-updating only certain weights in the model according to human feedback. The key to our fast, yet simple adaptation is that general interaction dynamics between agents and objects are fixed, and only object-specific preferences are updated. Our adaptation occurs online, requires only one human intervention (one-shot), and produces new behaviors never seen during training. Trained on cheap synthetic data instead of expensive human demonstrations, our policy demonstrates impressive adaptation to human perturbations on challenging, realistic tasks in our user study. Videos, code, and supplementary material provided.
翻訳日:2022-03-10 15:11:46 公開日:2022-03-09
# 不確かさの定量化のための構造と分布指標--ガウス過程、ディープニューラルネット、および回帰のためのディープニューラル演算子の評価

Structure and Distribution Metric for Quantifying the Quality of Uncertainty: Assessing Gaussian Processes, Deep Neural Nets, and Deep Neural Operators for Regression ( http://arxiv.org/abs/2203.04515v1 )

ライセンス: Link先を確認
Ethan Pickering and Themistoklis P. Sapsis(参考訳) 回帰タスクの任意の次元に実装可能な2つの有界比較指標を提案する。 不確実性の構造を定量化し、一方は不確実性の分布を定量化する。 構造計量は、真の誤差で不確かさの形状と位置の類似性を評価し、分布計量は2つの間の支持された大きさを定量化する。 これらのメトリクスを高次元および非線形テストケースにおけるガウス過程(GP)、アンサンブルディープニューラルネット(DNN)、およびアンサンブルディープニューラルオペレータ(DNO)に適用する。 モデルの不確実性推定とモデルの2乗誤差を比較することは、説得力のある基礎的真理評価をもたらす。 また, DNN と DNO はともに,特に GP と比較した場合, 疎度あるいは多量なデータを用いて高次元の計量値を提供する。

We propose two bounded comparison metrics that may be implemented to arbitrary dimensions in regression tasks. One quantifies the structure of uncertainty and the other quantifies the distribution of uncertainty. The structure metric assesses the similarity in shape and location of uncertainty with the true error, while the distribution metric quantifies the supported magnitudes between the two. We apply these metrics to Gaussian Processes (GPs), Ensemble Deep Neural Nets (DNNs), and Ensemble Deep Neural Operators (DNOs) on high-dimensional and nonlinear test cases. We find that comparing a model's uncertainty estimates with the model's squared error provides a compelling ground truth assessment. We also observe that both DNNs and DNOs, especially when compared to GPs, provide encouraging metric values in high dimensions with either sparse or plentiful data.
翻訳日:2022-03-10 14:55:57 公開日:2022-03-09
# SparseChem: 小さな分子の高速かつ正確な機械学習モデル

SparseChem: Fast and accurate machine learning model for small molecules ( http://arxiv.org/abs/2203.04676v1 )

ライセンス: Link先を確認
Adam Arany, Jaak Simm, Martijn Oldenhof and Yves Moreau(参考訳) SparseChemは、生化学応用のための高速で正確な機械学習モデルを提供する。 特に、パッケージは非常に高次元のスパース入力、例えば数百万の特徴と数百万の化合物をサポートしている。 分類、回帰、検閲された回帰モデル、あるいはそれらの組み合わせをコマンドラインから訓練することができる。 さらに、ライブラリはPythonから直接アクセスすることができる。 ソースコードとドキュメンテーションはMIT License on GitHubで無料で入手できる。

SparseChem provides fast and accurate machine learning models for biochemical applications. Especially, the package supports very high-dimensional sparse inputs, e.g., millions of features and millions of compounds. It is possible to train classification, regression and censored regression models, or combination of them from command line. Additionally, the library can be accessed directly from Python. Source code and documentation is freely available under MIT License on GitHub.
翻訳日:2022-03-10 14:55:40 公開日:2022-03-09
# 自己回帰型ドリフト検出方法

Autoregressive based Drift Detection Method ( http://arxiv.org/abs/2203.04769v1 )

ライセンス: Link先を確認
Mansour Zoubeirou A Mayaki and Michel Riveill(参考訳) 古典的な機械学習フレームワークでは、モデルは過去のデータに基づいてトレーニングされ、将来の価値を予測するために使用される。 データ分布は時間とともに変化しない(定常性)と仮定される。 しかし、現実のシナリオでは、データ生成プロセスは時間とともに変化し、モデルは新しい入力データに適応する必要があります。 この現象は概念ドリフトと呼ばれ、予測モデルの性能が低下する。 本研究では,ADDMと呼ばれる自己回帰モデルに基づく新しいドリフト検出手法を提案する。 この方法は、ディープニューラルネットワークから単純な線形回帰モデルまで、あらゆる機械学習アルゴリズムに統合することができる。 提案手法は, 合成データセットと実世界のデータセットの両方において, 最先端のドリフト検出方法よりも優れていることを示す。 提案手法は理論的に保証され,様々な概念ドリフトの検出に有効である。 ドリフト検出器に加えて,ドリフトの重大度に基づく新しいドリフト適応法を提案した。

In the classic machine learning framework, models are trained on historical data and used to predict future values. It is assumed that the data distribution does not change over time (stationarity). However, in real-world scenarios, the data generation process changes over time and the model has to adapt to the new incoming data. This phenomenon is known as concept drift and leads to a decrease in the predictive model's performance. In this study, we propose a new concept drift detection method based on autoregressive models called ADDM. This method can be integrated into any machine learning algorithm from deep neural networks to simple linear regression model. Our results show that this new concept drift detection method outperforms the state-of-the-art drift detection methods, both on synthetic data sets and real-world data sets. Our approach is theoretically guaranteed as well as empirical and effective for the detection of various concept drifts. In addition to the drift detector, we proposed a new method of concept drift adaptation based on the severity of the drift.
翻訳日:2022-03-10 14:55:34 公開日:2022-03-09
# Y Combinatorの脳外科医:ニューラルネットワークでお互いを支え合う体重を刈る

The Combinatorial Brain Surgeon: Pruning Weights That Cancel One Another in Neural Networks ( http://arxiv.org/abs/2203.04466v1 )

ライセンス: Link先を確認
Xin Yu, Thiago Serra, Shandian Zhe, Srikumar Ramalingam(参考訳) Neural networks tend to achieve better accuracy with training if they are larger -- even if the resulting models are overparameterized. Nevertheless, carefully removing such excess parameters before, during, or after training may also produce models with similar or even improved accuracy. In many cases, that can be curiously achieved by heuristics as simple as removing a percentage of the weights with the smallest absolute value -- even though magnitude is not a perfect proxy for weight relevance. 複数の重みを除去する複合効果を考慮に入れることにより、プルーニングの性能が著しく向上するという前提から、インパクトベースプルーニングにおける古典的なアプローチの1つ、最適脳サージョン(OBS)を再考する。 本稿では,OBSの組合せ拡張を解くためのトラクタブルヒューリスティックを提案し,同時に除去するウェイトを選択するとともに,残りのウェイトを体系的に更新する。 提案手法は,他の手法を高いスパース性で上回り,他の手法と組み合わせても重み付けが有利である。

Neural networks tend to achieve better accuracy with training if they are larger -- even if the resulting models are overparameterized. Nevertheless, carefully removing such excess parameters before, during, or after training may also produce models with similar or even improved accuracy. In many cases, that can be curiously achieved by heuristics as simple as removing a percentage of the weights with the smallest absolute value -- even though magnitude is not a perfect proxy for weight relevance. With the premise that obtaining significantly better performance from pruning depends on accounting for the combined effect of removing multiple weights, we revisit one of the classic approaches for impact-based pruning: the Optimal Brain Surgeon~(OBS). We propose a tractable heuristic for solving the combinatorial extension of OBS, in which we select weights for simultaneous removal, as well as a systematic update of the remaining weights. Our selection method outperforms other methods under high sparsity, and the weight update is advantageous even when combined with the other methods.
翻訳日:2022-03-10 14:54:47 公開日:2022-03-09
# CEU-Net:クラスタリングを用いたハイパースペクトル画像のセマンティックセグメンテーション

CEU-Net: Ensemble Semantic Segmentation of Hyperspectral Images Using Clustering ( http://arxiv.org/abs/2203.04873v1 )

ライセンス: Link先を確認
Nicholas Soucy, Salimeh Yasaei Sekeh(参考訳) ハイパースペクトル画像(HSI)のほとんどのセマンティックセグメンテーションアプローチは、リモートセンシング画像における多様な土地被覆を正確に分類するために、パッチ方式の事前処理ステップを必要とする。 これらのアプローチでは、画像にリッチな近傍情報を統合するためにパッチを使用し、最も一般的なHSIデータセットの単純さとセグメンタビリティを活用する。 対照的に、世界のほとんどの地塊は重なり合ったクラスと拡散したクラスで構成されており、一般的なHSIデータセットで見られるものよりも周辺情報を弱めている。 この問題に対処し、より複雑で多様なHSIデータセットにセグメンテーションモデルを一般化するために、我々は新しいフラッグシップモデルであるClustering Ensemble U-Net(CEU-Net)を提案する。 CEU-Netはアンサンブル法を用いて、ランドスケープピクセルのクラスタ上での畳み込みニューラルネットワーク(CNN)トレーニングから抽出されたスペクトル情報を合成する。 ceu-netモデルは,既存のhsiセマンティクスセグメンテーション手法を上回り,ベースラインモデルと比較してパッチを施すことなく,競合性能を得る。 Botswana、KSC、SalinasのデータセットにおけるCEU-Netのハイパフォーマンスを、HybridSNやAeroRITメソッドと比較して強調する。

Most semantic segmentation approaches of Hyperspectral images (HSIs) use and require preprocessing steps in the form of patching to accurately classify diversified land cover in remotely sensed images. These approaches use patching to incorporate the rich neighborhood information in images and exploit the simplicity and segmentability of the most common HSI datasets. In contrast, most landmasses in the world consist of overlapping and diffused classes, making neighborhood information weaker than what is seen in common HSI datasets. To combat this issue and generalize the segmentation models to more complex and diverse HSI datasets, in this work, we propose our novel flagship model: Clustering Ensemble U-Net (CEU-Net). CEU-Net uses the ensemble method to combine spectral information extracted from convolutional neural network (CNN) training on a cluster of landscape pixels. Our CEU-Net model outperforms existing state-of-the-art HSI semantic segmentation methods and gets competitive performance with and without patching when compared to baseline models. We highlight CEU-Net's high performance across Botswana, KSC, and Salinas datasets compared to HybridSN and AeroRIT methods.
翻訳日:2022-03-10 14:54:29 公開日:2022-03-09
# コンピュータビジョンのレベルダウン:公正な深層分類器におけるパレート非効率性

Leveling Down in Computer Vision: Pareto Inefficiencies in Fair Deep Classifiers ( http://arxiv.org/abs/2203.04913v1 )

ライセンス: Link先を確認
Dominik Zietlow, Michael Lohaus, Guha Balakrishnan, Matth\"aus Kleindessner, Francesco Locatello, Bernhard Sch\"olkopf, Chris Russell(参考訳) アルゴリズムの公平性は、アルゴリズムが精度が低い不利なグループの性能を改善するために、全体的な性能が低下するトレードオフの観点からしばしば動機付けられる。 それとは対照的に、コンピュータビジョンに既存のフェアネスアプローチを適用すると、すべてのグループで分類器の性能が低下し、公平性が向上する(最高のパフォーマンスグループでは劣化が増加する)。 低容量モデルのために設計されたフェアネス分類器の大部分が、コンピュータビジョンに共通するシナリオである高容量モデルを含む設定では使用すべきでない理由を理論的に説明する。 コンピュータビジョンで使われる公正なヒューリスティックの多くは、最も不利なグループのパフォーマンスを低下させることを示している。 そこで本研究では,これらの知見に基づいて,不利なグループのパフォーマンスを向上させるための適応的拡張戦略を提案する。

Algorithmic fairness is frequently motivated in terms of a trade-off in which overall performance is decreased so as to improve performance on disadvantaged groups where the algorithm would otherwise be less accurate. Contrary to this, we find that applying existing fairness approaches to computer vision improve fairness by degrading the performance of classifiers across all groups (with increased degradation on the best performing groups). Extending the bias-variance decomposition for classification to fairness, we theoretically explain why the majority of fairness classifiers designed for low capacity models should not be used in settings involving high-capacity models, a scenario common to computer vision. We corroborate this analysis with extensive experimental support that shows that many of the fairness heuristics used in computer vision also degrade performance on the most disadvantaged groups. Building on these insights, we propose an adaptive augmentation strategy that, uniquely, of all methods tested, improves performance for the disadvantaged groups.
翻訳日:2022-03-10 14:53:26 公開日:2022-03-09
# 幾何学的タスクと動作計画のための表現・学習・計画アルゴリズム

Representation, learning, and planning algorithms for geometric task and motion planning ( http://arxiv.org/abs/2203.04605v1 )

ライセンス: Link先を確認
Beomjoon Kim, Luke Shimanuki, Leslie Pack Kaelbling, Tom\'as Lozano-P\'erez(参考訳) 本稿では,幾何学的タスクと運動計画(GTAMP)を学習するためのフレームワークを提案する。 GTAMPはタスクと動作計画のサブクラスであり、複数の物体を可動障害物内の対象領域に移動させることが目的である。 GTAMP問題には、ハイブリッド検索空間と高価なアクション実現可能性チェックが含まれるため、標準グラフ探索アルゴリズムは直接適用されない。 これに対処するために,ランダムサンプリングによる基本ヒューリスティック探索と,有望な状態動作ペアに対して実現可能性チェックを優先するヒューリスティック関数を拡張する新しいプランナーを提案する。 このような純粋なプランナーの主な欠点は、効率を改善するために計画経験から学ぶ能力がないことです。 これに対処するための学習アルゴリズムを2つ提案する。 第1のアルゴリズムは離散タスクレベル探索を導くランク関数を学習するアルゴリズムであり,第2のアルゴリズムは連続モーションレベル探索を誘導するサンプルラーを学習するアルゴリズムである。 本稿では,計画経験から学習するためのデータ効率的なアルゴリズムを設計するための設計原則と,効率的な一般化のための表現を提案する。 我々はgtamp問題に取り組むためのフレームワークを評価し、計画とデータ効率の両方を改善することができることを示す。

We present a framework for learning to guide geometric task and motion planning (GTAMP). GTAMP is a subclass of task and motion planning in which the goal is to move multiple objects to target regions among movable obstacles. A standard graph search algorithm is not directly applicable, because GTAMP problems involve hybrid search spaces and expensive action feasibility checks. To handle this, we introduce a novel planner that extends basic heuristic search with random sampling and a heuristic function that prioritizes feasibility checking on promising state action pairs. The main drawback of such pure planners is that they lack the ability to learn from planning experience to improve their efficiency. We propose two learning algorithms to address this. The first is an algorithm for learning a rank function that guides the discrete task level search, and the second is an algorithm for learning a sampler that guides the continuous motionlevel search. We propose design principles for designing data efficient algorithms for learning from planning experience and representations for effective generalization. We evaluate our framework in challenging GTAMP problems, and show that we can improve both planning and data efficiency
翻訳日:2022-03-10 14:49:47 公開日:2022-03-09
# 計量エントロピー双対性と結果の不一致性のサンプル複雑性

Metric Entropy Duality and the Sample Complexity of Outcome Indistinguishability ( http://arxiv.org/abs/2203.04536v1 )

ライセンス: Link先を確認
Lunjia Hu, Charlotte Peale, Omer Reingold(参考訳) 本稿では,dwork,kim,reingold, rothblum,yona (stoc 2021) が最近導入した機械学習の理論的枠組みである,アウトカムの識別可能性に関する最初のサンプル複雑性特性を示す。 結果が識別不能の場合、学習者の目標は、予測者の予測に基づいて生成された結果を調べる識別者のクラス$d$によって目標予測者と区別できない予測者を出力することである。 学習者が予測器を含む予測器クラス$P$と共にデータ分布を与えられる分布特異かつ実現可能な設定において、結果の不一致性のサンプル複雑性は、$D$で定義される2つのミンコフスキーノルムの計量エントロピーと、$D$で定義される2つのミンコフスキーノルムの計量エントロピーと、$P$で定義される2つのミンコフスキーノルムの計量エントロピーによって特徴づけられることを示す。 この同値性は凸幾何学における長年の計量エントロピー双対性予想と興味深い関係を持つ。 我々のサンプルの複雑性の特徴は計量エントロピー双対性の変種を示唆しており、これはほぼ緊密であることを示している。 分布のない環境では、Dworkらによって考慮されたケースに焦点をあてる。$P$はすべての予測子を含むので、サンプルの複雑さは$D$にのみ依存する。 この設定では, 結果の不一致性のサンプル複雑性は, 脂肪破砕寸法が$D$であるのが特徴である。 また,分布自由設定と分布固有設定の両方において,実現可能かつ不可知な結果の区別が困難であることを示す。 これは分布のない(分布特異的な)pac学習とは対照的で、実現可能設定と不可知設定の両方におけるサンプル複雑性はvc次元(計量エントロピー)によって特徴づけられる。

We give the first sample complexity characterizations for outcome indistinguishability , a theoretical framework of machine learning recently introduced by Dwork, Kim, Reingold, Rothblum, and Yona (STOC 2021). In outcome indistinguishability , the goal of the learner is to output a predictor that cannot be distinguished from the target predictor by a class $D$ of distinguishers examining the outcomes generated according to the predictors' predictions. In the distribution-specifi c and realizable setting where the learner is given the data distribution together with a predictor class $P$ containing the target predictor, we show that the sample complexity of outcome indistinguishability is characterized by the metric entropy of $P$ w.r.t. the dual Minkowski norm defined by $D$, and equivalently by the metric entropy of $D$ w.r.t. the dual Minkowski norm defined by $P$. This equivalence makes an intriguing connection to the long-standing metric entropy duality conjecture in convex geometry. Our sample complexity characterization implies a variant of metric entropy duality, which we show is nearly tight. In the distribution-free setting, we focus on the case considered by Dwork et al. where $P$ contains all possible predictors, hence the sample complexity only depends on $D$. In this setting, we show that the sample complexity of outcome indistinguishability is characterized by the fat-shattering dimension of $D$. We also show a strong sample complexity separation between realizable and agnostic outcome indistinguishability in both the distribution-free and the distribution-specifi c settings. This is in contrast to distribution-free (resp. distribution-specifi c) PAC learning where the sample complexity in both the realizable and the agnostic settings can be characterized by the VC dimension (resp. metric entropy).
翻訳日:2022-03-10 14:49:10 公開日:2022-03-09
# (参考訳) 中間レベル表現としての分解光学流れの検討 [全文訳有]

Investigation of Factorized Optical Flows as Mid-Level Representations ( http://arxiv.org/abs/2203.04927v1 )

ライセンス: CC BY 4.0
Hsuan-Kung Yang, Tsu-Ching Hsiao, Ting-Hsuan Liao, Hsu-Shen Liu, Li-Yuan Tsao, Tzu-Wen Wang, Shan-Ya Yang, Yu-Wen Chen, Huang-Ru Liao, and Chun-Yi Lee(参考訳) 本稿では,モジュール型学習ロボットフレームワークにおける知覚と制御モジュールを橋渡しするための中レベル表現として,因子化フローマップを組み込む新しい概念を提案する。 因子化フローマップの利点を検証し,他の中級表現との相互作用を検討するために,静的および動的オブジェクトの両方を含む4つの異なる環境とともに構成可能なフレームワークを開発し,分解された光フローマップが深い強化学習エージェントの性能に与える影響を解析する。 この枠組みに基づき,様々なシナリオに関する実験結果を報告し,仮説を正当化するための一連の分析を行う。 最後に,実世界のシナリオにおけるフローファクタライゼーションを検証する。

In this paper, we introduce a new concept of incorporating factorized flow maps as mid-level representations, for bridging the perception and the control modules in modular learning based robotic frameworks. To investigate the advantages of factorized flow maps and examine their interplay with the other types of mid-level representations, we further develop a configurable framework, along with four different environments that contain both static and dynamic objects, for analyzing the impacts of factorized optical flow maps on the performance of deep reinforcement learning agents. Based on this framework, we report our experimental results on various scenarios, and offer a set of analyses to justify our hypothesis. Finally, we validate flow factorization in real world scenarios.
翻訳日:2022-03-10 14:45:55 公開日:2022-03-09
# メタラーニングのビジョン回帰タスクで何が重要か?

What Matters For Meta-Learning Vision Regression Tasks? ( http://arxiv.org/abs/2203.04905v1 )

ライセンス: Link先を確認
Ning Gao, Hanna Ziesche, Ngo Anh Vien, Michael Volpp, Gerhard Neumann(参考訳) メタラーニングは、目に見えないタスクに迅速に適応できるため、少数ショットの分類と機能回帰に広く使われている。 しかし、画像などの高次元入力を伴う回帰タスクについては、まだ十分に研究されていない。 本論文は,このほとんど探索されていない領域の理解に寄与する2つの主要な貢献を行う。 コンピュータビジョンのためのメタラーニング領域における、前例のない複雑性の予測と物体発見という2つの新しいタイプのクロスカテゴリレベルのビジョン回帰タスクを設計した。 この目的のためには (i)これらの課題における共通メタラーニング手法を徹底的に評価し、 2)近年のメタ学習アルゴリズムでは,データ拡張,ドメインランダム化,タスク拡張,メタ正規化など,様々な深層学習技術が一般化能力に与える影響を定量的に分析する。 最後に (iii)視覚回帰タスクでメタラーニングアルゴリズムをトレーニングするための洞察と実践的推奨を提供する。 本稿では,条件付きニューラルプロセス(CNP)におけるタスク表現に関数型コントラスト学習(FCL)を付加し,エンドツーエンドで学習する手法を提案する。 実験の結果, 損失関数の選択が不十分な結果, メタトレーニングセットが小さすぎることから, 先行研究の結果が誤解を招くことが明らかとなった。 具体的には、CNPは微調整なしで、ほとんどのタスクにおいてMAMLより優れています。 さらに,仕立て設計を伴わない単調なタスク拡張が不適合になることも観察した。

Meta-learning is widely used in few-shot classification and function regression due to its ability to quickly adapt to unseen tasks. However, it has not yet been well explored on regression tasks with high dimensional inputs such as images. This paper makes two main contributions that help understand this barely explored area. \emph{First}, we design two new types of cross-category level vision regression tasks, namely object discovery and pose estimation of unprecedented complexity in the meta-learning domain for computer vision. To this end, we (i) exhaustively evaluate common meta-learning techniques on these tasks, and (ii) quantitatively analyze the effect of various deep learning techniques commonly used in recent meta-learning algorithms in order to strengthen the generalization capability: data augmentation, domain randomization, task augmentation and meta-regularization. Finally, we (iii) provide some insights and practical recommendations for training meta-learning algorithms on vision regression tasks. \emph{Second}, we propose the addition of functional contrastive learning (FCL) over the task representations in Conditional Neural Processes (CNPs) and train in an end-to-end fashion. The experimental results show that the results of prior work are misleading as a consequence of a poor choice of the loss function as well as too small meta-training sets. Specifically, we find that CNPs outperform MAML on most tasks without fine-tuning. Furthermore, we observe that naive task augmentation without a tailored design results in underfitting.
翻訳日:2022-03-10 14:26:30 公開日:2022-03-09
# 米国における殺人クリアランス予測のための説明可能な機械学習

Explainable Machine Learning for Predicting Homicide Clearance in the United States ( http://arxiv.org/abs/2203.04768v1 )

ライセンス: Link先を確認
Gian Maria Campedelli(参考訳) 目的:米国の国家・州レベルでのクリア化殺人のドライバーの予測と検出における、説明可能な機械学習の可能性を探ること。 方法: まず9つのアルゴリズムによる手法を比較し, 殺人責任計画のデータを用いて, 国別殺人予測における最良性能を評価する。 最も正確なアルゴリズム(xgboost)は、状態ごとにクリアランスの結果を予測するために使用される。 第二に、説明可能な人工知能のためのフレームワークSHAPは、国家レベルでも国家レベルでもクリアランスパターンを説明する上で最も重要な特徴を捉えるために使用される。 結果: 全国レベルでは,XGBoostは全体として最高のパフォーマンスを達成するためのものだ。 定常予測変動が状態的に検出される。 説明可能性に関して、SHAPは調査結果を継続的に予測する上で、いくつかの特徴の関連性を強調している。 これには殺人の状況、武器、被害者の性や人種、関連する多くの犯罪者や被害者が含まれる。 結論: 説明可能な機械学習は、殺人のクリアランスを予測するのに役立つフレームワークであることを実証する。 SHAPの結果は、2つの理論的な視点がより有機的に統合されることを示唆している。 さらに、司法の異質性は、警察の警察性能を改善するための副次的な州レベルの戦略を開発することの重要性を強調している。

Purpose: To explore the potential of Explainable Machine Learning in the prediction and detection of drivers of cleared homicides at the national- and state-levels in the United States. Methods: First, nine algorithmic approaches are compared to assess the best performance in predicting cleared homicides country-wise, using data from the Murder Accountability Project. The most accurate algorithm among all (XGBoost) is then used for predicting clearance outcomes state-wise. Second, SHAP, a framework for Explainable Artificial Intelligence, is employed to capture the most important features in explaining clearance patterns both at the national and state levels. Results: At the national level, XGBoost demonstrates to achieve the best performance overall. Substantial predictive variability is detected state-wise. In terms of explainability, SHAP highlights the relevance of several features in consistently predicting investigation outcomes. These include homicide circumstances, weapons, victims' sex and race, as well as number of involved offenders and victims. Conclusions: Explainable Machine Learning demonstrates to be a helpful framework for predicting homicide clearance. SHAP outcomes suggest a more organic integration of the two theoretical perspectives emerged in the literature. Furthermore, jurisdictional heterogeneity highlights the importance of developing ad hoc state-level strategies to improve police performance in clearing homicides.
翻訳日:2022-03-10 14:26:10 公開日:2022-03-09
# PALI-NLP at SemEval-2022 Task 4: Discriminative Fine-tuning of Deep Transformer for Patronizing and Condescending Language Detection

PALI-NLP at SemEval-2022 Task 4: Discriminative Fine-tuning of Deep Transformers for Patronizing and Condescending Language Detection ( http://arxiv.org/abs/2203.04616v1 )

ライセンス: Link先を確認
Dou Hu, Mengyuan Zhou, Xiyang Du, Mengfei Yuan, Meizhi Jin, Lianxin Jiang, Yang Mo, Xiaofeng Shi(参考訳) 人間の判断と既存のNLPシステムの両方において、PCL(Patronizing and condescending Language)は大きな有害な影響があり、検出が困難である。 SemEval-2022 Task 4では,PCL検出のための言語コンテキストを正確に理解するためのトランスフォーマーモデルとそのアンサンブルを提案する。 PCLの微妙で主観的な性質を理解するために,多様な言語行動と分類的分布から識別的特徴を捉えるための2つの微調整戦略を適用した。 このシステムは公式ランキングにおいて顕著な結果、すなわちSubtask 1で1位、Subtask 2で5位となる。 このタスクに関する広範囲な実験は、システムとその戦略の有効性を実証する。

Patronizing and condescending language (PCL) has a large harmful impact and is difficult to detect, both for human judges and existing NLP systems. At SemEval-2022 Task 4, we propose a novel Transformer-based model and its ensembles to accurately understand such language context for PCL detection. To facilitate comprehension of the subtle and subjective nature of PCL, two fine-tuning strategies are applied to capture discriminative features from diverse linguistic behaviour and categorical distribution. The system achieves remarkable results on the official ranking, namely 1st in Subtask 1 and 5th in Subtask 2. Extensive experiments on the task demonstrate the effectiveness of our system and its strategies.
翻訳日:2022-03-10 14:24:24 公開日:2022-03-09
# LEBP -- 言語期待とバインディングポリシー: 視覚・言語インタラクションタスク学習エージェントのための双方向フレームワーク

LEBP -- Language Expectation & Binding Policy: A Two-Stream Framework for Embodied Vision-and-Language Interaction Task Learning Agents ( http://arxiv.org/abs/2203.04637v1 )

ライセンス: Link先を確認
Haoyu Liu, Yang Liu, Hongkai He and Hangfang Yang(参考訳) 人々はいつも、言語指導を理解することでタスクを遂行できる具体的エージェントを欲しがる。 さらに彼らは、エージェントが期待通りにコマンドを理解するように監視し、期待することも望んでいる。 しかし、このような具体化エージェントの作り方はまだ不明だ。 このベンチマークでは、エージェントが自然言語命令に従って、目に見えないシーンで複雑な日常生活のタスクを実行する必要がある。 本稿では,ALFREDに取り組むためのLEBP-Language expectation and Binding Policy Moduleを提案する。 LEBPは2ストリームプロセスを含む。 1)最初に言語期待モジュールを実行し、言語命令を理解することによってタスクの実行方法を記述する期待を生成する。 期待はタスクの一連のサブステップ(例えばリンゴを選ぶ)で構成される。 この期待により、エージェントが実際のアクションをする前に、タスクがうまくいかなかった場合、命令の理解結果にアクセスしてチェックすることができる。 2) 次に、バインディングポリシーモジュールを使用して、特定のシナリオに対する実際のアクションに期待するサブステップをバインドする。 実際のアクションにはナビゲーションとオブジェクト操作が含まれる。 実験結果から,本手法はsoma法に匹敵する性能を達成でき,想定されたシナリオから見当たらないシナリオへの大きな減衰を回避できることが示唆された。

People always desire an embodied agent that can perform a task by understanding language instruction. Moreover, they also want to monitor and expect agents to understand commands the way they expected. But, how to build such an embodied agent is still unclear. Recently, people can explore this problem with the Vision-and-Language Interaction benchmark ALFRED, which requires an agent to perform complicated daily household tasks following natural language instructions in unseen scenes. In this paper, we propose LEBP -- Language Expectation and Binding Policy Module to tackle the ALFRED. The LEBP contains a two-stream process: 1) It first conducts a language expectation module to generate an expectation describing how to perform tasks by understanding the language instruction. The expectation consists of a sequence of sub-steps for the task (e.g., Pick an apple). The expectation allows people to access and check the understanding results of instructions before the agent takes actual actions, in case the task might go wrong. 2) Then, it uses the binding policy module to bind sub-steps in expectation to actual actions to specific scenarios. Actual actions include navigation and object manipulation. Experimental results suggest our approach achieves comparable performance to currently published SOTA methods and can avoid large decay from seen scenarios to unseen scenarios.
翻訳日:2022-03-10 14:24:08 公開日:2022-03-09
# 不確実性を考慮した対称ネットワークによる高速道路セグメンテーション

Fast Road Segmentation via Uncertainty-aware Symmetric Network ( http://arxiv.org/abs/2203.04537v1 )

ライセンス: Link先を確認
Yicong Chang, Feng Xue, Fei Sheng, Wenteng Liang, Anlong Ming(参考訳) RGB-Dに基づく道路分割手法の高性能化は、商用自動運転におけるまれな応用とは対照的である。 1) 従来手法では,両方の方法で高い推論速度と高い精度を達成できない。 2)rgbと深度データの異なる特性は十分に解明されておらず,予測道路の信頼性に制限がある。 本稿では,rgbと深さデータを完全に融合することにより,速度と精度のトレードオフを実現するため,不確実性認識型対称ネットワーク (usnet) を提案する。 第一に、先行するrgb-d法で必須となるクロスモーダル特徴融合演算は放棄される。 代わりに、RGBと深度入力から道路表現を学ぶために、2つの軽量サブネットワークを別々に採用する。 軽量構造は,本手法のリアルタイム推定を保証する。 さらに,マルチスケールエビデンスコレクション(MEC)モジュールは,各モダリティに対して複数のスケールでエビデンスを収集するように設計され,画素クラス決定に十分なエビデンスを提供する。 最後に、不確実性認識融合(UAF)モジュールにおいて、各モードの不確実性は、2つのサブネットの融合を導くものとして認識される。 実験の結果,実時間推定速度43fpsで最先端精度が得られることがわかった。 ソースコードはhttps://github.com/m orancyc/USNetで入手できる。

The high performance of RGB-D based road segmentation methods contrasts with their rare application in commercial autonomous driving, which is owing to two reasons: 1) the prior methods cannot achieve high inference speed and high accuracy in both ways; 2) the different properties of RGB and depth data are not well-exploited, limiting the reliability of predicted road. In this paper, based on the evidence theory, an uncertainty-aware symmetric network (USNet) is proposed to achieve a trade-off between speed and accuracy by fully fusing RGB and depth data. Firstly, cross-modal feature fusion operations, which are indispensable in the prior RGB-D based methods, are abandoned. We instead separately adopt two light-weight subnetworks to learn road representations from RGB and depth inputs. The light-weight structure guarantees the real-time inference of our method. Moreover, a multiscale evidence collection (MEC) module is designed to collect evidence in multiple scales for each modality, which provides sufficient evidence for pixel class determination. Finally, in uncertainty-aware fusion (UAF) module, the uncertainty of each modality is perceived to guide the fusion of the two subnetworks. Experimental results demonstrate that our method achieves a state-of-the-art accuracy with real-time inference speed of 43+ FPS. The source code is available at https://github.com/m orancyc/USNet.
翻訳日:2022-03-10 14:23:46 公開日:2022-03-09
# 低演算による単眼深度分布アライメント

Monocular Depth Distribution Alignment with Low Computation ( http://arxiv.org/abs/2203.04538v1 )

ライセンス: Link先を確認
Fei Sheng, Feng Xue, Yicong Chang, Wenteng Liang, Anlong Ming(参考訳) 単眼深度推定の性能は一般にパラメータの量と計算コストに依存する。 軽量ネットワークとヘビーウェイトネットワークの間には高い精度のコントラストがあり、現実世界での応用を制限している。 本稿では,これら間の精度のコントラストの大部分を,分布分布の差としてモデル化し,これを「分布ドリフト」と呼ぶ。 この目的のために,分散アライメントネットワーク(DANet)を提案する。 まず,複数スケールの領域間相互作用を捉えるために,ピラミッドシーントランスフォーマー(PST)モジュールを設計する。 DANetは2つの領域の深さ特徴の差を知覚することにより、分布の形状を地平に合わせる合理的なシーン構造を予測する傾向にある。 そこで本稿では,グローバルなシーン深度の監視を実現するために,LGO(Local-global Optimization)方式を提案する。 深度分布形状とシーン深度範囲のアライメントにより、DANetは分布のドリフトを著しく軽減し、従来の重み付け手法と同等の性能を発揮するが、1秒あたりの浮動小数点演算(FLOP)はわずか1%である。 2つのデータセット、すなわち広く使われているnyudv2データセットとより挑戦的なibims-1データセットの実験は、本手法の有効性を示している。 ソースコードはhttps://github.com/Y iLiM1/DANetで入手できる。

The performance of monocular depth estimation generally depends on the amount of parameters and computational cost. It leads to a large accuracy contrast between light-weight networks and heavy-weight networks, which limits their application in the real world. In this paper, we model the majority of accuracy contrast between them as the difference of depth distribution, which we call "Distribution drift". To this end, a distribution alignment network (DANet) is proposed. We firstly design a pyramid scene transformer (PST) module to capture inter-region interaction in multiple scales. By perceiving the difference of depth features between every two regions, DANet tends to predict a reasonable scene structure, which fits the shape of distribution to ground truth. Then, we propose a local-global optimization (LGO) scheme to realize the supervision of global range of scene depth. Thanks to the alignment of depth distribution shape and scene depth range, DANet sharply alleviates the distribution drift, and achieves a comparable performance with prior heavy-weight methods, but uses only 1% floating-point operations per second (FLOPs) of them. The experiments on two datasets, namely the widely used NYUDv2 dataset and the more challenging iBims-1 dataset, demonstrate the effectiveness of our method. The source code is available at https://github.com/Y iLiM1/DANet.
翻訳日:2022-03-10 14:23:25 公開日:2022-03-09
# 微調整のない事前学習モデルを用いた領域一般化

Domain Generalization using Pretrained Models without Fine-tuning ( http://arxiv.org/abs/2203.04600v1 )

ライセンス: Link先を確認
Ziyue Li, Kan Ren, Xinyang Jiang, Bo Li, Haipeng Zhang, Dongsheng Li(参考訳) 微調整事前訓練モデルはドメイン一般化(DG)タスクにおいて一般的なプラクティスである。 しかし、微調整は通常、事前訓練されたモデルのサイズが永遠に大きくなるため、計算コストがかかる。 さらに重要なのは、ソースドメインに過度に適合し、最近の研究で示されているように、一般化能力を損なう可能性があることだ。 一般に、事前訓練されたモデルはある程度の一般化能力を持ち、特定の領域やサンプルについて十分な性能が得られる。 しかしながら、トレーニング済みモデルの一般化性能は、サンプルであってもテストドメインによって大きく異なる可能性があるため、dgタスクでトレーニング済みモデルを最大限に活用することが課題となる。 本稿では,事前学習モデルであるsedge(specialized ensemble learning for domain generalization)をより活用するための新しいドメイン一般化パラダイムを提案する。 まず、固定事前訓練されたモデルの線形ラベル空間アダプタを訓練し、事前訓練されたモデルの出力を対象領域のラベル空間に変換する。 次に,モデル特殊性を認識したアンサンブルネットワークを提案し,各テストサンプルを動的に予測する。 いくつかのベンチマークに関する実験的研究により、SEDGEはDGタスクの最先端メソッドを含む強力なベースラインと比較して大幅な性能向上を実現し、トレーニング可能なパラメータを約99%削減し、トレーニング時間を約99.5%削減した。

Fine-tuning pretrained models is a common practice in domain generalization (DG) tasks. However, fine-tuning is usually computationally expensive due to the ever-growing size of pretrained models. More importantly, it may cause over-fitting on source domain and compromise their generalization ability as shown in recent works. Generally, pretrained models possess some level of generalization ability and can achieve decent performance regarding specific domains and samples. However, the generalization performance of pretrained models could vary significantly over different test domains even samples, which raises challenges for us to best leverage pretrained models in DG tasks. In this paper, we propose a novel domain generalization paradigm to better leverage various pretrained models, named specialized ensemble learning for domain generalization (SEDGE). It first trains a linear label space adapter upon fixed pretrained models, which transforms the outputs of the pretrained model to the label space of the target domain. Then, an ensemble network aware of model specialty is proposed to dynamically dispatch proper pretrained models to predict each test sample. Experimental studies on several benchmarks show that SEDGE achieves significant performance improvements comparing to strong baselines including state-of-the-art method in DG tasks and reduces the trainable parameters by ~99% and the training time by ~99.5%.
翻訳日:2022-03-10 14:22:36 公開日:2022-03-09
# どれくらいの観測が十分か? 軌跡予測のための知識蒸留

How many Observations are Enough? Knowledge Distillation for Trajectory Forecasting ( http://arxiv.org/abs/2203.04781v1 )

ライセンス: Link先を確認
Alessio Monti, Angelo Porrello, Simone Calderara, Pasquale Coscia, Lamberto Ballan, Rita Cucchiara(参考訳) 将来の人間の位置の正確な予測は、現代のビデオ監視システムにとって重要な課題である。 現在の最先端モデルは、通常、過去の追跡された場所(例えば3秒から5秒)の「歴史」に頼り、将来の位置(例えば、次の5秒まで)を予測できる。 この一般的なスキーマは現実的なアプリケーションの重要な特徴を無視していると感じている。入力軌跡の収集には機械の認識(検出と追跡)が含まれるため、誤った検出と断片化エラーが混み合ったシーンに蓄積され、ドリフトを追跡する。 この説明では、このモデルは腐敗したノイズの入力データによって供給されるため、予測性能に致命的な影響を及ぼす。 この点において、入力観察が少ない場合に正確な予測を行うことに注力し、自動認識に伴うリスクを低減させる可能性がある。 そこで,我々は,教師ネットワークから生徒への知識伝達を可能にする新たな蒸留戦略を考案する。 教師の監督によって、生徒ネットワークは、より多くの観察を必要とする最先端のアプローチと相性が良い結果が得られることを示す。 さらに、一般的な軌道予測データセットに関する広範な実験は、我々の学生ネットワークが目に見えないシナリオにより一般化することを強調している。

Accurate prediction of future human positions is an essential task for modern video-surveillance systems. Current state-of-the-art models usually rely on a "history" of past tracked locations (e.g., 3 to 5 seconds) to predict a plausible sequence of future locations (e.g., up to the next 5 seconds). We feel that this common schema neglects critical traits of realistic applications: as the collection of input trajectories involves machine perception (i.e., detection and tracking), incorrect detection and fragmentation errors may accumulate in crowded scenes, leading to tracking drifts. On this account, the model would be fed with corrupted and noisy input data, thus fatally affecting its prediction performance. In this regard, we focus on delivering accurate predictions when only few input observations are used, thus potentially lowering the risks associated with automatic perception. To this end, we conceive a novel distillation strategy that allows a knowledge transfer from a teacher network to a student one, the latter fed with fewer observations (just two ones). We show that a properly defined teacher supervision allows a student network to perform comparably to state-of-the-art approaches that demand more observations. Besides, extensive experiments on common trajectory forecasting datasets highlight that our student network better generalizes to unseen scenarios.
翻訳日:2022-03-10 14:22:07 公開日:2022-03-09
# 文脈ネットワークと文の教師なしランキング

Contextual Networks and Unsupervised Ranking of Sentences ( http://arxiv.org/abs/2203.04459v1 )

ライセンス: Link先を確認
Hao Zhang, You Zhou, Jie Wang(参考訳) そこで本研究では,文のスコア付けのために,cnatar (contextual network and text analysis rank) と呼ばれる教師なしアルゴリズムを考案し,トピック分析と文スコアの2つの目的の 0-1 knapsack 最大化問題を用いてランク付けする。 cnatarは, rougeとbleuの指標に基づいて,summbankデータセット上で提供された3人の裁判官のランキングを上回っており, 結果として各裁判官のランキングを大幅に上回っている。 さらに、CNATARは、これまでのDUC-02よりも高いROUGEスコアを生成し、CNN/DailyMailおよびNYTデータセット上で、以前の教師付きアルゴリズムよりも優れている。 また、CNATARと最新の教師付きニューラルネットワーク要約モデルの性能とオラクルの計算結果を比較した。

We construct a contextual network to represent a document with syntactic and semantic relations between word-sentence pairs, based on which we devise an unsupervised algorithm called CNATAR (Contextual Network And Text Analysis Rank) to score sentences, and rank them through a bi-objective 0-1 knapsack maximization problem over topic analysis and sentence scores. We show that CNATAR outperforms the combined ranking of the three human judges provided on the SummBank dataset under both ROUGE and BLEU metrics, which in term significantly outperforms each individual judge's ranking. Moreover, CNATAR produces so far the highest ROUGE scores over DUC-02, and outperforms previous supervised algorithms on the CNN/DailyMail and NYT datasets. We also compare the performance of CNATAR and the latest supervised neural-network summarization models and compute oracle results.
翻訳日:2022-03-10 14:21:46 公開日:2022-03-09
# テキストブロックの意味的分類によるボイラープレート検出

Boilerplate Detection via Semantic Classification of TextBlocks ( http://arxiv.org/abs/2203.04467v1 )

ライセンス: Link先を確認
Hao Zhang, Jie Wang(参考訳) 本稿では,HTMLタグ,クラス名,テキストブロックの新たな意味表現に基づいて,SemTextと呼ばれる階層型ニューラルネットワークモデルを提案する。 SemTextを3つの公開されたニュースWebページのデータセットでトレーニングし、CleanEvalとGoogleTrends-2017の少数の開発データを使って微調整します。 これらのデータセット上で,SemTextが最先端の精度を実現することを示す。 次に、ドメイン外コミュニティベースの質問応答Webページ上で、ボイラープレートを効果的に検出できることを示し、SemTextの堅牢性を示す。

We present a hierarchical neural network model called SemText to detect HTML boilerplate based on a novel semantic representation of HTML tags, class names, and text blocks. We train SemText on three published datasets of news webpages and fine-tune it using a small number of development data in CleanEval and GoogleTrends-2017. We show that SemText achieves the state-of-the-art accuracy on these datasets. We then demonstrate the robustness of SemText by showing that it also detects boilerplate effectively on out-of-domain community-based question-answer webpages.
翻訳日:2022-03-10 14:21:29 公開日:2022-03-09
# 効率的な部分構造知識蒸留

Efficient Sub-structured Knowledge Distillation ( http://arxiv.org/abs/2203.04825v1 )

ライセンス: Link先を確認
Wenye Lin, Yangming Li, Lemao Liu, Shuming Shi, Hai-tao Zheng(参考訳) 構造化予測モデルは、出力が単一の変数ではなく複雑な構造であるような問題を解くことを目指している。 そのようなモデルに対する知識蒸留を実行することは、指数的に大きな出力空間のため自明ではない。 本研究では,その定式化においてよりシンプルで,既存のアプローチよりもはるかに効率的なトレーニング手法を提案する。 具体的には,教師モデルから学生モデルへの知識の伝達を,出力空間全体ではなく,すべてのサブ構造上での予測を局所的に一致させることで行う。 この方法では、並列計算を可能にし、実際にトレーニングプロセスをさらに高速化する、出力構造をデコードするために動的プログラミング(dp)のような時間を要する技術を採用するのを避ける。 また、生徒モデルに対して、教師モデルの内部動作をよりよく模倣するよう促す。 2つの構造化予測タスクに関する実験は、我々のアプローチが以前の手法を上回っており、1つのトレーニング期間の時間コストを削減していることを示している。

Structured prediction models aim at solving a type of problem where the output is a complex structure, rather than a single variable. Performing knowledge distillation for such models is not trivial due to their exponentially large output space. In this work, we propose an approach that is much simpler in its formulation and far more efficient for training than existing approaches. Specifically, we transfer the knowledge from a teacher model to its student model by locally matching their predictions on all sub-structures, instead of the whole output space. In this manner, we avoid adopting some time-consuming techniques like dynamic programming (DP) for decoding output structures, which permits parallel computation and makes the training process even faster in practice. Besides, it encourages the student model to better mimic the internal behavior of the teacher model. Experiments on two structured prediction tasks demonstrate that our approach outperforms previous methods and halves the time cost for one training epoch.
翻訳日:2022-03-10 14:21:19 公開日:2022-03-09
# ケルト語テキストの自動言語識別

Automatic Language Identification for Celtic Texts ( http://arxiv.org/abs/2203.04831v1 )

ライセンス: Link先を確認
Olha Dovbnia, Anna Wr\'oblewska(参考訳) 言語識別は、重要な自然言語処理タスクである。 文学で徹底的に研究されている。 しかし、いくつかの問題は未解決である。 この研究は、ケルト語族を例に、関連する低リソース言語の識別に対処する。 本研究の目的は,(1)セルティック語のデータセットを収集すること,(2)セルティック語族から言語を識別する方法,すなわち分類モデルの訓練を成功させる方法,(3)異なる特徴抽出方法の影響を評価し,特徴抽出手法として教師なしモデルの適用可能性を検討すること,(4)教師なし特徴抽出を少ない注釈付き集合で実験することであった。 アイルランド、スコットランド、ウェールズ、イギリスの記録を含む新しいデータセットを収集しました。 我々は,クラスタリング,オートエンコーダ,トピックモデリング手法の出力と並行して,従来の統計的特徴を持つsvmやニューラルネットワークなどの教師付きモデルをテストした。 解析の結果、教師なし特徴はn-gram特徴ベクトルへの価値ある拡張として役立つことが示された。 これにより、より絡み合ったクラスのパフォーマンスが向上した。 最高のモデルは98\%のF1スコアと97\%のMCCを達成した。 ニューラルネットワークはSVMモデルよりも一貫して優れていた。 利用可能なアノテートトレーニングデータが不足しているため、低リソース言語も難しい。 この課題に対処するためにラベル付きデータセットの教師なし特徴抽出を用いて分類器の性能を評価した。 その結果、教師なし特徴ベクトルはラベル付き集合還元よりも頑健であることが判明した。 そのため、ラベル付きデータの少ない分類性能を実現するのに役立った。

Language identification is an important Natural Language Processing task. It has been thoroughly researched in the literature. However, some issues are still open. This work addresses the identification of the related low-resource languages on the example of the Celtic language family. This work's main goals were: (1) to collect the dataset of three Celtic languages; (2) to prepare a method to identify the languages from the Celtic family, i.e. to train a successful classification model; (3) to evaluate the influence of different feature extraction methods, and explore the applicability of the unsupervised models as a feature extraction technique; (4) to experiment with the unsupervised feature extraction on a reduced annotated set. We collected a new dataset including Irish, Scottish, Welsh and English records. We tested supervised models such as SVM and neural networks with traditional statistical features alongside the output of clustering, autoencoder, and topic modelling methods. The analysis showed that the unsupervised features could serve as a valuable extension to the n-gram feature vectors. It led to an improvement in performance for more entangled classes. The best model achieved a 98\% F1 score and 97\% MCC. The dense neural network consistently outperformed the SVM model. The low-resource languages are also challenging due to the scarcity of available annotated training data. This work evaluated the performance of the classifiers using the unsupervised feature extraction on the reduced labelled dataset to handle this issue. The results uncovered that the unsupervised feature vectors are more robust to the labelled set reduction. Therefore, they proved to help achieve comparable classification performance with much less labelled data.
翻訳日:2022-03-10 14:21:03 公開日:2022-03-09
# タスク関係モデリングによるマルチエージェントポリシー転送

Multi-Agent Policy Transfer via Task Relationship Modeling ( http://arxiv.org/abs/2203.04482v1 )

ライセンス: Link先を確認
Rongjun Qin, Feng Chen, Tonghan Wang, Lei Yuan, Xiaoran Wu, Zongzhang Zhang, Chongjie Zhang, Yang Yu(参考訳) 新しい協調作業へのチーム適応は、まだ学習エージェントで完全に実現されていない人間の知能の要点である。 従来のマルチエージェントトランスファー学習の研究は、異なるサイズのチームに対応しており、目に見えないタスクに適応するためのニューラルネットワークの一般化能力に大きく依存している。 我々は,タスク間の関係が政策適応の鍵となる情報を提供すると考えている。 本稿では,タスク間の共通構造を見つけ,活用し,タスクの共通空間としてのエフェクトに基づくタスク表現を,代わりに固定されたトレーニングスキームを用いて学習することを提案する。 タスク表現はタスク間の関係を捉えることができ、見えないタスクに一般化できることを示す。 その結果,提案手法は,学習した協調知識をいくつかのソースタスクの学習後に新しいタスクに移すのに役立つ。 また、移行したポリシーの微調整は、スクラッチから学ぶのが難しいタスクの解決にも役立ちます。

Team adaptation to new cooperative tasks is a hallmark of human intelligence, which has yet to be fully realized in learning agents. Previous work on multi-agent transfer learning accommodate teams of different sizes, heavily relying on the generalization ability of neural networks for adapting to unseen tasks. We believe that the relationship among tasks provides the key information for policy adaptation. In this paper, we try to discover and exploit common structures among tasks for more efficient transfer, and propose to learn effect-based task representations as a common space of tasks, using an alternatively fixed training scheme. We demonstrate that the task representation can capture the relationship among tasks, and can generalize to unseen tasks. As a result, the proposed method can help transfer learned cooperation knowledge to new tasks after training on a few source tasks. We also find that fine-tuning the transferred policies help solve tasks that are hard to learn from scratch.
翻訳日:2022-03-10 14:18:54 公開日:2022-03-09
# MetaCon: Trillion コンセプトメタラーニングによる統一予測セグメントシステム

MetaCon: Unified Predictive Segments System with Trillion Concept Meta-Learning ( http://arxiv.org/abs/2203.04540v1 )

ライセンス: Link先を確認
Keqian Li, Yifan Hu, Logan Palanisamy, Lisa Jones, Akshay Gupta, Jason Grigsby, Ili Selinger, Matt Gillingham, Fei Tan(参考訳) 現代のインターネット企業の日々の運用において,予測セグメントの観点からのユーザの正確な理解が不可欠である。 それでも、特にロングテール予測タスクにおいて、データの品質を制限する重要な課題がある。 本稿では,これらの課題に対処する,スケーラブルな数兆概念のメタ学習を備えた統一述語セグメントシステムであるmetaconを提案する。 エンティティのヘテロジニアスなデジタルフットプリントを要約したフラットな概念表現の上に構築され、予測タスクのスペクトル全体を単一の学習タスクとして一緒に考慮し、学習タスクを解決するために証明可能なパフォーマンス保証の下で、効率的な一階のメタ最適化手順で原則付きメタ学習アプローチを活用する。 プロプライエタリなプロダクションデータセットとパブリックな構造化された学習タスクの両方の実験は、MetaConがアートレコメンデーションとランキングアプローチの状況よりも大幅に改善できることを示した。

Accurate understanding of users in terms of predicative segments play an essential role in the day to day operation of modern internet enterprises. Nevertheless, there are significant challenges that limit the quality of data, especially on long tail predictive tasks. In this work, we present MetaCon, our unified predicative segments system with scalable, trillion concepts meta learning that addresses these challenges. It builds on top of a flat concept representation that summarizes entities' heterogeneous digital footprint, jointly considers the entire spectrum of predicative tasks as a single learning task, and leverages principled meta learning approach with efficient first order meta-optimization procedure under a provable performance guarantee in order to solve the learning task. Experiments on both proprietary production datasets and public structured learning tasks demonstrate that MetaCon can lead to substantial improvements over state of the art recommendation and ranking approaches.
翻訳日:2022-03-10 14:18:40 公開日:2022-03-09
# 2型・多型心血管疾患の重症度予測 - 機械学習による融合アプローチ-

The Severity Prediction of The Binary And Multi-Class Cardiovascular Disease -- A Machine Learning-Based Fusion Approach ( http://arxiv.org/abs/2203.04921v1 )

ライセンス: Link先を確認
Hafsa Binte Kibria and Abdul Matin(参考訳) 今日の世界では、ほぼすべてのセクターで大量のデータが利用可能です。 このデータは、この膨大なデータを使って情報を見つけることができるため、資産になっています。 主に医療産業は、患者および疾患関連情報を含む多くのデータを含んでいる。 機械学習技術を用いて、さまざまな病気を予測するために隠れたデータパターンを探すことができる。 近年、CVD(心臓血管疾患)が世界中で死因となっている。 CVDによる死亡者数は激減している。 そのため多くの研究者は、データマイニングモデルを使って多くの命を救う予測モデルの設計に最善を尽くしている。 本研究はCVDの重症度とともに診断するためにいくつかの融合モデルを構築したものである。 人工知能、SVM、ロジスティック回帰、決定木、ランダムフォレスト、AdaBoostといった機械学習(ML)アルゴリズムが、病気を予測するために心臓病データセットに適用されている。 randomoversamplerはマルチクラス分類のクラス不均衡のために実装された。 分類性能を向上させるため,重み付きスコア融合法を考案した。 最初はモデルが訓練された。 トレーニング後、2つのアルゴリズムの決定を重み付け和則を用いて組み合わせた。 6つのMLアルゴリズムから合計3つの融合モデルが開発された。 結果は性能パラメーターにおいて有望であった。 提案手法は二分法および多クラス分類問題に対して異なる試験訓練比率で実験され、両者の融合モデルが良好に動作した。 多クラス分類の最高精度は75%であり、二分法では95%であった。 https://github.com/h afsa-kibria/Weighted _score_fusion_model_ heart_disease_predic tion

In today's world, a massive amount of data is available in almost every sector. This data has become an asset as we can use this enormous amount of data to find information. Mainly health care industry contains many data consisting of patient and disease-related information. By using the machine learning technique, we can look for hidden data patterns to predict various diseases. Recently CVDs, or cardiovascular disease, have become a leading cause of death around the world. The number of death due to CVDs is frightening. That is why many researchers are trying their best to design a predictive model that can save many lives using the data mining model. In this research, some fusion models have been constructed to diagnose CVDs along with its severity. Machine learning(ML) algorithms like artificial neural network, SVM, logistic regression, decision tree, random forest, and AdaBoost have been applied to the heart disease dataset to predict disease. Randomoversampler was implemented because of the class imbalance in multiclass classification. To improve the performance of classification, a weighted score fusion approach was taken. At first, the models were trained. After training, two algorithms' decision was combined using a weighted sum rule. A total of three fusion models have been developed from the six ML algorithms. The results were promising in the performance parameter. The proposed approach has been experimented with different test training ratios for binary and multiclass classification problems, and for both of them, the fusion models performed well. The highest accuracy for multiclass classification was found as 75%, and it was 95% for binary. The code can be found in : https://github.com/h afsa-kibria/Weighted _score_fusion_model_ heart_disease_predic tion
翻訳日:2022-03-10 14:18:25 公開日:2022-03-09
# (参考訳) Align-Deform-Subtrac t: オブジェクトの違いを説明するためのインターベンショナルフレームワーク [全文訳有]

Align-Deform-Subtrac t: An Interventional Framework for Explaining Object Differences ( http://arxiv.org/abs/2203.04694v1 )

ライセンス: CC BY 4.0
Cian Eastwood, Li Nanbo, Christopher K. I. Williams(参考訳) 2つのオブジェクトイメージが与えられたら、それらの違いを基礎となるオブジェクト特性の観点からどのように説明できますか? 本稿では,オブジェクトの違いを説明するための介入フレームワークであるaligned-deform-subtr act (ads)を提案する。 画像空間のセマンティックアライメントを、基礎となるオブジェクトプロパティに対する反ファクトの介入として活用することにより、ADSはオブジェクトプロパティの差異を反復的に定量化し、除去する。 結果は、その基礎となる特性の観点からオブジェクトの違いを説明する一連の「異方性」エラー測度である。 実データおよび合成データに関する実験は、フレームワークの有効性を示している。

Given two object images, how can we explain their differences in terms of the underlying object properties? To address this question, we propose Align-Deform-Subtrac t (ADS) -- an interventional framework for explaining object differences. By leveraging semantic alignments in image-space as counterfactual interventions on the underlying object properties, ADS iteratively quantifies and removes differences in object properties. The result is a set of "disentangled" error measures which explain object differences in terms of their underlying properties. Experiments on real and synthetic data illustrate the efficacy of the framework.
翻訳日:2022-03-10 14:16:00 公開日:2022-03-09
# ニューラルテキスト分類のためのメモリ効率の高い連続学習

Memory Efficient Continual Learning for Neural Text Classification ( http://arxiv.org/abs/2203.04640v1 )

ライセンス: Link先を確認
Beyza Ermis, Giovanni Zappella, Martin Wistuba, Cedric Archambeau(参考訳) 事前学習された言語モデルに基づくテキスト分類器の学習は、自然言語処理アプリケーションにおける標準的実践となっている。 残念ながら、トランスフォーマーのような大規模なニューラルネットワークモデルをゼロからトレーニングするのは非常にコストがかかり、大量のトレーニングデータを必要とする。 さらに、多くの現実世界のシナリオでは、より多くのデータが見えるとクラスが発見され、クラスインクリメンタルなモデリングアプローチが求められます。 本研究では,逐次的に提供される分類タスクのシーケンス上で,事前学習したモデルを用いてテキスト分類を行う手法を考案する。 我々は,アルゴリズムが従来のタスクの性能劣化を伴わず,スクラッチからモデルを再学習することなく新しいタスクを学習する連続学習問題として問題を定式化する。 実験により,本手法では,他の手法と比較して,モデルパラメータが著しく少なく,推論時にかなり高速であることが実証された。 モデルパラメータの数、つまりメモリ数の厳密な制御は、効率を向上するばかりではない。 常にメモリ消費を増大させるソリューションをデプロイする実際のアプリケーションでは、アルゴリズムの使用は非現実的である。 我々の手法はほとんど忘れられませんが、予測性能は技術水準と同等に保たれますが、メモリ効率は低いです。

Learning text classifiers based on pre-trained language models has become the standard practice in natural language processing applications. Unfortunately, training large neural language models, such as transformers, from scratch is very costly and requires a vast amount of training data, which might not be available in the application domain of interest. Moreover, in many real-world scenarios, classes are uncovered as more data is seen, calling for class-incremental modelling approaches. In this work we devise a method to perform text classification using pre-trained models on a sequence of classification tasks provided in sequence. We formalize the problem as a continual learning problem where the algorithm learns new tasks without performance degradation on the previous ones and without re-training the model from scratch. We empirically demonstrate that our method requires significantly less model parameters compared to other state of the art methods and that it is significantly faster at inference time. The tight control on the number of model parameters, and so the memory, is not only improving efficiency. It is making possible the usage of the algorithm in real-world applications where deploying a solution with a constantly increasing memory consumption is just unrealistic. While our method suffers little forgetting, it retains a predictive performance on-par with state of the art but less memory efficient methods.
翻訳日:2022-03-10 14:01:07 公開日:2022-03-09
# テキストからのポーズ誘導多人数画像生成

Pose Guided Multi-person Image Generation From Text ( http://arxiv.org/abs/2203.04907v1 )

ライセンス: Link先を確認
Soon Yau Cheong, Armin Mustafa, Andrew Gilbert(参考訳) トランスフォーマーは最近、テキストから高品質の画像を生成することが示されている。 しかし、既存の手法は、高忠実度フルボディ画像、特に複数の人物を作成するのに苦労している。 人のポーズは、単語のみを使用して記述することが難しい高い自由度を持ち、これは、誤った身体比例やポーズのような生成された画像に誤りを生じさせる。 ポーズを付加的な入力制約として用いるポーズ誘導テキスト対画像モデルを提案する。 提案したキーポイント・ポース・エンコーディング(KPE)を用いて、人間のポーズを低次元表現に符号化し、提案したポーズとテキスト記述を精度良く表現し、最小限の誤差で生成することができる。 我々は,kpe が対象画像領域と画像解像度の変化に不変であることを示し,deepfashion データセットに結果を示し,多人数の deepfashion データセットを作成し,このアプローチの多機能性を示す。

Transformers have recently been shown to generate high quality images from texts. However, existing methods struggle to create high fidelity full-body images, especially multiple people. A person's pose has a high degree of freedom that is difficult to describe using words only; this creates errors in the generated image, such as incorrect body proportions and pose. We propose a pose-guided text-to-image model, using pose as an additional input constraint. Using the proposed Keypoint Pose Encoding (KPE) to encode human pose into low dimensional representation, our model can generate novel multi-person images accurately representing the pose and text descriptions provided, with minimal errors. We demonstrate that KPE is invariant to changes in the target image domain and image resolution; we show results on the Deepfashion dataset and create a new multi-person Deepfashion dataset to demonstrate the multi-capabilities of our approach.
翻訳日:2022-03-10 14:00:46 公開日:2022-03-09
# AEC領域における一般情報検索作業のための事前訓練されたドメイン特化言語モデル

Pretrained Domain-Specific Language Model for General Information Retrieval Tasks in the AEC Domain ( http://arxiv.org/abs/2203.04729v1 )

ライセンス: Link先を確認
Zhe Zheng, Xin-Zheng Lu, Ke-Yin Chen, Yu-Cheng Zhou, Jia-Rui Lin(参考訳) アーキテクチャ,エンジニアリング,建設(AEC)産業にとって重要な課題として,自然言語処理(NLP)に基づく非構造化テキストデータからの情報検索(IR)が注目されている。 各種IRタスクの深層学習(DL)モデルがAECドメインで研究されているが、ドメインコーパスとドメイン固有の事前訓練されたDLモデルによって、様々なIRタスクのパフォーマンスが向上するかどうかは不明である。 そこで本研究では,ドメインコーパスと様々な転送学習技術がIRタスクのDLモデルの性能に与える影響を体系的に検討し,AECドメインのための事前訓練されたドメイン固有言語モデルを提案する。 まず、ドメイン内コーパスと近接ドメインコーパスの両方を開発する。 次に,従来の単語埋め込みモデルとBERTモデルを含む2種類の事前学習モデルを,様々なドメインコーパスと伝達学習戦略に基づいて事前学習する。 最後に、IRタスクに広く使われているいくつかのDLモデルは、様々な構成と事前訓練されたモデルに基づいてさらに訓練され、テストされる。 その結果、ドメインコーパスは、テキスト分類や名前付きエンティティ認識タスクに対する従来の単語埋め込みモデルと相反する効果を持つが、全てのタスクにおけるbertベースのモデルのパフォーマンスをさらに向上させることができる。 一方、BERTベースのモデルは全てのIRタスクにおいて従来の手法を劇的に上回り、それぞれF1スコアの最大5.4%と10.1%の改善があった。 この研究は、知識の身体に2つの方法で貢献する。 1)ドメインコーパスと事前学習DLモデルの利点の証明 2) AECドメインのための最初のドメイン固有のデータセットと事前訓練済み言語モデルを、私たちの知識の最大限に活用する。 このように、この研究は、AECドメインで事前訓練されたモデルの採用と適用に光を当てています。

As an essential task for the architecture, engineering, and construction (AEC) industry, information retrieval (IR) from unstructured textual data based on natural language processing (NLP) is gaining increasing attention. Although various deep learning (DL) models for IR tasks have been investigated in the AEC domain, it is still unclear how domain corpora and domain-specific pretrained DL models can improve performance in various IR tasks. To this end, this work systematically explores the impacts of domain corpora and various transfer learning techniques on the performance of DL models for IR tasks and proposes a pretrained domain-specific language model for the AEC domain. First, both in-domain and close-domain corpora are developed. Then, two types of pretrained models, including traditional wording embedding models and BERT-based models, are pretrained based on various domain corpora and transfer learning strategies. Finally, several widely used DL models for IR tasks are further trained and tested based on various configurations and pretrained models. The result shows that domain corpora have opposite effects on traditional word embedding models for text classification and named entity recognition tasks but can further improve the performance of BERT-based models in all tasks. Meanwhile, BERT-based models dramatically outperform traditional methods in all IR tasks, with maximum improvements of 5.4% and 10.1% in the F1 score, respectively. This research contributes to the body of knowledge in two ways: 1) demonstrating the advantages of domain corpora and pretrained DL models and 2) opening the first domain-specific dataset and pretrained language model for the AEC domain, to the best of our knowledge. Thus, this work sheds light on the adoption and application of pretrained models in the AEC domain.
翻訳日:2022-03-10 14:00:32 公開日:2022-03-09
# 機械学習とAIシステムのためのデータ表現性

Data Representativity for Machine Learning and AI Systems ( http://arxiv.org/abs/2203.04706v1 )

ライセンス: Link先を確認
Line H. Clemmensen, Rune D. Kj{\ae}rsgaard(参考訳) 機械学習モデルを通じてデータから推論を描く場合、データの表現力は重要です。 研究者は、入力データの固有のバイアスに関連して、モデルのバイアスと公平性を解き放つことに焦点を絞っている。 しかし、AIシステムにおける適切な推論のためのサンプル(データセット)の表現性には限界がある。 本稿では,aiとサンプリングに関する科学文献におけるデータ表現性を分析し,物理材料のサンプリング,実験設計,サーベイ分析,観察研究などの分野から統計的サンプリング手法を概説する。 「表現的サンプル」という概念は、過去と現在に異なる。 特に、入力空間のカバレッジという意味での代表的サンプルの概念とターゲット人口のミニチュアとしての代表的サンプルとの対比は、aiシステムを構築する際に関連性がある。 米国国勢調査データを用いた実証実験を用いて,第1の考え方は平等と人口格差の付与に有用であり,分布シフトに対してより強固であることを示す一方で,第2の考え方は,歴史的推論を行うことや,基礎となる人口について一般的に推測すること,あるいは下位人口の大多数に対するより良い予測を行うことが目的である場合に有用である。 本稿では,既存のデータシートに加え,データ表現性を念頭に置いて,データ作成と文書化のための質問の枠組みを提案する。 最後に、明示的なデータ代表性の概念を明確化せずに使用することに加えて、暗黙の注意を呼びたいと思います。

Data representativity is crucial when drawing inference from data through machine learning models. Scholars have increased focus on unraveling the bias and fairness in the models, also in relation to inherent biases in the input data. However, limited work exists on the representativity of samples (datasets) for appropriate inference in AI systems. This paper analyzes data representativity in scientific literature related to AI and sampling, and gives a brief overview of statistical sampling methodology from disciplines like sampling of physical materials, experimental design, survey analysis, and observational studies. Different notions of a 'representative sample' exist in past and present literature. In particular, the contrast between the notion of a representative sample in the sense of coverage of the input space, versus a representative sample as a miniature of the target population is of relevance when building AI systems. Using empirical demonstrations on US Census data, we demonstrate that the first is useful for providing equality and demographic parity, and is more robust to distribution shifts, whereas the latter notion is useful in situations where the purpose is to make historical inference or draw inference about the underlying population in general, or make better predictions for the majority in the underlying population. We propose a framework of questions for creating and documenting data, with data representativity in mind, as an addition to existing datasheets for datasets. Finally, we will also like to call for caution of implicit, in addition to explicit, use of a notion of data representativeness without specific clarification.
翻訳日:2022-03-10 14:00:03 公開日:2022-03-09
# 目に見えないuv蛍光インジケータを使ってラベル付き画像の教師なしコレクションが必要なのはluvだけ

All You Need is LUV: Unsupervised Collection of Labeled Images using Invisible UV Fluorescent Indicators ( http://arxiv.org/abs/2203.04566v1 )

ライセンス: Link先を確認
Brijen Thananjeyan, Justin Kerr, Huang Huang, Joseph E. Gonzalez, Ken Goldberg(参考訳) 大規模セマンティック画像アノテーションはロボット工学における学習に基づく知覚システムにとって重要な課題である。 現在のアプローチでは、高価なヒューマンラベラーや、実際のデータと視覚的あるいは物理的に異なるシミュレーションデータに依存することが多い。 本稿では,人間のラベリングを伴わない実操作環境において,高速なラベル付きデータ収集を可能にする,UltraViolet (LUV) によるラベル抽出手法を提案する。 LUVは透明な紫外蛍光塗料とプログラマブルな紫外線LEDを使用して、標準的な照明と紫外線照明のシーンのペア画像を収集し、カラーセグメンテーションによってセグメンテーションマスクとキーポイントを自律的に抽出する。 LUVを多様なロボット認識タスク群に適用し,そのラベル付け品質,柔軟性,データ収集率を評価する。 その結果,LUVは人間のラベルよりも180~2500倍高速であることが示唆された。 LUVは、未塗布試験画像上の人間のアノテーションと整合したラベルを提供する。 これらのラベルで訓練されたネットワークは、スムーズで折り畳みされたタオルを83%の成功率で使用し、手術針ポーズ推定タスクにおけるヒトのラベルに対する1.7mmの位置誤差を達成する。 LUVの低コストは、人間のラベルシステムに代わる軽量な代替品として理想的であり、1回のセットアップコストは、Amazon Mechanical Turk上で200のセマンティックセグメンテーションラベルを集めるコストと同等である。 コード、データセット、ビジュアライゼーション、補足資料はhttps://sites.google .com/berkeley.edu/lu vにある。

Large-scale semantic image annotation is a significant challenge for learning-based perception systems in robotics. Current approaches often rely on human labelers, which can be expensive, or simulation data, which can visually or physically differ from real data. This paper proposes Labels from UltraViolet (LUV), a novel framework that enables rapid, labeled data collection in real manipulation environments without human labeling. LUV uses transparent, ultraviolet-fluoresc ent paint with programmable ultraviolet LEDs to collect paired images of a scene in standard lighting and UV lighting to autonomously extract segmentation masks and keypoints via color segmentation. We apply LUV to a suite of diverse robot perception tasks to evaluate its labeling quality, flexibility, and data collection rate. Results suggest that LUV is 180-2500 times faster than a human labeler across the tasks. We show that LUV provides labels consistent with human annotations on unpainted test images. The networks trained on these labels are used to smooth and fold crumpled towels with 83% success rate and achieve 1.7mm position error with respect to human labels on a surgical needle pose estimation task. The low cost of LUV makes it ideal as a lightweight replacement for human labeling systems, with the one-time setup costs at $300 equivalent to the cost of collecting around 200 semantic segmentation labels on Amazon Mechanical Turk. Code, datasets, visualizations, and supplementary material can be found at https://sites.google .com/berkeley.edu/lu v
翻訳日:2022-03-10 13:59:40 公開日:2022-03-09
# SkinningNet:合成文字のスキニング予測のための2ストリームグラフ畳み込みニューラルネットワーク

SkinningNet: Two-Stream Graph Convolutional Neural Network for Skinning Prediction of Synthetic Characters ( http://arxiv.org/abs/2203.04746v1 )

ライセンス: Link先を確認
Albert Mosella-Montoro and Javier Ruiz-Hidalgo(参考訳) この研究は、入力メッシュとその関連する骨格からスキン重みを計算し、提供されたメッシュの形状クラスと構造を仮定することなく、エンドツーエンドの2ストリームグラフニューラルネットワークアーキテクチャであるskinningnetを提案する。 メッシュと骨格の固定トポロジーを想定した先行手法では,メッシュ頂点と骨格関節の最良の関係を共同学習することにより,その情報をエンドツーエンドで学習可能な方法で抽出する。 提案手法は, メッセージパッシング方式の要約段階において, 異なるアグリゲータの結果を組み合わせた, 新たなマルチアグリゲータグラフ畳み込み手法の利点を利用する。 実験により,SkinningNetが現在最先端の代替技術より優れていることを示すとともに,新しいアーキテクチャの有効性を実証した。

This work presents SkinningNet, an end-to-end Two-Stream Graph Neural Network architecture that computes skinning weights from an input mesh and its associated skeleton, without making any assumptions on shape class and structure of the provided mesh. Whereas previous methods pre-compute handcrafted features that relate the mesh and the skeleton or assume a fixed topology of the skeleton, the proposed method extracts this information in an end-to-end learnable fashion by jointly learning the best relationship between mesh vertices and skeleton joints. The proposed method exploits the benefits of the novel Multi-Aggregator Graph Convolution that combines the results of different aggregators during the summarizing step of the Message-Passing scheme, helping the operation to generalize for unseen topologies. Experimental results demonstrate the effectiveness of the contributions of our novel architecture, with SkinningNet outperforming current state-of-the-art alternatives.
翻訳日:2022-03-10 13:59:12 公開日:2022-03-09
# MLNav:火星で安全に航行する方法を学ぶ

MLNav: Learning to Safely Navigate on Martian Terrains ( http://arxiv.org/abs/2203.04563v1 )

ライセンス: Link先を確認
Shreyansh Daftry, Neil Abcouwer, Tyler Del Sesto, Siddarth Venkatraman, Jialin Song, Lucas Igel, Amos Byon, Ugo Rosolia, Yisong Yue and Masahiro Ono(参考訳) MLNavは,火星を航行するローバーなどの複雑な環境で稼働する,安全クリティカルで資源に制限のあるシステムのための学習支援パス計画フレームワークである。 MLNavは、安全制約を完全に尊重しながら、経路計画の効率を高めるために、機械学習を司法的に利用する。 特に、そのようなセーフティクリティカルな設定における計算コストは、提案したパス上でモデルベースのセーフティチェッカーを実行することである。 学習した検索ヒューリスティックは、1回の実行ですべてのパスオプションの実行可能性を同時に予測でき、モデルベースのセーフティチェッカーはトップスコーリングパスでのみ呼び出される。 我々は、ペルセヴァンス探査機が収集した火星の実際の地形データと、困難な合成地形のスイートを用いて、高忠実度シミュレーションを検証した。 私たちの実験では、 (i)PerserveranceローバーのベースラインENavパスプランナーと比較して、MLNavは、合成地形の訓練を受けたにもかかわらず、実際の火星の地形を航行する際の衝突チェックの10倍の削減など、複数の重要な指標を著しく改善することができる。 (ii) MLNavは、エナブの基準線がタイムアウトする前に実現不可能な経路を見つけられない高度に困難な地形をうまく航行することができる。

We present MLNav, a learning-enhanced path planning framework for safety-critical and resource-limited systems operating in complex environments, such as rovers navigating on Mars. MLNav makes judicious use of machine learning to enhance the efficiency of path planning while fully respecting safety constraints. In particular, the dominant computational cost in such safety-critical settings is running a model-based safety checker on the proposed paths. Our learned search heuristic can simultaneously predict the feasibility for all path options in a single run, and the model-based safety checker is only invoked on the top-scoring paths. We validate in high-fidelity simulations using both real Martian terrain data collected by the Perseverance rover, as well as a suite of challenging synthetic terrains. Our experiments show that: (i) compared to the baseline ENav path planner on board the Perserverance rover, MLNav can provide a significant improvement in multiple key metrics, such as a 10x reduction in collision checks when navigating real Martian terrains, despite being trained with synthetic terrains; and (ii) MLNav can successfully navigate highly challenging terrains where the baseline ENav fails to find a feasible path before timing out.
翻訳日:2022-03-10 13:58:52 公開日:2022-03-09
# (参考訳) 影は危険である - 自然現象によるステルス的かつ効果的な物理世界敵の攻撃 [全文訳有]

Shadows can be Dangerous: Stealthy and Effective Physical-world Adversarial Attack by Natural Phenomenon ( http://arxiv.org/abs/2203.03818v2 )

ライセンス: CC BY 4.0
Yiqi Zhong, Xianming Liu, Deming Zhai, Junjun Jiang, Xiangyang Ji(参考訳) 実世界で機械学習モデルを安全にデプロイするには、敵例のリスクレベルの推定が不可欠である。 物理世界の攻撃の1つの一般的なアプローチは「ステッカーパッチ」戦略を採用することであるが、ターゲットへのアクセスの困難や有効色による印刷などいくつかの制限に悩まされている。 レーザービームやプロジェクターなどの光学ベースのツールによって、標的に摂動を投射しようとする新しいタイプの非侵襲的な攻撃が最近現れた。 しかし、追加の光学パターンは人工的だが自然ではない。 このように、それらは依然として目立たしく、注意を払っており、容易に人間に気づくことができる。 そこで本研究では,ブラックボックス環境下での自然現象,シャドーによって摂動が発生し,自然主義的かつステルス的な物理世界対人攻撃を実現する新しいタイプの光対人攻撃事例について検討する。 シミュレーションと実環境の両方において,この新たな攻撃の有効性を広く評価した。 リサとgtsrbのテストセットでそれぞれ98.23%と90.47%の成功率に達し、実世界のシナリオでは95%以上移動中のカメラを誤解させながら、トラヒックサイン認識の実験結果が示されています。 また、この攻撃の制限と防御機構についても議論する。

Estimating the risk level of adversarial examples is essential for safely deploying machine learning models in the real world. One popular approach for physical-world attacks is to adopt the "sticker-pasting" ; strategy, which however suffers from some limitations, including difficulties in access to the target or printing by valid colors. A new type of non-invasive attacks emerged recently, which attempt to cast perturbation onto the target by optics based tools, such as laser beam and projector. However, the added optical patterns are artificial but not natural. Thus, they are still conspicuous and attention-grabbed, and can be easily noticed by humans. In this paper, we study a new type of optical adversarial examples, in which the perturbations are generated by a very common natural phenomenon, shadow, to achieve naturalistic and stealthy physical-world adversarial attack under the black-box setting. We extensively evaluate the effectiveness of this new attack on both simulated and real-world environments. Experimental results on traffic sign recognition demonstrate that our algorithm can generate adversarial examples effectively, reaching 98.23% and 90.47% success rates on LISA and GTSRB test sets respectively, while continuously misleading a moving camera over 95% of the time in real-world scenarios. We also offer discussions about the limitations and the defense mechanism of this attack.
翻訳日:2022-03-10 13:57:12 公開日:2022-03-09
# (参考訳) 機械学習を用いた連続変数の介入による平均因果効果の推定 [全文訳有]

Estimating the average causal effect of intervention in continuous variables using machine learning ( http://arxiv.org/abs/2203.03916v2 )

ライセンス: CC BY 4.0
Yoshiaki Kitazawa(参考訳) 平均因果効果/平均治療効果を推定するための最も広く議論されている方法は、介入/非干渉群を表す値を持つ離散二変数への介入である。 一方,データ生成モデルに依存しない連続変数のインターベンション手法は開発されていない。 本研究では,任意の生成モデルのデータに適用可能な連続変数に対する介入に対する平均因果効果を,因果効果を識別できる限り推定する手法を提案する。 提案手法は機械学習アルゴリズムとは無関係であり、データの識別性を保持する。

The most widely discussed methods for estimating the Average Causal Effect / Average Treatment Effect are those for intervention in discrete binary variables whose value represents the intervention / non-intervention groups. On the other hand, methods for intervening in continuous variables independent of the data generating model has not been developed. In this study, we give a method for estimating the average causal effect for intervention in continuous variables that can be applied to data of any generating model as long as the causal effect is identifiable. The proposing method is independent of machine learning algorithms and preserves the identifiability of the data.
翻訳日:2022-03-10 13:12:55 公開日:2022-03-09
# (参考訳) 歩行による人物識別の理解 [全文訳有]

Understanding person identification via gait ( http://arxiv.org/abs/2203.04179v2 )

ライセンス: CC BY-SA 4.0
Simon Hanisch and Evelyn Muschter and Adamantini Chatzipanagioti and Shu-Chen Li and Thorsten Strufe(参考訳) 歩行認識は、歩行や走行などの二足歩行から人間を識別するプロセスである。 このような歩行データはプライバシーに敏感な情報であり、匿名化されるべきである。 深度カメラやモーションキャプチャスーツなど、より高品質な歩行記録技術が普及するにつれて、匿名化を必要とする高品質の歩行データが増えてきている。 高品質な歩行データのための匿名化技術開発に向けた第一歩として,移動データのさまざまな側面を調査し,歩行認識プロセスへの貢献を定量化する。 まず、人間の歩行知覚に関する文献から特徴のカテゴリを抽出し、その後、歩行認識システムに対して実行するカテゴリごとに計算実験をデザインする。 その結果,データの冗長性と相互依存性が高いため,歩行匿名化は困難なプロセスであることがわかった。

Gait recognition is the process of identifying humans from their bipedal locomotion such as walking or running. As such gait data is privacy sensitive information and should be anonymized. With the rise of more and higher quality gait recording techniques, such as depth cameras or motion capture suits, an increasing amount of high-quality gait data becomes available which requires anonymization. As a first step towards developing anonymization techniques for high-quality gait data, we study different aspects of movement data to quantify their contribution to the gait recognition process. We first extract categories of features from the literature on human gait perception and then design computational experiments for each of the categories which we run against a gait recognition system. Our results show that gait anonymization is a challenging process as the data is highly redundant and interdependent.
翻訳日:2022-03-10 12:39:26 公開日:2022-03-09
# ILDAE: 評価データのインスタンスレベル問題解析

ILDAE: Instance-Level Difficulty Analysis of Evaluation Data ( http://arxiv.org/abs/2203.03073v2 )

ライセンス: Link先を確認
Neeraj Varshney, Swaroop Mishra, and Chitta Baral(参考訳) 質問の難易度に関する知識は、慎重に選択された質問をすることで、生徒のポテンシャルを素早く推定し、自明で難しい質問を修正して、試験の質を向上させるなど、教師の助けとなる。 nlpのインスタンス難易度というメリットを享受できるでしょうか? この目的のために、23のデータセットを大規模にセットアップしたILDAE(Instance-Level Difficulty Analysis of Evaluation Data)を実施し、その5つの新しい応用を実証する。 1) 計算コストと時間を節約する少ないインスタンスで効率良く正確な評価を行うこと。 2)誤例及び自明例の修正による既存評価データセットの品質向上 3) アプリケーション要件に基づいて最適なモデルを選択する。 4)将来のデータ作成を導くためのデータセット特性の分析 5) ドメイン外のパフォーマンスを確実に見積もる。 これらのアプリケーションに対する総合的な実験は、5%のインスタンス(ILDAE経由で選択される)による評価が、完全なデータセットによる評価と最大0.93のKendall相関、難易度スコアを用いた計算重み付き精度などの興味深い結果をもたらす。 我々は、難易度スコアを公表し、分析と結果が、評価においてインスタンスの難易度を活用するこの重要かつ未検討の分野により多くの注意を向けることを期待する。

Knowledge of questions' difficulty level helps a teacher in several ways, such as estimating students' potential quickly by asking carefully selected questions and improving quality of examination by modifying trivial and hard questions. Can we extract such benefits of instance difficulty in NLP? To this end, we conduct Instance-Level Difficulty Analysis of Evaluation data (ILDAE) in a large-scale setup of 23 datasets and demonstrate its five novel applications: 1) conducting efficient-yet-accura te evaluations with fewer instances saving computational cost and time, 2) improving quality of existing evaluation datasets by repairing erroneous and trivial instances, 3) selecting the best model based on application requirements, 4) analyzing dataset characteristics for guiding future data creation, 5) estimating Out-of-Domain performance reliably. Comprehensive experiments for these applications result in several interesting findings, such as evaluation using just 5% instances (selected via ILDAE) achieves as high as 0.93 Kendall correlation with evaluation using complete dataset and computing weighted accuracy using difficulty scores leads to 5.2% higher correlation with Out-of-Domain performance. We release the difficulty scores and hope our analyses and findings will bring more attention to this important yet understudied field of leveraging instance difficulty in evaluations.
翻訳日:2022-03-10 12:21:41 公開日:2022-03-09
# ClueGraphSum: Key Cluesが言語間の抽象的な要約をガイドする

ClueGraphSum: Let Key Clues Guide the Cross-Lingual Abstractive Summarization ( http://arxiv.org/abs/2203.02797v2 )

ライセンス: Link先を確認
Shuyu Jiang, Dengbiao Tu, Xingshu Chen, Rui Tang, Wenxian Wang, Haizhou Wang(参考訳) 言語間要約(CLS)は、ある言語における記事の要約を生成するタスクである。 CLSに関するこれまでの研究は主にパイプライン方式を採用し、翻訳された並列データを使ってエンドツーエンドモデルを訓練していた。 しかし、生成した言語間要約の品質は、さらなる改善が必要であり、モデル性能は手書きのCLSデータセットで評価されることはなかった。 そこで本研究では,まず,言語間要約の質を向上させるための手掛かり付き言語間要約手法を提案し,その評価のために新しい手書きclsデータセットを構築した。 具体的には,入力記事のキーワード,名前付きエンティティ等を要約の手がかりとして抽出し,手掛かり案内アルゴリズムを設計すれば,ノイズの少ない文をグラフに変換することができる。 1つのグラフエンコーダは文の意味と記事の構造を学習するために作られ、1つの手掛かりエンコーダは鍵となる手掛かりをエンコードし翻訳し、重要な部分の情報が生成された要約に格納されるようにする。 これら2つのエンコーダは1つのデコーダで接続され、言語間セマンティクスを直接学習する。 実験の結果,提案手法はより長い入力に対して強い強靭性を有し,高いベースライン上での性能向上を実現し,既存のSOTAよりも8.55ROUGE-1と2.13MoverScoreのスコア向上を実現した。

Cross-Lingual Summarization (CLS) is the task to generate a summary in one language for an article in a different language. Previous studies on CLS mainly take pipeline methods or train the end-to-end model using the translated parallel data. However, the quality of generated cross-lingual summaries needs more further efforts to improve, and the model performance has never been evaluated on the hand-written CLS dataset. Therefore, we first propose a clue-guided cross-lingual abstractive summarization method to improve the quality of cross-lingual summaries, and then construct a novel hand-written CLS dataset for evaluation. Specifically, we extract keywords, named entities, etc. of the input article as key clues for summarization and then design a clue-guided algorithm to transform an article into a graph with less noisy sentences. One Graph encoder is built to learn sentence semantics and article structures and one Clue encoder is built to encode and translate key clues, ensuring the information of important parts are reserved in the generated summary. These two encoders are connected by one decoder to directly learn cross-lingual semantics. Experimental results show that our method has stronger robustness for longer inputs and substantially improves the performance over the strong baseline, achieving an improvement of 8.55 ROUGE-1 (English-to-Chinese summarization) and 2.13 MoverScore (Chinese-to-English summarization) scores over the existing SOTA.
翻訳日:2022-03-10 12:21:17 公開日:2022-03-09
# 深層学習に基づく3次元クラウド補完処理と解析の総合的レビュー

Comprehensive Review of Deep Learning-Based 3D Point Cloud Completion Processing and Analysis ( http://arxiv.org/abs/2203.03311v2 )

ライセンス: Link先を確認
Ben Fei, Weidong Yang, Wenming Chen, Zhijun Li, Yikang Li, Tao Ma, Xing Hu, Lipeng Ma(参考訳) ポイント・クラウド・コンプリート(point cloud completion)は、3dコンピュータ・ビジョンにおけるアプリケーションにおいて重要な役割を果たす部分的ポイント・クラウドに由来する生成と推定の問題である。 ディープラーニング(DL)の進歩は、ポイントクラウド補完の能力と堅牢性を大幅に改善しました。 しかし, 実用的利用を実現するためには, 完成点雲の品質をさらに高める必要がある。 そこで本研究では,ポイントベース,畳み込みベース,グラフベース,生成モデルベースなど,様々な手法に関する総合的な調査を行う。 この調査は、これらの方法の比較を要約し、さらなる研究の洞察を与えます。 さらに、このレビューは一般的に使われているデータセットをまとめ、ポイントクラウド補完の応用について説明する。 最終的に、この急速に拡大する分野における研究動向についても論じる。

Point cloud completion is a generation and estimation issue derived from the partial point clouds, which plays a vital role in the applications in 3D computer vision. The progress of deep learning (DL) has impressively improved the capability and robustness of point cloud completion. However, the quality of completed point clouds is still needed to be further enhanced to meet the practical utilization. Therefore, this work aims to conduct a comprehensive survey on various methods, including point-based, convolution-based, graph-based, and generative model-based approaches, etc. And this survey summarizes the comparisons among these methods to provoke further research insights. Besides, this review sums up the commonly used datasets and illustrates the applications of point cloud completion. Eventually, we also discussed possible research trends in this promptly expanding field.
翻訳日:2022-03-10 12:20:21 公開日:2022-03-09
# Dynamic Group Transformer: Dynamic Group Attention を備えた汎用視覚変換器バックボーン

Dynamic Group Transformer: A General Vision Transformer Backbone with Dynamic Group Attention ( http://arxiv.org/abs/2203.03937v2 )

ライセンス: Link先を確認
Kai Liu, Tianyi Wu, Cong Liu, Guodong Guo(参考訳) 近年、トランスフォーマーは様々な視覚タスクにおいて有望な性能を示している。 各クエリがすべてのキー/値に従属することによる二次計算の複雑さを低減するため、各クエリが手作りウィンドウ内のキー/値にのみ従うローカル領域内の注意の範囲を様々な方法で制限した。 しかし、これらの手作りウィンドウ分割機構は、データに依存しず、入力内容を無視しているため、あるクエリが無関係なキー/値に対応する可能性がある。 本稿では,すべての問合せを複数のグループに動的に分割し,各グループに対して最も関連するキー/値を選択する動的グループアテンション(dgアテンション)を提案する。 我々のDG-Attentionは、手作りウィンドウベースの注意に使用される空間的制約なしに、柔軟により関連する依存関係をモデル化できる。 dg-attentionを基盤として,dynamic group transformer (dgt) という一般ビジョントランスフォーマーを開発した。 画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションなど,複数の共通ビジョンタスクにおいて,我々のモデルが最先端の手法より優れていることを示す。

Recently, Transformers have shown promising performance in various vision tasks. To reduce the quadratic computation complexity caused by each query attending to all keys/values, various methods have constrained the range of attention within local regions, where each query only attends to keys/values within a hand-crafted window. However, these hand-crafted window partition mechanisms are data-agnostic and ignore their input content, so it is likely that one query maybe attends to irrelevant keys/values. To address this issue, we propose a Dynamic Group Attention (DG-Attention), which dynamically divides all queries into multiple groups and selects the most relevant keys/values for each group. Our DG-Attention can flexibly model more relevant dependencies without any spatial constraint that is used in hand-crafted window based attention. Built on the DG-Attention, we develop a general vision transformer backbone named Dynamic Group Transformer (DGT). Extensive experiments show that our models can outperform the state-of-the-art methods on multiple common vision tasks, including image classification, semantic segmentation, object detection, and instance segmentation.
翻訳日:2022-03-10 12:20:07 公開日:2022-03-09
# Dual-Teacher Multi-target Domain Adaptation による網膜血管セグメンテーションにおけるDeathlon Master

Student Become Decathlon Master in Retinal Vessel Segmentation via Dual-teacher Multi-target Domain Adaptation ( http://arxiv.org/abs/2203.03631v2 )

ライセンス: Link先を確認
Linkai Peng, Li Lin, Pujin Cheng, Huaqing He, Xiaoying Tang(参考訳) トレーニングデータと異なる分布を持つテストデータの間のいわゆるドメインシフトに取り組むために、教師なしドメイン適応が最近提案されている。 しかし、その多くは単一ターゲットドメイン適応のみに焦点を当てており、複数のターゲットドメインを持つシナリオには適用できない。 本稿では,マルチモーダルおよびマルチセンタ網膜画像から網膜血管(RV)を分割する,新しい教師なしマルチターゲットドメイン適応手法であるRVmsを提案する。 rvmsは主にsat(style augmentedation and transfer)モジュールとdtkd(dual-teacher knowledge distillation)モジュールで構成されている。 SATはB\'ezierおよびFourier変換を通じて、ソース類似のドメインとソース類似のドメインにイメージを拡大し、クラスタ化する。 DTKDは、拡張および変換されたデータを使用して、2人の教師を訓練する。 その後、教師から一般学生への異なるドメイン知識を反復的に蒸留するために知識蒸留を行う。 局所的な相対強度変換は、RVを領域不変な方法で特徴づけ、教師や学生モデルの一般化を促進するために用いられる。 さらに,既存の公開データセットから新たなマルチモーダル・マルチセンター血管セグメンテーションデータセットを構築し,様々なドメイン適応法とドメイン一般化法のベンチマークを行う。 大規模な実験により、RVmsは、ターゲットとなるOracleに非常に近く、RVをセグメント化するという点で、他の最先端の手法よりも優れていることが判明した。

Unsupervised domain adaptation has been proposed recently to tackle the so-called domain shift between training data and test data with different distributions. However, most of them only focus on single-target domain adaptation and cannot be applied to the scenario with multiple target domains. In this paper, we propose RVms, a novel unsupervised multi-target domain adaptation approach to segment retinal vessels (RVs) from multimodal and multicenter retinal images. RVms mainly consists of a style augmentation and transfer (SAT) module and a dual-teacher knowledge distillation (DTKD) module. SAT augments and clusters images into source-similar domains and source-dissimilar domains via B\'ezier and Fourier transformations. DTKD utilizes the augmented and transformed data to train two teachers, one for source-similar domains and the other for source-dissimilar domains. Afterwards, knowledge distillation is performed to iteratively distill different domain knowledge from teachers to a generic student. The local relative intensity transformation is employed to characterize RVs in a domain invariant manner and promote the generalizability of teachers and student models. Moreover, we construct a new multimodal and multicenter vascular segmentation dataset from existing publicly-available datasets, which can be used to benchmark various domain adaptation and domain generalization methods. Through extensive experiments, RVms is found to be very close to the target-trained Oracle in terms of segmenting the RVs, largely outperforming other state-of-the-art methods.
翻訳日:2022-03-10 12:19:44 公開日:2022-03-09