このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221113となっている論文です。

PDF登録状況(公開日: 20221113)

TitleAuthorsAbstract論文公表日・翻訳日
# ループ検出器データを用いた交通予測のためのGC-GRU-N

GC-GRU-N for Traffic Prediction using Loop Detector Data ( http://arxiv.org/abs/2211.08541v1 )

ライセンス: Link先を確認
Maged Shoman, Armstrong Aboah, Abdulateef Daud, Yaw Adu-Gyamfi(参考訳) 交通特性は確率的非線形時空間依存性を示すため,交通予測は難しい課題である。 本稿では,重要な時空間的特徴を抽出するグラフ畳み込みゲート再帰ユニット(GC GRU N)ネットワークを開発する。 シアトルのループ検出データを使って 15分以上蓄積した 空間と時間で問題を再構築する モデル性能は、履歴平均、Long Short Term Memory (LSTM)、Transformerというベンチマークモデルと比較される。 提案したモデルは,最速の推論時間と非常に近い性能(トランスフォーマー)で2位にランクインした。 私たちのモデルは、トランスフォーマーよりも6倍速い実行時間を実現しています。 最後に、トレーニング時間、推論時間、MAPE、MAE、RMSEなどの指標を用いて、モデルと利用可能なベンチマークを比較した。 トレーニングされた各モデルに対して、時間的および時間的側面も分析される。

Because traffic characteristics display stochastic nonlinear spatiotemporal dependencies, traffic prediction is a challenging task. In this paper develop a graph convolution gated recurrent unit (GC GRU N) network to extract the essential Spatio temporal features. we use Seattle loop detector data aggregated over 15 minutes and reframe the problem through space and time. The model performance is compared o benchmark models; Historical Average, Long Short Term Memory (LSTM), and Transformers. The proposed model ranked second with the fastest inference time and a very close performance to first place (Transformers). Our model also achieves a running time that is six times faster than transformers. Finally, we present a comparative study of our model and the available benchmarks using metrics such as training time, inference time, MAPE, MAE and RMSE. Spatial and temporal aspects are also analyzed for each of the trained models.
翻訳日:2022-11-17 16:16:07 公開日:2022-11-13
# 条件付き変分オートエンコーダによる規範的モデリングとアルツハイマー病における脳機能障害の同定

Normative Modeling via Conditional Variational Autoencoder and Adversarial Learning to Identify Brain Dysfunction in Alzheimer's Disease ( http://arxiv.org/abs/2211.08982v1 )

ライセンス: Link先を確認
Xuetong Wang, Kanhao Zhao, Rong Zhou, Alex Leow, Ricardo Osorio, Yu Zhang, Lifang He(参考訳) 規範的モデリングは、個々の参加者における障害の多様性を効果的に研究するための、新しくて有望なアプローチである。 本研究では,アルツハイマー病(AD)の脳機能障害を同定するために,条件付き変分オートエンコーダと対向学習(ACVAE)を組み合わせた新しい規範的モデリング手法を提案する。 具体的には、まず、健康管理(hc)グループで条件的vaeを訓練し、年齢、性別、頭蓋内容積などの共変量に基づく規範モデルを作成する。 次に,非知覚データに対してより一般化可能な識別的特徴空間を構築するために,敵対的訓練プロセスを導入する。 最後に,患者レベルでの正常基準からの偏差を計算し,どの脳領域がADと関連しているかを判定した。 OASIS-3データベースを用いた実験により,本モデルが生成する偏差マップは,他の深部規範モデルよりもADに対する感度が高く,AD群とHC群との差異をよりよく識別できることが示された。

Normative modeling is an emerging and promising approach to effectively study disorder heterogeneity in individual participants. In this study, we propose a novel normative modeling method by combining conditional variational autoencoder with adversarial learning (ACVAE) to identify brain dysfunction in Alzheimer's Disease (AD). Specifically, we first train a conditional VAE on the healthy control (HC) group to create a normative model conditioned on covariates like age, gender and intracranial volume. Then we incorporate an adversarial training process to construct a discriminative feature space that can better generalize to unseen data. Finally, we compute deviations from the normal criterion at the patient level to determine which brain regions were associated with AD. Our experiments on OASIS-3 database show that the deviation maps generated by our model exhibit higher sensitivity to AD compared to other deep normative models, and are able to better identify differences between the AD and HC groups.
翻訳日:2022-11-17 14:27:25 公開日:2022-11-13
# VGFlow: 可視性誘導型リポジショニングのためのフローネットワーク

VGFlow: Visibility guided Flow Network for Human Reposing ( http://arxiv.org/abs/2211.08540v1 )

ライセンス: Link先を確認
Rishabh Jain, Krishna Kumar Singh, Mayur Hemani, Jingwan Lu, Mausooom Sarkar, Duygu Ceylan, Balaji Krishnamurthy(参考訳) 人間の再現のタスクは、任意の知覚可能なポーズで立っている人の現実的なイメージを生成することである。 知覚的に正確な画像を生成するには複数の困難があり、既存の方法はテクスチャの保存、パターンコヒーレンス維持、布の境界の尊重、オクルージョンの扱い、皮膚生成の操作などの制限に悩まされている。 これらの困難は、人間のポーズ指向の可能な空間が大きくて可変であり、衣料品の性質は非常に非剛性であり、身体形状の多様性は人口によって大きく異なるという事実によってさらに悪化する。 これらの困難を緩和し、知覚的精度の高い画像を合成するために、VGFlowを提案する。 本モデルでは,視認性制御フローモジュールを用いて,ターゲットの可視・視認性を分離し,テクスチャ保存とスタイル操作を同時に行う。 さらに,異なる体型に取り組み,ネットワークアーティファクトを回避するために,自己教師付きパッチワイズによる「リアルネス」損失を取り入れ,出力を改善する。 VGFlowは、画像品質の指標(SSIM、LPIPS、FID)の質的、定量的に観察される最先端の結果を達成する。

The task of human reposing involves generating a realistic image of a person standing in an arbitrary conceivable pose. There are multiple difficulties in generating perceptually accurate images, and existing methods suffer from limitations in preserving texture, maintaining pattern coherence, respecting cloth boundaries, handling occlusions, manipulating skin generation, etc. These difficulties are further exacerbated by the fact that the possible space of pose orientation for humans is large and variable, the nature of clothing items is highly non-rigid, and the diversity in body shape differs largely among the population. To alleviate these difficulties and synthesize perceptually accurate images, we propose VGFlow. Our model uses a visibility-guided flow module to disentangle the flow into visible and invisible parts of the target for simultaneous texture preservation and style manipulation. Furthermore, to tackle distinct body shapes and avoid network artifacts, we also incorporate a self-supervised patch-wise "realness" loss to improve the output. VGFlow achieves state-of-the-art results as observed qualitatively and quantitatively on different image quality metrics (SSIM, LPIPS, FID).
翻訳日:2022-11-17 14:01:52 公開日:2022-11-13
# 視覚トランスフォーマーにおける自己着脱 : 意味論的視点からの解析と応用

Demystify Self-Attention in Vision Transformers from a Semantic Perspective: Analysis and Application ( http://arxiv.org/abs/2211.08543v1 )

ライセンス: Link先を確認
Leijie Wu, Song Guo, Yaohong Ding, Junxiao Wang, Wenchao Xu, Richard Yida Xu and Jie Zhang(参考訳) 自己アテンション機構、特にマルチヘッド自己アテンション(MSA)はコンピュータビジョンや自然言語処理など多くの分野で大きな成功を収めている。 しかし、既存の視覚変換器(ViT)の多くは、単にNLPから固有のトランスフォーマー設計を施して視覚タスクを適応させ、"画像と言語設定におけるMSAの動作方法"の根本的な違いを無視している。 言語は自然に、人間が直接解釈できる高度に意味的な構造を含んでいる。 基本単位(単語)は冗長な情報を持たない離散であり、言語トランスフォーマーのMSA機構の解釈可能な研究を支援する。 基本単位(ピクセル)は、近隣で重要な冗長性を持つ自然な低レベル表現であり、ViTにおけるMSA機構の解釈可能性に明らかな課題を生じさせる。 本稿では,低レベル表現を中間レベル空間にマッピングし,意味的に豊かな情報で広範囲な離散キーポイントを注釈する,SIFT(Scale-invariant feature transforms)という典型的な画像処理手法を提案する。 次に,siftキーポイントに基づく重み付きパッチ相互関係解析を行い,異なる意味的濃度のパッチに隠された注意パターンを捉える。 1)モデル推論における散発的相関発見と'prompting'' 2)および誘導モデル事前学習加速度。 両応用実験の結果, ベースラインよりも有意な優位性を示し, 提案手法の有効性を実証した。

Self-attention mechanisms, especially multi-head self-attention (MSA), have achieved great success in many fields such as computer vision and natural language processing. However, many existing vision transformer (ViT) works simply inherent transformer designs from NLP to adapt vision tasks, while ignoring the fundamental difference between ``how MSA works in image and language settings''. Language naturally contains highly semantic structures that are directly interpretable by humans. Its basic unit (word) is discrete without redundant information, which readily supports interpretable studies on MSA mechanisms of language transformer. In contrast, visual data exhibits a fundamentally different structure: Its basic unit (pixel) is a natural low-level representation with significant redundancies in the neighbourhood, which poses obvious challenges to the interpretability of MSA mechanism in ViT. In this paper, we introduce a typical image processing technique, i.e., scale-invariant feature transforms (SIFTs), which maps low-level representations into mid-level spaces, and annotates extensive discrete keypoints with semantically rich information. Next, we construct a weighted patch interrelation analysis based on SIFT keypoints to capture the attention patterns hidden in patches with different semantic concentrations Interestingly, we find this quantitative analysis is not only an effective complement to the interpretability of MSA mechanisms in ViT, but can also be applied to 1) spurious correlation discovery and ``prompting'' during model inference, 2) and guided model pre-training acceleration. Experimental results on both applications show significant advantages over baselines, demonstrating the efficacy of our method.
翻訳日:2022-11-17 13:53:47 公開日:2022-11-13
# 少数/ゼロショット学習に基づく視覚意味セグメンテーション:概要

Visual Semantic Segmentation Based on Few/Zero-Shot Learning: An Overview ( http://arxiv.org/abs/2211.08352v1 )

ライセンス: Link先を確認
Wenqi Ren, Yang Tang, Qiyu Sun, Chaoqiang Zhao, Qing-Long Han(参考訳) ビジュアルセマンティックセグメンテーションは、視覚サンプルを特定のセマンティック属性を持つ多様なブロックに分割し、各ブロックのカテゴリを特定することを目的としており、環境認識において重要な役割を果たす。 従来の学習に基づく視覚的セマンティックセグメンテーションアプローチは、密集したアノテーションを持つ大規模トレーニングデータに大きく依存する。 この障害は、少数/ゼロショット学習の助けを借りて、視覚的セマンティックセグメンテーションの研究の急激な動きを引き起こす。 少数/ゼロショットの視覚的セマンティックセグメンテーションの出現と急速な進歩により、ラベル付きまたはゼロラベル付きサンプルから未知のカテゴリを学習することが可能になり、実用的な応用へと拡張が進む。 そこで本研究では,最近発表された2次元空間から3次元空間まで多様な視覚的セマンティックセグメンテーション手法に注目し,セグメンテーションの異なる状況下での技術的解決の共通性と相違について検討する。 具体的には、問題定義、典型的なデータセット、技術的改善を含む、ほとんどゼロショットの視覚的セマンティクスセグメンテーションの予備を簡潔にレビューし、議論する。 さらに、画像意味セグメンテーション、ビデオオブジェクトセグメンテーション、および3dセグメンテーションを含む、視覚意味セグメンテーションを含む、少数/ゼロショット学習のインタラクションを明らかにするために、3つの典型的なインスタンス化が関与している。 最後に,視覚的セマンティックセグメンテーションの課題について述べる。

Visual semantic segmentation aims at separating a visual sample into diverse blocks with specific semantic attributes and identifying the category for each block, and it plays a crucial role in environmental perception. Conventional learning-based visual semantic segmentation approaches count heavily on large-scale training data with dense annotations and consistently fail to estimate accurate semantic labels for unseen categories. This obstruction spurs a craze for studying visual semantic segmentation with the assistance of few/zero-shot learning. The emergence and rapid progress of few/zero-shot visual semantic segmentation make it possible to learn unseen-category from a few labeled or zero-labeled samples, which advances the extension to practical applications. Therefore, this paper focuses on the recently published few/zero-shot visual semantic segmentation methods varying from 2D to 3D space and explores the commonalities and discrepancies of technical settlements under different segmentation circumstances. Specifically, the preliminaries on few/zero-shot visual semantic segmentation, including the problem definitions, typical datasets, and technical remedies, are briefly reviewed and discussed. Moreover, three typical instantiations are involved to uncover the interactions of few/zero-shot learning with visual semantic segmentation, including image semantic segmentation, video object segmentation, and 3D segmentation. Finally, the future challenges of few/zero-shot visual semantic segmentation are discussed.
翻訳日:2022-11-16 15:20:49 公開日:2022-11-13
# 一般に再利用可能なエージェント環境相互作用モデルの構築

Build generally reusable agent-environment interaction models ( http://arxiv.org/abs/2211.08234v1 )

ライセンス: Link先を確認
Jun Jin, Hongming Zhang, Jun Luo(参考訳) 本稿では,モデル事前学習の問題に取り組み,ダウンストリームタスク学習のためのバックボーンを一般に再利用する。 事前学習において,様々なタスクをカバーするエージェントの膨大な経験からドメイン不変な後継特徴を学習してエージェント環境相互作用モデルを構築し,それらを動作プロトタイプに識別することで,具体的設定構造を実現する手法を提案する。 下流タスク学習に汎用的に再利用可能なモデルとして,(1)新しいタスクの観測・動作ペアを具体化集合構造に投影し,(2)新しいタスク設定に学習可塑性を付加したベルマン更新を投影し,先行知識を保持する具体化特徴投影法を提案する。 本研究では,事前学習した組立構造に基づく下流タスク学習が課題目標,環境力学,センサのモダリティの未確認変化を処理可能であることを示す。

This paper tackles the problem of how to pre-train a model and make it generally reusable backbones for downstream task learning. In pre-training, we propose a method that builds an agent-environment interaction model by learning domain invariant successor features from the agent's vast experiences covering various tasks, then discretize them into behavior prototypes which result in an embodied set structure. To make the model generally reusable for downstream task learning, we propose (1) embodied feature projection that retains previous knowledge by projecting the new task's observation-action pair to the embodied set structure and (2) projected Bellman updates which add learning plasticity for the new task setting. We provide preliminary results that show downstream task learning based on a pre-trained embodied set structure can handle unseen changes in task objectives, environmental dynamics and sensor modalities.
翻訳日:2022-11-16 13:43:10 公開日:2022-11-13
# HigeNet: AIOpsにおける時系列時系列予測のための高効率モデリング

HigeNet: A Highly Efficient Modeling for Long Sequence Time Series Prediction in AIOps ( http://arxiv.org/abs/2211.07642v1 )

ライセンス: Link先を確認
Jiajia Li, Feng Tan, Cheng He, Zikai Wang, Haitao Song, Lingfei Wu, Pengwei Hu(参考訳) 現代のITシステムは、システムソフトウェアとハードウェアメトリクスの統合を必要とする。 その結果、大量のデータを生成し、データ駆動の運用上の決定に使用できる可能性がある。 基本的な形式では、決定モデルはcpu使用率、割り当てられたメモリ、ディスク、ネットワーク遅延など、多数のマシンデータを監視し、パフォーマンス低下を防止するためにシステムメトリクスを予測する必要がある。 しかし、このシナリオで効果的な予測モデルを構築することは、多変量時間系列(MTS)における長距離結合依存性を正確に捉える必要があるため、かなり難しい。 さらに、このモデルは計算の複雑さが低く、利用可能なデータの次元に効率的にスケールできる必要がある。 本稿では,HigeNetという高効率モデルを提案し,時系列時系列の予測を行う。 D-matrixプラットフォームでの運用にHigeNetをデプロイしました。 また、いくつかの公開データセットのオフライン評価や、モデルの有効性を示すオンラインデータセットも提供しています。 広範な実験により、トレーニング時間、リソース使用量、モデルの正確性は、5つの最先端の競合モデルよりもはるかに優れていることが判明した。

Modern IT system operation demands the integration of system software and hardware metrics. As a result, it generates a massive amount of data, which can be potentially used to make data-driven operational decisions. In the basic form, the decision model needs to monitor a large set of machine data, such as CPU utilization, allocated memory, disk and network latency, and predicts the system metrics to prevent performance degradation. Nevertheless, building an effective prediction model in this scenario is rather challenging as the model has to accurately capture the long-range coupling dependency in the Multivariate Time-Series (MTS). Moreover, this model needs to have low computational complexity and can scale efficiently to the dimension of data available. In this paper, we propose a highly efficient model named HigeNet to predict the long-time sequence time series. We have deployed the HigeNet on production in the D-matrix platform. We also provide offline evaluations on several publicly available datasets as well as one online dataset to demonstrate the model's efficacy. The extensive experiments show that training time, resource usage and accuracy of the model are found to be significantly better than five state-of-the-art competing models.
翻訳日:2022-11-16 13:23:27 公開日:2022-11-13
# 糖尿病予測のためのIoT-Edge-Artificial Intelligence-Blockchainモニタリングシステム

Secure and Privacy-Preserving Automated End-to-End Integrated IoT-Edge-Artificial Intelligence-Blockchain Monitoring System for Diabetes Mellitus Prediction ( http://arxiv.org/abs/2211.07643v1 )

ライセンス: Link先を確認
Leila Ismail, Alain Hennebelle, Huned Materwala, Juma Al Kaabi, Priya Ranjan, Rajiv Janardhanan(参考訳) 糖尿病は世界中で死因の1つであり、現在まで治療法がなく、治療を受けていない場合は網膜症、手足切断、心血管疾患、神経疾患などの重篤な合併症を引き起こす可能性がある。 したがって、糖尿病の発生を回避・予測するための予防措置を講じることが不可欠となる。 糖尿病予測のための文献に機械学習アプローチが提案され,評価されている。 本稿では,危険因子に基づく糖尿病予測のためのIoT-edge-Artificial Intelligence (AI)-blockchainシステムを提案する。 提案システムはブロックチェーンによって支えられ、異なる病院の患者からリスクファクターデータの密集したビューを取得し、ユーザデータのセキュリティとプライバシを確保する。 さらに, 医療用センサ, デバイス, およびシステム内のリスク因子値を測定・収集する手法の比較分析を行った。 最も正確なランダムフォレスト(rf)モデルを用いた数値実験と,3つの実生活糖尿病データセットを用いた2つの最先端機械学習手法であるロジスティック回帰(lr)とサポートベクターマシン(svm)の比較分析を行った。 その結果,RFを用いたシステムは,LRやSVMと比較して平均4.57%の精度で糖尿病を予測し,実行時間が2.87倍であることがわかった。 機能選択のないデータバランシングでは、大きな改善はない。 PIMA Indian と Sylhet のデータセットの特徴選択後、パフォーマンスは 1.14% と 0.02% 改善され、MIMIC III では 0.89% 向上した。

Diabetes Mellitus, one of the leading causes of death worldwide, has no cure till date and can lead to severe health complications, such as retinopathy, limb amputation, cardiovascular diseases, and neuronal disease, if left untreated. Consequently, it becomes crucial to take precautionary measures to avoid/predict the occurrence of diabetes. Machine learning approaches have been proposed and evaluated in the literature for diabetes prediction. This paper proposes an IoT-edge-Artificial Intelligence (AI)-blockchain system for diabetes prediction based on risk factors. The proposed system is underpinned by the blockchain to obtain a cohesive view of the risk factors data from patients across different hospitals and to ensure security and privacy of the user data. Furthermore, we provide a comparative analysis of different medical sensors, devices, and methods to measure and collect the risk factors values in the system. Numerical experiments and comparative analysis were carried out between our proposed system, using the most accurate random forest (RF) model, and the two most used state-of-the-art machine learning approaches, Logistic Regression (LR) and Support Vector Machine (SVM), using three real-life diabetes datasets. The results show that the proposed system using RF predicts diabetes with 4.57% more accuracy on average compared to LR and SVM, with 2.87 times more execution time. Data balancing without feature selection does not show significant improvement. The performance is improved by 1.14% and 0.02% after feature selection for PIMA Indian and Sylhet datasets respectively, while it reduces by 0.89% for MIMIC III.
翻訳日:2022-11-16 13:23:10 公開日:2022-11-13
# FullPack: 汎用CPUにおけるサブバイト量子化推論のための完全ベクトル利用

FullPack: Full Vector Utilization for Sub-Byte Quantized Inference on General Purpose CPUs ( http://arxiv.org/abs/2211.06982v1 )

ライセンス: Link先を確認
Hossein Katebi, Navidreza Asadi, Maziar Goudarzi(参考訳) 従来の技術では、サブバイトの量子化 -- 重みやアクティベーションが8ビット未満で表現される -- は無視可能な精度低下を示しているが、CPUの一般的なSIMD命令はこれらのデータ型をネイティブにサポートしていない。 ULPPACKのような最近の手法では、ベクトル単位を持つ汎用CPUのサブバイト量子化が既に行われているが、操作中に近隣のCPUへのオーバーフローを避けるために、メモリとベクトルレジスタのサブバイト値の間に空のビットがいくつか残されている。 その結果、メモリフットプリントと帯域幅使用効率が低下し、性能が低下する。 本稿では,メモリ内のすべてのビットと実際のデータのベクトルレジスタを利用するサブバイト(4ビット,2ビット,または1ビット)モデルを格納するためのメモリレイアウトと機構について述べる。 GEMV(GEneral Matrix-Vector multiplication)演算の計算カーネルを,異なるデータ型(例えば,8ビットのアクティベーションと4ビットの重み)の重みとアクティベーションに割り当てる。 評価のために、TFLiteパッケージを拡張し、それに追加し、サイクル精度の gem5シミュレータ上でモデルを実行し、各メソッドの詳細なメモリとCPUサイクルを比較した。 GEMLOWP、Ruy、XNNPack、ULPPACKなど、プロダクションで積極的に使われている9つのメソッドを比較した。 さらに,提案手法の性能に及ぼす深層学習層の入力と出力の異なるサイズの影響について検討した。 実験の結果、小型では0.96-2.1x、中型から大型では1.2-6.7xのスピードアップが見られた。 本提案は,実世界の音声認識モデルであるmozilla deepspeechに適用し,ビット幅に応じて,最先端に比べて1.56-2.11倍のエンドツーエンド高速化を実現することを実証した。

Although prior art has demonstrated negligible accuracy drop in sub-byte quantization -- where weights and/or activations are represented by less than 8 bits -- popular SIMD instructions of CPUs do not natively support these datatypes. While recent methods, such as ULPPACK, are already using sub-byte quantization on general-purpose CPUs with vector units, they leave out several empty bits between the sub-byte values in memory and in vector registers to avoid overflow to the neighbours during the operations. This results in memory footprint and bandwidth-usage inefficiencies and suboptimal performance. In this paper, we present memory layouts for storing, and mechanisms for processing sub-byte (4-, 2-, or 1-bit) models that utilize all the bits in the memory as well as in the vector registers for the actual data. We provide compute kernels for the proposed layout for the GEMV (GEneral Matrix-Vector multiplication) operations between weights and activations of different datatypes (e.g., 8-bit activations and 4-bit weights). For evaluation, we extended the TFLite package and added our methods to it, then ran the models on the cycle-accurate gem5 simulator to compare detailed memory and CPU cycles of each method. We compare against nine other methods that are actively used in production including GEMLOWP, Ruy, XNNPack, and ULPPACK. Furthermore, we explore the effect of different input and output sizes of deep learning layers on the performance of our proposed method. Experimental results show 0.96-2.1x speedup for small sizes and 1.2-6.7x speedup for mid to large sizes. Applying our proposal to a real-world speech recognition model, Mozilla DeepSpeech, we proved that our method achieves 1.56-2.11x end-to-end speedup compared to the state-of-the-art, depending on the bit-width employed.
翻訳日:2022-11-15 21:34:12 公開日:2022-11-13
# ロボット協調のための拡張現実の可視化

Learning Visualization Policies of Augmented Reality for Human-Robot Collaboration ( http://arxiv.org/abs/2211.07028v1 )

ライセンス: Link先を確認
Kishan Chandan, Jack Albertson, Shiqi Zhang(参考訳) 人間とロボットのコラボレーション領域では、拡張現実(AR)技術により、ロボットの状態を視覚化することができる。 現在のARベースの可視化ポリシーは手作業で設計されており、多くの人的努力とドメイン知識が必要です。 情報が可視化されすぎると、人間ユーザはarインターフェースが役に立たないことに気付く。 本稿では、ARエージェントがデモから可視化ポリシー(何、いつ、どのように視覚化するか)を学習できるようにするVARILと呼ばれるフレームワークを開発する。 私たちは、人間とロボットのチームメイトがデリバリタスクで協力する倉庫環境をシミュレートするUnityベースのプラットフォームを作りました。 ロボットの現在および計画された振る舞いを視覚化するデモを含むデータセットを収集した。 実際の人間の被験者による実験の結果、文献の競争ベースラインと比較すると、学習した可視化戦略は人間のロボットチームの効率を著しく向上し、ユーザーの気晴らしレベルを低下させます。 VARILは、組み込みのモックウェアハウスで実証されている。

In human-robot collaboration domains, augmented reality (AR) technologies have enabled people to visualize the state of robots. Current AR-based visualization policies are designed manually, which requires a lot of human efforts and domain knowledge. When too little information is visualized, human users find the AR interface not useful; when too much information is visualized, they find it difficult to process the visualized information. In this paper, we develop a framework, called VARIL, that enables AR agents to learn visualization policies (what to visualize, when, and how) from demonstrations. We created a Unity-based platform for simulating warehouse environments where human-robot teammates collaborate on delivery tasks. We have collected a dataset that includes demonstrations of visualizing robots' current and planned behaviors. Results from experiments with real human participants show that, compared with competitive baselines from the literature, our learned visualization strategies significantly increase the efficiency of human-robot teams, while reducing the distraction level of human users. VARIL has been demonstrated in a built-in-lab mock warehouse.
翻訳日:2022-11-15 21:33:31 公開日:2022-11-13
# 微分的にプライベートな垂直フェデレート学習

Differentially Private Vertical Federated Learning ( http://arxiv.org/abs/2211.06782v1 )

ライセンス: Link先を確認
Thilina Ranbaduge and Ming Ding(参考訳) 成功した機械学習(ml)アルゴリズムは、しばしば高品質なモデルを訓練するために大量のデータに依存する。 ディープラーニング技術などの教師付き学習アプローチは、リアルタイムアプリケーションのための高品質なML関数を生成するが、大きなコストとトレーニングデータのラベル付けに人的努力が伴う。 連邦学習(FL)の最近の進歩により、複数のデータ所有者や組織が、生データを共有することなく、機械学習モデルを協調的にトレーニングすることができる。 この点において、垂直FLは、参加する組織が垂直に分割されたデータを持つ場合、組織がグローバルモデルを構築することを可能にする。 さらに、垂直fl設定では、参加組織は通常、データを直接共有するよりもリソースを少なくし、軽量でスケーラブルな分散トレーニングソリューションを実現する。 しかし、中間出力の通信とモデル更新の勾配のため、垂直FLにおけるプライバシー保護は困難である。 これにより、悪意のあるエンティティは、他の組織にデータを推測するように促される。 そこで本稿では,差分プライバシー(dp)設定において,個々の組織データのプライバシを保護する方法について検討する。 さまざまな実世界のデータセットとDP予算で実験を行います。 実験結果から,垂直FL性能とプライバシー保護のバランスをとるためには,摂動騒音の量の観点からトレードオフ点を求める必要があることがわかった。

A successful machine learning (ML) algorithm often relies on a large amount of high-quality data to train well-performed models. Supervised learning approaches, such as deep learning techniques, generate high-quality ML functions for real-life applications, however with large costs and human efforts to label training data. Recent advancements in federated learning (FL) allow multiple data owners or organisations to collaboratively train a machine learning model without sharing raw data. In this light, vertical FL allows organisations to build a global model when the participating organisations have vertically partitioned data. Further, in the vertical FL setting the participating organisation generally requires fewer resources compared to sharing data directly, enabling lightweight and scalable distributed training solutions. However, privacy protection in vertical FL is challenging due to the communication of intermediate outputs and the gradients of model update. This invites adversary entities to infer other organisations underlying data. Thus, in this paper, we aim to explore how to protect the privacy of individual organisation data in a differential privacy (DP) setting. We run experiments with different real-world datasets and DP budgets. Our experimental results show that a trade-off point needs to be found to achieve a balance between the vertical FL performance and privacy protection in terms of the amount of perturbation noise.
翻訳日:2022-11-15 20:40:07 公開日:2022-11-13
# EdnaML: 再現可能なディープラーニングのための宣言型APIとフレームワーク

EdnaML: A Declarative API and Framework for Reproducible Deep Learning ( http://arxiv.org/abs/2211.06783v1 )

ライセンス: Link先を確認
Abhijit Suprem, Sanjyot Vaidya, Avinash Venugopal, Joao Eduardo Ferreira, and Calton Pu(参考訳) 機械学習は、テキスト、画像、ビデオ、オーディオ処理および生成における最近の進歩の基盤となっている。 ほとんどの生産システムは、デプロイとトレーニングの間に複数のモデルに対応し、それぞれが様々な調整されたハイパーパラメータを持つ。 さらに、持続可能な高品質な分類器作成の重要性から、mlパイプラインのデータ収集と処理に関する関心が高まっている。 再現可能なディープラーニングのための宣言型APIを備えたフレームワークであるEdnaMLを紹介する。 EdnaMLは、手動で構成可能な低レベルのビルディングブロックと、データ収集、データ処理、分類器のトレーニング、分類器のデプロイメント、モデル監視を自動化するための高レベルのパイプラインオーケストレーションAPIを提供する。 当社の階層APIは、高レベルのコンポーネント抽象化でMLパイプラインを管理すると同時に、ビルディングブロックを通じてその部分を変更する柔軟性を提供します。 EdnaMLによるMLパイプラインの例として,EdnaMLが管理する6つのサブパイプラインを備えた大規模フェイクニュースラベリングと分類システムを提案する。

Machine Learning has become the bedrock of recent advances in text, image, video, and audio processing and generation. Most production systems deal with several models during deployment and training, each with a variety of tuned hyperparameters. Furthermore, data collection and processing aspects of ML pipelines are receiving increasing interest due to their importance in creating sustainable high-quality classifiers. We present EdnaML, a framework with a declarative API for reproducible deep learning. EdnaML provides low-level building blocks that can be composed manually, as well as a high-level pipeline orchestration API to automate data collection, data processing, classifier training, classifier deployment, and model monitoring. Our layered API allows users to manage ML pipelines at high-level component abstractions, while providing flexibility to modify any part of it through the building blocks. We present several examples of ML pipelines with EdnaML, including a large-scale fake news labeling and classification system with six sub-pipelines managed by EdnaML.
翻訳日:2022-11-15 20:39:46 公開日:2022-11-13
# オートエンコーダとSINDyアプローチによるパラメタライズドシステムの低次モデリング:周期解の継続

Reduced order modeling of parametrized systems through autoencoders and SINDy approach: continuation of periodic solutions ( http://arxiv.org/abs/2211.06786v1 )

ライセンス: Link先を確認
Paolo Conti, Giorgio Gobat, Stefania Fresca, Andrea Manzoni, Attilio Frangi(参考訳) 偏微分方程式(PDE)によって支配される複雑な現象の高精度なシミュレーションは、典型的には侵入法や高価な計算コストを必要とするが、制御パラメータと初期条件の複数組み合わせに対するPDEの定常解の近似が禁止される。 したがって、パラメータの異なる物理現象の動的特性を維持しつつ、正確だが高速な予測を可能にする効率的な縮小順序モデル(ROM)の構築が最重要となる。 本研究では,ROM構築と動的識別の低減を組み合わせたデータ駆動型非侵入型フレームワークを提案する。 提案手法では,非線形力学のパラメトリックスパース同定(sindy)を備えたオートエンコーダニューラルネットワークを活用して,新たなパラメータインスタンスでフルタイム解を効率的に計算し,継続アルゴリズムに直接供給する低次元動的モデルを構築する。 これらの後者の目的は、システムパラメータの関数として周期的定常応答の進化を追跡し、過渡位相の計算を避け、不安定性と分岐を検出することである。 削減されたダイナミックスの明示的でパラメトリズドなモデリングを特徴とし、提案したデータ駆動フレームワークは、時間とパラメータの両方に関して、顕著な一般化能力を示す。 構造力学および流体力学問題への応用は、この手法の有効性と正確性を示す。

Highly accurate simulations of complex phenomena governed by partial differential equations (PDEs) typically require intrusive methods and entail expensive computational costs, which might become prohibitive when approximating steady-state solutions of PDEs for multiple combinations of control parameters and initial conditions. Therefore, constructing efficient reduced order models (ROMs) that enable accurate but fast predictions, while retaining the dynamical characteristics of the physical phenomenon as parameters vary, is of paramount importance. In this work, a data-driven, non-intrusive framework which combines ROM construction with reduced dynamics identification, is presented. Starting from a limited amount of full order solutions, the proposed approach leverages autoencoder neural networks with parametric sparse identification of nonlinear dynamics (SINDy) to construct a low-dimensional dynamical model which can be queried to efficiently compute full-time solutions at new parameter instances, as well as directly fed to continuation algorithms. These latter aim at tracking the evolution of periodic steady-state responses as functions of system parameters, avoiding the computation of the transient phase, and allowing to detect instabilities and bifurcations. Featuring an explicit and parametrized modeling of the reduced dynamics, the proposed data-driven framework presents remarkable capabilities to generalize both with respect to time and parameters. Applications to structural mechanics and fluid dynamics problems illustrate the effectiveness and accuracy of the method.
翻訳日:2022-11-15 20:39:29 公開日:2022-11-13
# 超高感度視覚型触覚センサと拡張残差ネットワークを用いた大腸癌ポリープのピットパターン分類

Pit-Pattern Classification of Colorectal Cancer Polyps Using a Hyper Sensitive Vision-Based Tactile Sensor and Dilated Residual Networks ( http://arxiv.org/abs/2211.06814v1 )

ライセンス: Link先を確認
Nethra Venkatayogi, Qin Hu, Ozdemir Can Kara, Tarunraj G. Mohanraj, S. Farokh Atashzar, Farshid Alambeigi(参考訳) 本研究では,大腸癌(CRC)ポリープの早期発見ミス率を低減することを目的として,HySenSeと呼ばれる新しい高感度視覚ベースの触覚センサと,拡張畳み込みの可能性を探求する補完的かつ新しい機械学習(ML)アーキテクチャ,ResNetアーキテクチャの利点,数百の画像規模の小さなデータセットに適用される転写学習の概念を提案する。 提案した触覚センサは,CRCポリプの高分解能な3次元テクスチャ画像を提供する。 MLモデルをトレーニングし,その性能を評価するために, CRCポリプの現実的な表面パターンを収集するために, 4つの異なる硬さからなる160個のユニークなポリプファントムを設計し, 付加的に製造した。 次に、提案されたアーキテクチャは最先端のMLモデル(AlexNetやDenseNetなど)と比較され、性能と複雑さの点で優れていることが判明した。

In this study, with the goal of reducing the early detection miss rate of colorectal cancer (CRC) polyps, we propose utilizing a novel hyper-sensitive vision-based tactile sensor called HySenSe and a complementary and novel machine learning (ML) architecture that explores the potentials of utilizing dilated convolutions, the beneficial features of the ResNet architecture, and the transfer learning concept applied on a small dataset with the scale of hundreds of images. The proposed tactile sensor provides high-resolution 3D textural images of CRC polyps that will be used for their accurate classification via the proposed dilated residual network. To collect realistic surface patterns of CRC polyps for training the ML models and evaluating their performance, we first designed and additively manufactured 160 unique realistic polyp phantoms consisting of 4 different hardness. Next, the proposed architecture was compared with the state-of-the-art ML models (e.g., AlexNet and DenseNet) and proved to be superior in terms of performance and complexity.
翻訳日:2022-11-15 20:39:03 公開日:2022-11-13
# OverFlow: より優れたTSのためのニューラルトランスデューサの上にフローを置く

OverFlow: Putting flows on top of neural transducers for better TTS ( http://arxiv.org/abs/2211.06892v1 )

ライセンス: Link先を確認
Shivam Mehta, Ambika Kirkland, Harm Lameris, Jonas Beskow, \'Eva Sz\'ekely, Gustav Eje Henter(参考訳) ニューラルHMMは、最近テキストから音声へのシーケンスモデリングのために提案されたニューラルトランスデューサの一種である。 従来の統計音声合成と現代のニューラルTSの最良の特徴を組み合わせることで、データが少なくなり、トレーニングの更新も少なくなり、ニューラルアテンション障害によるジブベリの出力が低下する。 本稿では,音声音響の非ガウス分布を記述するために,ニューラルhmm ttと正規化流れを組み合わせた。 その結果、時間と音響の強力で完全に確率的なモデルとなり、最大限の精度で訓練することができる。 本手法は,フローベース音響モデルと比較して,発話レベル韻律などの長距離依存モデルの改善に自己回帰を取り入れている。 実験により,本提案に基づくシステムは,ニューラルhmmの本来のアドバンテージを保ちつつ,より正確な発音と主観的品質を両立することを示す。 オーディオサンプルとコードはhttps://shivammehta25.github.io/overflow/で入手できる。

Neural HMMs are a type of neural transducer recently proposed for sequence-to-sequence modelling in text-to-speech. They combine the best features of classic statistical speech synthesis and modern neural TTS, requiring less data and fewer training updates, and are less prone to gibberish output caused by neural attention failures. In this paper, we combine neural HMM TTS with normalising flows for describing the highly non-Gaussian distribution of speech acoustics. The result is a powerful, fully probabilistic model of durations and acoustics that can be trained using exact maximum likelihood. Compared to dominant flow-based acoustic models, our approach integrates autoregression for improved modelling of long-range dependences such as utterance-level prosody. Experiments show that a system based on our proposal gives more accurate pronunciations and better subjective speech quality than comparable methods, whilst retaining the original advantages of neural HMMs. Audio examples and code are available at https://shivammehta25.github.io/OverFlow/
翻訳日:2022-11-15 20:38:41 公開日:2022-11-13
# 市民科学ラベルを用いた深層学習による長期太陽系外惑星の発見

Discovering Long-period Exoplanets using Deep Learning with Citizen Science Labels ( http://arxiv.org/abs/2211.06903v1 )

ライセンス: Link先を確認
Shreshth A. Malik, Nora L. Eisner, Chris J. Lintott, Yarin Gal(参考訳) 惑星のトランジットの自動検出は、現代の遠隔調査の規模から専門家分析の候補を優先するために欠かせないものとなっている。 現在の短周期外惑星検出法は、光曲線の周期性によって効果的に機能するが、単一トランジット事象を検出するための堅牢なアプローチは存在しない。 しかし、最近Planet Hunters TESS(PHT)プロジェクトによって収集されたボランティアによるトランジットは、長周期の太陽系外惑星検出に対するデータ駆動のアプローチを調査する前例のない機会となっている。 本研究では、1次元畳み込みニューラルネットワークを訓練し、PHTボランティアスコアをトレーニングデータとして惑星移動を分類する。 ボランティアスコアを用いることで、合成データよりもパフォーマンスが大幅に向上し、既知の惑星を精度よく回収し、ボランティアと一致させることができる。 重要な点として、このモデルはボランティアが発見した交通手段を復元するが、現在の自動化手法では見逃している。

Automated planetary transit detection has become vital to prioritize candidates for expert analysis given the scale of modern telescopic surveys. While current methods for short-period exoplanet detection work effectively due to periodicity in the light curves, there lacks a robust approach for detecting single-transit events. However, volunteer-labelled transits recently collected by the Planet Hunters TESS (PHT) project now provide an unprecedented opportunity to investigate a data-driven approach to long-period exoplanet detection. In this work, we train a 1-D convolutional neural network to classify planetary transits using PHT volunteer scores as training data. We find using volunteer scores significantly improves performance over synthetic data, and enables the recovery of known planets at a precision and rate matching that of the volunteers. Importantly, the model also recovers transits found by volunteers but missed by current automated methods.
翻訳日:2022-11-15 20:38:25 公開日:2022-11-13
# 弱教師付きエンティティマッチングのための地中真理推定

Ground Truth Inference for Weakly Supervised Entity Matching ( http://arxiv.org/abs/2211.06975v1 )

ライセンス: Link先を確認
Renzhi Wu, Alexander Bendeck, Xu Chu, Yeye He(参考訳) エンティティマッチング(EM)は、1つ以上のリレーショナルテーブルにおいて、実世界の同じエンティティを参照するデータレコードのペアを識別する問題を指す。 Supervised Machine Learning (ML)モデルは、現在最先端のマッチング性能を達成しているが、多くのラベル付き例を必要とする。 これは、弱い監督力を使ってEMのデータラベリングにアプローチするきっかけとなった。 特に,Snorkelによって一般化されたラベル関数の抽象化では,各ラベル関数(LF)がユーザが提供するプログラムであり,ノイズの多いマッチ/非マッチラベルを迅速かつ安価に生成することができる。 ユーザ記述lfのセットが与えられた場合、データラベリングの品質はラベルモデルに依存し、接地ラベルを正確に推測する。 本稿では,まず,一般的な弱監督タスクに対して,単純かつ強力なラベル付けモデルを提案する。 次に、EM固有の推移特性を考慮して、エンティティマッチングのタスクに特化してラベルモデルを調整する。 当社のラベリングモデルの一般的な形式は単純で、10の一般的な弱い監督データセットで最高の既存メソッドを実質的に上回っています。 EMのラベリングモデルを調整するために,ラベリングモデルの最終予測がEMに必要な推移性を満たすことを保証するためのアプローチを定式化する。 2つのシングルテーブルおよび9つの2テーブル実世界のEMデータセットにおいて、我々のラベル付けモデルにより、最高の既存手法よりも平均9%高いF1スコアが得られることを示す。 また、我々の弱監督アプローチから生成されたラベルに基づいて訓練されたディープラーニングEMエンドモデル(DeepMatcher)が、何万もの地下構造ラベルを用いて訓練されたエンドモデルに匹敵することを示した。

Entity matching (EM) refers to the problem of identifying pairs of data records in one or more relational tables that refer to the same entity in the real world. Supervised machine learning (ML) models currently achieve state-of-the-art matching performance; however, they require many labeled examples, which are often expensive or infeasible to obtain. This has inspired us to approach data labeling for EM using weak supervision. In particular, we use the labeling function abstraction popularized by Snorkel, where each labeling function (LF) is a user-provided program that can generate many noisy match/non-match labels quickly and cheaply. Given a set of user-written LFs, the quality of data labeling depends on a labeling model to accurately infer the ground-truth labels. In this work, we first propose a simple but powerful labeling model for general weak supervision tasks. Then, we tailor the labeling model specifically to the task of entity matching by considering the EM-specific transitivity property. The general form of our labeling model is simple while substantially outperforming the best existing method across ten general weak supervision datasets. To tailor the labeling model for EM, we formulate an approach to ensure that the final predictions of the labeling model satisfy the transitivity property required in EM, utilizing an exact solution where possible and an ML-based approximation in remaining cases. On two single-table and nine two-table real-world EM datasets, we show that our labeling model results in a 9% higher F1 score on average than the best existing method. We also show that a deep learning EM end model (DeepMatcher) trained on labels generated from our weak supervision approach is comparable to an end model trained using tens of thousands of ground-truth labels, demonstrating that our approach can significantly reduce the labeling efforts required in EM.
翻訳日:2022-11-15 20:13:19 公開日:2022-11-13
# 動的完全符号付きグラフに対するオンライン相関クラスタリング

Online Correlation Clustering for Dynamic Complete Signed Graphs ( http://arxiv.org/abs/2211.07000v1 )

ライセンス: Link先を確認
Ali Shakiba(参考訳) 完全符号付きグラフの相関クラスタリング問題では、入力は$+1$(このペアを同じクラスタに配置することを推奨する)または$-1$(このペアの頂点を別々のクラスタに配置することを推奨する)の重み付けのある完全符号付きグラフであり、ターゲットは、これらの推奨との不一致の数を最小化するような頂点の集合をクラスタ化することである。 本稿では,(1)頂点の追加や削除が可能であり,(2)エッジの符号をフリップできる動的完全符号グラフの相関クラスタリングの問題について考察する。 提案手法では,[calm+21]における相関クラスタリングのためのオフライン近似アルゴリズムを用いる。 著者の知識によると、このアルゴリズムは動的グラフのための最初のオンラインアルゴリズムであり、完全なグラフ編集操作を可能にする。 提案手法は,各時間ステップで元のオフラインアルゴリズムを実行するベースライン法と比較し,厳密に解析した。 その結果, 動的演算は隣接する頂点に局所的影響があることを示し, この局所性を用いてベースラインにおけるランニング時間の依存性を, グラフ編集操作を時間ステップ$t$で適用した後のグラフ, 変化する頂点の次数(エッジの2つのエンドポイントなど)と前回の時間ステップにおけるクラスタ数の和に換算した上で, G_t$で全ての頂点の次数の和を求める。 さらに、必要なワーキングメモリは、グラフ内の頂点の総数ではなく、修正されたエッジエンドポイントの次数の総和に還元される。

In the correlation clustering problem for complete signed graphs, the input is a complete signed graph with edges weighted as $+1$ (denote recommendation to put this pair in the same cluster) or $-1$ (recommending to put this pair of vertices in separate clusters) and the target is to cluster the set of vertices such that the number of disagreements with these recommendations is minimized. In this paper, we consider the problem of correlation clustering for dynamic complete signed graphs where (1) a vertex can be added or deleted, and (2) the sign of an edge can be flipped. In the proposed online scheme, the offline approximation algorithm in [CALM+21] for correlation clustering is used. Up to the author's knowledge, this is the first online algorithm for dynamic graphs which allows a full set of graph editing operations. The proposed approach is rigorously analyzed and compared with a baseline method, which runs the original offline algorithm on each time step. Our results show that the dynamic operations have local effects on the neighboring vertices and we employ this locality to reduce the dependency of the running time in the Baseline to the summation of the degree of all vertices in $G_t$, the graph after applying the graph edit operation at time step $t$, to the summation of the degree of the changing vertices (e.g. two endpoints of an edge) and the number of clusters in the previous time step. Moreover, the required working memory is reduced to the square of the summation of the degree of the modified edge endpoints rather than the total number of vertices in the graph.
翻訳日:2022-11-15 20:12:45 公開日:2022-11-13
# 不均一データの一貫した表現に基づく薬物標的親和性予測法

Drug-target affinity prediction method based on consistent expression of heterogeneous data ( http://arxiv.org/abs/2211.06792v1 )

ライセンス: Link先を確認
Boyuan Liu(参考訳) 創薬の最初のステップは、特定の標的に対する薬効を有する薬物分子の運動を見つけることである。 したがって、薬物標的タンパク質と小さな化学分子の相互作用を調べることが重要である。 しかしながら、潜在的に小さな薬物分子を発見するための従来の実験方法は、労働集約的で時間を要する。 現在、薬物分子関連データベースを用いて小さな薬物分子をスクリーニングする計算モデルの構築に多くの関心がある。 本稿では,深層学習モデルを用いた薬物-標的結合親和性予測手法を提案する。 本発明の方法は、GRUおよびGNNを用いて、医薬品標的タンパク質配列と薬物分子マップからそれぞれ特徴を抽出し、特徴ベクトルを得る。 組み合わせたベクターは、薬物標的分子対のベクター表現として使われ、薬物標的結合親和性を予測するために完全に連結されたネットワークに供給される。 本モデルでは,DAVISおよびKIBAデータセット上での薬物-標的結合親和性予測の精度と有効性を示す。

The first step in drug discovery is finding drug molecule moieties with medicinal activity against specific targets. Therefore, it is crucial to investigate the interaction between drug-target proteins and small chemical molecules. However, traditional experimental methods for discovering potential small drug molecules are labor-intensive and time-consuming. There is currently a lot of interest in building computational models to screen small drug molecules using drug molecule-related databases. In this paper, we propose a method for predicting drug-target binding affinity using deep learning models. This method uses a modified GRU and GNN to extract features from the drug-target protein sequences and the drug molecule map, respectively, to obtain their feature vectors. The combined vectors are used as vector representations of drug-target molecule pairs and then fed into a fully connected network to predict drug-target binding affinity. This proposed model demonstrates its accuracy and effectiveness in predicting drug-target binding affinity on the DAVIS and KIBA datasets.
翻訳日:2022-11-15 20:03:20 公開日:2022-11-13
# 強化学習による重み付きサンプリングによる完全動的グラフストリームの高精度サブグラフ計測

Reinforcement Learning Enhanced Weighted Sampling for Accurate Subgraph Counting on Fully Dynamic Graph Streams ( http://arxiv.org/abs/2211.06793v1 )

ライセンス: Link先を確認
Kaixin Wang, Cheng Long, Da Yan, Jie Zhang, H. V. Jagadish(参考訳) グラフデータの人気が高まるにつれ、様々なアプリケーションにおいて、関心のあるサブグラフパターンの発生をカウントする必要性が高まっている。 多くのグラフは大規模であり、(エッジの挿入や削除を含む)完全に動的であり、これらの数値の正確な計算は不可能である。 一般的なプラクティスは、小さなエッジセットをサンプルとして使用してカウントを見積もることである。 完全動的グラフの既存のサンプリングアルゴリズムは、一様確率でエッジをサンプリングする。 本稿では,それぞれの特性に基づいてエッジをサンプリングすれば,より優れた処理ができることを示す。 具体的には,全動的グラフストリームにおける部分グラフ数を推定するためのwsdと呼ばれる重み付きサンプリングアルゴリズムを提案する。 本研究では,強化学習に基づく新しい手法を用いて,エッジの重み付けをデータ駆動方式で決定する。 我々は,既存のアルゴリズムと比較して高速に動作しながら,誤差を小さくして推定できることを示すため,広範囲な実験を行った。

As the popularity of graph data increases, there is a growing need to count the occurrences of subgraph patterns of interest, for a variety of applications. Many graphs are massive in scale and also fully dynamic (with insertions and deletions of edges), rendering exact computation of these counts to be infeasible. Common practice is, instead, to use a small set of edges as a sample to estimate the counts. Existing sampling algorithms for fully dynamic graphs sample the edges with uniform probability. In this paper, we show that we can do much better if we sample edges based on their individual properties. Specifically, we propose a weighted sampling algorithm called WSD for estimating the subgraph count in a fully dynamic graph stream, which samples the edges based on their weights that indicate their importance and reflect their properties. We determine the weights of edges in a data-driven fashion, using a novel method based on reinforcement learning. We conduct extensive experiments to verify that our technique can produce estimates with smaller errors while often running faster compared with existing algorithms.
翻訳日:2022-11-15 20:03:03 公開日:2022-11-13
# マルチモーダル実演による非動的模倣学習

Out-of-Dynamics Imitation Learning from Multimodal Demonstrations ( http://arxiv.org/abs/2211.06839v1 )

ライセンス: Link先を確認
Yiwen Qiu, Jialong Wu, Zhangjie Cao, Mingsheng Long(参考訳) 既存の模倣学習は、デモを収集するデモストレーターが模倣者と同じダイナミクスを共有することを主に前提としている。 しかし、この仮定は模倣学習の使用を制限し、特に模倣者に対するデモンストレーションの収集は困難である。 本稿では,実演者と模倣者が同じ状態空間を持つが,異なる動作空間とダイナミクスを持つことができるという仮定を緩和する,力学外模倣学習(ood-il)について検討する。 OOD-ILは、模倣学習によって、幅広いデモストレーターのデモを利用することができるが、新しい挑戦が導入された。 先行研究は、実現可能性の測定によってこれらのデモンストレーションをフィルタリングしようとするが、異なるデモストレーターが異なるダイナミクスで異なるポリシーをとる可能性があるため、デモがマルチモーダル分布を示すという事実を無視する。 我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。 まず、異なるモードからのデモンストレーションの相互干渉を避けるために、同じモードからクラスタデモを行うために、新しいシーケンスベースのコントラストクラスタリングアルゴリズムを設計し、各クラスタ内の逆学習に基づくアルゴリズムを用いて、各デモの転送可能性を学ぶ。 複数のmujoco環境, 運転環境, シミュレーションロボット環境における実験により, 提案するトランスファービリティ測定が, 最終模倣学習性能の先行研究よりも精度が高く, ダウンウェイト化できることが示されている。 実験結果のビデオは私たちのウェブサイトで公開しています。

Existing imitation learning works mainly assume that the demonstrator who collects demonstrations shares the same dynamics as the imitator. However, the assumption limits the usage of imitation learning, especially when collecting demonstrations for the imitator is difficult. In this paper, we study out-of-dynamics imitation learning (OOD-IL), which relaxes the assumption to that the demonstrator and the imitator have the same state spaces but could have different action spaces and dynamics. OOD-IL enables imitation learning to utilize demonstrations from a wide range of demonstrators but introduces a new challenge: some demonstrations cannot be achieved by the imitator due to the different dynamics. Prior works try to filter out such demonstrations by feasibility measurements, but ignore the fact that the demonstrations exhibit a multimodal distribution since the different demonstrators may take different policies in different dynamics. We develop a better transferability measurement to tackle this newly-emerged challenge. We firstly design a novel sequence-based contrastive clustering algorithm to cluster demonstrations from the same mode to avoid the mutual interference of demonstrations from different modes, and then learn the transferability of each demonstration with an adversarial-learning based algorithm in each cluster. Experiment results on several MuJoCo environments, a driving environment, and a simulated robot environment show that the proposed transferability measurement more accurately finds and down-weights non-transferable demonstrations and outperforms prior works on the final imitation learning performance. We show the videos of our experiment results on our website.
翻訳日:2022-11-15 20:02:46 公開日:2022-11-13
# 階層的スペーシングトレーニングとニューラルネットワーク適応のための逐次学習戦略

Layerwise Sparsifying Training and Sequential Learning Strategy for Neural Architecture Adaptation ( http://arxiv.org/abs/2211.06860v1 )

ライセンス: Link先を確認
C G Krishnanunni and Tan Bui-Thanh(参考訳) この研究は、与えられたトレーニングデータセットにうまく適応し、一般化するために、段階的に神経アーキテクチャを開発するための2段階のフレームワークを提供する。 第1段階では、新しい層を毎回追加し、前層のパラメータを凍結して独立にトレーニングする、多様体正規化層分割トレーニングアプローチが採用される。 各層で学習すべき関数を制限するために、スパーシティ正規化項、多様体正規化項、物理学的不定化項を用いる。 新たに追加された層のトレーサビリティに必要な条件を導出し,多様体の正則化の役割を解析した。 アルゴリズムの第2段階では、一連の小さなネットワークを用いて、ステージIで生成された残余情報から情報を抽出し、堅牢で正確な予測を行うシーケンシャルな学習プロセスが採用されている。 プロトタイプ回帰問題と分類問題に関する完全連結ネットワークを用いた数値解析により,提案手法がアドホックベースラインネットワークより優れていることを示す。 さらに、物理に変形しないニューラルネットワーク問題への応用は、同値なベースラインネットワークを上回りながら、深層ネットワーク内の解釈可能な隠れ層を作成するのにこの手法が用いられることを示唆する。

This work presents a two-stage framework for progressively developing neural architectures to adapt/ generalize well on a given training data set. In the first stage, a manifold-regularized layerwise sparsifying training approach is adopted where a new layer is added each time and trained independently by freezing parameters in the previous layers. In order to constrain the functions that should be learned by each layer, we employ a sparsity regularization term, manifold regularization term and a physics-informed term. We derive the necessary conditions for trainability of a newly added layer and analyze the role of manifold regularization. In the second stage of the Algorithm, a sequential learning process is adopted where a sequence of small networks is employed to extract information from the residual produced in stage I and thereby making robust and more accurate predictions. Numerical investigations with fully connected network on prototype regression problem, and classification problem demonstrate that the proposed approach can outperform adhoc baseline networks. Further, application to physics-informed neural network problems suggests that the method could be employed for creating interpretable hidden layers in a deep network while outperforming equivalent baseline networks.
翻訳日:2022-11-15 20:02:19 公開日:2022-11-13
# 都市エアモビリティにおける高効率乗客配送のためのマルチエージェント深層補強学習

Multi-Agent Deep Reinforcement Learning for Efficient Passenger Delivery in Urban Air Mobility ( http://arxiv.org/abs/2211.06890v1 )

ライセンス: Link先を確認
Chanyoung Park, Soohyun Park, Gyu Seon Kim, Soyi Jung, Jae-Hyun Kim, and Joongheon Kim(参考訳) 都市空力(UAM)は、ドローンタクシーや電気垂直離着陸(eVTOL)としても知られ、将来の輸送において重要な役割を果たすと考えられている。 UAMを現実的な将来輸送に組み込むことで、いくつかのメリット、すなわち、実現することができる。 (i)従来の輸送に比べて乗客の総移動時間を短縮できる。 (二 環境汚染がなく、電池がUAMシステムで使用されるため、システムの運用に特別な労力がかからない。) しかし、乗客の突然のサービス要求、バッテリーの排出、uam間の衝突など、飛行環境には様々な動的かつ不確実な要因がある。 そこで本稿では,UAMネットワーク上での信頼性と効率的な旅客配送のための,集中型トレーニングと分散実行(CTDE)の概念に基づく新しい協調型MADRLアルゴリズムを提案する。 性能評価の結果から,提案アルゴリズムは他の既存アルゴリズムと比較して,利用客数の増加(30%)と利用客1人あたりの待ち時間(26%)を上回っていることを確認した。

It has been considered that urban air mobility (UAM), also known as drone-taxi or electrical vertical takeoff and landing (eVTOL), will play a key role in future transportation. By putting UAM into practical future transportation, several benefits can be realized, i.e., (i) the total travel time of passengers can be reduced compared to traditional transportation and (ii) there is no environmental pollution and no special labor costs to operate the system because electric batteries will be used in UAM system. However, there are various dynamic and uncertain factors in the flight environment, i.e., passenger sudden service requests, battery discharge, and collision among UAMs. Therefore, this paper proposes a novel cooperative MADRL algorithm based on centralized training and distributed execution (CTDE) concepts for reliable and efficient passenger delivery in UAM networks. According to the performance evaluation results, we confirm that the proposed algorithm outperforms other existing algorithms in terms of the number of serviced passengers increase (30%) and the waiting time per serviced passenger decrease (26%)
翻訳日:2022-11-15 20:01:59 公開日:2022-11-13
# スペクトル正規化による安定グラフニューラルネットワークの学習

Learning Stable Graph Neural Networks via Spectral Regularization ( http://arxiv.org/abs/2211.06966v1 )

ライセンス: Link先を確認
Zhan Gao and Elvin Isufi(参考訳) グラフニューラルネットワーク(GNN)の安定性は、GNNがグラフ摂動にどう反応するかを特徴付け、ノイズの多いシナリオでアーキテクチャのパフォーマンスを保証する。 本稿では,グラフスペクトル領域のフィルタ周波数応答を正則化することにより,アーキテクチャの安定性を向上させる自己正規化グラフニューラルネットワーク(sr-gnn)を開発した。 SR-GNNは、グラフ信号を入力としてだけでなく、各層における周波数応答を特徴付けるタスク関連特徴と固有ベクトルを生成するために処理されるグラフの固有ベクトルも考慮している。 SR-GNNはコスト関数の最小化と最大周波数応答の正則化により訓練する。 前者はアーキテクチャ性能を改善し、後者は摂動安定性を強化し、多層伝播による情報損失を軽減する。 さらに、SR-GNNは置換同値を保ち、グラフ信号の内部対称性を探索し、類似したグラフ構造に転移を示すことができることを示す。 ソースローカライゼーションと映画レコメンデーションによる数値的な結果から,SR-GNNは未飽和グラフ上のバニラGNNと同等の性能を示すが,安定性は著しく向上する。

Stability of graph neural networks (GNNs) characterizes how GNNs react to graph perturbations and provides guarantees for architecture performance in noisy scenarios. This paper develops a self-regularized graph neural network (SR-GNN) solution that improves the architecture stability by regularizing the filter frequency responses in the graph spectral domain. The SR-GNN considers not only the graph signal as input but also the eigenvectors of the underlying graph, where the signal is processed to generate task-relevant features and the eigenvectors to characterize the frequency responses at each layer. We train the SR-GNN by minimizing the cost function and regularizing the maximal frequency response close to one. The former improves the architecture performance, while the latter tightens the perturbation stability and alleviates the information loss through multi-layer propagation. We further show the SR-GNN preserves the permutation equivariance, which allows to explore the internal symmetries of graph signals and to exhibit transference on similar graph structures. Numerical results with source localization and movie recommendation corroborate our findings and show the SR-GNN yields a comparable performance with the vanilla GNN on the unperturbed graph but improves substantially the stability.
翻訳日:2022-11-15 20:01:43 公開日:2022-11-13
# 認知レーダネットワークにおけるコーディネーションの同定 -多目的逆強化学習アプローチ-

Identifying Coordination in a Cognitive Radar Network -- A Multi-Objective Inverse Reinforcement Learning Approach ( http://arxiv.org/abs/2211.06967v1 )

ライセンス: Link先を確認
Luke Snow and Vikram Krishnamurthy and Brian M. Sadler(参考訳) 認知レーダーネットワークによって追跡されているターゲットを考える。 ターゲットがレーダーネットワークの 排出を傍受できるなら どうやってレーダー間の協調を検知できる? 座標」により、各レーダーの実用性に対する多目的最適化に関して、レーダー放射がパレート最適性を満たすことを意味する。 本稿では,このようなパレート最適(コーディネート)行動の検出と,レーダネットワーク排出の有限データセットを与えられた各レーダのユーティリティ関数の復元を両立する,新しい多目的逆強化学習手法を提案する。 これを実現する方法は、Revealed Preferencesのミクロ経済設定から派生し、多目的最適化システムの逆検出と学習に関するより一般的な問題にも適用できる。

Consider a target being tracked by a cognitive radar network. If the target can intercept some radar network emissions, how can it detect coordination among the radars? By 'coordination' we mean that the radar emissions satisfy Pareto optimality with respect to multi-objective optimization over each radar's utility. This paper provides a novel multi-objective inverse reinforcement learning approach which allows for both detection of such Pareto optimal ('coordinating') behavior and subsequent reconstruction of each radar's utility function, given a finite dataset of radar network emissions. The method for accomplishing this is derived from the micro-economic setting of Revealed Preferences, and also applies to more general problems of inverse detection and learning of multi-objective optimizing systems.
翻訳日:2022-11-15 20:01:21 公開日:2022-11-13
# 動的システムモデリングのための適応解法を用いたニューラルODEトレーニングの実験的検討

Experimental study of Neural ODE training with adaptive solver for dynamical systems modeling ( http://arxiv.org/abs/2211.06972v1 )

ライセンス: Link先を確認
Alexandre Allauzen and Thiago Petrilli Maffei Dardis and Hannah Plath(参考訳) ニューラル正規微分方程式(ODE)は、最近、推論とトレーニングのためにブラックボックスODEソルバに依存するニューラルネットワークモデルの新しいファミリーとして導入された。 adaptiveと呼ばれるいくつかのodeソルバは、目の前の問題の複雑さに応じて評価戦略を適応させ、機械学習において大きな視点を開くことができる。 しかし,本論文では,動的システムモデリングのためのブラックボックスとして適応型ソルバをシームレスに利用できない理由を示すための簡単な実験について述べる。 lorenz'63 システムをショーケースとして使用することにより,fehlberg の手法のナイーブな適用では期待値が得られないことを示した。 さらに,解法と学習戦略との密接な相互作用を前提とした簡単な回避策を提案する。 コードはgithubで入手できる。 https://github.com/Allauzen/adaptive-step-size-neural-ode

Neural Ordinary Differential Equations (ODEs) was recently introduced as a new family of neural network models, which relies on black-box ODE solvers for inference and training. Some ODE solvers called adaptive can adapt their evaluation strategy depending on the complexity of the problem at hand, opening great perspectives in machine learning. However, this paper describes a simple set of experiments to show why adaptive solvers cannot be seamlessly leveraged as a black-box for dynamical systems modelling. By taking the Lorenz'63 system as a showcase, we show that a naive application of the Fehlberg's method does not yield the expected results. Moreover, a simple workaround is proposed that assumes a tighter interaction between the solver and the training strategy. The code is available on github: https://github.com/Allauzen/adaptive-step-size-neural-ode
翻訳日:2022-11-15 20:01:08 公開日:2022-11-13
# 短ブロック符号のためのスケーラブルなグラフニューラルネットワークデコーダ

A Scalable Graph Neural Network Decoder for Short Block Codes ( http://arxiv.org/abs/2211.06962v1 )

ライセンス: Link先を確認
Kou Tian, Chentao Yue, Changyang She, Yonghui Li, and Branka Vucetic(参考訳) 本研究では,エッジ重み付きグラフニューラルネットワーク(EW-GNN)に基づく短絡符号の復号化アルゴリズムを提案する。 EW-GNNデコーダはタンナーグラフ上で反復的なメッセージパス構造で動作し、従来の信念伝搬法(BP)デコーダとアルゴリズム的に整合する。 各イテレーションでは、ノード/エッジからの信頼性情報を入力として持つ完全接続されたニューラルネットワークから、各エッジに沿って渡されるメッセージの「重み」を得る。 既存のディープラーニングベースのデコード方式と比較して、EW-GNNデコーダはそのスケーラビリティによって特徴付けられる。 1) トレーニング可能なパラメータの数は,コードワードの長さに依存しない。 2) 短い/単純なコードで訓練されたEW-GNNデコーダは、異なるコードレートの長い/洗練されたコードに直接使用することができる。 さらに、シミュレーションの結果、EW-GNNデコーダは、復号誤り率の観点から、BP法およびディープラーニングに基づくBP法よりも優れていることが示された。

In this work, we propose a novel decoding algorithm for short block codes based on an edge-weighted graph neural network (EW-GNN). The EW-GNN decoder operates on the Tanner graph with an iterative message-passing structure, which algorithmically aligns with the conventional belief propagation (BP) decoding method. In each iteration, the "weight" on the message passed along each edge is obtained from a fully connected neural network that has the reliability information from nodes/edges as its input. Compared to existing deep-learning-based decoding schemes, the EW-GNN decoder is characterised by its scalability, meaning that 1) the number of trainable parameters is independent of the codeword length, and 2) an EW-GNN decoder trained with shorter/simple codes can be directly used for longer/sophisticated codes of different code rates. Furthermore, simulation results show that the EW-GNN decoder outperforms the BP and deep-learning-based BP methods from the literature in terms of the decoding error rate.
翻訳日:2022-11-15 19:53:40 公開日:2022-11-13
# 圧縮スペクトルイメージングのためのスペクトルと空間の混合前処理を用いた残留劣化学習展開フレームワーク

Residual Degradation Learning Unfolding Framework with Mixing Priors across Spectral and Spatial for Compressive Spectral Imaging ( http://arxiv.org/abs/2211.06891v1 )

ライセンス: Link先を確認
Yubo Dong, Dahua Gao, Tian Qiu, Yuyan Li, Minxi Yang, Guangming Shi(参考訳) スナップショットスペクトル画像を取得するために、符号化開口分光画像(CASSI)を提案する。 CASSIシステムの中核的な問題は、信頼性と微細な3次元スペクトル立方体を2次元測定から回収することである。 データサブプロブレムと先行サブプロブレムを交互に解くことにより、深い展開法が良好な性能を達成する。 しかし、データサブプロブレムでは、位相収差や歪みに起因するデバイスエラーによる実際の劣化過程に使用するセンシングマトリクスが不適当であり、先行するサブプロブレムでは、空間的およびスペクトル的プリエントの両方を共用する適切なモデルを設計することが重要である。 本稿では,センサマトリックスと劣化過程のギャップを埋めるResidual Degradation Learning Unfolding Framework (RDLUF)を提案する。 さらに、Mix$S^2$変換器は、スペクトル空間と空間を混合することで、スペクトル空間表現能力を強化する。 最後に、Mix$S^2$ TransformerをRDLUFに接続すると、エンドツーエンドのトレーニング可能で解釈可能なニューラルネットワークRDLUF-Mix$S^2$となる。 実験により,提案手法の既存手法よりも優れた性能が得られた。

To acquire a snapshot spectral image, coded aperture snapshot spectral imaging (CASSI) is proposed. A core problem of the CASSI system is to recover the reliable and fine underlying 3D spectral cube from the 2D measurement. By alternately solving a data subproblem and a prior subproblem, deep unfolding methods achieve good performance. However, in the data subproblem, the used sensing matrix is ill-suited for the real degradation process due to the device errors caused by phase aberration, distortion; in the prior subproblem, it is important to design a suitable model to jointly exploit both spatial and spectral priors. In this paper, we propose a Residual Degradation Learning Unfolding Framework (RDLUF), which bridges the gap between the sensing matrix and the degradation process. Moreover, a Mix$S^2$ Transformer is designed via mixing priors across spectral and spatial to strengthen the spectral-spatial representation capability. Finally, plugging the Mix$S^2$ Transformer into the RDLUF leads to an end-to-end trainable and interpretable neural network RDLUF-Mix$S^2$. Experimental results establish the superior performance of the proposed method over existing ones.
翻訳日:2022-11-15 19:35:07 公開日:2022-11-13
# paintnet: ロボットスプレー塗装のためのポーズパス生成器の3次元学習

PaintNet: 3D Learning of Pose Paths Generators for Robotic Spray Painting ( http://arxiv.org/abs/2211.06930v1 )

ライセンス: Link先を確認
Gabriele Tiboni, Raffaello Camoriano, Tatiana Tommasi(参考訳) 3dオブジェクトを含むタスクの最適化と計画の方法は、しばしば事前の知識とアドホックなヒューリスティックに依存する。 本研究では,最近の3次元深層学習の進歩を活用して,学習に基づく長距離経路生成を目標とする。 自由形3Dオブジェクトのロボットスプレー塗装を学習するための最初のデータセットであるPaintNetを提案する。 paintnetには800以上のオブジェクトメッシュと関連するペインティングストロークが実際の産業環境で収集されている。 次に,この課題に取り組むための新しい3次元ディープラーニング手法を導入し,非構造化入力空間 -- 点クラウド -- と混合構造化出力空間 -- を無順序のペインティングストロークで操作する。 提案手法の広汎な実験的解析により,従来見られなかった物体表面の95%を対象とするスムーズな出力ストロークの予測が可能となった。 PaintNetデータセットと提案されたアプローチの実装は、https://gabrieletiboni.github.io/paintnet.orgで公開される。

Optimization and planning methods for tasks involving 3D objects often rely on prior knowledge and ad-hoc heuristics. In this work, we target learning-based long-horizon path generation by leveraging recent advances in 3D deep learning. We present PaintNet, the first dataset for learning robotic spray painting of free-form 3D objects. PaintNet includes more than 800 object meshes and the associated painting strokes collected in a real industrial setting. We then introduce a novel 3D deep learning method to tackle this task and operate on unstructured input spaces -- point clouds -- and mix-structured output spaces -- unordered sets of painting strokes. Our extensive experimental analysis demonstrates the capabilities of our method to predict smooth output strokes that cover up to 95% of previously unseen object surfaces, with respect to ground-truth paint coverage. The PaintNet dataset and an implementation of our proposed approach will be released at https://gabrieletiboni.github.io/paintnet.
翻訳日:2022-11-15 19:34:30 公開日:2022-11-13
# ループ内フレーム予測による学習映像圧縮の促進

Advancing Learned Video Compression with In-loop Frame Prediction ( http://arxiv.org/abs/2211.07004v1 )

ライセンス: Link先を確認
Ren Yang, Radu Timofte, Luc Van Gool(参考訳) 近年、エンド・ツー・エンドの学習ビデオ圧縮への関心が高まっている。 これまでのほとんどの作品は、基準フレームを目標フレームに向けてゆるめるためにモーションマップを検出して圧縮することで、時間的冗長性を探求している。 しかし、逐次参照フレームの歴史的な優先事項を十分に活用できなかった。 本稿では,従来圧縮されていたフレームからターゲットフレームを効果的に予測可能な,ループ内フレーム予測モジュールを用いた高度学習ビデオ圧縮(ALVC)手法を提案する。 予測フレームは、以前圧縮されたフレームよりも優れた参照として機能し、圧縮性能の恩恵を受ける。 提案するループ内予測モジュールは、エンドツーエンドのビデオ圧縮の一部であり、フレームワーク全体で共同最適化されている。 PフレームとBフレームをそれぞれ圧縮するリカレントおよび双方向のループ内予測モジュールを提案する。 本実験は,学習ビデオ圧縮におけるALVC手法の最先端性能を示す。 また、PSNRの観点からは、デフォルトの階層Bモードx265より優れており、MS-SSIM上でのSSIMチューニングx265の最も遅いモードよりも優れている。 プロジェクトページ:https://github.com/RenYang-home/ALVC。

Recent years have witnessed an increasing interest in end-to-end learned video compression. Most previous works explore temporal redundancy by detecting and compressing a motion map to warp the reference frame towards the target frame. Yet, it failed to adequately take advantage of the historical priors in the sequential reference frames. In this paper, we propose an Advanced Learned Video Compression (ALVC) approach with the in-loop frame prediction module, which is able to effectively predict the target frame from the previously compressed frames, \textit{without consuming any bit-rate}. The predicted frame can serve as a better reference than the previously compressed frame, and therefore it benefits the compression performance. The proposed in-loop prediction module is a part of the end-to-end video compression and is jointly optimized in the whole framework. We propose the recurrent and the bi-directional in-loop prediction modules for compressing P-frames and B-frames, respectively. The experiments show the state-of-the-art performance of our ALVC approach in learned video compression. We also outperform the default hierarchical B mode of x265 in terms of PSNR and beat the slowest mode of the SSIM-tuned x265 on MS-SSIM. The project page: https://github.com/RenYang-home/ALVC.
翻訳日:2022-11-15 19:34:11 公開日:2022-11-13
# リモートセンシングにおける異種システム利用のための動的コンポーザビリティアプローチ

Towards a Dynamic Composability Approach for using Heterogeneous Systems in Remote Sensing ( http://arxiv.org/abs/2211.06918v1 )

ライセンス: Link先を確認
Ilkay Altintas, Ismael Perez, Dmitry Mishin, Adrien Trouillaud, Christopher Irving, John Graham, Mahidhar Tatineni, Thomas DeFanti, Shawn Strande, Larry Smarr, Michael L. Norman(参考訳) データとコンピューティングの進歩の影響を受けて、科学的な実践は、従来の大容量スーパーコンピューティングのアプローチに加えて、システム、科学、サービスレベルでの特殊能力を必要とする機械学習と人工知能駆動の方法がますます必要になる。 データ中心のアプリケーションの構成可能性を中心に構築された最新の分散アーキテクチャは、コンテナのコーディネーションと統合のための新しいエコシステムの出現につながった。 しかし、既存のスーパーコンピューティング環境のアプリケーション開発パイプラインと、アクセス可能でポータブルで再プログラム可能なインターフェースを通じて流体リソースプールを分離するこれらの新しい動的環境の間には、いまだに隔たりがある。 ヘテロジニアスシステムの動的コンポーザビリティに対する新しいアプローチは、特定の科学領域に対するより効率的な計算と利用可能なツールのために、データ駆動科学の実践をさらに進めるために必要である。 本稿では,科学計算,人工知能(AI),リモートセンシング領域の交差点において,構成可能なシステムを利用するための新しいアプローチを提案する。 NSFが出資するスーパーコンピュータであるExpanseをKubernetesベースのGPUジオ分散クラスタであるNautilusとフェデレートする、構成可能なインフラストラクチャの最初の実例のアーキテクチャについて説明する。 我々はまた、科学ワークフローにおけるこの新しいインフラの応用を実証するワイルドファイアモデリングのケーススタディを要約した: エッジセンシング、AI、コンピューティング能力から、物理駆動のシミュレーションで洞察を橋渡しする複合システム。

Influenced by the advances in data and computing, the scientific practice increasingly involves machine learning and artificial intelligence driven methods which requires specialized capabilities at the system-, science- and service-level in addition to the conventional large-capacity supercomputing approaches. The latest distributed architectures built around the composability of data-centric applications led to the emergence of a new ecosystem for container coordination and integration. However, there is still a divide between the application development pipelines of existing supercomputing environments, and these new dynamic environments that disaggregate fluid resource pools through accessible, portable and re-programmable interfaces. New approaches for dynamic composability of heterogeneous systems are needed to further advance the data-driven scientific practice for the purpose of more efficient computing and usable tools for specific scientific domains. In this paper, we present a novel approach for using composable systems in the intersection between scientific computing, artificial intelligence (AI), and remote sensing domain. We describe the architecture of a first working example of a composable infrastructure that federates Expanse, an NSF-funded supercomputer, with Nautilus, a Kubernetes-based GPU geo-distributed cluster. We also summarize a case study in wildfire modeling, that demonstrates the application of this new infrastructure in scientific workflows: a composed system that bridges the insights from edge sensing, AI and computing capabilities with a physics-driven simulation.
翻訳日:2022-11-15 19:25:46 公開日:2022-11-13
# CS-Shapley:分類におけるデータ評価のためのクラスワイドShapley値

CS-Shapley: Class-wise Shapley Values for Data Valuation in Classification ( http://arxiv.org/abs/2211.06800v1 )

ライセンス: Link先を確認
Stephanie Schoch, Haifeng Xu, Yangfeng Ji(参考訳) データバリュエーション(あるいは個々のdatumコントリビューションのバリュエーション)は、ノイズのラベル検出などのタスクに実証可能な効果があるため、マシンラーニングへの関心が高まっている。 特に、望ましい公理特性のため、いくつかのShapley値近似法が提案されている。 これらの手法では、値関数は一般に開発全体の予測精度として定義される。 しかし、これは、自身のクラスにとって有益または有害なトレーニングインスタンスを区別する能力を制限する。 直感的には、自身のクラスを傷つけるインスタンスは騒がしいか誤記があり、有用なインスタンスよりも低い評価を受けるべきである。 本研究では,CS-Shapleyという,トレーニングインスタンスのクラス内コントリビューションとクラス外コントリビューションを区別する新しい値関数を提案する。 提案した値関数は,分類におけるデータ値を評価する上で望ましい2つの特性を満たす一意関数であることを示す。 さらに,2つのベンチマーク評価タスク(データ除去とノイズラベル検出)と4つの分類器について実験を行い,CS-Shapleyの有効性を示した。 最後に,1つの分類器から他のモデルへ推定されるデータ値の「転送可能性」を評価し,shapleyベースのデータ評価が異なるモデル間でのアプリケーション間で転送可能であることを示唆する。

Data valuation, or the valuation of individual datum contributions, has seen growing interest in machine learning due to its demonstrable efficacy for tasks such as noisy label detection. In particular, due to the desirable axiomatic properties, several Shapley value approximation methods have been proposed. In these methods, the value function is typically defined as the predictive accuracy over the entire development set. However, this limits the ability to differentiate between training instances that are helpful or harmful to their own classes. Intuitively, instances that harm their own classes may be noisy or mislabeled and should receive a lower valuation than helpful instances. In this work, we propose CS-Shapley, a Shapley value with a new value function that discriminates between training instances' in-class and out-of-class contributions. Our theoretical analysis shows the proposed value function is (essentially) the unique function that satisfies two desirable properties for evaluating data values in classification. Further, our experiments on two benchmark evaluation tasks (data removal and noisy label detection) and four classifiers demonstrate the effectiveness of CS-Shapley over existing methods. Lastly, we evaluate the "transferability" of data values estimated from one classifier to others, and our results suggest Shapley-based data valuation is transferable for application across different models.
翻訳日:2022-11-15 19:10:16 公開日:2022-11-13
# 大規模スパース交通予測のための類似性に基づく特徴抽出

Similarity-based Feature Extraction for Large-scale Sparse Traffic Forecasting ( http://arxiv.org/abs/2211.07031v1 )

ライセンス: Link先を確認
Xinhua Wu, Cheng Lyu, Qing-Long Lu, Vishal Mahajan(参考訳) 短期交通予測はインテリジェント交通システム分野において広く研究されているトピックである。 しかし,既存の予測システムの多くは,時系列予測問題として定式化されているため,リアルタイムプローブ車両データの要求によって制限されている。 この問題に向けて、NeurIPS 2022 Traffic4castの課題は、公共に利用可能な疎ループ数データで都市全体の交通状態を予測することである。 この技術報告は、ETA予測の拡張課題に対して、私たちの2位獲得ソリューションを紹介します。 類似性に基づく特徴抽出法として,複数の隣接フィルタを用いた特徴抽出手法を提案する。 勾配向上決定木モデルをトレーニングするために、類似性に基づく特徴、静的特徴、ノードフロー特徴、セグメントの複合特徴を抽出する。 ロンドン, マドリード, メルボルンを含む3都市での実験結果から, 旅行時間推定の課題において, グラフ・ニューラル・ネットワーク・ベースのソリューションよりも優れた予測性能が得られた。 ソースコードは \url{https://github.com/c-lyu/Traffic4Cast2022-TSE} で入手できる。

Short-term traffic forecasting is an extensively studied topic in the field of intelligent transportation system. However, most existing forecasting systems are limited by the requirement of real-time probe vehicle data because of their formulation as a time series forecasting problem. Towards this issue, the NeurIPS 2022 Traffic4cast challenge is dedicated to predicting the citywide traffic states with publicly available sparse loop count data. This technical report introduces our second-place winning solution to the extended challenge of ETA prediction. We present a similarity-based feature extraction method using multiple nearest neighbor (NN) filters. Similarity-based features, static features, node flow features and combined features of segments are extracted for training the gradient boosting decision tree model. Experimental results on three cities (including London, Madrid and Melbourne) demonstrate the strong predictive performance of our approach, which outperforms a number of graph-neural-network-based solutions in the task of travel time estimation. The source code is available at \url{https://github.com/c-lyu/Traffic4Cast2022-TSE}.
翻訳日:2022-11-15 19:09:54 公開日:2022-11-13
# fintech for social good: a research agenda from nlp perspective

FinTech for Social Good: A Research Agenda from NLP Perspective ( http://arxiv.org/abs/2211.06431v1 )

ライセンス: Link先を確認
Chung-Chi Chen, Hiroya Takamura, Hsin-Hsi Chen(参考訳) 研究成果を社会や環境に肯定的に影響させることが、私たちのコミュニティが最近追求している目標の1つです。 金融技術(FinTech)は一般的な応用分野の1つですが、FinTechでNLPがどう役立つのかについては議論がありません。 FinTechについて言うとき、人々はファイナンシャル・インクルージョンとグリーン・ファイナンスについて話している。 しかし、これらの方向におけるNLPの役割は限定的な議論しか得られない。 このギャップを埋めるために、本稿では、FinTechでNLPをソーシャルグッズに活用する方法を共有します。 私たちは、読者が金融とnlpの関係を共有に基づいて再考し、個人投資家の金融リテラシーの改善と影響投資支援の改善にさらに参加できることを願っています。

Making our research results positively impact on society and environment is one of the goals our community has been pursuing recently. Although financial technology (FinTech) is one of the popular application fields, we notice that there is no discussion on how NLP can help in FinTech for the social good. When mentioning FinTech for social good, people are talking about financial inclusion and green finance. However, the role of NLP in these directions only gets limited discussions. To fill this gap, this paper shares our idea of how we can use NLP in FinTech for social good. We hope readers can rethink the relationship between finance and NLP based on our sharing, and further join us in improving the financial literacy of individual investors and improving the supports for impact investment.
翻訳日:2022-11-15 18:50:25 公開日:2022-11-13
# 依存木の多項式表現による構文類似性の定量化

Quantifying syntax similarity with a polynomial representation of dependency trees ( http://arxiv.org/abs/2211.07005v1 )

ライセンス: Link先を確認
Pengyu Liu, Tinghao Feng, Rui Liu(参考訳) 本稿では,依存文法を表す木構造と,構文類似性を定量化する多項式表現に基づく測度を区別するグラフ多項式を提案する。 多項式は、文中の単語の係り受け構造と係り受け関係に関する正確かつ包括的な情報を符号化する。 多項式に基づく手法を並列普遍依存木バンクの文解析に適用する。 具体的には、異なる言語における文の構文とそれらの翻訳を比較し、パラレル普遍依存木バンクにおける利用可能な言語の構文的タイポロジー研究を行う。 また,コーパスの構文多様性を計測する手法の可能性を実証し,議論する。

We introduce a graph polynomial that distinguishes tree structures to represent dependency grammar and a measure based on the polynomial representation to quantify syntax similarity. The polynomial encodes accurate and comprehensive information about the dependency structure and dependency relations of words in a sentence. We apply the polynomial-based methods to analyze sentences in the Parallel Universal Dependencies treebanks. Specifically, we compare the syntax of sentences and their translations in different languages, and we perform a syntactic typology study of available languages in the Parallel Universal Dependencies treebanks. We also demonstrate and discuss the potential of the methods in measuring syntax diversity of corpora.
翻訳日:2022-11-15 18:49:57 公開日:2022-11-13
# 地域目的による未確認授業のマイニング:インクリメンタルセグメンテーションのためのシンプルなベースライン

Mining Unseen Classes via Regional Objectness: A Simple Baseline for Incremental Segmentation ( http://arxiv.org/abs/2211.06866v1 )

ライセンス: Link先を確認
Zekang Zhang, Guangyu Gao, Zhiyuan Fang, Jianbo Jiao, Yunchao Wei(参考訳) 増分的あるいは連続的な学習は、画像分類タスクにおいて、破滅的な忘れを緩和するために広範囲に研究されてきた。 クラスインクリメンタルセマンティックセグメンテーションでは、背景シフトによってこのような現象がさらに悪化することが多く、すなわち、前の段階で学んだ概念が現在のトレーニング段階でバックグラウンドクラスに割り当てられるため、これらの古い概念のパフォーマンスが著しく低下する。 この問題に対処するため,本論文では,Regional Objectness for Segmentation (MicroSeg) を用いたマイニング未確認クラスを提案する。 われわれのMicroSegは、強い客観性を持つ背景領域が、歴史的または将来の段階においてそれらの概念に属するという仮定に基づいている。 そのため、現在のトレーニング段階で古い知識を忘れないように、私たちのMicroSegはまず、与えられたイメージをプロポーザルジェネレータで数百のセグメント提案に分割します。 背景から強いオブジェクト性を持つセグメント提案は、最適化中にクラスタ化され、新たに定義されたラベルが割り当てられる。 このように、特徴空間における古い概念を特徴付ける分布は、背景シフトによる破滅的な忘れを軽減し、よりよく認識される。 Pascal VOCとADE20Kデータセットの大規模な実験は、最先端技術による競合結果を示し、提案したMicroSegの有効性を十分に検証している。

Incremental or continual learning has been extensively studied for image classification tasks to alleviate catastrophic forgetting, a phenomenon that earlier learned knowledge is forgotten when learning new concepts. For class incremental semantic segmentation, such a phenomenon often becomes much worse due to the background shift, i.e., some concepts learned at previous stages are assigned to the background class at the current training stage, therefore, significantly reducing the performance of these old concepts. To address this issue, we propose a simple yet effective method in this paper, named Mining unseen Classes via Regional Objectness for Segmentation (MicroSeg). Our MicroSeg is based on the assumption that background regions with strong objectness possibly belong to those concepts in the historical or future stages. Therefore, to avoid forgetting old knowledge at the current training stage, our MicroSeg first splits the given image into hundreds of segment proposals with a proposal generator. Those segment proposals with strong objectness from the background are then clustered and assigned newly-defined labels during the optimization. In this way, the distribution characterizes of old concepts in the feature space could be better perceived, relieving the catastrophic forgetting caused by the background shift accordingly. Extensive experiments on Pascal VOC and ADE20K datasets show competitive results with state-of-the-art, well validating the effectiveness of the proposed MicroSeg.
翻訳日:2022-11-15 18:27:01 公開日:2022-11-13
# 異常としての仮想学習における離脱検出

Detecting Disengagement in Virtual Learning as an Anomaly ( http://arxiv.org/abs/2211.06870v1 )

ライセンス: Link先を確認
Ali Abedi and Shehroz S. Khan(参考訳) 学生エンゲージメントは、仮想学習プログラムの目標を達成する上で重要な要素である。 学生のエンゲージメントの自動測定は、教師が学習プログラムの目標を満たし、プログラム配信を個別化するのに役立つ情報を提供する。 既存の多くのアプローチは、バイナリ分類(ビデオスニペットをエンゲージメントクラスまたは非エンゲージメントクラスに分類する)、マルチクラス分類(ビデオスニペットを異なるエンゲージメントレベルに対応する複数のクラスに分類する)、レグレッション(エンゲージメントレベルに対応する連続的な値を推定する)といった従来のフレームワークを使用して、ビデオベースのエンゲージメント測定を解決する。 しかしながら、エンゲージメントの振る舞いは、主に明確に定義されている(例えば、集中的であり、注意をそらさない)が、インエンゲージメントは様々な方法で表現できる。 さらに、いくつかのケースでは、非統合クラスのデータは、一般化可能なバイナリやマルチクラスの分類器を訓練するのに十分なものではない。 そこで本稿では,このような状況に対処するために,まず,異常検出問題として,仮想学習における障害検出を定式化する。 本研究では,時間的畳み込みネットワークオートエンコーダ,長期記憶オートエンコーダ,ビデオベース学生のエンゲージメント検出機能を利用したフィードフォワードオートエンコーダなど,さまざまなオートエンコーダを設計する。 daiseeとemotiwの2つの学生参加データセットを用いた実験の結果,提案手法は,映像を係合クラスと係合クラスに分類するバイナリ分類器に比べ,異常として検出する手法が優れていることが示された(受信者の行動特性曲線の曲線下の領域では平均9%,精度-リコール曲線の曲線下の領域では22%改善されている)。

Student engagement is an important factor in meeting the goals of virtual learning programs. Automatic measurement of student engagement provides helpful information for instructors to meet learning program objectives and individualize program delivery. Many existing approaches solve video-based engagement measurement using the traditional frameworks of binary classification (classifying video snippets into engaged or disengaged classes), multi-class classification (classifying video snippets into multiple classes corresponding to different levels of engagement), or regression (estimating a continuous value corresponding to the level of engagement). However, we observe that while the engagement behaviour is mostly well-defined (e.g., focused, not distracted), disengagement can be expressed in various ways. In addition, in some cases, the data for disengaged classes may not be sufficient to train generalizable binary or multi-class classifiers. To handle this situation, in this paper, for the first time, we formulate detecting disengagement in virtual learning as an anomaly detection problem. We design various autoencoders, including temporal convolutional network autoencoder, long-short-term memory autoencoder, and feedforward autoencoder using different behavioral and affect features for video-based student disengagement detection. The result of our experiments on two publicly available student engagement datasets, DAiSEE and EmotiW, shows the superiority of the proposed approach for disengagement detection as an anomaly compared to binary classifiers for classifying videos into engaged versus disengaged classes (with an average improvement of 9% on the area under the curve of the receiver operating characteristic curve and 22% on the area under the curve of the precision-recall curve).
翻訳日:2022-11-15 18:26:32 公開日:2022-11-13
# SCOTCHとSODA:トランスフォーマービデオシャドウ検出フレームワーク

SCOTCH and SODA: A Transformer Video Shadow Detection Framework ( http://arxiv.org/abs/2211.06885v1 )

ライセンス: Link先を確認
Lihao Liu, Jean Prost, Lei Zhu, Nicolas Papadakis, Pietro Li\`o, Carola-Bibiane Sch\"onlieb, Angelica I Aviles-Rivero(参考訳) フレーム間の大きな影変形のため、ビデオ内の影を検出するのは難しい。 本研究では,映像シャドウ検出法を設計する際に,シャドウ変形の計算が不可欠であると主張する。 この目的のために,ビデオにおける大きな影変形を処理するために特別に設計された,新しいタイプのビデオ自己注意モジュールであるSODA(Shadow deformation attention trajectory)を導入する。 さらに、異なるビデオ間で統合されたハイレベルな影表現を学習するためのネットワークの誘導を目的とした、影のコントラスト学習機構(SCOTCH)を提案する。 アブレーション研究における2つの貢献の有効性を実証的に示す。 さらに、SCOTCHとSODAは、既存のビデオシャドウ検出技術よりも優れていることを示す。 この作業の受理時にコードは利用可能になる。

Shadows in videos are difficult to detect because of the large shadow deformation between frames. In this work, we argue that accounting for the shadow deformation is essential when designing a video shadow detection method. To this end, we introduce the shadow deformation attention trajectory (SODA), a new type of video self-attention module, specially designed to handle the large shadow deformations in videos. Moreover, we present a shadow contrastive learning mechanism (SCOTCH) which aims at guiding the network to learn a high-level representation of shadows, unified across different videos. We demonstrate empirically the effectiveness of our two contributions in an ablation study. Furthermore, we show that SCOTCH and SODA significantly outperforms existing techniques for video shadow detection. Code will be available upon the acceptance of this work.
翻訳日:2022-11-15 18:25:55 公開日:2022-11-13
# マルチオルガン・腫瘍分割のための部分ラベルデータからの学習

Learning from partially labeled data for multi-organ and tumor segmentation ( http://arxiv.org/abs/2211.06894v1 )

ライセンス: Link先を確認
Yutong Xie, Jianpeng Zhang, Yong Xia, Chunhua Shen(参考訳) 臓器と腫瘍のセグメンテーションのための医療画像ベンチマークは、労働と専門知識の集中的なコストのために部分的にラベル付けの問題に悩まされている。 現在の主流のアプローチは、1つのタスクを解決する1つのネットワークのプラクティスに従っている。 このパイプラインでは、単一のタスクの典型的な小さなデータセットによってパフォーマンスが制限されるだけでなく、タスク数に応じて計算コストが線形的に増加する。 そこで本研究では,複数のラベル付きデータセット上で臓器や腫瘍をセグメント化することを学ぶトランスフォーマーベースの動的オンデマンドネットワーク(transdodnet)を提案する。 具体的には、transdodnetには畳み込みニューラルネットワークとトランスフォーマーで構成されるハイブリッドバックボーンがある。 動的ヘッドにより、ネットワークは柔軟に複数のセグメンテーションタスクを実現できる。 トレーニング後にカーネルを修正する既存のアプローチとは異なり、動的ヘッドのカーネルはトランスフォーマによって適応的に生成される。 我々はMOTSと呼ばれる大規模にラベル付けされたMulti-Organ and tumor Segmentationベンチマークを作成し、7つの臓器および腫瘍セグメンテーションタスクにおいて、他の競合他社よりもTransDoDNetの優れたパフォーマンスを示す。 また,大規模なMOTSベンチマークで事前学習し,現在主流となっている自己教師型学習法であるBYOLよりも高度な性能を示す3次元医用画像セグメンテーションモデルを提案する。 コードは \url{https://git.io/DoDNet} で入手できる。

Medical image benchmarks for the segmentation of organs and tumors suffer from the partially labeling issue due to its intensive cost of labor and expertise. Current mainstream approaches follow the practice of one network solving one task. With this pipeline, not only the performance is limited by the typically small dataset of a single task, but also the computation cost linearly increases with the number of tasks. To address this, we propose a Transformer based dynamic on-demand network (TransDoDNet) that learns to segment organs and tumors on multiple partially labeled datasets. Specifically, TransDoDNet has a hybrid backbone that is composed of the convolutional neural network and Transformer. A dynamic head enables the network to accomplish multiple segmentation tasks flexibly. Unlike existing approaches that fix kernels after training, the kernels in the dynamic head are generated adaptively by the Transformer, which employs the self-attention mechanism to model long-range organ-wise dependencies and decodes the organ embedding that can represent each organ. We create a large-scale partially labeled Multi-Organ and Tumor Segmentation benchmark, termed MOTS, and demonstrate the superior performance of our TransDoDNet over other competitors on seven organ and tumor segmentation tasks. This study also provides a general 3D medical image segmentation model, which has been pre-trained on the large-scale MOTS benchmark and has demonstrated advanced performance over BYOL, the current predominant self-supervised learning method. Code will be available at \url{https://git.io/DoDNet}.
翻訳日:2022-11-15 18:25:38 公開日:2022-11-13
# 火災: 高速画像化と考古学的シェルドの3次元再構築

FIRES: Fast Imaging and 3D Reconstruction of Archaeological Sherds ( http://arxiv.org/abs/2211.06897v1 )

ライセンス: Link先を確認
Jiepeng Wang, Congyi Zhang, Peng Wang, Xin Li, Peter J. Cobb, Christian Theobalt, Wenping Wang(参考訳) シードは考古学的な発掘調査で発見された最も一般的な人工物であり、過去の人類社会に関する豊富な情報を持っているため、分析と保存のために正確に再構築されデジタル記録される必要がある。 数百もの破片が、既存のイメージングシステムのスキャン能力を超える、考古学的な発掘現場で1日のうちに発見された。 そのため、一日に数百個の断片を撮像できる所望の画像取得システムへの需要が高い。 この要求に応えて、高速イメージングと3次元シェルド再構成のためのFIRESと呼ばれる新しいシステムを開発した。 FIRESシステムは2つの主要コンポーネントから構成される。 1つは、掘削現場での実際の試験で1日700本(作業時間8時間)以上を撮影できる最適な設計の高速画像取得装置であり、これは既存のシステムよりも1桁速い。 第2のコンポーネントは、撮像システムで撮像された画像からシェルドを3次元に再構成し、0.16ミリメートルの再構成精度を達成するための自動パイプラインである。 このパイプラインは、シェルドの前側と後ろ側の部分的な3dスキャンと一致する新しいバッチマッチングアルゴリズムと、非常に狭い重なり合い領域を共有する前側と後ろ側を登録する新しいicp型メソッドを含んでいる。 発掘現場における実験室および試験の広範囲な検証により,我々のFIRESシステムは,考古学的発掘調査におけるせん断のイメージングと3次元再構築を行うための,最初の高速で正確なポータル,費用対効果のソリューションを提供することが示された。

Sherds, as the most common artifacts uncovered during archaeological excavations, carry rich information about past human societies so need to be accurately reconstructed and recorded digitally for analysis and preservation. Often hundreds of fragments are uncovered in a day at an archaeological excavation site, far beyond the scanning capacity of existing imaging systems. Hence, there is high demand for a desirable image acquisition system capable of imaging hundreds of fragments per day. In response to this demand, we developed a new system, dubbed FIRES, for Fast Imaging and 3D REconstruction of Sherds. The FIRES system consists of two main components. The first is an optimally designed fast image acquisition device capable of capturing over 700 sherds per day (in 8 working hours) in actual tests at an excavation site, which is one order-of-magnitude faster than existing systems. The second component is an automatic pipeline for 3D reconstruction of the sherds from the images captured by the imaging acquisition system, achieving reconstruction accuracy of 0.16 milimeters. The pipeline includes a novel batch matching algorithm that matches partial 3D scans of the front and back sides of the sherds and a new ICP-type method that registers the front and back sides sharing very narrow overlapping regions. Extensive validation in labs and testing in excavation sites demonstrated that our FIRES system provides the first fast, accurate, portal, and cost-effective solution for the task of imaging and 3D reconstruction of sherds in archaeological excavations.
翻訳日:2022-11-15 18:25:12 公開日:2022-11-13
# 脳を越えて見る:視覚復号のためのスパースマズドモデリングを用いた条件拡散モデル

Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding ( http://arxiv.org/abs/2211.06956v1 )

ライセンス: Link先を確認
Zijiao Chen, Jiaxin Qing, Tiange Xiang, Wan Lin Yue, Juan Helen Zhou(参考訳) 脳記録からの視覚刺激の復号は、人間の視覚システムの理解を深め、Brain-Computer Interfaceを通じて人間とコンピュータの視覚をブリッジするための基盤を構築することを目的としている。 しかし、脳信号の複雑な表現とデータアノテーションの不足により、脳の記録から正しい意味を持つ高品質な画像の再構成は難しい問題である。 本稿では,人間の視覚復号のための2成分遅延拡散モデルを用いたMinD-Vis: Sparse Masked Brain Modelingを提案する。 まず,一次視覚野における情報のスパース符号化にインスパイアされた大きな潜伏空間におけるマスクモデルを用いて,fMRIデータの効果的な自己教師型表現を学習する。 次に,2つの条件付き潜伏拡散モデルを拡張することにより,MinD-Visは,非常に少ないペアアノテーションを用いて,脳の記録から意味的に一致した細部を再現できることを示す。 実験結果から,提案手法は,セマンティックマッピング(100方向意味分類)と生成品質(fid)の両方において,それぞれ66%,41%の精度で最先端を上回っていた。 網羅的アブレーション試験も実施し,我々の枠組みを解析した。

Decoding visual stimuli from brain recordings aims to deepen our understanding of the human visual system and build a solid foundation for bridging human and computer vision through the Brain-Computer Interface. However, reconstructing high-quality images with correct semantics from brain recordings is a challenging problem due to the complex underlying representations of brain signals and the scarcity of data annotations. In this work, we present MinD-Vis: Sparse Masked Brain Modeling with Double-Conditioned Latent Diffusion Model for Human Vision Decoding. Firstly, we learn an effective self-supervised representation of fMRI data using mask modeling in a large latent space inspired by the sparse coding of information in the primary visual cortex. Then by augmenting a latent diffusion model with double-conditioning, we show that MinD-Vis can reconstruct highly plausible images with semantically matching details from brain recordings using very few paired annotations. We benchmarked our model qualitatively and quantitatively; the experimental results indicate that our method outperformed state-of-the-art in both semantic mapping (100-way semantic classification) and generation quality (FID) by 66% and 41% respectively. An exhaustive ablation study was also conducted to analyze our framework.
翻訳日:2022-11-15 18:24:46 公開日:2022-11-13
# 手術訓練における姿勢推定

Pose Estimation For Surgical Training ( http://arxiv.org/abs/2211.07021v1 )

ライセンス: Link先を確認
Eddie Bkheet, Anne-Lise D'Angelo, Adam Goldbraikh, Shlomi Laufer(参考訳) 目的: 本研究の目的は, 外科医の自動訓練と手術映像の分析に最先端のコンピュータビジョンアルゴリズムを使用することである。 2次元手のポーズを推定することにより,練習者の手の動きと手術器具との相互作用をモデル化し,手術訓練における有用性について検討した。 方法: 2dのポーズで100本のオープン手術シミュレーションビデオの独自のデータセットを作成するために,事前トレーニングされたモデルを公開のハンドデータセット上で活用する。 また,手術映像をジェスチャやツール使用セグメントに分割する姿勢推定能力を評価し,運動センサやi3d機能と比較した。 さらに,本手法では生の映像から自動的に検出できる領域の専門家のトレーニングアドバイスをもとに,新たな6つの手術スキルプロキシを導入する。 結果:複数角度からの2DポーズとI3D特徴の融合により,Open Surgery Simulationデータセットの最先端ジェスチャーセグメント精度88.49%を達成する。 導入した手術スキルプロキシは,熟練者に比べて初心者に有意な差を示し,改善のための行動的フィードバックが得られた。 結語:本研究は,ジェスチャー分割とスキルアセスメントの有効性を解析し,開腹手術におけるポーズ推定の利点を示す。 ポーズ推定を用いたジェスチャーセグメンテーションは、リモートかつマーカーレスで物理的センサーと同等の結果を得た。 ポーズ推定に依存する外科的スキルプロキシは、自動トレーニングフィードバックの開発に使用できることを証明した。 外科的訓練をより効率的にするための,新たなスキルプロキシのさらなるコラボレーションが期待できる。

Purpose: This research aims to facilitate the use of state-of-the-art computer vision algorithms for the automated training of surgeons and the analysis of surgical footage. By estimating 2D hand poses, we model the movement of the practitioner's hands, and their interaction with surgical instruments, to study their potential benefit for surgical training. Methods: We leverage pre-trained models on a publicly-available hands dataset to create our own in-house dataset of 100 open surgery simulation videos with 2D hand poses. We also assess the ability of pose estimations to segment surgical videos into gestures and tool-usage segments and compare them to kinematic sensors and I3D features. Furthermore, we introduce 6 novel surgical skill proxies stemming from domain experts' training advice, all of which our framework can automatically detect given raw video footage. Results: State-of-the-art gesture segmentation accuracy of 88.49% on the Open Surgery Simulation dataset is achieved with the fusion of 2D poses and I3D features from multiple angles. The introduced surgical skill proxies presented significant differences for novices compared to experts and produced actionable feedback for improvement. Conclusion: This research demonstrates the benefit of pose estimations for open surgery by analyzing their effectiveness in gesture segmentation and skill assessment. Gesture segmentation using pose estimations achieved comparable results to physical sensors while being remote and markerless. Surgical skill proxies that rely on pose estimation proved they can be used to work towards automated training feedback. We hope our findings encourage additional collaboration on novel skill proxies to make surgical training more efficient.
翻訳日:2022-11-15 18:24:26 公開日:2022-11-13
# SMR: 機械認識指向画像と映像圧縮のための満足度マシン比モデリング

SMR: Satisfied Machine Ratio Modeling for Machine Recognition-Oriented Image and Video Compression ( http://arxiv.org/abs/2211.06797v1 )

ライセンス: Link先を確認
Qi Zhang, Shanshe Wang, Xinfeng Zhang, Chuanmin Jia, Jingshan Pan, Siwei Ma, Wen Gao(参考訳) 大量の画像やビデオが、視覚認識のためのマシンに常時供給される。 人間の視覚システム(HVS)と同様に、マシンビジョンシステム(MVS)は、品質劣化が情報損失と認識障害をもたらすため、画像の品質に敏感である。 近年,mvsを対象とする画像処理,特に画像圧縮や映像圧縮が登場している。 しかし、既存の手法は一般的なマシンコミュニティではなく個々のマシンのみを対象としているため、あらゆる種類のマシンを満足することができない。 さらに、圧縮効率を抑えるMVS特性は十分に活用されていない。 本稿では,これらの問題に対処するための新しい概念であるSatisfied Machine Ratio(SMR)を紹介する。 SMRは、多量・多種多様な機械被写体から満足度スコアを収集し、組み合わせることで、画像品質を機械の観点から統計的に測定し、そのスコアとMVS特性を適切に考慮した。 SMR研究のための2200万以上の注釈付き画像を含む、最初の大規模SMRデータセットを作成します。 さらに,圧縮画像やビデオフレームのSMRを予測するために,深層学習に基づくモデルを提案する。 大規模な実験により、SMRモデルを用いることで、認識指向画像とビデオ圧縮の性能が大幅に向上することが示された。 そして、smrモデルは、見えないマシン、圧縮フレームワーク、データセットにうまく一般化します。

Tons of images and videos are fed into machines for visual recognition all the time. Like human vision system (HVS), machine vision system (MVS) is sensitive to image quality, as quality degradation leads to information loss and recognition failure. In recent years, MVS-targeted image processing, particularly image and video compression, has emerged. However, existing methods only target an individual machine rather than the general machine community, thus cannot satisfy every type of machine. Moreover, the MVS characteristics are not well leveraged, which limits compression efficiency. In this paper, we introduce a new concept, Satisfied Machine Ratio (SMR), to address these issues. SMR statistically measures the image quality from the machine's perspective by collecting and combining satisfaction scores from a large quantity and variety of machine subjects, where such scores are obtained with MVS characteristics considered properly. We create the first large-scale SMR dataset that contains over 22 million annotated images for SMR studies. Furthermore, a deep learning-based model is proposed to predict the SMR for any given compressed image or video frame. Extensive experiments show that using the SMR model can significantly improve the performance of machine recognition-oriented image and video compression. And the SMR model generalizes well to unseen machines, compression frameworks, and datasets.
翻訳日:2022-11-15 18:15:55 公開日:2022-11-13
# 長距離ゼロショット生成深部ネットワーク量子化

Long-Range Zero-Shot Generative Deep Network Quantization ( http://arxiv.org/abs/2211.06816v1 )

ライセンス: Link先を確認
Yan Luo, Yangcheng Gao, Zhao Zhang, Haijun Zhang, Mingliang Xu, Meng Wang(参考訳) 量子化は、推論を加速し計算を減らすために、浮動小数点数を持つディープネットワークモデルを低ビット幅のネットワークモデルに近似する。 元のデータにアクセスせずにモデルを量子化することで、データ合成によって実際のデータ分布を適合させることでゼロショット量子化を実現できる。 しかし、ゼロショット量子化は実データによる後学習量子化よりも性能が劣る。 原因は以下の通り。 1) 通常の発電機は、グローバルな特徴に注意を向ける長距離情報がないため、高い多様性の合成データを得るのは難しい。 2) 合成画像は実データの統計をシミュレートすることを目的としており, クラス内不均一性が弱く, 特徴量も限られている。 これらの問題を解決するために,Long-Range Zero-Shot Generative Deep Network Quantization (LRQ) と呼ばれる新しいディープネットワーク量子化器を提案する。 技術的には、単純な局所的特徴ではなく、長距離情報を学ぶための長距離生成器を提案する。 合成データがよりグローバルな特徴を含むためには、大きなカーネル畳み込みを用いた長距離の注意を発電機に組み込む。 また,特徴ベクトルとクラス中心の間のクラス内角拡大を強制するAdversarial Margin Add (AMA)モジュールも提案する。 amaは、元の損失関数の訓練目的とは逆の損失関数の収束困難度を増大させるので、逆プロセスを形成する。 さらに, 完全精度ネットワークから知識を伝達するために, 分離された知識蒸留も活用する。 広範な実験により、LRQは他の競合他社よりも優れた性能が得られることが示された。

Quantization approximates a deep network model with floating-point numbers by the one with low bit width numbers, in order to accelerate inference and reduce computation. Quantizing a model without access to the original data, zero-shot quantization can be accomplished by fitting the real data distribution by data synthesis. However, zero-shot quantization achieves inferior performance compared to the post-training quantization with real data. We find it is because: 1) a normal generator is hard to obtain high diversity of synthetic data, since it lacks long-range information to allocate attention to global features; 2) the synthetic images aim to simulate the statistics of real data, which leads to weak intra-class heterogeneity and limited feature richness. To overcome these problems, we propose a novel deep network quantizer, dubbed Long-Range Zero-Shot Generative Deep Network Quantization (LRQ). Technically, we propose a long-range generator to learn long-range information instead of simple local features. In order for the synthetic data to contain more global features, long-range attention using large kernel convolution is incorporated into the generator. In addition, we also present an Adversarial Margin Add (AMA) module to force intra-class angular enlargement between feature vector and class center. As AMA increases the convergence difficulty of the loss function, which is opposite to the training objective of the original loss function, it forms an adversarial process. Furthermore, in order to transfer knowledge from the full-precision network, we also utilize a decoupled knowledge distillation. Extensive experiments demonstrate that LRQ obtains better performance than other competitors.
翻訳日:2022-11-15 18:15:35 公開日:2022-11-13
# 無監督点雲完了のためのエネルギーベース残留遅延輸送

Energy-Based Residual Latent Transport for Unsupervised Point Cloud Completion ( http://arxiv.org/abs/2211.06820v1 )

ライセンス: Link先を確認
Ruikai Cui, Shi Qiu, Saeed Anwar, Jing Zhang, Nick Barnes(参考訳) 教師なしの点雲完了は、部分完全対応を必要としない部分的対象観測の全体像を推測することを目的としている。 既存の決定論的アプローチとは違って、生成モデリングに基づく教師なしの点雲の完備化を提唱する。 具体的には,部分的な形状の符号化を潜在輸送モジュールを用いて完全な形状に変換し,エンコーダ・デコーダアーキテクチャにおける潜在空間エネルギーベースモデル(EBM)として設計し,部分的な形状の符号化を条件とした確率分布の学習を目的とする。 潜在コードトランスポートモジュールとエンコーダ-デコーダネットワークを共同で訓練するために,残差が部分空間と完全形状潜在空間の間の領域ギャップをキャプチャする残差サンプリング戦略を導入する。 生成モデルに基づくフレームワークとして,本手法は人間の知覚に整合した不確実性マップを生成することができる。 提案手法が精度の高い完成結果をもたらすことを実験的に示し,最先端モデルを有意なマージンで上回った。

Unsupervised point cloud completion aims to infer the whole geometry of a partial object observation without requiring partial-complete correspondence. Differing from existing deterministic approaches, we advocate generative modeling based unsupervised point cloud completion to explore the missing correspondence. Specifically, we propose a novel framework that performs completion by transforming a partial shape encoding into a complete one using a latent transport module, and it is designed as a latent-space energy-based model (EBM) in an encoder-decoder architecture, aiming to learn a probability distribution conditioned on the partial shape encoding. To train the latent code transport module and the encoder-decoder network jointly, we introduce a residual sampling strategy, where the residual captures the domain gap between partial and complete shape latent spaces. As a generative model-based framework, our method can produce uncertainty maps consistent with human perception, leading to explainable unsupervised point cloud completion. We experimentally show that the proposed method produces high-fidelity completion results, outperforming state-of-the-art models by a significant margin.
翻訳日:2022-11-15 18:15:09 公開日:2022-11-13
# Cosine Transformerを用いたFew-shot画像分類の高速化

Enhancing Few-shot Image Classification with Cosine Transformer ( http://arxiv.org/abs/2211.06828v1 )

ライセンス: Link先を確認
Quang-Huy Nguyen, Cuong Q. Nguyen, Dung D. Le, Hieu H. Pham, Minh N. Do(参考訳) 本稿では,少ないショット画像の分類問題に対処する。 少数ショット学習の注目すべき制限の1つは、同じカテゴリを記述する際のバリエーションであり、小さなラベル付きサポートと大きなラベル付きクエリセットとの間に大きな違いが生じる可能性がある。 提案手法は,2つの集合間の関係ヒートマップを取得し,後者をトランスダクティブな設定でラベル付けすることである。 これは、スケールしたドット生成機構によるクロスアテンションを用いて解決できる。 しかし、2つの異なる組の埋め込みベクトル間のマグニチュード差は出力注意マップに大きな影響を与え、モデル性能に影響を及ぼす可能性がある。 我々は、コサイン類似性による注意機構の改善によりこの問題に対処する。 具体的には,FS-CT(Few-shot Cosine Transformer)を開発した。 提案するコサインアテンションは,ミニイメージネット,cub-200,cifar-fsの3つのマイナショットデータセットにおいて,各種シナリオのベースラインスケールドドット製品アテンションと比較して,fs-ctの性能を5%から20%以上向上させた。 さらに,注意モジュールに与える前に,学習可能な重みでカテゴリ表現のための原型的埋め込みを強化する。 提案手法であるFS-CTとCosineの注意は実装が簡単であり,幅広い応用に適用可能である。 私たちのコードはhttps://github.com/vinuni-vishc/Few-Shot-Cosine-Transformerで利用可能です。

This paper addresses the few-shot image classification problem. One notable limitation of few-shot learning is the variation in describing the same category, which might result in a significant difference between small labeled support and large unlabeled query sets. Our approach is to obtain a relation heatmap between the two sets in order to label the latter one in a transductive setting manner. This can be solved by using cross-attention with the scaled dot-product mechanism. However, the magnitude differences between two separate sets of embedding vectors may cause a significant impact on the output attention map and affect model performance. We tackle this problem by improving the attention mechanism with cosine similarity. Specifically, we develop FS-CT (Few-shot Cosine Transformer), a few-shot image classification method based on prototypical embedding and transformer-based framework. The proposed Cosine attention improves FS-CT performances significantly from nearly 5% to over 20% in accuracy compared to the baseline scaled dot-product attention in various scenarios on three few-shot datasets mini-ImageNet, CUB-200, and CIFAR-FS. Additionally, we enhance the prototypical embedding for categorical representation with learnable weights before feeding them to the attention module. Our proposed method FS-CT along with the Cosine attention is simple to implement and can be applied for a wide range of applications. Our codes are available at https://github.com/vinuni-vishc/Few-Shot-Cosine-Transformer
翻訳日:2022-11-15 18:14:46 公開日:2022-11-13
# 機能アライメントを超えた一般化:コンセプトアクティベーションによるコントラスト学習

Generalization Beyond Feature Alignment: Concept Activation-Guided Contrastive Learning ( http://arxiv.org/abs/2211.06843v1 )

ライセンス: Link先を確認
Yibing Liu, Chris Xing Tian, Haoliang Li, Shiqi Wang(参考訳) コントラスト学習による不変表現の学習は、ドメイン一般化(dg)において最先端のパフォーマンスを示す。 このような成功にもかかわらず、本論文では、そのコア学習戦略 -- 機能アライメント -- がモデルの一般化を妨げる可能性があることを見出します。 近年の神経細胞の解釈能力の進歩に触発されて,ニューロンの活性化の観点からこの問題を特徴づける。 具体的には、特徴要素をニューロン活性化状態として扱うことにより、従来のアライメント手法は学習した不変な特徴の多様性を低下させる傾向を示し、ニューロン活性化の差を無差別に最小化する。 これは代わりにニューロン間のリッチな関係を無視し、多くの場合、同じ視覚概念を識別する。 この発見により,ニューロンにコードされる高レベル概念を対比することにより,要素的特徴のアライメントを緩和する,単純かつ効果的なアプローチである \textit{concept contrast} (coco) を提案する。 このアプローチは非常に柔軟であり、DGのあらゆる対照的な方法に統合することができる。 広範な実験を通じて、我々のCoCoは特徴表現の多様性を促進し、DomainBedベンチマークよりもモデル一般化能力を一貫して改善することを示す。

Learning invariant representations via contrastive learning has seen state-of-the-art performance in domain generalization (DG). Despite such success, in this paper, we find that its core learning strategy -- feature alignment -- could heavily hinder the model generalization. Inspired by the recent progress in neuron interpretability, we characterize this problem from a neuron activation view. Specifically, by treating feature elements as neuron activation states, we show that conventional alignment methods tend to deteriorate the diversity of learned invariant features, as they indiscriminately minimize all neuron activation differences. This instead ignores rich relations among neurons -- many of them often identify the same visual concepts though they emerge differently. With this finding, we present a simple yet effective approach, \textit{Concept Contrast} (CoCo), which relaxes element-wise feature alignments by contrasting high-level concepts encoded in neurons. This approach is highly flexible and can be integrated into any contrastive method in DG. Through extensive experiments, we further demonstrate that our CoCo promotes the diversity of feature representations, and consistently improves model generalization capability over the DomainBed benchmark.
翻訳日:2022-11-15 18:14:22 公開日:2022-11-13
# モチーフ検出を用いた会話パターンマイニング

Conversational Pattern Mining using Motif Detection ( http://arxiv.org/abs/2211.06846v1 )

ライセンス: Link先を確認
Nicolle Garber, Vukosi Marivate(参考訳) 近年,ソーシャルメディアやオンラインメディアの爆発により,会話的マイニングの話題が注目されている。 このテキストの爆発を補うことは、これらの情報ソースを活用するのに役立った、事前学習された言語モデルの進歩です。 分析する興味深い領域は、複雑性と価値の観点から会話である。 複雑性は、会話が非同期で複数の相手を巻き込むことができるという事実によって生じる。 また、計算処理にも集中している。 我々は,時間消費や知識要求,資源集約的なラベル付けを必要としない対話型パターンマイニング手法を開発するために,教師なしの手法を用いた。 配列の繰り返しパターンを識別するタスクは、バイオインフォマティクスの分野でよく研究されている。 本研究では,これを自然言語処理の分野に適用し,モチーフ検出アルゴリズムの拡張を行った。 動的,実世界のデータセットへのアルゴリズムの適用を実証するために,オープンソースのフィルムスクリプトデータソースからモチーフを抽出する。 私たちは、採掘できるモチーフの種類を探索的に調査しています。

The subject of conversational mining has become of great interest recently due to the explosion of social and other online media. Supplementing this explosion of text is the advancement in pre-trained language models which have helped us to leverage these sources of information. An interesting domain to analyse is conversations in terms of complexity and value. Complexity arises due to the fact that a conversation can be asynchronous and can involve multiple parties. It is also computationally intensive to process. We use unsupervised methods in our work in order to develop a conversational pattern mining technique which does not require time consuming, knowledge demanding and resource intensive labelling exercises. The task of identifying repeating patterns in sequences is well researched in the Bioinformatics field. In our work, we adapt this to the field of Natural Language Processing and make several extensions to a motif detection algorithm. In order to demonstrate the application of the algorithm on a dynamic, real world data set; we extract motifs from an open-source film script data source. We run an exploratory investigation into the types of motifs we are able to mine.
翻訳日:2022-11-15 17:31:50 公開日:2022-11-13
# Xu at SemEval-2022 Task 4: Pre-BERT Neural Network Methods vs Post-BERT RoBERTa Approach for Patronizing and Condescending Language Detection (英語)

Xu at SemEval-2022 Task 4: Pre-BERT Neural Network Methods vs Post-BERT RoBERTa Approach for Patronizing and Condescending Language Detection ( http://arxiv.org/abs/2211.06874v1 )

ライセンス: Link先を確認
Jinghua Xu(参考訳) 本稿では,SemEval-2022 Task 4: Patronizing and Condescending Language Detectionへの参加について述べる。 私は2つのサブタスクに参加します: パーパナライズとコンデコンディング言語(pcl)の識別、パタライズとコンデコンディング言語分類、主にサブタスクに焦点をあてます。 1) 前BERTニューラルネットワーク(NN)と後BERT事前訓練言語モデルRoBERTaを比較した。 本研究は,実験におけるNNベースのシステムは,事前訓練された言語モデルと比較して,タスクに悪影響を及ぼすことを示した。 RoBERTaは78チーム中26チーム(F1スコア:54.64)、49チーム中23チーム(F1スコア:30.03)にランクインしている。 2.

This paper describes my participation in the SemEval-2022 Task 4: Patronizing and Condescending Language Detection. I participate in both subtasks: Patronizing and Condescending Language (PCL) Identification and Patronizing and Condescending Language Categorization, with the main focus put on subtask 1. The experiments compare pre-BERT neural network (NN) based systems against post-BERT pretrained language model RoBERTa. This research finds NN-based systems in the experiments perform worse on the task compared to the pretrained language models. The top-performing RoBERTa system is ranked 26 out of 78 teams (F1-score: 54.64) in subtask 1, and 23 out of 49 teams (F1-score: 30.03) in subtask 2.
翻訳日:2022-11-15 17:31:35 公開日:2022-11-13
# mOKB6: 多言語オープンな知識ベースコンプリートベンチマーク

mOKB6: A Multilingual Open Knowledge Base Completion Benchmark ( http://arxiv.org/abs/2211.06959v1 )

ライセンス: Link先を確認
Shubham Mittal, Keshav Kolluru, Soumen Chakrabarti, Mausam(参考訳) テキストからオープン情報抽出(IE)によって得られる3つの形(対象語句、関係語句、対象語句)から構築されたオープン知識ベース(KB)の自動補完は、テキストに直接存在しない可能性のある新しい事実を発見するのに有用である。 しかしながら、オープンナレッジベース補完(KBC)の研究は、これまで英語のようなリソース豊富な言語に限られてきた。 マルチ言語オープンIEの最新の進歩を利用して、Wikipediaの事実を6言語(英語を含む)で記述した、mOKB6と呼ばれる最初のマルチ言語オープンKBCデータセットを構築した。 従来のオープンKB構築パイプラインは,マルチリンガルコア参照の解決と,エンティティリンク三重項のみの保持により改善され,より密接なオープンKBが生成される。 オープンかつクローズドなKBに対して提案されたいくつかのベースラインモデルを試行し、他の言語から得られる知識を利用することによる一貫した利点を観察する。 データセットと付随するコードは公開される予定だ。

Automated completion of open knowledge bases (KBs), which are constructed from triples of the form (subject phrase, relation phrase, object phrase) obtained via open information extraction (IE) from text, is useful for discovering novel facts that may not directly be present in the text. However, research in open knowledge base completion (KBC) has so far been limited to resource-rich languages like English. Using the latest advances in multilingual open IE, we construct the first multilingual open KBC dataset, called mOKB6, that contains facts from Wikipedia in six languages (including English). Improving the previous open KB construction pipeline by doing multilingual coreference resolution and keeping only entity-linked triples, we create a dense open KB. We experiment with several baseline models that have been proposed for both open and closed KBs and observe a consistent benefit of using knowledge gained from other languages. The dataset and accompanying code will be made publicly available.
翻訳日:2022-11-15 17:31:17 公開日:2022-11-13
# BiFSMNv2: キーワードスポッティングのためのバイナリニューラルネットワークを実ネットワーク性能にプッシュする

BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to Real-Network Performance ( http://arxiv.org/abs/2211.06987v1 )

ライセンス: Link先を確認
Haotong Qin, Xudong Ma, Yifu Ding, Xiaoyang Li, Yang Zhang, Zejun Ma, Jiakai Wang, Jie Luo, Xianglong Liu(参考訳) Deep-FSMNのようなディープニューラルネットワークは、高価な計算とストレージに悩まされながらキーワードスポッティング(KWS)アプリケーションとして広く研究されている。 したがって、二項化のようなネットワーク圧縮技術を用いて、KWSモデルをエッジに展開する。 本稿では,kwsのための強力かつ効率的なバイナリニューラルネットワークであるbifsmnv2を提案する。 まず,2次元化演算ユニットの2次元活性化バイナライゼーションにより表現能力を回復し,全体的なアーキテクチャの観点から高速化ポテンシャルを解放する2次元化可能な1ビットアーキテクチャを提案する。 第2に,高周波数成分と低周波数成分を独立に蒸留し,全精度表現と2値化表現間の情報ミスマッチを緩和するkws2値化アウェアトレーニングのための周波数独立蒸留スキームを構築した。 さらに,レジスタの完全活用と命令スループットの向上を図ったFast Bitwise Computation Kernelを,ARMv8のリアルタイムハードウェアに実装した。 総合的な実験により、我々のBiFSMNv2は、さまざまなデータセットのマージンを証明し、完全な精度のネットワーク(音声コマンドV1-12ではわずか1.59%)で同等の精度を達成することで、KWSの既存のバイナリネットワークより優れています。 小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。

Deep neural networks, such as the Deep-FSMN, have been widely studied for keyword spotting (KWS) applications while suffering expensive computation and storage. Therefore, network compression technologies like binarization are studied to deploy KWS models on edge. In this paper, we present a strong yet efficient binary neural network for KWS, namely BiFSMNv2, pushing it to the real-network accuracy performance. First, we present a Dual-scale Thinnable 1-bit-Architecture to recover the representation capability of the binarized computation units by dual-scale activation binarization and liberate the speedup potential from an overall architecture perspective. Second, we also construct a Frequency Independent Distillation scheme for KWS binarization-aware training, which distills the high and low-frequency components independently to mitigate the information mismatch between full-precision and binarized representations. Moreover, we implement BiFSMNv2 on ARMv8 real-world hardware with a novel Fast Bitwise Computation Kernel, which is proposed to fully utilize registers and increase instruction throughput. Comprehensive experiments show our BiFSMNv2 outperforms existing binary networks for KWS by convincing margins across different datasets and even achieves comparable accuracy with the full-precision networks (e.g., only 1.59% drop on Speech Commands V1-12). We highlight that benefiting from the compact architecture and optimized hardware kernel, BiFSMNv2 can achieve an impressive 25.1x speedup and 20.2x storage-saving on edge hardware.
翻訳日:2022-11-15 17:30:59 公開日:2022-11-13
# GreenPLM:(ほとんど)コストなしで変換できる言語間事前訓練言語モデル

GreenPLM: Cross-lingual pre-trained language models conversion with (almost) no cost ( http://arxiv.org/abs/2211.06993v1 )

ライセンス: Link先を確認
Qingcheng Zeng, Lucas Garay, Peilin Zhou, Dading Chong, Yining Hua, Jiageng Wu, Yikang Pan, Han Zhou, Jie Yang(参考訳) 大規模事前学習モデルは自然言語処理(NLP)の分野に変化をもたらしたが、訓練コストの高騰と言語間の相互利用の低さにより、新しい進歩が全ての言語、特に話の少ない言語で等しく共有されるのを防ぐ。 NLP研究における全ての言語話者の平等な機会の促進と持続可能性のためのエネルギー消費の削減を目的として,両言語レキシコンを用いて,一言語の言語モデルを(ほとんど)追加費用なしで(ほぼ)他言語へ直接翻訳する効果的でエネルギー効率の良いフレームワークであるGreenPLMを提案する。 このアプローチを18の言語で検証し、このフレームワークが高いコストでトレーニングされた他のヒューリスティックと同等であることを示す。 さらに、計算コスト(2.5%)が低い場合、フレームワークは7つのテスト言語のうち6つでオリジナルの単言語モデルを上回る。 このアプローチは簡単に実装でき、すぐに英語から翻訳された50言語で言語モデルをリリースします。

While large pre-trained models have transformed the field of natural language processing (NLP), the high training cost and low cross-lingual availability of such models prevent the new advances from being equally shared by users across all languages, especially the less spoken ones. To promote equal opportunities for all language speakers in NLP research and to reduce energy consumption for sustainability, this study proposes an effective and energy-efficient framework GreenPLM that uses bilingual lexicons to directly translate language models of one language into other languages at (almost) no additional cost. We validate this approach in 18 languages and show that this framework is comparable to, if not better than, other heuristics trained with high cost. In addition, when given a low computational cost (2.5%), the framework outperforms the original monolingual language models in six out of seven tested languages. This approach can be easily implemented, and we will release language models in 50 languages translated from English soon.
翻訳日:2022-11-15 17:30:29 公開日:2022-11-13
# 読み出し予測におけるxgboostよりも医師の単語感受性に適合する言語モデル分類器

Language Model Classifier Aligns Better with Physician Word Sensitivity than XGBoost on Readmission Prediction ( http://arxiv.org/abs/2211.07047v1 )

ライセンス: Link先を確認
Grace Yang, Ming Cao, Lavender Y. Jiang, Xujin C. Liu, Alexander T.M. Cheung, Hannah Weiss, Davied Kurland, Kyunghyun Cho, Eric K. Oermann(参考訳) 曲線の下の精度や領域といった自然言語処理における分類のための従来の評価基準は、類似のパフォーマンス指標にもかかわらず、異なる予測行動を持つモデル間で区別できない。 モデルの振る舞いを語彙レベルで精査し、意思決定ロジックの差異に関する洞察を提供する指標である感度スコアを導入する。 本研究は, 病院入所分類のための2つの分類器を用いて, テストセットにおける代表語群に対する感度スコアを評価した。 本実験は,感度スコアのランク相関に基づく臨床医と分類士の意思決定論理を比較した。 その結果, 言語モデルの感度スコアは, tf-idf埋め込みにおけるxgboost分類器よりも, プロとよく一致していることが示唆された。 全体として、この指標はモデルの堅牢性を評価するための新しい視点を提供する。 私たちのコードはgithubで入手できる(https://github.com/nyuolab/model_sensitivity)。

Traditional evaluation metrics for classification in natural language processing such as accuracy and area under the curve fail to differentiate between models with different predictive behaviors despite their similar performance metrics. We introduce sensitivity score, a metric that scrutinizes models' behaviors at the vocabulary level to provide insights into disparities in their decision-making logic. We assess the sensitivity score on a set of representative words in the test set using two classifiers trained for hospital readmission classification with similar performance statistics. Our experiments compare the decision-making logic of clinicians and classifiers based on rank correlations of sensitivity scores. The results indicate that the language model's sensitivity score aligns better with the professionals than the xgboost classifier on tf-idf embeddings, which suggests that xgboost uses some spurious features. Overall, this metric offers a novel perspective on assessing models' robustness by quantifying their discrepancy with professional opinions. Our code is available on GitHub (https://github.com/nyuolab/Model_Sensitivity).
翻訳日:2022-11-15 17:30:09 公開日:2022-11-13
# 楕円型テンソル変量分布と画像学習への応用

Elliptically-Contoured Tensor-variate Distributions with Application to Improved Image Learning ( http://arxiv.org/abs/2211.06940v1 )

ライセンス: Link先を確認
Carlos Llosa-Vite and Ranjan Maitra(参考訳) テンソル値データの統計的解析は、重み付きあるいは軽い尾を持つ分布から得られるデータが不十分なテンソル変数正規分布(TVN)を主に用いている。 本研究は, 楕円型コントゥール(EC)テンソル変量分布の一般族を解析し, その特性, モーメント, 境界および条件分布, およびECウィッシュアート分布を導出する。 本稿では,(1)EC分布からの非相関なドロー,(2)TVN分布のスケール混合,(3)基礎的だが未知のEC分布からの最大推定手順について述べる。 詳細なシミュレーション研究は、重いテールデータに対してTVNよりもEC分布を選択する利点を強調している。 判別分析とec誤差を用いてテンソル変量分類ルールを開発し,tvnに基づくルールよりも,動物顔hqデータセット内の画像から猫や犬を予測しやすいことを示す。 ECエラー下での分散(TANOVA)フレームワークの新しいテンソル・オン・テンソル・レグレッションとテンソル・ヴァリエート分析は、有望なRaveed Faces of the Wildデータセットにおける通常のTVNベースのTANOVAよりも、性別、年齢、民族的起源のキャラクタリゼーションを改善することが示されている。

Statistical analysis of tensor-valued data has largely used the tensor-variate normal (TVN) distribution that may be inadequate when data comes from distributions with heavier or lighter tails. We study a general family of elliptically contoured (EC) tensor-variate distributions and derive its characterizations, moments, marginal and conditional distributions, and the EC Wishart distribution. We describe procedures for maximum likelihood estimation from data that are (1) uncorrelated draws from an EC distribution, (2) from a scale mixture of the TVN distribution, and (3) from an underlying but unknown EC distribution, where we extend Tyler's robust estimator. A detailed simulation study highlights the benefits of choosing an EC distribution over the TVN for heavier-tailed data. We develop tensor-variate classification rules using discriminant analysis and EC errors and show that they better predict cats and dogs from images in the Animal Faces-HQ dataset than the TVN-based rules. A novel tensor-on-tensor regression and tensor-variate analysis of variance (TANOVA) framework under EC errors is also demonstrated to better characterize gender, age and ethnic origin than the usual TVN-based TANOVA in the celebrated Labeled Faces of the Wild dataset.
翻訳日:2022-11-15 17:22:06 公開日:2022-11-13
# torchopt: 微分可能最適化のための効率的なライブラリ

TorchOpt: An Efficient Library for Differentiable Optimization ( http://arxiv.org/abs/2211.06934v1 )

ライセンス: Link先を確認
Jie Ren, Xidong Feng, Bo Liu, Xuehai Pan, Yao Fu, Luo Mai, Yaodong Yang(参考訳) 近年、様々な微分可能最適化アルゴリズムのブームが見られた。 これらのアルゴリズムは異なる実行パターンを示し、その実行には単一のCPUとGPUを超える膨大な計算リソースが必要です。 しかし、既存の微分可能最適化ライブラリは効率的なアルゴリズム開発とマルチcpu/gpu実行をサポートできないため、微分可能最適化アルゴリズムの開発は複雑で高価であることが多い。 本稿では、PyTorchをベースとした微分最適化のための効率的なライブラリTorchOptを紹介する。 torchoptは統一的で表現力に富んだ最適化プログラミング抽象化を提供する。 この抽象化により、明示的な勾配、暗黙的な勾配、ゼロ階勾配を持つ様々な微分可能最適化プログラムを効率的に宣言し、分析することができる。 TorchOptはさらに高性能な分散実行ランタイムを提供する。 このランタイムは、CPU/GPU上で計算集約的な微分操作(テンソルツリーフラット化など)を完全に並列化し、分散デバイスに自動的に計算を分散することができる。 実験の結果、TorchOptは8GPUサーバ上でトレーニングタイムのスピードアップを5.2\timesで達成している。 TorchOptは、https://github.com/metaopt/torchopt/.comで入手できる。

Recent years have witnessed the booming of various differentiable optimization algorithms. These algorithms exhibit different execution patterns, and their execution needs massive computational resources that go beyond a single CPU and GPU. Existing differentiable optimization libraries, however, cannot support efficient algorithm development and multi-CPU/GPU execution, making the development of differentiable optimization algorithms often cumbersome and expensive. This paper introduces TorchOpt, a PyTorch-based efficient library for differentiable optimization. TorchOpt provides a unified and expressive differentiable optimization programming abstraction. This abstraction allows users to efficiently declare and analyze various differentiable optimization programs with explicit gradients, implicit gradients, and zero-order gradients. TorchOpt further provides a high-performance distributed execution runtime. This runtime can fully parallelize computation-intensive differentiation operations (e.g. tensor tree flattening) on CPUs / GPUs and automatically distribute computation to distributed devices. Experimental results show that TorchOpt achieves $5.2\times$ training time speedup on an 8-GPU server. TorchOpt is available at: https://github.com/metaopt/torchopt/.
翻訳日:2022-11-15 17:21:41 公開日:2022-11-13
# 深層学習による生体試料の仮想組織染色

Deep Learning-enabled Virtual Histological Staining of Biological Samples ( http://arxiv.org/abs/2211.06822v1 )

ライセンス: Link先を確認
Bijie Bai, Xilin Yang, Yuzhu Li, Yijie Zhang, Nir Pillar, Aydogan Ozcan(参考訳) 組織染色 (histological staining) は臨床病理学および生命科学研究における組織検査の金本位であり、染色染料や蛍光標識を用いて組織や細胞構造を可視化し、組織を微視的に評価する。 しかしながら、現在の組織染色ワークフローでは、退屈なサンプル準備手順、専門的な実験室インフラ、訓練された組織技術者が必要であり、費用がかかり、時間がかかり、リソース制限された環境ではアクセスできない。 ディープラーニング技術は、トレーニングされたニューラルネットワークを使用して組織学的染色をデジタル生成し、標準的な化学染色法に迅速で費用効果があり、正確な代替手段を提供することによって、染色方法に革命をもたらす新たな機会を生み出した。 これらの技術は、広く仮想染色と呼ばれ、複数の研究グループによって広範囲に研究され、ラベルのない無傷試料の顕微鏡画像から様々な種類の組織染色を生成できることが証明された。 本稿では,ディープラーニングを利用した仮想組織染色技術における最近の研究動向を概観する。 仮想染色の基本概念と典型的なワークフローが紹介され、続いて代表作とその技術革新に関する議論が続く。 私たちはまた、この新興分野の将来についての見解を共有し、さまざまな科学分野の読者を刺激し、深層学習可能な仮想組織染色技術とその応用の範囲をさらに拡大することを目指している。

Histological staining is the gold standard for tissue examination in clinical pathology and life-science research, which visualizes the tissue and cellular structures using chromatic dyes or fluorescence labels to aid the microscopic assessment of tissue. However, the current histological staining workflow requires tedious sample preparation steps, specialized laboratory infrastructure, and trained histotechnologists, making it expensive, time-consuming, and not accessible in resource-limited settings. Deep learning techniques created new opportunities to revolutionize staining methods by digitally generating histological stains using trained neural networks, providing rapid, cost-effective, and accurate alternatives to standard chemical staining methods. These techniques, broadly referred to as virtual staining, were extensively explored by multiple research groups and demonstrated to be successful in generating various types of histological stains from label-free microscopic images of unstained samples; similar approaches were also used for transforming images of an already stained tissue sample into another type of stain, performing virtual stain-to-stain transformations. In this Review, we provide a comprehensive overview of the recent research advances in deep learning-enabled virtual histological staining techniques. The basic concepts and the typical workflow of virtual staining are introduced, followed by a discussion of representative works and their technical innovations. We also share our perspectives on the future of this emerging field, aiming to inspire readers from diverse scientific fields to further expand the scope of deep learning-enabled virtual histological staining techniques and their applications.
翻訳日:2022-11-15 17:12:42 公開日:2022-11-13
# FedRule: グラフニューラルネットワークを用いたフェデレーションルール推奨システム

FedRule: Federated Rule Recommendation System with Graph Neural Networks ( http://arxiv.org/abs/2211.06812v1 )

ライセンス: Link先を確認
Yuhang Yao, Mohammad Mahdi Kamani, Zhongwei Cheng, Lin Chen, Carlee Joe-Wong, Tianqiang Liu(参考訳) IoT(Internet-of-Things)デバイスが‘‘smart’ホームにもたらす価値の多くは、他のデバイスのアクションを自動的にトリガーする能力にある。 しかし、これらのルールをスマートデバイスやアプリケーションに手動で設定することは、時間がかかり非効率である。 ルールレコメンデーションシステムは、以前にデプロイされたルール(例えば、他人のスマートホーム)に基づいて、どのルールが人気であるかを学習することで、自動的にルールを提案することができる。 従来のレコメンデーションでは、中央サーバは、多くのユーザの家で使用されるルールを記録する必要があり、プライバシを侵害し、中央サーバのルールデータベースへの攻撃に対して脆弱である。 さらに、これらのソリューションは通常、ルールレコメンデーション問題の構造を完全に活用しないジェネリックなユーザ-イテム行列メソッドを利用する。 本稿では,これらの課題に対処するため,FedRuleと呼ばれる新しいルールレコメンデーションシステムを提案する。 ユーザが使用するルールs/heに基づいて1つのグラフを構築し、これらのグラフにリンク予測タスクとしてルールレコメンデーションを定式化する。 この定式化により,ユーザのデータをプライベートに保持可能なフェデレーショントレーニングアルゴリズムの設計が可能になる。 大規模な実験は、FedRuleが集中的な設定として同等のパフォーマンスを持ち、従来のソリューションよりも優れていることを示すことで、私たちの主張を裏付けます。

Much of the value that IoT (Internet-of-Things) devices bring to ``smart'' homes lies in their ability to automatically trigger other devices' actions: for example, a smart camera triggering a smart lock to unlock a door. Manually setting up these rules for smart devices or applications, however, is time-consuming and inefficient. Rule recommendation systems can automatically suggest rules for users by learning which rules are popular based on those previously deployed (e.g., in others' smart homes). Conventional recommendation formulations require a central server to record the rules used in many users' homes, which compromises their privacy and leaves them vulnerable to attacks on the central server's database of rules. Moreover, these solutions typically leverage generic user-item matrix methods that do not fully exploit the structure of the rule recommendation problem. In this paper, we propose a new rule recommendation system, dubbed as FedRule, to address these challenges. One graph is constructed per user upon the rules s/he is using, and the rule recommendation is formulated as a link prediction task in these graphs. This formulation enables us to design a federated training algorithm that is able to keep users' data private. Extensive experiments corroborate our claims by demonstrating that FedRule has comparable performance as the centralized setting and outperforms conventional solutions.
翻訳日:2022-11-15 17:03:05 公開日:2022-11-13
# 連合環境におけるプライバシを意識した因果構造学習に向けて

Towards Privacy-Aware Causal Structure Learning in Federated Setting ( http://arxiv.org/abs/2211.06919v1 )

ライセンス: Link先を確認
Jianli Huang, Kui Yu, Xianjie Guo, Fuyuan Cao and Jiye Liang(参考訳) 因果構造学習は機械学習や様々な用途で広く研究され、広く利用されている。 理想的な性能を達成するために、既存の因果構造学習アルゴリズムは、複数のデータソースから大量のデータを集中化する必要がある。 しかし、プライバシ保護設定では、すべてのソースからデータを集中化し、単一のデータセットとしてまとめることは不可能である。 データプライバシを維持するため、新しい学習パラダイムとしてのフェデレーション学習は、近年、マシンラーニングに大きな注目を集めている。 本稿では,フェデレーション設定におけるプライバシを意識した因果構造学習問題について検討し,データの集中化を伴わないデータプライバシ保存のための2つの新しい手法であるfederated pc (fedpc) アルゴリズムを提案する。 具体的には,まず,フェデレーテッドスケルトン学習のためのフェデレーテッド学習パラダイムにpcアルゴリズムをシームレスに適応させるための新しい階層的アグリゲーション戦略を提案し,フェデレーテッドエッジオリエンテーションのための一貫した分離セットを学習するための効果的な戦略を設計する。 この実験により,FedPCは連合学習環境における因果構造学習に有効であることが検証された。

Causal structure learning has been extensively studied and widely used in machine learning and various applications. To achieve an ideal performance, existing causal structure learning algorithms often need to centralize a large amount of data from multiple data sources. However, in the privacy-preserving setting, it is impossible to centralize data from all sources and put them together as a single dataset. To preserve data privacy, federated learning as a new learning paradigm has attached much attention in machine learning in recent years. In this paper, we study a privacy-aware causal structure learning problem in the federated setting and propose a novel Federated PC (FedPC) algorithm with two new strategies for preserving data privacy without centralizing data. Specifically, we first propose a novel layer-wise aggregation strategy for a seamless adaptation of the PC algorithm into the federated learning paradigm for federated skeleton learning, then we design an effective strategy for learning consistent separation sets for federated edge orientation. The extensive experiments validate that FedPC is effective for causal structure learning in federated learning setting.
翻訳日:2022-11-15 16:53:48 公開日:2022-11-13
# Inv-SENnet:バイアスデータによるクラスタリングのための不変自己表現ネットワーク

Inv-SENnet: Invariant Self Expression Network for clustering under biased data ( http://arxiv.org/abs/2211.06780v1 )

ライセンス: Link先を確認
Ashutosh Singh, Ashish Singh, Aria Masoomi, Tales Imbiriba, Erik Learned-Miller, Deniz Erdogmus(参考訳) サブスペースクラスタリングアルゴリズムは、データセットをうまく説明するクラスタ構造を理解するために使用される。 これらの手法は自然科学の様々な分野のデータ探索に広く用いられている。 しかし、これらの手法のほとんどはデータセットの望ましくないバイアスを処理できない。 データサンプルが複数の属性を表すデータセットの場合、いかなるクラスタリングアプローチも望ましくない出力をもたらす可能性がある。 そこで本稿では,各サブ空間におけるデータポイントのクラスタ化を学習しながら,不要な属性(バイアス)を共同で除去するフレームワークを提案する。 バイアスに関する情報が得られれば,データと不要な属性間の相互情報を最小化するために,逆学習によってクラスタリング手法を規則化する。 合成および実世界のデータセットに対する実験結果から,本手法の有効性が示された。

Subspace clustering algorithms are used for understanding the cluster structure that explains the dataset well. These methods are extensively used for data-exploration tasks in various areas of Natural Sciences. However, most of these methods fail to handle unwanted biases in datasets. For datasets where a data sample represents multiple attributes, naively applying any clustering approach can result in undesired output. To this end, we propose a novel framework for jointly removing unwanted attributes (biases) while learning to cluster data points in individual subspaces. Assuming we have information about the bias, we regularize the clustering method by adversarially learning to minimize the mutual information between the data and the unwanted attributes. Our experimental result on synthetic and real-world datasets demonstrate the effectiveness of our approach.
翻訳日:2022-11-15 16:47:44 公開日:2022-11-13
# ロバストな領域適応と一般化のための逆およびランダム変換

Adversarial and Random Transformations for Robust Domain Adaptation and Generalization ( http://arxiv.org/abs/2211.06788v1 )

ライセンス: Link先を確認
Liang Xiao, Jiaolong Xu, Dawei Zhao, Erke Shang, Qi Zhu, Bin Dai(参考訳) データ拡張はディープニューラルネットワークのトレーニングの一般化を改善するために広く使われている。 最近の研究は、最悪のケース変換や敵の強化戦略を用いることで、精度と堅牢性を大幅に向上できることを示している。 しかし、画像変換の非微分性のため、強化学習や進化戦略のような探索アルゴリズムを適用する必要があり、大規模な問題に対して計算的に実用的ではない。 本研究では、ランダムデータ拡張による整合性トレーニングを単純に適用することで、ドメイン適応(DA)と一般化(DG)に関する最先端結果が得られることを示す。 本研究では, 空間変換器ネットワーク(STN)をベースとした, 識別可能な逆データ拡張手法を提案する。 逆変換とランダム変換を組み合わせた手法は、複数のDAおよびDGベンチマークデータセット上で最先端の手法より優れている。 さらに, 提案手法は, 一般的に使用されているデータセット上でも検証可能な, 汚損に対する望ましい堅牢性を示す。

Data augmentation has been widely used to improve generalization in training deep neural networks. Recent works show that using worst-case transformations or adversarial augmentation strategies can significantly improve the accuracy and robustness. However, due to the non-differentiable properties of image transformations, searching algorithms such as reinforcement learning or evolution strategy have to be applied, which are not computationally practical for large scale problems. In this work, we show that by simply applying consistency training with random data augmentation, state-of-the-art results on domain adaptation (DA) and generalization (DG) can be obtained. To further improve the accuracy and robustness with adversarial examples, we propose a differentiable adversarial data augmentation method based on spatial transformer networks (STN). The combined adversarial and random transformations based method outperforms the state-of-the-art on multiple DA and DG benchmark datasets. Besides, the proposed method shows desirable robustness to corruption, which is also validated on commonly used datasets.
翻訳日:2022-11-15 16:47:25 公開日:2022-11-13
# 転移学習と融合戦略を用いた胸部x線による慢性閉塞性肺疾患の早期診断

Early Diagnosis of Chronic Obstructive Pulmonary Disease from Chest X-Rays using Transfer Learning and Fusion Strategies ( http://arxiv.org/abs/2211.06925v1 )

ライセンス: Link先を確認
Ryan Wang, Li-Ching Chen, Lama Moukheiber, Mira Moukheiber, Dana Moukheiber, Zach Zaiman, Sulaiman Moukheiber, Tess Litchman, Kenneth Seastedt, Hari Trivedi, Rebecca Steinberg, Po-Chih Kuo, Judy Gichoya, Leo Anthony Celi(参考訳) 慢性閉塞性肺疾患(copd)は、世界で最も一般的な慢性疾患の一つであり、世界でも3番目に多い死因である。 しばしば診断されないか、疾患の経過が遅くなるまで診断されない。 スピロメトリ試験はcopd診断の金本位制であるが、特に資源汚染国では入手が困難である。 しかし、胸部X線(CXR)は容易に利用可能であり、さらなる検査を行うべき COPD 患者のスクリーニングツールとして機能する可能性がある。 現在、大規模なマルチサイトおよびマルチモーダルデータを使用してcopd患者を検出し、集団間で公平性を評価するディープラーニング(dl)アルゴリズムは適用されていない。 研究には3つのCXRデータセット、モデルの事前トレーニングにはCheXpert、開発にはMIMIC-CXR、モデルの検証にはEmory-CXRを使用しました。 COPD早期患者のCXRは, メカニカル換気ではなく, モデルトレーニングと検証のために選択された。 我々は,MIMIC-CXRおよびEmory-CXRテストデータセットのベースモデル上で,真の正のケースのGrad-CAMヒートマップを可視化する。 さらに,(1)MIC-CXRを用いたモデルレベルの融合,(2)MIC-CXRとEmory-CXRを用いたマルチサイトデータを含むデータレベルの融合,(2)MIC-CXRとMIMIC-IV EHRを用いたマルチモーダルという2つの融合方式を提案し,モデル全体の性能を向上させる。 融合スキームが異なる集団間で性能に相違があるかどうかを評価するためにフェアネス分析を行う。 以上の結果から,特にCXRがスピロメトリよりもアクセスしやすい低リソース領域において,早期スクリーニングを容易にするCXRを用いたPDの検出が可能であることが示唆された。 マルチサイトデータ融合方式は、Emory-CXRテストデータのモデル一般化性を向上させることができる。 CXRや他のモダリティを用いたPD予測に関するさらなる研究は、今後の研究が望まれる。

Chronic obstructive pulmonary disease (COPD) is one of the most common chronic illnesses in the world and the third leading cause of mortality worldwide. It is often underdiagnosed or not diagnosed until later in the disease course. Spirometry tests are the gold standard for diagnosing COPD but can be difficult to obtain, especially in resource-poor countries. Chest X-rays (CXRs), however, are readily available and may serve as a screening tool to identify patients with COPD who should undergo further testing. Currently, no research applies deep learning (DL) algorithms that use large multi-site and multi-modal data to detect COPD patients and evaluate fairness across demographic groups. We use three CXR datasets in our study, CheXpert to pre-train models, MIMIC-CXR to develop, and Emory-CXR to validate our models. The CXRs from patients in the early stage of COPD and not on mechanical ventilation are selected for model training and validation. We visualize the Grad-CAM heatmaps of the true positive cases on the base model for both MIMIC-CXR and Emory-CXR test datasets. We further propose two fusion schemes, (1) model-level fusion, including bagging and stacking methods using MIMIC-CXR, and (2) data-level fusion, including multi-site data using MIMIC-CXR and Emory-CXR, and multi-modal using MIMIC-CXRs and MIMIC-IV EHR, to improve the overall model performance. Fairness analysis is performed to evaluate if the fusion schemes have a discrepancy in the performance among different demographic groups. The results demonstrate that DL models can detect COPD using CXRs, which can facilitate early screening, especially in low-resource regions where CXRs are more accessible than spirometry. The multi-site data fusion scheme could improve the model generalizability on the Emory-CXR test data. Further studies on using CXR or other modalities to predict COPD ought to be in future work.
翻訳日:2022-11-15 16:47:00 公開日:2022-11-13
# 条件付き独立グラフの復元方法:調査

Methods for Recovering Conditional Independence Graphs: A Survey ( http://arxiv.org/abs/2211.06829v1 )

ライセンス: Link先を確認
Harsh Shrivastava, Urszula Chajewska(参考訳) 条件独立(CI)グラフは、主に特徴関係についての洞察を得るために使用される確率的グラフィカルモデルの一種である。 各エッジは、直接依存に関する情報を提供する接続された特徴間の部分的相関を表す。 本調査では,CIグラフを復元する手法について,さまざまな手法をリストアップして検討する。 従来の最適化手法に加えて,最近開発されたディープラーニングアーキテクチャや推奨実装についても取り上げる。 広く採用されるためには、例えば混合データ型に対して共分散行列を得る手法など、関連する操作を統合するプリリミナリを含める。

Conditional Independence (CI) graphs are a type of probabilistic graphical models that are primarily used to gain insights about feature relationships. Each edge represents the partial correlation between the connected features which gives information about their direct dependence. In this survey, we list out different methods and study the advances in techniques developed to recover CI graphs. We cover traditional optimization methods as well as recently developed deep learning architectures along with their recommended implementations. To facilitate wider adoption, we include preliminaries that consolidate associated operations, for example techniques to obtain covariance matrix for mixed datatypes.
翻訳日:2022-11-15 16:37:55 公開日:2022-11-13
# 時分割報酬を持つ多腕バンディットの部分報酬分布の一般化

Generalizing distribution of partial rewards for multi-armed bandits with temporally-partitioned rewards ( http://arxiv.org/abs/2211.06883v1 )

ライセンス: Link先を確認
Ronald C. van den Broek, Rik Litjens, Tobias Sagis, Luc Siecker, Nina Verbeeke and Pratik Gajane(参考訳) 本稿では,TP-MAB設定によるマルチArmed Bandit問題について検討する。 tp-mab設定では、エージェントは腕に対する報酬全体ではなく、複数のラウンドに対して報酬のサブセットを受け取る。 本稿では,腕の累積報酬がβ-spreadプロパティと呼ばれる複数のラウンドでどのように分配されるかを一般化する。 このような一般化は、ラウンドごとの最大報酬がラウンド毎に均一に分配されない分割報酬を処理できる必要がある。 β-spreadが持つという仮定の下で、tp-mab問題の下限を導出する。 さらに,いくつかのシナリオにおける後悔の上限を改善するために,ベータスプレッド特性を用いたtp-ucb-fr-gアルゴリズムを提案する。 累積報酬の分布を一般化することにより、この設定は広範囲のアプリケーションに適用できる。

We investigate the Multi-Armed Bandit problem with Temporally-Partitioned Rewards (TP-MAB) setting in this paper. In the TP-MAB setting, an agent will receive subsets of the reward over multiple rounds rather than the entire reward for the arm all at once. In this paper, we introduce a general formulation of how an arm's cumulative reward is distributed across several rounds, called Beta-spread property. Such a generalization is needed to be able to handle partitioned rewards in which the maximum reward per round is not distributed uniformly across rounds. We derive a lower bound on the TP-MAB problem under the assumption that Beta-spread holds. Moreover, we provide an algorithm TP-UCB-FR-G, which uses the Beta-spread property to improve the regret upper bound in some scenarios. By generalizing how the cumulative reward is distributed, this setting is applicable in a broader range of applications.
翻訳日:2022-11-15 16:37:47 公開日:2022-11-13
# 知識ベース補完のためのインスタンスベース学習

Instance-based Learning for Knowledge Base Completion ( http://arxiv.org/abs/2211.06807v1 )

ライセンス: Link先を確認
Wanyun Cui, Xingran Chen(参考訳) 本稿では,知識ベース補完(KBC)のための新しい手法として,インスタンスベース学習(IBL)を提案する。 例えば、答えるために(jill biden, living city,?)、直接ワシントンd.c.に行く代わりに、jill bidenと同じ居住都市を持つjoe bidenを見つけることが目標です。 プロトタイプエンティティを通じて、IBLは解釈可能性を提供する。 我々はプロトタイプをモデル化し, iblと翻訳モデルを組み合わせた理論を構築した。 様々なタスクの実験により、IBLモデルの有効性と解釈可能性が確認された。 さらに、IBLはルールベースのKBCモデルのメカニズムに光を当てた。 従来の研究は、ルールベースのモデルが意味論的に互換性のある前提と仮説のルールを提供するという点で概ね一致していた。 私たちはこの見方に挑戦する。 まず、いくつかの論理規則が意味的互換性ではなく、(プロトタイプのような)インスタンスベースの等価性を表すことを示す。 これらは {\it ibl rules} と表記される。 驚くべきことに、ルール領域のごく一部しか占めていないにもかかわらず、IBLルールは4つのベンチマークで非IBLルールを上回っている。 IBLルールを介してインスタンスベースの等価性を表現できるので、ルールベースのモデルが機能することを示すために、さまざまな実験を使用します。 この発見は、ルールベースのモデルがどのように機能し、ルールをどう解釈するかに関する新しい洞察を提供する。

In this paper, we propose a new method for knowledge base completion (KBC): instance-based learning (IBL). For example, to answer (Jill Biden, lived city,? ), instead of going directly to Washington D.C., our goal is to find Joe Biden, who has the same lived city as Jill Biden. Through prototype entities, IBL provides interpretability. We develop theories for modeling prototypes and combining IBL with translational models. Experiments on various tasks confirmed the IBL model's effectiveness and interpretability. In addition, IBL shed light on the mechanism of rule-based KBC models. Previous research has generally agreed that rule-based models provide rules with semantically compatible premises and hypotheses. We challenge this view. We begin by demonstrating that some logical rules represent {\it instance-based equivalence} (i.e. prototypes) rather than semantic compatibility. These are denoted as {\it IBL rules}. Surprisingly, despite occupying only a small portion of the rule space, IBL rules outperform non-IBL rules in all four benchmarks. We use a variety of experiments to demonstrate that rule-based models work because they have the ability to represent instance-based equivalence via IBL rules. The findings provide new insights of how rule-based models work and how to interpret their rules.
翻訳日:2022-11-15 16:28:04 公開日:2022-11-13
# 敵の存在下での目標条件付き強化学習

Goal-Conditioned Reinforcement Learning in the Presence of an Adversary ( http://arxiv.org/abs/2211.06929v1 )

ライセンス: Link先を確認
Carlos Purves, Pietro Li\`o and C\u{a}t\u{a}lina Cangea(参考訳) 強化学習はここ数年、現実世界の文脈で応用が増えている。 しかし、物理環境はしばしば不完全であり、シミュレーションでうまく機能するポリシーは、他の場所で適用しても、同じ性能を達成できない可能性がある。 これと戦う一般的な方法は、敵の存在下でエージェントを訓練することである。 敵はエージェントを不安定にするために行動し、より堅牢なポリシーを学び、現実的な条件をうまく扱える。 これはロボット工学の文脈で特に有用であり、エージェントがどの目標が選択されたかによって異なる行動をとることができる。 ここでは,敵の存在下での目標条件学習の問題に焦点をあてる。 最初に、敵に対する行動を支援する2つの新しい目標条件環境であるDigitFlipとCLEVR-Playを提示する。 次に,目標条件学習のための2つのアルゴリズムであるeherとcherを提案する。 最後に、2つのスレッドを統一し、敵の存在下で目標条件学習のための新しいフレームワークであるigoalを紹介します。 実験の結果、IGOALとEHERを組み合わせることで、エージェントは、ランダムと有能の両方の敵に対して行動する際に、既存のアプローチを著しく上回ります。

Reinforcement learning has seen increasing applications in real-world contexts over the past few years. However, physical environments are often imperfect and policies that perform well in simulation might not achieve the same performance when applied elsewhere. A common approach to combat this is to train agents in the presence of an adversary. An adversary acts to destabilise the agent, which learns a more robust policy and can better handle realistic conditions. Many real-world applications of reinforcement learning also make use of goal-conditioning: this is particularly useful in the context of robotics, as it allows the agent to act differently, depending on which goal is selected. Here, we focus on the problem of goal-conditioned learning in the presence of an adversary. We first present DigitFlip and CLEVR-Play, two novel goal-conditioned environments that support acting against an adversary. Next, we propose EHER and CHER -- two HER-based algorithms for goal-conditioned learning -- and evaluate their performance. Finally, we unify the two threads and introduce IGOAL: a novel framework for goal-conditioned learning in the presence of an adversary. Experimental results show that combining IGOAL with EHER allows agents to significantly outperform existing approaches, when acting against both random and competent adversaries.
翻訳日:2022-11-15 16:27:44 公開日:2022-11-13
# 連星密度マップと合成核融合ピラミッドネットワークを用いた大規模群集計数

Scale-Aware Crowd Counting Using a Joint Likelihood Density Map and Synthetic Fusion Pyramid Network ( http://arxiv.org/abs/2211.06835v1 )

ライセンス: Link先を確認
Yi-Kuan Hsieh, Jun-Wei Hsieh, Yu-Chee Tseng, Ming-Ching Chang, Bor-Shiun Wang(参考訳) 本研究では,スケールアウェア損失関数設計を施した合成融合ピラミッドネットワーク(spf-net)を開発した。 既存のクラウドカウント手法では、トレーニング用アノテーションポイントが正確であると考えており、ノイズの多いアノテーションがモデル学習バイアスやカウントエラーをもたらす可能性があるという事実を無視している。 私たちの知る限りでは、この作業はエンド・ツー・エンドの損失設計において、このようなノイズを適切に処理する最初の方法です。 我々は,群集注釈点のノイズをガウスとしてモデル化し,入力画像から群集確率密度マップを導出する。 次に、複数のスケールの完全な共分散を伴う集合密度写像の結合分布を近似し、トラクタビリティと効率的な実装のための低ランク近似を導出する。 導出スケール認識損失関数はSPF-Netのトレーニングに使用される。 UCF-QNRF, UCF CC 50, NWPU, ShanghaiTech A-B データセットの4つの公開データセットにおいて, 損失関数よりも優れていることを示す。 提案するspf-netは,うるさいトレーニングアノテーションをトレーニングしながら,群衆の中の人々の位置を正確に予測することができる。

We develop a Synthetic Fusion Pyramid Network (SPF-Net) with a scale-aware loss function design for accurate crowd counting. Existing crowd-counting methods assume that the training annotation points were accurate and thus ignore the fact that noisy annotations can lead to large model-learning bias and counting error, especially for counting highly dense crowds that appear far away. To the best of our knowledge, this work is the first to properly handle such noise at multiple scales in end-to-end loss design and thus push the crowd counting state-of-the-art. We model the noise of crowd annotation points as a Gaussian and derive the crowd probability density map from the input image. We then approximate the joint distribution of crowd density maps with the full covariance of multiple scales and derive a low-rank approximation for tractability and efficient implementation. The derived scale-aware loss function is used to train the SPF-Net. We show that it outperforms various loss functions on four public datasets: UCF-QNRF, UCF CC 50, NWPU and ShanghaiTech A-B datasets. The proposed SPF-Net can accurately predict the locations of people in the crowd, despite training on noisy training annotations.
翻訳日:2022-11-15 16:10:57 公開日:2022-11-13
# Point-DAE: 自己教師型ポイントクラウド学習のためのオートエンコーダ

Point-DAE: Denoising Autoencoders for Self-supervised Point Cloud Learning ( http://arxiv.org/abs/2211.06841v1 )

ライセンス: Link先を確認
Yabin Zhang, Jiehong Lin, Ruihuang Li, Kui Jia, Lei Zhang(参考訳) masked autoencoderは、セルフ教師付きポイントクラウド学習の有効性を実証した。 マスキングは一種の汚職であり、この研究では、マスキング以外の多くの種類の汚職を調査することによって、ポイントクラウドラーニング(Point-DAE)のためのより一般的なオートエンコーダを探索する。 具体的には、特定の腐敗を入力としてポイントクラウドを分解し、エンコーダ・デコーダモデルを学び、元のポイントクラウドを破損したバージョンから再構築する。 3つの腐敗ファミリー(密度/マスキング、ノイズ、アフィン変換)と合計14種類の腐敗タイプを調査した。 興味深いことに、アフィン変換ベースのPoint-DAEは一般的に他のもの(例えば、一般的なマスキングの汚職など)より優れており、セルフ教師付きポイントクラウド学習の有望な方向性を示唆している。 さらに重要なことは、下流タスクにおけるタスク関連性とモデル性能の統計的に有意な線形関係があることである。 この発見は、これらのポイント-DAE変種が下流分類タスクと密接に関連していることを考えると、アフィン変換に基づくポイント-DAEの利点を部分的にデミスタットしている。 さらに、ほとんどのPoint-DAE変種は、事前トレーニングデータセットで手動で注釈付けされた標準ポーズの恩恵を受けない。 この問題に取り組むために,オブジェクトのポーズを自動的に推定することで,新しいデータセットの設定を促進する。 コードは \url{https://github.com/YBZh/Point-DAE で入手できる。 }

Masked autoencoder has demonstrated its effectiveness in self-supervised point cloud learning. Considering that masking is a kind of corruption, in this work we explore a more general denoising autoencoder for point cloud learning (Point-DAE) by investigating more types of corruptions beyond masking. Specifically, we degrade the point cloud with certain corruptions as input, and learn an encoder-decoder model to reconstruct the original point cloud from its corrupted version. Three corruption families (i.e., density/masking, noise, and affine transformation) and a total of fourteen corruption types are investigated. Interestingly, the affine transformation-based Point-DAE generally outperforms others (e.g., the popular masking corruptions), suggesting a promising direction for self-supervised point cloud learning. More importantly, we find a statistically significant linear relationship between task relatedness and model performance on downstream tasks. This finding partly demystifies the advantage of affine transformation-based Point-DAE, given that such Point-DAE variants are closely related to the downstream classification task. Additionally, we reveal that most Point-DAE variants unintentionally benefit from the manually-annotated canonical poses in the pre-training dataset. To tackle such an issue, we promote a new dataset setting by estimating object poses automatically. The codes will be available at \url{https://github.com/YBZh/Point-DAE.}
翻訳日:2022-11-15 16:10:35 公開日:2022-11-13
# SSL4EO-S12:地球観測における自己教師付き学習のための大規模マルチモーダル・マルチテンポラルデータセット

SSL4EO-S12: A Large-Scale Multi-Modal, Multi-Temporal Dataset for Self-Supervised Learning in Earth Observation ( http://arxiv.org/abs/2211.07044v1 )

ライセンス: Link先を確認
Yi Wang, Nassim Ait Ali Braham, Zhitong Xiong, Chenying Liu, Conrad M Albrecht, Xiao Xiang Zhu(参考訳) 自己教師付き事前学習は、人間のアノテーションなしで表現表現を生成する可能性を秘めている。 地球観測(EO)におけるほとんどの事前トレーニングは、ImageNetまたは中規模のリモートセンシング(RS)データセットに基づいている。 rsデータセットssl4eo-s12 (self-supervised learning for earth observation - sentinel-1/2) を共有し,esa sentinel-1 \& -2衛星ミッションからの大規模,グローバル,マルチモーダル,マルチシーズンの衛星画像コーパスを組み立てる。 EOアプリケーションでは、SSL4EO-S12がMoCo-v2、DINO、MAE、Data2vecといったメソッドの自己教師型事前トレーニングに成功することを示す。 結果モデルによって、下流のパフォーマンスは、教師付き学習の精度測定に近づいたり、超えたりします。 さらに、SSL4EO-S12の事前トレーニングは、既存のデータセットと比較して優れている。 データセット、関連するソースコード、および事前トレーニングされたモデルをhttps://github.com/zhu-xlab/ssl4eo-s12で公開しています。

Self-supervised pre-training bears potential to generate expressive representations without human annotation. Most pre-training in Earth observation (EO) are based on ImageNet or medium-size, labeled remote sensing (RS) datasets. We share an unlabeled RS dataset SSL4EO-S12 (Self-Supervised Learning for Earth Observation - Sentinel-1/2) to assemble a large-scale, global, multimodal, and multi-seasonal corpus of satellite imagery from the ESA Sentinel-1 \& -2 satellite missions. For EO applications we demonstrate SSL4EO-S12 to succeed in self-supervised pre-training for a set of methods: MoCo-v2, DINO, MAE, and data2vec. Resulting models yield downstream performance close to, or surpassing accuracy measures of supervised learning. In addition, pre-training on SSL4EO-S12 excels compared to existing datasets. We make openly available the dataset, related source code, and pre-trained models at https://github.com/zhu-xlab/SSL4EO-S12.
翻訳日:2022-11-15 16:10:09 公開日:2022-11-13
# WR-ONE2SET:よく校正されたキーワード生成を目指して

WR-ONE2SET: Towards Well-Calibrated Keyphrase Generation ( http://arxiv.org/abs/2211.06862v1 )

ライセンス: Link先を確認
Binbin Xie, Xiangpeng Wei, Baosong Yang, Huan Lin, Jun Xie, Xiaoli Wang, Min Zhang and Jinsong Su(参考訳) keyphrase生成は、入力ドキュメントを要約した短いフレーズを自動的に生成することを目的としている。 最近登場したONE2SETパラダイム(Ye et al., 2021)は、キーフレーズをセットとして生成し、競争性能を達成した。 しかしながら、ONE2SETが出力する深刻な校正誤差は、特に$\varnothing$ token(対応するキーフレーズがない)の過大評価において観察される。 本稿では、この制限を深く分析し、主な理由を2つ挙げる。 1) 並列生成は、トレーニングインスタンスにパディングトークンとして過剰な$\varnothing$を導入しなければなりません。 2) 各スロットにターゲットを割り当てるトレーニングメカニズムは不安定であり、さらに$\varnothing$トークン過大評価を増大させる。 そこで本研究では,適応型インスタンスレベルのコスト重み付け戦略と目標の再割り当て機構を用いてone2セットを拡張するwr-one2setを提案する。 前者は、異なるインスタンスに対して過大評価されたスロットを動的に罰し、不均一なトレーニング分布を円滑にする。 後者は、元の不適切な割り当てを洗練し、過見積スロットの監視信号を削減する。 一般的なデータセットを用いた実験結果から,提案手法の有効性と汎用性を示した。

Keyphrase generation aims to automatically generate short phrases summarizing an input document. The recently emerged ONE2SET paradigm (Ye et al., 2021) generates keyphrases as a set and has achieved competitive performance. Nevertheless, we observe serious calibration errors outputted by ONE2SET, especially in the over-estimation of $\varnothing$ token (means "no corresponding keyphrase"). In this paper, we deeply analyze this limitation and identify two main reasons behind: 1) the parallel generation has to introduce excessive $\varnothing$ as padding tokens into training instances; and 2) the training mechanism assigning target to each slot is unstable and further aggravates the $\varnothing$ token over-estimation. To make the model well-calibrated, we propose WR-ONE2SET which extends ONE2SET with an adaptive instance-level cost Weighting strategy and a target Re-assignment mechanism. The former dynamically penalizes the over-estimated slots for different instances thus smoothing the uneven training distribution. The latter refines the original inappropriate assignment and reduces the supervisory signals of over-estimated slots. Experimental results on commonly-used datasets demonstrate the effectiveness and generality of our proposed paradigm.
翻訳日:2022-11-15 16:03:05 公開日:2022-11-13
# ハリーは何て言う? 物語の登場人物のための対話エージェントの構築

What would Harry say? Building Dialogue Agents for Characters in a Story ( http://arxiv.org/abs/2211.06869v1 )

ライセンス: Link先を確認
Nuo Chen, Yan Wang, Haiyun Jiang, Deng Cai, Ziyang Chen and Jia Li(参考訳) ハリー・ポッター対話データセット (harry potter dialogue dataset) は,物語中の登場人物のための対話エージェント構築の研究を容易にする。 既存の対話データセットとは2つの点で異なる。 1) hpdは,シーン,キャラクタ属性,キャラクタリレーションなど,小説のハリー・ポッターに関する豊富な背景情報を提供する。 2) これらの背景情報はストーリーが進むにつれて変化します。 言い換えれば、HPDの各対話セッションは異なる背景に相関し、ストーリーラインは背景がどのように変化するかを決定する。 我々は,Harry Potterのような応答をいかに生成できるかを判断するために,自動測定と人的計測の両方に基づいてベースライン(GPT-2,BOBなど)を評価する。 実験の結果, 生成した応答は会話履歴に精通しており, 対話履歴に関係しているものの, ハリーの性格の欠如は認められず, 将来研究のための大きなヘッドルームが存在することが示唆された。 私たちのデータセットは利用可能です。

We present HPD: Harry Potter Dialogue Dataset to facilitate the study of building dialogue agents for characters in a story. It differs from existing dialogue datasets in two aspects: 1) HPD provides rich background information about the novel Harry Potter, including scene, character attributes, and character relations; 2) All these background information will change as the story goes on. In other words, each dialogue session in HPD correlates to a different background, and the storyline determines how the background changes. We evaluate some baselines (e.g., GPT-2, BOB) on both automatic and human metrics to determine how well they can generate Harry Potter-like responses. Experimental results indicate that although the generated responses are fluent and relevant to the dialogue history, they are remained to sound out of character for Harry, indicating there is a large headroom for future studies. Our dataset is available.
翻訳日:2022-11-15 16:02:45 公開日:2022-11-13
# 複数選択読解における「世界知識」

"World Knowledge" in Multiple Choice Reading Comprehension ( http://arxiv.org/abs/2211.07040v1 )

ライセンス: Link先を確認
Adian Liusie, Vatsal Raina, Mark Gales(参考訳) 近年,コンテキストパスへのアクセスがないと,MCRC(Multiple choice read comprehension)システムでは,ランダムな回答が平均よりもはるかに優れていることが示されている。 これらのシステムは、蓄積した「世界知識」を使って、通路からの情報を使わずに、直接質問に答える。 本稿では,この観察をテストデザイナのツールとして活用し,特定の質問に対して「世界知識」の使用が許容可能であることを確認する。 本稿では,システムから活用される「世界知識」のレベルを評価するための情報理論に基づくメトリクスを提案する。 2つの指標が述べられている: パスフリーなシステムが世界知識を用いて質問を識別できるかどうかを測定するオプションの数と、与えられた質問に対する文脈の重要性を測定するコンテキスト相互情報である。 提案手法では, 候補数が少なく, ショートカットシステムによって答えられる質問も, 文脈のない人間でも答えられることがしばしば示されている。 このことは、'ショートカット'という一般的な知識が試験候補でも同じように利用でき、提案した指標が将来のテスト設計者が質問の質を監視するのに役立つことを強調している。

Recently it has been shown that without any access to the contextual passage, multiple choice reading comprehension (MCRC) systems are able to answer questions significantly better than random on average. These systems use their accumulated "world knowledge" to directly answer questions, rather than using information from the passage. This paper examines the possibility of exploiting this observation as a tool for test designers to ensure that the use of "world knowledge" is acceptable for a particular set of questions. We propose information-theory based metrics that enable the level of "world knowledge" exploited by systems to be assessed. Two metrics are described: the expected number of options, which measures whether a passage-free system can identify the answer a question using world knowledge; and the contextual mutual information, which measures the importance of context for a given question. We demonstrate that questions with low expected number of options, and hence answerable by the shortcut system, are often similarly answerable by humans without context. This highlights that the general knowledge 'shortcuts' could be equally used by exam candidates, and that our proposed metrics may be helpful for future test designers to monitor the quality of questions.
翻訳日:2022-11-15 16:02:27 公開日:2022-11-13
# ゼロショット画像キャプションのための大規模双方向訓練

Large-Scale Bidirectional Training for Zero-Shot Image Captioning ( http://arxiv.org/abs/2211.06774v1 )

ライセンス: Link先を確認
Taehoon Kim, Mark Marsden, Pyunghwan Ahn, Sangyun Kim, Sihaeng Lee, Alessandra Sala, Seung Hwan Kim(参考訳) 大規模なデータセットでトレーニングを行うと、画像キャプションモデルは一般的なドメインの画像の内容を理解することができるが、正確な詳細なキャプションを生成することができないことが多い。 性能向上のため,画像キャプションにおけるプリトレーニング・アンド・フィニチューニングが重要な戦略となっている。 しかし,画像とテキスト間の大規模双方向学習により,ゼロショット画像キャプションが可能となる。 本稿では,ゼロショット画像キャプションのための効率的な学習・推論フレームワークであるbidirectional image text training in large scale, bittersについて紹介する。 また,高品質なデータセットと,ゼロショットキャプション精度と社会バイアスを適切に評価するための指標セットからなる,新たな評価ベンチマークを提案する。 さらに,キーワード抽出のための効率的な微調整手法を提案する。 大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションを実現する鍵となることを示す。

When trained on large-scale datasets, image captioning models can understand the content of images from a general domain but often fail to generate accurate, detailed captions. To improve performance, pretraining-and-finetuning has been a key strategy for image captioning. However, we find that large-scale bidirectional training between image and text enables zero-shot image captioning. In this paper, we introduce Bidirectional Image Text Training in largER Scale, BITTERS, an efficient training and inference framework for zero-shot image captioning. We also propose a new evaluation benchmark which comprises of high quality datasets and an extensive set of metrics to properly evaluate zero-shot captioning accuracy and societal bias. We additionally provide an efficient finetuning approach for keyword extraction. We show that careful selection of large-scale training set and model architecture is the key to achieving zero-shot image captioning.
翻訳日:2022-11-15 16:00:57 公開日:2022-11-13
# 患者の予後予測のためのテキストデータ拡張

Textual Data Augmentation for Patient Outcomes Prediction ( http://arxiv.org/abs/2211.06778v1 )

ライセンス: Link先を確認
Qiuhao Lu, Dejing Dou, Thien Huu Nguyen(参考訳) ディープラーニングモデルは、さまざまな医療アプリケーションにおいて優れたパフォーマンスを示している。 しかしながら、これらの深層モデルの主な制限は、通常、この分野のプライベートで繊細な性質のため、高品質なトレーニングデータがないことである。 そこで本研究では,患者の電子健康記録(ehrs)から,患者の予後予測のための追加訓練データとして使用できる人工的な臨床記録を生成するためのテキストデータ拡張手法を提案する。 基本的に、生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。 より具体的には、教師の指導のもと、まず、原データ上で教師モデルを事前訓練し、GPT拡張データ上で生徒モデルを訓練する教師学生フレームワークを提案する。 本法を最も一般的な患者、すなわち30日間の寛解率について評価した。 実験の結果,深層モデルでは拡張データにより予測性能が向上し,提案手法の有効性が示された。

Deep learning models have demonstrated superior performance in various healthcare applications. However, the major limitation of these deep models is usually the lack of high-quality training data due to the private and sensitive nature of this field. In this study, we propose a novel textual data augmentation method to generate artificial clinical notes in patients' Electronic Health Records (EHRs) that can be used as additional training data for patient outcomes prediction. Essentially, we fine-tune the generative language model GPT-2 to synthesize labeled text with the original training data. More specifically, We propose a teacher-student framework where we first pre-train a teacher model on the original data, and then train a student model on the GPT-augmented data under the guidance of the teacher. We evaluate our method on the most common patient outcome, i.e., the 30-day readmission rate. The experimental results show that deep models can improve their predictive performance with the augmented data, indicating the effectiveness of the proposed architecture.
翻訳日:2022-11-15 15:51:02 公開日:2022-11-13
# FPT:プログレッシブトレーニングによるプロンプトチューニング効率の向上

FPT: Improving Prompt Tuning Efficiency via Progressive Training ( http://arxiv.org/abs/2211.06840v1 )

ライセンス: Link先を確認
Yufei Huang, Yujia Qin, Huadong Wang, Yichun Yin, Maosong Sun, Zhiyuan Liu and Qun Liu(参考訳) 近年,事前学習言語モデル(PLM)のパラメータ効率向上手法として,プロンプトチューニング(PT)が注目されている。 調整可能なパラメータの数を大幅に減らし、満足な性能を達成するにもかかわらず、PTは、その緩やかな収束のためにトレーニング非効率である。 PTのトレーニング効率を向上させるために,まず,PLMの深度や幅を圧縮して定義した「部分的PLM」の迅速な転送性について,新しい観察を行った。 パラメータ空間の異なる部分的 PLM によって学習されたソフトプロンプトは,パラメータ空間において類似しており,これらのソフトプロンプトは部分的 PLM 間で伝達可能であることを示唆している。 これらの観測から着想を得たFast Prompt Tuning (FPT) は,小型の部分的なPLMを用いてPTを行い,その深さと幅をフルモデルサイズまで徐々に拡大する。 各拡張後に、拡張部分PLMの初期化として学習したソフトプロンプトをリサイクルし、PTを進める。 5 つのタスクで FPT が実現可能であることを実証し,FPT が 30% 以上のトレーニング計算を節約できることを示す。

Recently, prompt tuning (PT) has gained increasing attention as a parameter-efficient way of tuning pre-trained language models (PLMs). Despite extensively reducing the number of tunable parameters and achieving satisfying performance, PT is training-inefficient due to its slow convergence. To improve PT's training efficiency, we first make some novel observations about the prompt transferability of "partial PLMs", which are defined by compressing a PLM in depth or width. We observe that the soft prompts learned by different partial PLMs of various sizes are similar in the parameter space, implying that these soft prompts could potentially be transferred among partial PLMs. Inspired by these observations, we propose Fast Prompt Tuning (FPT), which starts by conducting PT using a small-scale partial PLM, and then progressively expands its depth and width until the full-model size. After each expansion, we recycle the previously learned soft prompts as initialization for the enlarged partial PLM and then proceed PT. We demonstrate the feasibility of FPT on 5 tasks and show that FPT could save over 30% training computations while achieving comparable performance.
翻訳日:2022-11-15 15:50:47 公開日:2022-11-13
# internimage: 変形可能な畳み込みによる大規模ビジョン基盤モデルの検討

InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions ( http://arxiv.org/abs/2211.05778v2 )

ライセンス: Link先を確認
Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, Yu Qiao(参考訳) 近年の大規模な視覚変換器(ViT)の進歩と比較して、畳み込みニューラルネットワーク(CNN)に基づく大規模モデルはまだ初期段階にある。 この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。 大規模高密度カーネルに焦点を当てた最近のcnnとは異なり、internimage はコア演算子として変形可能な畳み込みを取り、検出やセグメンテーションといった下流タスクに必要な大きな効果的な受容場を持つだけでなく、入力やタスク情報によって条件付けられた適応的な空間集約を持つ。 その結果,従来のcnnの厳密なインダクティブバイアスを低減し,vitsのような大規模データから大規模パラメータを持つ強固で堅牢なパターンを学習することができる。 このモデルの有効性は、ImageNet、COCO、ADE20Kといった挑戦的なベンチマークで証明されている。 なお、InternImage-HはCOCOテストデブで65.4 mAP、ADE20Kで62.9 mIoUを達成し、現在のCNNやViTよりも優れていた。 コードはhttps://github.com/OpenGVLab/InternImageで公開される。

Compared to the great progress of large-scale vision transformers (ViTs) in recent years, large-scale models based on convolutional neural networks (CNNs) are still in an early state. This work presents a new large-scale CNN-based foundation model, termed InternImage, which can obtain the gain from increasing parameters and training data like ViTs. Different from the recent CNNs that focus on large dense kernels, InternImage takes deformable convolution as the core operator, so that our model not only has the large effective receptive field required for downstream tasks such as detection and segmentation, but also has the adaptive spatial aggregation conditioned by input and task information. As a result, the proposed InternImage reduces the strict inductive bias of traditional CNNs and makes it possible to learn stronger and more robust patterns with large-scale parameters from massive data like ViTs. The effectiveness of our model is proven on challenging benchmarks including ImageNet, COCO, and ADE20K. It is worth mentioning that InternImage-H achieved a new record 65.4 mAP on COCO test-dev and 62.9 mIoU on ADE20K, outperforming current leading CNNs and ViTs. The code will be released at https://github.com/OpenGVLab/InternImage.
翻訳日:2022-11-15 15:44:13 公開日:2022-11-13
# 振動活性化機能を有するCNNの評価

Evaluating CNN with Oscillatory Activation Function ( http://arxiv.org/abs/2211.06878v1 )

ライセンス: Link先を確認
Jeevanshi Sharma(参考訳) 画像から高次元の複雑な特徴を学習するCNNの能力の背後にあるのは、アクティベーション関数によって導入された非線形性である。 アクティベーション関数の選択がモデリングの重要なステップであるため、ニューラルネットワークのトレーニングプロセスを改善するためにいくつかの高度なアクティベーション関数が発見されている。 近年,ヒト大脳皮質に触発された分類問題を解くために発振活性化関数が提案されている。 本稿では、MNISTおよびCIFAR10データセット上でのCNNアーキテクチャALexNetの1つの性能について、発振活性化関数(GCU)と、ReLu、PReLu、Mishなどの一般的なアクティベーション関数を用いて検討する。

The reason behind CNNs capability to learn high-dimensional complex features from the images is the non-linearity introduced by the activation function. Several advanced activation functions have been discovered to improve the training process of neural networks, as choosing an activation function is a crucial step in the modeling. Recent research has proposed using an oscillating activation function to solve classification problems inspired by the human brain cortex. This paper explores the performance of one of the CNN architecture ALexNet on MNIST and CIFAR10 datasets using oscillatory activation function (GCU) and some other commonly used activation functions like ReLu, PReLu, and Mish.
翻訳日:2022-11-15 15:42:33 公開日:2022-11-13