このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230327となっている論文です。

PDF登録状況(公開日: 20230327)

TitleAuthorsAbstract論文公表日・翻訳日
# CP-CNN:コア周辺原理誘導畳み込みニューラルネットワーク

CP-CNN: Core-Periphery Principle Guided Convolutional Neural Network ( http://arxiv.org/abs/2304.10515v1 )

ライセンス: Link先を確認
Lin Zhao, Haixing Dai, Zihao Wu, Dajiang Zhu, Tianming Liu(参考訳) 畳み込みニューラルネットワーク(cnns)の進化は、そのアーキテクチャ、すなわちネットワーク配線パターンの設計に大きく関係している。 neural architecture search (nas) は最適なネットワークアーキテクチャの探索を自動化することでこれを前進させるが、ネットワークインスタンスは異なるタスクでうまく一般化できない可能性がある。 これを解決するために、タスク間で一般化可能なネットワーク設計原則を探求することが、より実用的なソリューションである。 本研究では,cnnの設計を導くために,ヒト脳ネットワークのコア・パーピヒー性に基づく新しい脳インスパイアデザイン原理について検討する。 我々の研究は、ニューラルネットワークがネットワークアーキテクチャを最適化する共通の原則を持つかもしれないという最近の研究からインスピレーションを得ている。 我々は、ネットワーク配線パターンの設計と畳み込み操作のスパーシフィケーションにコア周辺原理を実装した。 CNN(CP-CNN)のコア周辺原理を3つの異なるデータセットで評価する。 実験はcnnおよびvitに基づく手法と比較して有効性と優越性を示す。 私たちの研究は、人間の脳からの洞察をニューラルネットワークの設計に取り入れることで、脳にインスパイアされたAIの分野の成長に貢献しています。

The evolution of convolutional neural networks (CNNs) can be largely attributed to the design of its architecture, i.e., the network wiring pattern. Neural architecture search (NAS) advances this by automating the search for the optimal network architecture, but the resulting network instance may not generalize well in different tasks. To overcome this, exploring network design principles that are generalizable across tasks is a more practical solution. In this study, We explore a novel brain-inspired design principle based on the core-periphery property of the human brain network to guide the design of CNNs. Our work draws inspiration from recent studies suggesting that artificial and biological neural networks may have common principles in optimizing network architecture. We implement the core-periphery principle in the design of network wiring patterns and the sparsification of the convolution operation. The resulting core-periphery principle guided CNNs (CP-CNNs) are evaluated on three different datasets. The experiments demonstrate the effectiveness and superiority compared to CNNs and ViT-based methods. Overall, our work contributes to the growing field of brain-inspired AI by incorporating insights from the human brain into the design of neural networks.
翻訳日:2023-04-23 03:59:31 公開日:2023-03-27
# eegmatch: 半教師付き脳波に基づくクロスサブジェクト感情認識のための不完全ラベルによる学習

EEGMatch: Learning with Incomplete Labels for Semi-Supervised EEG-based Cross-Subject Emotion Recognition ( http://arxiv.org/abs/2304.06496v1 )

ライセンス: Link先を確認
Rushuang Zhou, Weishan Ye, Zhiguo Zhang, Yanyang Luo, Li Zhang, Linling Li, Gan Huang, Yining Dong, Yuan-Ting Zhang, Zhen Liang(参考訳) 脳電図(EEG)は感情認識のための客観的ツールであり、有望なパフォーマンスを示す。 しかし、この分野ではラベル不足の問題が主要な課題であり、脳波に基づく感情認識の幅広い適用を制限する。 本稿では,ラベル付きEEGデータとラベルなしEEGデータの両方を活用するための,新しい半教師付き学習フレームワーク(EEGMatch)を提案する。 まず、モデル学習のためのより有効なサンプルを生成するために、EEG-Mixupに基づくデータ拡張法を開発した。 次に,プロトタイプ・ペアワイズ学習が脳波データと各感情クラスの先代的表現との間の大域的関係を計測し,インスタンス・ワイズ・ペアワイズ学習が脳波データ間の局所的本質的関係を捉える半教師付き二段階学習法を提案する。 第3に、分散ミスマッチが緩和された複数のドメイン(ラベル付きソースドメイン、ラベルなしソースドメイン、ターゲットドメイン)にデータ表現を整合させる半教師付きマルチドメイン適応を導入する。 2つのベンチマークデータベース (SEED と SEED-IV) 上で, クロスオブジェクト・ワン・オブ・サブジェクト・アウト・クロスバリデーション評価プロトコルを用いて実験を行った。 その結果, 脳波信号を用いた感情認識におけるラベル不足問題に対するEEGMatchの有効性を実証し, 不完全なラベル条件下での最先端手法よりも優れた性能(SEED-IVでは6.89%, SEED-IVでは1.44%)が得られた。 ソースコードはhttps://github.com/KAZABANA/EEGMatchで入手できる。

Electroencephalography (EEG) is an objective tool for emotion recognition and shows promising performance. However, the label scarcity problem is a main challenge in this field, which limits the wide application of EEG-based emotion recognition. In this paper, we propose a novel semi-supervised learning framework (EEGMatch) to leverage both labeled and unlabeled EEG data. First, an EEG-Mixup based data augmentation method is developed to generate more valid samples for model learning. Second, a semi-supervised two-step pairwise learning method is proposed to bridge prototype-wise and instance-wise pairwise learning, where the prototype-wise pairwise learning measures the global relationship between EEG data and the prototypical representation of each emotion class and the instance-wise pairwise learning captures the local intrinsic relationship among EEG data. Third, a semi-supervised multi-domain adaptation is introduced to align the data representation among multiple domains (labeled source domain, unlabeled source domain, and target domain), where the distribution mismatch is alleviated. Extensive experiments are conducted on two benchmark databases (SEED and SEED-IV) under a cross-subject leave-one-subject-out cross-validation evaluation protocol. The results show the proposed EEGmatch performs better than the state-of-the-art methods under different incomplete label conditions (with 6.89% improvement on SEED and 1.44% improvement on SEED-IV), which demonstrates the effectiveness of the proposed EEGMatch in dealing with the label scarcity problem in emotion recognition using EEG signals. The source code is available at https://github.com/KAZABANA/EEGMatch.
翻訳日:2023-04-16 21:49:31 公開日:2023-03-27
# core-sleep:不完全モダリティに対する時系列ロバストなマルチモーダル融合フレームワーク

CoRe-Sleep: A Multimodal Fusion Framework for Time Series Robust to Imperfect Modalities ( http://arxiv.org/abs/2304.06485v1 )

ライセンス: Link先を確認
Konstantinos Kontras, Christos Chatzichristos, Huy Phan, Johan Suykens, Maarten De Vos(参考訳) 睡眠異常は深刻な健康状態を引き起こすことがある。 患者の生理的記録から睡眠ステージのシーケンスをラベル付けする自動睡眠ステージングは、診断プロセスを単純化する可能性がある。 自動睡眠ステージングに関するこれまでの研究は、主に脳波信号に依存して大きな成果を上げてきた。 しかし、しばしば複数の情報ソースが脳波を超えて利用可能である。 これは、脳波記録が騒がしい、あるいは完全に欠落している場合に特に有益である。 本稿では,不完全なデータに対する信号解析のロバスト性向上を特に重視した,協調表現型マルチモーダル融合ネットワークであるcore-sleepを提案する。 このような堅牢性を達成する上で,マルチモーダル情報を適切に扱うことが重要であることを示す。 CoRe-Sleepはノイズやモダリティの欠如を許容し、不完全なデータのトレーニングを可能にする。 さらに、睡眠ステージラベルを含む最大規模の公開研究であるSHHS-1の単一モデルを用いて、マルチモーダルデータとユニモーダルデータの両方をテストする際に、最先端のパフォーマンスを示す。 その結果,マルチモーダルデータにモデルをトレーニングすることは,ユニモーダルデータでテストした場合のパフォーマンスに正の影響を与えることが示唆された。 本研究の目的は,自動解析ツールと臨床応用とのギャップを埋めることである。

Sleep abnormalities can have severe health consequences. Automated sleep staging, i.e. labelling the sequence of sleep stages from the patient's physiological recordings, could simplify the diagnostic process. Previous work on automated sleep staging has achieved great results, mainly relying on the EEG signal. However, often multiple sources of information are available beyond EEG. This can be particularly beneficial when the EEG recordings are noisy or even missing completely. In this paper, we propose CoRe-Sleep, a Coordinated Representation multimodal fusion network that is particularly focused on improving the robustness of signal analysis on imperfect data. We demonstrate how appropriately handling multimodal information can be the key to achieving such robustness. CoRe-Sleep tolerates noisy or missing modalities segments, allowing training on incomplete data. Additionally, it shows state-of-the-art performance when testing on both multimodal and unimodal data using a single model on SHHS-1, the largest publicly available study that includes sleep stage labels. The results indicate that training the model on multimodal data does positively influence performance when tested on unimodal data. This work aims at bridging the gap between automated analysis tools and their clinical utility.
翻訳日:2023-04-16 21:46:44 公開日:2023-03-27
# 説明可能なAIの収益化: ダブルエッジの剣

Monetizing Explainable AI: A Double-edged Sword ( http://arxiv.org/abs/2304.06483v1 )

ライセンス: Link先を確認
Travis Greene, Sofie Goethals, David Martens, Galit Shmueli(参考訳) 組織が使用するアルゴリズムは、重要な資源や基本財の配分を決定するにつれて、社会における権力をますます弱めている。 このような意思決定力の公平性、公正性、透明性を高めるために、説明可能な人工知能(XAI)はアルゴリズムによる意思決定の論理に関する洞察を提供することを目指している。 このトピックに関する多くの研究にもかかわらず、XAIの消費者向け応用は依然として稀である。 主な理由は、この新技術のプラットフォームベースの収益化戦略がまだ見つからないからかもしれない。 本稿では,説明プラットフォームを通じてプログラム広告とアルゴリズムによる説明を融合させる新たな収益化戦略について紹介する。 我々は、この説明プラットフォームは、人間とアルゴリズムの相互作用の新しい、社会的にインパクトがあり、利益の出る形態を表しており、金融、雇用、教育のリスクの高い領域で収益を生み出す可能性を見積もっている。 次に、XAIの収益化による望ましくない、意図しない効果を考慮し、現実の信用貸付データを用いてこれらのシナリオをシミュレートする。 収益化は、さまざまな消費者アプリケーションにおけるxaiの業界採用のインセンティブとなるかもしれないが、xaiを開発するための元々の法的、倫理的な正当性とも相反する可能性がある。 我々は、XAIの収益化の可能性に責任を持ち、民主的に活用して、アルゴリズムの説明により多くの消費者アクセスを提供する方法があるかどうかを論じる。

Algorithms used by organizations increasingly wield power in society as they decide the allocation of key resources and basic goods. In order to promote fairer, juster, and more transparent uses of such decision-making power, explainable artificial intelligence (XAI) aims to provide insights into the logic of algorithmic decision-making. Despite much research on the topic, consumer-facing applications of XAI remain rare. A central reason may be that a viable platform-based monetization strategy for this new technology has yet to be found. We introduce and describe a novel monetization strategy for fusing algorithmic explanations with programmatic advertising via an explanation platform. We claim the explanation platform represents a new, socially-impactful, and profitable form of human-algorithm interaction and estimate its potential for revenue generation in the high-risk domains of finance, hiring, and education. We then consider possible undesirable and unintended effects of monetizing XAI and simulate these scenarios using real-world credit lending data. Ultimately, we argue that monetizing XAI may be a double-edged sword: while monetization may incentivize industry adoption of XAI in a variety of consumer applications, it may also conflict with the original legal and ethical justifications for developing XAI. We conclude by discussing whether there may be ways to responsibly and democratically harness the potential of monetized XAI to provide greater consumer access to algorithmic explanations.
翻訳日:2023-04-16 21:46:09 公開日:2023-03-27
# 医療のデジタル双生児から仮想人間双生児へ:デジタルヘルス研究のためのムーンショットプロジェクト

From the digital twins in healthcare to the Virtual Human Twin: a moon-shot project for digital health research ( http://arxiv.org/abs/2304.06678v1 )

ライセンス: Link先を確認
Marco Viceconti, Maarten De Vos, Sabato Mellone, and Liesbet Geris(参考訳) バーチャル・ヒューマン・ツイン(Virtual Human Twin)と呼ばれる、既知の人間の病態を体系的に表現するというアイデアは、何十年も前から存在してきた。 これまで、ほとんどの研究グループは、特定の量の臨床関連を予測できる高度に専門化された患者固有のモデルの開発に注力してきた。 低い果物の収穫を促進する一方で、この狭い焦点は長期的には、医療におけるデジタル双子の採用を遅らせる重要な課題を残している。 本論文は,仮想人間双対(VHT)の開発のための概念基盤について述べる。 vhtは、分散および協調的なインフラストラクチャ、それを可能にする技術とリソース(データ、モデル)のコレクション、および使用を規制する標準運用手順(sop)のコレクションとして意図されている。 vhtインフラストラクチャは、医療ソリューションにおける新しいデジタル双生児の開発と検証において、学術研究者、公共団体、バイオメディカル産業が、必要に応じて複数のリソースを統合することができるように支援することを目的としている。 VHTインフラストラクチャは、医療専門家や患者が臨床決定支援やパーソナライズされた健康予測のために使用することもできる。 欧州委員会がバーチャル・ヒューマン・ツイン開発のためのロードマップ策定のためのEDITH調整と支援活動を開始したとき、このポジション・ペーパーは合意プロセスの出発点として意図され、すべての利害関係者に武器を求めるものである。

The idea of a systematic digital representation of the entire known human pathophysiology, which we could call the Virtual Human Twin, has been around for decades. To date, most research groups focused instead on developing highly specialised, highly focused patient-specific models able to predict specific quantities of clinical relevance. While it has facilitated harvesting the low-hanging fruits, this narrow focus is, in the long run, leaving some significant challenges that slow the adoption of digital twins in healthcare. This position paper lays the conceptual foundations for developing the Virtual Human Twin (VHT). The VHT is intended as a distributed and collaborative infrastructure, a collection of technologies and resources (data, models) that enable it, and a collection of Standard Operating Procedures (SOP) that regulate its use. The VHT infrastructure aims to facilitate academic researchers, public organisations, and the biomedical industry in developing and validating new digital twins in healthcare solutions with the possibility of integrating multiple resources if required by the specific context of use. The VHT infrastructure can also be used by healthcare professionals and patients for clinical decision support or personalised health forecasting. As the European Commission launched the EDITH coordination and support action to develop a roadmap for the development of the Virtual Human Twin, this position paper is intended as a starting point for the consensus process and a call to arms for all stakeholders.
翻訳日:2023-04-16 21:40:28 公開日:2023-03-27
# GeoAIの哲学的基礎:GeoAIと空間データ科学における持続可能性・多様性・バイアスの探求

Philosophical Foundations of GeoAI: Exploring Sustainability, Diversity, and Bias in GeoAI and Spatial Data Science ( http://arxiv.org/abs/2304.06508v1 )

ライセンス: Link先を確認
Krzysztof Janowicz(参考訳) 本章では、GeoAIと空間データ科学の哲学的基盤を形成する基本的な前提と原則について述べる。 この章は、相互作用、近所、自己相関を含む空間データ(分析)の確立された特性をレビューする代わりに、持続可能性、トレーニングデータのバイアス、スキーマ知識の多様性、ジオアイシステムの(潜在的に欠如した)中立性といったテーマを倫理的な観点から強調する。 私たちの専門職の倫理的意味を反映することで、潜在的に破壊的な研究をより責任あるものに実行し、GeoAIベースのシステムの設計、トレーニング、デプロイにおける落とし穴を特定し、また、学術分野における人工知能と機械学習研究の潜在的な危険性を共有化しながら、独自の(地質)空間的視点を他の人と共有するのに役立つでしょう。

This chapter presents some of the fundamental assumptions and principles that could form the philosophical foundation of GeoAI and spatial data science. Instead of reviewing the well-established characteristics of spatial data (analysis), including interaction, neighborhoods, and autocorrelation, the chapter highlights themes such as sustainability, bias in training data, diversity in schema knowledge, and the (potential lack of) neutrality of GeoAI systems from a unifying ethical perspective. Reflecting on our profession's ethical implications will assist us in conducting potentially disruptive research more responsibly, identifying pitfalls in designing, training, and deploying GeoAI-based systems, and developing a shared understanding of the benefits but also potential dangers of artificial intelligence and machine learning research across academic fields, all while sharing our unique (geo)spatial perspective with others.
翻訳日:2023-04-16 21:38:09 公開日:2023-03-27
# 破壊ロバスト性一貫性に基づく推論段階のバックドア検出

Detecting Backdoors During the Inference Stage Based on Corruption Robustness Consistency ( http://arxiv.org/abs/2303.18191v1 )

ライセンス: Link先を確認
Xiaogeng Liu, Minghui Li, Haoyu Wang, Shengshan Hu, Dengpan Ye, Hai Jin, Libing Wu, Chaowei Xiao(参考訳) ディープニューラルネットワークはバックドア攻撃に弱いことが証明されている。 推論ステージ中のトリガサンプル、すなわちテスト時のトリガサンプル検出を検出することで、バックドアのトリガを防止することができる。 しかし、既存の検出方法は、ディフェンダーが被害者モデルへの高いアクセシビリティ、余分なクリーンデータ、バックドアトリガーの出現に関する知識を要求され、実用性が制限されることが多い。 本稿では,被害者モデルのハードラベル出力のみを必要とする新しい試験時間トリガーサンプル検出手法であるTeCo(Test-time corruption robustness consistency Evaluation)を提案する。 私たちの旅は、バックドアに感染したモデルが、クリーンな画像に対して異なる画像の破損に対して同様のパフォーマンスを持つのを興味深い観察から始まります。 この現象に基づき,異なる汚職をまたいだ予測結果のずれを計算し,テスト時のロバスト性一貫性を評価するためにtecoを設計した。 さまざまなバックドア攻撃、データセット、モデルアーキテクチャにおいてTeCoは、トリガータイプやクリーンデータのアクセシビリティに関する特定の情報を必要とする最先端のディフェンスと比較して、より高いAUROCを10%と5倍の安定性で楽しめます。

Deep neural networks are proven to be vulnerable to backdoor attacks. Detecting the trigger samples during the inference stage, i.e., the test-time trigger sample detection, can prevent the backdoor from being triggered. However, existing detection methods often require the defenders to have high accessibility to victim models, extra clean data, or knowledge about the appearance of backdoor triggers, limiting their practicality. In this paper, we propose the test-time corruption robustness consistency evaluation (TeCo), a novel test-time trigger sample detection method that only needs the hard-label outputs of the victim models without any extra information. Our journey begins with the intriguing observation that the backdoor-infected models have similar performance across different image corruptions for the clean images, but perform discrepantly for the trigger samples. Based on this phenomenon, we design TeCo to evaluate test-time robustness consistency by calculating the deviation of severity that leads to predictions' transition across different corruptions. Extensive experiments demonstrate that compared with state-of-the-art defenses, which even require either certain information about the trigger types or accessibility of clean data, TeCo outperforms them on different backdoor attacks, datasets, and model architectures, enjoying a higher AUROC by 10% and 5 times of stability.
翻訳日:2023-04-09 05:55:22 公開日:2023-03-27
# ユーザインタラクションの感情状態に対する視覚的反応

Visual Response to Emotional State of User Interaction ( http://arxiv.org/abs/2303.17608v1 )

ライセンス: Link先を確認
Nina Marhamati, Sena Clara Creston(参考訳) 本研究では,言語やトーンの解釈を通じて環境の雰囲気を反映したインタラクティブなアートインスタレーション"Mood spRing"を提案する。 Mood spRingは、シーズンの没入型3Dアニメーションを制御するAIプログラムで構成されている。 aiプログラムがユーザーの言語とトーンを心地よいと認識すると、アニメーションは季節の理想化によって進行する。 そうでなければ、季節の悪天候や自然災害に陥る。 ユーザインタラクションの言語やトーンを解釈するために、ユーザ音声やテキスト入力にハイブリッドな感情検出手法を適用する。 トーンと言語から分離して検出された感情状態は、多様な集団間でのモデル格差を最小化することを目的とした新しいアプローチによって融合される。

This work proposes an interactive art installation "Mood spRing" designed to reflect the mood of the environment through interpretation of language and tone. Mood spRing consists of an AI program that controls an immersive 3D animation of the seasons. If the AI program perceives the language and tone of the users as pleasant, the animation progresses through idealized renditions of seasons. Otherwise, it slips into unpleasant weather and natural disasters of the season. To interpret the language and tone of the user interaction, hybrid state-of-the-art emotion detection methods are applied to the user audio and text inputs. The emotional states detected separately from tone and language are fused by a novel approach that aims at minimizing the possible model disparity across diverse demographic groups.
翻訳日:2023-04-09 05:53:14 公開日:2023-03-27
# 大規模言語モデルの創造性について

On the Creativity of Large Language Models ( http://arxiv.org/abs/2304.00008v1 )

ライセンス: Link先を確認
Giorgio Franceschelli, Mirco Musolesi(参考訳) 大規模言語モデル(LLM)は、人工知能のいくつかの領域に革命をもたらしている。 最も顕著な応用の1つは、例えば詩やストーリーテリングのような創造的な執筆である: 生成されたアウトプットは、しばしば驚くべき品質である。 しかし、自然な疑問が生まれます。llmは本当に創造的か? この記事では、まず創造性理論のレンズの下でllmの開発を分析し、鍵となるオープン質問と課題を調査します。 次に、機械の創造性における「簡単」かつ「ハード」な問題の集合を特定し、LLMに関してそれらを議論する。 最後に,これらの技術が社会に与える影響を,特に創造産業に焦点をあてて分析する。

Large Language Models (LLMs) are revolutionizing several areas of Artificial Intelligence. One of the most remarkable applications is creative writing, e.g., poetry or storytelling: the generated outputs are often of astonishing quality. However, a natural question arise: can LLMs really be considered creative? In this article we firstly analyze the development of LLMs under the lens of creativity theories, investigating the key open questions and challenges. Then, we identify a set of "easy" and "hard" problems in machine creativity, discussing them in relation to LLMs. Finally, we analyze the societal impact of these technologies with a particular focus on the creative industries.
翻訳日:2023-04-09 05:43:40 公開日:2023-03-27
# dexdeform: 人間のデモと微分可能な物理によるデキスタラスな変形可能なオブジェクト操作

DexDeform: Dexterous Deformable Object Manipulation with Human Demonstrations and Differentiable Physics ( http://arxiv.org/abs/2304.03223v1 )

ライセンス: Link先を確認
Sizhe Li, Zhiao Huang, Tao Chen, Tao Du, Hao Su, Joshua B. Tenenbaum, Chuang Gan(参考訳) 本研究では,多指ハンドを用いて変形可能な物体の巧妙な操作を学習することを目的とする。 厳密な物体操作のための強化学習アプローチは、変形可能な物体との物理相互作用の複雑さのために、この設定では困難である。 同時に、変形可能な操作のための微分物理学による以前の軌道最適化アプローチは、手動物体相互作用による接触モードの爆発による局所的な最適性に悩まされる。 これらの課題に対処するために,我々は,人間の実演から巧妙な操作スキルを抽象化し,その学習スキルを微分可能な物理で洗練する原則付きフレームワークdexdeformを提案する。 具体的には、まず遠隔操作を用いて、人間のデモの小さなセットを収集する。 そして、イマジネーションのアクション抽象化を計画するためにデモを使ってスキルモデルをトレーニングします。 目標空間を探索するため,実証において既存の変形可能な形状にさらに拡張を加え,スキルモデルによって計画される動作を改良するために勾配最適化器を使用する。 最後に、精巧な軌跡をスキルモデルを微調整するための新しいデモンストレーションとして採用する。 提案手法の有効性を評価するために,6つの難解な変形可能なオブジェクト操作タスクを導入する。 ベースラインと比較すると、dexdeformは人間の最初のデモンストレーションでは見つからなかった新しい目標を探索し、一般化することができる。

In this work, we aim to learn dexterous manipulation of deformable objects using multi-fingered hands. Reinforcement learning approaches for dexterous rigid object manipulation would struggle in this setting due to the complexity of physics interaction with deformable objects. At the same time, previous trajectory optimization approaches with differentiable physics for deformable manipulation would suffer from local optima caused by the explosion of contact modes from hand-object interactions. To address these challenges, we propose DexDeform, a principled framework that abstracts dexterous manipulation skills from human demonstration and refines the learned skills with differentiable physics. Concretely, we first collect a small set of human demonstrations using teleoperation. And we then train a skill model using demonstrations for planning over action abstractions in imagination. To explore the goal space, we further apply augmentations to the existing deformable shapes in demonstrations and use a gradient optimizer to refine the actions planned by the skill model. Finally, we adopt the refined trajectories as new demonstrations for finetuning the skill model. To evaluate the effectiveness of our approach, we introduce a suite of six challenging dexterous deformable object manipulation tasks. Compared with baselines, DexDeform is able to better explore and generalize across novel goals unseen in the initial human demonstrations.
翻訳日:2023-04-09 05:26:56 公開日:2023-03-27
# 平面上の揺動:非安定写真からの教師なし深度推定

Shakes on a Plane: Unsupervised Depth Estimation from Unstabilized Photography ( http://arxiv.org/abs/2212.12324v2 )

ライセンス: Link先を確認
Ilya Chugunov, Yuxuan Zhang, Felix Heide(参考訳) 現代のモバイルバースト撮影パイプラインは、拡張されたイメージを回収するために短いフレーム列をキャプチャしてマージするが、多くの場合、キャプチャするシーンの3D特性を無視し、画像間のピクセルの動きを2Dアグリゲーション問題として扱う。 2秒で取得した24メガピクセルのRAWフレーム「長バースト」では,自然手震動のみからの視差情報で高品質のシーン深度を回復できることがわかった。 この目的のために, ニューラルRGB-D表現をロングバーストデータに適合させるテスト時間最適化手法を考案し, シーン深度とカメラモーションを同時に推定する。 我々の平面+深度モデルはエンドツーエンドに訓練され、トレーニング中にネットワークがアクセスするマルチレゾリューションボリュームを制御して粗大な精細化を行う。 本手法を実験的に検証し,追加のハードウェアや別個のデータ前処理やポーズ推定ステップを伴わずに,幾何学的精度の高い奥行き復元を行う。

Modern mobile burst photography pipelines capture and merge a short sequence of frames to recover an enhanced image, but often disregard the 3D nature of the scene they capture, treating pixel motion between images as a 2D aggregation problem. We show that in a ''long-burst'', forty-two 12-megapixel RAW frames captured in a two-second sequence, there is enough parallax information from natural hand tremor alone to recover high-quality scene depth. To this end, we devise a test-time optimization approach that fits a neural RGB-D representation to long-burst data and simultaneously estimates scene depth and camera motion. Our plane plus depth model is trained end-to-end, and performs coarse-to-fine refinement by controlling which multi-resolution volume features the network has access to at what time during training. We validate the method experimentally, and demonstrate geometrically accurate depth reconstructions with no additional hardware or separate data pre-processing and pose-estimation steps.
翻訳日:2023-03-30 17:56:46 公開日:2023-03-27
# amorprot: タンパク質指紋に基づくアミノ酸分子指紋の再構成

AmorProt: Amino Acid Molecular Fingerprints Repurposing based Protein Fingerprint ( http://arxiv.org/abs/2303.16209v1 )

ライセンス: Link先を確認
Myeonghun Lee and Kyoungmin Min(参考訳) タンパク質治療は、ほとんどすべての医学分野で重要な役割を果たすため、人工知能を用いたタンパク質の研究が数多く行われている。 人工知能は、高価な実験を必要とせずに、データ駆動予測を可能にした。 それにもかかわらず、様々な分子指紋アルゴリズムとは異なり、タンパク質指紋アルゴリズムはほとんど研究されていない。 本研究では,20個のアミノ酸に対応する分子指紋を効果的に活用するタンパク質配列表現法である,AmorProtを組み換えたアミノ酸分子指紋を提案する。 その後,(1)アミロイド分類と(2)等電点回帰を用いて,木に基づく機械学習と人工ニューラルネットワークモデルの性能を比較した。 最後に, 開発したプラットフォームの適用性および利点について, ケーススタディおよび以下の実験により実証した。(3) データセット依存度と特徴に基づく手法の比較, (4) 特徴重要度分析, (5) タンパク質空間解析。 その結果,amorprotフィンガープリントのモデル性能が大幅に向上し,データセットの独立性が検証された。 その結果、現在のタンパク質表現法は、その基本特性の予測やリガンドとの相互作用など、タンパク質に関連する様々な分野に適用できることがわかった。

As protein therapeutics play an important role in almost all medical fields, numerous studies have been conducted on proteins using artificial intelligence. Artificial intelligence has enabled data driven predictions without the need for expensive experiments. Nevertheless, unlike the various molecular fingerprint algorithms that have been developed, protein fingerprint algorithms have rarely been studied. In this study, we proposed the amino acid molecular fingerprints repurposing based protein (AmorProt) fingerprint, a protein sequence representation method that effectively uses the molecular fingerprints corresponding to 20 amino acids. Subsequently, the performances of the tree based machine learning and artificial neural network models were compared using (1) amyloid classification and (2) isoelectric point regression. Finally, the applicability and advantages of the developed platform were demonstrated through a case study and the following experiments: (3) comparison of dataset dependence with feature based methods; (4) feature importance analysis; and (5) protein space analysis. Consequently, the significantly improved model performance and data set independent versatility of the AmorProt fingerprint were verified. The results revealed that the current protein representation method can be applied to various fields related to proteins, such as predicting their fundamental properties or interaction with ligands.
翻訳日:2023-03-30 17:22:33 公開日:2023-03-27
# 分布分解による一様学習者のリフティング

Lifting uniform learners via distributional decomposition ( http://arxiv.org/abs/2303.16208v1 )

ライセンス: Link先を確認
Guy Blanc, Jane Lange, Ali Malik, Li-Yang Tan(参考訳) 均一分布の下で動作する任意のPAC学習アルゴリズムが、ブラックボックス方式で任意の未知分布である$\mathcal{D}$の下で機能するアルゴリズムに変換可能であることを示す。 変換の効率性は、$\mathcal{d}$の固有の複雑さとともにスケールし、$\mathrm{poly}(n, (md)^d)$の分布に対して$\{\pm 1\}^n$のpmfが深さ$d$決定木によって計算される。 単調分布の場合、変換は$\mathcal{d}$のサンプルのみを使用し、一般にはsubcube条件付きサンプルを使用する。 重要な技術的要素は、前述の$\mathcal{D}$へのアクセスが与えられたとき、解離部分キューブ上の均一分布の混合として$\mathcal{D}$:$\mathcal{D}$の近似を最適に決定木分解するアルゴリズムである。 この分解を手元に,各サブキューブ上で一様分布学習器を実行し,決定木を用いて仮説を結合する。 このアルゴリズム分解補題は、新しいアルゴリズムによって決定木分布を学習し、その実行時によって、以前の技術 -- 分散学習に対する独立した関心の結果 -- を指数関数的に改善する。

We show how any PAC learning algorithm that works under the uniform distribution can be transformed, in a blackbox fashion, into one that works under an arbitrary and unknown distribution $\mathcal{D}$. The efficiency of our transformation scales with the inherent complexity of $\mathcal{D}$, running in $\mathrm{poly}(n, (md)^d)$ time for distributions over $\{\pm 1\}^n$ whose pmfs are computed by depth-$d$ decision trees, where $m$ is the sample complexity of the original algorithm. For monotone distributions our transformation uses only samples from $\mathcal{D}$, and for general ones it uses subcube conditioning samples. A key technical ingredient is an algorithm which, given the aforementioned access to $\mathcal{D}$, produces an optimal decision tree decomposition of $\mathcal{D}$: an approximation of $\mathcal{D}$ as a mixture of uniform distributions over disjoint subcubes. With this decomposition in hand, we run the uniform-distribution learner on each subcube and combine the hypotheses using the decision tree. This algorithmic decomposition lemma also yields new algorithms for learning decision tree distributions with runtimes that exponentially improve on the prior state of the art -- results of independent interest in distribution learning.
翻訳日:2023-03-30 17:22:13 公開日:2023-03-27
# 品質多様性トランスフォーマ:決定トランスを用いた行動条件形軌道の生成

The Quality-Diversity Transformer: Generating Behavior-Conditioned Trajectories with Decision Transformers ( http://arxiv.org/abs/2303.16207v1 )

ライセンス: Link先を確認
Valentin Mac\'e, Rapha\"el Boige, Felix Chalumeau, Thomas Pierrot, Guillaume Richard, Nicolas Perrin-Gilbert(参考訳) 神経進化の文脈において、品質多様性アルゴリズムは行動空間の定義に依存することにより、多様で効率的なポリシーのレパートリーを生成するのに有効であることが証明されている。 このようなレパートリーの作成によって引き起こされる自然な目標は、レパートリーから対応するポリシーを実行することで実現可能な、需要に対する行動を達成することである。 しかし、不確実な環境では2つの問題が生じる。 第一に、ポリシーは堅牢性と再現性に欠ける可能性があるため、わずかに異なる条件下での複数のエピソードは、しばしば非常に異なる振る舞いをもたらす。 第二に、レパートリーの離散的性質のため、解は不連続に変化する。 本稿では,まず,行動空間において最も一貫した解に対する解の選択を制約するMAP-Elites Low-Spread (ME-LS) という2つのメカニズムに基づく行動条件付き軌道生成を実現するための新しい手法を提案する。 第二に、連続的な動作記述子に基づくトランスフォーマティブベースのモデルである quality-diversity transformer (qdt) は、me-lsレパートリーからのポリシによって生成されたデータセットをトレーニングし、ターゲットの動作を達成するアクションのシーケンスを自己回帰的に生成することを学ぶ。 その結果,ME-LSは一貫性とロバストなポリシを生成し,QDTと組み合わせることで,要求に対する多様な振る舞いを高い精度で達成可能な単一ポリシが得られることがわかった。

In the context of neuroevolution, Quality-Diversity algorithms have proven effective in generating repertoires of diverse and efficient policies by relying on the definition of a behavior space. A natural goal induced by the creation of such a repertoire is trying to achieve behaviors on demand, which can be done by running the corresponding policy from the repertoire. However, in uncertain environments, two problems arise. First, policies can lack robustness and repeatability, meaning that multiple episodes under slightly different conditions often result in very different behaviors. Second, due to the discrete nature of the repertoire, solutions vary discontinuously. Here we present a new approach to achieve behavior-conditioned trajectory generation based on two mechanisms: First, MAP-Elites Low-Spread (ME-LS), which constrains the selection of solutions to those that are the most consistent in the behavior space. Second, the Quality-Diversity Transformer (QDT), a Transformer-based model conditioned on continuous behavior descriptors, which trains on a dataset generated by policies from a ME-LS repertoire and learns to autoregressively generate sequences of actions that achieve target behaviors. Results show that ME-LS produces consistent and robust policies, and that its combination with the QDT yields a single policy capable of achieving diverse behaviors on demand with high accuracy.
翻訳日:2023-03-30 17:21:43 公開日:2023-03-27
# 画像ステガノグラフィのための反復型ニューラル最適化器の学習

Learning Iterative Neural Optimizers for Image Steganography ( http://arxiv.org/abs/2303.16206v1 )

ライセンス: Link先を確認
Xiangyu Chen, Varsha Kishore, Kilian Q Weinberger(参考訳) 画像ステガノグラフィ(英: image steganography)は、不可避な変化を通じて画像に秘密情報を隠蔽するプロセスである。 最近の研究は、このタスクを古典的な制約付き最適化問題として定式化している。 本稿では,画像ステガノグラフィは自然画像の(必然的な)多様体上で本質的に実行され,最適化ステップを実行するために訓練された反復ニューラルネットワークを提案する。 L-BFGSや射影勾配降下のような古典的な最適化手法とは対照的に、ニューラルネットワークは最適化を通して自然画像の多様体に近づき続けるように訓練する。 学習したニューラル最適化は、古典的な最適化アプローチよりも高速で信頼性が高いことを示す。 従来の最先端エンコーダデコーダベースのステガノグラフィー法と比較して、復元エラー率を桁違いに削減し、誤り訂正符号を必要とせず、最大3ビット毎ピクセル(bpp)のゼロエラーを達成する。

Image steganography is the process of concealing secret information in images through imperceptible changes. Recent work has formulated this task as a classic constrained optimization problem. In this paper, we argue that image steganography is inherently performed on the (elusive) manifold of natural images, and propose an iterative neural network trained to perform the optimization steps. In contrast to classical optimization methods like L-BFGS or projected gradient descent, we train the neural network to also stay close to the manifold of natural images throughout the optimization. We show that our learned neural optimization is faster and more reliable than classical optimization approaches. In comparison to previous state-of-the-art encoder-decoder-based steganography methods, it reduces the recovery error rate by multiple orders of magnitude and achieves zero error up to 3 bits per pixel (bpp) without the need for error-correcting codes.
翻訳日:2023-03-30 17:21:19 公開日:2023-03-27
# mHealth hyperspectral learningによる血行動態の瞬時観察

mHealth hyperspectral learning for instantaneous spatiospectral imaging of hemodynamics ( http://arxiv.org/abs/2303.16205v1 )

ライセンス: Link先を確認
Yuhyun Ji, Sang Mok Park, Semin Kwon, Jung Woo Leem, Vidhya Vijayakrishnan Nair, Yunjie Tong, and Young L. Kim(参考訳) ハイパースペクトルイメージングは、空間領域と周波数領域の両方のデータを取得し、豊富な物理情報や生物学的情報を提供する。 しかしながら、従来のハイパースペクトルイメージングはバルク機器、遅いデータ取得率、時空間的トレードオフに固有の制限がある。 本稿では,小領域でサンプリングされたハイパースペクトルデータを,ハイパーキューブを回収するための学習アルゴリズムに組み込む,スナップショットハイパースペクトルイメージングのためのハイパースペクトル学習を提案する。 ハイパースペクトル学習は、写真は単なる写真ではなく、詳細なスペクトル情報を含むという考え方を利用する。 ハイパースペクトルデータの小さなサンプリングにより、スペクトル情報によりRGB画像からハイパーキューブを復元することができる。 ハイパースペクトル学習は、科学分光計の高スペクトル分解能に匹敵するハイパーキューブの完全な分光分解能を回復することができる。 ハイパースペクトラル・ラーニングはまた、ビデオが複数のrgb画像の時系列からなることを考慮し、市販のスマートフォンで超低速のビデオ記録を活用することで、超高速でダイナミックなイメージングを可能にする。 その汎用性を示すために、統計的および深層学習アプローチを通じて血行動態パラメータを抽出する実験モデルが用いられる。 その後、従来のスマートフォンカメラを用いて、超高速時間分解能で末梢微小循環の血行動態を評価する。 このスペクトル情報学習法は, 圧縮センシングと類似しているが, さらに, 透過的学習アルゴリズムを用いて, 信頼性の高いハイパーキューブ回復と重要な特徴抽出を可能にする。 この学習駆動スナップショットハイパースペクトルイメージング手法は、高いスペクトル分解能と時間分解能を生じさせ、時空間的トレードオフをなくし、単純なハードウェア要件と様々な機械学習技術の潜在的な応用を提供する。

Hyperspectral imaging acquires data in both the spatial and frequency domains to offer abundant physical or biological information. However, conventional hyperspectral imaging has intrinsic limitations of bulky instruments, slow data acquisition rate, and spatiospectral tradeoff. Here we introduce hyperspectral learning for snapshot hyperspectral imaging in which sampled hyperspectral data in a small subarea are incorporated into a learning algorithm to recover the hypercube. Hyperspectral learning exploits the idea that a photograph is more than merely a picture and contains detailed spectral information. A small sampling of hyperspectral data enables spectrally informed learning to recover a hypercube from an RGB image. Hyperspectral learning is capable of recovering full spectroscopic resolution in the hypercube, comparable to high spectral resolutions of scientific spectrometers. Hyperspectral learning also enables ultrafast dynamic imaging, leveraging ultraslow video recording in an off-the-shelf smartphone, given that a video comprises a time series of multiple RGB images. To demonstrate its versatility, an experimental model of vascular development is used to extract hemodynamic parameters via statistical and deep-learning approaches. Subsequently, the hemodynamics of peripheral microcirculation is assessed at an ultrafast temporal resolution up to a millisecond, using a conventional smartphone camera. This spectrally informed learning method is analogous to compressed sensing; however, it further allows for reliable hypercube recovery and key feature extractions with a transparent learning algorithm. This learning-powered snapshot hyperspectral imaging method yields high spectral and temporal resolutions and eliminates the spatiospectral tradeoff, offering simple hardware requirements and potential applications of various machine-learning techniques.
翻訳日:2023-03-30 17:21:03 公開日:2023-03-27
# 正規化コンテキストモデリングによる会議行動項目の検出

Meeting Action Item Detection with Regularized Context Modeling ( http://arxiv.org/abs/2303.16763v1 )

ライセンス: Link先を確認
Jiaqing Liu, Chong Deng, Qinglin Zhang, Qian Chen, Wen Wang(参考訳) コラボレーションにはミーティングがますます重要です。 ミーティングの書き起こしにおけるアクションアイテムは、ミーティング後のto-doタスクを管理するのに不可欠です。 Action Item Detectionタスクは、アクションアイテムに関連する会議コンテンツを自動的に検出することを目的としている。 しかし、手動でアクションアイテム検出ラベルに注釈を付けるデータセットは少なく、小規模である。 手動アクションアイテムアノテーションを備えた最初の中国語会議コーパスを構築し,公開する。 さらに,コントラスト学習による局所的コンテキストとグローバルなコンテキストの両方を活用したコンテキストドロップアプローチを提案し,アクション項目検出のための精度とロバスト性の向上を実現する。 また,様々な事前学習モデルを利用する軽量モデルアンサンブル法を提案する。 提案手法の有効性を示すために,中国語会議コーパスと英語amiコーパスを用いた実験を行った。

Meetings are increasingly important for collaborations. Action items in meeting transcripts are crucial for managing post-meeting to-do tasks, which usually are summarized laboriously. The Action Item Detection task aims to automatically detect meeting content associated with action items. However, datasets manually annotated with action item detection labels are scarce and in small scale. We construct and release the first Chinese meeting corpus with manual action item annotations. In addition, we propose a Context-Drop approach to utilize both local and global contexts by contrastive learning, and achieve better accuracy and robustness for action item detection. We also propose a Lightweight Model Ensemble method to exploit different pre-trained models. Experimental results on our Chinese meeting corpus and the English AMI corpus demonstrate the effectiveness of the proposed approaches.
翻訳日:2023-03-30 14:22:44 公開日:2023-03-27
# ACO-tagger: Ant Colony Optimization を用いた音声タギングの新手法

ACO-tagger: A Novel Method for Part-of-Speech Tagging using Ant Colony Optimization ( http://arxiv.org/abs/2303.16760v1 )

ライセンス: Link先を確認
Amirhossein Mohammadi, Sara Hajiaghajani, Mohammad Bahrani(参考訳) 群知能アルゴリズムは近年、複雑で非決定論的問題を解く手段として注目されている。 これらのアルゴリズムは、自然生物の集団行動に触発され、この行動をシミュレートし、計算タスクのためのインテリジェントエージェントを開発する。 そのようなアルゴリズムの1つはアントコロニー最適化(ACO)であり、アリの捕食行動とそのフェロモンの敷設機構に着想を得たものである。 ACOは、自然界において離散的で複合的な難しい問題を解決するために使用される。 Part-of-Speech(POS)タグ付けは自然言語処理における基本的なタスクであり、文中の各単語にPart-of-Speechロールを割り当てることを目的としている。 本研究では,ACOをベースとした高性能なPOSタグ作成手法ACO-taggerを提案する。 この手法は96.867%の精度を達成し、いくつかの最先端手法を上回った。 提案手法は高速かつ効率的であり,実用的な用途に有効な選択肢である。

Swarm Intelligence algorithms have gained significant attention in recent years as a means of solving complex and non-deterministic problems. These algorithms are inspired by the collective behavior of natural creatures, and they simulate this behavior to develop intelligent agents for computational tasks. One such algorithm is Ant Colony Optimization (ACO), which is inspired by the foraging behavior of ants and their pheromone laying mechanism. ACO is used for solving difficult problems that are discrete and combinatorial in nature. Part-of-Speech (POS) tagging is a fundamental task in natural language processing that aims to assign a part-of-speech role to each word in a sentence. In this research paper, proposed a high-performance POS-tagging method based on ACO called ACO-tagger. This method achieved a high accuracy rate of 96.867%, outperforming several state-of-the-art methods. The proposed method is fast and efficient, making it a viable option for practical applications.
翻訳日:2023-03-30 14:22:33 公開日:2023-03-27
# パラメータ効率アーキテクチャによる事前学習型言語モデルのスケーリング

Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture ( http://arxiv.org/abs/2303.16753v1 )

ライセンス: Link先を確認
Peiyu Liu, Ze-Feng Gao, Wayne Xin Zhao, Ji-Rong Wen(参考訳) 本稿では,事前学習言語モデル(PLM)をより深いモデル深度に拡張するための,パラメータ効率の高い手法を提案する。 全てのパラメータを共有したり余分なブロックを使う以前の作業とは異なり、行列積演算子(MPO)に基づいたより有能なパラメータ共有アーキテクチャを設計する。 mpo分解は、パラメータ行列の情報を2つの部分に分けて再編成し分解することができる: 主要な情報(中央テンソル)を含む主要部分と、パラメータ(副テンソル)の少ない部分(副テンソル)である。 このような分解に基づいて、我々のアーキテクチャはモデルサイズを縮小する中央テンソルを共有し、一方、適応性を高めるために層固有の補助テンソル(アダプタも使用)を保持する。 モデルトレーニングを改善するために,MPOアーキテクチャに適した安定初期化アルゴリズムを提案する。 大規模実験により,提案モデルの有効性が実証され,性能が向上した。

In this paper, we propose a highly parameter-efficient approach to scaling pre-trained language models (PLMs) to a deeper model depth. Unlike prior work that shares all parameters or uses extra blocks, we design a more capable parameter-sharing architecture based on matrix product operator (MPO). MPO decomposition can reorganize and factorize the information of a parameter matrix into two parts: the major part that contains the major information (central tensor) and the supplementary part that only has a small proportion of parameters (auxiliary tensors). Based on such a decomposition, our architecture shares the central tensor across all layers for reducing the model size and meanwhile keeps layer-specific auxiliary tensors (also using adapters) for enhancing the adaptation flexibility. To improve the model training, we further propose a stable initialization algorithm tailored for the MPO-based architecture. Extensive experiments have demonstrated the effectiveness of our proposed model in reducing the model size and achieving highly competitive performance.
翻訳日:2023-03-30 14:21:17 公開日:2023-03-27
# アクティブラーニングに基づくアソート・アルチェト・アノテート200万(3A2M)調理レシピデータセット

Assorted, Archetypal and Annotated Two Million (3A2M) Cooking Recipes Dataset based on Active Learning ( http://arxiv.org/abs/2303.16778v1 )

ライセンス: Link先を確認
Nazmus Sakib, G. M. Shahariar, Md. Mohsinul Kabir, Md. Kamrul Hasan and Hasan Mahmud(参考訳) 料理のレシピでは、料理のアイデアを交換し、調理の指示を与えることができる。 適切なラベル付きデータがないため、オンラインの生レシピを適切な食品ジャンルに分類することは、この領域では難しい課題である。 ドメインエキスパートの知識を使ってレシピを分類することは解決策になり得る。 本研究では,食品専門家の知識と積極的学習技術を活用した,各カテゴリーにラベル付けされた200万種類の料理レシピのデータセットを提案する。 データセットを構築するために、レシピをRecipeNLGデータセットから収集する。 次に、信頼度スコアが86.667%を超える3人の人間専門家を雇い、名前付きエンティティ認識(ner)によって300kレシピを分類し、パン屋、飲み物、ノンベグ、野菜、ファストフード、シリアル、食事、サイド、融合の9つのカテゴリの1つに割り当てる。 最後に,Human In The Loop (HITL) とQuery-by-Committeeを混合したActive Learning法を用いて,残りの1900Kレシピを分類した。 私たちのデータセットには200万以上のレシピがあり、それぞれが分類され、信頼性スコアが関連付けられています。 9つのジャンルにおいて、この膨大なデータセットのFleiss Kappaスコアは約0.56026である。 我々は,このデータセットを用いて,レシピジャンル分類,特定のジャンルのレシピ生成,新しいレシピ作成など,さまざまな機械学習タスクを実行できると考えている。 このデータセットは、名前付きエンティティ認識、part-of-speech tagging、セマンティックロールラベリングなど、さまざまなnlpタスクのパフォーマンスをトレーニングおよび評価するためにも使用できる。 データセットは、https://tinyurl.com/3zu4778y.comで公開される。

Cooking recipes allow individuals to exchange culinary ideas and provide food preparation instructions. Due to a lack of adequate labeled data, categorizing raw recipes found online to the appropriate food genres is a challenging task in this domain. Utilizing the knowledge of domain experts to categorize recipes could be a solution. In this study, we present a novel dataset of two million culinary recipes labeled in respective categories leveraging the knowledge of food experts and an active learning technique. To construct the dataset, we collect the recipes from the RecipeNLG dataset. Then, we employ three human experts whose trustworthiness score is higher than 86.667% to categorize 300K recipe by their Named Entity Recognition (NER) and assign it to one of the nine categories: bakery, drinks, non-veg, vegetables, fast food, cereals, meals, sides and fusion. Finally, we categorize the remaining 1900K recipes using Active Learning method with a blend of Query-by-Committee and Human In The Loop (HITL) approaches. There are more than two million recipes in our dataset, each of which is categorized and has a confidence score linked with it. For the 9 genres, the Fleiss Kappa score of this massive dataset is roughly 0.56026. We believe that the research community can use this dataset to perform various machine learning tasks such as recipe genre classification, recipe generation of a specific genre, new recipe creation, etc. The dataset can also be used to train and evaluate the performance of various NLP tasks such as named entity recognition, part-of-speech tagging, semantic role labeling, and so on. The dataset will be available upon publication: https://tinyurl.com/3zu4778y.
翻訳日:2023-03-30 14:12:48 公開日:2023-03-27
# 冷静、静か、あるいは収集されない:感情言語を使って新型コロナウイルスの誤情報を検出する

Not cool, calm or collected: Using emotional language to detect COVID-19 misinformation ( http://arxiv.org/abs/2303.16777v1 )

ライセンス: Link先を確認
Gabriel Asher, Phil Bohlman, Karsten Kleyensteuber(参考訳) twitterのようなソーシャルメディアプラットフォーム上でのcovid-19の誤報は、効果的なパンデミック管理の脅威である。 新型コロナウイルス(covid-19)のツイートに関する先行研究は、チャージ感情のようなtwitterに共通するセマンティック機能の役割を否定している。 そこで本研究では, ツイート感情エンコーダとcovid-19誤情報エンコーダの両方を用いて, ツイートにcovid-19誤情報が含まれているかどうかを予測できる新しいcovid-19誤情報モデルを提案する。 私たちの感情エンコーダは、新しい注釈付きデータセットで微調整され、COVID-19の誤情報エンコーダは、COVID-HeRAデータセットのサブセットで微調整されました。 実験の結果, 感情と誤情報エンコーダの組み合わせが, 誤情報分類器単独よりも優れた結果を示した。 さらに,本研究の重要な限界として,低品質ラベルと不一致ラベル分布を強調し,広範な結果分析を行った。

COVID-19 misinformation on social media platforms such as twitter is a threat to effective pandemic management. Prior works on tweet COVID-19 misinformation negates the role of semantic features common to twitter such as charged emotions. Thus, we present a novel COVID-19 misinformation model, which uses both a tweet emotion encoder and COVID-19 misinformation encoder to predict whether a tweet contains COVID-19 misinformation. Our emotion encoder was fine-tuned on a novel annotated dataset and our COVID-19 misinformation encoder was fine-tuned on a subset of the COVID-HeRA dataset. Experimental results show superior results using the combination of emotion and misinformation encoders as opposed to a misinformation classifier alone. Furthermore, extensive result analysis was conducted, highlighting low quality labels and mismatched label distributions as key limitations to our study.
翻訳日:2023-03-30 14:12:17 公開日:2023-03-27
# 観測予測のための時間グラフと静的グラフの等価性について

On the Equivalence Between Temporal and Static Graph Representations for Observational Predictions ( http://arxiv.org/abs/2103.07016v2 )

ライセンス: Link先を確認
Jianfei Gao, Bruno Ribeiro(参考訳) 本研究は、時間グラフにおけるノード属性の進化を学習等価表現の観点から予測する関連課題を定式化する。 時間グラフのノード表現は2つの異なるフレームワークにキャストできることを示す。 (a)最も一般的なアプローチは時間とグラフであり、同変グラフ(GNNなど)とシーケンス表現(RNNなど)はグラフ内のノード属性の時間的進化を表すために相互に交わされる。 b) time-then-graph と呼ぶアプローチでは、ノードとエッジのダイナミクスを記述するシーケンスが最初に表現され、ノードとエッジ属性として後続の静的同変グラフ表現に供給されます。 興味深いことに、時間グラフ表現は時間グラフ表現よりも表現性に優れており、どちらも最も表現に富むコンポーネントgnn(例えば1-weisfeiler-lehman gnn)を使用している。 さらに,本研究の目的は,必ずしも最先端の成果を得ることではなく,実世界のタスクにおける最先端のタイム・アンド・グラフ手法よりも優れた性能と効率を達成できることを示し,グラフMLツールボックスにタイム・then-graphフレームワークが付加に値することを示す。

This work formalizes the associational task of predicting node attribute evolution in temporal graphs from the perspective of learning equivariant representations. We show that node representations in temporal graphs can be cast into two distinct frameworks: (a) The most popular approach, which we denote as time-and-graph, where equivariant graph (e.g., GNN) and sequence (e.g., RNN) representations are intertwined to represent the temporal evolution of node attributes in the graph; and (b) an approach that we denote as time-then-graph, where the sequences describing the node and edge dynamics are represented first, then fed as node and edge attributes into a static equivariant graph representation that comes after. Interestingly, we show that time-then-graph representations have an expressivity advantage over time-and-graph representations when both use component GNNs that are not most-expressive (e.g., 1-Weisfeiler-Lehman GNNs). Moreover, while our goal is not necessarily to obtain state-of-the-art results, our experiments show that time-then-graph methods are capable of achieving better performance and efficiency than state-of-the-art time-and-graph methods in some real-world tasks, thereby showcasing that the time-then-graph framework is a worthy addition to the graph ML toolbox.
翻訳日:2023-03-29 21:17:53 公開日:2023-03-27
# カーネル化svmに基づくランキング問題に対する非線形分類器

Nonlinear classifiers for ranking problems based on kernelized SVM ( http://arxiv.org/abs/2002.11436v2 )

ライセンス: Link先を確認
V\'aclav M\'acha, Luk\'a\v{s} Adam, V\'aclav \v{S}m\'idl(参考訳) 多くの分類問題は、全てのサンプルではなく、最も関連性の高いサンプルのみの性能を最大化することに焦点を当てている。 例えば、ランキングの問題、上位の精度、あるいは上位のクエリだけが問題となる検索エンジンについて言及することができる。 前回の研究で、これらの線形分類問題のいくつかのクラスを含む一般的な枠組みを導出した。 本稿では,フレームワークを非線形分類器に拡張する。 svm との類似性を利用して問題を双対化し,カーネルを追加し,コンポーネント単位の双対上昇法を提案する。

Many classification problems focus on maximizing the performance only on the samples with the highest relevance instead of all samples. As an example, we can mention ranking problems, accuracy at the top or search engines where only the top few queries matter. In our previous work, we derived a general framework including several classes of these linear classification problems. In this paper, we extend the framework to nonlinear classifiers. Utilizing a similarity to SVM, we dualize the problems, add kernels and propose a componentwise dual ascent method.
翻訳日:2023-03-29 21:16:33 公開日:2023-03-27
# 次元縮小散乱レイアウトの重なりをグリッドベースで除去する手法

A Grid-based Method for Removing Overlaps of Dimensionality Reduction Scatterplot Layouts ( http://arxiv.org/abs/1903.06262v6 )

ライセンス: Link先を確認
Gladys M. Hilasaca, Wilson E. Marc\'ilio-Jr, Danilo M. Eler, Rafael M. Martins, and Fernando V. Paulovich(参考訳) 多次元データセットを解析するためのユビキタスな可視化ツールとして,DR(Diality Reduction) scatterplotレイアウトが利用されている。 それらの人気にもかかわらず、そのような散乱体は、特にデータインスタンスを表すために情報的なグリフが使われる場合、排他的であり、実行中の分析に重要な情報を難読化する可能性がある。 興味深いデータパターンの発見において、現代のDR技術の強力な能力に欠ける重複のないレイアウトを生成するか、後処理戦略として重複を取り除くか、この問題に対処するために様々な戦略が考案されている。 ポストプロセッシング技術のよい結果にもかかわらず、最も優れた手法のほとんどは散乱プロット領域を広げたり歪めたりすることで、グリフのサイズ(時々)を読めない次元に縮小し、重なりを取り除く目的を打ち破った。 本稿では,DRレイアウトの特徴を忠実に保存し,グリフサイズを最小限に制限する,DRレイアウトの重複を除去する新しい後処理戦略であるDGridを提案する。 DGridは(複数の異なるメトリクスを考慮に入れた大規模な比較評価を通じて)重複除去において最先端を超越し、大規模データセットでは2~3桁高速であることを示す。

Dimensionality Reduction (DR) scatterplot layouts have become a ubiquitous visualization tool for analyzing multidimensional datasets. Despite their popularity, such scatterplots suffer from occlusion, especially when informative glyphs are used to represent data instances, potentially obfuscating critical information for the analysis under execution. Different strategies have been devised to address this issue, either producing overlap-free layouts which lack the powerful capabilities of contemporary DR techniques in uncovering interesting data patterns or eliminating overlaps as a post-processing strategy. Despite the good results of post-processing techniques, most of the best methods typically expand or distort the scatterplot area, thus reducing glyphs' size (sometimes) to unreadable dimensions, defeating the purpose of removing overlaps. This paper presents Distance Grid (DGrid), a novel post-processing strategy to remove overlaps from DR layouts that faithfully preserves the original layout's characteristics and bounds the minimum glyph sizes. We show that DGrid surpasses the state-of-the-art in overlap removal (through an extensive comparative evaluation considering multiple different metrics) while also being 2 or 3 orders of magnitude faster for large datasets.
翻訳日:2023-03-29 21:16:11 公開日:2023-03-27
# 局所クエンチ後のコールドフェルミガスの超高速ダイナミクス

Ultrafast dynamics of cold Fermi gas after a local quench ( http://arxiv.org/abs/2108.12031v3 )

ライセンス: Link先を確認
N. V. Gnezdilov, A. I. Pavlov, V. Ohanesjan, Y. Cheipesh, K. Schalm(参考訳) 2つの初期独立型貯水池の非平衡ダイナミクスについて検討し, コールドフェルミガスを混合し, 2つの量子クエンチェによって分離した。 クエンチによって引き起こされるフォン・ノイマンエントロピー生成は、貯水池間の熱輸送よりも高速であり、システムの短時間のダイナミクスを定義する。 システム内のエネルギー変化を分析し、A$からB$の間で移動した熱を加味し、貯水池を解き放つためにクエンチが行う作業を分析する。 a$ と $b$ が短時間相互作用する場合、デカップリング時に両方の貯水池でエネルギーが増加することに気付く。 このエネルギーはクエンチの作用によって得られ、貯水池間の初期温度不均衡に依存しない。 我々は、クエンチの仕事と、フォン・ノイマンのエントロピーを通じて表現されたa$とb$の相互相関の関係を関連付ける。 この関係を利用して、一旦$A$と$B$が結合されると、そのエントロピーはシステム内の熱流よりも速く(フェルミ時間の時間スケールで)成長することを示す。 この結果は、超低温で観測できる有限温度での量子相関の生成の軌跡を与えることができ、そこでは相関の成長の特徴的な時間スケールが$\sim 0.1 {\rm ms}$と期待される。

We consider non-equilibrium dynamics of two initially independent reservoirs $A$ and $B$ filled with a cold Fermi gas coupled and decoupled by two quantum quenches following one another. We find that the von Neumann entropy production induced by the quench is faster than thermal transport between the reservoirs and defines the short-time dynamics of the system. We analyze the energy change in the system which adds up the heat transferred between $A$ and $B$ and the work done by the quench to uncouple the reservoirs. In the case when $A$ and $B$ interact for a short time, we notice an energy increase in both reservoirs upon decoupling. This energy gain results from the quench's work and does not depend on the initial temperature imbalance between the reservoirs. We relate the quench's work to the mutual correlations of $A$ and $B$ expressed through their von Neumann entropies. Utilizing this relation, we show that once $A$ and $B$ become coupled, their entropies grow (on a timescale of the Fermi time) faster than the heat flow within the system. This result may provide a track of quantum correlations' generation at finite temperatures which one may probe in ultracold atoms, where we expect the characteristic timescale of correlations' growth to be $\sim 0.1 {\rm ms}$.
翻訳日:2023-03-29 20:22:31 公開日:2023-03-27
# マイクロ波周波数コムにおける多部絡み合い

Multipartite entanglement in a microwave frequency comb ( http://arxiv.org/abs/2112.12105v2 )

ライセンス: Link先を確認
Shan W. Jolin, Gustav Andersson, J. C. Rivera Hern\'andez, Ingrid Strandberg, Fernando Quijandr\'ia, Joe Aumentado, Riccardo Borgani, Mats O. Thol\'en, David B. Haviland(参考訳) 離散量子ビットのマルチパーティショニングによる大きな進歩はあったが、連続変数系は大規模なアンサンブルの絡み合いへのよりスケーラブルな経路を提供するかもしれない。 バイクロマチックポンプを受けるジョセフソンパラメトリック増幅器で発生したマイクロ波周波数コムの多部絡みを実演する。 多周波数デジタル信号処理プラットフォームを用いて伝送線路内の64モードの相関モードを求める。 完全分離性は7つのモードのサブセットで検証される。 我々の手法は近い将来さらに絡み合ったモードを生成するよう拡張することができる。

Significant progress has been made with multipartite entanglement of discrete qubits, but continuous variable systems may provide a more scalable path toward entanglement of large ensembles. We demonstrate multipartite entanglement in a microwave frequency comb generated by a Josephson parametric amplifier subject to a bichromatic pump. We find 64 correlated modes in the transmission line using a multifrequency digital signal processing platform. Full inseparability is verified in a subset of seven modes. Our method can be expanded to generate even more entangled modes in the near future.
翻訳日:2023-03-29 20:13:14 公開日:2023-03-27
# 劣化適応を用いた3次元MRI超解像の教師なし表現学習

Unsupervised Representation Learning for 3D MRI Super Resolution with Degradation Adaptation ( http://arxiv.org/abs/2205.06891v4 )

ライセンス: Link先を確認
Jianan Liu, Hao Li, Tao Huang, Euijoon Ahn, Kang Han, Adeel Razi, Wei Xiang, Jinman Kim, David Dagan Feng(参考訳) 高分解能(HR)磁気共鳴イメージングは、診断や画像誘導治療において医師を支援する上で重要である。 しかし、HR画像の取得には時間と費用がかかる。 その結果、低解像度(lr)画像から超解像(sr)画像を生成するための有望なソリューションとして、ディープラーニングに基づく超解像再構成(srr)が出現した。 残念なことに、そのようなニューラルネットワークのトレーニングには、画像取得中と画像取得間の患者の動きのために取得が困難な、整列したHRとLRイメージペアが必要である。 硬組織の硬い動きは画像登録によって補正できるが、変形した軟組織の整列は複雑であり、真正なHRとLRイメージペアでニューラルネットワークを訓練することは不可能である。 従来の研究では、真正HR画像とダウンサンプリング合成LR画像を用いてSRRに焦点を当ててきた。 しかし,合成LR画像と真性LR画像の劣化表現の違いは,真性LR画像から再構成したSR画像の品質を抑制する。 この問題に対処するため,我々は,Unsupervised Degradation Adaptation Network (UDEAN)を提案する。 我々のネットワークは劣化学習ネットワークとSRRネットワークで構成されている。 劣化学習ネットワークは、不整合または不整合LR画像から学習した劣化表現を用いてHR画像をダウンサンプリングする。 SRRネットワークは、ダウンサンプリングされたHR画像から元の画像へのマッピングを学習する。 実験の結果,本手法は最先端のネットワークよりも優れており,臨床現場における課題に対する有望な解決法であることがわかった。

High-resolution (HR) magnetic resonance imaging is critical in aiding doctors in their diagnoses and image-guided treatments. However, acquiring HR images can be time-consuming and costly. Consequently, deep learning-based super-resolution reconstruction (SRR) has emerged as a promising solution for generating super-resolution (SR) images from low-resolution (LR) images. Unfortunately, training such neural networks requires aligned authentic HR and LR image pairs, which are challenging to obtain due to patient movements during and between image acquisitions. While rigid movements of hard tissues can be corrected with image registration, aligning deformed soft tissues is complex, making it impractical to train neural networks with authentic HR and LR image pairs. Previous studies have focused on SRR using authentic HR images and down-sampled synthetic LR images. However, the difference in degradation representations between synthetic and authentic LR images suppresses the quality of SR images reconstructed from authentic LR images. To address this issue, we propose a novel Unsupervised Degradation Adaptation Network (UDEAN). Our network consists of a degradation learning network and an SRR network. The degradation learning network downsamples the HR images using the degradation representation learned from the misaligned or unpaired LR images. The SRR network then learns the mapping from the down-sampled HR images to the original ones. Experimental results show that our method outperforms state-of-the-art networks and is a promising solution to the challenges in clinical settings.
翻訳日:2023-03-29 20:05:38 公開日:2023-03-27
# メトリクスは十分か? 課題エキスパートを対象とする予測モデルのコミュニケーションと可視化に関するガイドライン

Are Metrics Enough? Guidelines for Communicating and Visualizing Predictive Models to Subject Matter Experts ( http://arxiv.org/abs/2205.05749v2 )

ライセンス: Link先を確認
Ashley Suh, Gabriel Appleby, Erik W. Anderson, Luca Finelli, Remco Chang, Dylan Cashman(参考訳) 予測モデルのパフォーマンスを示すことは、データサイエンティストと主題の専門家のコラボレーションを脅かすコミュニケーションボトルネックである。 正確さとエラーのメトリクスだけでは、モデル全体、そのリスク、強み、限界などを伝えることができません。 結果として、モデルが予期せぬ方法で失敗したり、全く使われなかったりする可能性がある。 本稿では,これら2つのグループ間のコミュニケーションのギャップを理解するために,主題の専門家とデータサイエンティストの両方が行った反復研究について述べる。 2つのグループは、モデルのデータと予測を理解する共通の目標を共有しているが、摩擦は、不慣れな用語、メトリクス、視覚化によって引き起こされる可能性がある。 本研究では,モデルの強みと弱みを伝達するための共通媒体として可視化を利用する一連のコミュニケーションガイドラインを導出する。 我々は,回帰モデリングシナリオにおけるガイドラインの実証を行い,対象物質の専門家からのフィードバックを得た。 実演から,対象物の専門家は,モデルのパフォーマンスについてより快適に議論し,提示したモデルに対するトレードオフをより認識し,モデルのリスクを評価する能力が向上した。

Presenting a predictive model's performance is a communication bottleneck that threatens collaborations between data scientists and subject matter experts. Accuracy and error metrics alone fail to tell the whole story of a model - its risks, strengths, and limitations - making it difficult for subject matter experts to feel confident in their decision to use a model. As a result, models may fail in unexpected ways or go entirely unused, as subject matter experts disregard poorly presented models in favor of familiar, yet arguably substandard methods. In this paper, we describe an iterative study conducted with both subject matter experts and data scientists to understand the gaps in communication between these two groups. We find that, while the two groups share common goals of understanding the data and predictions of the model, friction can stem from unfamiliar terms, metrics, and visualizations - limiting the transfer of knowledge to SMEs and discouraging clarifying questions being asked during presentations. Based on our findings, we derive a set of communication guidelines that use visualization as a common medium for communicating the strengths and weaknesses of a model. We provide a demonstration of our guidelines in a regression modeling scenario and elicit feedback on their use from subject matter experts. From our demonstration, subject matter experts were more comfortable discussing a model's performance, more aware of the trade-offs for the presented model, and better equipped to assess the model's risks - ultimately informing and contextualizing the model's use beyond text and numbers.
翻訳日:2023-03-29 20:05:13 公開日:2023-03-27
# ニューロンの多様性は物理学などの機械学習を改善する

Neuronal diversity can improve machine learning for physics and beyond ( http://arxiv.org/abs/2204.04348v2 )

ライセンス: Link先を確認
Anshul Choudhary, Anil Radhakrishnan, John F. Lindner, Sudeshna Sinha, William L. Ditto(参考訳) 多様性は自然界の利点をもたらすが、均質なニューロンは通常、ニューラルネットワークの層を構成する。 ここでは、ニューロンの活性化関数を学習し、迅速に多様化し、画像分類や非線形回帰タスクにおいて同質のニューロンよりも優れたニューラルネットワークを構築する。 サブネットワークは、特に非線形応答のメタ学習を行うニューロンをインスタンス化する。 例えば、従来のニューラルネットワークは桁を分類し、ファンデルポール発振器を予測し、物理学に変形したハミルトニアンニューラルネットワークはh\'enon-heiles軌道を学習する。 このような学習された多様性は、一様性よりも多様性を選択し、自然および人工システムにおける多様性の役割を解明する力学システムの例を提供する。

Diversity conveys advantages in nature, yet homogeneous neurons typically comprise the layers of artificial neural networks. Here we construct neural networks from neurons that learn their own activation functions, quickly diversify, and subsequently outperform their homogeneous counterparts on image classification and nonlinear regression tasks. Sub-networks instantiate the neurons, which meta-learn especially efficient sets of nonlinear responses. Examples include conventional neural networks classifying digits and forecasting a van der Pol oscillator and a physics-informed Hamiltonian neural network learning H\'enon-Heiles orbits. Such learned diversity provides examples of dynamical systems selecting diversity over uniformity and elucidates the role of diversity in natural and artificial systems.
翻訳日:2023-03-29 20:03:44 公開日:2023-03-27
# 移植学習による病理組織像の自動スコア化

Automatically Score Tissue Images Like a Pathologist by Transfer Learning ( http://arxiv.org/abs/2209.05954v2 )

ライセンス: Link先を確認
Iris Yan(参考訳) がんは世界で2番目に多い死因である。 早期にがんを診断することで多くの命を救える。 病理学者は、腫瘍を特定するために手動で組織マイクロアレイ(TMA)画像を見る必要がある。 腫瘍を自動的に検出する既存のアルゴリズムは、病理学者の正確性レベルを達成していないか、あるいはかなりの人間の関与を必要とする。 最大の課題は、異なる形状、サイズ、位置のtma画像が同じスコアを持つ可能性があることである。 tma画像の染色パターンを学ぶには膨大な数の画像が必要であるが、医療機関におけるプライバシーの懸念や規制のために、非常に制限されている。 異なるがんタイプのTMA画像には、貴重な情報を提供する共通の特徴があるかもしれないが、それらを使用することで直接精度が損なわれる。 提案アルゴリズムは,複数の補助集合から選択的な移動学習を行うことで,「類似した」スコアリングパターンを示す組織像から知識を抽出できるが,癌の種類は異なる。 このアルゴリズムは、スタンフォード組織マイクロアレイデータベース(Stanford tissue Microarray Database)から乳がんTMA画像の75.9%の精度を報告し、病理学者の75.5%の精度を達成している。 これにより、病理学者は自信を持って自動アルゴリズムを使用して腫瘍の認識をリアルタイムでより高精度に行うことができる。

Cancer is the second leading cause of death in the world. Diagnosing cancer early on can save many lives. Pathologists have to look at tissue microarray (TMA) images manually to identify tumors, which can be time-consuming, inconsistent and subjective. Existing algorithms that automatically detect tumors have either not achieved the accuracy level of a pathologist or require substantial human involvements. A major challenge is that TMA images with different shapes, sizes, and locations can have the same score. Learning staining patterns in TMA images requires a huge number of images, which are severely limited due to privacy concerns and regulations in medical organizations. TMA images from different cancer types may have common characteristics that could provide valuable information, but using them directly harms the accuracy. By selective transfer learning from multiple small auxiliary sets, the proposed algorithm is able to extract knowledge from tissue images showing a ``similar" scoring pattern but with different cancer types. Remarkably, transfer learning has made it possible for the algorithm to break the critical accuracy barrier -- the proposed algorithm reports an accuracy of 75.9% on breast cancer TMA images from the Stanford Tissue Microarray Database, achieving the 75\% accuracy level of pathologists. This will allow pathologists to confidently use automatic algorithms to assist them in recognizing tumors consistently with a higher accuracy in real time.
翻訳日:2023-03-29 19:47:09 公開日:2023-03-27
# SAFE: 分布外物体検出のための感度認識機能

SAFE: Sensitivity-Aware Features for Out-of-Distribution Object Detection ( http://arxiv.org/abs/2208.13930v4 )

ライセンス: Link先を確認
Samuel Wilson, Tobias Fischer, Feras Dayoub, Dimity Miller and Niko S\"underhauf(参考訳) 本稿では,オブジェクト検出作業におけるOOD(out-of-distriion)検出の問題に対処する。 バッチ正規化による残差畳み込み層は,非分布検出と非分布検出を区別するために一貫して強力である感性認識機能(SAFE)を生成する。 検出対象毎にSAFEベクターを抽出し, クリーンな流通例から逆順に摂動を識別するサロゲートタスクにおいて多層パーセプトロンを訓練することにより, リアルなOODトレーニングデータ, 計算コストのかかる生成モデル, ベースオブジェクト検出器の再学習の必要性を回避することができる。 SAFEは、複数のベンチマークで最先端のOODオブジェクト検出器よりも、例えばOpenImagesデータセットでFPR95を48.3%から17.7%まで30.6%削減している。

We address the problem of out-of-distribution (OOD) detection for the task of object detection. We show that residual convolutional layers with batch normalisation produce Sensitivity-Aware FEatures (SAFE) that are consistently powerful for distinguishing in-distribution from out-of-distribution detections. By extracting SAFE vectors for every detected object, and training a multilayer perceptron on the surrogate task of distinguishing adversarially perturbed from clean in-distribution examples, we circumvent the need for realistic OOD training data, computationally expensive generative models, or retraining of the base object detector. SAFE outperforms the state-of-the-art OOD object detectors on multiple benchmarks by large margins, e.g. reducing the FPR95 by an absolute 30.6% from 48.3% to 17.7% on the OpenImages dataset.
翻訳日:2023-03-29 19:45:35 公開日:2023-03-27
# 軌道推定における機械学習:サーベイ

Machine Learning in Orbit Estimation: a Survey ( http://arxiv.org/abs/2207.08993v3 )

ライセンス: Link先を確認
Francisco Caldas and Cl\'audia Soares(参考訳) 1950年代後半から、最初の人工衛星が打ち上げられると、居住スペースオブジェクトの数は着実に増加した。 1cmを超える約100万個の天体が現在地球を周回していると推定されており、10cm以上の天体は3万個しかないと推定されている。 ケスラー症候群と呼ばれる衝突の連鎖反応を避けるためには、デブリや衛星の軌道を正確に追跡し予測することが不可欠である。 現在の近似物理学に基づく手法では、7日間の予測で数キロの誤差があり、通常は1メートル未満の宇宙ゴミを考えると不十分である。 この故障は通常、軌道開始時の宇宙物体の状態に関する不確実性、大気抵抗などの環境条件の誤差の予測、宇宙物体の質量や形状などの未知の特性によるものである。 オペレータは、計測されていないオブジェクトの特性を導出し、機械学習のようなデータ駆動技術を活用することで、非保守的な力の効果を改善することで、軌道予測精度を向上させることができる。 本稿では,軌道決定,軌道予測,大気密度モデリングに機械学習を適用した研究の概要を紹介する。

Since the late 1950s, when the first artificial satellite was launched, the number of Resident Space Objects has steadily increased. It is estimated that around one million objects larger than one cm are currently orbiting the Earth, with only thirty thousand larger than ten cm being tracked. To avert a chain reaction of collisions, known as Kessler Syndrome, it is essential to accurately track and predict debris and satellites' orbits. Current approximate physics-based methods have errors in the order of kilometers for seven-day predictions, which is insufficient when considering space debris, typically with less than one meter. This failure is usually due to uncertainty around the state of the space object at the beginning of the trajectory, forecasting errors in environmental conditions such as atmospheric drag, and unknown characteristics such as the mass or geometry of the space object. Operators can enhance Orbit Prediction accuracy by deriving unmeasured objects' characteristics and improving non-conservative forces' effects by leveraging data-driven techniques, such as Machine Learning. In this survey, we provide an overview of the work in applying Machine Learning for Orbit Determination, Orbit Prediction, and atmospheric density modeling.
翻訳日:2023-03-29 19:44:12 公開日:2023-03-27
# 異常な普遍的断熱力学:フレドキンモデルの場合

Anomalous universal adiabatic dynamics: The case of the Fredkin model ( http://arxiv.org/abs/2207.07876v2 )

ライセンス: Link先を確認
Gianluca Francica, Luca Dell'Anna(参考訳) システムが2階の量子相転移を横切ると、生成される欠陥の数は、kibble-zurek機構によって記述された普遍的な法則に従って、チューニングパラメータの変動の速度でスケールする。 この予測の分解の可能性について検討し、欠陥の数が他の普遍的スケーリング法則を示すことを証明し、この法則は重要な指数である$z$ と $\nu$ にのみ関係するが、キブル・ズレックの結果とは異なっている。 最後に、変形したフレドキンスピン鎖(英語版)の例を示し、そこでは標準断熱力学のこの破れが生じる。

When a system is driven across a second-order quantum phase transition, the number of defects which are produced scales with the speed of the variation of the tuning parameter according to a universal law described by the Kibble-Zurek mechanism. We study a possible breakdown of this prediction proving that the number of defects can exhibit another universal scaling law which is still related only to the critical exponents $z$ and $\nu$, but differs from the Kibble-Zurek result. Finally we provide an example, the deformed Fredkin spin chain, where this violation of the standard adiabatic dynamics can occur.
翻訳日:2023-03-29 19:43:54 公開日:2023-03-27
# 双対ユニタリティから一般量子作用素の拡散へ

From Dual Unitarity to Generic Quantum Operator Spreading ( http://arxiv.org/abs/2210.13490v2 )

ライセンス: Link先を確認
Michael A. Rampp, Roderich Moessner, and Pieter W. Claeys(参考訳) デュアルユニタリ回路は、正確に解けるがカオス的な量子多体系のパラダイム的な例であるが、可解性は自然に非ジェネリックな振る舞いの程度に沿っている。 弱破壊双対性が局所作用素の拡散に及ぼす影響を調べることにより、双対性からの小さな偏差が完全総称多体力学を回復するかどうか、どのようにして研究する。 本稿では, 時間外相関器の離散経路積分式を提案し, 光円錐速度より小さいバタフライ速度を回復するために, $v_B < v_{LC}$ と, 2単位回路力学に欠落するエルゴード量子スピン鎖の2つの一般的な特徴である拡散的に拡大する演算子フロントについて述べる。 蝶の速度と拡散定数は微小な量の小さな集合によって決定され、ゲートのオペレータの絡み合いが重要な役割を担っていることが判明した。

Dual-unitary circuits are paradigmatic examples of exactly solvable yet chaotic quantum many-body systems, but solvability naturally goes along with a degree of non-generic behaviour. By investigating the effect of weakly broken dual-unitarity on the spreading of local operators we study whether, and how, small deviations from dual-unitarity recover fully generic many-body dynamics. We present a discrete path-integral formula for the out-of-time-order correlator and use it to recover a butterfly velocity smaller than the light-cone velocity, $v_B < v_{LC}$ , and a diffusively broadening operator front, two generic features of ergodic quantum spin chains absent in dual-unitary circuit dynamics. We find that the butterfly velocity and diffusion constant are determined by a small set of microscopic quantities and that the operator entanglement of the gates plays a crucial role.
翻訳日:2023-03-29 19:38:58 公開日:2023-03-27
# ほぼ線形スパルシティーレジームのための辞書学習

Dictionary Learning for the Almost-Linear Sparsity Regime ( http://arxiv.org/abs/2210.10855v2 )

ライセンス: Link先を確認
Alexei Novikov and Stephen White(参考訳) 辞書学習 (Dictionary learning) は、スパース的に使われる行列 $\mathbf{D} \in \mathbb{R}^{M \times K}$ と $N$ $s$-sparse vectors $\mathbf{x}_i \in \mathbb{R}^{K}$ を、形式 $\mathbf{y}_i = \mathbf{D}\mathbf{x}_i$ のサンプルから回収する問題である。 辞書が知られているとき、$\mathbf{x}_i$のリカバリは次元が$M$であっても可能であるが、現在まで線形疎性体系において確実に成功するアルゴリズムは、直交辞書に限られるリーマン的信頼領域法と、$M$で崩壊する誤差を得るために超多項式時間を必要とする総和-二乗階層に基づく方法のみである。 本研究では,再重み付け共分散行列の族に対する効率的なスペクトル法であるsporadic (spectral oracle dictionary learning)を提案する。 高次元において、SPORADICは、空間が対数因子まで線形である場合でも、よく知られた制限等尺性(RIP)を満たす過剰完備(K > M$)辞書を復元できることを示す。 さらに、これらの精度保証は、未知のスパースベクトル $\mathbf{x}_i$ の支持と符号を高い確率で正確に復元することができ、多項式時間で十分なサンプルで$\mathbf{D}$を任意に近似することができる ``oracle property' を持つ。 著者の知る限り、SPORADIC は多項式時間アルゴリズムとしては初めてのもので、ニア線形空間の過完全 RIP 行列に対する収束保証を確実に享受する。

Dictionary learning, the problem of recovering a sparsely used matrix $\mathbf{D} \in \mathbb{R}^{M \times K}$ and $N$ $s$-sparse vectors $\mathbf{x}_i \in \mathbb{R}^{K}$ from samples of the form $\mathbf{y}_i = \mathbf{D}\mathbf{x}_i$, is of increasing importance to applications in signal processing and data science. When the dictionary is known, recovery of $\mathbf{x}_i$ is possible even for sparsity linear in dimension $M$, yet to date, the only algorithms which provably succeed in the linear sparsity regime are Riemannian trust-region methods, which are limited to orthogonal dictionaries, and methods based on the sum-of-squares hierarchy, which requires super-polynomial time in order to obtain an error which decays in $M$. In this work, we introduce SPORADIC (SPectral ORAcle DICtionary Learning), an efficient spectral method on family of reweighted covariance matrices. We prove that in high enough dimensions, SPORADIC can recover overcomplete ($K > M$) dictionaries satisfying the well-known restricted isometry property (RIP) even when sparsity is linear in dimension up to logarithmic factors. Moreover, these accuracy guarantees have an ``oracle property" that the support and signs of the unknown sparse vectors $\mathbf{x}_i$ can be recovered exactly with high probability, allowing for arbitrarily close estimation of $\mathbf{D}$ with enough samples in polynomial time. To the author's knowledge, SPORADIC is the first polynomial-time algorithm which provably enjoys such convergence guarantees for overcomplete RIP matrices in the near-linear sparsity regime.
翻訳日:2023-03-29 19:38:21 公開日:2023-03-27
# SilverAlign: MTベースの単語アライメント評価のためのシルバーデータアルゴリズム

SilverAlign: MT-Based Silver Data Algorithm For Evaluating Word Alignment ( http://arxiv.org/abs/2210.06207v2 )

ライセンス: Link先を確認
Abdullatif K\"oksal, Silvia Severini, Hinrich Sch\"utze(参考訳) 単語アライメントは様々なNLPタスクに必須である。 したがって、彼らの創造に最適なアプローチを選択することは重要です。 しかし、金の評価データが入手できないため、選択は困難である。 機械翻訳と最小ペアを利用した単語整合性評価のための銀データの自動生成手法であるSilverAlignを提案する。 シルバーデータの性能は9つの言語ペアのゴールドベンチマークとよく相関しており、ゴールドデータが利用できない場合の異なるドメインや言語の評価に有効なリソースとなっている。 これは低リソース言語におけるゴールドデータアライメントの欠如という重要なシナリオに対処する。

Word alignments are essential for a variety of NLP tasks. Therefore, choosing the best approaches for their creation is crucial. However, the scarce availability of gold evaluation data makes the choice difficult. We propose SilverAlign, a new method to automatically create silver data for the evaluation of word aligners by exploiting machine translation and minimal pairs. We show that performance on our silver data correlates well with gold benchmarks for 9 language pairs, making our approach a valid resource for evaluation of different domains and languages when gold data are not available. This addresses the important scenario of missing gold data alignments for low-resource languages.
翻訳日:2023-03-29 19:37:37 公開日:2023-03-27
# 仮想画像を活用した学習におけるプログレッシブトランスフォーメーション学習

Progressive Transformation Learning for Leveraging Virtual Images in Training ( http://arxiv.org/abs/2211.01778v2 )

ライセンス: Link先を確認
Yi-Ting Shen, Hyungtae Lee, Heesung Kwon, Shuvra Shikhar Bhattacharyya(参考訳) 人間のような対象物を検出するために、UAVベースの画像を効果的に尋問するためには、広く異なる視点から捉えたさまざまなポーズを持つ人間のインスタンスを含む大規模なUAVベースのデータセットを取得することが不可欠である。 作業的かつコストのかかるデータキュレーションの代替手段として,本研究では,改良現実主義による変換仮想画像の追加により,徐々にトレーニングデータセットを増強するプログレッシブトランスフォーメーション・トランスフォーメーション・ラーニング(ptl)を導入する。 一般的に、条件付きganフレームワークにおけるvirtual2real transformation generatorは、実画像と仮想画像の間に大きなドメインギャップが存在する場合の品質低下に苦しむ。 ドメインギャップに対処するため、PTLは以下の3つのステップを段階的に反復する新しいアプローチを採用している。 1) 領域ギャップに応じて仮想画像のプールからサブセットを選択する。 2)選択した仮想画像から現実性を高めること、及び 3) 変換された仮想イメージをトレーニングセットに追加し,プールから削除する。 PTLでは、ドメインギャップを正確に定量化することが重要である。 そのため,仮想物体間のマハラノビス距離と表現空間内の各対象圏のガウス分布が容易に計算できる多変量ガウス分布として,与えられた物体検出器の特徴表現空間をモデル化できることを理論的に証明する。 実験により、PTLは、特に小さなデータとクロスドメインシステムにおいて、ベースラインよりも大幅にパフォーマンスが向上することが示された。

To effectively interrogate UAV-based images for detecting objects of interest, such as humans, it is essential to acquire large-scale UAV-based datasets that include human instances with various poses captured from widely varying viewing angles. As a viable alternative to laborious and costly data curation, we introduce Progressive Transformation Learning (PTL), which gradually augments a training dataset by adding transformed virtual images with enhanced realism. Generally, a virtual2real transformation generator in the conditional GAN framework suffers from quality degradation when a large domain gap exists between real and virtual images. To deal with the domain gap, PTL takes a novel approach that progressively iterates the following three steps: 1) select a subset from a pool of virtual images according to the domain gap, 2) transform the selected virtual images to enhance realism, and 3) add the transformed virtual images to the training set while removing them from the pool. In PTL, accurately quantifying the domain gap is critical. To do that, we theoretically demonstrate that the feature representation space of a given object detector can be modeled as a multivariate Gaussian distribution from which the Mahalanobis distance between a virtual object and the Gaussian distribution of each object category in the representation space can be readily computed. Experiments show that PTL results in a substantial performance increase over the baseline, especially in the small data and the cross-domain regime.
翻訳日:2023-03-29 19:26:40 公開日:2023-03-27
# PLIKS:3次元人体推定のための擬似線形逆運動解法

PLIKS: A Pseudo-Linear Inverse Kinematic Solver for 3D Human Body Estimation ( http://arxiv.org/abs/2211.11734v2 )

ライセンス: Link先を確認
Karthik Shetty, Annette Birkhold, Srikrishna Jaganathan, Norbert Strobel, Markus Kowarschik, Andreas Maier, Bernhard Egger(参考訳) PLIKS(Pseudo-Linear Inverse Kinematic Solver)を導入し,1枚の2次元画像から人体の3次元メッシュを再構築する。 現在の技術は、任意の外部の影響に対して最小限の柔軟性を持つ非線形マッピングを通じて、入力画像からパラメトリックモデルの形状、ポーズ、翻訳を直接回帰する。 我々は,ループ内モデル最適化問題としてタスクにアプローチする。 PLIKSはパラメトリックSMPLモデルの線形化された定式化に基づいている。 PLIKSを用いて2次元画素アライメントによる人間のモデルを解析的に再構築する。 これにより、利用可能なときに正確なカメラキャリブレーション情報を使用することができる。 PLIKSは、形状や翻訳などの追加制約を導入する簡単な方法を提供する。 本稿では,pliksが従来の3次元人間のポーズや形状ベンチマークと比較して10%以上の精度で精度良く再構築できることを示すとともに,新たなアゴラデータセット上では12.9mmの再構成誤差改善が得られた。

We introduce PLIKS (Pseudo-Linear Inverse Kinematic Solver) for reconstruction of a 3D mesh of the human body from a single 2D image. Current techniques directly regress the shape, pose, and translation of a parametric model from an input image through a non-linear mapping with minimal flexibility to any external influences. We approach the task as a model-in-the-loop optimization problem. PLIKS is built on a linearized formulation of the parametric SMPL model. Using PLIKS, we can analytically reconstruct the human model via 2D pixel-aligned vertices. This enables us with the flexibility to use accurate camera calibration information when available. PLIKS offers an easy way to introduce additional constraints such as shape and translation. We present quantitative evaluations which confirm that PLIKS achieves more accurate reconstruction with greater than 10% improvement compared to other state-of-the-art methods with respect to the standard 3D human pose and shape benchmarks while also obtaining a reconstruction error improvement of 12.9 mm on the newer AGORA dataset.
翻訳日:2023-03-29 19:17:16 公開日:2023-03-27
# 微分レンズ:ガラス表面上の複合レンズ探索と物体検出材料

The Differentiable Lens: Compound Lens Search over Glass Surfaces and Materials for Object Detection ( http://arxiv.org/abs/2212.04441v2 )

ライセンス: Link先を確認
Geoffroi C\^ot\'e, Fahim Mannan, Simon Thibault, Jean-Fran\c{c}ois Lalonde, Felix Heide(参考訳) ほとんどのカメラレンズシステムは、下流のコンピュータビジョンとは独立して設計されている。 近年、画像取得および処理パイプラインの他のコンポーネント(特に下流ニューラルネットワーク)と一緒にレンズを設計する共同最適化アプローチは、画像品質の改善やビジョンタスクのパフォーマンス向上を実現している。 しかし、これらの既存手法はレンズパラメータのサブセットのみを最適化し、分類学的性質からガラス材料を最適化することはできない。 本研究では,幾何収差を正確に捉えた球面レンズシミュレーションモデルを開発した。 我々は,共同最適化作業において悪化する非凸損失関数や多くの製造制約に対して悪名高いレンズ設計の課題に対処するための最適化戦略を提案する。 具体的には, エンド・ツー・エンドの設計コンテキストにおけるガラス材料の最適化と選択を容易にするために, 量子化連続ガラス変数を導入し, 製造性をサポートするために慎重に設計した制約と組み合わせる。 自動車用物体検出において, 画像品質が著しく低下したにもかかわらず, 2素子または3素子のレンズに設計を簡易化しても, 既存の設計よりも検出性能が向上したことを報告した。

Most camera lens systems are designed in isolation, separately from downstream computer vision methods. Recently, joint optimization approaches that design lenses alongside other components of the image acquisition and processing pipeline -- notably, downstream neural networks -- have achieved improved imaging quality or better performance on vision tasks. However, these existing methods optimize only a subset of lens parameters and cannot optimize glass materials given their categorical nature. In this work, we develop a differentiable spherical lens simulation model that accurately captures geometrical aberrations. We propose an optimization strategy to address the challenges of lens design -- notorious for non-convex loss function landscapes and many manufacturing constraints -- that are exacerbated in joint optimization tasks. Specifically, we introduce quantized continuous glass variables to facilitate the optimization and selection of glass materials in an end-to-end design context, and couple this with carefully designed constraints to support manufacturability. In automotive object detection, we report improved detection performance over existing designs even when simplifying designs to two- or three-element lenses, despite significantly degrading the image quality.
翻訳日:2023-03-29 19:08:45 公開日:2023-03-27
# 視聴覚異常検出による自己監視ビデオ鑑識

Self-Supervised Video Forensics by Audio-Visual Anomaly Detection ( http://arxiv.org/abs/2301.01767v2 )

ライセンス: Link先を確認
Chao Feng, Ziyang Chen, Andrew Owens(参考訳) 操作ビデオには、視覚信号と音声信号の間に微妙な矛盾があることが多い。 そこで本研究では,このような不整合を識別し,ラベルのない実データのみを用いて訓練できる映像解析手法を提案する。 ビデオフレームと音声の時間同期をキャプチャする特徴セットを用いて,自動回帰モデルを用いて音声・視覚特徴のシーケンスを生成する。 テスト時には、モデルが低い確率を割り当てたビデオにフラグを付ける。 実映像のみを訓練したものの,操作された音声映像の検出作業において強い性能を得られた。 プロジェクトサイト: https://cfeng16.github.io/audio-visual-forensics

Manipulated videos often contain subtle inconsistencies between their visual and audio signals. We propose a video forensics method, based on anomaly detection, that can identify these inconsistencies, and that can be trained solely using real, unlabeled data. We train an autoregressive model to generate sequences of audio-visual features, using feature sets that capture the temporal synchronization between video frames and sound. At test time, we then flag videos that the model assigns low probability. Despite being trained entirely on real videos, our model obtains strong performance on the task of detecting manipulated speech videos. Project site: https://cfeng16.github.io/audio-visual-forensics
翻訳日:2023-03-29 18:59:48 公開日:2023-03-27
# 運転者の行動監視方法とツール

Methods and Tools for Monitoring Driver's Behavior ( http://arxiv.org/abs/2301.12269v2 )

ライセンス: Link先を確認
Muhammad Tanveer Jan, Sonia Moshfeghi, Joshua William Conniff, Jinwoo Jang, Kwangsoo Yang, Jiannan Zhai, Monica Rosselli, David Newman, Ruth Tappen, Borko Furht(参考訳) 車内センシング技術は、コネクテッドカーや自動運転車といった主要な技術開発をサポートする能力により、大きな注目を集めている。 車内センシングデータは交通管理システムにとって貴重なデータソースである。 本稿では,非邪魔な車内センサの革新的なアーキテクチャと,運転者の動作を測定するための方法とツールを提案する。 我々のNIHプロジェクトでは,早期認知症ドライバの監視と識別にメソッドやツールを含むアーキテクチャが用いられている。

In-vehicle sensing technology has gained tremendous attention due to its ability to support major technological developments, such as connected vehicles and self-driving cars. In-vehicle sensing data are invaluable and important data sources for traffic management systems. In this paper we propose an innovative architecture of unobtrusive in-vehicle sensors and present methods and tools that are used to measure the behavior of drivers. The proposed architecture including methods and tools are used in our NIH project to monitor and identify older drivers with early dementia
翻訳日:2023-03-29 18:50:44 公開日:2023-03-27
# ニューラルダイアログチューニングの可能性と課題

Opportunities and Challenges in Neural Dialog Tutoring ( http://arxiv.org/abs/2301.09919v2 )

ライセンス: Link先を確認
Jakub Macina, Nico Daheim, Lingzhi Wang, Tanmay Sinha, Manu Kapur, Iryna Gurevych, Mrinmaya Sachan(参考訳) ダイアログ・チューターの設計は、人間のチューターが採用する多様で複雑な教育戦略をモデル化する。 大規模言語モデル(LLM)を用いたニューラルな会話システムの進歩と利用可能な対話コーパスの成長は近年顕著に進んでいるが、ダイアログ学習はこれらの進歩に大きく影響を受けていない。 本稿では,これらの進歩によってもたらされる新たな機会を理解するために,言語学習のための2つのダイアログ学習データセット上で,様々な生成言語モデルを厳密に解析し,実際の教育環境において使用可能なモデルを構築する上での課題について考察する。 現在のアプローチは、指導すべき概念の数や可能な教師戦略が小さい場合、制約のある学習シナリオで学習をモデル化できるが、制約の少ないシナリオでは成績が悪い。 人的品質評価は,学生の学習機会を測り,ダイアログのエンゲージメントの程度を測る等式学習において,モデルと地味アノテーションの両方が低い性能を示すことを示している。 実際の学習環境でのモデルの振る舞いを理解するため,専門家アノテータを用いたユーザスタディを行い,会話の45%でモデル推論エラーを著しく多く発見する。 最後に,今後の成果の概要をまとめる。

Designing dialog tutors has been challenging as it involves modeling the diverse and complex pedagogical strategies employed by human tutors. Although there have been significant recent advances in neural conversational systems using large language models (LLMs) and growth in available dialog corpora, dialog tutoring has largely remained unaffected by these advances. In this paper, we rigorously analyze various generative language models on two dialog tutoring datasets for language learning using automatic and human evaluations to understand the new opportunities brought by these advances as well as the challenges we must overcome to build models that would be usable in real educational settings. We find that although current approaches can model tutoring in constrained learning scenarios when the number of concepts to be taught and possible teacher strategies are small, they perform poorly in less constrained scenarios. Our human quality evaluation shows that both models and ground-truth annotations exhibit low performance in terms of equitable tutoring, which measures learning opportunities for students and how engaging the dialog is. To understand the behavior of our models in a real tutoring setting, we conduct a user study using expert annotators and find a significantly large number of model reasoning errors in 45% of conversations. Finally, we connect our findings to outline future work.
翻訳日:2023-03-29 18:50:28 公開日:2023-03-27
# サーロゲートモデリングによる効率的な活性化関数最適化

Efficient Activation Function Optimization through Surrogate Modeling ( http://arxiv.org/abs/2301.05785v2 )

ライセンス: Link先を確認
Garrett Bingham and Risto Miikkulainen(参考訳) 慎重に設計されたアクティベーション機能は、多くの機械学習タスクにおけるニューラルネットワークのパフォーマンスを改善することができる。 しかし、人間が最適な活性化関数を構築することは困難であり、現在の活性化関数探索アルゴリズムは極めて高価である。 本研究の目的は, コンボリューション, 残留, 視覚トランスフォーマーの訓練により, act-bench-cnn, act-bench-resnet, act-bench-vitのベンチマークデータセットを2,913個の系統的生成アクティベーション関数を用いてスクラッチから作成することである。 第2に,ベンチマーク空間のキャラクタリゼーションが開発され,新たなサロゲートに基づく最適化手法が開発された。 より具体的には、初期化時のモデルの予測分布と活性化関数の出力分布に関連するフィッシャー情報行列のスペクトルは、高い性能予測値であることが判明した。 第3に、surrogateはcifar-100とimagenetタスクのアクティベーション機能を改善するために使用された。 これらのステップはいずれもそれ自体が貢献しており、アクティベーション関数の最適化に関するさらなる研究のための実践的で理論的な基礎となっている。 コードはhttps://github.com/cognizant-ai-labs/aquasurfで利用可能であり、ベンチマークデータセットはhttps://github.com/cognizant-ai-labs/act-benchにある。

Carefully designed activation functions can improve the performance of neural networks in many machine learning tasks. However, it is difficult for humans to construct optimal activation functions, and current activation function search algorithms are prohibitively expensive. This paper aims to improve the state of the art through three steps: First, the benchmark datasets Act-Bench-CNN, Act-Bench-ResNet, and Act-Bench-ViT were created by training convolutional, residual, and vision transformer architectures from scratch with 2,913 systematically generated activation functions. Second, a characterization of the benchmark space was developed, leading to a new surrogate-based method for optimization. More specifically, the spectrum of the Fisher information matrix associated with the model's predictive distribution at initialization and the activation function's output distribution were found to be highly predictive of performance. Third, the surrogate was used to discover improved activation functions in CIFAR-100 and ImageNet tasks. Each of these steps is a contribution in its own right; together they serve as a practical and theoretical foundation for further research on activation function optimization. Code is available at https://github.com/cognizant-ai-labs/aquasurf, and the benchmark datasets are at https://github.com/cognizant-ai-labs/act-bench.
翻訳日:2023-03-29 18:49:14 公開日:2023-03-27
# 量子誤差補正のための変分量子アルゴリズムの高速化

Improving the speed of variational quantum algorithms for quantum error correction ( http://arxiv.org/abs/2301.05273v2 )

ライセンス: Link先を確認
Fabio Zoratti, Giacomo De Palma, Bobak Kiani, Quynh T. Nguyen, Milad Marvian, Seth Lloyd, Vittorio Giovannetti(参考訳) 本稿では、量子回路に作用する汎用量子ノイズに対して、適切な量子誤り補正(QEC)手順を考案する問題を考察する。 一般に、符号化と補正のユニタリゲートを得るための解析的な普遍的な手続きは存在せず、ノイズが不明で再構成が必要ならば問題はさらに困難である。 既存の手順は変分量子アルゴリズム(VQA)に依存しており、コスト関数の勾配の大きさは量子ビット数とともに指数関数的に減衰するため、訓練は非常に困難である。 我々は、オーダー1の量子ワッサースタイン距離(qw_1$)に基づくコスト関数を用いてこの問題に対処する。 量子情報処理で一般的に用いられる他の量子距離との分散において、$QW_1$はユニタリ不変性に欠けており、局所ミニマに閉じ込められるのを避けるのに適したツールである。 精度の高いQEC解が知られ理論的なベンチマークとして使用できる単純なノイズモデルに焦点をあて、VQA探索を$QW_1$で導くことによって、従来の手法を用いて得られた結果に対して、学習の成功率と回復状態の忠実度の両方を著しく向上させることができることを示す一連の数値実験を行う。

We consider the problem of devising a suitable Quantum Error Correction (QEC) procedures for a generic quantum noise acting on a quantum circuit. In general, there is no analytic universal procedure to obtain the encoding and correction unitary gates, and the problem is even harder if the noise is unknown and has to be reconstructed. The existing procedures rely on Variational Quantum Algorithms (VQAs) and are very difficult to train since the size of the gradient of the cost function decays exponentially with the number of qubits. We address this problem using a cost function based on the Quantum Wasserstein distance of order 1 ($QW_1$). At variance with other quantum distances typically adopted in quantum information processing, $QW_1$ lacks the unitary invariance property which makes it a suitable tool to avoid to get trapped in local minima. Focusing on a simple noise model for which an exact QEC solution is known and can be used as a theoretical benchmark, we run a series of numerical tests that show how, guiding the VQA search through the $QW_1$, can indeed significantly increase both the probability of a successful training and the fidelity of the recovered state, with respect to the results one obtains when using conventional approaches.
翻訳日:2023-03-29 18:48:47 公開日:2023-03-27
# STB-VMM:スウィントランスによる動画モーション拡大

STB-VMM: Swin Transformer Based Video Motion Magnification ( http://arxiv.org/abs/2302.10001v2 )

ライセンス: Link先を確認
Ricard Lado-Roig\'e, Marco A. P\'erez(参考訳) ビデオモーション拡大技術の目的は、ビデオ内の小さな動きを拡大して、これまで目に見えない、あるいは見えない動きを明らかにすることである。 その用途は、生体医学的応用やディープフェイク検出から、構造的様相解析や予測的メンテナンスにまで及んでいる。 しかし、特に非常に微妙な、しばしばサブピクセルの動きを拡大しようとする場合、ノイズから小さな動きを識別することは複雑な作業である。 結果として、運動拡大技術は一般にノイズとぼやけた出力に苦しむ。 この研究は、スウィントランスに基づく新しい最先端のモデルを提供し、ノイズの入力に対する耐性と、先行技術よりもノイズ、ぼやけ、アーティファクトの少ない高品質な出力を提供する。 出力画像の品質の向上は、拡大されたビデオシーケンスに依存するアプリケーションに対してより正確な測定を可能にし、新しい技術分野におけるビデオモーション倍率技術のさらなる発展を可能にする。

The goal of video motion magnification techniques is to magnify small motions in a video to reveal previously invisible or unseen movement. Its uses extend from bio-medical applications and deepfake detection to structural modal analysis and predictive maintenance. However, discerning small motion from noise is a complex task, especially when attempting to magnify very subtle, often sub-pixel movement. As a result, motion magnification techniques generally suffer from noisy and blurry outputs. This work presents a new state-of-the-art model based on the Swin Transformer, which offers better tolerance to noisy inputs as well as higher-quality outputs that exhibit less noise, blurriness, and artifacts than prior-art. Improvements in output image quality will enable more precise measurements for any application reliant on magnified video sequences, and may enable further development of video motion magnification techniques in new technical fields.
翻訳日:2023-03-29 18:43:23 公開日:2023-03-27
# 最小幅の補間ニューラルネットワークの一般化と安定性

Generalization and Stability of Interpolating Neural Networks with Minimal Width ( http://arxiv.org/abs/2302.09235v2 )

ライセンス: Link先を確認
Hossein Taheri, Christos Thrampoulidis(参考訳) 補間系における勾配降下法により学習した浅層ニューラルネットワーク分類器の一般化と最適化特性について検討する。 具体的には、モデルウェイトが任意に小さなトレーニングエラーを達成でき、初期化からの距離が$g(\epsilon)$であるような実現可能なシナリオでは、$n$のトレーニングデータによる勾配勾配がトレーニングエラーを達成し、$O(g(1/T)^2 /T)$と一般化エラーを反復で$O(g(1/T)^2 /n)$とすると、少なくとも$m=\Omega(g(1/T)^4)$隠れニューロンが存在する。 次に、我々の実現可能な設定は、モデルのニューラルネットワークカーネルによってデータを分離可能な特別なケースを含むことを示す。 これとロジスティック・ロスの最小化のために、トレーニング損失は与えられたニューロンの多対数数$m=\Omega(\log^4 (T))$で$\tilde O(1/T)$で減衰する。 さらに、$m=\Omega(\log^{4} (n))$のニューロンと$T\approx n$の反復で、テスト損失を$\tilde{O}(1/n)$に制限する。 提案手法は, 多項式幅と準最適汎化率を必要とするアルゴリズム・スタビリティ・フレームワークを用いて, 既存の一般化結果と異なる。 我々の分析の中心は、新しい自己束縛された弱凸性を使用することであり、十分なパラメータ化ニューラルネットワーク分類器に対する一般化された局所準凸性をもたらす。 最終的に、目的の非凸性にもかかわらず、これは線型ロジスティック回帰の凸設定に見られるような収束と一般化ギャップ境界をもたらす。

We investigate the generalization and optimization properties of shallow neural-network classifiers trained by gradient descent in the interpolating regime. Specifically, in a realizable scenario where model weights can achieve arbitrarily small training error $\epsilon$ and their distance from initialization is $g(\epsilon)$, we demonstrate that gradient descent with $n$ training data achieves training error $O(g(1/T)^2 /T)$ and generalization error $O(g(1/T)^2 /n)$ at iteration $T$, provided there are at least $m=\Omega(g(1/T)^4)$ hidden neurons. We then show that our realizable setting encompasses a special case where data are separable by the model's neural tangent kernel. For this and logistic-loss minimization, we prove the training loss decays at a rate of $\tilde O(1/ T)$ given polylogarithmic number of neurons $m=\Omega(\log^4 (T))$. Moreover, with $m=\Omega(\log^{4} (n))$ neurons and $T\approx n$ iterations, we bound the test loss by $\tilde{O}(1/n)$. Our results differ from existing generalization outcomes using the algorithmic-stability framework, which necessitate polynomial width and yield suboptimal generalization rates. Central to our analysis is the use of a new self-bounded weak-convexity property, which leads to a generalized local quasi-convexity property for sufficiently parameterized neural-network classifiers. Eventually, despite the objective's non-convexity, this leads to convergence and generalization-gap bounds that resemble those found in the convex setting of linear logistic regression.
翻訳日:2023-03-29 18:43:01 公開日:2023-03-27
# 量子シミュレーションによる対称性保護部分空間の自動検出

Automated detection of symmetry-protected subspaces in quantum simulations ( http://arxiv.org/abs/2302.08586v3 )

ライセンス: Link先を確認
Caleb Rotello, Eric B. Jones, Peter Graf, Eliot Kapit(参考訳) 量子系における対称性の分析は理論的に最も重要であり、様々な応用や実験的な設定で有用であり、一般に達成することは困難である。 対称性は、ヒルベルト空間を時間発展作用素の不変部分空間に分割する保存則を意味し、それぞれはその保存された量に応じて境界づけられる。 選択された基底から、その基底で対角的な対称保護部分空間は、$k$局所ユニタリ演算の下での状態-状態遷移を表すグラフ上の推移的閉包を用いて発見可能であることを示す。 重要なことに、これらの部分空間の発見は対称性作用素や固有値の明示的な同定にもヒルベルト空間次元全体の行列の構成にも依存しない。 我々は,これらの部分空間の特徴を効率的に計算し,解明する2つの古典的アルゴリズムを導入する。 第1のアルゴリズムは、局所基底状態-基底状態遷移を閉じることで、部分空間のサイズに線形な初期状態の対称性で保護された部分空間全体を探索する。 第2のアルゴリズムは、動的生成状態の測定結果が動的システムが初期化される状態の対称性保護された部分空間内にある場合、有界誤差で決定する。 本研究では,Heisenberg-XXXモデルと$T_6$および$F_4$量子セルオートマトンという3種類の力学系のエミュレートされたノイズ量子シミュレーションから生成されたデータに対して,これらのアルゴリズムの適用性を示す。 これらのアルゴリズムは、量子コンピュータデータのポストセレクション、量子システムの最適化された古典的シミュレーション、そして以前に量子力学系に隠されていた対称性の発見に有効である。

The analysis of symmetry in quantum systems is of utmost theoretical importance, useful in a variety of applications and experimental settings, and is difficult to accomplish in general. Symmetries imply conservation laws, which partition Hilbert space into invariant subspaces of the time-evolution operator, each of which is demarcated according to its conserved quantity. We show that, starting from a chosen basis, any invariant, symmetry-protected subspaces which are diagonal in that basis are discoverable using transitive closure on graphs representing state-to-state transitions under $k$-local unitary operations. Importantly, the discovery of these subspaces relies neither upon the explicit identification of a symmetry operator or its eigenvalues nor upon the construction of matrices of the full Hilbert space dimension. We introduce two classical algorithms, which efficiently compute and elucidate features of these subspaces. The first algorithm explores the entire symmetry-protected subspace of an initial state in time complexity linear to the size of the subspace by closing local basis state-to-basis state transitions. The second algorithm determines, with bounded error, if a given measurement outcome of a dynamically-generated state is within the symmetry-protected subspace of the state in which the dynamical system is initialized. We demonstrate the applicability of these algorithms by performing post-selection on data generated from emulated noisy quantum simulations of three different dynamical systems: the Heisenberg-XXX model and the $T_6$ and $F_4$ quantum cellular automata. Due to their efficient computability and indifference to identifying the underlying symmetry, these algorithms lend themselves to the post-selection of quantum computer data, optimized classical simulation of quantum systems, and the discovery of previously hidden symmetries in quantum mechanical systems.
翻訳日:2023-03-29 18:42:10 公開日:2023-03-27
# PolyFormer: 逐次ポリゴン生成としてイメージセグメンテーションを参照

PolyFormer: Referring Image Segmentation as Sequential Polygon Generation ( http://arxiv.org/abs/2302.07387v2 )

ライセンス: Link先を確認
Jiang Liu, Hui Ding, Zhaowei Cai, Yuting Zhang, Ravi Kumar Satzoda, Vijay Mahadevan, R. Manmatha(参考訳) 本研究では,画素レベルのセグメンテーションマスクを直接予測するのではなく,画像セグメンテーションを参照する問題を逐次ポリゴン生成として定式化し,予測ポリゴンを後にセグメンテーションマスクに変換する。 これは新しいシーケンスからシーケンスへのフレームワークPolygon Transformer(PolyFormer)によって実現され、画像パッチとテキストクエリトークンのシーケンスを入力として取り、ポリゴン頂点のシーケンスを自動回帰的に出力する。 より正確な幾何学的局所化のために,座標量子化誤差を伴わずに正確な浮動小数点座標を直接予測する回帰型デコーダを提案する。 実験では、ポリフォーマーは、挑戦的なrefcoco+とrefcocogデータセットの絶対的な改善である5.40%と4.52%といった明確なマージンで先行技術を上回る。 また、ref-davis17データセットで61.5%のj&fを達成するなど、微調整せずに参照ビデオセグメンテーションタスクで評価した場合、強力な一般化能力を示す。

In this work, instead of directly predicting the pixel-level segmentation masks, the problem of referring image segmentation is formulated as sequential polygon generation, and the predicted polygons can be later converted into segmentation masks. This is enabled by a new sequence-to-sequence framework, Polygon Transformer (PolyFormer), which takes a sequence of image patches and text query tokens as input, and outputs a sequence of polygon vertices autoregressively. For more accurate geometric localization, we propose a regression-based decoder, which predicts the precise floating-point coordinates directly, without any coordinate quantization error. In the experiments, PolyFormer outperforms the prior art by a clear margin, e.g., 5.40% and 4.52% absolute improvements on the challenging RefCOCO+ and RefCOCOg datasets. It also shows strong generalization ability when evaluated on the referring video segmentation task without fine-tuning, e.g., achieving competitive 61.5% J&F on the Ref-DAVIS17 dataset.
翻訳日:2023-03-29 18:41:44 公開日:2023-03-27
# マクロ配置のための強化学習の評価

Assessment of Reinforcement Learning for Macro Placement ( http://arxiv.org/abs/2302.11014v2 )

ライセンス: Link先を確認
Chung-Kuan Cheng, Andrew B. Kahng, Sayak Kundu, Yucheng Wang, Zhiang Wang(参考訳) 我々は、マクロ配置に対するGoogle Brainの深層強化学習アプローチと、GitHubにおけるサーキットトレーニング(CT)実装のオープンで透明な実装と評価を提供する。 我々は,CTのオープンソースキー"ブラックボックス"要素を実装し,CTとNature論文の相違を明らかにする。 オープンイネーブルに関する新しいテストケースが開発され、リリースされます。 我々はCTを複数の代替マクロプレースラと共に評価し、すべての評価フローと関連するスクリプトをGitHubで公開しています。 また, 実験は, アブレーションと安定性の研究と同様に, 学術的混合サイズの配置ベンチマークを包含する。 我々は自然とCTの影響と今後の研究の方向性についてコメントする。

We provide open, transparent implementation and assessment of Google Brain's deep reinforcement learning approach to macro placement and its Circuit Training (CT) implementation in GitHub. We implement in open source key "blackbox" elements of CT, and clarify discrepancies between CT and Nature paper. New testcases on open enablements are developed and released. We assess CT alongside multiple alternative macro placers, with all evaluation flows and related scripts public in GitHub. Our experiments also encompass academic mixed-size placement benchmarks, as well as ablation and stability studies. We comment on the impact of Nature and CT, as well as directions for future research.
翻訳日:2023-03-29 18:30:47 公開日:2023-03-27
# 3DGen: 3次元遅延拡散によるメッシュ生成

3DGen: Triplane Latent Diffusion for Textured Mesh Generation ( http://arxiv.org/abs/2303.05371v2 )

ライセンス: Link先を確認
Anchit Gupta, Wenhan Xiong, Yixin Nie, Ian Jones, Barlas O\u{g}uz(参考訳) 画像生成のための遅延拡散モデルは、大量導入を実現するための品質閾値を超えた。 近年、この成功を3Dドメインで再現するための一連の研究が進められており、ポイントクラウドVAE、トリプレーン表現、ニューラル暗黙表面、微分レンダリングベースのトレーニングなどの技術が導入されている。 この方向にさらに一歩進み、これらの開発を2段階のパイプラインで組み合わせます。 1) テクスチャメッシュの潜在表現を学習できる三面体VAE 2)三面体の特徴を生成する条件拡散モデル。 このアーキテクチャで初めて、複数のカテゴリにわたる高品質なテクスチャや非テキストの3dメッシュを、1つのgpu上で数秒で条件付きかつ無条件に生成できる。 メッシュの品質とテクスチャ生成に対するイメージコンディショニングと非コンディショナリ生成において、従来よりも大幅に優れていた。 さらに,モデルから大規模データセットへのスケーラビリティを実証し,品質と多様性を向上させる。 コードとトレーニングされたモデルをリリースします。

Latent diffusion models for image generation have crossed a quality threshold which enabled them to achieve mass adoption. Recently, a series of works have made advancements towards replicating this success in the 3D domain, introducing techniques such as point cloud VAE, triplane representation, neural implicit surfaces and differentiable rendering based training. We take another step along this direction, combining these developments in a two-step pipeline consisting of 1) a triplane VAE which can learn latent representations of textured meshes and 2) a conditional diffusion model which generates the triplane features. For the first time this architecture allows conditional and unconditional generation of high quality textured or untextured 3D meshes across multiple diverse categories in a few seconds on a single GPU. It outperforms previous work substantially on image-conditioned and unconditional generation on mesh quality as well as texture generation. Furthermore, we demonstrate the scalability of our model to large datasets for increased quality and diversity. We will release our code and trained models.
翻訳日:2023-03-29 18:22:07 公開日:2023-03-27
# 空間フォトニックボルツマンマシン:空間光変調による低ランク組合せ最適化と統計的学習

Spatial-photonic Boltzmann machines: low-rank combinatorial optimization and statistical learning by spatial light modulation ( http://arxiv.org/abs/2303.14993v1 )

ライセンス: Link先を確認
Hiroshi Yamashita, Ken-ichi Okubo, Suguru Shimomura, Yusuke Ogura, Jun Tanida, Hideyuki Suzuki(参考訳) 空間フォトニックイジングマシン (SPIM) [D. Pierangeli et al., Phys. Lett. 122, 213902 (2019)] は、空間光変調を利用して、大規模な組合せ最適化問題を効率的に解くための有望な光学アーキテクチャである。 しかし、SPIMは級数1の相互作用行列のみでIsing問題に対応でき、様々な実世界の問題に適用可能である。 本稿では,任意のイジング問題に光学的実装を変更せずに対応可能なspmの新しい計算モデルを提案する。 提案モデルはクナップサック問題のような低位相互作用行列のイジング問題において特に効率的である。 さらに、このモデルは学習能力を獲得し、空間フォトニック・ボルツマン・マシン(SPBM)と呼ばれることができる。 低ランク相互作用を持つSPBMを用いて,MNIST手書き桁画像の学習,分類,サンプリングを効率的に行うことを示す。 そこで,SPBMモデルでは,SPIMアーキテクチャに固有のスケーラビリティを損なうことなく,組合せ最適化と統計的学習の様々な問題に対して高い実用性を示す。

The spatial-photonic Ising machine (SPIM) [D. Pierangeli et al., Phys. Rev. Lett. 122, 213902 (2019)] is a promising optical architecture utilizing spatial light modulation for solving large-scale combinatorial optimization problems efficiently. However, the SPIM can accommodate Ising problems with only rank-one interaction matrices, which limits its applicability to various real-world problems. In this Letter, we propose a new computing model for the SPIM that can accommodate any Ising problem without changing its optical implementation. The proposed model is particularly efficient for Ising problems with low-rank interaction matrices, such as knapsack problems. Moreover, the model acquires learning ability and can thus be termed a spatial-photonic Boltzmann machine (SPBM). We demonstrate that learning, classification, and sampling of the MNIST handwritten digit images are achieved efficiently using SPBMs with low-rank interactions. Thus, the proposed SPBM model exhibits higher practical applicability to various problems of combinatorial optimization and statistical learning, without losing the scalability inherent in the SPIM architecture.
翻訳日:2023-03-29 18:04:57 公開日:2023-03-27
# 実証による強化学習と計画の促進:調査

Boosting Reinforcement Learning and Planning with Demonstrations: A Survey ( http://arxiv.org/abs/2303.13489v2 )

ライセンス: Link先を確認
Tongzhou Mu, Hao Su(参考訳) 強化学習は近年大きな成功を収めているが、このような試行錯誤学習は複雑な環境では実用的でも非効率的でもある。 一方、デモンストレーションを使用することで、エージェントは探索を通じて最善の行動を見つけることなく、専門家の知識の恩恵を受けることができる。 本研究では,逐次的意思決定におけるデモンストレーションの利用の利点,学習に基づく意思決定パラダイム(学習モデルにおける強化学習と計画)におけるデモンストレーションの適用方法,様々なシナリオにおけるデモンストレーションの収集方法について検討する。 さらに,最近提案されたマニスキルロボット学習ベンチマークにおいて,実演を生成・活用するための実践的パイプラインを例示する。

Although reinforcement learning has seen tremendous success recently, this kind of trial-and-error learning can be impractical or inefficient in complex environments. The use of demonstrations, on the other hand, enables agents to benefit from expert knowledge rather than having to discover the best action to take through exploration. In this survey, we discuss the advantages of using demonstrations in sequential decision making, various ways to apply demonstrations in learning-based decision making paradigms (for example, reinforcement learning and planning in the learned models), and how to collect the demonstrations in various scenarios. Additionally, we exemplify a practical pipeline for generating and utilizing demonstrations in the recently proposed ManiSkill robot learning benchmark.
翻訳日:2023-03-29 18:04:35 公開日:2023-03-27
# 大型視覚言語モデルのゼロショット推論における校正

Enabling Calibration In The Zero-Shot Inference of Large Vision-Language Models ( http://arxiv.org/abs/2303.12748v2 )

ライセンス: Link先を確認
Will LeVine, Benjamin Pikus, Pranav Raj, and Fernando Amat Gil(参考訳) 深層学習モデルの校正は信頼性と安全な使用に不可欠であり、分類モデルにおいて、誤校正を減らす手法を用いて広範囲に研究されている。 しかし、CLIPのようなゼロショット推論に使用される視覚言語モデルの校正に関する包括的な研究はまだ行われていない。 我々は,プロンプト,データセット,アーキテクチャといった関連する変数のキャリブレーションを測定し,クリップによるゼロショット推論が誤りであることを確認した。 さらに、ゼロショット推論モデルとしてCLIPの一般的な使用事例と整合した温度スケーリングの修正版を提案し、単一の学習温度が推論データセットをまたいだ特定のCLIPモデル(選択した事前学習データセットとアーキテクチャで定義される)毎に一般化し、選択を促すことを示す。

Calibration of deep learning models is crucial to their trustworthiness and safe usage, and as such, has been extensively studied in supervised classification models, with methods crafted to decrease miscalibration. However, there has yet to be a comprehensive study of the calibration of vision-language models that are used for zero-shot inference, like CLIP. We measure calibration across relevant variables like prompt, dataset, and architecture, and find that zero-shot inference with CLIP is miscalibrated. Furthermore, we propose a modified version of temperature scaling that is aligned with the common use cases of CLIP as a zero-shot inference model, and show that a single learned temperature generalizes for each specific CLIP model (defined by a chosen pre-training dataset and architecture) across inference dataset and prompt choice.
翻訳日:2023-03-29 18:02:49 公開日:2023-03-27
# 授業増分学習のための意味視覚変換器

Semantic-visual Guided Transformer for Few-shot Class-incremental Learning ( http://arxiv.org/abs/2303.15494v1 )

ライセンス: Link先を確認
Wenhao Qiu, Sichao Fu, Jingyi Zhang, Chengxiang Lei, Qinmu Peng(参考訳) FSCIL(Few-shot class-incremental Learning)は近年,様々な分野で注目されている。 既存のFSCILメソッドは、ベースクラスで事前訓練された機能バックボーンの堅牢性に大きく依存する。 近年、異なる変圧器変種が大規模場の特徴表現学習において重要なプロセスを得ている。 しかしながら、FSCILシナリオにおけるTransformerの進歩は、これまで他の分野で約束されていた可能性を達成するには至っていない。 本稿では,インクリメンタルなクラスにおいて,事前学習した機能バックボーンの機能抽出能力を高めるために,セマンティックビジュアルガイド型トランス (SV-T) を開発した。 具体的には、まずベースクラスが提供する視覚(画像)ラベルを使用してトランスフォーマの最適化を監督する。 そして、テキストエンコーダを導入して、ベースクラスから各画像の対応する意味(テキスト)ラベルを自動的に生成する。 最後に、構築された意味ラベルをトランスフォーマーにさらに適用し、ハイパーパラメータの更新を導く。 私たちのsv-tは、ベースクラスからの監視情報を最大限に活用し、機能バックボーンのトレーニング堅牢性をさらに向上できます。 さらに重要なことは、SV-Tは独立した手法であり、様々な漸進クラスの埋め込みを取得するために既存のFSCILアーキテクチャに直接適用できます。 3つのベンチマーク,2つのFSCILアーキテクチャ,および2つのTransformer変種に対する大規模な実験により,提案したSV-Tは,既存のFSCIL法と比較して大幅に改善された。

Few-shot class-incremental learning (FSCIL) has recently attracted extensive attention in various areas. Existing FSCIL methods highly depend on the robustness of the feature backbone pre-trained on base classes. In recent years, different Transformer variants have obtained significant processes in the feature representation learning of massive fields. Nevertheless, the progress of the Transformer in FSCIL scenarios has not achieved the potential promised in other fields so far. In this paper, we develop a semantic-visual guided Transformer (SV-T) to enhance the feature extracting capacity of the pre-trained feature backbone on incremental classes. Specifically, we first utilize the visual (image) labels provided by the base classes to supervise the optimization of the Transformer. And then, a text encoder is introduced to automatically generate the corresponding semantic (text) labels for each image from the base classes. Finally, the constructed semantic labels are further applied to the Transformer for guiding its hyperparameters updating. Our SV-T can take full advantage of more supervision information from base classes and further enhance the training robustness of the feature backbone. More importantly, our SV-T is an independent method, which can directly apply to the existing FSCIL architectures for acquiring embeddings of various incremental classes. Extensive experiments on three benchmarks, two FSCIL architectures, and two Transformer variants show that our proposed SV-T obtains a significant improvement in comparison to the existing state-of-the-art FSCIL methods.
翻訳日:2023-03-29 17:47:12 公開日:2023-03-27
# 効率的なポイントクラウド解析のためのスパース畳み込みネットワーク

Binarizing Sparse Convolutional Networks for Efficient Point Cloud Analysis ( http://arxiv.org/abs/2303.15493v1 )

ライセンス: Link先を確認
Xiuwei Xu, Ziwei Wang, Jie Zhou, Jiwen Lu(参考訳) 本稿では,BSC-Netと呼ばれる二元分離型畳み込みネットワークを効率的な点群解析のために提案する。 スパース畳み込み演算が標準畳み込みよりも大きな量子化誤差を引き起こすことを実証的に観察する。 しかし,従来のネットワーク量子化手法では,重みとアクティベーションを直接二元化し,大きな量子化損失により性能が低下する。 対照的に,量子化誤差軽減のために様々な場所でスパース畳み込みを活性化する畳み込み操作の最適サブセットを探索し,実値とバイナリスパース畳み込みネットワークの性能ギャップを複雑さのオーバーヘッドなしにクローズする。 具体的には,まず,既定の位置にマッチするアクティブなサイトに対して,受容野の情報と融合するシフトしたスパース畳み込みを提案する。 そこで我々は,移動したスパース畳み込みにおけるサイトマッチングの最適オプションを発見するために,異なる探索手法を用い,効率的な点雲解析のために量子化誤差を著しく軽減する。 提案手法を公平に評価するために, 疎畳み込みネットワークバイナライゼーションに有用な最近の進歩を実証的に選択し, 強力なベースラインを構築する。 scan-net と nyu depth v2 の実験結果から,本手法はsrtong ベースラインにおいて有意な改善を達成し,分散畳み込みネットワークの計算オーバーヘッドを増加させることなく,最先端のネットワークバイナリ化手法を画期的なマージンで上回った。

In this paper, we propose binary sparse convolutional networks called BSC-Net for efficient point cloud analysis. We empirically observe that sparse convolution operation causes larger quantization errors than standard convolution. However, conventional network quantization methods directly binarize the weights and activations in sparse convolution, resulting in performance drop due to the significant quantization loss. On the contrary, we search the optimal subset of convolution operation that activates the sparse convolution at various locations for quantization error alleviation, and the performance gap between real-valued and binary sparse convolutional networks is closed without complexity overhead. Specifically, we first present the shifted sparse convolution that fuses the information in the receptive field for the active sites that match the pre-defined positions. Then we employ the differentiable search strategies to discover the optimal opsitions for active site matching in the shifted sparse convolution, and the quantization errors are significantly alleviated for efficient point cloud analysis. For fair evaluation of the proposed method, we empirically select the recently advances that are beneficial for sparse convolution network binarization to construct a strong baseline. The experimental results on Scan-Net and NYU Depth v2 show that our BSC-Net achieves significant improvement upon our srtong baseline and outperforms the state-of-the-art network binarization methods by a remarkable margin without additional computation overhead for binarizing sparse convolutional networks.
翻訳日:2023-03-29 17:46:51 公開日:2023-03-27
# 鉄道網の遅延進化 : 不均一グラフニューラルネットワークアプローチ

Railway Network Delay Evolution: A Heterogeneous Graph Neural Network Approach ( http://arxiv.org/abs/2303.15489v1 )

ライセンス: Link先を確認
Zhongcan Li, Ping Huang, Chao Wen, Filipe Rodrigues(参考訳) 鉄道運用には、異なる種類のエンティティ(駅、列車など)が含まれており、既存のグラフ/ネットワークモデルと均質なノード(つまり同じノード)は、エンティティ間の相互作用を捉えることができない。 本稿では,鉄道網における列車遅延の進展を調べるために,異なる種類のノード(ヘテロジニアスノード)に対処できるヘテロジニアスグラフニューラルネットワーク(HetGNN)モデルを開発することを目的とする。 この目的のために,HetGNNモデルとGraphSAGE同種GNN(HomoGNN)を組み合わせたグラフアーキテクチャ(SAGE-Het)を提案する。 その目的は、列車、列車、駅、駅その他の駅間の相互作用を、異なるエッジに基づいて遅延進化で捉えることである。 入力が一定の次元(例えば長方形やグリッドのような配列)を持つか、グラフ内の均質なノードのみを許容する従来の方法とは対照的に、sage-hetは柔軟な入力と異種ノードを可能にする。 提案したSAGE-Hetモデルの性能とロバスト性をテストするために,中国鉄道網の2つのサブネットワークのデータを適用した。 実験結果から,SAGE-Hetは既存の遅延予測手法よりも優れた性能を示し,他の予測タスクに使用される高度HtGNNよりも優れた性能を示し,SAGE-Hetの予測性能(10/20/30分前)は他のベースライン法よりも優れており,特に,遅延伝搬に対する列車相互作用の影響について検討した。 その結果,列車の進路が増加すると列車間の相互作用が微妙になることがわかった。 この発見は、コンフリクト解決またはトレインキャンセルアクションが必要な状況における意思決定に直接貢献する。

Railway operations involve different types of entities (stations, trains, etc.), making the existing graph/network models with homogenous nodes (i.e., the same kind of nodes) incapable of capturing the interactions between the entities. This paper aims to develop a heterogeneous graph neural network (HetGNN) model, which can address different types of nodes (i.e., heterogeneous nodes), to investigate the train delay evolution on railway networks. To this end, a graph architecture combining the HetGNN model and the GraphSAGE homogeneous GNN (HomoGNN), called SAGE-Het, is proposed. The aim is to capture the interactions between trains, trains and stations, and stations and other stations on delay evolution based on different edges. In contrast to the traditional methods that require the inputs to have constant dimensions (e.g., in rectangular or grid-like arrays) or only allow homogeneous nodes in the graph, SAGE-Het allows for flexible inputs and heterogeneous nodes. The data from two sub-networks of the China railway network are applied to test the performance and robustness of the proposed SAGE-Het model. The experimental results show that SAGE-Het exhibits better performance than the existing delay prediction methods and some advanced HetGNNs used for other prediction tasks; the predictive performances of SAGE-Het under different prediction time horizons (10/20/30 min ahead) all outperform other baseline methods; Specifically, the influences of train interactions on delay propagation are investigated based on the proposed model. The results show that train interactions become subtle when the train headways increase . This finding directly contributes to decision-making in the situation where conflict-resolution or train-canceling actions are needed.
翻訳日:2023-03-29 17:46:18 公開日:2023-03-27
# 外部分布誤差予測における特徴分離性の重要性について

On the Importance of Feature Separability in Predicting Out-Of-Distribution Error ( http://arxiv.org/abs/2303.15488v1 )

ライセンス: Link先を確認
Renchunzi Xie, Hongxin Wei, Yuzhou Cao, Lei Feng, Bo An(参考訳) 基礎的真理ラベルを使わずに分布外データ(OOD)で一般化性能を推定することは事実上困難である。 従来の手法では分布差とood精度の関係を強調するが,領域ギャップが大きいと必ずしもテスト精度が低いとは限らない。 本稿では,特徴分離性の観点からこの問題を調査し,特徴分散に基づくデータセットレベルのスコアを提案し,分布シフト時のテスト精度を推定する。 本手法は,高クラス間分散と高クラス内コンパクト性という,表現学習における特徴の望ましい特性に着想を得たものである。 その結果, クラス間分散はモデル精度と強く相関するが, クラス内コンパクト性はoodデータの一般化性能を反映しないことがわかった。 予測性能と計算効率の両方において,本手法の優位性を示す実験を行った。

Estimating the generalization performance is practically challenging on out-of-distribution (OOD) data without ground truth labels. While previous methods emphasize the connection between distribution difference and OOD accuracy, we show that a large domain gap not necessarily leads to a low test accuracy. In this paper, we investigate this problem from the perspective of feature separability, and propose a dataset-level score based upon feature dispersion to estimate the test accuracy under distribution shift. Our method is inspired by desirable properties of features in representation learning: high inter-class dispersion and high intra-class compactness. Our analysis shows that inter-class dispersion is strongly correlated with the model accuracy, while intra-class compactness does not reflect the generalization performance on OOD data. Extensive experiments demonstrate the superiority of our method in both prediction performance and computational efficiency.
翻訳日:2023-03-29 17:45:44 公開日:2023-03-27
# 知識強化型グラフニューラルネットワーク

Knowledge Enhanced Graph Neural Networks ( http://arxiv.org/abs/2303.15487v1 )

ライセンス: Link先を確認
Luisa Werner (TYREX, UGA), Nabil Laya\"ida (LIG, TYREX), Pierre Genev\`es (TYREX, CNRS), Sarah Chlyah (TYREX)(参考訳) グラフデータは、万能的に存在し、自然科学、ソーシャルネットワーク、セマンティックウェブなど、多種多様なアプリケーションを持っている。 情報は豊富だが、グラフはしばしば騒がしく不完全である。 そのため,ノード分類やリンク予測などのグラフ補完タスクが注目されている。 一方で、グラフニューラルネットワークのようなニューラルメソッドは、ノイズの多いグラフの豊かな表現を学ぶための堅牢なツールであることが証明されている。 一方、記号的手法はグラフの正確な推論を可能にする。 両パラダイムを組み合わせたグラフデータ学習のためのニューラルネットワークフレームワークであるKeGNNを提案し,従来の知識をグラフニューラルネットワークモデルに統合する。 本質的に、KeGNNは、知識強化レイヤを積み重ねた基盤としてグラフニューラルネットワークで構成されており、事前知識に関する予測を精査する目的がある。 我々は、グラフ畳み込みネットワークとグラフアテンションネットワークという2つの標準的なグラフニューラルネットワークと組み合わせてkegnnをインスタンス化し、ノード分類のための複数のベンチマークデータセット上でkegnnを評価する。

Graph data is omnipresent and has a large variety of applications such as natural science, social networks or semantic web. Though rich in information, graphs are often noisy and incomplete. Therefore, graph completion tasks such as node classification or link prediction have gained attention. On the one hand, neural methods such as graph neural networks have proven to be robust tools for learning rich representations of noisy graphs. On the other hand, symbolic methods enable exact reasoning on graphs. We propose KeGNN, a neuro-symbolic framework for learning on graph data that combines both paradigms and allows for the integration of prior knowledge into a graph neural network model. In essence, KeGNN consists of a graph neural network as a base on which knowledge enhancement layers are stacked with the objective of refining predictions with respect to prior knowledge. We instantiate KeGNN in conjunction with two standard graph neural networks: Graph Convolutional Networks and Graph Attention Networks, and evaluate KeGNN on multiple benchmark datasets for node classification.
翻訳日:2023-03-29 17:45:29 公開日:2023-03-27
# 単モーダルトレーニングとマルチモーダル予測:階層的集約によるクロスモーダル・フェデレーション学習

Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning with Hierarchical Aggregation ( http://arxiv.org/abs/2303.15486v1 )

ライセンス: Link先を確認
Rongyu Zhang, Xiaowei Chi, Guiliang Liu, Wenyi Zhang, Yuan Du, Fangxin Wang(参考訳) マルチモーダル学習は、優れたモデル性能向上を伴う複数のモーダルからデータ特徴をマイニングすることに成功した。 一方、フェデレーション・ラーニング(fl)はデータ共有の問題に対処し、プライバシーを保った共同トレーニングによって十分な貴重なデータを提供できる。 したがって、大きなポテンシャルは、マルチモーダル連合学習として知られるそれらの合流によって生じる。 しかしながら、各ローカルデータセットがすべてのモダリティからサンプルを記録すると仮定することが多いため、制限は支配的なアプローチにある。 本稿では,一様学習-多様予測(UTMP)フレームワークを多様学習の文脈下で提案することで,このギャップを埋めることを目的とする。 HA-Fedformerというトランスフォーマーベースの新しいモデルを設計し、クライアントでの非モーダルデータセットのみによる一元学習と、複数のクライアントの知識をより正確に集約してマルチモーダルテストを実現する。 主な利点は2つある。 まず,非IIDデータの影響を軽減するため,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション手法を開発した。 第二に、不整合言語列の課題を克服するため、異なるモダリティのデータから訓練されたデコーダ間の隠れ信号相関を捉えるために、クロスモーダルデコーダアグリゲーションを実装した。 一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験では、HA-FedformerはUTMPフェデレーション学習フレームワークの下で最先端のマルチモーダルモデルよりも優れており、ほとんどの属性に対して15%-20%改善されている。

Multimodal learning has seen great success mining data features from multiple modalities with remarkable model performance improvement. Meanwhile, federated learning (FL) addresses the data sharing problem, enabling privacy-preserved collaborative training to provide sufficient precious data. Great potential, therefore, arises with the confluence of them, known as multimodal federated learning. However, limitation lies in the predominant approaches as they often assume that each local dataset records samples from all modalities. In this paper, we aim to bridge this gap by proposing an Unimodal Training - Multimodal Prediction (UTMP) framework under the context of multimodal federated learning. We design HA-Fedformer, a novel transformer-based model that empowers unimodal training with only a unimodal dataset at the client and multimodal testing by aggregating multiple clients' knowledge for better accuracy. The key advantages are twofold. Firstly, to alleviate the impact of data non-IID, we develop an uncertainty-aware aggregation method for the local encoders with layer-wise Markov Chain Monte Carlo sampling. Secondly, to overcome the challenge of unaligned language sequence, we implement a cross-modal decoder aggregation to capture the hidden signal correlation between decoders trained by data from different modalities. Our experiments on popular sentiment analysis benchmarks, CMU-MOSI and CMU-MOSEI, demonstrate that HA-Fedformer significantly outperforms state-of-the-art multimodal models under the UTMP federated learning frameworks, with 15%-20% improvement on most attributes.
翻訳日:2023-03-29 17:45:13 公開日:2023-03-27
# TOFA:Transfer-Once-for-All

TOFA: Transfer-Once-for-All ( http://arxiv.org/abs/2303.15485v1 )

ライセンス: Link先を確認
Achintya Kundu (IBM Research), Laura Wynter (IBM Research), Rhui Dih Lee (IBM Research), Luis Angel Bathen (IBM Research)(参考訳) 重量共有型ニューラルネットワークサーチは、リソース制約の異なる多くのデバイスにまたがるさまざまなデプロイメントシナリオに対して、設定可能なニューラルネットワークモデル(スーパーネット)を最適化することを目的としている。 既存のアプローチでは進化的探索を用いて、非常に大きなデータセットで訓練されたスーパーネットから多くのモデルを抽出し、典型的には小さな実世界のデータセットで抽出されたモデルを微調整する。 これにより、トレーニングの計算コストは、異なるモデル展開シナリオの数に応じて線形に増加する。 そこで我々は,任意のエッジ配置シナリオに対して一定の計算訓練コストの小さなデータセット上でのスーパーネット型トレーニングのためのTransfer-Once-For-All(TOFA)を提案する。 タスクを与えられたTOFAは、さまざまなエッジデプロイメントシナリオに最適化されたトポロジとウェイトの両方のカスタムニューラルネットワークを取得する。 小さなデータから生じる課題を克服するため、TOFAは、統合された半教師付きトレーニング損失を使用して、スーパーネット内のすべてのサブネットを同時にトレーニングし、デプロイ時にオンザフライアーキテクチャの選択と組み合わせる。

Weight-sharing neural architecture search aims to optimize a configurable neural network model (supernet) for a variety of deployment scenarios across many devices with different resource constraints. Existing approaches use evolutionary search to extract a number of models from a supernet trained on a very large data set, and then fine-tune the extracted models on the typically small, real-world data set of interest. The computational cost of training thus grows linearly with the number of different model deployment scenarios. Hence, we propose Transfer-Once-For-All (TOFA) for supernet-style training on small data sets with constant computational training cost over any number of edge deployment scenarios. Given a task, TOFA obtains custom neural networks, both the topology and the weights, optimized for any number of edge deployment scenarios. To overcome the challenges arising from small data, TOFA utilizes a unified semi-supervised training loss to simultaneously train all subnets within the supernet, coupled with on-the-fly architecture selection at deployment time.
翻訳日:2023-03-29 17:44:42 公開日:2023-03-27
# 自己による暗黙的神経表現の正規化

Regularize implicit neural representation by itself ( http://arxiv.org/abs/2303.15484v1 )

ライセンス: Link先を確認
Zhemin Li, Hongxia Wang, Deyu Meng(参考訳) Inlicit Neural Representation Regularizer (INRR) と呼ばれる正則化器を提案し、Inlicit Neural Representation (INR) の一般化能力を向上させる。 INRは完全に接続されたネットワークであり、グリッド解像度で制限されていない詳細で信号を表現できる。 しかし、その一般化能力は、特に一様でないサンプルデータによって改善される可能性がある。 提案したINRRは、行列の行/列間の類似度を測定する学習されたディリクレエネルギー(DE)に基づいている。 ラプラシアン行列の滑らかさは、de を小さい inr でパラメータ化することでさらに統合される。 INRRは信号の自己相似性をラプラス行列の滑らかさと完全に統合することで信号表現におけるINRの一般化を改善する。 また、よく設計された数値実験を通じて、収束軌道やマルチスケール類似性のような運動量法を含む、INRRから派生した一連の特性を明らかにした。 さらに,提案手法は,他の信号表現法の性能を向上させることができる。

This paper proposes a regularizer called Implicit Neural Representation Regularizer (INRR) to improve the generalization ability of the Implicit Neural Representation (INR). The INR is a fully connected network that can represent signals with details not restricted by grid resolution. However, its generalization ability could be improved, especially with non-uniformly sampled data. The proposed INRR is based on learned Dirichlet Energy (DE) that measures similarities between rows/columns of the matrix. The smoothness of the Laplacian matrix is further integrated by parameterizing DE with a tiny INR. INRR improves the generalization of INR in signal representation by perfectly integrating the signal's self-similarity with the smoothness of the Laplacian matrix. Through well-designed numerical experiments, the paper also reveals a series of properties derived from INRR, including momentum methods like convergence trajectory and multi-scale similarity. Moreover, the proposed method could improve the performance of other signal representation methods.
翻訳日:2023-03-29 17:44:27 公開日:2023-03-27
# ボソニックデバイス上でのコンパイル動作に対するハミルトニアンシミュレーション手法の活用

Leveraging Hamiltonian Simulation Techniques to Compile Operations on Bosonic Devices ( http://arxiv.org/abs/2303.15542v1 )

ライセンス: Link先を確認
Christopher Kang, Micheline B. Soley, Eleanor Crane, S. M. Girvin, Nathan Wiebe(参考訳) 回路QEDは、キュービットと発振器モードの組み合わせを可能にする。 様々な利用可能なゲート集合にもかかわらず、多くのハイブリッドキュービットボソン(発振器)演算は、しばしば難解で解釈不能な最適制御理論(OCT)によってのみ実現可能である。 We introduce an analytic approach with rigorously proven error bounds for realizing specific classes of operations via two matrix product formulas commonly used in Hamiltonian simulation, the Lie--Trotter and Baker--Campbell--Hausdorff product formulas. We show how this technique can be used to realize a number of operations of interest, including polynomials of annihilation and creation operators, i.e., $a^p {a^\dagger}^q$ for integer $p, q$. We show examples of this paradigm including: obtaining universal control within a subspace of the entire Fock space of an oscillator, state preparation of a fixed photon number in the cavity, simulation of the Jaynes--Cummings Hamiltonian, simulation of the Hong-Ou-Mandel effect and more. 本研究は,ハイブリッドboson-qubitデバイスにおけるハミルトニアンシミュレーション手法の適用方法を示す。

Circuit QED enables the combined use of qubits and oscillator modes. Despite a variety of available gate sets, many hybrid qubit-boson (i.e., oscillator) operations are realizable only through optimal control theory (OCT) which is oftentimes intractable and uninterpretable. We introduce an analytic approach with rigorously proven error bounds for realizing specific classes of operations via two matrix product formulas commonly used in Hamiltonian simulation, the Lie--Trotter and Baker--Campbell--Hausdorff product formulas. We show how this technique can be used to realize a number of operations of interest, including polynomials of annihilation and creation operators, i.e., $a^p {a^\dagger}^q$ for integer $p, q$. We show examples of this paradigm including: obtaining universal control within a subspace of the entire Fock space of an oscillator, state preparation of a fixed photon number in the cavity, simulation of the Jaynes--Cummings Hamiltonian, simulation of the Hong-Ou-Mandel effect and more. This work demonstrates how techniques from Hamiltonian simulation can be applied to better control hybrid boson-qubit devices.
翻訳日:2023-03-29 17:37:23 公開日:2023-03-27
# omniavatar:幾何誘導制御可能な3dヘッド合成

OmniAvatar: Geometry-Guided Controllable 3D Head Synthesis ( http://arxiv.org/abs/2303.15539v1 )

ライセンス: Link先を確認
Hongyi Xu, Guoxian Song, Zihang Jiang, Jianfeng Zhang, Yichun Shi, Jing Liu, Wanchun Ma, Jiashi Feng, Linjie Luo(参考訳) そこで本稿では,多種多様なアイデンティティ保存された3dヘッドを,カメラポーズ,表情,頭部形状,関節的頸部および顎ポーズの完全な不連続制御下で,魅力的な動的詳細で合成することのできる,非構造画像から訓練された新しい形状誘導3dヘッド合成モデルであるomniavatarを提案する。 このような高レベルの不整合制御を実現するために、制御パラメータに条件付きヘッドジオメトリ(FLAME)を中心とした新しい意味符号距離関数(SDF)を明示的に定義する。 この意味論的SDFにより、観測空間からすべての制御パラメータから非交叉正準空間への微分可能な体積対応写像を構築することができる。 次に、3D対応GANフレームワーク(EG3D)を活用して、標準空間における3Dフルヘッドの詳細な形状と外観を合成し、続いてボリューム対応マップで導かれるボリュームレンダリングステップにより観測空間に出力する。 合成した頭部形状と表現の制御精度を確保するために,頭部SDFに適合する幾何事前損失と,表現符号に適合する制御損失を導入する。 さらに,様々な表現やジョイントポーズを条件とした動的詳細により,時間的リアリズムを強化する。 本モデルは, 定性的および定量的に, 最先端の手法と比較して, 魅力的な動的詳細を持つ, より好ましいアイデンティティ保存型3dヘッドを合成できる。 また,システム設計の選択肢の多くを正当化するためのアブレーション研究も行っています。

We present OmniAvatar, a novel geometry-guided 3D head synthesis model trained from in-the-wild unstructured images that is capable of synthesizing diverse identity-preserved 3D heads with compelling dynamic details under full disentangled control over camera poses, facial expressions, head shapes, articulated neck and jaw poses. To achieve such high level of disentangled control, we first explicitly define a novel semantic signed distance function (SDF) around a head geometry (FLAME) conditioned on the control parameters. This semantic SDF allows us to build a differentiable volumetric correspondence map from the observation space to a disentangled canonical space from all the control parameters. We then leverage the 3D-aware GAN framework (EG3D) to synthesize detailed shape and appearance of 3D full heads in the canonical space, followed by a volume rendering step guided by the volumetric correspondence map to output into the observation space. To ensure the control accuracy on the synthesized head shapes and expressions, we introduce a geometry prior loss to conform to head SDF and a control loss to conform to the expression code. Further, we enhance the temporal realism with dynamic details conditioned upon varying expressions and joint poses. Our model can synthesize more preferable identity-preserved 3D heads with compelling dynamic details compared to the state-of-the-art methods both qualitatively and quantitatively. We also provide an ablation study to justify many of our system design choices.
翻訳日:2023-03-29 17:37:08 公開日:2023-03-27
# 『それは重要だが...』:コンピュータサイエンス研究者が研究革新の意図しない結果を予測する方法

"That's important, but...": How Computer Science Researchers Anticipate Unintended Consequences of Their Research Innovations ( http://arxiv.org/abs/2303.15536v1 )

ライセンス: Link先を確認
Kimberly Do, Rock Yuren Pang, Jiachen Jiang, Katharina Reinecke(参考訳) コンピュータ科学の研究は多くの画期的な革新をもたらしたが、社会に否定的で意図しない結果をもたらす技術を可能にするために精査された。 ニュースや研究者の間で倫理に関する議論が高まりつつある中、様々なCSサブセクタの研究者20人をインタビューして、彼らの研究革新の意図せぬ結果がどう影響するかを調べた。 意図しない結果を考えることは一般的に重要であるが、実践されることは稀である。 主な障壁は、形式的なプロセスと戦略の欠如と、迅速な進歩と出版を優先する学術的実践である。 これらの知見に基づいて,コミュニティ参加を通じて多様な視点を導き,インセンティブを高め,潜在的影響を調査する研究者を支援するアプローチについて論じる。 我々は,研究プロセスの前後において,技術革新の社会的意味を日常的に探究する道を開くことを目的としている。

Computer science research has led to many breakthrough innovations but has also been scrutinized for enabling technology that has negative, unintended consequences for society. Given the increasing discussions of ethics in the news and among researchers, we interviewed 20 researchers in various CS sub-disciplines to identify whether and how they consider potential unintended consequences of their research innovations. We show that considering unintended consequences is generally seen as important but rarely practiced. Principal barriers are a lack of formal process and strategy as well as the academic practice that prioritizes fast progress and publications. Drawing on these findings, we discuss approaches to support researchers in routinely considering unintended consequences, from bringing diverse perspectives through community participation to increasing incentives to investigate potential consequences. We intend for our work to pave the way for routine explorations of the societal implications of technological innovations before, during, and after the research process.
翻訳日:2023-03-29 17:36:42 公開日:2023-03-27
# GAN分類器に対するGANの逐次訓練は、独立に訓練されたGANインスタンスに存在する相関した「知識ギャップ」を明らかにする

Sequential training of GANs against GAN-classifiers reveals correlated "knowledge gaps" present among independently trained GAN instances ( http://arxiv.org/abs/2303.15533v1 )

ライセンス: Link先を確認
Arkanath Pathak, Nicholas Dufour(参考訳) 現代のGAN(Generative Adversarial Networks)は、現実的な画像を生成する。 従来の研究は、共同学習した識別器とは異なる「GAN分類器」の実現可能性を示し、凍結したGANから生成された画像を操作する。 このような分類器が機能することは、GANトレーニングに存在する「知識ギャップ」(サンプルをまたいだ分布外アーティファクト)の存在を確実にする。 我々は、GAN分類器を反復的に訓練し、(知識ギャップを埋めるために)分類器を「刺激」するGANを訓練し、GAN訓練力学、出力品質、GAN分類器の一般化に対する効果を検討する。 低次元画像(mnist)で訓練された小型dcganアーキテクチャと,高次元画像(ffhq)で訓練されたsoma ganアーキテクチャであるstylegan2について検討した。 その結果,DCGANは出力品質を損なうことなく,ホールドアウトしたGAN分類器を効果的に騙すことができないことがわかった。 しかし、StyleGAN2は出力品質を変更せずに保持された分類器を騙すことができ、この効果はジェネレータパラメータ空間におけるオプティマ上の順序を示すように見える複数のGAN/分類器トレーニングに持続する。 最後に, 異なる分類器アーキテクチャについて検討し, GAN分類器のアーキテクチャが学習成果の集合に強い影響を与えることを示す。

Modern Generative Adversarial Networks (GANs) generate realistic images remarkably well. Previous work has demonstrated the feasibility of "GAN-classifiers" that are distinct from the co-trained discriminator, and operate on images generated from a frozen GAN. That such classifiers work at all affirms the existence of "knowledge gaps" (out-of-distribution artifacts across samples) present in GAN training. We iteratively train GAN-classifiers and train GANs that "fool" the classifiers (in an attempt to fill the knowledge gaps), and examine the effect on GAN training dynamics, output quality, and GAN-classifier generalization. We investigate two settings, a small DCGAN architecture trained on low dimensional images (MNIST), and StyleGAN2, a SOTA GAN architecture trained on high dimensional images (FFHQ). We find that the DCGAN is unable to effectively fool a held-out GAN-classifier without compromising the output quality. However, StyleGAN2 can fool held-out classifiers with no change in output quality, and this effect persists over multiple rounds of GAN/classifier training which appears to reveal an ordering over optima in the generator parameter space. Finally, we study different classifier architectures and show that the architecture of the GAN-classifier has a strong influence on the set of its learned artifacts.
翻訳日:2023-03-29 17:36:26 公開日:2023-03-27
# 低照度RAW画像強調のためのFew-Shot領域適応

Few-Shot Domain Adaptation for Low Light RAW Image Enhancement ( http://arxiv.org/abs/2303.15528v1 )

ライセンス: Link先を確認
K. Ram Prabhakar, Vishal Vinod, Nihar Ranjan Sahoo, R. Venkatesh Babu(参考訳) 実用的な低照度原画像の強調は、短い露光時間と照明の制限による激しいノイズや色歪みのために難しい課題である。 既存の畳み込みニューラルネットワーク(cnn)ベースの手法の成功にもかかわらず、その性能は異なるカメラ領域に適応できない。 さらに、このような手法には、短い露光とそれに対応する長時間露光の真実の生画像を含む大規模なデータセットが必要である。 そこで本稿では,ターゲットカメラからのラベル付きサンプル数が少ない既存のソースカメララベルデータを利用して,極端低照度撮像におけるターゲット領域の強調品質を向上させるための,新しい少数ショット領域適応法を提案する。 実験の結果,ターゲットカメラ領域からのラベル付きサンプルは,大規模ラベル付きターゲットカメラデータセットでモデルをトレーニングするよりも,同等あるいは優れたエンハンスメント性能を実現するのに十分であることがわかった。 この方向の研究を支援するために,ニコンカメラで撮影した低照度生画像データセットを,短露光とそれに対応する長露光地上真理画像から提供する。

Enhancing practical low light raw images is a difficult task due to severe noise and color distortions from short exposure time and limited illumination. Despite the success of existing Convolutional Neural Network (CNN) based methods, their performance is not adaptable to different camera domains. In addition, such methods also require large datasets with short-exposure and corresponding long-exposure ground truth raw images for each camera domain, which is tedious to compile. To address this issue, we present a novel few-shot domain adaptation method to utilize the existing source camera labeled data with few labeled samples from the target camera to improve the target domain's enhancement quality in extreme low-light imaging. Our experiments show that only ten or fewer labeled samples from the target camera domain are sufficient to achieve similar or better enhancement performance than training a model with a large labeled target camera dataset. To support research in this direction, we also present a new low-light raw image dataset captured with a Nikon camera, comprising short-exposure and their corresponding long-exposure ground truth images.
翻訳日:2023-03-29 17:36:00 公開日:2023-03-27
# リーマン多様体上の調和分子表現の学習

Learning Harmonic Molecular Representations on Riemannian Manifold ( http://arxiv.org/abs/2303.15520v1 )

ライセンス: Link先を確認
Yiqun Wang, Yuning Shen, Shi Chen, Lihao Wang, Fei Ye, Hao Zhou(参考訳) 分子表現学習は、AIによる薬物発見研究において重要な役割を果たす。 ユークリッド型ニューラルネットワークによる3次元分子構造のエンコーディングは,幾何学的深層学習コミュニティにおいて主流となっている。 しかし、ユークリッド空間における等分散制約とメッセージパッシングは、ネットワーク表現力を制限する可能性がある。 本研究では,その分子表面のラプラス・ベルトラミ固有関数を用いた分子を表現する高調波分子表現学習(HMR)フレームワークを提案する。 hmr は、2次元リーマン多様体上の分子幾何学的および化学的特徴のマルチレゾリューション表現を提供する。 また,より優れた分子符号化を実現するために,表面多様体上の効率的なスペクトルメッセージ転送を実現するための高調波メッセージパッシング法を提案する。 提案手法は, 分子特性予測における現行モデルに匹敵する予測力を示し, リガンド結合タンパク質ポケット分類における最先端の深層学習モデル, 硬質タンパク質ドッキング課題を上回り, その分子表現学習における汎用性を示す。

Molecular representation learning plays a crucial role in AI-assisted drug discovery research. Encoding 3D molecular structures through Euclidean neural networks has become the prevailing method in the geometric deep learning community. However, the equivariance constraints and message passing in Euclidean space may limit the network expressive power. In this work, we propose a Harmonic Molecular Representation learning (HMR) framework, which represents a molecule using the Laplace-Beltrami eigenfunctions of its molecular surface. HMR offers a multi-resolution representation of molecular geometric and chemical features on 2D Riemannian manifold. We also introduce a harmonic message passing method to realize efficient spectral message passing over the surface manifold for better molecular encoding. Our proposed method shows comparable predictive power to current models in small molecule property prediction, and outperforms the state-of-the-art deep learning models for ligand-binding protein pocket classification and the rigid protein docking challenge, demonstrating its versatility in molecular representation learning.
翻訳日:2023-03-29 17:35:41 公開日:2023-03-27
# 格子ゲージ理論のランダム化測定プロトコル

Randomized measurement protocols for lattice gauge theories ( http://arxiv.org/abs/2303.15519v1 )

ライセンス: Link先を確認
Jacob Bringewatt, Jonathan Kunjummen, Niklas Mueller(参考訳) 古典影、絡み合いトモグラフィ、ランダム化ベンチマークなどのランダム化測定プロトコルは、観測可能なものを推定したり、状態トモグラフィーを行ったり、量子状態の絡み合い特性を抽出したりする強力な手法である。 量子状態の複雑な構造を解くことは一般に困難で資源集約的であるが、自然界の量子系はしばしば対称性によって厳しく制約される。 これは、測定コストの削減、実験における対称性に基づく誤差緩和の実現、(格子)ゲージ理論の絡み合い構造の微分測定、そして潜在的には、既存の実験および短期実験における位相的に順序付けられた状態の検証など、対称性を考慮したランダム化よりも明確な利点が得られる。

Randomized measurement protocols, including classical shadows, entanglement tomography, and randomized benchmarking are powerful techniques to estimate observables, perform state tomography, or extract the entanglement properties of quantum states. While unraveling the intricate structure of quantum states is generally difficult and resource-intensive, quantum systems in nature are often tightly constrained by symmetries. This can be leveraged by the symmetry-conscious randomized measurement schemes we propose, yielding clear advantages over symmetry-blind randomization such as reducing measurement costs, enabling symmetry-based error mitigation in experiments, allowing differentiated measurement of (lattice) gauge theory entanglement structure, and, potentially, the verification of topologically ordered states in existing and near-term experiments.
翻訳日:2023-03-29 17:35:24 公開日:2023-03-27
# $D$次元クラスター状態における多部絡みと量子誤差同定

Multipartite entanglement and quantum error identification in $D$-dimensional cluster states ( http://arxiv.org/abs/2303.15508v1 )

ライセンス: Link先を確認
Sowrabh Sudevan, Daniel Azses, Emanuele G. Dalla Torre, Eran Sela, Sourin Das(参考訳) エンタングル状態は、任意の$m$ qubits の縮小密度行列が最大混合であるとき、$m$-uniform と呼ばれる。 この形式的定義は純粋量子誤り訂正符号(QECC)と密接に関連していることが知られており、誤りを訂正するだけでなく、その正確な性質と位置を特定できる。 ここでは,局所ゲートやインタラクションを用いて$m$-uniform状態を生成し,いくつかのQECCアプリケーションを解明する方法を示す。 まず、$d$次元のクラスター状態、すなわちフラストレーションのない局所クラスターハミルトニアンの基底状態は$m$-uniformで$m=2d$であるということを指摘した。 我々は,$m$-uniformity の有限サイズ制限と,準$d$ 次元クラスター状態を用いたより大きな $m$ 値を達成する方法について議論する。 1次元クラスター状態が1量子ビットエラーの検出と識別を可能にし、x$, $y$, $z$エラーを区別する超伝導量子コンピュータ上で実験的に実証する。 最後に、$m$-均一性は純粋QECCを有限論理空間で定式化することができることを示す。

An entangled state is said to be $m$-uniform if the reduced density matrix of any $m$ qubits is maximally mixed. This formal definition is known to be intimately linked to pure quantum error correction codes (QECCs), which allow not only to correct errors, but also to identify their precise nature and location. Here, we show how to create $m$-uniform states using local gates or interactions and elucidate several QECC applications. We first point out that $D$-dimensional cluster states, i.e. the ground states of frustration-free local cluster Hamiltonians, are $m$-uniform with $m=2D$. We discuss finite size limitations of $m$-uniformity and how to achieve larger $m$ values using quasi-$D$ dimensional cluster states. We demonstrate experimentally on a superconducting quantum computer that the 1D cluster state allows to detect and identify 1-qubit errors, distinguishing, $X$, $Y$ and $Z$ errors. Finally, we show that $m$-uniformity allows to formulate pure QECCs with a finite logical space.
翻訳日:2023-03-29 17:35:09 公開日:2023-03-27
# 計測とフィードバックからの混合状態長距離秩序と臨界

Mixed-state long-range order and criticality from measurement and feedback ( http://arxiv.org/abs/2303.15507v1 )

ライセンス: Link先を確認
Tsung-Cheng Lu, Zhehao Zhang, Sagar Vijay, Timothy H. Hsieh(参考訳) 本研究では,局所的測定,局所ユニタリリ,非局所的古典的通信を用いて,長距離量子秩序や量子臨界性を持つ混合状態を効率的に作成できる量子チャネルを構築するための汎用的枠組みを提案する。 例として、対称性保護トポロジカル位相(SPT)は、体積法エントロピーと共存しているにもかかわらず、局所作用素の量子的臨界相関と絡み合いの対数的スケーリングと相転移を行うことができる長距離絡み合いを持つ混合状態に普遍的に変換することができる。 同じフレームワーク内では、フェルミオン占有数測定を用いて変換する2つのアプリケーションを示す。 (i)スピンとスピンの代数的相関が強化された量子臨界混合状態への一次元スピン自由フェルミオン (ii)チャーン絶縁体はバルクに臨界量子相関を持つ混合状態となる。 後者は、混合状態量子臨界が局所量子演算と非局所古典的通信を用いて一定深さの物質のガッピング状態から生じる例である。

We propose a general framework for using local measurements, local unitaries, and non-local classical communication to construct quantum channels which can efficiently prepare mixed states with long-range quantum order or quantum criticality. As an illustration, symmetry-protected topological (SPT) phases can be universally converted into mixed-states with long-range entanglement, which can undergo phase transitions with quantum critical correlations of local operators and a logarithmic scaling of the entanglement negativity, despite coexisting with volume-law entropy. Within the same framework, we present two applications using fermion occupation number measurement to convert (i) spinful free fermions in one dimension into a quantum-critical mixed state with enhanced algebraic correlations between spins and (ii) Chern insulators into a mixed state with critical quantum correlations in the bulk. The latter is an example where mixed-state quantum criticality can emerge from a gapped state of matter in constant depth using local quantum operations and non-local classical communication.
翻訳日:2023-03-29 17:34:45 公開日:2023-03-27
# スマートオンデマンド公共交通におけるバスの到着時間予測のための新しいニューラルネットワーク手法

A Novel Neural Network Approach for Predicting the Arrival Time of Buses for Smart On-Demand Public Transit ( http://arxiv.org/abs/2303.15495v1 )

ライセンス: Link先を確認
Narges Rashvand, Sanaz Sadat Hosseini, Mona Azarbayjani, Hamed Tabkhi(参考訳) 都市の主要公共交通システムのうち、バス交通には、乗客の到着時刻を推定する際の精度や信頼性などの問題がある。 これは特に公共交通機関が大いに依存している都市において、遅延と乗客の減少につながる。 一般的な問題は、バスの到着時刻がスケジュールと一致せず、固定スケジュールの遅延が発生することである。 ニューヨーク市のバスデータに関する研究によると、バスの到着と実際の予定時刻の間には、平均8分または491秒の遅延がある。 本研究は,各交通機関(駅)におけるバスの到着時刻を推定するための,AIに基づく新しいデータ駆動手法を提案する。 提案手法は,完全接続型ニューラルネットワークを基盤とし,大都市圏の全バス路線にまたがる到着時刻を総合的に予測する。 我々のニューラルネットデータ駆動アプローチは、バスの到着時刻を推定する新しい方法を提供する。 200以上のバス路線と200万のデータポイントを持つネットワークバスシステムの評価では,到着時間の推定誤差が40秒未満であることを示す。 検証セットデータポイント毎の推測時間は0.006ms未満である。

Among the major public transportation systems in cities, bus transit has its problems, including more accuracy and reliability when estimating the bus arrival time for riders. This can lead to delays and decreased ridership, especially in cities where public transportation is heavily relied upon. A common issue is that the arrival times of buses do not match the schedules, resulting in latency for fixed schedules. According to the study in this paper on New York City bus data, there is an average delay of around eight minutes or 491 seconds mismatch between the bus arrivals and the actual scheduled time. This research paper presents a novel AI-based data-driven approach for estimating the arrival times of buses at each transit point (station). Our approach is based on a fully connected neural network and can predict the arrival time collectively across all bus lines in large metropolitan areas. Our neural-net data-driven approach provides a new way to estimate the arrival time of the buses, which can lead to a more efficient and smarter way to bring the bus transit to the general public. Our evaluation of the network bus system with more than 200 bus lines, and 2 million data points, demonstrates less than 40 seconds of estimated error for arrival times. The inference time per each validation set data point is less than 0.006 ms.
翻訳日:2023-03-29 17:34:29 公開日:2023-03-27
# コア周辺原理による変圧器の自己注意の再設計

Core-Periphery Principle Guided Redesign of Self-Attention in Transformers ( http://arxiv.org/abs/2303.15569v1 )

ライセンス: Link先を確認
Xiaowei Yu, Lu Zhang, Haixing Dai, Yanjun Lyu, Lin Zhao, Zihao Wu, David Liu, Tianming Liu and Dajiang Zhu(参考訳) より効率的で信頼性が高く説明可能なニューラルネットワークアーキテクチャを設計することは、人工知能(AI)技術に基づく研究に不可欠である。 過去の研究では、最高のパフォーマンスを持つANNは、生物ニューラルネットワーク(BNN)と驚くほど似ていることが分かり、ANNとBNNは、機械学習または認知/行動タスクにおいて最適なパフォーマンスを達成するための共通の原則を共有している可能性があることを示唆している。 この現象に触発され、我々は積極的にBNNの組織原則を教育し、ANNの再設計を指導した。 我々は、人間の脳ネットワークで広く見られるCP(Core-Periphery)組織を活用し、視覚変換器(ViT)の自己注意における情報通信機構をガイドし、この新しいフレームワークをCP-ViTと命名する。 cp-vitでは、ノード間の注意操作は、コア-ペリペリー構造(cpグラフ)を持つスパースグラフによって定義され、コアノードは統合的役割を果たすように再設計され再構成され、情報交換のための他の周辺ノードの中心となる。 提案したCP-ViTを、医療画像データセット(INbreast)や自然画像データセットを含む複数の公開データセットで評価した。 興味深いことに、BNN由来の原則(CP構造)をViTの再設計に取り入れることで、CP-ViTは他の最先端のANNよりも優れています。 概して、我々の仕事は芸術の状態を3つの側面で進めている。 1) この研究は、脳にインスパイアされたAIに新しい洞察を与えます。我々は、BNNの原則を利用して、ANNアーキテクチャ設計をガイドし、改善することができます。 2)cp-vitsにつながるcpグラフのスイートスポットが存在し,その性能が著しく向上していることを示す。 3)cp-vitのコアノードはタスク関連有意義で重要な画像パッチに対応しており,訓練された深層モデルの解釈性が著しく向上する。

Designing more efficient, reliable, and explainable neural network architectures is critical to studies that are based on artificial intelligence (AI) techniques. Previous studies, by post-hoc analysis, have found that the best-performing ANNs surprisingly resemble biological neural networks (BNN), which indicates that ANNs and BNNs may share some common principles to achieve optimal performance in either machine learning or cognitive/behavior tasks. Inspired by this phenomenon, we proactively instill organizational principles of BNNs to guide the redesign of ANNs. We leverage the Core-Periphery (CP) organization, which is widely found in human brain networks, to guide the information communication mechanism in the self-attention of vision transformer (ViT) and name this novel framework as CP-ViT. In CP-ViT, the attention operation between nodes is defined by a sparse graph with a Core-Periphery structure (CP graph), where the core nodes are redesigned and reorganized to play an integrative role and serve as a center for other periphery nodes to exchange information. We evaluated the proposed CP-ViT on multiple public datasets, including medical image datasets (INbreast) and natural image datasets. Interestingly, by incorporating the BNN-derived principle (CP structure) into the redesign of ViT, our CP-ViT outperforms other state-of-the-art ANNs. In general, our work advances the state of the art in three aspects: 1) This work provides novel insights for brain-inspired AI: we can utilize the principles found in BNNs to guide and improve our ANN architecture design; 2) We show that there exist sweet spots of CP graphs that lead to CP-ViTs with significantly improved performance; and 3) The core nodes in CP-ViT correspond to task-related meaningful and important image patches, which can significantly enhance the interpretability of the trained deep model.
翻訳日:2023-03-29 17:28:55 公開日:2023-03-27
# mask and restore: masked autoencoderによるテスト時のブラインドバックドア防御

Mask and Restore: Blind Backdoor Defense at Test Time with Masked Autoencoder ( http://arxiv.org/abs/2303.15564v1 )

ライセンス: Link先を確認
Tao Sun, Lu Pang, Chao Chen, Haibin Ling(参考訳) ディープニューラルネットワークはバックドア攻撃に対して脆弱であり、敵は特別なトリガーで画像をオーバーレイすることでモデルの振る舞いを悪質に操作する。 既存のバックドア防御手法では、モデルがクラウドサービスとして提供される場合など、多くの現実のアプリケーションでは実用的でないいくつかの検証データとモデルパラメータにアクセスする必要がある。 本稿では,特にブラックボックスモデルにおいて,テスト時のブラインドバックドア防御の実践的課題について述べる。 すべてのテストイメージの真のラベルは、疑わしいモデルのハードラベル予測から、オンザフライで回復する必要があります。 しかし、画像空間におけるヒューリスティックトリガーサーチは、複雑なトリガーや高解像度画像に対してスケーラブルではない。 本稿では,汎用画像生成モデルを活用することで,このような障壁を回避し,Masked AutoEncoder (BDMAE) を用いたブラインドディフェンスの枠組みを提案する。 テストイメージとMAE復元の間の画像構造的類似性とラベルの整合性を使用して、可能なトリガを検出する。 トリガのトポロジーを考慮して検出結果を洗練する。 復元から純化テスト画像を取得し,予測を行う。 私たちのアプローチは、モデルアーキテクチャやトリガーパターン、あるいは画像の良性に盲目です。 バックドア攻撃の異なる複数のデータセットに対する広範囲な実験は、その有効性と一般化性を検証する。 コードはhttps://github.com/tsun/BDMAEで入手できる。

Deep neural networks are vulnerable to backdoor attacks, where an adversary maliciously manipulates the model behavior through overlaying images with special triggers. Existing backdoor defense methods often require accessing a few validation data and model parameters, which are impractical in many real-world applications, e.g., when the model is provided as a cloud service. In this paper, we address the practical task of blind backdoor defense at test time, in particular for black-box models. The true label of every test image needs to be recovered on the fly from the hard label predictions of a suspicious model. The heuristic trigger search in image space, however, is not scalable to complex triggers or high image resolution. We circumvent such barrier by leveraging generic image generation models, and propose a framework of Blind Defense with Masked AutoEncoder (BDMAE). It uses the image structural similarity and label consistency between the test image and MAE restorations to detect possible triggers. The detection result is refined by considering the topology of triggers. We obtain a purified test image from restorations for making prediction. Our approach is blind to the model architectures, trigger patterns or image benignity. Extensive experiments on multiple datasets with different backdoor attacks validate its effectiveness and generalizability. Code is available at https://github.com/tsun/BDMAE.
翻訳日:2023-03-29 17:28:19 公開日:2023-03-27
# 医療のためのプライバシ保護機械学習 : オープン課題と今後の展望

Privacy-preserving machine learning for healthcare: open challenges and future perspectives ( http://arxiv.org/abs/2303.15563v1 )

ライセンス: Link先を確認
Alejandro Guerra-Manzanares, L. Julian Lechuga Lopez, Michail Maniatakos, Farah E. Shamout(参考訳) 機械学習(ML)は最近、病気の診断や予後から患者の治療まで、様々な医療予測タスクをモデル化することに成功した。 医療データの機密性から、モデルトレーニングから推論まで、mlパイプライン全体に沿ってプライバシを考慮する必要がある。 本稿では、医療におけるプライバシー保護機械学習(PPML)に関する最近の文献を概観する。 我々は主に,プライバシ保護トレーニングと推論・アズ・ア・サービスに注目し,既存のトレンドの包括的レビューを行い,課題を特定し,今後の研究の方向性を議論する。 このレビューの目的は、医療におけるプライベートかつ効率的なMLモデルの開発をガイドすることであり、研究成果を現実世界の環境に翻訳する可能性がある。

Machine Learning (ML) has recently shown tremendous success in modeling various healthcare prediction tasks, ranging from disease diagnosis and prognosis to patient treatment. Due to the sensitive nature of medical data, privacy must be considered along the entire ML pipeline, from model training to inference. In this paper, we conduct a review of recent literature concerning Privacy-Preserving Machine Learning (PPML) for healthcare. We primarily focus on privacy-preserving training and inference-as-a-service, and perform a comprehensive review of existing trends, identify challenges, and discuss opportunities for future research directions. The aim of this review is to guide the development of private and efficient ML models in healthcare, with the prospects of translating research efforts into real-world settings.
翻訳日:2023-03-29 17:27:58 公開日:2023-03-27
# 動き誘導トークンからの物体発見

Object Discovery from Motion-Guided Tokens ( http://arxiv.org/abs/2303.15555v1 )

ライセンス: Link先を確認
Zhipeng Bao, Pavel Tokmakov, Yu-Xiong Wang, Adrien Gaidon, and Martial Hebert(参考訳) オブジェクトの発見 -- 手動ラベルなしでオブジェクトを背景から分離する -- は、コンピュータビジョンにおける根本的な挑戦である。 従来の手法は、手工芸品(色、テクスチャなど)や学習品(オートエンコーダなど)など、低レベルのキューのクラスタリングを超えてはならない。 本研究では、自動エンコーダ表現学習フレームワークを、モーションガイダンスと中間レベルの特徴トークン化という2つの重要なコンポーネントで強化する。 両者は別々に検討されているが、動き誘導ベクトル量子化によりそれらの利点が複合できることを示す新しいトランスデコーダを導入する。 我々のアーキテクチャは、動きとトークン化のシナジーを効果的に活用し、合成データセットと実際のデータセットの両方における技術の現状を改善していることを示す。 提案手法は,オブジェクト固有の中レベル特徴を解釈可能とし,動作誘導(ラベルなし)と量子化(解釈性,メモリ効率)の利点を実証する。

Object discovery -- separating objects from the background without manual labels -- is a fundamental open challenge in computer vision. Previous methods struggle to go beyond clustering of low-level cues, whether handcrafted (e.g., color, texture) or learned (e.g., from auto-encoders). In this work, we augment the auto-encoder representation learning framework with two key components: motion-guidance and mid-level feature tokenization. Although both have been separately investigated, we introduce a new transformer decoder showing that their benefits can compound thanks to motion-guided vector quantization. We show that our architecture effectively leverages the synergy between motion and tokenization, improving upon the state of the art on both synthetic and real datasets. Our approach enables the emergence of interpretable object-specific mid-level features, demonstrating the benefits of motion-guidance (no labeling) and quantization (interpretability, memory efficiency).
翻訳日:2023-03-29 17:27:44 公開日:2023-03-27
# MoViT:医用画像解析用暗視変換器

MoViT: Memorizing Vision Transformers for Medical Image Analysis ( http://arxiv.org/abs/2303.15553v1 )

ライセンス: Link先を確認
Yiqing Shen, Pengfei Guo, Jinpu Wu, Qianqi Huang, Jinyuan Zhou, Shanshan Jiang, Mathias Unberath(参考訳) トランスフォーマーからの長距離依存と畳み込みニューラルネットワーク(cnns)からの画像コンテンツの局所表現の相乗効果は、その相補的な利点により、高度なアーキテクチャと様々な医用画像解析タスクのパフォーマンス向上につながった。 しかし、cnnと比較すると、トランスフォーマーは多くのパラメータと帰納バイアスの欠如のため、かなり多くのトレーニングデータを必要とする。 ますます大規模なデータセットの必要性は、特に医用画像の文脈において問題であり続けており、アノテーションの取り組みとデータ保護の両方がデータ可用性を制限している。 本研究は,新たな‘evidence’と従来記憶されていた‘`experience'とを関連付ける人間の意思決定プロセスにヒントを得て,大規模なデータセットの必要性を軽減し,トランスフォーマーベースのアーキテクチャをトレーニングおよびデプロイするための記憶型視覚変換器(MoViT)を提案する。 MoViTは、トレーニング段階の履歴注意スナップショットをキャッシュするために、外部メモリ構造を利用する。 オーバーフィッティングを防止するため,メモリ更新方式である注意時間移動平均法を取り入れ,記憶された外部記憶を履歴移動平均で更新する。 推論高速化のために、我々は外部メモリをより小さな代表サブセットに蒸留するプロトタイプ型注意学習法を設計する。 本手法は, 医用画像解析タスクに応用されたMoViTが, 特に少量の注釈データしか利用できない場合において, 様々なデータレギュラーにおいてバニラトランスフォーマーモデルより優れていることを示すため, パブリックヒストロジー画像データセットと社内MRIデータセットを用いて評価を行った。 さらに重要なのは、トレーニングデータのわずか3.0%で、MoViTの競合パフォーマンスに到達することだ。

The synergy of long-range dependencies from transformers and local representations of image content from convolutional neural networks (CNNs) has led to advanced architectures and increased performance for various medical image analysis tasks due to their complementary benefits. However, compared with CNNs, transformers require considerably more training data, due to a larger number of parameters and an absence of inductive bias. The need for increasingly large datasets continues to be problematic, particularly in the context of medical imaging, where both annotation efforts and data protection result in limited data availability. In this work, inspired by the human decision-making process of correlating new ``evidence'' with previously memorized ``experience'', we propose a Memorizing Vision Transformer (MoViT) to alleviate the need for large-scale datasets to successfully train and deploy transformer-based architectures. MoViT leverages an external memory structure to cache history attention snapshots during the training stage. To prevent overfitting, we incorporate an innovative memory update scheme, attention temporal moving average, to update the stored external memories with the historical moving average. For inference speedup, we design a prototypical attention learning method to distill the external memory into smaller representative subsets. We evaluate our method on a public histology image dataset and an in-house MRI dataset, demonstrating that MoViT applied to varied medical image analysis tasks, can outperform vanilla transformer models across varied data regimes, especially in cases where only a small amount of annotated data is available. More importantly, MoViT can reach a competitive performance of ViT with only 3.0% of the training data.
翻訳日:2023-03-29 17:27:28 公開日:2023-03-27
# 時間ビン符号化量子鍵分布のための光送信装置

Optical transmitter for time-bin encoding Quantum Key Distribution ( http://arxiv.org/abs/2303.15549v1 )

ライセンス: Link先を確認
Juli\'an Morales, M. Guadalupe Aparicio, Carlos F. Longo, Cristian L. Arrieta, Miguel A. Larotonda(参考訳) 本稿では,cバンド通信窓の標準光ファイバ上にデコイ状態法を用いてタイムビン符号化シンボルを生成できる電子光学アレンジを提案する。 この装置は、パルス生成用に特別に設計されたパルスパターン生成器と、タイミングと同期を制御するフィールドプログラマブルゲートアレイで構成されている。 電気パルス出力は、離散的な強度値の弱い光パルス対のバーストを伝達する連続レーザに作用する一連の強度変調器を駆動する。 このような送信機は、単一モードファイバーチャネル上の離散可変量子鍵分配プロトコルを実装するために必要な全ての量子状態を生成することができる。 シンボルはバーストで構成され、パルス間の最小相対遅延は 1.25 ns であり、バースト内の最大シンボルレートは 200 mhz である。 送信機は7dBと14dB損失の模擬光チャネル上で試験し,それぞれ3.0kb/sと0.57kb/sの最大抽出可能なセキュア鍵レートを得た。 シンボルレート、パルス分離、信号とデコイ状態の強度比などの時間ビン状態パラメータを容易にアクセスして変更することができ、送信者は異なる実験条件に適応でき、qkd実装の標準化に寄与する。

We introduce an electro-optical arrangement that is able to produce time-bin encoded symbols with the decoy state method over a standard optical fiber in the C-band telecom window. The device consists of a specifically designed pulse pattern generator for pulse production, a field-programmable gate array that controls timing and synchronization. The electrical pulse output drive a sequence of intensity modulators acting on a continuous laser that deliver bursts of weak optical pulse pairs of discrete intensity values. Such transmitter allows for the generation of all the quantum states needed to implement a discrete variable Quantum Key Distribution protocol over a single-mode fiber channel. Symbols are structured in bursts; the minimum relative delay between pulses is 1.25 ns, and the maximum symbol rate within a burst is 200 MHz. We test the transmitter on simulated optical channels of 7dB and 14dB loss, obtaining maximum extractable secure key rates of 3.0 kb/s and 0.57 kb/s respectively. Time bin state parameters such as symbol rate, pulse separation and intensity ratio between signal and decoy states can be easily accessed and changed, allowing the transmitter to adapt to different experimental conditions and contributing to standardization of QKD implementations.
翻訳日:2023-03-29 17:26:56 公開日:2023-03-27
# 2光子干渉計における位相と不明瞭性の同時量子推定

Simultaneous quantum estimation of phase and indistinguishability in a two photon interferometer ( http://arxiv.org/abs/2303.15548v1 )

ライセンス: Link先を確認
Laura T. Knoll and Gustavo M. Bosyk(参考訳) 近年,量子技術の急速な発展に伴い,高感度計測技術の必要性が問題視されている。 特に、光量子状態に基づく光学センサは高精度干渉測定の最適資源であることが証明されている。 それでも、彼らのパフォーマンスはノイズや不完全さによって深刻な影響を受ける可能性がある。 本研究では、干渉計位相の同時推定に付随する量子フィッシャー情報行列と、偶数個の光子からなるプローブ状態を特徴付ける不明瞭性を導出する。 2ポート干渉計の入射精度が不明な一対の光子を用いて,両パラメータの究極の精度を達成する最適測定を行い,実験を行う。

With the rapid development of quantum technologies in recent years, the need for high sensitivity measuring techniques has become a key issue. In particular, optical sensors based on quantum states of light have proven to be optimal resources for high precision interferometry. Nevertheless, their performance may be severely affected by the presence of noise or imperfections. In this work we derive the quantum Fisher information matrix associated to the simultaneous estimation of an interferometric phase and the indistinguishability characterizing the probe state consisting of an even number of photons. We find the optimal measurement attaining the ultimate precision for both parameters in a single setup and perform an experiment based on a pair of photons with an unknown degree of indistinguishability entering a two-port interferometer.
翻訳日:2023-03-29 17:26:34 公開日:2023-03-27
# 量子コンピューティングのムーアの法則はあるか?

Is there a Moore's law for quantum computing? ( http://arxiv.org/abs/2303.15547v1 )

ライセンス: Link先を確認
Olivier Ezratty(参考訳) チップセットのトランジスタ数の増加とともに半世紀以上にわたって検証された経験的ムーアの法則のような指数法則に従って、多くの技術が進歩できるという共通認識がある。 将来有望な製造技術として、量子コンピューティングは群れに追随し、成熟まで無関係に成長するはずである。 この領域の聖杯は、何千もの誤り訂正された論理量子ビットが、物理量子ビットの数千個からなる大きな量子コンピュータである。 これにより分子シミュレーションが可能となり、2048個のrsaビットキーをファクタリングできる。 ここからどのくらい離れていますか。 多くの予測では15年以内である。 この論文では、ムーアの経験則が量子コンピューティングにおいて等価なものに容易に変換できないことが分かる。 クビットには、新しい製造技術のおかげで魔法のように進歩しない様々なメリットがあります。 しかしながら、ムーアの法則のいくつかの等価性は、量子コンピュータが技術、低温、制御電子回路を可能にするなど、量子領域内外において作用する可能性がある。 アルゴリズム、ソフトウェアツール、エンジニアリングもまた、量子コンピューティングの進歩を可能にする重要な役割を果たす。 量子コンピューティングの将来の結果の多くは、量子ビットのフィディティに依存するが、特に大規模では、かなりゆっくりと進行している。 計算結果の品質や量子コンピューティングのエネルギティクスといった、他のメリットの指標が活躍し、潜在的に状況を変えていくことを、私たちは最終的に目にするでしょう。 科学的・技術的には、この在庫は投資、教育、サイバーセキュリティ関連の意思決定プロセスなど、幅広いビジネス上の意味を持つ。

There is a common wisdom according to which many technologies can progress according to some exponential law like the empirical Moore's law that was validated for over half a century with the growth of transistors number in chipsets. As a still in the making technology with a lot of potential promises, quantum computing is supposed to follow the pack and grow inexorably to maturity. The Holy Grail in that domain is a large quantum computer with thousands of errors corrected logical qubits made themselves of thousands, if not more, of physical qubits. These would enable molecular simulations as well as factoring 2048 RSA bit keys among other use cases taken from the intractable classical computing problems book. How far are we from this? Less than 15 years according to many predictions. We will see in this paper that Moore's empirical law cannot easily be translated to an equivalent in quantum computing. Qubits have various figures of merit that won't progress magically thanks to some new manufacturing technique capacity. However, some equivalents of Moore's law may be at play inside and outside the quantum realm like with quantum computers enabling technologies, cryogeny and control electronics. Algorithms, software tools and engineering also play a key role as enablers of quantum computing progress. While much of quantum computing future outcomes depends on qubit fidelities, it is progressing rather slowly, particularly at scale. We will finally see that other figures of merit will come into play and potentially change the landscape like the quality of computed results and the energetics of quantum computing. Although scientific and technological in nature, this inventory has broad business implications, on investment, education and cybersecurity related decision-making processes.
翻訳日:2023-03-29 17:26:25 公開日:2023-03-27
# 無線干渉ネットワークにおけるマルチフロー伝送:収束グラフ学習アプローチ

Multi-Flow Transmission in Wireless Interference Networks: A Convergent Graph Learning Approach ( http://arxiv.org/abs/2303.15544v1 )

ライセンス: Link先を確認
Raz Paul, Kobi Cohen, Gil Kedar(参考訳) 無線ネットワークにおけるマルチフロー伝送の問題点を考察し,各経路間の相互干渉により異なる流れからのデータ信号が干渉し,リンク容量が減少する問題について考察する。 目的は、無線干渉ネットワークを横断してネットワークの有用性を最大化するマルチフロー伝送戦略を開発することである。 しかし, 最適解を得るには大きな状態と作用空間が必要となるため, 計算コストがかかる。 この課題に対処するために、ネットワークデータ信号の2段階干渉対応マルチフロー最適化(DIAMOND)という新しいアルゴリズムを導入する。 DIAMONDの設計は、5Gの特徴であり、集中的なユニット展開を伴う技術を超えたハイブリッドな集中分散実装を可能にする。 集中型ステージは、グラフニューラルネットワーク(GNN)強化学習(RL)ルーティングエージェントの新しい設計を用いて、マルチフロー伝送戦略を計算する。 そして、分散学習更新の新しい設計に基づいて、分散ステージにより性能が向上する。 我々はDIAMONDの理論解析を行い、時間が増えるにつれて最適なマルチフロー伝送戦略に収束することを示す。 また,様々なネットワークトポロジ(ランダム展開, NSFNET, GEANT2)に対して広範囲にシミュレーションを行い,既存手法と比較してDIAMONDの優れた性能を示す。

We consider the problem of of multi-flow transmission in wireless networks, where data signals from different flows can interfere with each other due to mutual interference between links along their routes, resulting in reduced link capacities. The objective is to develop a multi-flow transmission strategy that routes flows across the wireless interference network to maximize the network utility. However, obtaining an optimal solution is computationally expensive due to the large state and action spaces involved. To tackle this challenge, we introduce a novel algorithm called Dual-stage Interference-Aware Multi-flow Optimization of Network Data-signals (DIAMOND). The design of DIAMOND allows for a hybrid centralized-distributed implementation, which is a characteristic of 5G and beyond technologies with centralized unit deployments. A centralized stage computes the multi-flow transmission strategy using a novel design of graph neural network (GNN) reinforcement learning (RL) routing agent. Then, a distributed stage improves the performance based on a novel design of distributed learning updates. We provide a theoretical analysis of DIAMOND and prove that it converges to the optimal multi-flow transmission strategy as time increases. We also present extensive simulation results over various network topologies (random deployment, NSFNET, GEANT2), demonstrating the superior performance of DIAMOND compared to existing methods.
翻訳日:2023-03-29 17:25:58 公開日:2023-03-27
# 並列モデルに基づくEAにおける非同期性の影響

The Impact of Asynchrony on Parallel Model-Based EAs ( http://arxiv.org/abs/2303.15543v1 )

ライセンス: Link先を確認
Arthur Guijt, Dirk Thierens, Tanja Alderliesten, Peter A.N. Bosman(参考訳) 並列EAでは、生成クロックに厳密に準拠し、世代内のすべての評価が実行されるのを待つことができる。 しかし、このアイドル時間はアルゴリズムのスループットを制限し、計算資源を浪費する。 あるいは、EAを非同期並列化することもできる。 しかし、古典的な組換えと選択演算子(GA)を用いたEAは評価時間バイアスに悩まされ、アプローチの性能にも影響を及ぼすことが知られている。 モデルベース進化アルゴリズム(MBEA)は、モデル内の問題の構造を捉えることによって、従来のGAよりもスケーラブルである。 このモデルが集団に基づいてリンク学習によって学習されると、学習モデルはバイアスも捉えることができる。 したがって、非同期並列MBEAも評価時間バイアスの影響を受ければ、学習モデルは問題の解決にはあまり適さないため、性能が低下する可能性がある。 そこで本研究では,MBEAの並列化環境における評価時間バイアスの影響と存在について検討し,これをGAのバイアスと比較する。 現代のMBEAであるGOMEAが評価時間バイアスの影響を受けていないのに対して、より古典的なMBEAであるECGAはGAのように影響を受けています。

In a parallel EA one can strictly adhere to the generational clock, and wait for all evaluations in a generation to be done. However, this idle time limits the throughput of the algorithm and wastes computational resources. Alternatively, an EA can be made asynchronous parallel. However, EAs using classic recombination and selection operators (GAs) are known to suffer from an evaluation time bias, which also influences the performance of the approach. Model-Based Evolutionary Algorithms (MBEAs) are more scalable than classic GAs by virtue of capturing the structure of a problem in a model. If this model is learned through linkage learning based on the population, the learned model may also capture biases. Thus, if an asynchronous parallel MBEA is also affected by an evaluation time bias, this could result in learned models to be less suited to solving the problem, reducing performance. Therefore, in this work, we study the impact and presence of evaluation time biases on MBEAs in an asynchronous parallelization setting, and compare this to the biases in GAs. We find that a modern MBEA, GOMEA, is unaffected by evaluation time biases, while the more classical MBEA, ECGA, is affected, much like GAs are.
翻訳日:2023-03-29 17:25:36 公開日:2023-03-27
# HD-Bind:低精度・超次元双対表現を用いた分子構造の符号化

HD-Bind: Encoding of Molecular Structure with Low Precision, Hyperdimensional Binary Representations ( http://arxiv.org/abs/2303.15604v1 )

ライセンス: Link先を確認
Derek Jones, Jonathan E. Allen, Xiaohua Zhang, Behnam Khaleghi, Jaeyoung Kang, Weihong Xu, Niema Moshiri, Tajana S. Rosing(参考訳) 一般に入手可能な薬物様分子のコレクションは、化学合成の進歩により、近年10億の可能性を秘めている。 潜在的薬物様候補の大規模なコレクションから‘hit’分子を同定する伝統的な方法は、薬物とタンパク質標的との結合相互作用のギブス自由エネルギーの近似を計算するために生物物理学理論に依存している。 アプローチの大きな欠点は、比較的小さな分子の集合を考えるために特別な計算能力が必要であることである。 超次元コンピューティング(HDC)は、最近提案された学習パラダイムであり、従来の機械学習やディープラーニングのアプローチで必要とされる勾配に基づく最適化アプローチを必要とせずに、低精度のバイナリベクトル演算を利用して、得られるデータの効率的な表現を構築することができる。 このアルゴリズムの単純さは、これまで様々な応用領域で実証されてきたハードウェアの加速を可能にする。 分子特性分類のための既存のHDC手法を検討し、拡張接続指紋(ECFP)アルゴリズムを利用する2つの新しい符号化アルゴリズムを導入する。 本稿では,HDCに基づく推論手法が,より複雑な機械学習手法よりも90倍効率が高く,分子ドッキングによる推論に比べて約9桁の高速化を実現していることを示す。 本稿では,hdcの分子データのエンコーディングに関する複数のアプローチを示し,その相対的性能を分子特性予測と薬物-タンパク質結合分類の課題で検証する。 この研究は、分子表現学習のさらなる研究を動機付け、超効率的な事前スクリーニングツールを開発した。

Publicly available collections of drug-like molecules have grown to comprise 10s of billions of possibilities in recent history due to advances in chemical synthesis. Traditional methods for identifying ``hit'' molecules from a large collection of potential drug-like candidates have relied on biophysical theory to compute approximations to the Gibbs free energy of the binding interaction between the drug to its protein target. A major drawback of the approaches is that they require exceptional computing capabilities to consider for even relatively small collections of molecules. Hyperdimensional Computing (HDC) is a recently proposed learning paradigm that is able to leverage low-precision binary vector arithmetic to build efficient representations of the data that can be obtained without the need for gradient-based optimization approaches that are required in many conventional machine learning and deep learning approaches. This algorithmic simplicity allows for acceleration in hardware that has been previously demonstrated for a range of application areas. We consider existing HDC approaches for molecular property classification and introduce two novel encoding algorithms that leverage the extended connectivity fingerprint (ECFP) algorithm. We show that HDC-based inference methods are as much as 90 times more efficient than more complex representative machine learning methods and achieve an acceleration of nearly 9 orders of magnitude as compared to inference with molecular docking. We demonstrate multiple approaches for the encoding of molecular data for HDC and examine their relative performance on a range of challenging molecular property prediction and drug-protein binding classification tasks. Our work thus motivates further investigation into molecular representation learning to develop ultra-efficient pre-screening tools.
翻訳日:2023-03-29 17:19:00 公開日:2023-03-27
# 個人情報学におけるバイアスの解明

Uncovering Bias in Personal Informatics ( http://arxiv.org/abs/2303.15592v1 )

ライセンス: Link先を確認
Sofia Yfantidou, Pavlos Sermpezis, Athena Vakali, Ricardo Baeza-Yates(参考訳) スマートフォンとウェアラブルを駆使した個人情報システム(PI)は、ユーザと健康情報の間の障壁を壊す有意義で行動可能な洞察を提供することによって、より健康的なライフスタイルをリードすることができる。 現在、こうしたシステムは何十億ものユーザーが身体活動や睡眠だけでなく、バイタルサインや女性の健康状態などを監視するために使われている。 % 広く利用されているにもかかわらず,特に敏感な個人データの処理や,医療などの偏見の影響を受けやすい領域に近づいたため,PIの偏見は系統的に研究されていない。 広く使われているにもかかわらず、繊細なpiデータの処理にはバイアスがあり、実用的かつ倫理的な影響が伴う可能性がある。 本稿では,piシステムにおけるバイアスの包括的経験的および分析的研究として,生データおよび機械学習ライフサイクル全体におけるバイアスについて述べる。 これまでで最も詳細なフレームワークを使用して、さまざまなバイアス源を探索し、データ生成とモデル学習と実装ストリームの両方にバイアスが存在することを見つけました。 以上の結果から,糖尿病,関節症,高血圧症などの健康上の問題のあるユーザと,データバイアスが学習モデルによって伝播あるいは増幅される女性であり,交叉バイアスも観察できることがわかった。

Personal informatics (PI) systems, powered by smartphones and wearables, enable people to lead healthier lifestyles by providing meaningful and actionable insights that break down barriers between users and their health information. Today, such systems are used by billions of users for monitoring not only physical activity and sleep but also vital signs and women's and heart health, among others. %Despite their widespread usage, the processing of particularly sensitive personal data, and their proximity to domains known to be susceptible to bias, such as healthcare, bias in PI has not been investigated systematically. Despite their widespread usage, the processing of sensitive PI data may suffer from biases, which may entail practical and ethical implications. In this work, we present the first comprehensive empirical and analytical study of bias in PI systems, including biases in raw data and in the entire machine learning life cycle. We use the most detailed framework to date for exploring the different sources of bias and find that biases exist both in the data generation and the model learning and implementation streams. According to our results, the most affected minority groups are users with health issues, such as diabetes, joint issues, and hypertension, and female users, whose data biases are propagated or even amplified by learning models, while intersectional biases can also be observed.
翻訳日:2023-03-29 17:18:33 公開日:2023-03-27
# 視覚変換器の残差を用いた表現型プロンプト学習

Learning Expressive Prompting With Residuals for Vision Transformers ( http://arxiv.org/abs/2303.15591v1 )

ライセンス: Link先を確認
Rajshekhar Das, Yonatan Dukler, Avinash Ravichandran, Ashwin Swaminathan(参考訳) Prompt Learningは、学習可能なパラメータのセットを事前学習されたモデルの入力および中間表現に挿入することで、トランスフォーマーを適応するための効率的なアプローチである。 本研究では,視覚変換器(ViT)の有効適応に特化して学習パラダイムを改良したExpressive Prompts with Residuals(EXPRES)を提案する。 outメソッドは、vitの学習したクラストークンに似た、学習可能な``output'’トークンを介して下流表現を構築する。 さらに, 冷凍変圧器が処理する下流表現のステアリングを改善するために, 各種計算の出力に付加される残差学習可能なトークンを導入する。 本手法は,VTABベンチマークの3/3カテゴリにおいて,画像分類,画像学習,セマンティックセマンティックセグメンテーションにEXPRESを適用した。 強力なパフォーマンスに加えて、既存のビジュアルプロンプトベースラインよりも、我々のアプローチが桁違いに高速であることを観察しました。 ファインタニングのような重み空間適応技術に対するアプローチの計算的利点を解析的に示す。 最後に,一連のアブレーション実験を通じて,手法のアーキテクチャ設計を体系的に協調する。

Prompt learning is an efficient approach to adapt transformers by inserting learnable set of parameters into the input and intermediate representations of a pre-trained model. In this work, we present Expressive Prompts with Residuals (EXPRES) which modifies the prompt learning paradigm specifically for effective adaptation of vision transformers (ViT). Out method constructs downstream representations via learnable ``output'' tokens, that are akin to the learned class tokens of the ViT. Further for better steering of the downstream representation processed by the frozen transformer, we introduce residual learnable tokens that are added to the output of various computations. We apply EXPRES for image classification, few shot learning, and semantic segmentation, and show our method is capable of achieving state of the art prompt tuning on 3/3 categories of the VTAB benchmark. In addition to strong performance, we observe that our approach is an order of magnitude more prompt efficient than existing visual prompting baselines. We analytically show the computational benefits of our approach over weight space adaptation techniques like finetuning. Lastly we systematically corroborate the architectural design of our method via a series of ablation experiments.
翻訳日:2023-03-29 17:18:12 公開日:2023-03-27
# 言語的にインフォームドされたChatGPTプロンプトを用いた日中機械翻訳 : 帰属句の事例研究

Linguistically Informed ChatGPT Prompts to Enhance Japanese-Chinese Machine Translation: A Case Study on Attributive Clauses ( http://arxiv.org/abs/2303.15587v1 )

ライセンス: Link先を確認
Wenshi Gu(参考訳) 日中国語翻訳言語学の分野では、帰属節を正しく翻訳する問題は依然として困難であることが証明されている。 現在の機械翻訳ツールは日本語から中国語への帰属句の翻訳に失敗することが多い。 そこで本研究では,このような難しさの根底にある言語的問題,すなわち修飾名詞の意味的役割が帰属節の翻訳パターンの選択にどのように影響するかを,言語学的観点から検討する。 これらの困難に対処するため,翻訳精度の向上を目的とした事前編集方式を提案する。 さらに,この事前編集方式と,現在最も広く使われている大規模言語モデルであるchatgptを組み合わせた,新たな2段階プロンプト戦略を提案する。 このプロンプト戦略はゼロショットシナリオで翻訳入力を最適化することができ、平均翻訳精度スコアを35%以上向上させることが実証されている。

In the field of Japanese-Chinese translation linguistics, the issue of correctly translating attributive clauses has persistently proven to be challenging. Present-day machine translation tools often fail to accurately translate attributive clauses from Japanese to Chinese. In light of this, this paper investigates the linguistic problem underlying such difficulties, namely how does the semantic role of the modified noun affect the selection of translation patterns for attributive clauses, from a linguistic perspective. To ad-dress these difficulties, a pre-edit scheme is proposed, which aims to enhance the accuracy of translation. Furthermore, we propose a novel two-step prompt strategy, which combines this pre-edit scheme with ChatGPT, currently the most widely used large language model. This prompt strategy is capable of optimizing translation input in zero-shot scenarios and has been demonstrated to improve the average translation accuracy score by over 35%.
翻訳日:2023-03-29 17:17:51 公開日:2023-03-27
# Beyond Accuracy: モバイルおよびウェアラブルコンピューティングにおける機械学習の公正性の批判的レビュー

Beyond Accuracy: A Critical Review of Fairness in Machine Learning for Mobile and Wearable Computing ( http://arxiv.org/abs/2303.15585v1 )

ライセンス: Link先を確認
Sofia Yfantidou, Marios Constantinides, Dimitris Spathis, Athena Vakali, Daniele Quercia, Fahim Kawsar(参考訳) モバイル、ウェアラブル、ユビキタスコンピューティング(UbiComp)の分野では、機械学習の革命的な統合が進行中である。 デバイスは病気を診断し、心臓の異常を予測し、人間の認知の可能性を解き放つことができる。 しかし、基礎となるアルゴリズムは、敏感な属性(例えば、性別、人種)に対するバイアスに免疫がなく、差別的な結果をもたらす。 HCIとAI-Ethicsの研究コミュニティは最近、データセットに関する情報を表面化し、最終的にはバイアスに対処する方法を探り始めた。 この研究の目的は、UbiCompコミュニティがこのような報告方法を採用し、潜在的な欠点を浮き彫りにすることである。 The Proceedings of ACM Interactive, Mobile, Wearable and Ubiquitous Technologies (IMWUT) Journal(2018-2022)に掲載された論文を体系的にレビューした結果,UbiCompコミュニティにおけるアルゴリズムフェアネスの進展が遅れていることが判明した。 論文のごく一部(5%)が現代のフェアネスレポートに準拠しているのに対し,圧倒的多数は精度や誤差の指標に重点を置いている。 これらの知見を踏まえて,本研究は,正確性だけでなく公正性も追求するユビキタス技術の設計・開発のための実践的ガイドラインを提供する。

The field of mobile, wearable, and ubiquitous computing (UbiComp) is undergoing a revolutionary integration of machine learning. Devices can now diagnose diseases, predict heart irregularities, and unlock the full potential of human cognition. However, the underlying algorithms are not immune to biases with respect to sensitive attributes (e.g., gender, race), leading to discriminatory outcomes. The research communities of HCI and AI-Ethics have recently started to explore ways of reporting information about datasets to surface and, eventually, counter those biases. The goal of this work is to explore the extent to which the UbiComp community has adopted such ways of reporting and highlight potential shortcomings. Through a systematic review of papers published in the Proceedings of the ACM Interactive, Mobile, Wearable and Ubiquitous Technologies (IMWUT) journal over the past 5 years (2018-2022), we found that progress on algorithmic fairness within the UbiComp community lags behind. Our findings show that only a small portion (5%) of published papers adheres to modern fairness reporting, while the overwhelming majority thereof focuses on accuracy or error metrics. In light of these findings, our work provides practical guidelines for the design and development of ubiquitous technologies that not only strive for accuracy but also for fairness.
翻訳日:2023-03-29 17:17:34 公開日:2023-03-27
# 統計的学習における適応ワッサースタイン分布ロバスト推定器

Adjusted Wasserstein Distributionally Robust Estimator in Statistical Learning ( http://arxiv.org/abs/2303.15579v1 )

ライセンス: Link先を確認
Yiling Xie, Xiaoming Huo(参考訳) 本稿では,統計学習におけるWDRO(Wsserstein distributionally robust)推定器の非線形変換に基づく,調整されたWasserstein distributionally robust estimatorを提案する。 この変換により、調整されたWDRO推定器は漸近的に偏りがなく、漸近的に小さい平均二乗誤差を持つため、WDROの統計性能が向上する。 調整されたWDROは、WDROの性能保証を緩和しない。 調整WDRO推定器の存在に関する十分条件を示し、調整WDRO推定器の計算手順を与える。 具体的には、一般化線形モデルにおいて、調整されたWDRO推定器がどのように開発されたかを示す。 数値実験は、古典的な推定器よりも調整された推定器の実用的な性能を示す。

We propose an adjusted Wasserstein distributionally robust estimator -- based on a nonlinear transformation of the Wasserstein distributionally robust (WDRO) estimator in statistical learning. This transformation will improve the statistical performance of WDRO because the adjusted WDRO estimator is asymptotically unbiased and has an asymptotically smaller mean squared error. The adjusted WDRO will not mitigate the out-of-sample performance guarantee of WDRO. Sufficient conditions for the existence of the adjusted WDRO estimator are presented, and the procedure for the computation of the adjusted WDRO estimator is given. Specifically, we will show how the adjusted WDRO estimator is developed in the generalized linear model. Numerical experiments demonstrate the favorable practical performance of the adjusted estimator over the classic one.
翻訳日:2023-03-29 17:17:10 公開日:2023-03-27
# d-trattunet:デュアルデコーダトランスフォーマベースの注意型unetアーキテクチャによるcovid-19感染セグメンテーション

D-TrAttUnet: Dual-Decoder Transformer-Based Attention Unet Architecture for Binary and Multi-classes Covid-19 Infection Segmentation ( http://arxiv.org/abs/2303.15576v1 )

ライセンス: Link先を確認
Fares Bougourzi and Cosimo Distante and Fadi Dornaika and Abdelmalik Taleb-Ahmed(参考訳) 過去3年間、世界はコビッドウイルスのパンデミックによる世界的な危機に直面してきた。 医療画像はこの病気と闘い、人間の命を救う上で重要な役割を担っている。 実際、CTスキャンはCovid-19感染の診断、検出、追跡の効率を証明している。 本稿では,CTスライスからのCovid-19感染セグメンテーションのためのTransformer-CNNベースの新しいアプローチを提案する。 提案するd-trattunetアーキテクチャは、複合トランスフォーマ-cnnエンコーダとデュアルデコーダが提案されるエンコーダ-デコーダ構造を有する。 transformer-cnnエンコーダは、transformer layer、upresblocks、resblocks、max-pooling layerを使用して構築されている。 デュアルデコーダは2つの同一のCNNデコーダとアテンションゲートで構成される。 2つのデコーダは、感染と肺領域を同時に区分するために使用され、2つのタスクの損失が結合される。 提案するd-trattunetアーキテクチャは,2級および複数級のcovid-19感染セグメンテーションにおいて評価されている。 実験により,限られたデータからのCovid-19セグメンテーションタスクの複雑さに対処する手法の有効性が示された。 さらに、D-TrAttUnetアーキテクチャは、3つのベースラインCNNセグメンテーションアーキテクチャ(Unet、AttUnet、Unet++)と3つの最先端アーキテクチャ(AnamNet、SCOATNet、CopleNet)をバイナリとMutliクラスのセグメンテーションタスクで上回っている。

In the last three years, the world has been facing a global crisis caused by Covid-19 pandemic. Medical imaging has been playing a crucial role in the fighting against this disease and saving the human lives. Indeed, CT-scans has proved their efficiency in diagnosing, detecting, and following-up the Covid-19 infection. In this paper, we propose a new Transformer-CNN based approach for Covid-19 infection segmentation from the CT slices. The proposed D-TrAttUnet architecture has an Encoder-Decoder structure, where compound Transformer-CNN encoder and Dual-Decoders are proposed. The Transformer-CNN encoder is built using Transformer layers, UpResBlocks, ResBlocks and max-pooling layers. The Dual-Decoder consists of two identical CNN decoders with attention gates. The two decoders are used to segment the infection and the lung regions simultaneously and the losses of the two tasks are joined. The proposed D-TrAttUnet architecture is evaluated for both Binary and Multi-classes Covid-19 infection segmentation. The experimental results prove the efficiency of the proposed approach to deal with the complexity of Covid-19 segmentation task from limited data. Furthermore, D-TrAttUnet architecture outperforms three baseline CNN segmentation architectures (Unet, AttUnet and Unet++) and three state-of-the-art architectures (AnamNet, SCOATNet and CopleNet), in both Binary and Mutli-classes segmentation tasks.
翻訳日:2023-03-29 17:16:58 公開日:2023-03-27
# スピン鎖型量子熱機械

Spin-chain based quantum thermal machines ( http://arxiv.org/abs/2303.15574v1 )

ライセンス: Link先を確認
Edoardo Maria Centamori, Michele Campisi, and Vittorio Giovannetti(参考訳) 本研究では,模型の作動流体を局所カップリングによって外部浴槽と周期的に結合した多体量子系で表現する量子熱機械の性能について検討する。 集合の極限サイクルの形式的なキャラクタリゼーションは、熱力学的サイクル上の流体の進化を記述する量子チャネルの混合特性の観点から示される。 For the special case in which the system is a collection of spin 1/2 particles coupled via magnetization preserving Hamiltonians, a full characterization of the possible operational regimes (i.e., thermal engine, refrigerator, heater and thermal accelerator) is provided: in this context we show in fact that the different regimes only depend upon a limited number of parameters (essentially the ratios of the energy gaps associated with the local Hamiltonians of the parts of the network which are in direct thermal contact with the baths).

We study the performance of quantum thermal machines in which the working fluid of the model is represented by a many-body quantum system that is periodically connected with external baths via local couplings. A formal characterization of the limit cycles of the set-up is presented in terms of the mixing properties of the quantum channel that describes the evolution of the fluid over a thermodynamic cycle. For the special case in which the system is a collection of spin 1/2 particles coupled via magnetization preserving Hamiltonians, a full characterization of the possible operational regimes (i.e., thermal engine, refrigerator, heater and thermal accelerator) is provided: in this context we show in fact that the different regimes only depend upon a limited number of parameters (essentially the ratios of the energy gaps associated with the local Hamiltonians of the parts of the network which are in direct thermal contact with the baths).
翻訳日:2023-03-29 17:16:29 公開日:2023-03-27
# EMShepherd:サイドチャネルリークによる対向サンプルの検出

EMShepherd: Detecting Adversarial Samples via Side-channel Leakage ( http://arxiv.org/abs/2303.15571v1 )

ライセンス: Link先を確認
Ruyi Ding, Cheng Gongye, Siyue Wang, Aidong Ding, Yunsi Fei(参考訳) Deep Neural Networks (DNN) は、間違った予測のためにモデルを誤解させる入力に基づいて意図的に作られた敵の摂動に弱い。 敵の攻撃は、ディープラーニングによる重要なアプリケーションにとって悲惨な結果をもたらす。 既存の防御と検出技術には、モデルやインプットのテスト、さらには実行の詳細に関する広範な知識が必要です。 モデル内部が不明な一般的なディープラーニング実装では不可能であり、モデルユーザにとって一般的な"ブラックボックス"シナリオである。 モデル推論の電磁的(EM)エマニュエーションは、演算とデータの両方に依存し、異なる入力クラスのフットプリントを含む可能性があるという事実に着想を得て、モデル実行のEMトレースを捕捉し、トレース上で処理を行い、敵検出のためにそれらを利用するフレームワークEMShepherdを提案する。 良性サンプルとそのemトレースのみが、em分類器とクラス固有の教師なし異常検出器のセットである敵検出器の訓練に使用される。 被害者のモデルシステムが敵の例によって攻撃されている場合、モデルの実行は既知のクラスの実行と異なり、EMトレースが異なる。 我々は,Fashion MNISTとCIFAR-10の両方のデータセットに対して,一般的に使用されているFPGA深層学習アクセラレータに対する異なる敵攻撃を効果的に検出できることを実証した。 これは、最先端の「ホワイトボックス」ソフトウェアベースの検出器に匹敵する、ほとんどの種類の敵対的サンプルに対して100%検出率を達成する。

Deep Neural Networks (DNN) are vulnerable to adversarial perturbations-small changes crafted deliberately on the input to mislead the model for wrong predictions. Adversarial attacks have disastrous consequences for deep learning-empowered critical applications. Existing defense and detection techniques both require extensive knowledge of the model, testing inputs, and even execution details. They are not viable for general deep learning implementations where the model internal is unknown, a common 'black-box' scenario for model users. Inspired by the fact that electromagnetic (EM) emanations of a model inference are dependent on both operations and data and may contain footprints of different input classes, we propose a framework, EMShepherd, to capture EM traces of model execution, perform processing on traces and exploit them for adversarial detection. Only benign samples and their EM traces are used to train the adversarial detector: a set of EM classifiers and class-specific unsupervised anomaly detectors. When the victim model system is under attack by an adversarial example, the model execution will be different from executions for the known classes, and the EM trace will be different. We demonstrate that our air-gapped EMShepherd can effectively detect different adversarial attacks on a commonly used FPGA deep learning accelerator for both Fashion MNIST and CIFAR-10 datasets. It achieves a 100% detection rate on most types of adversarial samples, which is comparable to the state-of-the-art 'white-box' software-based detectors.
翻訳日:2023-03-29 17:16:17 公開日:2023-03-27
# ニューラルネットワークを用いた乾燥時のフィルタ媒体のオンライン非破壊水分量推定

Online Non-Destructive Moisture Content Estimation of Filter Media During Drying Using Artificial Neural Networks ( http://arxiv.org/abs/2303.15570v1 )

ライセンス: Link先を確認
Christian Remi Wewer and Alexandros Iosifidis(参考訳) 湿潤ろ過媒体の乾燥プロセスにおいて, 湿潤含量 (MC) の推定は, 乾燥最適化の前提条件として重要である。 本研究では,161個の乾燥産業実験を行ったデータセットを記載し,産業乾燥中の非破壊的かつオンライン的なmc推定手法を提案する。 人工ニューラルネットワーク(ANN)に基づく手法は、文献で報告されている最先端のMC推定手法と比較する。 モデルフィッティングおよびトレーニングの結果、三層パーセプトロンが最低誤差を達成することが示された。 実験により, ANNとオーブン設定データ, 乾燥時間, 製品温度を組み合わせることで, バルクフィルターメディア製品のMCを確実に推定できることがわかった。

Moisture content (MC) estimation is important in the manufacturing process of drying bulky filter media products as it is the prerequisite for drying optimization. In this study, a dataset collected by performing 161 drying industrial experiments is described and a methodology for MC estimation in an non-destructive and online manner during industrial drying is presented. An artificial neural network (ANN) based method is compared to state-of-the-art MC estimation methods reported in the literature. Results of model fitting and training show that a three-layer Perceptron achieves the lowest error. Experimental results show that ANNs combined with oven settings data, drying time and product temperature can be used to reliably estimate the MC of bulky filter media products.
翻訳日:2023-03-29 17:15:50 公開日:2023-03-27
# UFO:CNNにおける概念に基づく説明における理解可能性と信仰目的の統一的制御法

UFO: A unified method for controlling Understandability and Faithfulness Objectives in concept-based explanations for CNNs ( http://arxiv.org/abs/2303.15632v1 )

ライセンス: Link先を確認
Vikram V. Ramaswamy, Sunnie S. Y. Kim, Ruth Fong, Olga Russakovsky(参考訳) 畳み込みニューラルネットワーク(CNN)の概念に基づく説明は、事前に定義されたセマンティック概念のセットを用いてモデル行動と出力を説明することを目的としている(例えば、モデルは、"`bed''' と '`pillow''' の概念の存在に基づいて、シーンクラス ``bedroom'' を認識する)。 しかし、それらはしばしば、モデルの振る舞いを忠実に(正確に)特徴づけておらず、人々が理解するには複雑すぎる。 さらに、異なる説明法がいかに忠実で理解可能であるか、そしてこれらの2つの特性を制御する方法についてはほとんど分かっていない。 本研究では,概念に基づく説明において,理解可能性と信頼度を統一的に制御するUFOを提案する。 UFOは数学的目的として理解性と忠実性を定式化し、CNNの既存の概念に基づく説明手法を統一する。 UFOを用いて、信頼と理解性のノブを回すと、説明がどのように変化するかを体系的に検討する。 我々の実験は、信頼-vs-理解可能性のトレードオフを実証している。 また、概念に基づく説明が相互に矛盾する時期と状況を分析することによって、説明可能な機械学習における「相違問題」についての洞察も提供する。

Concept-based explanations for convolutional neural networks (CNNs) aim to explain model behavior and outputs using a pre-defined set of semantic concepts (e.g., the model recognizes scene class ``bedroom'' based on the presence of concepts ``bed'' and ``pillow''). However, they often do not faithfully (i.e., accurately) characterize the model's behavior and can be too complex for people to understand. Further, little is known about how faithful and understandable different explanation methods are, and how to control these two properties. In this work, we propose UFO, a unified method for controlling Understandability and Faithfulness Objectives in concept-based explanations. UFO formalizes understandability and faithfulness as mathematical objectives and unifies most existing concept-based explanations methods for CNNs. Using UFO, we systematically investigate how explanations change as we turn the knobs of faithfulness and understandability. Our experiments demonstrate a faithfulness-vs-understandability tradeoff: increasing understandability reduces faithfulness. We also provide insights into the ``disagreement problem'' in explainable machine learning, by analyzing when and how concept-based explanations disagree with each other.
翻訳日:2023-03-29 17:10:16 公開日:2023-03-27
# Ensemble SINDy と Peridynamic Differential Operator を用いた移動境界を用いた多物理探査

Multiphysics discovery with moving boundaries using Ensemble SINDy and Peridynamic Differential Operator ( http://arxiv.org/abs/2303.15631v1 )

ライセンス: Link先を確認
A. C. Bekar, E. Haghighat, E. Madenci(参考訳) 本研究では,移動境界を持つ現象の物理を学習するための新しい枠組みを提案する。 提案手法はEnsemble SINDy と Peridynamic Differential Operator (PDDO) を組み合わせて,移動境界の物理が自身の回転座標系で進化することを前提として誘導バイアスを与える。 2D Fisher-Stefanモデルを用いて測定データ中の様々なレベルのノイズを考慮し, 提案手法のロバスト性を示す。 回収係数の信頼区間を列挙し、回収係数の解を求めることにより、移動境界位置の不確かさを図示する。 本研究の主な焦点はフィッシャー-ステファンモデルであるが, 提案手法は, 粘性領域のない滑らかな移動境界面を有する任意の移動境界問題に適用可能である。 このフレームワークのコードとデータは、https://github.com/alicanbekar/mb_pddo-sindyで入手できる。

This study proposes a novel framework for learning the underlying physics of phenomena with moving boundaries. The proposed approach combines Ensemble SINDy and Peridynamic Differential Operator (PDDO) and imposes an inductive bias assuming the moving boundary physics evolve in its own corotational coordinate system. The robustness of the approach is demonstrated by considering various levels of noise in the measured data using the 2D Fisher-Stefan model. The confidence intervals of recovered coefficients are listed, and the uncertainties of the moving boundary positions are depicted by obtaining the solutions with the recovered coefficients. Although the main focus of this study is the Fisher-Stefan model, the proposed approach is applicable to any type of moving boundary problem with a smooth moving boundary front without a mushy region. The code and data for this framework is available at: https://github.com/alicanbekar/MB_PDDO-SINDy.
翻訳日:2023-03-29 17:09:53 公開日:2023-03-27
# 実用的量子アドバンテージを示すフレームワーク:古典的生成モデルに対するレース量子

A Framework for Demonstrating Practical Quantum Advantage: Racing Quantum against Classical Generative Models ( http://arxiv.org/abs/2303.15626v1 )

ライセンス: Link先を確認
Mohamed Hibat-Allah, Marta Mauri, Juan Carrasquilla, Alejandro Perdomo-Ortiz(参考訳) 生成モデリングは古典的および量子機械学習の両方への関心が高まっており、近い将来に実用的な量子優位性を得るための有望な候補である。 本研究では、生成モデルの一般化性能を評価するためのフレームワークを構築し、量子回路ボルンマシン(QCBM)、トランスフォーマー(TF)、リカレントニューラルネットワーク(RNN)、変分オートエンコーダ(VAE)、ワッサーシュタイン生成適応ネットワーク(WGAN)といった古典的および量子生成モデル間での実用的な量子優位性(PQA)に対する最初の定量的比較レースを確立する。 4種類のPQAシナリオを定義した後、量子モデルとタスクの最もよく知られた古典的アルゴリズムを比較することを目的として、潜在的PQAと呼ばれるものに焦点を当てた。 そこでは、20変数(量子)生成モデリングタスクのフレームワークを実演し、実演します。 以上の結果から,QCBMは,他の最先端の古典的生成モデルよりもデータ制限方式の方が効率的であることが示唆された。 このような機能は、利用可能なデータが不足している幅広い実世界のアプリケーションで非常に望ましい。

Generative modeling has seen a rising interest in both classical and quantum machine learning, and it represents a promising candidate to obtain a practical quantum advantage in the near term. In this study, we build over a proposed framework for evaluating the generalization performance of generative models, and we establish the first quantitative comparative race towards practical quantum advantage (PQA) between classical and quantum generative models, namely Quantum Circuit Born Machines (QCBMs), Transformers (TFs), Recurrent Neural Networks (RNNs), Variational Autoencoders (VAEs), and Wasserstein Generative Adversarial Networks (WGANs). After defining four types of PQAs scenarios, we focus on what we refer to as potential PQA, aiming to compare quantum models with the best-known classical algorithms for the task at hand. We let the models race on a well-defined and application-relevant competition setting, where we illustrate and demonstrate our framework on 20 variables (qubits) generative modeling task. Our results suggest that QCBMs are more efficient in the data-limited regime than the other state-of-the-art classical generative models. Such a feature is highly desirable in a wide range of real-world applications where the available data is scarce.
翻訳日:2023-03-29 17:09:35 公開日:2023-03-27
# 非構造環境と未知環境のマッピングのためのハイパースペクトル画像を用いたリアルタイム意味セグメンテーション

Real-Time Semantic Segmentation using Hyperspectral Images for Mapping Unstructured and Unknown Environments ( http://arxiv.org/abs/2303.15623v1 )

ライセンス: Link先を確認
Anthony Medellin and Anant Bhamri and Reza Langari and Swaminathan Gopalswamy(参考訳) 非構造化オフロード環境における自律ナビゲーションはセマンティックシーン理解によって大幅に改善される。 従来の画像処理アルゴリズムは、オフロード環境における構造不足と高い可変性のため、実装が困難で堅牢性に欠ける。 ニューラルネットワークと機械学習の使用は、以前の課題を克服することができるが、トレーニングには大きなラベル付きデータセットが必要である。 本研究では,実時間画素単位のセマンティック分類とセグメンテーションにおいて,事前のトレーニングデータを必要としないハイパースペクトル画像を提案する。 得られた分割画像は、ポリゴン近似アルゴリズムを用いて、多角形として抽出、フィルタ、近似オブジェクトとして処理される。 得られたポリゴンは環境のセマンティックマップを生成するために使用される。 フレームワークを使います。 分類のための実行時に新しいセマンティッククラスを追加する機能を示す。 提案手法は、高分解能ハイパースペクトル画像を用いて、リアルタイムに動作し、1Hzの周波数で出力する。

Autonomous navigation in unstructured off-road environments is greatly improved by semantic scene understanding. Conventional image processing algorithms are difficult to implement and lack robustness due to a lack of structure and high variability across off-road environments. The use of neural networks and machine learning can overcome the previous challenges but they require large labeled data sets for training. In our work we propose the use of hyperspectral images for real-time pixel-wise semantic classification and segmentation, without the need of any prior training data. The resulting segmented image is processed to extract, filter, and approximate objects as polygons, using a polygon approximation algorithm. The resulting polygons are then used to generate a semantic map of the environment. Using our framework. we show the capability to add new semantic classes in run-time for classification. The proposed methodology is also shown to operate in real-time and produce outputs at a frequency of 1Hz, using high resolution hyperspectral images.
翻訳日:2023-03-29 17:09:12 公開日:2023-03-27
# 抽象テキスト要約のためのファクチュアル不整合評価器としてのChatGPT

ChatGPT as a Factual Inconsistency Evaluator for Abstractive Text Summarization ( http://arxiv.org/abs/2303.15621v1 )

ライセンス: Link先を確認
Zheheng Luo, Qianqian Xie, Sophia Ananiadou(参考訳) 抽象テキスト要約の性能は、最近、事前訓練された言語モデルによって大幅に向上した。 既存の抽象要約法の主な関心事は、生成された要約の事実的不整合問題である。 この問題を軽減するため,自然言語推論や質問応答等に基づく効果的な事実性評価指標の開発に多くの取り組みが注がれている。 しかし、計算の複雑さは高く、注釈付きデータに依存するという制限がある。 最近では、chatgptのような大規模言語モデルは、自然言語理解だけでなく、自然言語推論にも強い能力を示している。 本稿では,2次自然言語推論(nli),要約ランキング,一貫性評価を含む粗粒度および細粒度事実度評価タスクを用いて,ゼロショット設定下でのchatgptの非一貫性評価能力について検討する。 実験の結果、ChatGPTは3つのタスクにわたる6/9データセットのSOTA評価指標よりも優れており、ゼロショット設定における事実整合性を評価する大きな可能性を示している。 また, 評価バイアス, 誤った推論, 幻覚に対するChatGPTの限界に対処するために, 迅速な設計の重要性と今後の取り組みの必要性も強調した。

The performance of abstractive text summarization has been greatly boosted by pre-trained language models recently. The main concern of existing abstractive summarization methods is the factual inconsistency problem of their generated summary. To alleviate the problem, many efforts have focused on developing effective factuality evaluation metrics based on natural language inference and question answering et al. However, they have limitations of high computational complexity and relying on annotated data. Most recently, large language models such as ChatGPT have shown strong ability in not only natural language understanding but also natural language inference. In this paper, we study the factual inconsistency evaluation ability of ChatGPT under the zero-shot setting by evaluating it on the coarse-grained and fine-grained factuality evaluation tasks including binary natural language inference (NLI), summary ranking, and consistency rating. Experimental results show that ChatGPT outperforms previous SOTA evaluation metrics on 6/9 datasets across three tasks, demonstrating its great potential for assessing factual inconsistency in the zero-shot setting. The results also highlight the importance of prompt design and the need for future efforts to address ChatGPT's limitations on evaluation bias, wrong reasoning, and hallucination.
翻訳日:2023-03-29 17:08:54 公開日:2023-03-27
# 台風:事前訓練された言語モデルのための効果的なタスク特化マスキング戦略を目指して

Typhoon: Towards an Effective Task-Specific Masking Strategy for Pre-trained Language Models ( http://arxiv.org/abs/2303.15619v1 )

ライセンス: Link先を確認
Muhammed Shahir Abdurrahman, Hashem Elezabi, Bruce Changlong Xu(参考訳) グラフィックス処理ユニットによって実現された高いレベルの並列性を活用することで、トランスフォーマーアーキテクチャは自然言語処理の分野で大きな進歩を遂げた。 従来のマスク付き言語モデルでは、特別なMASKトークンを使用して、周囲の単語からコンテキスト情報を収集し、元の隠れた情報を復元する。 本稿では,GLUEベンチマークのデータセット上の特定の下流タスクにおいて,優れたパフォーマンスを実現するための,事前訓練済みの大規模言語モデルのためのタスク固有マスキングフレームワークについて検討する。 我々はトークン入力勾配に基づく独自のマスキングアルゴリズムであるTyphoonを開発し、これを他の標準ベースラインと比較する。 台風はmpcデータセット上で全単語マスキングと競合するパフォーマンスを提供する。 私たちの実装は、公開のGithubリポジトリで確認できます。

Through exploiting a high level of parallelism enabled by graphics processing units, transformer architectures have enabled tremendous strides forward in the field of natural language processing. In a traditional masked language model, special MASK tokens are used to prompt our model to gather contextual information from surrounding words to restore originally hidden information. In this paper, we explore a task-specific masking framework for pre-trained large language models that enables superior performance on particular downstream tasks on the datasets in the GLUE benchmark. We develop our own masking algorithm, Typhoon, based on token input gradients, and compare this with other standard baselines. We find that Typhoon offers performance competitive with whole-word masking on the MRPC dataset. Our implementation can be found in a public Github Repository.
翻訳日:2023-03-29 17:08:32 公開日:2023-03-27
# インセンティブに基づく需要応答のためのオンライン学習

Online Learning for Incentive-Based Demand Response ( http://arxiv.org/abs/2303.15617v1 )

ライセンス: Link先を確認
Deepan Muthirayan, and Pramod P. Khargonekar(参考訳) 本稿では,需要対応(dr)リソースを管理するためのオンライン学習の課題について考察する。 典型的なdrメカニズムでは、drマネージャは、drサービスの提供のために呼び出されていない消費者の反事実消費を推定するベースラインとして、参加する消費者にベースラインを割り当てる必要がある。 ベースライン推定の課題は、消費者がベースライン推定を膨らませなければならないインセンティブである。 このようなインセンティブの下で,オンライン学習の課題は,ベースラインを推定し,運用コストを一定期間に最適化することにある。 本稿では,オンライン学習に伴う探索と搾取のトレードオフのバランスをとるために,報酬価格(drサービスや負荷削減)に対する摂動を伴う推定に最小2乗を用いるオンライン学習方式を提案する。 提案手法は,DRプログラムの最適運用コストが,ベースラインの知識を十分に備えた$T$日を超えることに対して,$\mathcal{O}\left((\log{T})^2\right)$の非常に低い後悔を達成でき,消費者が参加する上で合理的であることを示す。 これは$\mathcal{o}(t^{1/3})$ regretのみを取得する平均型アプローチよりもはるかに優れている。

In this paper, we consider the problem of learning online to manage Demand Response (DR) resources. A typical DR mechanism requires the DR manager to assign a baseline to the participating consumer, where the baseline is an estimate of the counterfactual consumption of the consumer had it not been called to provide the DR service. A challenge in estimating baseline is the incentive the consumer has to inflate the baseline estimate. We consider the problem of learning online to estimate the baseline and to optimize the operating costs over a period of time under such incentives. We propose an online learning scheme that employs least-squares for estimation with a perturbation to the reward price (for the DR services or load curtailment) that is designed to balance the exploration and exploitation trade-off that arises with online learning. We show that, our proposed scheme is able to achieve a very low regret of $\mathcal{O}\left((\log{T})^2\right)$ with respect to the optimal operating cost over $T$ days of the DR program with full knowledge of the baseline, and is individually rational for the consumers to participate. Our scheme is significantly better than the averaging type approach, which only fetches $\mathcal{O}(T^{1/3})$ regret.
翻訳日:2023-03-29 17:08:20 公開日:2023-03-27
# 細粒度可聴映像記述

Fine-grained Audible Video Description ( http://arxiv.org/abs/2303.15616v1 )

ライセンス: Link先を確認
Xuyang Shen and Dong Li and Jinxing Zhou and Zhen Qin and Bowen He and Xiaodong Han and Aixuan Li and Yuchao Dai and Lingpeng Kong and Meng Wang and Yu Qiao and Yiran Zhong(参考訳) 本研究では,FAVDと呼ばれる音声視覚言語モデリングの新しい課題について検討する。 対象物の外観や空間的位置,移動対象の動作,映像中の音など,所定の可聴ビデオに関する詳細なテキスト記述を提供することを目的としている。 既存の視覚言語モデリングタスクは、言語とオーディオのモダリティを過小評価しながら、ビデオの視覚的手がかりに集中することが多い。 一方、FAVDは音声視覚言語モデリングスキルだけでなく、段落レベルの言語生成能力も必要としている。 本研究を円滑に進めるため, FAVDBench(きめ細かな映像記述ベンチマーク)を構築した。 各ビデオクリップに対して,まずビデオの1文要約,ie,キャプション,続いて4~6文の視覚詳細と1~2文の音声関連記述を提供する。 その説明は英語と中国語の両方で書かれている。 このタスクのために、視覚的記述におけるエンティティの完全性を評価するEntityScoreと、オーディオ記述を評価するAudioScoreの2つの新しいメトリクスを作成します。 この課題に対する予備的アプローチとして,既存の映像キャプションモデルを拡張した音声・視覚言語トランスフォーマを提案する。 マスク付き言語モデリングと自動回帰言語モデリングの損失を組み合わせることで、モデル最適化を行い、段落レベルの記述を生成する。 従来のキャプション指標と提案指標の両方を用いて,提案したベンチマークと比較し,音声視覚言語モデルにおけるモデルの有効性について述べる。 さらに,ビデオ生成モデルのベンチマークを行い,細粒度ビデオ記述を用いることでキャプションよりも複雑な映像を生成できることを実証した。

We explore a new task for audio-visual-language modeling called fine-grained audible video description (FAVD). It aims to provide detailed textual descriptions for the given audible videos, including the appearance and spatial locations of each object, the actions of moving objects, and the sounds in videos. Existing visual-language modeling tasks often concentrate on visual cues in videos while undervaluing the language and audio modalities. On the other hand, FAVD requires not only audio-visual-language modeling skills but also paragraph-level language generation abilities. We construct the first fine-grained audible video description benchmark (FAVDBench) to facilitate this research. For each video clip, we first provide a one-sentence summary of the video, ie, the caption, followed by 4-6 sentences describing the visual details and 1-2 audio-related descriptions at the end. The descriptions are provided in both English and Chinese. We create two new metrics for this task: an EntityScore to gauge the completeness of entities in the visual descriptions, and an AudioScore to assess the audio descriptions. As a preliminary approach to this task, we propose an audio-visual-language transformer that extends existing video captioning model with an additional audio branch. We combine the masked language modeling and auto-regressive language modeling losses to optimize our model so that it can produce paragraph-level descriptions. We illustrate the efficiency of our model in audio-visual-language modeling by evaluating it against the proposed benchmark using both conventional captioning metrics and our proposed metrics. We further put our benchmark to the test in video generation models, demonstrating that employing fine-grained video descriptions can create more intricate videos than using captions.
翻訳日:2023-03-29 17:07:54 公開日:2023-03-27
# 安定化器符号の逆対角論理演算子

Transversal Diagonal Logical Operators for Stabiliser Codes ( http://arxiv.org/abs/2303.15615v1 )

ライセンス: Link先を確認
Mark A. Webster, Armanda O. Quintavalle, and Stephen D. Bartlett(参考訳) 量子エラー訂正コードに量子情報を格納することで、エラーから保護することができるが、フォールトトレラントな方法で格納された量子情報を変換する能力も同様に重要である。 論理パウリ群演算子は、一連の物理パウリ X と Z ゲートを適用することで、一般に研究されているコードカテゴリである Calderbank-Shor-Steane (CSS) 符号に実装することができる。 この形式の論理演算子は、各キュービットが少なくとも1つのゲートによって動作し、エラーの拡散を制限するので、フォールトトレラントであるため、トランスバーサル論理演算子(transversal logical operator)と呼ばれる。 パウリ群外における横断的論理作用素の同定は、あまりよく分かっていない。 パウリ作用素はクリフォード階層の最初のレベルであり、フォールトトレランスと普遍性に深く結びついている。 本研究では,単一および多ビット対角線クリフォード階層ゲートからなる超越論理作用素について検討する。 従来の手法よりも汎用的あるいは計算複雑性が低いcssコード上で,すべての横方向の対角的論理演算子を識別するアルゴリズムを実証する。 また,単一キュービット位相ゲートを用いて実装した,所望の対角論理クリフォード階層演算子を持つCSSコードを構築する方法を示す。 本手法は,対角的クリフォード階層ゲートからなる演算子を対角的xp演算子として表現することに依存している。

Storing quantum information in a quantum error correction code can protect it from errors, but the ability to transform the stored quantum information in a fault tolerant way is equally important. Logical Pauli group operators can be implemented on Calderbank-Shor-Steane (CSS) codes, a commonly-studied category of codes, by applying a series of physical Pauli X and Z gates. Logical operators of this form are fault-tolerant because each qubit is acted upon by at most one gate, limiting the spread of errors, and are referred to as transversal logical operators. Identifying transversal logical operators outside the Pauli group is less well understood. Pauli operators are the first level of the Clifford hierarchy which is deeply connected to fault-tolerance and universality. In this work, we study transversal logical operators composed of single- and multi-qubit diagonal Clifford hierarchy gates. We demonstrate algorithms for identifying all transversal diagonal logical operators on a CSS code that are more general or have lower computational complexity than previous methods. We also show a method for constructing CSS codes that have a desired diagonal logical Clifford hierarchy operator implemented using single qubit phase gates. Our methods rely on representing operators composed of diagonal Clifford hierarchy gates as diagonal XP operators and this technique may have broader applications.
翻訳日:2023-03-29 17:07:26 公開日:2023-03-27
# 人道的危機における国境不確実性下の人口移動のモデル化 : 状況分析ツール

Modeling Population Movements under Uncertainty at the Border in Humanitarian Crises: A Situational Analysis Tool ( http://arxiv.org/abs/2303.15614v1 )

ライセンス: Link先を確認
Arturo de Nieves Gutierrez de Rubalcava, Oscar Sanchez Pi\~neiro, Rebeca Moreno Jim\'enez, Joseph Aylett-Bullock, Azra Ismail, Sofia Kyriazi, Catherine Schneider, Fred Sekidde, Giulia del Panta, Chao Huang, Vanessa Maign\'e, Miguel Luengo-Oroz, Katherine Hoffmann Pham(参考訳) 人道的な機関は、複雑な緊急事態に対応するために迅速に動員する準備をし、その効果は、将来のニーズを識別、予測、準備する能力に依存する。 これらは一般的に、予測モデリングツールが有用だが構築が困難である、非常に不確実な状況である。 避難所や援助を含む人道支援の必要性をよりよく理解し、避難民の緊急計画と保護努力を強化するため、人道的危機において国境を越える移民の数や強制移住者数を予測するための状況分析ツールを提案する。 その道具は: 一 従来及びビッグデータソースから引いた移動しようとする潜在的意図の指標 (二)将来の動きを予測するための予測モデル、及び (iii)異なる条件下での国境横断及び避難所容量要件のシミュレーション このツールは、新型コロナウイルス(covid-19)パンデミック中のブラジル・ヴェネズエラ国境への適用など、高い不確実性の設定での緊急計画に特に適合している。

Humanitarian agencies must be prepared to mobilize quickly in response to complex emergencies, and their effectiveness depends on their ability to identify, anticipate, and prepare for future needs. These are typically highly uncertain situations in which predictive modeling tools can be useful but challenging to build. To better understand the need for humanitarian support -- including shelter and assistance -- and strengthen contingency planning and protection efforts for displaced populations, we present a situational analysis tool to help anticipate the number of migrants and forcibly displaced persons that will cross a border in a humanitarian crisis. The tool consists of: (i) indicators of potential intent to move drawn from traditional and big data sources; (ii) predictive models for forecasting possible future movements; and (iii) a simulation of border crossings and shelter capacity requirements under different conditions. This tool has been specifically adapted to contingency planning in settings of high uncertainty, with an application to the Brazil-Venezuela border during the COVID-19 pandemic.
翻訳日:2023-03-29 17:07:02 公開日:2023-03-27
# 条件効果, 可観測物および機器

Conditional Effects, Observables and Instruments ( http://arxiv.org/abs/2303.15640v1 )

ライセンス: Link先を確認
Stanley Gudder(参考訳) まず、オペレーションとその測定結果についての研究から始める。 我々は、システムが$P_\rho by $P_\rho状態にあるときに効果$a$が発生する確率を定義する。 (a)=tr(\rho) a)$。 もし$P_\rhoなら (a)\ne 0$と$\mathcal{I}$は$a$を測る演算で、$\mathcal{I}$に対して$a$の条件確率を$\mathcal{I}$ by \begin{equation*} P_\rho (b\mid)と定義する。 a) = tr[\mathcal{I} (\rho )b] /P_\rho (a) \end{equation*} ベイズの量子第二規則 \begin{equation*} P_\rho (b\mid) を特徴づける a)=\frac{p_\rho (b)}{P_\rho (a)}\,P_\rho(a\mid) b) \end{equation*} が成り立つ。 次に l\"uders と holevo 演算を考える。 次に測定した測定器と観測器について話し合う。 A$ と $B$ が可観測量であり、測度 $\mathcal{I}$ が $A$ であるなら、観測可能な $B$ を $A$ に対して条件付き$\mathcal{I}$ と定義し、それを $(B\mid A)$ で表す。 これらの概念を用いてベイズの量子第一規則を導入する。 これは古典的ベイズの第一規則と同じであるが、これは$A$を測定するのに使われる楽器に依存している。 そしてこれをベイズの期待に対する量子第一規則に拡張する。 B=(B\mid A)$ と $C=(C\mid A)$ であるような原子可観測性 $A$ が存在する場合に限り、2つの可観測性 $B$ と $C$ が共同通勤可能であることを示す。 次に、条件付き観測対象に対する一般的な不確実性原理を得る。 最後に、観測可能な条件付き量子エントロピーについて論じる。 その理論は多くの例で示されている。

We begin with a study of operations and the effects they measure. We define the probability that an effect $a$ occurs when the system is in a state $\rho$ by $P_\rho (a)= tr(\rho a)$. If $P_\rho (a)\ne 0$ and $\mathcal{I}$ is an operation that measures $a$, we define the conditional probability of an effect $b$ given $a$ relative to $\mathcal{I}$ by \begin{equation*} P_\rho (b\mid a) = tr[\mathcal{I} (\rho )b] /P_\rho (a) \end{equation*} We characterize when Bayes' quantum second rule \begin{equation*} P_\rho (b\mid a)=\frac{P_\rho (b)}{P_\rho (a)}\,P_\rho (a\mid b) \end{equation*} holds. We then consider L\"uders and Holevo operations. We next discuss instruments and the observables they measure. If $A$ and $B$ are observables and an instrument $\mathcal{I}$ measures $A$, we define the observable $B$ conditioned on $A$ relative to $\mathcal{I}$ and denote it by $(B\mid A)$. Using these concepts, we introduce Bayes' quantum first rule. We observe that this is the same as the classical Bayes' first rule, except it depends on the instrument used to measure $A$. We then extend this to Bayes' quantum first rule for expectations. We show that two observables $B$ and $C$ are jointly commuting if and only if there exists an atomic observable $A$ such that $B=(B\mid A)$ and $C=(C\mid A)$. We next obtain a general uncertainty principle for conditioned observables. Finally, we discuss observable conditioned quantum entropies. The theory is illustrated with many examples.
翻訳日:2023-03-29 16:58:10 公開日:2023-03-27
# 分布シフトを考慮した学習率スケジュール

Learning Rate Schedules in the Presence of Distribution Shift ( http://arxiv.org/abs/2303.15634v1 )

ライセンス: Link先を確認
Matthew Fahrbach, Adel Javanmard, Vahab Mirrokni, Pratik Worah(参考訳) 我々は,SGDに基づくオンライン学習において,変化するデータ分布の存在下での後悔を最小限に抑える学習率スケジュールを設計する。 確率微分方程式を用いた新しい解析により,オンライン線形回帰に対する最適学習率スケジュールを特徴付ける。 一般凸損失関数に対して,分布シフトに頑健な新しい学習率スケジュールを提案し,定数によってのみ異なる後悔に対して上限と下限を与える。 非凸損失関数に対しては、推定モデルの勾配ノルムに基づいて後悔の概念を定義し、予想される全後悔の上限を最小化する学習スケジュールを提案する。 直感的には、より多くの探索を必要とするような損失景観の変化を期待し、最適学習率スケジュールが典型的には分布シフトの有無で増加することを確認します。 最後に,高次元回帰モデルとニューラルネットワークに関する実験を行い,学習率のスケジュールとその累積的後悔を説明する。

We design learning rate schedules that minimize regret for SGD-based online learning in the presence of a changing data distribution. We fully characterize the optimal learning rate schedule for online linear regression via a novel analysis with stochastic differential equations. For general convex loss functions, we propose new learning rate schedules that are robust to distribution shift, and we give upper and lower bounds for the regret that only differ by constants. For non-convex loss functions, we define a notion of regret based on the gradient norm of the estimated models and propose a learning schedule that minimizes an upper bound on the total expected regret. Intuitively, one expects changing loss landscapes to require more exploration, and we confirm that optimal learning rate schedules typically increase in the presence of distribution shift. Finally, we provide experiments for high-dimensional regression models and neural networks to illustrate these learning rate schedules and their cumulative regret.
翻訳日:2023-03-29 16:57:27 公開日:2023-03-27
# 埋め込み固有状態のツイストチューニングによる熱エミッション制御

Thermal Emission Control via Twist Tuning of Embedded Eigenstates ( http://arxiv.org/abs/2303.15633v1 )

ライセンス: Link先を確認
Vladislav A. Chistyakov, Alex Krasnok(参考訳) 熱放射工学の分野は、自然構造や人工構造を用いた照明、エネルギー収穫、イメージングなど、様々な用途において大きな可能性を秘めている。 しかし、既存の構造体は製造において困難に直面したり、発光強度、スペクトル組成、角分布といった重要なパラメータの制御に必要なレベルを提供していない。 これらの制限に対処するため,我々は平面内双曲的応答,epsilon-near-zero による埋め込み固有状態,および {\alpha}-moo3 ヘテロ構造におけるねじれによる例外的なチューナビリティを利用した新しいアプローチを提案する。 ツイスト角を調整することでシステムの特性を操作でき、ほぼ完璧な反射体から完全な吸収体へと変換できる。 これにより、マグニチュードのオーダーにまたがる熱放射力の制御が可能になる。 さらに, 本研究は, 相対回転によって異なる熱放射の角度依存性を明らかにした。

The field of thermal emission engineering shows great potential for various applications, such as lighting, energy harvesting, and imaging, using natural or artificial structures. However, existing structures face challenges in fabrication or do not provide the necessary degree of control over key parameters such as emission intensity, spectral composition, and angular distribution. To address these limitations, we propose a novel approach that leverages in-plane hyperbolic response, embedded eigenstates enabled by epsilon-near-zero, and exceptional tunability through twisting in {\alpha}-MoO3 heterostructures. By adjusting the twist angle, we can manipulate the system's properties, transforming it from a near-perfect reflector to a perfect absorber. This enables us to exert control over thermal emission power, spanning an order of magnitude. Furthermore, our research has uncovered a significant angular dependence of thermal emission, which varies with relative rotation.
翻訳日:2023-03-29 16:57:13 公開日:2023-03-27
# 非イドデータを用いたニューラルネットワークによるフェデレーション学習

Neural Collapse Inspired Federated Learning with Non-iid Data ( http://arxiv.org/abs/2303.16066v1 )

ライセンス: Link先を確認
Chenxi Huang and Liang Xie and Yibo Yang and Wenxiao Wang and Binbin Lin and Deng Cai(参考訳) フェデレーション学習における課題の1つは、異種デバイス間で非独立で同一に分散した(非ID)特性であり、これはローカル更新に大きな違いをもたらし、中央サーバの性能に影響を及ぼす。 この課題に対処するために多くの研究が提案されているが、彼らは変化の円滑化とディープラーニングモデルによるハイパフォーマンスの達成に失敗するために、局所的なトレーニングと集約プロセスのみに焦点を当てている。 神経崩壊現象に触発されて,各クライアントを分類のための最適なグローバル構造に最適化するよう強制する。 具体的には、ランダムなsimplex equiangular tight frame(etf)として初期化し、ローカル更新中にすべてのクライアントの単位最適化ターゲットとして修正します。 すべてのクライアントがグローバルな最適化に収束することを保証した後、各カテゴリにグローバルなメモリベクトルを追加し、クライアント間のクラス内条件分布のバイアスによるパラメータ変動を緩和することを提案する。 実験結果から,本手法は,異なるサイズデータセットの収束速度を高速にすることで,性能を向上できることを示した。

One of the challenges in federated learning is the non-independent and identically distributed (non-iid) characteristics between heterogeneous devices, which cause significant differences in local updates and affect the performance of the central server. Although many studies have been proposed to address this challenge, they only focus on local training and aggregation processes to smooth the changes and fail to achieve high performance with deep learning models. Inspired by the phenomenon of neural collapse, we force each client to be optimized toward an optimal global structure for classification. Specifically, we initialize it as a random simplex Equiangular Tight Frame (ETF) and fix it as the unit optimization target of all clients during the local updating. After guaranteeing all clients are learning to converge to the global optimum, we propose to add a global memory vector for each category to remedy the parameter fluctuation caused by the bias of the intra-class condition distribution among clients. Our experimental results show that our method can improve the performance with faster convergence speed on different-size datasets.
翻訳日:2023-03-29 14:41:08 公開日:2023-03-27
# 完全二重ノードを持つ無線ネットワークにおける電力割当のためのグラフニューラルネットワーク

Graph Neural Networks for Power Allocation in Wireless Networks with Full Duplex Nodes ( http://arxiv.org/abs/2303.16113v1 )

ライセンス: Link先を確認
Lili Chen, Jingge Zhu, Jamie Evans(参考訳) ユーザ間の相互干渉のため、無線ネットワークにおける電力割当問題は、しばしば非凸かつ計算上困難である。 グラフニューラルネットワーク(GNN)は、これらの問題を解決するための有望なアプローチとして最近登場し、無線ネットワークの基盤となるトポロジを利用するアプローチである。 本稿では,完全二重化(fd)ノードを含む無線ネットワークのための新しいグラフ表現手法を提案する。 次に、送信電力を割り当ててネットワークスループットを最大化するために、対応するFDグラフニューラルネットワーク(F-GNN)を設計する。 その結果,f-gnnは計算時間を大幅に削減して最先端の性能を達成できた。 さらに、F-GNNは古典的なアプローチに比べてパフォーマンスと複雑さのトレードオフが優れている。 ネットワーク内のエッジを包含または排除するための距離ベースしきい値を導入することで、このトレードオフをさらに改善する。 適度に選択された閾値は、比較的少ない性能で、必要なトレーニング時間を約20%短縮することを示す。

Due to mutual interference between users, power allocation problems in wireless networks are often non-convex and computationally challenging. Graph neural networks (GNNs) have recently emerged as a promising approach to tackling these problems and an approach that exploits the underlying topology of wireless networks. In this paper, we propose a novel graph representation method for wireless networks that include full-duplex (FD) nodes. We then design a corresponding FD Graph Neural Network (F-GNN) with the aim of allocating transmit powers to maximise the network throughput. Our results show that our F-GNN achieves state-of-art performance with significantly less computation time. Besides, F-GNN offers an excellent trade-off between performance and complexity compared to classical approaches. We further refine this trade-off by introducing a distance-based threshold for inclusion or exclusion of edges in the network. We show that an appropriately chosen threshold reduces required training time by roughly 20% with a relatively minor loss in performance.
翻訳日:2023-03-29 14:22:47 公開日:2023-03-27
# VIDIMU 安価なデバイスを用いた日常生活活動のマルチモーダルビデオとIMUキネマティックデータセット

VIDIMU. Multimodal video and IMU kinematic dataset on daily life activities using affordable devices ( http://arxiv.org/abs/2303.16150v1 )

ライセンス: Link先を確認
Mario Mart\'inez-Zarzuela, Javier Gonz\'alez-Alonso, M\'iriam Ant\'on-Rodr\'iguez, Francisco J. D\'iaz-Pernas, Henning M\"uller, Cristina Sim\'on-Mart\'inez(参考訳) ヒトの活動認識と臨床バイオメカニクスは、身体的テレリハビリテーション医学における課題である。 しかし、人間の体の動きに関するほとんどの公開データセットは、ラボ外の運動獲得設定において両方の問題を研究するために使用できない。 VIDIMUデータセットの目的は、遠隔日常生活活動認識と運動解析のための安価な患者追跡ソリューションへの道を開くことである。 データセットは、コモディティカメラと5つの慣性センサーを用いて登録された13のアクティビティを含む。 ビデオ記録は54の被験者で取得され、そのうち16は慣性センサーを同時に記録していた。 VIDIMUの斬新さは次のとおりである。 一 選択された運動の臨床的関連性 二 安価なビデオ及びカスタムセンサーの併用及び利用 三 慣性データから筋骨格モデルにおいて、3次元体ポーズ追跡及び運動再構成のマルチモーダルデータ処理のための最先端ツールの実装 実生活環境に応じて行われる最小限の乱雑な取得プロトコルが、日常生活活動中の人間の関節角を包括的に把握できることを確認した。

Human activity recognition and clinical biomechanics are challenging problems in physical telerehabilitation medicine. However, most publicly available datasets on human body movements cannot be used to study both problems in an out-of-the-lab movement acquisition setting. The objective of the VIDIMU dataset is to pave the way towards affordable patient tracking solutions for remote daily life activities recognition and kinematic analysis. The dataset includes 13 activities registered using a commodity camera and five inertial sensors. The video recordings were acquired in 54 subjects, of which 16 also had simultaneous recordings of inertial sensors. The novelty of VIDIMU lies in: i) the clinical relevance of the chosen movements, ii) the combined utilization of affordable video and custom sensors, and iii) the implementation of state-of-the-art tools for multimodal data processing of 3D body pose tracking and motion reconstruction in a musculoskeletal model from inertial data. The validation confirms that a minimally disturbing acquisition protocol, performed according to real-life conditions can provide a comprehensive picture of human joint angles during daily life activities.
翻訳日:2023-03-29 14:13:20 公開日:2023-03-27
# ChatDoctor:医学領域知識を用いたLLaMAモデルに基づく医用チャットモデル

ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge ( http://arxiv.org/abs/2303.14070v2 )

ライセンス: Link先を確認
Li Yunxiang, Li Zihan, Zhang Kai, Dan Ruilong, Zhang You(参考訳) ChatGPTのような一般領域における最近の大規模言語モデル(LLM)は、指示に従うことや、人間のような反応を生み出すことに顕著な成功を収めている。 しかし、これらの言語モデルは医療領域に合わせたものではないため、回答の正確さが低く、医療診断や医薬品などの適切な推奨ができない。 この問題に対処するために,700以上の疾患とその症状,必要な医療検査,推奨薬を収集し,医師と患者との会話を5万件生成した。 これらの医師と患者との会話を微調整することで、患者のニーズを理解し、アドバイスを提供し、様々な医療関連分野に有用な支援を提供することができる。 これらの高度な言語モデルの医療への統合は、医療専門家と患者のコミュニケーション方法に革命をもたらし、最終的には患者のケアと成果の全体的な効率と品質を向上させる。 さらに、医療分野における対話モデルのさらなる発展を促進するため、すべてのソースコード、データセット、モデルの重み付けを公開しました。 このプロジェクトのトレーニングデータ、コード、重み付けは、https://github.com/Kent0n-Li/ChatDoctor.comで入手できる。

Recent large language models (LLMs) in the general domain, such as ChatGPT, have shown remarkable success in following instructions and producing human-like responses. However, such language models have not been tailored to the medical domain, resulting in poor answer accuracy and inability to give plausible recommendations for medical diagnosis, medications, etc. To address this issue, we collected more than 700 diseases and their corresponding symptoms, required medical tests, and recommended medications, from which we generated 5K doctor-patient conversations. By fine-tuning LLMs using these tailored doctor-patient conversations, the resulting models emerge with great potential to understand patients' needs, provide informed advice, and offer valuable assistance in a variety of medical-related fields. The integration of these advanced language models into healthcare can revolutionize the way healthcare professionals and patients communicate, ultimately improving the overall efficiency and quality of patient care and outcomes. In addition, we made public all the source codes, datasets, and model weights to facilitate the further development of dialogue models in the medical field. The training data, codes, and weights of this project are available at: https://github.com/Kent0n-Li/ChatDoctor.
翻訳日:2023-03-29 11:25:30 公開日:2023-03-27
# 人工知能の火花:GPT-4による初期の実験

Sparks of Artificial General Intelligence: Early experiments with GPT-4 ( http://arxiv.org/abs/2303.12712v3 )

ライセンス: Link先を確認
S\'ebastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, Yi Zhang(参考訳) 人工知能(AI)の研究者たちは、さまざまなドメインやタスクにまたがる優れた能力を示す大規模な言語モデル(LLM)を開発し、洗練し、学習と認知の理解に挑戦しています。 OpenAIが開発した最新のモデルであるGPT-4は、前例のない規模の計算とデータを使って訓練された。 本稿では,openaiによる開発が盛んであったgpt-4の初期バージョンについて報告する。 GPT-4は(例えばChatGPTやGoogleのPaLMとともに)従来のAIモデルよりも汎用的なインテリジェンスを示すLLMの新たなコホートの一部である、と私たちは主張する。 我々は、これらのモデルの能力と影響について論じる。 GPT-4は、言語習得以外にも、数学、コーディング、ビジョン、医学、法、心理学など、特別なプロンプトを必要とせずに、新しくて困難なタスクを解くことができる。 さらに、これらすべてのタスクにおいて、GPT-4のパフォーマンスは人間レベルのパフォーマンスに非常に近く、しばしばChatGPTのような以前のモデルを大きく上回っている。 GPT-4の能力の広さと深さを考えると、人工知能(AGI)システムの早期(まだ未完成)バージョンと見なすことができると信じている。 我々は, GPT-4の探索において, 限界の発見に特に重点を置いており, 次世代の予測を超えて新たなパラダイムを追求する必要性を含む, より深く包括的なAGIバージョンに向けて進む上での課題について論じている。 我々は,最近の技術的飛躍と今後の研究方向の社会的な影響を振り返って結論づける。

Artificial intelligence (AI) researchers have been developing and refining large language models (LLMs) that exhibit remarkable capabilities across a variety of domains and tasks, challenging our understanding of learning and cognition. The latest model developed by OpenAI, GPT-4, was trained using an unprecedented scale of compute and data. In this paper, we report on our investigation of an early version of GPT-4, when it was still in active development by OpenAI. We contend that (this early version of) GPT-4 is part of a new cohort of LLMs (along with ChatGPT and Google's PaLM for example) that exhibit more general intelligence than previous AI models. We discuss the rising capabilities and implications of these models. We demonstrate that, beyond its mastery of language, GPT-4 can solve novel and difficult tasks that span mathematics, coding, vision, medicine, law, psychology and more, without needing any special prompting. Moreover, in all of these tasks, GPT-4's performance is strikingly close to human-level performance, and often vastly surpasses prior models such as ChatGPT. Given the breadth and depth of GPT-4's capabilities, we believe that it could reasonably be viewed as an early (yet still incomplete) version of an artificial general intelligence (AGI) system. In our exploration of GPT-4, we put special emphasis on discovering its limitations, and we discuss the challenges ahead for advancing towards deeper and more comprehensive versions of AGI, including the possible need for pursuing a new paradigm that moves beyond next-word prediction. We conclude with reflections on societal influences of the recent technological leap and future research directions.
翻訳日:2023-03-29 11:23:46 公開日:2023-03-27
# 多項ロジット文脈バンディットのための扱いやすいオンライン学習アルゴリズム

A Tractable Online Learning Algorithm for the Multinomial Logit Contextual Bandit ( http://arxiv.org/abs/2011.14033v5 )

ライセンス: Link先を確認
Priyank Agrawal, Theja Tulabandhula and Vashist Avadhanula(参考訳) 本稿では,MNL-Bandit問題の文脈変化について考察する。 具体的には、意思決定者が消費者に製品のサブセット(ソートメント)を提供し、各ラウンドのレスポンスを観察する動的集合最適化問題を考える。 消費者は有用性を最大化するために製品を購入する。 属性の集合が製品を記述すると仮定し、製品の平均効用はこれらの属性の値において線形であると仮定する。 本稿では,広く使用されているMNLモデルを用いて消費者選択行動のモデル化を行い,モデルパラメータを動的に学習する上での意思決定問題について考察する。 この問題は近年注目されているが、既存の多くの手法では難解な非凸最適化問題を解くことがしばしばある。 彼らの理論的な性能保証は、禁止的に大きい問題依存パラメータに依存する。 特に、この問題に対する既存のアルゴリズムは、$o(\sqrt{\kappa d t})$で制限されていることを後悔している。 本稿では,楽観的なアルゴリズムを提案し,その後悔は$O(\sqrt{dT} + \kappa)$で束縛されていることを示す。 さらに,好ましくない後悔保証を保ちながら,扱いやすい意思決定を可能にする最適化ステップの凸緩和を提案する。

In this paper, we consider the contextual variant of the MNL-Bandit problem. More specifically, we consider a dynamic set optimization problem, where a decision-maker offers a subset (assortment) of products to a consumer and observes the response in every round. Consumers purchase products to maximize their utility. We assume that a set of attributes describe the products, and the mean utility of a product is linear in the values of these attributes. We model consumer choice behavior using the widely used Multinomial Logit (MNL) model and consider the decision maker problem of dynamically learning the model parameters while optimizing cumulative revenue over the selling horizon $T$. Though this problem has attracted considerable attention in recent times, many existing methods often involve solving an intractable non-convex optimization problem. Their theoretical performance guarantees depend on a problem-dependent parameter which could be prohibitively large. In particular, existing algorithms for this problem have regret bounded by $O(\sqrt{\kappa d T})$, where $\kappa$ is a problem-dependent constant that can have an exponential dependency on the number of attributes. In this paper, we propose an optimistic algorithm and show that the regret is bounded by $O(\sqrt{dT} + \kappa)$, significantly improving the performance over existing methods. Further, we propose a convex relaxation of the optimization step, which allows for tractable decision-making while retaining the favourable regret guarantee.
翻訳日:2023-03-29 05:10:56 公開日:2023-03-27
# deeptoppush: トップの正確性のためのシンプルでスケーラブルな方法

DeepTopPush: Simple and Scalable Method for Accuracy at the Top ( http://arxiv.org/abs/2006.12293v2 )

ライセンス: Link先を確認
V\'aclav M\'acha, Luk\'a\v{s} Adam, V\'aclav \v{S}m\'idl(参考訳) 上位の精度は、少数の関連する(トップ)サンプルでのみ性能を評価するバイナリ分類問題の特別なクラスである。 アプリケーションには、情報検索システムや手作業による後処理を伴うプロセスが含まれる。 これにより、閾値を超える無関係なサンプルの数を最小化する。 任意の(ディープ)ネットワークの形で分類器を検討し、トップの損失関数を最小化するための新しい手法DeepTopPushを提案する。 しきい値はすべてのサンプルに依存するので、問題は分解できない。 確率勾配降下をエンドツーエンドのトレーニング方法で非可逆性を扱うように修正し、現在のミニバッチの値と1つの遅延値のみから閾値を推定する方法を提案する。 視覚認識データセットと実世界の2つのアプリケーションにおけるDeepTopPushの優れた性能を示す。 最初のものは、さらなる薬物検査のために少数の分子を選択する。 2つめは実際のマルウェアデータを使用しており、46\%のマルウェアを極めて低い偽のアラームレート10^{-5}$で検出した。

Accuracy at the top is a special class of binary classification problems where the performance is evaluated only on a small number of relevant (top) samples. Applications include information retrieval systems or processes with manual (expensive) postprocessing. This leads to minimizing the number of irrelevant samples above a threshold. We consider classifiers in the form of an arbitrary (deep) network and propose a new method DeepTopPush for minimizing the loss function at the top. Since the threshold depends on all samples, the problem is non-decomposable. We modify the stochastic gradient descent to handle the non-decomposability in an end-to-end training manner and propose a way to estimate the threshold only from values on the current minibatch and one delayed value. We demonstrate the excellent performance of DeepTopPush on visual recognition datasets and two real-world applications. The first one selects a small number of molecules for further drug testing. The second one uses real malware data, where we detected 46\% malware at an extremely low false alarm rate of $10^{-5}$.
翻訳日:2023-03-29 05:10:30 公開日:2023-03-27
# ファクチュアル・レグレットの最小化に優れた架空のプレイ

Fictitious Play Outperforms Counterfactual Regret Minimization ( http://arxiv.org/abs/2001.11165v7 )

ライセンス: Link先を確認
Sam Ganzfried(参考訳) マルチプレイヤーゲームにおけるナッシュ均衡を近似して,架空の遊びと反事実的後悔の最小化という2つのアルゴリズムの性能を比較する。 近年のマルチプレイヤーポーカーにおける反実的後悔の最小化の成功と、その優位性の予想にもかかわらず、架空のプレイは様々なゲームクラスやサイズに対してナッシュ平衡近似を改善することが示されている。

We compare the performance of two popular algorithms, fictitious play and counterfactual regret minimization, in approximating Nash equilibrium in multiplayer games. Despite recent success of counterfactual regret minimization in multiplayer poker and conjectures of its superiority, we show that fictitious play leads to improved Nash equilibrium approximation over a variety of game classes and sizes.
翻訳日:2023-03-29 05:10:05 公開日:2023-03-27
# 結合クラスター理論の再検討 パートI:離散化

Coupled-Cluster Theory Revisited. Part I: Discretization ( http://arxiv.org/abs/2105.13134v4 )

ライセンス: Link先を確認
Mih\'aly A. Csirik and Andre Laestadius(参考訳) 本稿では,結合クラスタ型手法のための包括的数学的枠組みを提案する。 これらの手法は多体シュロディンガー方程式を正確に解くことを目的としている。 第1部では、グラフに基づく概念を用いて、結合クラスタ法に関連する離散化スキームを厳密に記述する。 これにより、マルチリファレンスメソッドを含む、統一的でより透明な方法で異なるメソッドを議論できる。 さらに、単一参照とJeziorski-Monkhorst多重参照結合クラスタ方程式を統一的かつ厳密な方法で導出する。

In a series of two articles, we propose a comprehensive mathematical framework for Coupled-Cluster-type methods. These methods aim at accurately solving the many-body Schrodinger equation. In this first part, we rigorously describe the discretization schemes involved in Coupled-Cluster methods using graph-based concepts. This allows us to discuss different methods in a unified and more transparent manner, including multireference methods. Moreover, we derive the single-reference and the Jeziorski-Monkhorst multireference Coupled-Cluster equations in a unified and rigorous manner.
翻訳日:2023-03-29 05:07:10 公開日:2023-03-27
# 胃X線画像を用いた胃炎検出のための自己監督学習

Self-Supervised Learning for Gastritis Detection with Gastric X-ray Images ( http://arxiv.org/abs/2104.02864v4 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 目的:胃炎検出のための医師による胃X線画像のマニュアルアノテーションは時間と費用がかかる。 そこで本研究では,自己指導型学習手法を開発した。 胃炎検出における自己教師あり学習法の有効性をいくつかのアノテートx線画像を用いて検証した。 方法:本研究では,胃X線画像から明示的な自己教師付き学習を行い,識別表現を学習できる新しい手法を開発した。 提案手法に基づいてトレーニングされたモデルは,いくつかの注釈付き胃X線画像からなるデータセットに基づいて微調整された。 提案手法と比較して,SimSiam,BYOL,PIRL-jigsaw,PIRL-rotation,SimCLRの5つの自己教師型学習手法を比較した。 さらに,ImageNetで事前学習した3つの手法,スクラッチから訓練した1つの手法,半教師付き学習法を,提案手法と比較した。 結果:10,20,30,40例の注釈データを用いた微調整後の高調波平均感度と特異性のスコアは0.875,0.911,0.915,0.931であった。 提案手法は,5つの自己教師あり学習法と3つの先行学習法を含む,すべての比較手法を上回った。 胃X線画像を用いた胃炎検出における本法の有効性を実験的に検証した。 結論: 胃X線画像を用いた胃炎検出のための教師学生アーキテクチャに基づく新しい自己教師型学習手法を提案する。 提案手法は,胃X線画像から明確な自己教師付き学習を行い,識別表現を学習することができる。 提案法は胃X線画像を用いた胃炎検出における臨床的有用性を示す。

Purpose: Manual annotation of gastric X-ray images by doctors for gastritis detection is time-consuming and expensive. To solve this, a self-supervised learning method is developed in this study. The effectiveness of the proposed self-supervised learning method in gastritis detection is verified using a few annotated gastric X-ray images. Methods: In this study, we develop a novel method that can perform explicit self-supervised learning and learn discriminative representations from gastric X-ray images. Models trained based on the proposed method were fine-tuned on datasets comprising a few annotated gastric X-ray images. Five self-supervised learning methods, i.e., SimSiam, BYOL, PIRL-jigsaw, PIRL-rotation, and SimCLR, were compared with the proposed method. Furthermore, three previous methods, one pretrained on ImageNet, one trained from scratch, and one semi-supervised learning method, were compared with the proposed method. Results: The proposed method's harmonic mean score of sensitivity and specificity after fine-tuning with the annotated data of 10, 20, 30, and 40 patients were 0.875, 0.911, 0.915, and 0.931, respectively. The proposed method outperformed all comparative methods, including the five self-supervised learning and three previous methods. Experimental results showed the effectiveness of the proposed method in gastritis detection using a few annotated gastric X-ray images. Conclusions: This paper proposes a novel self-supervised learning method based on a teacher-student architecture for gastritis detection using gastric X-ray images. The proposed method can perform explicit self-supervised learning and learn discriminative representations from gastric X-ray images. The proposed method exhibits potential clinical use in gastritis detection using a few annotated gastric X-ray images.
翻訳日:2023-03-29 05:05:30 公開日:2023-03-27
# 回帰のための負相関学習を用いたハイブリッドアンサンブル法

A hybrid ensemble method with negative correlation learning for regression ( http://arxiv.org/abs/2104.02317v4 )

ライセンス: Link先を確認
Yun Bai, Ganglin Tian, Yanfei Kang, Suling Jia(参考訳) アンサンブルの必須分野であるハイブリッドアンサンブルは回帰分野で繁栄し、多様性の重要性を実証する研究が行われている。 しかし、以前のアンサンブルでは、単一モデルに比べて改良が限定されたサブモデルの訓練段階における多様性が検討されていた。 対照的に、異種モデルプールからサブモデルを自動的に選択し、重み付けする。 内部点フィルタリング線形探索アルゴリズムを用いて最適化問題を解く。 目的関数は、様々なモデルサブセットを選択可能なペナルティ項として、負相関学習を革新的に取り入れる。 各モデルクラスの最良のサブモデルはnclアンサンブルを構築するために選択され、単純な平均や他の最先端の重み付けメソッドよりもパフォーマンスが良い。 また、目的関数の正規化項でNCLアンサンブルを改善することもできる。 実際、モデルの不確実性のため、データセットの最適なサブモデルを事前に結論付けるのは難しい。 いずれにせよ,本手法は潜在的最適部分モデルと同等の精度を達成できる。 結論として、本研究の価値は使いやすさと有効性にあるため、ハイブリッドアンサンブルは多様性と正確性を受け入れることができる。

Hybrid ensemble, an essential branch of ensembles, has flourished in the regression field, with studies confirming diversity's importance. However, previous ensembles consider diversity in the sub-model training stage, with limited improvement compared to single models. In contrast, this study automatically selects and weights sub-models from a heterogeneous model pool. It solves an optimization problem using an interior-point filtering linear-search algorithm. The objective function innovatively incorporates negative correlation learning as a penalty term, with which a diverse model subset can be selected. The best sub-models from each model class are selected to build the NCL ensemble, which performance is better than the simple average and other state-of-the-art weighting methods. It is also possible to improve the NCL ensemble with a regularization term in the objective function. In practice, it is difficult to conclude the optimal sub-model for a dataset prior due to the model uncertainty. Regardless, our method would achieve comparable accuracy as the potential optimal sub-models. In conclusion, the value of this study lies in its ease of use and effectiveness, allowing the hybrid ensemble to embrace diversity and accuracy.
翻訳日:2023-03-29 05:05:00 公開日:2023-03-27
# 高速軽量変圧器に関する実態調査

A Practical Survey on Faster and Lighter Transformers ( http://arxiv.org/abs/2103.14636v2 )

ライセンス: Link先を確認
Quentin Fournier, Ga\'etan Marceau Caron, and Daniel Aloise(参考訳) リカレントニューラルネットワークは、シーケンスを処理する効果的なモデルである。 しかし、その本質的な逐次性のため、長期的な依存関係を学べない。 解決策として、VaswaniらはTransformerを導入した。Transformerは、入力シーケンスの任意の2つの位置を関連付けることのできるアテンションメカニズムのみに基づくモデルで、任意の長い依存関係をモデル化する。 Transformerは、多くのシーケンスモデリングタスクの最先端を改善した。 しかし、その有効性は、シーケンス長に関して2次計算とメモリの複雑さを犠牲にして、その採用を妨げる。 幸いなことに、ディープラーニングコミュニティは常にモデルの効率向上に関心を持ち、パラメータ共有、プルーニング、混合精度、知識蒸留といった多くのソリューションを生み出している。 近年、研究者らは、Longformer、Reformer、Linformer、Performerといった低複雑さの代替品を設計することで、Transformerの制限に対処している。 しかし、幅広い解法により、キャパシティ、計算、メモリの間の望ましいトレードオフを満たすために、研究者や実践者がどの手法を実際に適用すべきかを決定することが困難になっている。 本調査では,トランスフォーマーを迅速かつ軽量にするための一般的なアプローチを調査し,メソッドの強み,制限,基礎となる仮定を包括的に説明することによって,この問題に対処する。

Recurrent neural networks are effective models to process sequences. However, they are unable to learn long-term dependencies because of their inherent sequential nature. As a solution, Vaswani et al. introduced the Transformer, a model solely based on the attention mechanism that is able to relate any two positions of the input sequence, hence modelling arbitrary long dependencies. The Transformer has improved the state-of-the-art across numerous sequence modelling tasks. However, its effectiveness comes at the expense of a quadratic computational and memory complexity with respect to the sequence length, hindering its adoption. Fortunately, the deep learning community has always been interested in improving the models' efficiency, leading to a plethora of solutions such as parameter sharing, pruning, mixed-precision, and knowledge distillation. Recently, researchers have directly addressed the Transformer's limitation by designing lower-complexity alternatives such as the Longformer, Reformer, Linformer, and Performer. However, due to the wide range of solutions, it has become challenging for researchers and practitioners to determine which methods to apply in practice in order to meet the desired trade-off between capacity, computation, and memory. This survey addresses this issue by investigating popular approaches to make Transformers faster and lighter and by providing a comprehensive explanation of the methods' strengths, limitations, and underlying assumptions.
翻訳日:2023-03-29 05:04:42 公開日:2023-03-27
# マルチモーダル目的に対する多目的進化アルゴリズムの理論解析

Theoretical Analyses of Multiobjective Evolutionary Algorithms on Multimodal Objectives ( http://arxiv.org/abs/2012.07231v4 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr(参考訳) MOEAの理論的理解は、実際の成功よりもはるかに遅れている。 特に、以前の理論研究は、主に一助的目的からなる簡単な問題を考える。 マルチモーダル多目的問題に対する進化的アルゴリズムの解法を深く理解するための第一歩として,従来のジャンプ関数ベンチマークに同型な2つの目的からなる双目的問題であるojzj問題を提案する。 ランタイムに関係なく、semoは完全なparetoフロントを計算することができないことを証明します。 対照的に、すべての問題サイズは$n$、すべてのジャンプサイズは${k \in [4.]である。 \frac n2 - 1]}$, グローバルセモ (gsemo) はparetoの前面を想定される数である$\theta((n-2k)n^{k})$の反復でカバーする。 k = o(n)$ に対して、より厳密な境界を持つ $\frac 32 e n^{k+1} \pm o(n^{k+1})$ を示す。 また,gsemoを,単一目的のマルチモーダル問題の利点を示す2つのアプローチと組み合わせた。 重い尾の突然変異演算子でGSEMOを使用する場合、期待されるランタイムは少なくとも$k^{\Omega(k)}$で改善される。 Rajabi と Witt (2022) の最近の停滞検出戦略を GSEMO に適用すると、期待されるランタイムは少なくとも$k^{\Omega(k)}$ の係数で改善され、さらに$k$ の小さな多項式係数で重み付き GSEMO を超える。 実験結果から,これらの漸近的差異は,小さな問題に対してすでに確認されていることが明らかとなった。 重み付き突然変異による5$のスピードアップと,停滞検出による10$のスピードアップは,ジャンプサイズから4$のジャンプサイズですでに観測可能であり,問題サイズは10$から50$である。 以上の結果から,局所最適に対処する単一目的進化アルゴリズムを多目的最適化にも有効に活用できる可能性が示唆された。

The theoretical understanding of MOEAs is lagging far behind their success in practice. In particular, previous theory work considers mostly easy problems that are composed of unimodal objectives. As a first step towards a deeper understanding of how evolutionary algorithms solve multimodal multiobjective problems, we propose the OJZJ problem, a bi-objective problem composed of two objectives isomorphic to the classic jump function benchmark. We prove that SEMO with probability one does not compute the full Pareto front, regardless of the runtime. In contrast, for all problem sizes $n$ and all jump sizes ${k \in [4..\frac n2 - 1]}$, the global SEMO (GSEMO) covers the Pareto front in an expected number of $\Theta((n-2k)n^{k})$ iterations. For $k = o(n)$, we also show the tighter bound $\frac 32 e n^{k+1} \pm o(n^{k+1})$, which might be the first runtime bound for an MOEA that is tight apart from lower-order terms. We also combine the GSEMO with two approaches that showed advantages in single-objective multimodal problems. When using the GSEMO with a heavy-tailed mutation operator, the expected runtime improves by a factor of at least $k^{\Omega(k)}$. When adapting the recent stagnation-detection strategy of Rajabi and Witt (2022) to the GSEMO, the expected runtime also improves by a factor of at least $k^{\Omega(k)}$ and surpasses the heavy-tailed GSEMO by a small polynomial factor in $k$. Via an experimental analysis, we show that these asymptotic differences are visible already for small problem sizes: A factor-$5$ speed-up from heavy-tailed mutation and a factor-$10$ speed-up from stagnation detection can be observed already for jump size~$4$ and problem sizes between $10$ and $50$. Overall, our results show that the ideas recently developed to aid single-objective evolutionary algorithms to cope with local optima can be effectively employed also in multiobjective optimization.
翻訳日:2023-03-29 05:03:57 公開日:2023-03-27
# Polyp-PVT:ピラミッド型ビジョントランスを用いたポリプセグメンテーション

Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers ( http://arxiv.org/abs/2108.06932v6 )

ライセンス: Link先を確認
Bo Dong, Wenhai Wang, Deng-Ping Fan, Jinpeng Li, Huazhu Fu, Ling Shao(参考訳) ほとんどのpolypセグメンテーションメソッドはCNNをバックボーンとして使用しており、エンコーダとデコーダの間で情報を交換する際に2つの重要な問題を引き起こしている。 1)異なるレベルの特徴間の貢献の相違を考慮して 2)これらの特徴を融合させる効果的なメカニズムを設計する。 既存のcnnベースの手法とは異なり、より強力でロバストな表現を学ぶトランスフォーマエンコーダを採用する。 また,ポリプのイメージ取得の影響と解像性を考慮すると,カスケード融合モジュール(CFM),カモフラージュ識別モジュール(CIM),類似集合モジュール(SAM)の3つの標準モジュールを導入する。 これらのうち、CFMは、ポリプのセマンティック情報と位置情報を高レベル特徴から収集するために使用され、CIMは、低レベル特徴に偽装されたポリプ情報をキャプチャするために適用され、SAMは、ポリプ領域全体の高レベルなセマンティック位置情報でポリプ領域の画素特徴を拡張して、効果的にクロスレベル特徴を融合させる。 提案モデルであるPolyp-PVTは,特徴の雑音を効果的に抑制し,その表現能力を大幅に向上させる。 5つの広く採用されているデータセットの大規模な実験により、提案されたモデルは、既存の代表的手法よりも様々な困難な状況(例えば、外観の変化、小さな物体、回転)に対してより堅牢であることが示された。 提案されたモデルはhttps://github.com/DengPingFan/Polyp-PVTで公開されている。

Most polyp segmentation methods use CNNs as their backbone, leading to two key issues when exchanging information between the encoder and decoder: 1) taking into account the differences in contribution between different-level features and 2) designing an effective mechanism for fusing these features. Unlike existing CNN-based methods, we adopt a transformer encoder, which learns more powerful and robust representations. In addition, considering the image acquisition influence and elusive properties of polyps, we introduce three standard modules, including a cascaded fusion module (CFM), a camouflage identification module (CIM), and a similarity aggregation module (SAM). Among these, the CFM is used to collect the semantic and location information of polyps from high-level features; the CIM is applied to capture polyp information disguised in low-level features, and the SAM extends the pixel features of the polyp area with high-level semantic position information to the entire polyp area, thereby effectively fusing cross-level features. The proposed model, named Polyp-PVT, effectively suppresses noises in the features and significantly improves their expressive capabilities. Extensive experiments on five widely adopted datasets show that the proposed model is more robust to various challenging situations (\emph{e.g.}, appearance changes, small objects, rotation) than existing representative methods. The proposed model is available at https://github.com/DengPingFan/Polyp-PVT.
翻訳日:2023-03-29 04:10:42 公開日:2023-03-27
# 盗めないの? コントステール! 画像エンコーダに対するコントラスト盗み攻撃

Can't Steal? Cont-Steal! Contrastive Stealing Attacks Against Image Encoders ( http://arxiv.org/abs/2201.07513v2 )

ライセンス: Link先を確認
Zeyang Sha and Xinlei He and Ning Yu and Michael Backes and Yang Zhang(参考訳) 自己教師付き表現学習技術はラベルなしの画像をフル活用するために急速に発展してきた。 イメージを下流のタスクに不利なリッチな機能にエンコードする。 その革命的な表現力の裏では、専用モデル設計の要求と大量の計算資源が、画像エンコーダを潜在的なモデル盗難攻撃のリスクにさらし、要求される要求を回避しつつ、十分に訓練されたエンコーダのパフォーマンスを模倣する安価な方法である。 しかし、従来の攻撃は、予測されたラベルと/または後方を考慮し、教師なしエンコーダの脆弱性を残している教師付き分類器のみを標的とする。 本稿では,まず,エンコーダに対する従来の盗難攻撃をインスタンス化し,下流の分類器と比較して深刻な脆弱性を示す。 エンコーダのリッチな表現をよりよく活用するために、コントラスト学習に基づく攻撃であるcont-stealを提案し、様々な実験環境での盗みの有効性を検証する。 そこで我々は,表現学習技術の知的財産保護,特に我々のような攻撃をエンコーダが盗むことに対する防御に,コミュニティの注意を喚起する。

Self-supervised representation learning techniques have been developing rapidly to make full use of unlabeled images. They encode images into rich features that are oblivious to downstream tasks. Behind their revolutionary representation power, the requirements for dedicated model designs and a massive amount of computation resources expose image encoders to the risks of potential model stealing attacks - a cheap way to mimic the well-trained encoder performance while circumventing the demanding requirements. Yet conventional attacks only target supervised classifiers given their predicted labels and/or posteriors, which leaves the vulnerability of unsupervised encoders unexplored. In this paper, we first instantiate the conventional stealing attacks against encoders and demonstrate their severer vulnerability compared with downstream classifiers. To better leverage the rich representation of encoders, we further propose Cont-Steal, a contrastive-learning-based attack, and validate its improved stealing effectiveness in various experiment settings. As a takeaway, we appeal to our community's attention to the intellectual property protection of representation learning techniques, especially to the defenses against encoder stealing attacks like ours.
翻訳日:2023-03-29 04:01:43 公開日:2023-03-27
# 原子双対アレイにおける量子非線形光学

Quantum nonlinear optics in atomic dual arrays ( http://arxiv.org/abs/2201.06544v2 )

ライセンス: Link先を確認
Simon Panyella Pedersen, Lida Zhang, Thomas Pohl(参考訳) サブ波長格子内の原子は、科学的、技術的に重要な光学的性質を持つ。 ここでは、単一原子配列以上への光の結合が、これらの視点を量子非線形光学の領域にどのように拡張するかを示す。 単一のアレイが光をほぼ直線的に送信し反射する一方で、2つのアレイの組み合わせは、入ってくる古典的ビームを高い反有界光に変換する強力な光子-光子相互作用を引き起こす。 このような量子準曲面は、光学量子情報処理から強い相互作用を持つ光子の2次元系における量子多体現象の探索まで、非古典的な光をコヒーレントに生成し、操作する新たな可能性を開く。

Atoms in a sub-wavelength lattices have remarkable optical properties that have become of high scientific and technological significance. Here, we show how the coupling of light to more than a single atomic array can expand these perspectives into the domain of quantum nonlinear optics. While a single array transmits and reflects light in a largely linear fashion, the combination of two arrays is found to induce strong photon-photon interactions that can convert an incoming classical beam into highly antibunched light. Such quantum metasurfaces open up new possibilities for coherently generating and manipulating nonclassical light, from optical quantum information processing to exploring quantum many-body phenomena in two-dimensional systems of strongly interacting photons.
翻訳日:2023-03-29 04:01:23 公開日:2023-03-27
# AnomMAN: マルチビュー分散ネットワーク上の異常を検出する

AnomMAN: Detect Anomaly on Multi-view Attributed Networks ( http://arxiv.org/abs/2201.02822v2 )

ライセンス: Link先を確認
Ling-Hao Chen, He Li, Wanyuan Zhang, Jianbin Huang, Xiaoke Ma, Jiangtao Cui, Ning Li, Jaesoo Yoo(参考訳) 属性ネットワーク上の異常検出は、オンラインショッピング、金融取引、通信ネットワークなどで広く利用されている。 しかし、属性ネットワーク上の異常を検知しようとする既存の作業の多くは、単一の種類のインタラクションしか考慮していないため、マルチビュー属性ネットワーク上でのさまざまなインタラクションには対処できない。 様々な種類のインタラクションを共同で検討し、マルチビュー属性ネットワーク上で異常なインスタンスを検出することは、依然として難しい課題である。 本稿では,マルチビュー分散ネットワーク上での異常検出のためのグラフ畳み込みに基づくフレームワークAnomMANを提案する。 多視点属性ネットワーク上の属性とあらゆる種類のインタラクションを共同で検討するために,注意機構を用いてネットワークにおける全ビューの重要性を定義する。 グラフ畳み込み動作の低パス特性は、ほとんどの高周波信号(異常信号)をフィルタリングするので、異常検出タスクに直接適用することはできない。 anomman氏はグラフオートエンコーダモジュールを導入し、低パス機能の欠点を有利にする。 実世界のデータセットの実験によると、AnomMANは最先端のモデルと提案したモデルの2つのバリエーションより優れている。

Anomaly detection on attributed networks is widely used in online shopping, financial transactions, communication networks, and so on. However, most existing works trying to detect anomalies on attributed networks only consider a single kind of interaction, so they cannot deal with various kinds of interactions on multi-view attributed networks. It remains a challenging task to jointly consider all different kinds of interactions and detect anomalous instances on multi-view attributed networks. In this paper, we propose a graph convolution-based framework, named AnomMAN, to detect Anomaly on Multi-view Attributed Networks. To jointly consider attributes and all kinds of interactions on multi-view attributed networks, we use the attention mechanism to define the importance of all views in networks. Since the low-pass characteristic of graph convolution operation filters out most high-frequency signals (aonmaly signals), it cannot be directly applied to anomaly detection tasks. AnomMAN introduces the graph auto-encoder module to turn the disadvantage of low-pass features into an advantage. According to experiments on real-world datasets, AnomMAN outperforms the state-of-the-art models and two variants of our proposed model.
翻訳日:2023-03-29 04:01:10 公開日:2023-03-27
# ユニタリ量子チャネルの集合の凸特性化について

On the convex characterisation of the set of unital quantum channels ( http://arxiv.org/abs/2111.13705v2 )

ライセンス: Link先を確認
Constantino Rodriguez Ramos and Colin M. Wilmott(参考訳) 本稿では,$d$次元のユニタリ量子チャネルの凸集合について考察する。 特に、私たちは写像の族をパラメトリゼーションし、このパラメトリゼーションを通じて、このチャネルの族に関してユニタリ量子写像の集合の部分的特徴付けを提供する。 量子チャネルの場合、集合の極端点とそれらの分類はクラウスランクに関して考慮される。 この設定では、パラメトリッド写像の族がクラウス階数3の写像に対応することが分かる。 さらに、クラウス階数4の四重項ユニタリ量子チャネルの新たな族を導入し、可能なすべてのクラウス階数上の集合の極点を考える。 これら二つのチャネルの明確な例を構築し、これらのチャネルが量子ユニタリチャネルの集合の極端な点に対応するかどうかを考察する。 最後に、よく知られたチャネルが示す例とどのように関連しているかを示す。

In this paper, we consider the convex set of $d$ dimensional unital quantum channels. In particular, we parametrise a family of maps and through this parametrisation we provide a partial characterisation of the set of unital quantum maps with respect to this family of channels. For the case of qutrit channels, we consider the extreme points of the set and their classification with respect to the Kraus rank. In this setting, we see that the parametrised family of maps corresponds to maps with Kraus rank three. Furthermore, we introduce a novel family of qutrit unital quantum channels with Kraus rank four to consider the extreme points of the set over all possible Kraus ranks. We construct explicit examples of these two families of channels and we consider the question of whether these channels correspond to extreme points of the set of quantum unital channels. Finally, we demonstrate how well-known channels relate to the examples presented.
翻訳日:2023-03-29 04:00:13 公開日:2023-03-27
# WEDGE: セマンティックセグメンテーションのためのWebイメージ支援ドメイン一般化

WEDGE: Web-Image Assisted Domain Generalization for Semantic Segmentation ( http://arxiv.org/abs/2109.14196v3 )

ライセンス: Link先を確認
Namyup Kim, Taeyoung Son, Jaehyun Pahk, Cuiling Lan, Wenjun Zeng, Suha Kwak(参考訳) セマンティクスのセグメンテーションのためのドメインの一般化は、訓練済みのモデルがこれまで見つからなかったドメインでうまく機能することが期待される実際のアプリケーションにおいて、非常に要求される。 課題の1つは、トレーニングのために見当たらない可能性のあるドメインの多様な分布をカバーするデータの欠如である。 本稿では,WEb-image Assisted Domain GEneralization (WEDGE) 方式を提案する。 実世界のデータ配信を探索し、活用するために、気象条件、サイト、照明、カメラスタイルなどの観点から大きな多様性を示すWebcrawledデータセットを収集します。 また、トレーニング中にWebcrawledデータのスタイル表現をソースドメインにインジェクトし、信頼性の高いラベル付き多種多様なスタイルの画像をネットワークで体験し、効果的なトレーニングを行う方法を提案する。 さらに,ネットワークの能力を高めるために,擬似ラベル付きウェブクローリングデータセットを用いてトレーニングを行う。 広範な実験により,本手法が既存のドメイン一般化手法を明らかに上回ることを示した。

Domain generalization for semantic segmentation is highly demanded in real applications, where a trained model is expected to work well in previously unseen domains. One challenge lies in the lack of data which could cover the diverse distributions of the possible unseen domains for training. In this paper, we propose a WEb-image assisted Domain GEneralization (WEDGE) scheme, which is the first to exploit the diversity of web-crawled images for generalizable semantic segmentation. To explore and exploit the real-world data distributions, we collect a web-crawled dataset which presents large diversity in terms of weather conditions, sites, lighting, camera styles, etc. We also present a method which injects the style representation of the web-crawled data into the source domain on-the-fly during training, which enables the network to experience images of diverse styles with reliable labels for effective training. Moreover, we use the web-crawled dataset with predicted pseudo labels for training to further enhance the capability of the network. Extensive experiments demonstrate that our method clearly outperforms existing domain generalization techniques.
翻訳日:2023-03-29 03:59:44 公開日:2023-03-27
# 感性属性の認識下での公正さの測定:定量化に基づくアプローチ

Measuring Fairness Under Unawareness of Sensitive Attributes: A Quantification-Based Approach ( http://arxiv.org/abs/2109.08549v5 )

ライセンス: Link先を確認
Alessandro Fabris, Andrea Esuli, Alejandro Moreo, Fabrizio Sebastiani(参考訳) アルゴリズムとモデルは、必然的に生活に影響を及ぼす人々に関する意思決定を知らせるために、ますますデプロイされている。 結果として、これらのモデルの開発担当者は、異なる集団に対する影響を慎重に評価し、人種や性別などのセンシティブな人口統計学的属性によって決定された集団が不正に扱われないようにしなくてはならない。 この目標を達成するために、これらのモデルの影響を評価する人に対するこれらの属性の可用性(認識)が基本である。 残念ながら、これらの属性の収集と保存は、データ最小化とプライバシーに関する業界慣行や法律と矛盾することが多い。 このような理由から、トレーニングされたモデルのグループフェアネスを、開発企業からでも測定することは困難である。 本研究では,グループレベルの有病率推定を直接提供することを目的とした教師あり学習課題である定量化の手法を用いて,センシティブな属性の無意識下でのグループフェアネスを測定する問題に取り組む。 定量化のアプローチは,不可避な分布シフトに頑健な一方で,集団フェアネス測定の(望ましくない)目的と,個人の繊細な属性の推論を可能にする(望ましくない)副作用を分離するため,特にフェアネス・アンダー・ウェアネス問題に適応する。 より詳しくは、無意識下での公正性は定量化問題としてキャストでき、定量化文献から証明された方法で解決できることを示す。 これらの手法は、5つの実験プロトコルにおいて、非認識下での分類器の公平さの推定を複雑化する重要な課題に対応するため、従来の手法よりも優れていることを示す。

Algorithms and models are increasingly deployed to inform decisions about people, inevitably affecting their lives. As a consequence, those in charge of developing these models must carefully evaluate their impact on different groups of people and favour group fairness, that is, ensure that groups determined by sensitive demographic attributes, such as race or sex, are not treated unjustly. To achieve this goal, the availability (awareness) of these demographic attributes to those evaluating the impact of these models is fundamental. Unfortunately, collecting and storing these attributes is often in conflict with industry practices and legislation on data minimisation and privacy. For this reason, it can be hard to measure the group fairness of trained models, even from within the companies developing them. In this work, we tackle the problem of measuring group fairness under unawareness of sensitive attributes, by using techniques from quantification, a supervised learning task concerned with directly providing group-level prevalence estimates (rather than individual-level class labels). We show that quantification approaches are particularly suited to tackle the fairness-under-unawareness problem, as they are robust to inevitable distribution shifts while at the same time decoupling the (desirable) objective of measuring group fairness from the (undesirable) side effect of allowing the inference of sensitive attributes of individuals. More in detail, we show that fairness under unawareness can be cast as a quantification problem and solved with proven methods from the quantification literature. We show that these methods outperform previous approaches to measure demographic parity in five experimental protocols, corresponding to important challenges that complicate the estimation of classifier fairness under unawareness.
翻訳日:2023-03-29 03:59:05 公開日:2023-03-27
# 確率的雑音を伴う最適オンライン一般化線形回帰とそのヘテロシドスティックバンディットへの応用

Optimal Online Generalized Linear Regression with Stochastic Noise and Its Application to Heteroscedastic Bandits ( http://arxiv.org/abs/2202.13603v2 )

ライセンス: Link先を確認
Heyang Zhao and Dongruo Zhou and Jiafan He and Quanquan Gu(参考訳) 確率的条件下でのオンライン一般化線形回帰の問題について検討し、そこでラベルは有界な加法雑音を持つ一般化線形モデルから生成される。 ラベルノイズに対処するため、古典的追従正規化リーダ(FTRL)アルゴリズムを鋭く解析する。 より具体的には、$\sigma$-sub-gaussian ラベルノイズに対して、我々の分析は、$o(\sigma^2 d \log t) + o(\log t)$ の後悔の上限を与え、ここで $d$ は入力ベクトルの次元であり、$t$ はラウンドの総数である。 また、確率的オンライン線形回帰に対して$\Omega(\sigma^2d\log(T/d))$ lower boundを証明し、上界がほぼ最適であることを示す。 さらに,より洗練されたベルンシュタイン雑音条件に解析を拡張した。 本研究では,ヘテロシデスティックノイズを持つ一般化線形バンディットを探索し,ftrlに基づくアルゴリズムを提案する。

We study the problem of online generalized linear regression in the stochastic setting, where the label is generated from a generalized linear model with possibly unbounded additive noise. We provide a sharp analysis of the classical follow-the-regularized-leader (FTRL) algorithm to cope with the label noise. More specifically, for $\sigma$-sub-Gaussian label noise, our analysis provides a regret upper bound of $O(\sigma^2 d \log T) + o(\log T)$, where $d$ is the dimension of the input vector, $T$ is the total number of rounds. We also prove a $\Omega(\sigma^2d\log(T/d))$ lower bound for stochastic online linear regression, which indicates that our upper bound is nearly optimal. In addition, we extend our analysis to a more refined Bernstein noise condition. As an application, we study generalized linear bandits with heteroscedastic noise and propose an algorithm based on FTRL to achieve the first variance-aware regret bound.
翻訳日:2023-03-29 03:51:55 公開日:2023-03-27
# ディープニューラルネットワークを用いた教師なしポイントクラウド表現学習:サーベイ

Unsupervised Point Cloud Representation Learning with Deep Neural Networks: A Survey ( http://arxiv.org/abs/2202.13589v3 )

ライセンス: Link先を確認
Aoran Xiao, Jiaxing Huang, Dayan Guan, Xiaoqin Zhang, Shijian Lu, Ling Shao(参考訳) ポイントクラウドデータは、様々な状況下での精度と堅牢性から、広く研究されている。 一方、ディープニューラルネットワーク(DNN)は、監視や自律運転など、さまざまなアプリケーションで非常に大きな成功を収めています。 ポイントクラウドとDNNの収束は、大規模で密度の高いポイントクラウドデータの監視の下で主に訓練された多くのディープポイントクラウドモデルにつながった。 教師なしのポイントクラウド表現学習(unsupervised point cloud representation learning)は、ラベルなしのポイントクラウドデータから汎用的で有用なポイントクラウド表現を学習することを目的としている。 本稿では,DNNを用いた非教師なしのクラウド表現学習について概観する。 まず、モチベーション、一般的なパイプライン、そして最近の研究の用語について説明する。 広く採用されているポイントクラウドデータセットやDNNアーキテクチャを含む関連する背景を簡潔に示す。 続いて、既存の教師なしのポイントクラウド表現学習方法に関する技術的アプローチに関する広範な議論が行われる。 また、複数の広く採用されているポイントクラウドデータセットに対して、レビューされた手法を定量的にベンチマークし、議論する。 最後に、教師なしのクラウド表現学習における今後の研究で追求されるいくつかの課題と課題について、謙虚な意見を共有します。 この調査に関連するプロジェクトはhttps://github.com/xiaoaoran/3d_url_surveyで構築されている。

Point cloud data have been widely explored due to its superior accuracy and robustness under various adverse situations. Meanwhile, deep neural networks (DNNs) have achieved very impressive success in various applications such as surveillance and autonomous driving. The convergence of point cloud and DNNs has led to many deep point cloud models, largely trained under the supervision of large-scale and densely-labelled point cloud data. Unsupervised point cloud representation learning, which aims to learn general and useful point cloud representations from unlabelled point cloud data, has recently attracted increasing attention due to the constraint in large-scale point cloud labelling. This paper provides a comprehensive review of unsupervised point cloud representation learning using DNNs. It first describes the motivation, general pipelines as well as terminologies of the recent studies. Relevant background including widely adopted point cloud datasets and DNN architectures is then briefly presented. This is followed by an extensive discussion of existing unsupervised point cloud representation learning methods according to their technical approaches. We also quantitatively benchmark and discuss the reviewed methods over multiple widely adopted point cloud datasets. Finally, we share our humble opinion about several challenges and problems that could be pursued in future research in unsupervised point cloud representation learning. A project associated with this survey has been built at https://github.com/xiaoaoran/3d_url_survey.
翻訳日:2023-03-29 03:51:32 公開日:2023-03-27
# 深層学習型知覚システムのための離散事象制御器合成

Discrete-Event Controller Synthesis for Autonomous Systems with Deep-Learning Perception Components ( http://arxiv.org/abs/2202.03360v2 )

ライセンス: Link先を確認
Radu Calinescu (1), Calum Imrie (1), Ravi Mangal (2), Gena\'ina Nunes Rodrigues (3), Corina P\u{a}s\u{a}reanu (2), Misael Alpizar Santana (1), and Gricel V\'azquez (1) ((1) University of York, (2) Carnegie Mellon University, (3) University of Bras\'ilia)(参考訳) 本稿では,ディープニューラルネットワーク(dnn)分類器を用いて意思決定過程の知覚ステップを行う自律システムのための,構造的修正型離散イベントコントローラの合成手法であるdeepdecsを提案する。 近年のディープラーニングの大きな進歩にもかかわらず、これらのシステムに対する安全性保証の提供は非常に困難である。 制御器合成法はDNN検証とマルコフモデルの合成を統合することでこの問題に対処する。 合成モデルは、自律システムの安全性、信頼性、性能要件を満たすために保証された離散イベントコントローラに対応し、最適化目標のセットに関してパレート最適である。 本手法は,移動ロボット衝突軽減のための制御器の合成と,共有制御自律運転における運転注意の維持に用いられている。

We present DeepDECS, a new method for the synthesis of correct-by-construction discrete-event controllers for autonomous systems that use deep neural network (DNN) classifiers for the perception step of their decision-making processes. Despite major advances in deep learning in recent years, providing safety guarantees for these systems remains very challenging. Our controller synthesis method addresses this challenge by integrating DNN verification with the synthesis of verified Markov models. The synthesised models correspond to discrete-event controllers guaranteed to satisfy the safety, dependability and performance requirements of the autonomous system, and to be Pareto optimal with respect to a set of optimisation objectives. We use the method in simulation to synthesise controllers for mobile-robot collision mitigation and for maintaining driver attentiveness in shared-control autonomous driving.
翻訳日:2023-03-29 03:50:27 公開日:2023-03-27
# 一般化のための反相関ノイズ注入

Anticorrelated Noise Injection for Improved Generalization ( http://arxiv.org/abs/2202.02831v2 )

ライセンス: Link先を確認
Antonio Orvieto, Hans Kersting, Frank Proske, Francis Bach, Aurelien Lucchi(参考訳) 勾配降下(gd)への人工雑音の注入は、機械学習モデルの性能を改善するために一般的に用いられる。 通常、非相関ノイズはこのような摂動勾配降下(PGD)法で用いられる。 しかし、これが最適かどうか、あるいは他の種類のノイズがより良い一般化性能を提供できるかどうかは不明である。 本稿では,連続したPGDステップの摂動を関連づける問題を拡大する。 我々は,抗相関性摂動(Anti-PGD)を持つGDが,GDと標準(非相関性)PGDよりもはるかに良く一般化することを示す,様々な目的関数を考察する。 これらの実験結果を支持するために,抗PGDがより広い最小値に移行し,GDとPGDは至適領域に留まり,あるいは分岐することを示す理論解析も導出した。 反相関ノイズと一般化の新たな結びつきは、機械学習モデルのトレーニングにノイズを利用する新しい方法へとフィールドを開放する。

Injecting artificial noise into gradient descent (GD) is commonly employed to improve the performance of machine learning models. Usually, uncorrelated noise is used in such perturbed gradient descent (PGD) methods. It is, however, not known if this is optimal or whether other types of noise could provide better generalization performance. In this paper, we zoom in on the problem of correlating the perturbations of consecutive PGD steps. We consider a variety of objective functions for which we find that GD with anticorrelated perturbations ("Anti-PGD") generalizes significantly better than GD and standard (uncorrelated) PGD. To support these experimental findings, we also derive a theoretical analysis that demonstrates that Anti-PGD moves to wider minima, while GD and PGD remain stuck in suboptimal regions or even diverge. This new connection between anticorrelated noise and generalization opens the field to novel ways to exploit noise for training machine learning models.
翻訳日:2023-03-29 03:50:12 公開日:2023-03-27
# 翻訳は多言語言語モデリングに役立つか?

Does Transliteration Help Multilingual Language Modeling? ( http://arxiv.org/abs/2201.12501v2 )

ライセンス: Link先を確認
Ibraheem Muhammad Moosa, Mahmud Elahi Akhter, Ashfia Binte Habib(参考訳) 多くの言語に代表コーパスが不足しているため、MLLM(Multilingual Language Models)が既存のコーパスを最大限に抽出することが重要である。 この点において、スクリプトの多様性は、近縁言語間の語彙重なりを減らしてMLLMに挑戦する。 したがって、異なるスクリプトを共通スクリプトに翻訳することで、MLLMの下流タスク性能を向上させることができる。 本稿では,2つのALBERTモデルを事前学習し,MLLMに対する音読効果を実証的に測定する。 特に、世界で最もスクリプトの多様性が高いインド・アーリア語族に焦点を当てています。 その後、IndicGLUEベンチマークを用いてモデルの評価を行った。 翻訳の効果が有意かどうかを厳密に検証するためにmann-whitney uテストを行う。 翻訳は、比較的高いリソース言語に悪影響を及ぼすことなく、低リソース言語に恩恵をもたらすことが分かりました。 また、FLORES-101データセットから8つの言語の並列文に対して、中心的カーネルアライメント(CKA)を用いてモデルの言語間表現類似度(CLRS)を測定する。 翻訳ベースモデルの隠れ表現はCLRSスコアがより高く安定していることが判明した。 私たちのコードはGithub(github.com/ibraheem-moosa/XLM-Indic)とHugging Face Hub(huggingface.co/ibraheemmoosa/xlmindic-base-multiscript)で利用可能です。

As there is a scarcity of large representative corpora for most languages, it is important for Multilingual Language Models (MLLM) to extract the most out of existing corpora. In this regard, script diversity presents a challenge to MLLMs by reducing lexical overlap among closely related languages. Therefore, transliterating closely related languages that use different writing scripts to a common script may improve the downstream task performance of MLLMs. In this paper, we pretrain two ALBERT models to empirically measure the effect of transliteration on MLLMs. We specifically focus on the Indo-Aryan language family, which has the highest script diversity in the world. Afterward, we evaluate our models on the IndicGLUE benchmark. We perform Mann-Whitney U test to rigorously verify whether the effect of transliteration is significant or not. We find that transliteration benefits the low-resource languages without negatively affecting the comparatively high-resource languages. We also measure the cross-lingual representation similarity (CLRS) of the models using centered kernel alignment (CKA) on parallel sentences of eight languages from the FLORES-101 dataset. We find that the hidden representations of the transliteration-based model have higher and more stable CLRS scores. Our code is available at Github (github.com/ibraheem-moosa/XLM-Indic) and Hugging Face Hub (huggingface.co/ibraheemmoosa/xlmindic-base-multiscript and huggingface.co/ibraheemmoosa/xlmindic-base-uniscript).
翻訳日:2023-03-29 03:49:59 公開日:2023-03-27
# メタラーニングに基づくクロスモーダルプロンプトによるマルチモーダルマイトショット物体検出

Multi-Modal Few-Shot Object Detection with Meta-Learning-Based Cross-Modal Prompting ( http://arxiv.org/abs/2204.07841v3 )

ライセンス: Link先を確認
Guangxing Han, Long Chen, Jiawei Ma, Shiyuan Huang, Rama Chellappa, Shih-Fu Chang(参考訳) 本稿では,複数モードの複数ショットオブジェクト検出(FSOD)について,複数ショットの視覚的例とクラス意味情報の両方を用いて検討する。 マルチモーダルfsodに関する以前の作業のほとんどは、オンラインアプリケーションでは非効率な微調整ベースである。 さらに、これらのメソッドはクラス名のような専門知識を必要として、クラスセマンティックな埋め込みを抽出する。 我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性により、微調整なしで、一般化可能な少数ショットとゼロショットのオブジェクト検出モデルを学ぶことを目的としている。 具体的には,メタラーニングとプロンプトベースラーニングで学習したマイショット視覚分類器とテキスト分類器を組み合わせて,マルチモーダル分類器と検出モデルを構築した。 さらに,事前学習された言語モデルを完全に活用するために,メタラーニングに基づくクロスモーダルプロンプトを提案し,テキスト分類器の学習に使用する,数ショットの視覚例に現れる新しいクラスに対するソフトプロンプトを生成する。 希少なクラスでは利用できないクラス名に関する人間の事前知識を使わずに、ソフトプロンプトジェネレータを学習するために知識蒸留を導入する。 私たちの洞察では、少数ショットのサポートイメージは、クラスに関連するコンテキスト情報やセマンティクスを自然に含んでいます。 提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合評価し,有望な結果を得た。

We study multi-modal few-shot object detection (FSOD) in this paper, using both few-shot visual examples and class semantic information for detection, which are complementary to each other by definition. Most of the previous works on multi-modal FSOD are fine-tuning-based which are inefficient for online applications. Moreover, these methods usually require expertise like class names to extract class semantic embedding, which are hard to get for rare classes. Our approach is motivated by the high-level conceptual similarity of (metric-based) meta-learning and prompt-based learning to learn generalizable few-shot and zero-shot object detection models respectively without fine-tuning. Specifically, we combine the few-shot visual classifier and text classifier learned via meta-learning and prompt-based learning respectively to build the multi-modal classifier and detection models. In addition, to fully exploit the pre-trained language models, we propose meta-learning-based cross-modal prompting to generate soft prompts for novel classes present in few-shot visual examples, which are then used to learn the text classifier. Knowledge distillation is introduced to learn the soft prompt generator without using human prior knowledge of class names, which may not be available for rare classes. Our insight is that the few-shot support images naturally include related context information and semantics of the class. We comprehensively evaluate the proposed multi-modal FSOD models on multiple few-shot object detection benchmarks, achieving promising results.
翻訳日:2023-03-29 03:43:00 公開日:2023-03-27
# コンピュータビジョンのためのGANに関する調査:最近の研究、分析、分類

A survey on GANs for computer vision: Recent research, analysis and taxonomy ( http://arxiv.org/abs/2203.11242v2 )

ライセンス: Link先を確認
Guillermo Iglesias, Edgar Talavera and Alberto D\'iaz-\'Alvarez(参考訳) 過去数年間、ディープラーニングの分野には、主にgans(generative adversarial networks)の影響が中心となって、いくつかの革命が起きている。 gansはモデルを定義する際にユニークなアーキテクチャを提供するだけでなく、社会に直接影響を与える驚くべき結果を生み出します。 GANがもたらした大きな改善と新たな研究領域により、コミュニティは常に、時代に追いつくことがほとんど不可能な新しい研究を考え出しています。 我々の調査は、最新のアーキテクチャ、損失関数の最適化、バリデーションメトリクス、そして最も広く認識されている変種の適用領域を示す、GANの概要を概観することを目的としている。 モデルアーキテクチャの異なるバリエーションの効率を評価し、最適なアプリケーション領域を示します。プロセスの重要な部分として、ganのパフォーマンスを評価するためのさまざまな指標と頻繁に使用される損失関数を分析します。 本調査の最終目的は,今後の研究者を導く上で,より優れた結果が得られるGANの進化と性能の要約を提供することである。

In the last few years, there have been several revolutions in the field of deep learning, mainly headlined by the large impact of Generative Adversarial Networks (GANs). GANs not only provide an unique architecture when defining their models, but also generate incredible results which have had a direct impact on society. Due to the significant improvements and new areas of research that GANs have brought, the community is constantly coming up with new researches that make it almost impossible to keep up with the times. Our survey aims to provide a general overview of GANs, showing the latest architectures, optimizations of the loss functions, validation metrics and application areas of the most widely recognized variants. The efficiency of the different variants of the model architecture will be evaluated, as well as showing the best application area; as a vital part of the process, the different metrics for evaluating the performance of GANs and the frequently used loss functions will be analyzed. The final objective of this survey is to provide a summary of the evolution and performance of the GANs which are having better results to guide future researchers in the field.
翻訳日:2023-03-29 03:40:52 公開日:2023-03-27
# 自動エンコーダを用いたアウト・オブ・ディストリビューション検出の再考

Rethinking Reconstruction Autoencoder-Based Out-of-Distribution Detection ( http://arxiv.org/abs/2203.02194v3 )

ライセンス: Link先を確認
Yibo Zhou(参考訳) いくつかのシナリオでは、分類器はトレーニングデータから遠く離れた分散サンプルを検出する必要がある。 レコンストラクションオートエンコーダベースの手法は望ましい特性を持つため、入力再構成誤差をノベルティとノーマルの指標として用いることでこの問題に対処している。 このようなアプローチの本質を,条件付きデータの不確かさのプロキシに対してのみ問い合わせるために,内在的なバイアスを持つ4重項領域変換として定式化する。 これにより、自己エンコーダの潜伏空間を最大圧縮し、記述されたドメイントランスレータとして動作するための再構成力を確保して改善方向を定式化する。 これによって、cifar-100 の fpr@95%tpr と wide-resnet の tinyimagenet-crop は 0.2% である。 重要なことは、我々の方法は追加のデータや実装が難しい構造、時間を要するパイプライン、既知のクラスの分類精度を損なうことさえなく機能する。

In some scenarios, classifier requires detecting out-of-distribution samples far from its training data. With desirable characteristics, reconstruction autoencoder-based methods deal with this problem by using input reconstruction error as a metric of novelty vs. normality. We formulate the essence of such approach as a quadruplet domain translation with an intrinsic bias to only query for a proxy of conditional data uncertainty. Accordingly, an improvement direction is formalized as maximumly compressing the autoencoder's latent space while ensuring its reconstructive power for acting as a described domain translator. From it, strategies are introduced including semantic reconstruction, data certainty decomposition and normalized L2 distance to substantially improve original methods, which together establish state-of-the-art performance on various benchmarks, e.g., the FPR@95%TPR of CIFAR-100 vs. TinyImagenet-crop on Wide-ResNet is 0.2%. Importantly, our method works without any additional data, hard-to-implement structure, time-consuming pipeline, and even harming the classification accuracy of known classes.
翻訳日:2023-03-29 03:39:51 公開日:2023-03-27
# 新しいサンウェイスーパーコンピュータ上での量子回路シミュレーションのためのライフタイムベース最適化

Lifetime-based Optimization for Simulating Quantum Circuits on a New Sunway Supercomputer ( http://arxiv.org/abs/2205.00393v3 )

ライセンス: Link先を確認
Yaojian Chen, Yong Liu, Xinmin Shi, Jiawei Song, Xin Liu, Lin Gan, Chu Guo, Haohuan Fu, Jie Gao, Dexun Chen, Guangwen Yang(参考訳) 量子回路の高性能な古典的シミュレータ、特にテンソルネットワーク縮小アルゴリズムは、ノイズ量子コンピューティングの検証において重要なツールとなっている。 メモリ制限に対処するために、スライシング技術はテンソル次元を減らすために使用されるが、全体的なパフォーマンスを著しく低下させる計算オーバーヘッドを増加させる可能性がある。 本論文では,スライスオーバを削減し,スライスオーバを処理する解釈手法,最小スライスセットを見つけるための内部スライス戦略,サンウェイアーキテクチャ用にカスタマイズされた適応テンソルネットワーク収縮パスリファクタなど,スライスオーバを低減し,計算効率を向上させるための新しいライフタイムベース手法を提案する。 実験によると、ほとんどの場合、インプレーススライシング戦略によるスライシングオーバーヘッドは、現在最も使われているグラフパス最適化ソフトウェアであるコテングラよりも小さい。 最後に、シカモア量子プロセッサRQCのシミュレーション時間は96.1秒に短縮され、41Mコア以上の1Mの相関サンプルを生成するために、持続的な単精度性能は308.6Pflopsであり、2021年のゴードンベル賞の60.4Pflopsに比べて5倍以上の性能向上である。

High-performance classical simulator for quantum circuits, in particular the tensor network contraction algorithm, has become an important tool for the validation of noisy quantum computing. In order to address the memory limitations, the slicing technique is used to reduce the tensor dimensions, but it could also lead to additional computation overhead that greatly slows down the overall performance. This paper proposes novel lifetime-based methods to reduce the slicing overhead and improve the computing efficiency, including an interpretation method to deal with slicing overhead, an in-place slicing strategy to find the smallest slicing set and an adaptive tensor network contraction path refiner customized for Sunway architecture. Experiments show that in most cases the slicing overhead with our in-place slicing strategy would be less than the cotengra, which is the most used graph path optimization software at present. Finally, the resulting simulation time is reduced to 96.1s for the Sycamore quantum processor RQC, with a sustainable single-precision performance of 308.6Pflops using over 41M cores to generate 1M correlated samples, which is more than 5 times performance improvement compared to 60.4 Pflops in 2021 Gordon Bell Prize work.
翻訳日:2023-03-29 03:33:26 公開日:2023-03-27
# 畳み込みニューラルネットワークによる画像の規則性に関する一考察

A Note on the Regularity of Images Generated by Convolutional Neural Networks ( http://arxiv.org/abs/2204.10588v2 )

ライセンス: Link先を確認
Andreas Habring and Martin Holler(参考訳) 畳み込みニューラルネットワーク(U-net)や生成ネットワーク(ジェネレーティブネットワーク)、深部画像(deep image prior)などの画像の規則性を分析する。 分解独立で無限次元の設定では、そのようなイメージは常に連続であり、ある場合には連続的に微分可能であり、ジャンプ不連続性による画像のシャープエッジのモデリングが広く受け入れられていることに矛盾する。 このようなステートメントは無限次元の設定を必要とするが、実際に使用される(離散化された)ニューラルネットワークへの接続は、解像度が無限大に近づくときの限界を考慮して行われる。 その結果,本論文はネットワーク重みのl2正規化が過剰な出力につながる可能性があることを解析的に証明した。

The regularity of images generated by convolutional neural networks, such as the U-net, generative networks, or the deep image prior, is analyzed. In a resolution-independent, infinite dimensional setting, it is shown that such images, represented as functions, are always continuous and, in some circumstances, even continuously differentiable, contradicting the widely accepted modeling of sharp edges in images via jump discontinuities. While such statements require an infinite dimensional setting, the connection to (discretized) neural networks used in practice is made by considering the limit as the resolution approaches infinity. As practical consequence, the results of this paper in particular provide analytical evidence that basic L2 regularization of network weights might lead to over-smoothed outputs.
翻訳日:2023-03-29 03:31:30 公開日:2023-03-27
# CGC: コミュニティ検出とトラッキングのためのコントラストグラフクラスタリング

CGC: Contrastive Graph Clustering for Community Detection and Tracking ( http://arxiv.org/abs/2204.08504v3 )

ライセンス: Link先を確認
Namyong Park, Ryan Rossi, Eunyee Koh, Iftikhar Ahamath Burhanuddin, Sungchul Kim, Fan Du, Nesreen Ahmed, Christos Faloutsos(参考訳) 異なるタイミングで発生した可能性があるwebデータ内のエンティティとそのインタラクションを考えると、どのようにしてエンティティのコミュニティを見つけて、それらの進化を追跡できるのか? 本稿では,グラフクラスタリングの観点から,この重要な課題にアプローチする。 近年,深層クラスタリング手法により,様々な領域における最先端クラスタリング性能が達成されている。 特に、ディープグラフクラスタリング(DGC)手法は、ノード表現とクラスタ割り当てを共同最適化フレームワークで学習することで、グラフ構造化データにディープクラスタリングをうまく拡張した。 モデリングの選択(例えばエンコーダアーキテクチャ)にいくつかの違いがあるが、既存のDGCメソッドは主にオートエンコーダに基づいており、比較的小さな適応で同じクラスタリングの目的を使用する。 また、多くの実世界のグラフは動的であるが、従来のDGC法は静的グラフのみを考慮していた。 本研究では,既存の手法と根本的に異なる,グラフクラスタリングのための新たなエンドツーエンドフレームワークであるcgcを開発した。 CGCは、ノード埋め込みとクラスタ割り当てを対照的なグラフ学習フレームワークで学習し、正と負のサンプルを階層的なコミュニティ構造やネットワークホモフィリーを反映するように、多段階のスキームで慎重に選択する。 また,時間発展データに対してcgcを拡張し,時間的グラフクラスタリングを漸進的学習方式で実施し,変化点の検出を可能にする。 実世界のグラフに対する広範囲な評価は、提案したCGCが既存の手法より一貫して優れていることを示す。

Given entities and their interactions in the web data, which may have occurred at different time, how can we find communities of entities and track their evolution? In this paper, we approach this important task from graph clustering perspective. Recently, state-of-the-art clustering performance in various domains has been achieved by deep clustering methods. Especially, deep graph clustering (DGC) methods have successfully extended deep clustering to graph-structured data by learning node representations and cluster assignments in a joint optimization framework. Despite some differences in modeling choices (e.g., encoder architectures), existing DGC methods are mainly based on autoencoders and use the same clustering objective with relatively minor adaptations. Also, while many real-world graphs are dynamic, previous DGC methods considered only static graphs. In this work, we develop CGC, a novel end-to-end framework for graph clustering, which fundamentally differs from existing methods. CGC learns node embeddings and cluster assignments in a contrastive graph learning framework, where positive and negative samples are carefully selected in a multi-level scheme such that they reflect hierarchical community structures and network homophily. Also, we extend CGC for time-evolving data, where temporal graph clustering is performed in an incremental learning fashion, with the ability to detect change points. Extensive evaluation on real-world graphs demonstrates that the proposed CGC consistently outperforms existing methods.
翻訳日:2023-03-29 03:31:16 公開日:2023-03-27
# FreeKD:グラフニューラルネットワークのための自由方向知識蒸留

FreeKD: Free-direction Knowledge Distillation for Graph Neural Networks ( http://arxiv.org/abs/2206.06561v4 )

ライセンス: Link先を確認
Kaituo Feng, Changsheng Li, Ye Yuan, Guoren Wang(参考訳) 知識蒸留(KD)は、より深い教師GNNからより浅い学生GNNに知識を抽出することを目的として、グラフニューラルネットワーク(GNN)の性能を高める効果を実証している。 しかし, 教師gnnの訓練は, 過度にパラメータ化され, 過度にスムースな問題が発生し, 実践上の知識の伝達が無効化しているため, 教師gnnの訓練は困難である。 本稿では,より高度に最適化された教師GNNを提供するのに不要な,GNNのための強化学習(FreeKD)による初のフリーダイレクト知識蒸留フレームワークを提案する。 私たちの仕事の核となる考え方は、階層的な方法で強化学習を通じて知識を交換するために、より浅いgnnを2つ共同構築することにあります。 1つの典型的なGNNモデルは、トレーニング中に異なるノードでより良く、より悪いパフォーマンスを持つことが多いので、2つのレベルのアクションからなる動的かつ自由な知識伝達戦略を考案する。 1)ノードレベル動作は、2つのネットワークの対応するノード間の知識伝達の方向を決定する。 2) 構造レベルアクションは、ノードレベルアクションが伝搬する局所構造のいずれかを決定する。 基本的に、FreeKDは汎用的で原則化されたフレームワークであり、異なるアーキテクチャのGNNと自然に互換性がある。 5つのベンチマークデータセットに対する大規模な実験により、FreeKDは2つのベースGNNを大きなマージンで上回り、様々なGNNに対してその効果を示す。 さらに驚くべきことに、私たちのFreeKDは、より深く強力な教師GNNから知識を抽出する従来のKDアルゴリズムと比べて、同等か、さらに優れたパフォーマンスを持っています。

Knowledge distillation (KD) has demonstrated its effectiveness to boost the performance of graph neural networks (GNNs), where its goal is to distill knowledge from a deeper teacher GNN into a shallower student GNN. However, it is actually difficult to train a satisfactory teacher GNN due to the well-known over-parametrized and over-smoothing issues, leading to invalid knowledge transfer in practical applications. In this paper, we propose the first Free-direction Knowledge Distillation framework via Reinforcement learning for GNNs, called FreeKD, which is no longer required to provide a deeper well-optimized teacher GNN. The core idea of our work is to collaboratively build two shallower GNNs in an effort to exchange knowledge between them via reinforcement learning in a hierarchical way. As we observe that one typical GNN model often has better and worse performances at different nodes during training, we devise a dynamic and free-direction knowledge transfer strategy that consists of two levels of actions: 1) node-level action determines the directions of knowledge transfer between the corresponding nodes of two networks; and then 2) structure-level action determines which of the local structures generated by the node-level actions to be propagated. In essence, our FreeKD is a general and principled framework which can be naturally compatible with GNNs of different architectures. Extensive experiments on five benchmark datasets demonstrate our FreeKD outperforms two base GNNs in a large margin, and shows its efficacy to various GNNs. More surprisingly, our FreeKD has comparable or even better performance than traditional KD algorithms that distill knowledge from a deeper and stronger teacher GNN.
翻訳日:2023-03-29 03:24:03 公開日:2023-03-27
# itKD:3Dオブジェクト検出のためのインターチェンジ転送に基づく知識蒸留

itKD: Interchange Transfer-based Knowledge Distillation for 3D Object Detection ( http://arxiv.org/abs/2205.15531v2 )

ライセンス: Link先を確認
Hyeon Cho, Junyong Choi, Geonwoo Baek, Wonjun Hwang(参考訳) ポイントクラウドベースの3Dオブジェクト検出器は、最近顕著な進歩を遂げた。 しかし、ほとんどの研究は計算効率を考慮せずに精度だけを改善するネットワークアーキテクチャの開発に限定されている。 本稿では,まず,交換転送型知識蒸留によるチャネル回り圧縮と減圧縮からなるオートエンコーダ方式のフレームワークを提案する。 教師ネットワークのマップビューの特徴を学習するために、教師ネットワークと学生ネットワークの機能は、共有オートエンコーダを介して独立して受け継がれ、ここでは、学生ネットワークと教師ネットワークの両方からのチャネルワイド圧縮知識を一種の正規化として結合する圧縮表現損失を使用する。 減圧された特徴は、交換再構成のギャップを減らすために反対方向に伝達される。 最後に,マルチヘッド自己認識機構によって引き起こされた3次元物体検出情報に適合する頭部注意損失を示す。 広範にわたる実験を通じて,本手法が3Dポイントクラウド検出タスクに適合した軽量モデルをトレーニングできることを確認し,その優位性をよく知られた公開データセット(WaymoやnuScenesなど)を用いて示す。

Point-cloud based 3D object detectors recently have achieved remarkable progress. However, most studies are limited to the development of network architectures for improving only their accuracy without consideration of the computational efficiency. In this paper, we first propose an autoencoder-style framework comprising channel-wise compression and decompression via interchange transfer-based knowledge distillation. To learn the map-view feature of a teacher network, the features from teacher and student networks are independently passed through the shared autoencoder; here, we use a compressed representation loss that binds the channel-wised compression knowledge from both student and teacher networks as a kind of regularization. The decompressed features are transferred in opposite directions to reduce the gap in the interchange reconstructions. Lastly, we present an head attention loss to match the 3D object detection information drawn by the multi-head self-attention mechanism. Through extensive experiments, we verify that our method can train the lightweight model that is well-aligned with the 3D point cloud detection task and we demonstrate its superiority using the well-known public datasets; e.g., Waymo and nuScenes.
翻訳日:2023-03-29 03:22:43 公開日:2023-03-27
# Poisson Approximate Likelihoodsを用いた疫病のコンパートメンタルモデルにおける一貫性と高速推論

Consistent and fast inference in compartmental models of epidemics using Poisson Approximate Likelihoods ( http://arxiv.org/abs/2205.13602v3 )

ライセンス: Link先を確認
Michael Whitehouse, Nick Whiteley, Lorenzo Rimella(参考訳) 複雑および不均一なモデルに対する疫学的推測のスケールアップの課題に対処するため,Poisson Approximate Likelihood (PAL)法を提案する。 人口制限が決定論的モデルへの動機付けに使用されるようなコンパートメンタルモデリングに対する一般的なODEアプローチとは対照的に、PALは有限人口、確率的コンパートメンタルモデルに対する近似フィルタリング方程式から導出され、大きな人口制限は最大PAL推定器の一貫性を駆動する。 我々の理論的結果は, 確率的区画モデルの幅広いクラスに適用され, 集団の限界に対処した最初の確率的パラメータ推定一貫性結果であると考えられる。 PALの実装は簡単で、初等演算のみを伴い、チューニングパラメータを含まず、モデルからのシミュレーションを必要とせず、集団サイズに依存しない計算コストを持つ。 例を通して、PALがインフルエンザの年齢構造モデルに適合し、スタンにおける自動分化を生かし、連続モンテカルロにPALを埋め込むことでロタウイルスのモデルにおける過分散機構を比較し、麻疹のメタポピュレーションモデルにおける単位特異的パラメータの役割を評価する。

Addressing the challenge of scaling-up epidemiological inference to complex and heterogeneous models, we introduce Poisson Approximate Likelihood (PAL) methods. In contrast to the popular ODE approach to compartmental modelling, in which a large population limit is used to motivate a deterministic model, PALs are derived from approximate filtering equations for finite-population, stochastic compartmental models, and the large population limit drives consistency of maximum PAL estimators. Our theoretical results appear to be the first likelihood-based parameter estimation consistency results which apply to a broad class of partially observed stochastic compartmental models and address the large population limit. PALs are simple to implement, involving only elementary arithmetic operations and no tuning parameters, and fast to evaluate, requiring no simulation from the model and having computational cost independent of population size. Through examples we demonstrate how PALs can be used to: fit an age-structured model of influenza, taking advantage of automatic differentiation in Stan; compare over-dispersion mechanisms in a model of rotavirus by embedding PALs within sequential Monte Carlo; and evaluate the role of unit-specific parameters in a meta-population model of measles.
翻訳日:2023-03-29 03:22:08 公開日:2023-03-27
# ネットワーク上の分散確率二値最適化アルゴリズムの収束について

On the Convergence of Distributed Stochastic Bilevel Optimization Algorithms over a Network ( http://arxiv.org/abs/2206.15025v2 )

ライセンス: Link先を確認
Hongchang Gao, Bin Gu, My T. Thai(参考訳) バイレベル最適化は様々な機械学習モデルに適用され、近年は確率的バイレベル最適化アルゴリズムが数多く開発されている。 しかし、既存のアルゴリズムの多くは、分散データを処理できないように、シングルマシン設定に焦点を絞っている。 この問題に対処するために,ネットワークを構成するすべての参加者がネットワーク内でピアツーピア通信を行うように設定し,勾配追従通信機構と2つの異なる勾配推定器に基づく2つの新しい分散確率二レベル最適化アルゴリズムを開発した。 さらに, 新たな理論解析戦略により, 非凸-強凸問題に対する収束率を確立した。 私たちの知る限り、これはこれらの理論的結果を達成する最初の作品です。 最後に,本アルゴリズムを実用的な機械学習モデルに適用し,実験結果から本アルゴリズムの有効性を確認した。

Bilevel optimization has been applied to a wide variety of machine learning models, and numerous stochastic bilevel optimization algorithms have been developed in recent years. However, most existing algorithms restrict their focus on the single-machine setting so that they are incapable of handling the distributed data. To address this issue, under the setting where all participants compose a network and perform peer-to-peer communication in this network, we developed two novel decentralized stochastic bilevel optimization algorithms based on the gradient tracking communication mechanism and two different gradient estimators. Additionally, we established their convergence rates for nonconvex-strongly-convex problems with novel theoretical analysis strategies. To our knowledge, this is the first work achieving these theoretical results. Finally, we applied our algorithms to practical machine learning models, and the experimental results confirmed the efficacy of our algorithms.
翻訳日:2023-03-29 03:13:30 公開日:2023-03-27
# 時系列領域におけるデータ拡張技術:調査と分類

Data Augmentation techniques in time series domain: A survey and taxonomy ( http://arxiv.org/abs/2206.13508v2 )

ライセンス: Link先を確認
Edgar Talavera, Guillermo Iglesias, \'Angel Gonz\'alez-Prieto, Alberto Mozo and Sandra G\'omez-Canaval(参考訳) deep learning-based}生成モデルの最新進歩により、時系列の領域でその顕著なパフォーマンスを活用できるまでには、それほど時間がかからない。 時系列処理に使用されるディープニューラルネットワークは、トレーニングで使用されるデータセットのサイズと一貫性に大きく依存する。 これらの特徴は通常、現実世界では豊富ではなく、通常は制限され、保証されなければならない制約がある。 したがって、データ量を増やす効果的な方法は、ノイズや置換を加えたり、新しい合成データを生成することによって、データ拡張技術を使用することである。 この研究は、利用可能なすべてのアルゴリズムの概要を提供するため、この分野の現状を体系的にレビューし、最も関連する研究の分類法を提案する。 異なるバリエーションの効率性は、プロセスの中心的な部分として評価され、パフォーマンスを評価するためのさまざまな指標が評価され、各モデルに関する主要な問題が分析されます。 本研究の究極的な目的は、この分野の将来の研究者を導くために、より良い結果をもたらす領域の進化と性能を概説することである。

With the latest advances in Deep Learning-based} generative models, it has not taken long to take advantage of their remarkable performance in the area of time series. Deep neural networks used to work with time series heavily depend on the size and consistency of the datasets used in training. These features are not usually abundant in the real world, where they are usually limited and often have constraints that must be guaranteed. Therefore, an effective way to increase the amount of data is by using Data Augmentation techniques, either by adding noise or permutations and by generating new synthetic data. This work systematically reviews the current state-of-the-art in the area to provide an overview of all available algorithms and proposes a taxonomy of the most relevant research. The efficiency of the different variants will be evaluated as a central part of the process, as well as the different metrics to evaluate the performance and the main problems concerning each model will be analysed. The ultimate aim of this study is to provide a summary of the evolution and performance of areas that produce better results to guide future researchers in this field.
翻訳日:2023-03-29 03:13:19 公開日:2023-03-27
# FEATHERS: フェデレーションアーキテクチャとハイパーパラメータ検索

FEATHERS: Federated Architecture and Hyperparameter Search ( http://arxiv.org/abs/2206.12342v3 )

ライセンス: Link先を確認
Jonas Seng, Pooja Prasad, Martin Mundt, Devendra Singh Dhami, Kristian Kersting(参考訳) ディープニューラルアーキテクチャは、今日のaiタスクの多くで達成されたパフォーマンスに大きな影響を与えるが、その設計はまだ人間の事前知識と経験に大きく依存している。 neural architecture search (nas) と hyperparameter optimization (ho) は、この依存性を減らすのに役立つ。 しかし、NASとHOの状態は、GDPRやCCPAといったデータプライバシ規則に違反した分散形式で保存されるデータの量が増加するにつれて、急速に実現不可能になる。 FEATHERS$\textbf{FE}$derated $\textbf{A}$rchi$\textbf{T}$ecture and $\textbf{H}$yp$\textbf{ER}$parameter $\textbf{S}$earch – ニューラルネットワークと最適化関連ハイパーパラメータを分散データ設定で共同で最適化するだけでなく、差分プライバシ(DP)を使用してデータのプライバシにも準拠する手法である。 FEATHERS はアーキテクチャや最適化に関連するハイパーパラメータを最適化すると同時に,プライバシ制約に従えば,性能のモデル化を犠牲にすることなく,分類タスクの収束性を示す。

Deep neural architectures have profound impact on achieved performance in many of today's AI tasks, yet, their design still heavily relies on human prior knowledge and experience. Neural architecture search (NAS) together with hyperparameter optimization (HO) helps to reduce this dependence. However, state of the art NAS and HO rapidly become infeasible with increasing amount of data being stored in a distributed fashion, typically violating data privacy regulations such as GDPR and CCPA. As a remedy, we introduce FEATHERS - $\textbf{FE}$derated $\textbf{A}$rchi$\textbf{T}$ecture and $\textbf{H}$yp$\textbf{ER}$parameter $\textbf{S}$earch, a method that not only optimizes both neural architectures and optimization-related hyperparameters jointly in distributed data settings, but further adheres to data privacy through the use of differential privacy (DP). We show that FEATHERS efficiently optimizes architectural and optimization-related hyperparameters alike, while demonstrating convergence on classification tasks at no detriment to model performance when complying with privacy constraints.
翻訳日:2023-03-29 03:13:02 公開日:2023-03-27
# 最小資源を持つZ2格子ゲージ理論の量子シミュレーション

Quantum Simulation of Z2 Lattice Gauge theory with minimal resources ( http://arxiv.org/abs/2206.08909v2 )

ライセンス: Link先を確認
Reinis Irmejs, Mari Carmen Banuls, J. Ignacio Cirac(参考訳) フェルミオンゲージ場の理論の量子シミュレーションは、NISQ時代の量子コンピュータの期待された使用の1つである。 近年, (1+1) D におけるフェルミオン Z2 ゲージ場理論と (2+1) D における純粋なゲージ場理論の特性をシミュレートする研究が進められており, 本研究では, (2+1) D におけるフェルミオン Z2 ゲージ場理論をシミュレートする様々な選択肢について検討する。 本研究では、時間ダイナミクスをシミュレートするための2つの基準を最適化する方法を提案する。 特に、量子コンピュータ上でこの理論を最小の量子ビット要求でシミュレートする新しい方法を開発した。 量子回路は1次トロッターステップをシミュレートし、2量子ゲートの数を最小限に抑え、より多くの量子ビットを必要とする手法に匹敵する結果を与える。 さらに、回路の深さをさらに減少させる変動的なアプローチも検討した。

The quantum simulation of fermionic gauge field theories is one of the anticipated uses of quantum computers in the NISQ era. Recently work has been done to simulate properties of the fermionic Z2 gauge field theory in (1+1) D and the pure gauge theory in (2+1) D. In this work, we investigate various options for simulating the fermionic Z2 gauge field theory in (2+1) D. To simulate the theory on a NISQ device it is vital to minimize both the number of qubits used and the circuit depth. In this work we propose ways to optimize both criteria for simulating time dynamics. In particular, we develop a new way to simulate this theory on a quantum computer, with minimal qubit requirements. We provide a quantum circuit, simulating a single first order Trotter step, that minimizes the number of 2-qubit gates needed and gives comparable results to methods requiring more qubits. Furthermore, variational approaches are investigated that allow to further decrease the circuit depth.
翻訳日:2023-03-29 03:12:19 公開日:2023-03-27
# メタバースxurllcサービスの注意対応リソース割り当てとqoe分析

Attention-aware Resource Allocation and QoE Analysis for Metaverse xURLLC Services ( http://arxiv.org/abs/2208.05438v5 )

ライセンス: Link先を確認
Hongyang Du, Jiazhen Liu, Dusit Niyato, Jiawen Kang, Zehui Xiong, Junshan Zhang, and Dong In Kim(参考訳) Metaverseは、次世代インターネットの期待をカプセル化しつつ、新しいキーパフォーマンス指標(KPI)を導入しています。 従来の超信頼性・低遅延通信(URLLC)は客観的KPIを満足するが,Metaverseの特徴である個人化された没入感体験を提供することは困難である。 クオリティ・オブ・エクスペリエンス(QoE)は総合的なKPIとみなすことができるため、URLLCはより高度なQoEを実現するために、パーソナライズされたリソース割り当てスキームを備えた次世代のURLLC(xURLLC)へと進化する。 Metaverse xURLLC サービスをデプロイするために,Metaverse サービスプロバイダ (MSP) とネットワークインフラストラクチャプロバイダ (InP) のインタラクションを調査し,最適なコントラクト設計フレームワークを提供する。 具体的には、メタバースユーザーのQoEの関数として定義されたMSPの効用を最大化し、InPのインセンティブを確実にする。 本稿では,QoEを数学的にモデル化するために,メタ・インマージョン(Meta-Immersion)という手法を提案する。 さらに, xurllc における qoe を改善するため,注意意識型レンダリングキャパシティアロケーションスキームを開発した。 ユーザ・オブジェクト・アテンションレベルデータセットを用いてxURLLCが従来のURLLCと比較して平均20.1%のQoE改善を実現可能であることを検証した。

Metaverse encapsulates our expectations of the next-generation Internet, while bringing new key performance indicators (KPIs). Although conventional ultra-reliable and low-latency communications (URLLC) can satisfy objective KPIs, it is difficult to provide a personalized immersive experience that is a distinctive feature of the Metaverse. Since the quality of experience (QoE) can be regarded as a comprehensive KPI, the URLLC is evolved towards the next generation URLLC (xURLLC) with a personalized resource allocation scheme to achieve higher QoE. To deploy Metaverse xURLLC services, we study the interaction between the Metaverse service provider (MSP) and the network infrastructure provider (InP), and provide an optimal contract design framework. Specifically, the utility of the MSP, defined as a function of Metaverse users' QoE, is to be maximized, while ensuring the incentives of the InP. To model the QoE mathematically, we propose a novel metric named Meta-Immersion that incorporates both the objective KPIs and subjective feelings of Metaverse users. Furthermore, we develop an attention-aware rendering capacity allocation scheme to improve QoE in xURLLC. Using a user-object-attention level dataset, we validate that the xURLLC can achieve an average of 20.1% QoE improvement compared to the conventional URLLC with a uniform resource allocation scheme.
翻訳日:2023-03-29 03:05:38 公開日:2023-03-27
# 批判的schr\"odinger cat qubit

A critical Schr\"odinger cat qubit ( http://arxiv.org/abs/2208.04928v3 )

ライセンス: Link先を確認
Luca Gravina, Fabrizio Minganti, Vincenzo Savona(参考訳) ボソニックシステムに量子情報をエンコードすることは、量子誤り訂正への有望な経路である。 猫コードでは、このエンコーディングはシステムのダイナミクスを、反対のパリティのシュル=オディンガー・キャッツ(schr\"odinger cats)にまたがる2次元多様体に閉じ込めることに依存している。 消散性猫量子ビットでは、2光子駆動と損失を組み合わせた工学的な消散方式が、この多様体を自律的に安定化させ、その起源に関係なくビットフリップ誤差に対する受動的保護を確保している。 高い性能のゲートを設計できるKerr cat qubitsでは、2光子駆動とKerr非線形性が協力して、反対のパリティの猫に分散された2倍の縮退基底状態多様体にシステムを閉じ込める。 散逸性、ハミルトニアン、ハイブリッド閉じ込めは共鳴で研究されている。 そこで本研究では, 2光子損失とkerr非線形性の両方が存在する臨界猫符号を提案し, 2光子駆動の共振を許容する。 この符号の性能は、すべての構成におけるリウヴィリアンのスペクトル理論(純粋散逸からカー極限まで)によって評価される。 大規模なデチューニングと小さいが無視できない2光子損失率は、最適な性能を達成するのに不可欠であることを示す。 非線形性とデチューニングの競合は一階の散逸相転移を生じさせ、真空定常状態が圧縮されることを実証する。 論理ビットフリップレートの最大抑制を達成するには、一階遷移から生じる準安定状態においてシステムを初期化する必要がある。 幅広いデチューニング値の操作を効果的に行うため、臨界猫符号は特に複数の量子ビット演算を特徴付けるランダムな周波数シフトに耐性があり、スケーラブルで連結されたボソニックキュービットアーキテクチャのための信頼性の高いプロトコルを実現するための場所を開く。

Encoding quantum information onto bosonic systems is a promising route to quantum error correction. In a cat code, this encoding relies on the confinement of the system's dynamics onto the two-dimensional manifold spanned by Schr\"odinger cats of opposite parity. In dissipative cat qubits, an engineered dissipation scheme combining two-photon drive and loss has been used to autonomously stabilize this manifold, ensuring passive protection against bit-flip errors, regardless of their origin. In Kerr cat qubits, where highly-performing gates can be engineered, two-photon drive and Kerr nonlinearity cooperate to confine the system to a two-fold degenerate ground state manifold spanned by cats of opposite parity. Dissipative, Hamiltonian, and hybrid confinements have been investigated at resonance. Here, we propose a critical cat code, where both two-photon loss and Kerr nonlinearity are present, and the two-photon drive is allowed to be out of resonance. The performance of this code is assessed via the spectral theory of Liouvillians in all configurations, from the purely dissipative to the Kerr limit. We show that large detunings and small, but non-negligible, two-photon loss rates are fundamental to achieve optimal performance. We demonstrate that the competition between nonlinearity and detuning results in a first-order dissipative phase transition, leading to a squeezed vacuum steady state. To achieve the maximal suppression of the logical bit-flip rate requires initializing the system in the metastable state emerging from the first-order transition, and we detail a protocol to do so. Efficiently operating over a broad range of detuning values, the critical cat code is particularly resistant to random frequency shifts characterizing multiple-qubit operations, opening venues for the realization of reliable protocols for scalable and concatenated bosonic qubit architectures.
翻訳日:2023-03-29 03:05:11 公開日:2023-03-27
# AIによる有機化学ハイパーグラフネットワーク:ネットワーク統計と反応分類への応用

AI-driven Hypergraph Network of Organic Chemistry: Network Statistics and Applications in Reaction Classification ( http://arxiv.org/abs/2208.01647v2 )

ライセンス: Link先を確認
Vipul Mann and Venkat Venkatasubramanian(参考訳) 近年の新しい反応や分子の発見は、高スループットスクリーニングの進歩、より複雑な化学設計空間へのアクセシビリティ、正確な分子モデリングフレームワークの開発によって促進されている。 したがって、成長する化学文献の総合的研究は、最近の傾向を理解し、それらを将来の軌道へと外挿することに焦点を当てる必要がある。 この目的のために、化学反応の有向グラフ表現を用いるいくつかのネットワーク理論に基づく研究が報告されている。 本稿では,ハイパーエッジが化学反応を表し,ノードが関与する分子を表すハイパーグラフとして,化学反応の表現に基づく研究を行う。 我々は、ハイパーネットワークを構築するために標準の反応データセットを使用し、その統計(度数分布、平均パス長、順応性または次数相関、PageRank中心性、グラフベースのクラスタ(またはコミュニティ))を報告します。 また、反応の等価有向グラフ表現に対する各統計式を計算し、パラレルを描画し、両者の違いを強調する。 ハイパーグラフ反応表現のAI適用性を示すため、高密度ハイパーグラフ埋め込みを生成し、反応分類問題に使用する。 ハイパーネットワーク表現はフレキシブルであり、反応コンテキストを保持し、化学反応の従来のグラフ表現では明らかでない隠れた洞察を明らかにする。

Rapid discovery of new reactions and molecules in recent years has been facilitated by the advancements in high throughput screening, accessibility to a much more complex chemical design space, and the development of accurate molecular modeling frameworks. A holistic study of the growing chemistry literature is, therefore, required that focuses on understanding the recent trends and extrapolating them into possible future trajectories. To this end, several network theory-based studies have been reported that use a directed graph representation of chemical reactions. Here, we perform a study based on representing chemical reactions as hypergraphs where the hyperedges represent chemical reactions and nodes represent the participating molecules. We use a standard reactions dataset to construct a hypernetwork and report its statistics such as degree distributions, average path length, assortativity or degree correlations, PageRank centrality, and graph-based clusters (or communities). We also compute each statistic for an equivalent directed graph representation of reactions to draw parallels and highlight differences between the two. To demonstrate the AI applicability of hypergraph reaction representation, we generate dense hypergraph embeddings and use them in the reaction classification problem. We conclude that the hypernetwork representation is flexible, preserves reaction context, and uncovers hidden insights that are otherwise not apparent in a traditional directed graph representation of chemical reactions.
翻訳日:2023-03-29 03:04:26 公開日:2023-03-27
# 臨界スピン鎖におけるエルゴトロピーと絡み合い

Ergotropy and entanglement in critical spin chains ( http://arxiv.org/abs/2207.13998v2 )

ライセンス: Link先を確認
Bego\~na Mula, Eva M. Fern\'andez, Jos\'e E. Alvarellos, Julio J. Fern\'andez, David Garc\'ia-Aldea, Silvia N. Santalla, Javier Rodr\'iguez-Laguna(参考訳) 絡み合った基底状態のサブシステムは混合状態にある。 したがって、もしこのサブシステムをその周囲から分離すれば、エルゴトロピーと呼ばれる最大量のユニタリ変換を適用する仕事を抽出することができるかもしれない。 この成果が抽出されると、サブシステムは局所的な基底状態よりも若干の束縛エネルギーを含むようになり、絡み合い構造に関する貴重な情報が得られる。 半自由フェルミオン鎖の束縛エネルギーは鎖長で割られたエントロピーの2乗として崩壊するので、大きな系の大きさではゼロに近づくことが示され、この関係が全ての1次元臨界状態に対して成り立つと推測する。

A subsystem of an entangled ground state is in a mixed state. Thus, if we isolate this subsystem from its surroundings we may be able to extract work applying unitary transformations, up to a maximal amount which is called ergotropy. Once this work has been extracted, the subsystem will still contain some bound energy above its local ground state, which can provide valuable information about the entanglement structure. We show that the bound energy for half a free fermionic chain decays as the square of the entanglement entropy divided by the chain length, thus approaching zero for large system sizes, and we conjecture that this relation holds for all 1D critical states.
翻訳日:2023-03-29 03:04:03 公開日:2023-03-27
# ハイブリッドマッチングを用いたDETR

DETRs with Hybrid Matching ( http://arxiv.org/abs/2207.13080v2 )

ライセンス: Link先を確認
Ding Jia and Yuhui Yuan and Haodi He and Xiaopei Wu and Haojun Yu and Weihong Lin and Lei Sun and Chao Zhang and Han Hu(参考訳) 1対1のセットマッチングは、DETRがエンドツーエンドの機能を確立するための鍵となる設計であり、オブジェクト検出は重複検出を削除するために手作りのNMS(non-maximum suppress)を必要としない。 このエンドツーエンドのシグネチャは、DETRの汎用性にとって重要であり、より広範なビジョンタスクに一般化されている。 しかし,正のサンプルとして割り当てられたクエリは少なく,一対一のセットマッチングは正のサンプルのトレーニング効果を著しく低下させる。 本稿では,従来の1対1マッチングブランチと補助的な1対多マッチングブランチを組み合わせたハイブリッドマッチング手法を提案する。 我々のハイブリッド戦略は精度を著しく向上することを示した。 推論では、元の1対1マッチングブランチのみを使用し、DETRのエンドツーエンドのメリットと同一の推論効率を維持する。 本手法はH-DETRと命名され,DeformableDETR, PETRv2, PETR, TransTrackなど,幅広い視覚的タスクにおいて多種多様なDETR手法を一貫した改善が可能であることを示す。 コードは、https://github.com/HDETRで入手できる。

One-to-one set matching is a key design for DETR to establish its end-to-end capability, so that object detection does not require a hand-crafted NMS (non-maximum suppression) to remove duplicate detections. This end-to-end signature is important for the versatility of DETR, and it has been generalized to broader vision tasks. However, we note that there are few queries assigned as positive samples and the one-to-one set matching significantly reduces the training efficacy of positive samples. We propose a simple yet effective method based on a hybrid matching scheme that combines the original one-to-one matching branch with an auxiliary one-to-many matching branch during training. Our hybrid strategy has been shown to significantly improve accuracy. In inference, only the original one-to-one match branch is used, thus maintaining the end-to-end merit and the same inference efficiency of DETR. The method is named H-DETR, and it shows that a wide range of representative DETR methods can be consistently improved across a wide range of visual tasks, including DeformableDETR, PETRv2, PETR, and TransTrack, among others. The code is available at: https://github.com/HDETR
翻訳日:2023-03-29 03:03:49 公開日:2023-03-27
# 視覚認識のための相互コントラスト学習によるオンライン知識蒸留

Online Knowledge Distillation via Mutual Contrastive Learning for Visual Recognition ( http://arxiv.org/abs/2207.11518v2 )

ライセンス: Link先を確認
Chuanguang Yang, Zhulin An, Helong Zhou, Fuzhen Zhuang, Yongjun Xu, Qian Zhan(参考訳) 教師なしオンライン知識蒸留(KD)は、複数の学生モデルのアンサンブルを協調的に訓練し、相互に知識を蒸留することを目的としている。 既存のオンラインKD手法は望ましい性能を達成するが、それらはしばしば、価値ある特徴表現情報を無視して、中核的な知識型としてのクラス確率に焦点を当てる。 オンラインKDのためのMCL(Multual Contrastive Learning)フレームワークを提案する。 MCLの中核となる考え方は、ネットワークのコホート間で相互に相互作用し、コントラスト分布をオンライン的に転送することである。 mclはクロスネットワーク埋め込み情報を集約し、2つのネットワーク間の相互情報に対する下限を最大化することができる。 これにより、各ネットワークは他のネットワークからさらにコントラスト的な知識を学ぶことができ、より優れた特徴表現が得られ、視覚認識タスクのパフォーマンスが向上する。 最終層を超えて、MCLを中間層に拡張し、メタ最適化によってトレーニングされた適応層マッチング機構を実行する。 画像分類と視覚認識タスクへの変換学習の実験は、階層的MCLが最先端のオンラインKDアプローチに対して一貫したパフォーマンス向上をもたらすことを示している。 アドバンテージは、レイヤワイズ MCL がネットワークを誘導し、より良い特徴表現を生成することを示した。 私たちのコードはhttps://github.com/winycg/L-MCLで公開されています。

The teacher-free online Knowledge Distillation (KD) aims to train an ensemble of multiple student models collaboratively and distill knowledge from each other. Although existing online KD methods achieve desirable performance, they often focus on class probabilities as the core knowledge type, ignoring the valuable feature representational information. We present a Mutual Contrastive Learning (MCL) framework for online KD. The core idea of MCL is to perform mutual interaction and transfer of contrastive distributions among a cohort of networks in an online manner. Our MCL can aggregate cross-network embedding information and maximize the lower bound to the mutual information between two networks. This enables each network to learn extra contrastive knowledge from others, leading to better feature representations, thus improving the performance of visual recognition tasks. Beyond the final layer, we extend MCL to intermediate layers and perform an adaptive layer-matching mechanism trained by meta-optimization. Experiments on image classification and transfer learning to visual recognition tasks show that layer-wise MCL can lead to consistent performance gains against state-of-the-art online KD approaches. The superiority demonstrates that layer-wise MCL can guide the network to generate better feature representations. Our code is publicly avaliable at https://github.com/winycg/L-MCL.
翻訳日:2023-03-29 03:03:29 公開日:2023-03-27
# ヒト骨格表現学習のための階層的自己監督変換器

Hierarchically Self-Supervised Transformer for Human Skeleton Representation Learning ( http://arxiv.org/abs/2207.09644v3 )

ライセンス: Link先を確認
Yuxiao Chen, Long Zhao, Jianbo Yuan, Yu Tian, Zhaoyang Xia, Shijie Geng, Ligong Han, and Dimitris N. Metaxas(参考訳) 完全教師付きヒト骨格配列モデリングの成功にもかかわらず,課題特異的な骨格アノテーションを大規模に取得することは困難であるため,自己教師付き事前学習を用いた骨格配列表現学習は活発な分野である。 近年の研究では、コントラスト学習を用いた映像レベルの時間的・判別的情報の学習に焦点が当てられているが、人間の骨格の階層的空間的・時間的性質は見過ごされている。 ビデオレベルでのこのような表面的監督とは違って,階層型トランスフォーマーベーススケルトンシーケンスエンコーダ(Hi-TRS)に組み込まれた自己教師型階層型事前訓練方式を提案し,フレーム,クリップ,ビデオレベルでの空間的,短期的,長期的依存関係を明示的に把握する。 提案手法をHi-TRSで評価するために,動作認識,行動検出,動作予測を含む3つの骨格に基づく下流作業について広範な実験を行った。 教師付き評価プロトコルと半教師付き評価プロトコルの両方で,本手法は最先端の性能を実現する。 さらに,事前学習段階においてモデルが学習した事前知識が,異なる下流タスクに対して強い伝達能力を持つことを実証する。

Despite the success of fully-supervised human skeleton sequence modeling, utilizing self-supervised pre-training for skeleton sequence representation learning has been an active field because acquiring task-specific skeleton annotations at large scales is difficult. Recent studies focus on learning video-level temporal and discriminative information using contrastive learning, but overlook the hierarchical spatial-temporal nature of human skeletons. Different from such superficial supervision at the video level, we propose a self-supervised hierarchical pre-training scheme incorporated into a hierarchical Transformer-based skeleton sequence encoder (Hi-TRS), to explicitly capture spatial, short-term, and long-term temporal dependencies at frame, clip, and video levels, respectively. To evaluate the proposed self-supervised pre-training scheme with Hi-TRS, we conduct extensive experiments covering three skeleton-based downstream tasks including action recognition, action detection, and motion prediction. Under both supervised and semi-supervised evaluation protocols, our method achieves the state-of-the-art performance. Additionally, we demonstrate that the prior knowledge learned by our model in the pre-training stage has strong transfer capability for different downstream tasks.
翻訳日:2023-03-29 03:03:07 公開日:2023-03-27
# DynaST:Exemplar-Guided Image Generationのための動的スパース変換器

DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation ( http://arxiv.org/abs/2207.06124v3 )

ライセンス: Link先を確認
Songhua Liu, Jingwen Ye, Sucheng Ren, Xinchao Wang(参考訳) exemplar-guided image生成の重要な課題は、入力画像とガイド画像の間の細かな対応を確立することである。 従来のアプローチでは、期待された結果にもかかわらず、2次メモリコストによる粗いスケールに制限されるポイント毎のマッチング計算に注意を集中させるか、線形複雑性を達成するために対応数を修正するかのいずれかに頼っていた。 本稿では,動的スパーストランスフォーマー(dynamic sparse transformer,dynast)と呼ばれる動的スパースアテンションに基づくトランスフォーマーモデルを提案する。 このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。 具体的には、DynaSTはトランスフォーマー構造の多層特性を活用し、動的アテンションスキームをカスケード方式で実行し、マッチング結果を洗練し、視覚的に供給する出力を合成する。 さらに,dynastの統一的な学習目標を導入し,教師なしシナリオと教師なしシナリオの両方に対して,汎用的な参照ベースの画像翻訳フレームワークを提供する。 ポーズガイド付き人物画像生成、エッジベース顔合成、および画像スタイル転送の3つの応用に関する広範囲な実験は、dynastが局所的詳細において優れた性能を達成し、計算コストを大幅に削減しながら、芸術の状態を上回っていることを証明している。 私たちのコードはhttps://github.com/Huage001/DynaSTで利用可能です。

One key challenge of exemplar-guided image generation lies in establishing fine-grained correspondences between input and guided images. Prior approaches, despite the promising results, have relied on either estimating dense attention to compute per-point matching, which is limited to only coarse scales due to the quadratic memory cost, or fixing the number of correspondences to achieve linear complexity, which lacks flexibility. In this paper, we propose a dynamic sparse attention based Transformer model, termed Dynamic Sparse Transformer (DynaST), to achieve fine-level matching with favorable efficiency. The heart of our approach is a novel dynamic-attention unit, dedicated to covering the variation on the optimal number of tokens one position should focus on. Specifically, DynaST leverages the multi-layer nature of Transformer structure, and performs the dynamic attention scheme in a cascaded manner to refine matching results and synthesize visually-pleasing outputs. In addition, we introduce a unified training objective for DynaST, making it a versatile reference-based image translation framework for both supervised and unsupervised scenarios. Extensive experiments on three applications, pose-guided person image generation, edge-based face synthesis, and undistorted image style transfer, demonstrate that DynaST achieves superior performance in local details, outperforming the state of the art while reducing the computational cost significantly. Our code is available at https://github.com/Huage001/DynaST
翻訳日:2023-03-29 03:02:47 公開日:2023-03-27
# ブロッホ方程式による共量子力学を用いたfrischとsegr\``eによる多段stern$\unicode{x2013}$gerlach実験の数値モデリング

Numerical modeling of the multi-stage Stern$\unicode{x2013}$Gerlach experiment by Frisch and Segr\`e using co-quantum dynamics via the Bloch equation ( http://arxiv.org/abs/2208.13444v2 )

ライセンス: Link先を確認
Kelvin Titimbo, David C. Garrett, S. S\"uleyman Kahraman, Zhe He, Lihong V. Wang(参考訳) Frisch$\unicode{x2013}$Segr\`e 実験においてスピンフリップを数値的に研究し、新しい共量子力学理論の文脈の中で最初のマルチステージ Stern$\unicode{x2013}$Gerlach 実験を行う。 我々は、モンテカルロ法を用いて原子をサンプリングし、ブロッホ方程式に従って電子と核磁気モーメントの力学を数値的に解くことにより、スピン回転に関与する中間段階をモデル化する。 以上の結果から,共量子力学は1933年にフリッシュとセグルによって報告された実験的な観測を密接に再現しており,理論的な予測に乏しいことがわかった。

We numerically study the spin flip in the Frisch$\unicode{x2013}$Segr\`e experiment, the first multi-stage Stern$\unicode{x2013}$Gerlach experiment, within the context of the novel co-quantum dynamics theory. We model the middle stage responsible for spin rotation by sampling the atoms with the Monte Carlo method and solving the dynamics of the electron and nuclear magnetic moments numerically according to the Bloch equation. Our results show that, without using any fitting parameters, the co-quantum dynamics closely reproduces the experimental observation reported by Frisch and Segr\`e in 1933, which has so far lacked theoretical predictions.
翻訳日:2023-03-29 02:56:20 公開日:2023-03-27
# オープンアクセスパブリッシングと関連する要因は何か? springer natureのケーススタディ

Which Factors are associated with Open Access Publishing? A Springer Nature Case Study ( http://arxiv.org/abs/2208.08221v3 )

ライセンス: Link先を確認
Fakhri Momeni, Stefan Dietze, Philipp Mayr, Kristin Biesenbender and Isabella Peters(参考訳) Open Access (OA)は、記事へのアクセスを容易にする。 しかし、著者や資金提供者は、OAの出版に金銭的支援を受けていない著者がOAの記事の引用に関わらないよう、出版費用を支払わなければならないことが多い。 OAは、出版システムにおける既存の不平等を克服するよりも、さらに悪化させる可能性がある。 そこで,Springer Natureに掲載された522,411の論文を調査した。 相関分析と回帰分析を用いて、異なる所得水準の国に属する著者間の関係、出版モデルの選択、論文の引用効果について述べる。 機械学習の分類手法は,出版モデルの予測における特徴の重要性を検討するのに役立った。 以上の結果から, APC ウェイバーの著者はゴールドOA 誌に他よりも多く掲載している。 対照的に、APC割引を受ける著者は、OA出版物の中で最も低い割合であり、この割引が著者にゴールドOA雑誌に掲載する動機を不十分にしていると仮定する。 oaオプションはハイブリッドジャーナルでは避けられているが,gold-oaジャーナルではジャーナルランクと出版モデルとの間に強い相関関係がみられた。 また,OA出版の収入レベル,年長性,経験が,ハイブリッド雑誌におけるOA出版の予測因子であることも示唆した。

Open Access (OA) facilitates access to articles. But, authors or funders often must pay the publishing costs preventing authors who do not receive financial support from participating in OA publishing and citation advantage for OA articles. OA may exacerbate existing inequalities in the publication system rather than overcome them. To investigate this, we studied 522,411 articles published by Springer Nature. Employing correlation and regression analyses, we describe the relationship between authors affiliated with countries from different income levels, their choice of publishing model, and the citation impact of their papers. A machine learning classification method helped us to explore the importance of different features in predicting the publishing model. The results show that authors eligible for APC waivers publish more in gold-OA journals than others. In contrast, authors eligible for an APC discount have the lowest ratio of OA publications, leading to the assumption that this discount insufficiently motivates authors to publish in gold-OA journals. We found a strong correlation between the journal rank and the publishing model in gold-OA journals, whereas the OA option is mostly avoided in hybrid journals. Also, results show that the countries' income level, seniority, and experience with OA publications are the most predictive factors for OA publishing in hybrid journals.
翻訳日:2023-03-29 02:53:41 公開日:2023-03-27
# マイクロ波共振器計測におけるファノ干渉

Fano Interference in Microwave Resonator Measurements ( http://arxiv.org/abs/2209.03036v2 )

ライセンス: Link先を確認
D. Rieger, S. G\"unzler, M. Spiecker, A. Nambisan, W. Wernsdorfer, I.M. Pop(参考訳) 共振器の測定は、材料のマイクロ波応答を特徴づける単純だが強力なツールである。 共振モードの損失を内部品質係数$Q_\mathrm{i}$で定量し、マイクロ波反射または透過測定における散乱係数から抽出することができる。 ここで、$q_\mathrm{i}$ の系統的誤りは、背景パスを持つ信号のファノ干渉から生じることを示す。 与えられた設定における干渉経路の限られた知識は、結合係数によって増加する$Q_\mathrm{i}$に対する不確実性の範囲に変換される。 典型的なマイクロ波共振器測定におけるファノ干渉の関連と,Q_\mathrm{i}$の抽出で発生する落とし穴について実験的に考察した。 一方,ファノ干渉をシステマティックエラーを排除するために特徴付けし,活用する方法を示す。

Resonator measurements are a simple but powerful tool to characterize a material's microwave response. The losses of a resonant mode are quantified by its internal quality factor $Q_\mathrm{i}$, which can be extracted from the scattering coefficient in a microwave reflection or transmission measurement. Here we show that a systematic error on $Q_\mathrm{i}$ arises from Fano interference of the signal with a background path. Limited knowledge of the interfering paths in a given setup translates into a range of uncertainty for $Q_\mathrm{i}$, which increases with the coupling coefficient. We experimentally illustrate the relevance of Fano interference in typical microwave resonator measurements and the associated pitfalls encountered in extracting $Q_\mathrm{i}$. On the other hand, we also show how to characterize and utilize the Fano interference to eliminate the systematic error.
翻訳日:2023-03-29 02:46:12 公開日:2023-03-27
# 多言語ファインタニングとバックトランスレーションによる多言語双方向教師なし翻訳

Multilingual Bidirectional Unsupervised Translation Through Multilingual Finetuning and Back-Translation ( http://arxiv.org/abs/2209.02821v3 )

ライセンス: Link先を確認
Bryan Li, Mohammad Sadegh Rasooli, Ajay Patel, Chris Callison-Burch(参考訳) 本研究では,NMTモデルをトレーニングし,未知の言語を英語と英語の両方に翻訳する2段階のアプローチを提案する。 最初の段階では、事前訓練されたXLM-RおよびRoBERTa重みにエンコーダデコーダモデルを初期化し、40言語で並列データに対して多言語微調整を行う。 このモデルは、未熟な言語のゼロショット翻訳に一般化できる。 第2段階では、この一般化機能を活用して、モノリンガルデータセットから合成並列データを生成し、双方向バックトランスレーションの連続したラウンドでトレーニングする。 このアプローチをecxtra({e}nglish-{c}entric crosslingual ({x}) {tra}nsfer)と呼ぶ。 我々のアプローチは概念的には単純であり、標準のクロスエントロピー目的のみを使用し、データ駆動型であり、補助並列データと単言語データを活用する。 教師なしNMTの結果を7つの低リソース言語で評価し,各ラウンドの後方翻訳訓練により双方向のパフォーマンスが向上することを確認した。 我々の最後のシングルEcXTra訓練モデルは、すべての翻訳方向の競合翻訳性能を達成し、特に英語からカザフ語への新たな最先端(22.9 > 10.4 BLEU)を確立した。

We propose a two-stage approach for training a single NMT model to translate unseen languages both to and from English. For the first stage, we initialize an encoder-decoder model to pretrained XLM-R and RoBERTa weights, then perform multilingual fine-tuning on parallel data in 40 languages to English. We find this model can generalize to zero-shot translations on unseen languages. For the second stage, we leverage this generalization ability to generate synthetic parallel data from monolingual datasets, then train with successive rounds of bidirectional back-translation. We term our approach EcXTra ({E}nglish-{c}entric Crosslingual ({X}) {Tra}nsfer). Our approach is conceptually simple, only using a standard cross-entropy objective throughout, and also is data-driven, sequentially leveraging auxiliary parallel data and monolingual data. We evaluate our unsupervised NMT results on 7 low-resource languages, and find that each round of back-translation training further refines bidirectional performance. Our final single EcXTra-trained model achieves competitive translation performance in all translation directions, notably establishing a new state-of-the-art for English-to-Kazakh (22.9 > 10.4 BLEU).
翻訳日:2023-03-29 02:45:57 公開日:2023-03-27
# 不均一ホッピングをもつフェルミオン鎖の枯渇

Depletion in fermionic chains with inhomogeneous hoppings ( http://arxiv.org/abs/2209.10624v2 )

ライセンス: Link先を確認
Bego\~na Mula, Nadir Samos S\'aenz de Buruaga, Germ\'an Sierra, Silvia N. Santalla, Javier Rodr\'iguez-Laguna(参考訳) 半充填で不均質なホッピングを持つ自由フェルミイオン鎖の基底状態は、静的な曲線時空上のディラック真空にマッピングできる。 しかし, 密度変調と劣化効果は, 半充填とは程遠い。 この系は、異なる静的時空上の1d schr\"odinger方程式によって記述され、枯渇した領域を説明する効果的なポテンシャルを持つ。 単粒子モードおよび異なるホッピングパターンおよび充填率に関連する密度プロファイルに対する半古典的表現を提供する。 さらに, ホッピングに比例する化学ポテンシャルを添加することにより, 全ての充填率に対して枯渇効果を補償できることを示した。 興味深いことに、基底状態が元のものと異なるとしても、ホッピング強度に逆の化学ポテンシャルを導入すると、均質鎖上の全く同じ密度プロファイルが得られる。

The ground state of a free-fermionic chain with inhomogeneous hoppings at half-filling can be mapped into the Dirac vacuum on a static curved space-time, which presents exactly homogeneous occupations due to particle-hole symmetry. Yet, far from half-filling we observe density modulations and depletion effects. The system can be described by a 1D Schr\"odinger equation on a different static space-time, with an effective potential which accounts for the depleted regions. We provide a semiclassical expression for the single-particle modes and the density profiles associated to different hopping patterns and filling fractions. Moreover, we show that the depletion effects can be compensated for all filling fractions by adding a chemical potential proportional to the hoppings. Interestingly, we can obtain exactly the same density profiles on a homogeneous chain if we introduce a chemical potential which is inverse to the hopping intensities, even though the ground state is different from the original one.
翻訳日:2023-03-29 02:37:55 公開日:2023-03-27
# DRAM処理によるニューラルネットワーク推論の高速化:エッジからクラウドへ

Accelerating Neural Network Inference with Processing-in-DRAM: From the Edge to the Cloud ( http://arxiv.org/abs/2209.08938v2 )

ライセンス: Link先を確認
Geraldo F. Oliveira, Juan G\'omez-Luna, Saugata Ghose, Amirali Boroumand, Onur Mutlu(参考訳) ニューラルネットワーク(NN)の重要性と複雑さが増している。 ニューラルネットワークの性能(およびエネルギー効率)は、計算またはメモリリソースによって拘束できる。 PIM(Processing-in-Memory)パラダイムは、計算をメモリアレイの近くまたは内側に置くことで、メモリバウンドNNを高速化する実行可能なソリューションである。 しかし、PIMアーキテクチャは形式によって異なり、異なるPIMアプローチが異なるトレードオフをもたらす。 我々のゴールは、NN性能とエネルギー効率のためにDRAMベースのPIMアーキテクチャを分析し、議論し、対比することである。 そこで我々は,(1)プロセッサとDRAMアレイを1つの2Dチップに統合するUPMEM,(2)エッジデバイスに適した3DスタックベースのPIMアーキテクチャであるMensa,(3)DRAMのアナログ原理を用いてビットシリアル演算を行うSIMDRAMの3つのアーキテクチャを解析した。 UPMEMはGPUが一般的な行列ベクトル乗算カーネルに対してメモリオーバーサブスクライブを必要とする場合のハイエンドGPUの性能を23倍に向上し、MensaはGoogle Edge TPUよりも効率を3倍、スループットを3倍に向上させ、SIMDRAMは3つのバイナリNNに対して16.7x/1.4倍のCPU/GPU性能を向上する。 NNモデルに対する理想的なPIMアーキテクチャは、固有のアーキテクチャ設計の選択のため、モデルの異なる属性に依存すると結論付けている。

Neural networks (NNs) are growing in importance and complexity. A neural network's performance (and energy efficiency) can be bound either by computation or memory resources. The processing-in-memory (PIM) paradigm, where computation is placed near or within memory arrays, is a viable solution to accelerate memory-bound NNs. However, PIM architectures vary in form, where different PIM approaches lead to different trade-offs. Our goal is to analyze, discuss, and contrast DRAM-based PIM architectures for NN performance and energy efficiency. To do so, we analyze three state-of-the-art PIM architectures: (1) UPMEM, which integrates processors and DRAM arrays into a single 2D chip; (2) Mensa, a 3D-stack-based PIM architecture tailored for edge devices; and (3) SIMDRAM, which uses the analog principles of DRAM to execute bit-serial operations. Our analysis reveals that PIM greatly benefits memory-bound NNs: (1) UPMEM provides 23x the performance of a high-end GPU when the GPU requires memory oversubscription for a general matrix-vector multiplication kernel; (2) Mensa improves energy efficiency and throughput by 3.0x and 3.1x over the Google Edge TPU for 24 Google edge NN models; and (3) SIMDRAM outperforms a CPU/GPU by 16.7x/1.4x for three binary NNs. We conclude that the ideal PIM architecture for NN models depends on a model's distinct attributes, due to the inherent architectural design choices.
翻訳日:2023-03-29 02:37:38 公開日:2023-03-27
# 四足歩行のための弾性アクチュエータの爆発学習

Learning to Exploit Elastic Actuators for Quadruped Locomotion ( http://arxiv.org/abs/2209.07171v2 )

ライセンス: Link先を確認
Antonin Raffin, Daniel Seidel, Jens Kober, Alin Albu-Sch\"affer, Jo\~ao Silv\'erio, Freek Stulp(参考訳) 足の移動におけるスプリングベースのアクチュエータは、エネルギー効率と性能の向上を提供するが、コントローラ設計の難しさは増す。 これまでの研究は,このようなシステムの最適制御器を見つけるための広範なモデリングとシミュレーションに焦点を当ててきたが,実ロボット上でモデルフリーの制御器を直接学習することを提案する。 提案手法では,まず中央パターン生成器(CPG)を用いて歩行を合成し,パラメータを最適化し,効率的な移動を実現するオープンループ制御器を迅速に得る。 そして、このコントローラをより堅牢にし、性能をさらに向上させるために、強化学習を用いてループを閉じ、CPG上の修正動作を学習する。 dlr弾性四重項 bert について提案手法を評価した。 その結果,スプリングアクチュエータの動力学の活用が動的動作の最適化から自然に出現し,モデルフリーであるにもかかわらず高い運動能力が得られることがわかった。 このプロセス全体は、実際のロボットに1.5時間しかかからず、自然に見えます。

Spring-based actuators in legged locomotion provide energy-efficiency and improved performance, but increase the difficulty of controller design. While previous work has focused on extensive modeling and simulation to find optimal controllers for such systems, we propose to learn model-free controllers directly on the real robot. In our approach, gaits are first synthesized by central pattern generators (CPGs), whose parameters are optimized to quickly obtain an open-loop controller that achieves efficient locomotion. Then, to make this controller more robust and further improve the performance, we use reinforcement learning to close the loop, to learn corrective actions on top of the CPGs. We evaluate the proposed approach on the DLR elastic quadruped bert. Our results in learning trotting and pronking gaits show that exploitation of the spring actuator dynamics emerges naturally from optimizing for dynamic motions, yielding high-performing locomotion despite being model-free. The whole process takes no more than 1.5 hours on the real robot and results in natural-looking gaits.
翻訳日:2023-03-29 02:37:05 公開日:2023-03-27
# 凸損失を伴うリスクアウェアリニアバンディット

Risk-aware linear bandits with convex loss ( http://arxiv.org/abs/2209.07154v2 )

ライセンス: Link先を確認
Patrick Saux (Inria Scool, CRIStAL, Univ. Lille), Odalric-Ambrym Maillard (Inria Scool, CRIStAL, Univ. Lille)(参考訳) マルチアームバンディットのような意思決定問題において、エージェントは特定のフィードバックを最適化して順次学習する。 平均報酬基準は広く研究されているが、平均分散や条件付きリスク(CVaR)といった有害な結果への嫌悪を反映した他の手段は、重要な応用(医療、農業)にとって関心がある。 文脈情報のない帯域フィードバックに基づくリスク認識手法のアルゴリズムが提案されている。 本研究では,凸損失の最小化を通じて,そのようなリスク対策をコンテキストの線形関数として適用可能なコンテキスト的帯域について検討する。 この枠組みに適合する典型的な例は、非対称な最小二乗問題の解として得られる期待測度である。 スーパーマーチンガレットの混合法を用いて,そのようなリスク尺度を推定するための信頼シーケンスを導出する。 そこで我々は,線形帯域幅の一般化に類似した,最適リスク認識動作を学習するための楽観的 UCB アルゴリズムを提案する。 このアプローチではアルゴリズムの各ラウンドで凸問題を解く必要があり、オンライン勾配降下法によって得られる近似解のみを若干の後悔を伴って緩和することができる。 数値実験で得られたアルゴリズムを評価して結論づける。

In decision-making problems such as the multi-armed bandit, an agent learns sequentially by optimizing a certain feedback. While the mean reward criterion has been extensively studied, other measures that reflect an aversion to adverse outcomes, such as mean-variance or conditional value-at-risk (CVaR), can be of interest for critical applications (healthcare, agriculture). Algorithms have been proposed for such risk-aware measures under bandit feedback without contextual information. In this work, we study contextual bandits where such risk measures can be elicited as linear functions of the contexts through the minimization of a convex loss. A typical example that fits within this framework is the expectile measure, which is obtained as the solution of an asymmetric least-square problem. Using the method of mixtures for supermartingales, we derive confidence sequences for the estimation of such risk measures. We then propose an optimistic UCB algorithm to learn optimal risk-aware actions, with regret guarantees similar to those of generalized linear bandits. This approach requires solving a convex problem at each round of the algorithm, which we can relax by allowing only approximated solution obtained by online gradient descent, at the cost of slightly higher regret. We conclude by evaluating the resulting algorithms on numerical experiments.
翻訳日:2023-03-29 02:36:48 公開日:2023-03-27
# 分別データによる分散学習の一般化について

On Generalization of Decentralized Learning with Separable Data ( http://arxiv.org/abs/2209.07116v4 )

ライセンス: Link先を確認
Hossein Taheri, Christos Thrampoulidis(参考訳) 分散学習は、基礎となるグラフ上で通信するエージェント間でデータが自然に分散されるときに、プライバシと通信効率を提供する。 モデルがトレーニング損失ゼロにトレーニングされる過パラメータ学習設定に動機づけられ,分散学習のアルゴリズム的,一般化的特性と勾配降下を分離可能なデータで検討した。 具体的には、分散勾配降下(DGD)と無限遠点ゼロ(指数的およびロジスティックな損失を含む)に漸近する様々な損失関数に対して、新しい有限時間一般化境界を導出する。 これは、一般化性能と分離可能なデータに対する勾配降下の暗黙バイアスを研究する最近の長い研究を補完するものであるが、これまでは集中的な学習シナリオに限られてきた。 特に、我々の一般化は、その中心となる対数にほぼ一致する。 この背景には、また独立した関心から、自己拘束的損失のクラスに対するDGDのトレーニング損失とコンセンサス率に新たな限界を定めている。 最後に、アルゴリズム面では、分離可能なデータによる分散学習のための勾配ベースルーチンの改善を設計し、トレーニングと一般化性能の両方の観点から、スピードアップの順序を実証的に示す。

Decentralized learning offers privacy and communication efficiency when data are naturally distributed among agents communicating over an underlying graph. Motivated by overparameterized learning settings, in which models are trained to zero training loss, we study algorithmic and generalization properties of decentralized learning with gradient descent on separable data. Specifically, for decentralized gradient descent (DGD) and a variety of loss functions that asymptote to zero at infinity (including exponential and logistic losses), we derive novel finite-time generalization bounds. This complements a long line of recent work that studies the generalization performance and the implicit bias of gradient descent over separable data, but has thus far been limited to centralized learning scenarios. Notably, our generalization bounds approximately match in order their centralized counterparts. Critical behind this, and of independent interest, is establishing novel bounds on the training loss and the rate-of-consensus of DGD for a class of self-bounded losses. Finally, on the algorithmic front, we design improved gradient-based routines for decentralized learning with separable data and empirically demonstrate orders-of-magnitude of speed-up in terms of both training and generalization performance.
翻訳日:2023-03-29 02:36:25 公開日:2023-03-27
# エントロピーに基づく量子熱力学による非マルコフ性

Non-Markovianity through entropy-based quantum thermodynamics ( http://arxiv.org/abs/2210.03767v2 )

ライセンス: Link先を確認
J. M. Z. Choquehuanca, F. M. de Paula, M. S. Sarandy(参考訳) 熱力学関数の単調性の分解によって量子力学写像の非マルコビアン性を特徴づける一般化されたアプローチを導入する。 エントロピーに基づく量子熱力学の定式化を採用することにより、熱とエントロピーの関係を利用して、単一量子量子進化のための熱フローに基づく非マルコビアン性の測定を提案する。 この測度は、内部エネルギーの符号を反転しない単位力学写像に適用することができる。 特定の条件下では、内部エネルギーやワークフローといった他の熱力学的関数にも拡張することができる。 この文脈では、熱と量子コヒーレンスの間の自然な関係は、ユニタリかつ非コヒーレントな力学写像に対して識別することができる。 応用として、熱力学量化器と量子コヒーレンスによって定義される確立された測度との整合性を示す散逸性および非散逸性量子力学過程を考察する。

We introduce a generalized approach to characterize the non-Markovianity of quantum dynamical maps via breakdown of monotonicity of thermodynamic functions. By adopting an entropy-based formulation of quantum thermodynamics, we use the relationship between heat and entropy to propose a measure of non-Markovianity based on the heat flow for single-qubit quantum evolutions. This measure can be applied for unital dynamical maps that do not invert the sign of the internal energy. Under certain conditions, it can also be extended for other thermodynamic functions, such as internal energy and work flows. In this context, a natural connection between heat and quantum coherence can be identified for dynamical maps that are both unital and incoherent. As applications, we explore dissipative and non-dissipative quantum dynamical processes, illustrating the compatibility between our thermodynamic quantifiers and the well-establish measure defined via quantum coherence.
翻訳日:2023-03-29 02:28:32 公開日:2023-03-27
# 量子ラビモデルにおける多光子束の決定論的生成

Deterministic generation of multi-photon bundles in a quantum Rabi model ( http://arxiv.org/abs/2210.03619v2 )

ライセンス: Link先を確認
Cheng Liu, Jin-Feng Huang, Lin Tian(参考訳) 多光子束状態は、量子メトロロジー、量子リソグラフィ、量子通信、量子生物学といった幅広い応用に不可欠である。 本稿では,量子ラビモデルにおいて仮想励起により多光子束を生成するスキームを提案する。 このアプローチでは、上2つの準位がキャビティ場と結合して超強結合を持つ量子ラビモデルを形成し、下2つの準位間の遷移はガウスパルスの2つの列によって駆動される、 {\xi}型3準位原子を用いる。 駆動パルスは, 量子ラビモデルの固有状態から, 刺激されたラマン断熱流路技術を用いて複数の光子の決定論的放出を誘導し, キャビティ出力場に要求される複数の光子の束を生成することができることを示す。 出力光子の一般化された2次相関関数を計算し、出力された光子が反有界多光子束を形成することを明らかにした。

Multi-photon bundle states are crucial for a broad range of applications such as quantum metrology, quantum lithography, quantum communication, and quantum biology. Here we propose a scheme that generates multi-photon bundles via virtual excitations in a quantum Rabi model. Our approach utilizes a {\Xi}-type three-level atom, where the upper two levels are coupled to a cavity field to form a quantum Rabi model with ultrastrong coupling, and the transition between the lower two levels is driven by two sequences of Gaussian pulses. We show that the driving pulses induce deterministic emission of multiple photons from the eigenstates of the quantum Rabi model via the stimulated Raman adiabatic passage technique, and hence can create bundles of multiple photons on-demand in the cavity output field. We calculate the generalized second-order correlation functions of the output photons, which reveal that the emitted photons form antibunched multi-photon bundles.
翻訳日:2023-03-29 02:28:15 公開日:2023-03-27
# 3次元交感神経冷却と浮遊ナノ粒子の検出

3D sympathetic cooling and detection of levitated nanoparticles ( http://arxiv.org/abs/2210.07583v2 )

ライセンス: Link先を確認
Dmitry S. Bykov, Lorenzo Dania, Florian Goschin, Tracy E. Northup(参考訳) 浮遊ナノ粒子の中心運動を冷却することは、メソスコピックスケールでの量子実験への道のりとなる。 ここでは, 浮遊シリカナノ粒子の3次元交感神経冷却と質量中心運動の検出を示す。 ナノ粒子はフィードバック冷却粒子に静電結合され、両方の粒子は同じポールトラップに閉じ込められる。 第1の条件では、同感的に冷却された粒子は直接冷却された粒子と熱し、第2の条件では、同感的に冷却された粒子は最低温度に達する。 この結果は、吸収性粒子のような強いレーザー光で照らせない粒子を効率的に冷却して検出する経路を提供し、いくつかの捕捉されたナノ粒子の配列の動きを制御する方法を提供する。

Cooling the center-of-mass motion of levitated nanoparticles provides a route to quantum experiments at mesoscopic scales. Here we demonstrate three-dimensional sympathetic cooling and detection of the center-of-mass motion of a levitated silica nanoparticle. The nanoparticle is electrostatically coupled to a feedback-cooled particle while both particles are trapped in the same Paul trap. We identify two regimes, based on the strength of the cooling: in the first regime, the sympathetically cooled particle thermalizes with the directly cooled one, while in the second regime, the sympathetically cooled particle reaches a minimum temperature. This result provides a route to efficiently cool and detect particles that cannot be illuminated with strong laser light, such as absorptive particles, and paves the way for controlling the motion of arrays of several trapped nanoparticles.
翻訳日:2023-03-29 02:17:41 公開日:2023-03-27
# グラフアルゴリズムを用いたグラフ補完トランスフォーマーの事前学習

Using Graph Algorithms to Pretrain Graph Completion Transformers ( http://arxiv.org/abs/2210.07453v2 )

ライセンス: Link先を確認
Jonathan Pilault, Michael Galkin, Bahare Fatemi, Perouz Taslakian, David Vasquez, Christopher Pal(参考訳) グラフニューラルネットワークに関する最近の研究は、自己教師付き事前学習が下流グラフ、リンク、ノード分類タスクのパフォーマンスをさらに向上することを示した。 しかし,ダウンストリーム大規模知識グラフ補完タスクでは,事前学習タスクの有効性が十分に検討されていない。 文脈化知識グラフ埋め込み手法を用いて,複数のグラフアルゴリズムを用いて構築した5種類の事前学習信号と,その組み合わせについて検討する。 我々は、グラフ構造生成事前学習タスク(すなわち、パスとkホップ近傍生成)を探索するために、トランスフォーマティブベースのモデルの汎用性を利用する。 さらに,情報ゲインを導いた新しい経路探索アルゴリズムを提案し,下流3つの知識グラフ補完データセットを横断する最善の事前学習課題であることを示す。 新しいパス探索アルゴリズムを事前学習信号として用いると、2-3%のmrr改善が得られますが、すべての信号の事前学習が最高のナレッジグラフ補完結果をもたらすことを示します。 事前学習タスクをすべて組み合わせたマルチタスク設定では,FB15K-237のすべてのメトリクス,MRRのHit@1,MRRのWN18RRand,JF17K(知識ハイパーグラフデータセット)のHit@10,FB15K-237のすべてのメトリクスに対する最新の,強力な知識グラフ埋め込みメソッドを超越している。

Recent work on Graph Neural Networks has demonstrated that self-supervised pretraining can further enhance performance on downstream graph, link, and node classification tasks. However, the efficacy of pretraining tasks has not been fully investigated for downstream large knowledge graph completion tasks. Using a contextualized knowledge graph embedding approach, we investigate five different pretraining signals, constructed using several graph algorithms and no external data, as well as their combination. We leverage the versatility of our Transformer-based model to explore graph structure generation pretraining tasks (i.e. path and k-hop neighborhood generation), typically inapplicable to most graph embedding methods. We further propose a new path-finding algorithm guided by information gain and find that it is the best-performing pretraining task across three downstream knowledge graph completion datasets. While using our new path-finding algorithm as a pretraining signal provides 2-3% MRR improvements, we show that pretraining on all signals together gives the best knowledge graph completion results. In a multitask setting that combines all pretraining tasks, our method surpasses the latest and strong performing knowledge graph embedding methods on all metrics for FB15K-237, on MRR and Hit@1 for WN18RRand on MRR and hit@10 for JF17K (a knowledge hypergraph dataset).
翻訳日:2023-03-29 02:17:28 公開日:2023-03-27
# サンプル評価CMIを用いた一般化境界の新家系

A New Family of Generalization Bounds Using Samplewise Evaluated CMI ( http://arxiv.org/abs/2210.06422v2 )

ライセンス: Link先を確認
Fredrik Hellstr\"om and Giuseppe Durisi(参考訳) 本稿では,共同凸関数を用いて学習損失と人口減少を比較する,情報理論一般化境界の新たなファミリーを提案する。 この関数は、おそらくほぼ正しい(PAC)-ベイズ的な結果に共通する仮説そのものよりも、選択された仮説によって引き起こされる損失に依存する情報測度である、分解された、標本的に評価された条件付き相互情報(CMI)の点において上界にある。 我々は,従来知られていた情報理論境界を回復し拡張することにより,このフレームワークの汎用性を示す。 さらに,評価されたcmiを用いて,シーガーのpac-ベイズ境界のサンプルワイズ平均バージョンを導出し,凸関数は二元 kl 分岐である。 いくつかのシナリオでは、この新しい境界は、以前の境界よりも深いニューラルネットワークの人口減少を強く評価する。 最後に、これらの平均境界のいくつかの高確率バージョンを導出する。 有限なナタラジャン次元を持つ多クラス分類における平均および高確率一般化境界を復元するために,評価されたcmi境界の統一性を示す。

We present a new family of information-theoretic generalization bounds, in which the training loss and the population loss are compared through a jointly convex function. This function is upper-bounded in terms of the disintegrated, samplewise, evaluated conditional mutual information (CMI), an information measure that depends on the losses incurred by the selected hypothesis, rather than on the hypothesis itself, as is common in probably approximately correct (PAC)-Bayesian results. We demonstrate the generality of this framework by recovering and extending previously known information-theoretic bounds. Furthermore, using the evaluated CMI, we derive a samplewise, average version of Seeger's PAC-Bayesian bound, where the convex function is the binary KL divergence. In some scenarios, this novel bound results in a tighter characterization of the population loss of deep neural networks than previous bounds. Finally, we derive high-probability versions of some of these average bounds. We demonstrate the unifying nature of the evaluated CMI bounds by using them to recover average and high-probability generalization bounds for multiclass classification with finite Natarajan dimension.
翻訳日:2023-03-29 02:17:01 公開日:2023-03-27
# zero-shot on-the-flyイベントスキーマインダクション

Zero-Shot On-the-Fly Event Schema Induction ( http://arxiv.org/abs/2210.06254v2 )

ライセンス: Link先を確認
Rotem Dror, Haoyu Wang, and Dan Roth(参考訳) パンデミックの流行にかかわる出来事は何ですか。 結婚式の計画にはどんなステップを踏むべきか? これらの質問に対する回答は、複雑な関心事に関する多くの文書を収集し、関連する情報を抽出し、分析することで得られる。 本稿では,大規模言語モデルを用いて高レベルのイベント定義,特定のイベント,引数,それらの関係を予測し,複雑なイベント全体を記述したスキーマを構築することのできる,ソースドキュメントを生成する手法を提案する。 当社のモデルでは,任意のトピックに関する完全なスキーマを,手作業によるデータ収集を必要とせずに,オンザフライで生成することが可能です。 さらに,テキストから関連する情報を抽出するための効率的な手法を開発し,検証されたシナリオの大部分において,これらのスキーマが人間が作成したものよりも完全であることを示す一連の実験を行った。 最後に、このフレームワークは、事前定義されたオントロジーを必要とせずに、より汎用的で柔軟な実際のテキストの収集に依存する、以前の教師付きスキーマインダクションメソッドと同等の性能を示す。

What are the events involved in a pandemic outbreak? What steps should be taken when planning a wedding? The answers to these questions can be found by collecting many documents on the complex event of interest, extracting relevant information, and analyzing it. We present a new approach in which large language models are utilized to generate source documents that allow predicting, given a high-level event definition, the specific events, arguments, and relations between them to construct a schema that describes the complex event in its entirety. Using our model, complete schemas on any topic can be generated on-the-fly without any manual data collection, i.e., in a zero-shot manner. Moreover, we develop efficient methods to extract pertinent information from texts and demonstrate in a series of experiments that these schemas are considered to be more complete than human-curated ones in the majority of examined scenarios. Finally, we show that this framework is comparable in performance with previous supervised schema induction methods that rely on collecting real texts while being more general and flexible without the need for a predefined ontology.
翻訳日:2023-03-29 02:16:40 公開日:2023-03-27
# rawgment: ノイズ対応raw拡張は多様な環境における認識を可能にする

Rawgment: Noise-Accounted RAW Augmentation Enables Recognition in a Wide Variety of Environments ( http://arxiv.org/abs/2210.16046v2 )

ライセンス: Link先を確認
Masakazu Yoshimura, Junji Otsuka, Atsushi Irie, Takeshi Ohashi(参考訳) 困難な環境で機能する画像認識モデル(例えば、極暗、ぼやけ、高ダイナミックレンジ条件など)は有用である必要がある。 しかし、データ収集とアノテーションの難しさのため、そのような環境のためのトレーニングデータセットの作成は高価で難しい。 難しいデータセットを必要とせずに、ロバストなモデルが得られることが望ましいです。 1つの単純なアプローチは、単純なシーンで標準的なRGB(sRGB)画像に色ジッタやぼやけなどのデータ拡張を適用することである。 残念なことに、このアプローチは画像信号処理装置(isp)の非線形性や画像センサのノイズ特性を考慮していないため、画素強度とノイズ分布の観点から現実的な画像を生成するのに苦労している。 代わりに,ノイズを考慮した生画像拡張法を提案する。 本質的には、非線形ISPを適用する前にRAW画像に色ジッタとぼやけた強調を加え、現実的な強度をもたらす。 さらに,拡張による雑音特性の領域ギャップを校正する雑音量アライメント手法を提案する。 提案手法は,簡易な学習データのみを用いて,課題環境における画像認識精度を2倍にする。

Image recognition models that work in challenging environments (e.g., extremely dark, blurry, or high dynamic range conditions) must be useful. However, creating training datasets for such environments is expensive and hard due to the difficulties of data collection and annotation. It is desirable if we could get a robust model without the need for hard-to-obtain datasets. One simple approach is to apply data augmentation such as color jitter and blur to standard RGB (sRGB) images in simple scenes. Unfortunately, this approach struggles to yield realistic images in terms of pixel intensity and noise distribution due to not considering the non-linearity of Image Signal Processors (ISPs) and noise characteristics of image sensors. Instead, we propose a noise-accounted RAW image augmentation method. In essence, color jitter and blur augmentation are applied to a RAW image before applying non-linear ISP, resulting in realistic intensity. Furthermore, we introduce a noise amount alignment method that calibrates the domain gap in the noise property caused by the augmentation. We show that our proposed noise-accounted RAW augmentation method doubles the image recognition accuracy in challenging environments only with simple training data.
翻訳日:2023-03-29 02:10:21 公開日:2023-03-27
# LongShortNet: ストリーミング知覚における時間的特徴と意味的特徴の融合を探る

LongShortNet: Exploring Temporal and Semantic Features Fusion in Streaming Perception ( http://arxiv.org/abs/2210.15518v3 )

ライセンス: Link先を確認
Chenyang Li, Zhi-Qi Cheng, Jun-Yan He, Pengyu Li, Bin Luo, Han-Yuan Chen, Yifeng Geng, Jin-Peng Lan, Xuansong Xie(参考訳) ストリーミング知覚は、自動操縦システムのレイテンシと正確性の間に注意深いバランスを必要とする自律運転の基本的なタスクである。 しかし、現在のストリーミング知覚法は、現在の2フレームと隣接する2フレームにのみ依存して、複雑なシーンをモデル化する能力を制限する動きパターンを学習するため、しばしば検出結果の低下につながるため、制限されている。 この制限に対処するために,長期時間運動をキャプチャし,リアルタイム知覚のための短期空間意味論と統合する,新しいデュアルパスネットワークであるlong shortnetを提案する。 提案するlong shortnetは,長期時間モデリングをストリーミング知覚に拡張し,時空間的特徴融合を実現する最初の試みである。 我々は、Argoverse-HDデータセット上でLongShortNetを評価し、既存の最先端手法よりも計算コストがほとんどないことを示す。

Streaming perception is a fundamental task in autonomous driving that requires a careful balance between the latency and accuracy of the autopilot system. However, current methods for streaming perception are limited as they rely only on the current and adjacent two frames to learn movement patterns, which restricts their ability to model complex scenes, often leading to poor detection results. To address this limitation, we propose LongShortNet, a novel dual-path network that captures long-term temporal motion and integrates it with short-term spatial semantics for real-time perception. Our proposed LongShortNet is notable as it is the first work to extend long-term temporal modeling to streaming perception, enabling spatiotemporal feature fusion. We evaluate LongShortNet on the challenging Argoverse-HD dataset and demonstrate that it outperforms existing state-of-the-art methods with almost no additional computational cost.
翻訳日:2023-03-29 02:09:36 公開日:2023-03-27
# ProContEXT: トラッキングのためのプログレッシブコンテキストトランスフォーマーの探索

ProContEXT: Exploring Progressive Context Transformer for Tracking ( http://arxiv.org/abs/2210.15511v3 )

ライセンス: Link先を確認
Jin-Peng Lan, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Bin Luo, Xu Bao, Wangmeng Xiang, Yifeng Geng, Xuansong Xie(参考訳) 既存のVisual Object Tracking (VOT)は、テンプレートとして第1フレームのターゲット領域のみを取る。 これにより、フレーム間のオブジェクトの外観の変化を考慮できないため、素早く変化し、混雑するシーンでトラッキングが必然的に失敗する。 そこで我々は,プログレッシブ・コンテクスト・エンコーディング・トランスフォーマー(ProContEXT)によるトラッキング・フレームワークを改良し,空間的・時間的コンテキストを利用して物体の動きの軌跡を予測する。 具体的には、procontextはコンテキスト対応のセルフアテンションモジュールを使用して、空間的および時間的コンテキストをエンコードし、マルチスケールの静的および動的テンプレートを改良および更新し、正確なトラッキングを行う。 時間的文脈と時間的文脈の相補性を探求し、トランスフォーマーベースのトラッカーのためのマルチコンテキストモデリングへの新しい経路を提起する。 さらに、ProContEXTは計算複雑性を低減するためにトークンプルーニング手法を改訂した。 GOT-10kやTrackingNetのような一般的なベンチマークデータセットに対する大規模な実験は、提案されたProContEXTが最先端のパフォーマンスを達成することを示した。

Existing Visual Object Tracking (VOT) only takes the target area in the first frame as a template. This causes tracking to inevitably fail in fast-changing and crowded scenes, as it cannot account for changes in object appearance between frames. To this end, we revamped the tracking framework with Progressive Context Encoding Transformer Tracker (ProContEXT), which coherently exploits spatial and temporal contexts to predict object motion trajectories. Specifically, ProContEXT leverages a context-aware self-attention module to encode the spatial and temporal context, refining and updating the multi-scale static and dynamic templates to progressively perform accurate tracking. It explores the complementary between spatial and temporal context, raising a new pathway to multi-context modeling for transformer-based trackers. In addition, ProContEXT revised the token pruning technique to reduce computational complexity. Extensive experiments on popular benchmark datasets such as GOT-10k and TrackingNet demonstrate that the proposed ProContEXT achieves state-of-the-art performance.
翻訳日:2023-03-29 02:09:18 公開日:2023-03-27
# 線形性を超えたPDEのニューラルネットワーク近似:表現論的視点

Neural Network Approximations of PDEs Beyond Linearity: A Representational Perspective ( http://arxiv.org/abs/2210.12101v2 )

ライセンス: Link先を確認
Tanya Marwah, Zachary C. Lipton, Jianfeng Lu, Andrej Risteski(参考訳) 急成長する研究のラインは、ディープニューラルネットワークを利用して高次元PDEの解を近似し、これらのモデルがいかに次元の呪いを避けるかを説明する理論的な考察のラインを開く。 しかし、これまでの理論解析は線形PDEに限られていた。 本研究では,非線形PDEに対する解を近似するためのニューラルネットワークの表現力について研究する。 解は \emph{Euler-Lagrange} エネルギー汎函数 $\mathcal{E}(u) = \int_\Omega L(x, u(x), \nabla u(x)) - f(x) u(x)dx$ を最小化する。 L$ の部分微分を持つバロンノルム $b$ の関数を構成すると、PDE の解は $\epsilon$-approximated in the $L^2$ sense by a function with Barron norm $O\left(\left(dB_L\right)^{\max\{p \log(1/ \epsilon), p^{\log(1/\epsilon)}\right)$ となる。 バロン [1993] による古典的な結果により、これは解を近似するのに必要な2層ニューラルネットワークのサイズと対応する。 定数として$p, \epsilon, B_L$を扱うと、この量は次元の多項式であり、ニューラルネットワークは次元の呪いを避けることができる。 我々の証明手法は、PDEの解に指数関数的に収束する適切なヒルベルト空間における(事前条件付き)勾配をニューラルネットワークでシミュレートし、各繰り返しにおけるバロンノルムの増加を束縛するものである。 この結果は、単位超キューブ上の線形楕円型pdesの類似の先行結果を仮定し、実質的に一般化する。

A burgeoning line of research leverages deep neural networks to approximate the solutions to high dimensional PDEs, opening lines of theoretical inquiry focused on explaining how it is that these models appear to evade the curse of dimensionality. However, most prior theoretical analyses have been limited to linear PDEs. In this work, we take a step towards studying the representational power of neural networks for approximating solutions to nonlinear PDEs. We focus on a class of PDEs known as \emph{nonlinear elliptic variational PDEs}, whose solutions minimize an \emph{Euler-Lagrange} energy functional $\mathcal{E}(u) = \int_\Omega L(x, u(x), \nabla u(x)) - f(x) u(x)dx$. We show that if composing a function with Barron norm $b$ with partial derivatives of $L$ produces a function of Barron norm at most $B_L b^p$, the solution to the PDE can be $\epsilon$-approximated in the $L^2$ sense by a function with Barron norm $O\left(\left(dB_L\right)^{\max\{p \log(1/ \epsilon), p^{\log(1/\epsilon)}\}}\right)$. By a classical result due to Barron [1993], this correspondingly bounds the size of a 2-layer neural network needed to approximate the solution. Treating $p, \epsilon, B_L$ as constants, this quantity is polynomial in dimension, thus showing neural networks can evade the curse of dimensionality. Our proof technique involves neurally simulating (preconditioned) gradient in an appropriate Hilbert space, which converges exponentially fast to the solution of the PDE, and such that we can bound the increase of the Barron norm at each iterate. Our results subsume and substantially generalize analogous prior results for linear elliptic PDEs over a unit hypercube.
翻訳日:2023-03-29 02:07:49 公開日:2023-03-27
# LOT:$\ell_2$Certified Robustnessを改善するための階層的直交訓練

LOT: Layer-wise Orthogonal Training on Improving $\ell_2$ Certified Robustness ( http://arxiv.org/abs/2210.11620v2 )

ライセンス: Link先を確認
Xiaojun Xu, Linyi Li, Bo Li(参考訳) 近年の研究では、リプシッツ制約によるディープニューラルネットワーク(DNN)のトレーニングは、対向的堅牢性や安定性などのモデル特性を高めることができることが示されている。 本稿では, 直交行列を非拘束行列でパラメトリゼーションすることにより, 1-Lipschitz畳み込み層を効果的に訓練するための層ワイド直交訓練法(LOT)を提案する。 次に、入力領域をフーリエ周波数領域に変換することにより、畳み込み核の逆二乗根を効率的に計算する。 一方,既存の研究は,半教師付き学習が経験的堅牢性の向上に寄与していることを示し,そのギャップを埋めることと,半教師付き学習がリプシッツ有界モデルの証明された堅牢性を向上させることの証明を目指している。 異なる設定でLOTの総合評価を行う。 LOTは、決定論的l2証明されたロバスト性に関するベースラインを著しく上回り、より深いニューラルネットワークにスケールすることを示す。 監視されたシナリオでは、すべてのアーキテクチャ(例えば、cifar-10では59.04%から63.50%、半径rho = 36/255でcifar-100では32.57%から34.59%)の堅牢性を向上させる。 非ラベルデータによる半教師付き学習により、rho = 108/255 における cifar-10 の最先端認証の堅牢性が 36.04% から 42.39% に向上した。 加えて、LOTは異なるモデルアーキテクチャのベースラインを1/3評価時間で一貫して上回る。

Recent studies show that training deep neural networks (DNNs) with Lipschitz constraints are able to enhance adversarial robustness and other model properties such as stability. In this paper, we propose a layer-wise orthogonal training method (LOT) to effectively train 1-Lipschitz convolution layers via parametrizing an orthogonal matrix with an unconstrained matrix. We then efficiently compute the inverse square root of a convolution kernel by transforming the input domain to the Fourier frequency domain. On the other hand, as existing works show that semi-supervised training helps improve empirical robustness, we aim to bridge the gap and prove that semi-supervised learning also improves the certified robustness of Lipschitz-bounded models. We conduct comprehensive evaluations for LOT under different settings. We show that LOT significantly outperforms baselines regarding deterministic l2 certified robustness, and scales to deeper neural networks. Under the supervised scenario, we improve the state-of-the-art certified robustness for all architectures (e.g. from 59.04% to 63.50% on CIFAR-10 and from 32.57% to 34.59% on CIFAR-100 at radius rho = 36/255 for 40-layer networks). With semi-supervised learning over unlabelled data, we are able to improve state-of-the-art certified robustness on CIFAR-10 at rho = 108/255 from 36.04% to 42.39%. In addition, LOT consistently outperforms baselines on different model architectures with only 1/3 evaluation time.
翻訳日:2023-03-29 02:07:05 公開日:2023-03-27
# エントロピックワッサーシュタインarycentersの安定性とランダム幾何グラフへの応用

Stability of Entropic Wasserstein Barycenters and application to random geometric graphs ( http://arxiv.org/abs/2210.10535v2 )

ライセンス: Link先を確認
Marc Theveneau, Nicolas Keriven(参考訳) 近年、グラフデータへの関心が高まるにつれて、様々な幾何学的ツールの計算が重要になっている。 メッシュ処理のような領域では、しばしば離散化された多様体における測地線と最短経路の計算に依存する。 そのようなツールの最近の例は、ワッサーシュタイン・バリセンタ(英語版)(WB)の計算であり、これは最適輸送の理論に由来する非常に一般的なバリセンタの概念であり、そのエントロピック-正則化変種である。 本稿では,離散メッシュ上の wb が基底多様体の幾何学とどのように関係しているかを考察する。 まず, 入力コスト行列に関して, 一般的な安定性結果を与える。 この結果は、最短経路が測地線に収束する多様体上のランダムな幾何グラフに適用し、したがって離散化された形状で計算された WBs の整合性を証明する。

As interest in graph data has grown in recent years, the computation of various geometric tools has become essential. In some area such as mesh processing, they often rely on the computation of geodesics and shortest paths in discretized manifolds. A recent example of such a tool is the computation of Wasserstein barycenters (WB), a very general notion of barycenters derived from the theory of Optimal Transport, and their entropic-regularized variant. In this paper, we examine how WBs on discretized meshes relate to the geometry of the underlying manifold. We first provide a generic stability result with respect to the input cost matrices. We then apply this result to random geometric graphs on manifolds, whose shortest paths converge to geodesics, hence proving the consistency of WBs computed on discretized shapes.
翻訳日:2023-03-29 02:06:36 公開日:2023-03-27
# 低次多項式に対するテンソル分解の平均ケース複雑性

Average-Case Complexity of Tensor Decomposition for Low-Degree Polynomials ( http://arxiv.org/abs/2211.05274v2 )

ライセンス: Link先を確認
Alexander S. Wein(参考訳) n$-dimensional order-3 対称テンソル $t \in (\mathbb{r}^n)^{\otimes 3} が与えられ、これは $r$ ランダムランク-1 項の和であるとする。 ランク-1成分を回収する問題は、r \lesssim n^2$ でも多項式時間アルゴリズムは、r \ll n^{3/2}$でしか知られていない。 同様の「統計計算ギャップ」は、多くの高次元推論タスクで発生し、近年は、統計クエリ(SQ)、総和(SoS)、低次多項式(LDP)といった計算の制限された(より強力な)モデルに対する下界を証明し、これらの問題における明らかな計算硬さを説明する研究が盛んに行われている。 しかしながら、テンソル分解の先行研究は存在せず、その硬さは「種対ヌル」テスト問題によって説明されないことが大きな理由である。 1つの成分が他の成分よりもわずかに大きい(対称性を破る)ランダムオーダー3テンソル分解のモデルを考え、その成分はハイパーキューブから一様に描画される。 テンソル成分の$O(\log n)$-次多項式関数は、$r \ll n^{3/2}$のとき最も大きい成分を正確に推定できるが、$r \gg n^{3/2}$のとき失敗する。 これは、テンソル分解の最もよく知られたアルゴリズムは、少なくとも既知のアプローチによって改善できないことを示す厳密な証拠を与える。 結果の自然な拡張は任意の固定順序 $k \ge 3$ のテンソルに対して成り立ち、この場合 LDP 閾値は $r \sim n^{k/2}$ となる。

Suppose we are given an $n$-dimensional order-3 symmetric tensor $T \in (\mathbb{R}^n)^{\otimes 3}$ that is the sum of $r$ random rank-1 terms. The problem of recovering the rank-1 components is possible in principle when $r \lesssim n^2$ but polynomial-time algorithms are only known in the regime $r \ll n^{3/2}$. Similar "statistical-computational gaps" occur in many high-dimensional inference tasks, and in recent years there has been a flurry of work on explaining the apparent computational hardness in these problems by proving lower bounds against restricted (yet powerful) models of computation such as statistical queries (SQ), sum-of-squares (SoS), and low-degree polynomials (LDP). However, no such prior work exists for tensor decomposition, largely because its hardness does not appear to be explained by a "planted versus null" testing problem. We consider a model for random order-3 tensor decomposition where one component is slightly larger in norm than the rest (to break symmetry), and the components are drawn uniformly from the hypercube. We resolve the computational complexity in the LDP model: $O(\log n)$-degree polynomial functions of the tensor entries can accurately estimate the largest component when $r \ll n^{3/2}$ but fail to do so when $r \gg n^{3/2}$. This provides rigorous evidence suggesting that the best known algorithms for tensor decomposition cannot be improved, at least by known approaches. A natural extension of the result holds for tensors of any fixed order $k \ge 3$, in which case the LDP threshold is $r \sim n^{k/2}$.
翻訳日:2023-03-29 02:01:09 公開日:2023-03-27
# depthformer : トランスフォーマリンセグメンテーションネットワークにおけるマルチモーダル位置符号化とクロス入力注意

DepthFormer: Multimodal Positional Encodings and Cross-Input Attention for Transformer-Based Segmentation Networks ( http://arxiv.org/abs/2211.04188v2 )

ライセンス: Link先を確認
Francesco Barbato, Giulia Rizzoli, Pietro Zanuttigh(参考訳) セマンティックセグメンテーションのアプローチのほとんどは、シーンを解析するためにカラーカメラの情報のみを使用するが、最近の進歩は、深度データを使用することによってパフォーマンスがさらに向上することを示している。 本研究では,このセグメンテーションタスクにおける最先端性能を実現したトランスフォーマーに基づくディープラーニングアーキテクチャに着目し,位置エンコーディングに組み込んで深度情報を活用することを提案する。 効率的にネットワークをマルチモーダルデータに拡張し,パラメータを付加することなく,トランスフォーマーの自己アテンションモジュールの強みを生かした自然な手法で拡張する。 また,アテンションモジュール内でクロスモダリティ操作を行い,奥行きとカラーブランチ間のキー入力を交換する考え方についても検討した。 私たちのアプローチは、Cityscapesベンチマークのパフォーマンスを継続的に改善します。

Most approaches for semantic segmentation use only information from color cameras to parse the scenes, yet recent advancements show that using depth data allows to further improve performances. In this work, we focus on transformer-based deep learning architectures, that have achieved state-of-the-art performances on the segmentation task, and we propose to employ depth information by embedding it in the positional encoding. Effectively, we extend the network to multimodal data without adding any parameters and in a natural way that makes use of the strength of transformers' self-attention modules. We also investigate the idea of performing cross-modality operations inside the attention module, swapping the key inputs between the depth and color branches. Our approach consistently improves performances on the Cityscapes benchmark.
翻訳日:2023-03-29 01:59:03 公開日:2023-03-27
# dynamicisp:画像認識のための動的制御型画像信号処理装置

DynamicISP: Dynamically Controlled Image Signal Processor for Image Recognition ( http://arxiv.org/abs/2211.01146v2 )

ライセンス: Link先を確認
Masakazu Yoshimura, Junji Otsuka, Atsushi Irie, Takeshi Ohashi(参考訳) 画像信号処理装置(isp)は、画像認識タスクや撮像画像の知覚品質において重要な役割を果たす。 ほとんどの場合、専門家はISPの多くのパラメータを手動で調整するために多くの努力をしています。 文献では、機械学習に基づくパラメータチューニング技術とDNNベースのISP技術という2つの手法が活発に研究されている。 前者は軽量だが、表現力に欠ける。 後者は表現力があるが、計算コストはエッジデバイスでは重すぎる。 これらの問題を解決するために,複数の古典的ISP関数からなるDynamicISPを提案し,前フレームの認識結果に応じて各フレームのパラメータを動的に制御する。 本稿では,複数のISP関数のパラメータの制御に成功し,単一および複数カテゴリのオブジェクト検出タスクにおいて,計算コストの低い最先端の精度を実現する。

Image Signal Processors (ISPs) play important roles in image recognition tasks as well as in the perceptual quality of captured images. In most cases, experts make a lot of effort to manually tune many parameters of ISPs, but the parameters are sub-optimal. In the literature, two types of techniques have been actively studied: a machine learning-based parameter tuning technique and a DNN-based ISP technique. The former is lightweight but lacks expressive power. The latter has expressive power, but the computational cost is too heavy on edge devices. To solve these problems, we propose "DynamicISP," which consists of multiple classical ISP functions and dynamically controls the parameters of each frame according to the recognition result of the previous frame. We show our method successfully controls the parameters of multiple ISP functions and achieves state-of-the-art accuracy with low computational cost in single and multi-category object detection tasks.
翻訳日:2023-03-29 01:58:16 公開日:2023-03-27
# Knowledge-in-Context: 知識のあるセミパラメトリック言語モデルを目指して

Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language Models ( http://arxiv.org/abs/2210.16433v3 )

ライセンス: Link先を確認
Xiaoman Pan, Wenlin Yao, Hongming Zhang, Dian Yu, Dong Yu, Jianshu Chen(参考訳) 完全なパラメトリック言語モデルは一般に、ゼロ/フェーショット設定で複数の自然言語タスクを解くために必要な知識を保持するために、膨大な数のモデルパラメータを必要とする。 さらに、コストのかかるモデルの再トレーニングなしでは、進化する世界の知識に適応することは困難です。 本稿では,知識豊富な外部メモリを備えたパラメトリックテキスト-テキスト言語モデルを実現する,半パラメトリック言語モデルアーキテクチャであるKnowledge-in-Context(KiC)を開発する。 具体的には、外部メモリにはエンティティ、辞書、コモンセンス、イベント、スクリプト、因果関係の6種類の知識が含まれている。 各入力インスタンスに対して、KiCモデルは適応的に知識タイプを選択し、最も有用な知識を検索する。 入力インスタンスとその知識増強と共にテキスト・ツー・テキストモデル(例えばT5)に入力され、入力と出力の両方が処理後に自然言語形式で出力される出力応答を生成する。 興味深いことに、kicは、知識セレクタがmoeのシーケンスから専門家への割り当てを決定するルータの役割を担っている特別な専門家の混合(moe)モデルとして識別できる。 このキーとなる観察は、インスタンス適応型知識セレクタでKiCをトレーニングするための新しいアルゴリズムを開発するきっかけとなった。 知識豊富なセミパラメトリック言語モデルとして、kicは目に見えないタスクで優れたゼロショット性能を達成するために、はるかに小さなパラメトリック部分しか必要としない。 40以上のタスクを評価することで、770Mパラメータを持つKiC_Largeが、大きなマージンの4-39倍の大規模言語モデル(LM)よりも容易に優れていることを示す。 また,KiCは完全パラメトリックモデルよりもはるかに小さなモデルスケールで創発能力を示すことを示した。

Fully-parametric language models generally require a huge number of model parameters to store the necessary knowledge for solving multiple natural language tasks in zero/few-shot settings. In addition, it is hard to adapt to the evolving world knowledge without the costly model re-training. In this paper, we develop a novel semi-parametric language model architecture, Knowledge-in-Context (KiC), which empowers a parametric text-to-text language model with a knowledge-rich external memory. Specifically, the external memory contains six different types of knowledge: entity, dictionary, commonsense, event, script, and causality knowledge. For each input instance, the KiC model adaptively selects a knowledge type and retrieves the most helpful pieces of knowledge. The input instance along with its knowledge augmentation is fed into a text-to-text model (e.g., T5) to generate the output answer, where both the input and the output are in natural language forms after prompting. Interestingly, we find that KiC can be identified as a special mixture-of-experts (MoE) model, where the knowledge selector plays the role of a router that is used to determine the sequence-to-expert assignment in MoE. This key observation inspires us to develop a novel algorithm for training KiC with an instance-adaptive knowledge selector. As a knowledge-rich semi-parametric language model, KiC only needs a much smaller parametric part to achieve superior zero-shot performance on unseen tasks. By evaluating on 40+ different tasks, we show that KiC_Large with 770M parameters easily outperforms large language models (LMs) that are 4-39x larger by a large margin. We also demonstrate that KiC exhibits emergent abilities at a much smaller model scale compared to the fully-parametric models.
翻訳日:2023-03-29 01:57:44 公開日:2023-03-27
# 逐次レコメンダのための潜在ユーザインテントモデリング

Latent User Intent Modeling for Sequential Recommenders ( http://arxiv.org/abs/2211.09832v2 )

ライセンス: Link先を確認
Bo Chang, Alexandros Karatzoglou, Yuyan Wang, Can Xu, Ed H. Chi, Minmin Chen(参考訳) シークエンシャルレコメンダモデルは、現代の産業レコメンダシステムの不可欠な構成要素である。 これらのモデルは、プラットフォーム上でのインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学ぶ。 しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。 したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。 本稿では,変動オートエンコーダ(VAE)を用いたユーザ行動信号に基づいて,確率論的モデリング手法を提案し,潜在変数としてユーザ意図を定式化する。 そして、推定されたユーザの意図に応じて推奨ポリシーを調整する。 本研究では,オフライン解析による潜在ユーザインテントモデルの有効性と,大規模産業レコメンデーションプラットフォームでのライブ実験を実証する。

Sequential recommender models are essential components of modern industrial recommender systems. These models learn to predict the next items a user is likely to interact with based on his/her interaction history on the platform. Most sequential recommenders however lack a higher-level understanding of user intents, which often drive user behaviors online. Intent modeling is thus critical for understanding users and optimizing long-term user experience. We propose a probabilistic modeling approach and formulate user intent as latent variables, which are inferred based on user behavior signals using variational autoencoders (VAE). The recommendation policy is then adjusted accordingly given the inferred user intent. We demonstrate the effectiveness of the latent user intent modeling via offline analyses as well as live experiments on a large-scale industrial recommendation platform.
翻訳日:2023-03-29 01:50:55 公開日:2023-03-27
# 双方向連想記憶の熱力学

Thermodynamics of bidirectional associative memories ( http://arxiv.org/abs/2211.09694v2 )

ライセンス: Link先を確認
Adriano Barra, Giovanni Catania, Aur\'elien Decelle, Beatriz Seoane(参考訳) 本稿では,双方向連想記憶(BAM)の平衡特性について検討する。 ホップフィールドモデルから二部構造への一般化として1988年にKoskoによって導入され、最も単純なアーキテクチャは2つの階層のニューロンで定義され、各層の内部接続がなくても、情報記憶と検索は、ある層から別の層へ流れる神経活動の残響を通じて可能である。 統計物理学の厳密な手法を適用することにより, このモデルの確率的拡張の計算能力を熱力学的極限で特徴づける。 有限温度と無ノイズレジームの両方において、レプリカ対称レベルでの位相図の詳細な図が提供されている。 また、後者の場合、臨界荷重はレプリカ対称性の破れの一段階までさらに調査される。 制御パラメーターとして、遷移曲線(すなわち、機械の様々な動作モードを分割する臨界線)の分析および数値検査を行う。 特に,二つの層間の非対称性が有限であることから,一定数のパターンを符号化するためにパラメータを少なくすることで,bamがホップフィールドモデルよりも効率的に情報を格納できることを示す。 ニューラルダイナミクスの数値シミュレーションとの比較を行った。 最後に,2つの相互作用するホップフィールドモデルに類似したbamの検索機構を説明するために,低負荷解析を行う。 2つの結合された制限ボルトミザン機械のポテンシャル同値性についても論じる。

In this paper we investigate the equilibrium properties of bidirectional associative memories (BAMs). Introduced by Kosko in 1988 as a generalization of the Hopfield model to a bipartite structure, the simplest architecture is defined by two layers of neurons, with synaptic connections only between units of different layers: even without internal connections within each layer, information storage and retrieval are still possible through the reverberation of neural activities passing from one layer to another. We characterize the computational capabilities of a stochastic extension of this model in the thermodynamic limit, by applying rigorous techniques from statistical physics. A detailed picture of the phase diagram at the replica symmetric level is provided, both at finite temperature and in the noiseless regimes. Also for the latter, the critical load is further investigated up to one step of replica symmetry breaking. An analytical and numerical inspection of the transition curves (namely critical lines splitting the various modes of operation of the machine) is carried out as the control parameters - noise, load and asymmetry between the two layer sizes - are tuned. In particular, with a finite asymmetry between the two layers, it is shown how the BAM can store information more efficiently than the Hopfield model by requiring less parameters to encode a fixed number of patterns. Comparisons are made with numerical simulations of neural dynamics. Finally, a low-load analysis is carried out to explain the retrieval mechanism in the BAM by analogy with two interacting Hopfield models. A potential equivalence with two coupled Restricted Boltmzann Machines is also discussed.
翻訳日:2023-03-29 01:50:45 公開日:2023-03-27
# オンライン属性選択による解釈可能なFew-shot学習

Interpretable Few-shot Learning with Online Attribute Selection ( http://arxiv.org/abs/2211.09107v2 )

ライセンス: Link先を確認
Mohammad Reza Zarei, Majid Komeili(参考訳) FSL(Few-shot Learning)は,クラス毎にサンプルを少数用意する,難しい学習問題である。 決定解釈は、従来の分類よりもエラーの確率が高いため、少数ショット分類においてより重要である。 しかし、以前のFSL法のほとんどはブラックボックスモデルである。 本稿では,人間に親しみやすい属性に基づくFSLの本質的に解釈可能なモデルを提案する。 さらに,各エピソードにおける無関係な属性を効果的にフィルタリングするオンライン属性選択機構を提案する。 属性選択機構は精度を向上し、各エピソードの参加属性数を減らし、解釈可能性を高める。 本稿では,人間にやさしい属性のプールが不十分なエピソードを自動的に検出し,学習した未知属性を関連付けて補償するメカニズムを提案する。 提案手法は,広範に使用されている4つのデータセット上で,ブラックボックス数ショット学習モデルと同等の結果が得られることを示す。

Few-shot learning (FSL) is a challenging learning problem in which only a few samples are available for each class. Decision interpretation is more important in few-shot classification since there is a greater chance of error than in traditional classification. However, most of the previous FSL methods are black-box models. In this paper, we propose an inherently interpretable model for FSL based on human-friendly attributes. Moreover, we propose an online attribute selection mechanism that can effectively filter out irrelevant attributes in each episode. The attribute selection mechanism improves the accuracy and helps with interpretability by reducing the number of participated attributes in each episode. We propose a mechanism that automatically detects the episodes where the pool of human-friendly attributes are not adequate, and compensates by engaging learned unknown attributes. We demonstrate that the proposed method achieves results on par with black-box few-shot-learning models on four widely used datasets.
翻訳日:2023-03-29 01:50:20 公開日:2023-03-27
# エネルギー材料設計のための人工知能的アプローチ--現状と課題,今後の方向性

Artificial intelligence approaches for materials-by-design of energetic materials: state-of-the-art, challenges, and future directions ( http://arxiv.org/abs/2211.08179v2 )

ライセンス: Link先を確認
Joseph B. Choi, Phong C. H. Nguyen, Oishik Sen, H. S. Udaykumar, Stephen Baek(参考訳) 人工知能(AI)は、様々な複雑な材料設計問題を解決するためのツールとして急速に発展しつつある。 本稿では,AIによる材料設計の最近の進歩とエネルギー材料(EM)への応用を概観する。 数値シミュレーションや物理実験のデータでトレーニングされたAIモデルは、デザインパラメータ空間内のトレンドとパターンを同化し、最適な材料設計(マイクロモルフォロジー、複合材料の組み合わせなど)を特定し、優れた/ターゲットのプロパティとパフォーマンスメトリクスで設計を指差すことができる。 本稿では, 構造形態(形状記述子)の表現学習, structure-property-performance (s-p-p) のリンケージ推定, 最適化・設計探索という, 材料別設計の3つの主要段階に着目したアプローチについて検討する。 材料・デザインの実現に向けた可能性,実用性,有効性の観点から,これらの手法の展望を提供する。 具体的には,少数のデータから学習する能力,計算複雑性,他の物質種や操作条件への一般化可能性・スケーリング性,モデル予測の解釈可能性,監視・データアノテーションの負担などの観点から評価する。 最後に,機械学習研究とEM研究のギャップを埋めるために,メタラーニング,アクティブラーニング,ベイズラーニング,半/弱教師付きラーニングなど,EM教材の設計に関する将来的な研究方向性を提案する。

Artificial intelligence (AI) is rapidly emerging as an enabling tool for solving various complex materials design problems. This paper aims to review recent advances in AI-driven materials-by-design and their applications to energetic materials (EM). Trained with data from numerical simulations and/or physical experiments, AI models can assimilate trends and patterns within the design parameter space, identify optimal material designs (micro-morphologies, combinations of materials in composites, etc.), and point to designs with superior/targeted property and performance metrics. We review approaches focusing on such capabilities with respect to the three main stages of materials-by-design, namely representation learning of microstructure morphology (i.e., shape descriptors), structure-property-performance (S-P-P) linkage estimation, and optimization/design exploration. We provide a perspective view of these methods in terms of their potential, practicality, and efficacy towards the realization of materials-by-design. Specifically, methods in the literature are evaluated in terms of their capacity to learn from a small/limited number of data, computational complexity, generalizability/scalability to other material species and operating conditions, interpretability of the model predictions, and the burden of supervision/data annotation. Finally, we suggest a few promising future research directions for EM materials-by-design, such as meta-learning, active learning, Bayesian learning, and semi-/weakly-supervised learning, to bridge the gap between machine learning research and EM research.
翻訳日:2023-03-29 01:49:43 公開日:2023-03-27
# SCOTCHとSODA:トランスフォーマービデオシャドウ検出フレームワーク

SCOTCH and SODA: A Transformer Video Shadow Detection Framework ( http://arxiv.org/abs/2211.06885v2 )

ライセンス: Link先を確認
Lihao Liu, Jean Prost, Lei Zhu, Nicolas Papadakis, Pietro Li\`o, Carola-Bibiane Sch\"onlieb, Angelica I Aviles-Rivero(参考訳) フレーム間の大きな影変形のため、ビデオ内の影を検出するのは難しい。 本研究では,映像シャドウ検出法を設計する際に,シャドウ変形の計算が不可欠であると主張する。 この目的のために,ビデオにおける大きな影変形を処理するために特別に設計された,新しいタイプのビデオ自己注意モジュールであるSODA(Shadow deformation attention trajectory)を導入する。 さらに,異なるビデオ間での巨大な正影対から一元化影表現を学習するためのネットワークの誘導を目的とした,新しいシャドーコントラスト学習機構(SCOTCH)を提案する。 アブレーション研究における2つの貢献の有効性を実証的に示す。 さらに、SCOTCHとSODAは、既存のビデオシャドウ検出技術よりも優れていることを示す。 コードはプロジェクトのページで入手できる。 https://lihaoliu-cambridge.github.io/scotch_and_soda/

Shadows in videos are difficult to detect because of the large shadow deformation between frames. In this work, we argue that accounting for shadow deformation is essential when designing a video shadow detection method. To this end, we introduce the shadow deformation attention trajectory (SODA), a new type of video self-attention module, specially designed to handle the large shadow deformations in videos. Moreover, we present a new shadow contrastive learning mechanism (SCOTCH) which aims at guiding the network to learn a unified shadow representation from massive positive shadow pairs across different videos. We demonstrate empirically the effectiveness of our two contributions in an ablation study. Furthermore, we show that SCOTCH and SODA significantly outperforms existing techniques for video shadow detection. Code is available at the project page: https://lihaoliu-cambridge.github.io/scotch_and_soda/
翻訳日:2023-03-29 01:48:05 公開日:2023-03-27
# レベル-S$^2$fM: 入射面のニューラルレベルセット上の運動からの構造

Level-S$^2$fM: Structure from Motion on Neural Level Set of Implicit Surfaces ( http://arxiv.org/abs/2211.12018v2 )

ライセンス: Link先を確認
Yuxi Xiao and Nan Xue and Tianfu Wu and Gui-Song Xia(参考訳) そこで本論文では,カメラのポーズとシーンの形状を,確立されたキーポイント対応から暗黙面と放射野の座標mlpを学習することにより,無補間画像の集合から推定するニューラルインクリメンタル構造-運動(sfm)アプローチであるlevel-s$^2$fmを提案する。 提案手法は,未知のカメラポーズを用いたボリューム性ニューラルレンダリングのための座標mlpの最適化を複雑にするため,インクリメンタルなsfmパイプラインにおいて避けられない2視点と少ないビュー構成のために,新たな課題を提起する。 それにもかかわらず, 2次元対応における強い帰納的基礎は, レイサンプリング方式の関係を生かして, それらの課題に対処できることを実証する。 これに基づいて,インクリメンタルなsfmのパイプラインを再検討し,2次元幾何初期化,カメラのポーズ登録,3次元点三角測量,バンドル調整などの重要なコンポーネントを,ニューラルネットワークの暗黙的表面に基づく新たな視点で更新する。 このレベルs$^2$fmは,小さなmlpネットワークのシーン形状を座標mlpで統一することにより,暗黙面のゼロレベル集合を情報的トップダウン正規化として扱い,再構成された3dポイントを管理し,sdfを問合せ,推定ジオメトリをnba(neural ba)によって洗練する。 Level-S$2$fMは、カメラポーズ推定とシーン形状再構成の有望な結果をもたらすだけでなく、カメラ外在性を事前に知ることなく、ニューラル暗示レンダリングの有望な方法を示す。

This paper presents a neural incremental Structure-from-Motion (SfM) approach, Level-S$^2$fM, which estimates the camera poses and scene geometry from a set of uncalibrated images by learning coordinate MLPs for the implicit surfaces and the radiance fields from the established keypoint correspondences. Our novel formulation poses some new challenges due to inevitable two-view and few-view configurations in the incremental SfM pipeline, which complicates the optimization of coordinate MLPs for volumetric neural rendering with unknown camera poses. Nevertheless, we demonstrate that the strong inductive basis conveying in the 2D correspondences is promising to tackle those challenges by exploiting the relationship between the ray sampling schemes. Based on this, we revisit the pipeline of incremental SfM and renew the key components, including two-view geometry initialization, the camera poses registration, the 3D points triangulation, and Bundle Adjustment, with a fresh perspective based on neural implicit surfaces. By unifying the scene geometry in small MLP networks through coordinate MLPs, our Level-S$^2$fM treats the zero-level set of the implicit surface as an informative top-down regularization to manage the reconstructed 3D points, reject the outliers in correspondences via querying SDF, and refine the estimated geometries by NBA (Neural BA). Not only does our Level-S$^2$fM lead to promising results on camera pose estimation and scene geometry reconstruction, but it also shows a promising way for neural implicit rendering without knowing camera extrinsic beforehand.
翻訳日:2023-03-29 01:41:54 公開日:2023-03-27
# 二次元共形場理論における普遍絡み合いと相関測度

Universal entanglement and correlation measure in two-dimensional conformal field theories ( http://arxiv.org/abs/2211.11952v2 )

ライセンス: Link先を確認
Chao Yin, Zhenhuan Liu(参考訳) 1+1)次元共形場理論(CFT)の基底状態における2つの間隔で共有される絡み合いの量は、計算可能なクロスノルム(CCNR)基準に基づいて、絡み合い測度$\mathcal{E}$で定量化される。 負性や相互情報とは異なり、$\mathcal{E}$ は2つの不連続区間においても普遍的な表現を持ち、これは CFT の幾何、中心電荷 c および熱分割関数に依存する。 この普遍的な表現を複製法で証明し、各位数 n において$\mathcal{E}$ を計算するリーマン曲面は常にトーラス位相である。 解析的連続により、n=1/2 の結果は $\mathcal{E}$ の値を与える。 さらに、n の他の値の結果も有意義な結論を与える: n=1 の結果は 2 つの中間純度に関する一般的な公式を与え、n<=4 間隔の renyi-2 n 成分情報を計算することができる。 我々は,Luttinger液で表されるスピン1/2XXZ鎖の基底状態を数値的に検証した。

We calculate the amount of entanglement shared by two intervals in the ground state of a (1+1)-dimensional conformal field theory (CFT), quantified by an entanglement measure $\mathcal{E}$ based on the computable cross norm (CCNR) criterion. Unlike negativity or mutual information, we show that $\mathcal{E}$ has a universal expression even for two disjoint intervals, which depends only on the geometry, the central charge c, and the thermal partition function of the CFT. We prove this universal expression in the replica approach, where the Riemann surface for calculating $\mathcal{E}$ at each order n is always a torus topologically. By analytic continuation, result of n=1/2 gives the value of $\mathcal{E}$. Furthermore, the results of other values of n also yield meaningful conclusions: The n=1 result gives a general formula for the two-interval purity, which enables us to calculate the Renyi-2 N-partite information for N<=4 intervals; while the $n=\infty$ result bounds the correlation function of the two intervals. We verify our findings numerically in the spin-1/2 XXZ chain, whose ground state is described by the Luttinger liquid.
翻訳日:2023-03-29 01:41:18 公開日:2023-03-27
# NeRF-RPN:NeRFにおける物体検出のための一般的なフレームワーク

NeRF-RPN: A general framework for object detection in NeRFs ( http://arxiv.org/abs/2211.11646v3 )

ライセンス: Link先を確認
Benran Hu, Junkai Huang, Yichen Liu, Yu-Wing Tai, Chi-Keung Tang(参考訳) 本稿では,NeRF上で直接動作する最初の重要な物体検出フレームワークであるNeRF-RPNを提案する。 NeRF-RPNは、事前訓練されたNeRFモデルにより、シーン内のすべてのオブジェクトの境界ボックスを検出することを目的としている。 マルチスケールの3次元ニューラルボリューム特徴を組み込んだ新しいボクセル表現を利用することで,NeRF内の物体の3次元境界ボックスを任意の視点でレンダリングすることなく直接回帰できることを実証する。 NeRF-RPNは一般的なフレームワークであり、クラスラベルなしでオブジェクトを検出できる。 各種バックボーンアーキテクチャ,RPNヘッド設計,損失関数を用いたNeRF-RPNの実験を行った。 それらはすべて、エンドツーエンドでトレーニングでき、高品質な3dバウンディングボックスを推定できる。 NeRFのオブジェクト検出の今後の研究を容易にするため、我々は、注意深くラベル付けしてクリーンアップした合成データと実世界のデータの両方からなる新しいベンチマークデータセットを構築した。 コードとデータセットはhttps://github.com/lyclyc52/NeRF_RPNで公開されている。

This paper presents the first significant object detection framework, NeRF-RPN, which directly operates on NeRF. Given a pre-trained NeRF model, NeRF-RPN aims to detect all bounding boxes of objects in a scene. By exploiting a novel voxel representation that incorporates multi-scale 3D neural volumetric features, we demonstrate it is possible to regress the 3D bounding boxes of objects in NeRF directly without rendering the NeRF at any viewpoint. NeRF-RPN is a general framework and can be applied to detect objects without class labels. We experimented NeRF-RPN with various backbone architectures, RPN head designs and loss functions. All of them can be trained in an end-to-end manner to estimate high quality 3D bounding boxes. To facilitate future research in object detection for NeRF, we built a new benchmark dataset which consists of both synthetic and real-world data with careful labeling and clean up. Code and dataset are available at https://github.com/lyclyc52/NeRF_RPN.
翻訳日:2023-03-29 01:40:55 公開日:2023-03-27
# 密度-ポテンシャルマッピングの構造 第1部:標準密度汎関数理論

The structure of the density-potential mapping. Part I: Standard density-functional theory ( http://arxiv.org/abs/2211.16627v3 )

ライセンス: Link先を確認
Markus Penz, Erik I. Tellgren, Mih\'aly A. Csirik, Michael Ruggenthaler, Andre Laestadius(参考訳) 密度汎関数理論(DFT)のホヘンベルク・コーンの定理は、一体粒子密度だけで電子系の基底状態における完全な特徴づけの基礎として広く考えられている。 このレビューのパートIは、磁場を含む理論の異なる拡張において、DFTとパートIIにおけるホヘンベルク・コーンの定理の状況を明らかにすることを目的としている。 我々はホヘンベルク・コーンの定理が DFT の基礎をあまり形成していないという証拠を集め、むしろより包括的な数学的枠組みの結果である。 このような結果は、一般化DFTの構築に関して特に有用である。

The Hohenberg-Kohn theorem of density-functional theory (DFT) is broadly considered the conceptual basis for a full characterization of an electronic system in its ground state by just the one-body particle density. Part I of this review aims at clarifying the status of the Hohenberg-Kohn theorem within DFT and Part II at different extensions of the theory that include magnetic fields. We collect evidence that the Hohenberg-Kohn theorem does not so much form the basis of DFT, but is rather the consequence of a more comprehensive mathematical framework. Such results are especially useful when it comes to the construction of generalized DFTs.
翻訳日:2023-03-29 01:32:13 公開日:2023-03-27
# FeatureBooster: 軽量ニューラルネットワークによる機能記述の強化

FeatureBooster: Boosting Feature Descriptors with a Lightweight Neural Network ( http://arxiv.org/abs/2211.15069v2 )

ライセンス: Link先を確認
Xinjiang Wang, Zeyu Liu, Yu Hu, Wei Xi, Wenxian Yu, Danping Zou(参考訳) 同じ画像内のキーポイントの記述子を改善するための軽量ネットワークを導入する。 このネットワークは、元の記述子とキーポイントの幾何学的性質を入力とし、MLPベースのセルフブートステージとTransformerベースのクロスブートステージを使用して記述子を強化する。 boostedディスクリプタは、実際の値かバイナリのどちらかでもよい。 提案するネットワークは,手作り(orb, sift)と最先端学習に基づく記述子(superpoint, 等)の両方を増強し,画像マッチング, 視覚定位, 運動からの構造タスクで評価する。 その結果、特に大きな照明変化や繰り返しパターンなどの困難な場合において、各タスクの性能が著しく向上することが示された。 提案手法では,デスクトップgpuでは3.2ms,組込みgpuでは27msしか必要とせず,実用的なシステムに適用するには十分高速である。 コードはgithub.com/SJTU-ViSYS/FeatureBoosterで公開されている。

We introduce a lightweight network to improve descriptors of keypoints within the same image. The network takes the original descriptors and the geometric properties of keypoints as the input, and uses an MLP-based self-boosting stage and a Transformer-based cross-boosting stage to enhance the descriptors. The boosted descriptors can be either real-valued or binary ones. We use the proposed network to boost both hand-crafted (ORB, SIFT) and the state-of-the-art learning-based descriptors (SuperPoint, ALIKE) and evaluate them on image matching, visual localization, and structure-from-motion tasks. The results show that our method significantly improves the performance of each task, particularly in challenging cases such as large illumination changes or repetitive patterns. Our method requires only 3.2ms on desktop GPU and 27ms on embedded GPU to process 2000 features, which is fast enough to be applied to a practical system. The code and trained weights are publicly available at github.com/SJTU-ViSYS/FeatureBooster.
翻訳日:2023-03-29 01:30:45 公開日:2023-03-27
# マルチモーダルショット時間行動検出

Multi-Modal Few-Shot Temporal Action Detection ( http://arxiv.org/abs/2211.14905v2 )

ライセンス: Link先を確認
Sauradip Nag, Mengmeng Xu, Xiatian Zhu, Juan-Manuel Perez-Rua, Bernard Ghanem, Yi-Zhe Song and Tao Xiang(参考訳) Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出 (TAD) を新しいクラスに拡張するための2つの異なるアプローチである。 前者は事前訓練された視覚モデルを、クラス毎に1つのビデオで表される新しいタスクに適応させるが、後者は、新しいクラスのセマンティックな記述を利用するためのトレーニング例を必要としない。 本研究では,マルチモーダル・マルチショット(MMFS)のTAD問題を導入し,この問題をFS-TADとZS-TADの結婚とみなすことができる。 この問題に対処するために,新しいMUlti-modality PromPt mETa-learning法(MUPPET)を導入する。 これは、学習済みの能力を最大限に再利用しながら、訓練済みの視覚と言語モデルを効率的にブリッジすることで実現される。 具体的には,メタ学習型適応型ビジュアルセマンティックストークン化器を用いて,サポート動画を視覚モデルのテキストトークン空間にマッピングすることで,マルチモーダルプロンプトを構築する。 クラス内の大きな変動に対処するため、クエリ特徴の規制スキームを更に設計する。 ActivityNetv1.3 と THUMOS14 の大規模な実験により、我々の MUPPET は最先端の代替手法よりも優れており、多くの場合大きなマージンで性能が向上することが示された。 また,MS-COCOデータセット上では,MUPPETを簡単に拡張することで,オブジェクト検出の問題に対処し,最先端のパフォーマンスを実現できることを示す。 コードはhttps://github.com/sauradip/MUPPETで入手できる。

Few-shot (FS) and zero-shot (ZS) learning are two different approaches for scaling temporal action detection (TAD) to new classes. The former adapts a pretrained vision model to a new task represented by as few as a single video per class, whilst the latter requires no training examples by exploiting a semantic description of the new class. In this work, we introduce a new multi-modality few-shot (MMFS) TAD problem, which can be considered as a marriage of FS-TAD and ZS-TAD by leveraging few-shot support videos and new class names jointly. To tackle this problem, we further introduce a novel MUlti-modality PromPt mETa-learning (MUPPET) method. This is enabled by efficiently bridging pretrained vision and language models whilst maximally reusing already learned capacity. Concretely, we construct multi-modal prompts by mapping support videos into the textual token space of a vision-language model using a meta-learned adapter-equipped visual semantics tokenizer. To tackle large intra-class variation, we further design a query feature regulation scheme. Extensive experiments on ActivityNetv1.3 and THUMOS14 demonstrate that our MUPPET outperforms state-of-the-art alternative methods, often by a large margin. We also show that our MUPPET can be easily extended to tackle the few-shot object detection problem and again achieves the state-of-the-art performance on MS-COCO dataset. The code will be available in https://github.com/sauradip/MUPPET
翻訳日:2023-03-29 01:30:26 公開日:2023-03-27
# Diffusion Video Autoencoders: Disentangled Video Encodingによる一時的な顔ビデオ編集に向けて

Diffusion Video Autoencoders: Toward Temporally Consistent Face Video Editing via Disentangled Video Encoding ( http://arxiv.org/abs/2212.02802v2 )

ライセンス: Link先を確認
Gyeongman Kim, Hajin Shim, Hyunsu Kim, Yunjey Choi, Junho Kim, Eunho Yang(参考訳) 最近の顔画像編集手法の印象的な性能に触発されて、これらの手法を顔映像編集タスクに拡張するための研究が自然に提案されている。 ここでの大きな課題の1つは、編集されたフレーム間の時間的一貫性である。 そこで本研究では,拡散オートエンコーダをベースとした新しい顔映像編集フレームワークを提案する。 このモデリングにより、時間的に不変な特徴を所望の方向に向けて単純に操作することで、ビデオの編集が可能になる。 我々のモデルのもう一つのユニークな強みは、モデルが拡散モデルに基づいているため、再構築と編集の能力を同時に満たすことができ、既存のganベースの手法とは異なり、野生の動画(例えば、occluded face)のコーナリングケースに頑健であるということです。

Inspired by the impressive performance of recent face image editing methods, several studies have been naturally proposed to extend these methods to the face video editing task. One of the main challenges here is temporal consistency among edited frames, which is still unresolved. To this end, we propose a novel face video editing framework based on diffusion autoencoders that can successfully extract the decomposed features - for the first time as a face video editing model - of identity and motion from a given video. This modeling allows us to edit the video by simply manipulating the temporally invariant feature to the desired direction for the consistency. Another unique strength of our model is that, since our model is based on diffusion models, it can satisfy both reconstruction and edit capabilities at the same time, and is robust to corner cases in wild face videos (e.g. occluded faces) unlike the existing GAN-based methods.
翻訳日:2023-03-29 01:22:07 公開日:2023-03-27
# diffrf:レンダリング誘導3次元放射拡散

DiffRF: Rendering-Guided 3D Radiance Field Diffusion ( http://arxiv.org/abs/2212.01206v2 )

ライセンス: Link先を確認
Norman M\"uller, Yawar Siddiqui, Lorenzo Porzi, Samuel Rota Bul\`o, Peter Kontschieder, Matthias Nie{\ss}ner(参考訳) 本稿では,拡散確率モデルに基づく3次元放射場合成の新しい手法であるDiffRFを紹介する。 既存の拡散法は画像,潜伏符号,あるいは点クラウドデータに対して動作するが,我々は初めて体積放射場を直接生成する。 この目的のために,明示的なボクセルグリッド表現を直接操作する3次元分数モデルを提案する。 しかし、ポーズされた画像の集合から生成される放射光場は曖昧であり、アーティファクトを含んでいるため、基底真理放射光場サンプルを得るのは非自明である。 この課題に対処するために,デノイジングの定式化とレンダリングロスを組み合わせることで,フローティングアーティファクトのようなエラーを再現しようとするのではなく,優れた画質を優先したデノイジンの事前学習を可能にします。 2d-diffusionモデルとは対照的に,多視点整合前処理を学習し,自由視点合成と正確な形状生成を可能にする。 3D GANと比較して、拡散に基づくアプローチは自然に、仮面完成や単視点3D合成のような条件付き生成を可能にする。

We introduce DiffRF, a novel approach for 3D radiance field synthesis based on denoising diffusion probabilistic models. While existing diffusion-based methods operate on images, latent codes, or point cloud data, we are the first to directly generate volumetric radiance fields. To this end, we propose a 3D denoising model which directly operates on an explicit voxel grid representation. However, as radiance fields generated from a set of posed images can be ambiguous and contain artifacts, obtaining ground truth radiance field samples is non-trivial. We address this challenge by pairing the denoising formulation with a rendering loss, enabling our model to learn a deviated prior that favours good image quality instead of trying to replicate fitting errors like floating artifacts. In contrast to 2D-diffusion models, our model learns multi-view consistent priors, enabling free-view synthesis and accurate shape generation. Compared to 3D GANs, our diffusion-based approach naturally enables conditional generation such as masked completion or single-view 3D synthesis at inference time.
翻訳日:2023-03-29 01:21:11 公開日:2023-03-27
# ネットワークカノン化とハイパーパラメータ探索による説明の最適化

Optimizing Explanations by Network Canonization and Hyperparameter Search ( http://arxiv.org/abs/2211.17174v2 )

ライセンス: Link先を確認
Frederik Pahde, Galip \"Umit Yolcu, Alexander Binder, Wojciech Samek, Sebastian Lapuschkin(参考訳) 説明可能なAI(XAI)は、多くのAIアプリケーションにとって、徐々に重要なコンポーネントになりつつある。 しかし、ルールベースで修正されたバックプロパゲーションXAIアプローチは、2つの理由から生じる革新的なレイヤビルディングブロックを含むモダンなモデルアーキテクチャに適用される場合、しばしば課題に直面します。 第一に、ルールベースのXAI手法の柔軟性は、多くの潜在的なパラメータ化をもたらす。 第二に、多くのXAIメソッドは、BatchNormレイヤのような特定のモデルコンポーネントと競合するため、実装と不変の公理を破る。 モデルキャノン化(モデルキャノン化)は、基礎となる関数を変更することなく問題のあるコンポーネントを無視してモデルを再構成するプロセスである。 モデルカノン化は単純なアーキテクチャ(VGG、ResNetなど)では単純だが、より複雑で高度に相互接続されたモデル(DenseNetなど)では困難である。 さらに、モデルカノン化がXAIにとって有益であるという定量的な証拠は少ない。 本研究では,vgg,resnet, efficientnet, densenetsなど,一般的なディープニューラルネットワークアーキテクチャに適用可能な,現在関連するモデルブロックの正準化手法を提案する。 さらに,Pascal-VOC および ILSVRC2017 データセット上の画像分類タスクや,CLEVR-XAI を用いた視覚的質問応答に対して,様々な XAI 手法に対するソフモデルカノン化の効果を定量化し比較する XAI 評価フレームワークを提案する。 さらに,先述した課題に対して,xai法のハイパーパラメータ探索を行い,説明の質を最適化するために評価フレームワークを適用できることを実証する。

Explainable AI (XAI) is slowly becoming a key component for many AI applications. Rule-based and modified backpropagation XAI approaches however often face challenges when being applied to modern model architectures including innovative layer building blocks, which is caused by two reasons. Firstly, the high flexibility of rule-based XAI methods leads to numerous potential parameterizations. Secondly, many XAI methods break the implementation-invariance axiom because they struggle with certain model components, e.g., BatchNorm layers. The latter can be addressed with model canonization, which is the process of re-structuring the model to disregard problematic components without changing the underlying function. While model canonization is straightforward for simple architectures (e.g., VGG, ResNet), it can be challenging for more complex and highly interconnected models (e.g., DenseNet). Moreover, there is only little quantifiable evidence that model canonization is beneficial for XAI. In this work, we propose canonizations for currently relevant model blocks applicable to popular deep neural network architectures,including VGG, ResNet, EfficientNet, DenseNets, as well as Relation Networks. We further suggest a XAI evaluation framework with which we quantify and compare the effect sof model canonization for various XAI methods in image classification tasks on the Pascal-VOC and ILSVRC2017 datasets, as well as for Visual Question Answering using CLEVR-XAI. Moreover, addressing the former issue outlined above, we demonstrate how our evaluation framework can be applied to perform hyperparameter search for XAI methods to optimize the quality of explanations.
翻訳日:2023-03-29 01:20:07 公開日:2023-03-27
# PreFair: 公正な合成データをプライベートに生成する

PreFair: Privately Generating Justifiably Fair Synthetic Data ( http://arxiv.org/abs/2212.10310v2 )

ライセンス: Link先を確認
David Pujol, Amir Gilad, Ashwin Machanavajjhala(参考訳) データベースがディファレンシャルプライバシ(DP)によって保護されている場合、そのユーザビリティはスコープに制限される。 このシナリオでは、プライベートデータのプロパティを模倣したデータの合成バージョンを生成することにより、ユーザは、元のデータのプライバシを維持しながら、合成データの操作を実行できる。 そのため、DP合成データ生成のためのシステム開発に複数の研究が費やされている。 しかし、このようなシステムは不公平なデータの性質を保存または拡大し、使用に不適な合成データに耐えることができる。 本研究では,DP公正な合成データ生成を可能にするシステムであるPreFairを提案する。 PreFairは、公正な合成データを保証する因果フェアネス基準を組み込むことで、最先端のDPデータ生成メカニズムを拡張している。 我々は、合成データ生成シナリオに適合する正当性の概念に適応する。 さらに,DPの公正な合成データ生成の問題について検討し,その抽出性や設計アルゴリズムが一定の仮定で最適であることを示す。 また,PreFairはDPデータ生成機構が生成するデータよりもはるかに公平な合成データを生成する一方で,プライベートデータに忠実なままであることを示す,広範な実験評価を行った。

When a database is protected by Differential Privacy (DP), its usability is limited in scope. In this scenario, generating a synthetic version of the data that mimics the properties of the private data allows users to perform any operation on the synthetic data, while maintaining the privacy of the original data. Therefore, multiple works have been devoted to devising systems for DP synthetic data generation. However, such systems may preserve or even magnify properties of the data that make it unfair, endering the synthetic data unfit for use. In this work, we present PreFair, a system that allows for DP fair synthetic data generation. PreFair extends the state-of-the-art DP data generation mechanisms by incorporating a causal fairness criterion that ensures fair synthetic data. We adapt the notion of justifiable fairness to fit the synthetic data generation scenario. We further study the problem of generating DP fair synthetic data, showing its intractability and designing algorithms that are optimal under certain assumptions. We also provide an extensive experimental evaluation, showing that PreFair generates synthetic data that is significantly fairer than the data generated by leading DP data generation mechanisms, while remaining faithful to the private data.
翻訳日:2023-03-29 01:13:59 公開日:2023-03-27
# ハミンググラフ上の自由フェルミオンの多部情報

Multipartite information of free fermions on Hamming graphs ( http://arxiv.org/abs/2212.09158v2 )

ライセンス: Link先を確認
Gilles Parez, Pierre-Antoine Bernard, Nicolas Cramp\'e, Luc Vinet(参考訳) ハミンググラフ上に定義された自由フェルミオンモデルの基底状態における多部情報と絡み合い対策について検討する。 既知の隣接行列の対角化を用いて,モデルを解き,基底状態相関行列を構成する。 さらに、コップされた相関行列のすべての固有値が、サブシステムがより大きなサブグラフに埋め込まれた$n$のディスジョイントハミング部分グラフからなるときに見つかる。 これらの結果により、解離グラフの絡み合いエントロピーの正確な公式と、相互および三部情報を求めることができる。 これらの指標の正確な式を用いて, 2つの異なる熱力学的限界における漸近的挙動を抽出し, 数値計算とよく一致した。 特に, 絡み合いエントロピーは, 面積法に比べて絡み合い量を減少させる地域法の対数的違反を認めていることがわかった。

We investigate multipartite information and entanglement measures in the ground state of a free-fermion model defined on a Hamming graph. Using the known diagonalization of the adjacency matrix, we solve the model and construct the ground-state correlation matrix. Moreover, we find all the eigenvalues of the chopped correlation matrix when the subsystem consists of $n$ disjoint Hamming subgraphs embedded in a larger one. These results allow us to find an exact formula for the entanglement entropy of disjoint graphs, as well as for the mutual and tripartite information. We use the exact formulas for these measures to extract their asymptotic behavior in two distinct thermodynamic limits, and find excellent match with the numerical calculations. In particular, we find that the entanglement entropy admits a logarithmic violation of the area law which decreases the amount of entanglement compared to the area law scaling.
翻訳日:2023-03-29 01:12:52 公開日:2023-03-27
# MetaPortrait: パーソナライズされた高速適応によるアイデンティティ保護型トーキングヘッド生成

MetaPortrait: Identity-Preserving Talking Head Generation with Fast Personalized Adaptation ( http://arxiv.org/abs/2212.08062v3 )

ライセンス: Link先を確認
Bowen Zhang, Chenyang Qi, Pan Zhang, Bo Zhang, HsiangTao Wu, Dong Chen, Qifeng Chen, Yong Wang, Fang Wen(参考訳) 本研究では,従来の手法を2つの側面で前進させる,ID保存型音声ヘッド生成フレームワークを提案する。 まず, スパースフローからの補間とは対照的に, 密集したランドマークは, 正確な幾何学的認識フロー場を達成するために重要であると主張する。 第2に,フェース・スワッピング法に触発されて,合成中の音源識別を適応的に融合させることで,画像像のキー特性をよりよく保存する。 提案手法は, 既存のベンチマークにおいて, 従来モデルよりも精度が高いが, さらに実使用に適した発話ヘッド生成を実現するためには, パーソナライズされた微調整が必要である。 しかし、このプロセスは標準ユーザーには不都合な計算的な要求がある。 そこで本研究ではメタラーニング手法を用いた高速適応モデルを提案する。 学習したモデルは、高品質のパーソナライズされたモデルに30秒で適応できる。 最後に,時間的コヒーレンシを確保しつつ細部の改善を図るため,空間的時間的拡張モジュールを提案する。 広範にわたる実験は、ワンショットとパーソナライズされた設定の両方において、芸術の状況に対する我々のアプローチの顕著な優位性を証明している。

In this work, we propose an ID-preserving talking head generation framework, which advances previous methods in two aspects. First, as opposed to interpolating from sparse flow, we claim that dense landmarks are crucial to achieving accurate geometry-aware flow fields. Second, inspired by face-swapping methods, we adaptively fuse the source identity during synthesis, so that the network better preserves the key characteristics of the image portrait. Although the proposed model surpasses prior generation fidelity on established benchmarks, to further make the talking head generation qualified for real usage, personalized fine-tuning is usually needed. However, this process is rather computationally demanding that is unaffordable to standard users. To solve this, we propose a fast adaptation model using a meta-learning approach. The learned model can be adapted to a high-quality personalized model as fast as 30 seconds. Last but not the least, a spatial-temporal enhancement module is proposed to improve the fine details while ensuring temporal coherency. Extensive experiments prove the significant superiority of our approach over the state of the arts in both one-shot and personalized settings.
翻訳日:2023-03-29 01:12:36 公開日:2023-03-27
# 単一X線投影によるCNNによるリアルタイム2D-3Dデフォルマブル登録

CNN-based real-time 2D-3D deformable registration from a single X-ray projection ( http://arxiv.org/abs/2212.07692v2 )

ライセンス: Link先を確認
Fran\c{c}ois Lecomte, Jean-Louis Dillenseger, St\'ephane Cotin(参考訳) 目的: 本論文の目的は, フルオロスコープ画像を用いたリアルタイム2D-3D非剛体登録手法を提案することである。 このような方法は、手術、介入放射線学、放射線療法に応用できる。 2次元X線画像から3次元変位場を推定することにより、術前スキャンで区切られた解剖学的構造を2次元画像に投影することができ、混合現実ビューを提供する。 方法: 術前スキャンから解剖学の変位場と2次元投影からなるデータセットを生成する。 このデータセットからニューラルネットワークを訓練して、未知の3次元変位場を単一の投影画像から復元する。 結果: 本法は肺変形の異なる段階での肺4次元ctデータで検証された。 ランダムな(ドメイン固有でない)微分同相変形を用いて3次元CT上でトレーニングを行い、ポーズの不確実性を模倣する摂動を付加する。 このモデルは、変形の振幅に応じて2.3mmから5.5mmまでの一連のランドマーク平均TREを達成する。 結論: リアルタイム2D-3D非剛性登録のためのCNN方式を提案する。 本手法は, 介入前にc-armのポーズを計画する肺手術などの実際の臨床シナリオに適用可能な, 姿勢推定の不確実性に対処できる。

Purpose: The purpose of this paper is to present a method for real-time 2D-3D non-rigid registration using a single fluoroscopic image. Such a method can find applications in surgery, interventional radiology and radiotherapy. By estimating a three-dimensional displacement field from a 2D X-ray image, anatomical structures segmented in the preoperative scan can be projected onto the 2D image, thus providing a mixed reality view. Methods: A dataset composed of displacement fields and 2D projections of the anatomy is generated from the preoperative scan. From this dataset, a neural network is trained to recover the unknown 3D displacement field from a single projection image. Results: Our method is validated on lung 4D CT data at different stages of the lung deformation. The training is performed on a 3D CT using random (non domain-specific) diffeomorphic deformations, to which perturbations mimicking the pose uncertainty are added. The model achieves a mean TRE over a series of landmarks ranging from 2.3 to 5.5 mm depending on the amplitude of deformation. Conclusion: In this paper, a CNN-based method for real-time 2D-3D non-rigid registration is presented. This method is able to cope with pose estimation uncertainties, making it applicable to actual clinical scenarios, such as lung surgery, where the C-arm pose is planned before the intervention.
翻訳日:2023-03-29 01:12:16 公開日:2023-03-27
# PD-Quant:予測差分量に基づくポストトレーニング量子化

PD-Quant: Post-Training Quantization based on Prediction Difference Metric ( http://arxiv.org/abs/2212.07048v3 )

ライセンス: Link先を確認
Jiawei Liu, Lin Niu, Zhihang Yuan, Dawei Yang, Xinggang Wang, Wenyu Liu(参考訳) ポストトレーニング量子化(PTQ)は、ニューラルネットワーク圧縮技術で、完全精度のモデルを低精度のデータ型を使用した量子化モデルに変換する。 ディープニューラルネットワークのサイズと計算コストを削減できるが、特に極低ビット設定では量子化ノイズを導入し、予測精度を下げることもできる。 適切な量子化パラメータ(例えば、スケーリング係数や重みの丸めなど)を決定する方法は、現在直面している主な問題である。 既存の手法では、これらのパラメータを量子化前後の特徴間の距離を最小化することで決定しようとするが、そのような手法は局所的な情報のみを考慮し、最も最適な量子化パラメータにはならない。 この問題を分析し,グローバル情報を考慮したpd-quant法を提案する。 量子化前後のネットワーク予測の差情報を用いて量子化パラメータを決定する。 さらに、PD-Quantは、アクティベーションの分布を調整することで、少数のキャリブレーションセットによるPTQのオーバーフィッティング問題を緩和することができる。 実験により、PD-Quantは量子化パラメータが向上し、特に低ビット設定において量子化モデルの予測精度が向上することが示された。 例えば、PD-QuantはResNet-18の精度を53.14%、RegNetX-600MFを40.67%の2ビットの2ビットに向上させる。 コードはhttps://github.com/hustvl/pd-quantでリリースされる。

Post-training quantization (PTQ) is a neural network compression technique that converts a full-precision model into a quantized model using lower-precision data types. Although it can help reduce the size and computational cost of deep neural networks, it can also introduce quantization noise and reduce prediction accuracy, especially in extremely low-bit settings. How to determine the appropriate quantization parameters (e.g., scaling factors and rounding of weights) is the main problem facing now. Existing methods attempt to determine these parameters by minimize the distance between features before and after quantization, but such an approach only considers local information and may not result in the most optimal quantization parameters. We analyze this issue and ropose PD-Quant, a method that addresses this limitation by considering global information. It determines the quantization parameters by using the information of differences between network prediction before and after quantization. In addition, PD-Quant can alleviate the overfitting problem in PTQ caused by the small number of calibration sets by adjusting the distribution of activations. Experiments show that PD-Quant leads to better quantization parameters and improves the prediction accuracy of quantized models, especially in low-bit settings. For example, PD-Quant pushes the accuracy of ResNet-18 up to 53.14% and RegNetX-600MF up to 40.67% in weight 2-bit activation 2-bit. The code is released at https://github.com/hustvl/PD-Quant.
翻訳日:2023-03-29 01:11:55 公開日:2023-03-27
# プラグアンドプレイ拡散モデルに向けて

Towards Practical Plug-and-Play Diffusion Models ( http://arxiv.org/abs/2212.05973v2 )

ライセンス: Link先を確認
Hyojun Go, Yunsung Lee, Jin-Young Kim, Seunghyun Lee, Myeongho Jeong, Hyun Seung Lee, and Seungtaek Choi(参考訳) 拡散に基づく生成モデルは画像生成において顕著な成功を収めた。 彼らのガイダンスの定式化により、拡散モデルを微調整することなく、外部モデルが様々なタスクの生成プロセスをプラグアンドプレイで制御できる。 しかし、市販の市販オフザシェルフモデルのガイダンスへの直接的利用は、ノイズの多い入力における性能が低かったために失敗する。 そのため、既存のプラクティスは、ラベル付きデータがノイズで破損したガイダンスモデルを微調整することです。 本稿では,(1)非常に多様なノイズを入力として実行することは,単一のガイダンスモデルでは難しいこと,(2)ラベル付きデータセットの収集は様々なタスクのスケールアップを妨げること,の2つの側面に制限があることを論じる。 この制約に対処するために,各専門家が特定のノイズ範囲に特化している複数の専門家を活用し,対応するタイミングで拡散の逆過程を導く新しい戦略を提案する。 しかし,複数ネットワークの管理やラベル付きデータの利用が不可能なため,パラメータ効率の高い微調整とデータフリーな知識伝達を利用した実践的プラグアンドプレイ(PPAP)フレームワークを提案する。 我々はImageNetクラス条件生成実験を徹底的に実施し、小さなトレーニング可能なパラメータとラベル付きデータで拡散を導出できることを示す。 最後に、画像分類器、深度推定器、セマンティックセグメンテーションモデルが、我々のフレームワークを通じて、プラグイン・アンド・プレイ方式でGLIDEをガイドできることを示す。 私たちのコードはhttps://github.com/riiid/ppapで入手できる。

Diffusion-based generative models have achieved remarkable success in image generation. Their guidance formulation allows an external model to plug-and-play control the generation process for various tasks without finetuning the diffusion model. However, the direct use of publicly available off-the-shelf models for guidance fails due to their poor performance on noisy inputs. For that, the existing practice is to fine-tune the guidance models with labeled data corrupted with noises. In this paper, we argue that this practice has limitations in two aspects: (1) performing on inputs with extremely various noises is too hard for a single guidance model; (2) collecting labeled datasets hinders scaling up for various tasks. To tackle the limitations, we propose a novel strategy that leverages multiple experts where each expert is specialized in a particular noise range and guides the reverse process of the diffusion at its corresponding timesteps. However, as it is infeasible to manage multiple networks and utilize labeled data, we present a practical guidance framework termed Practical Plug-And-Play (PPAP), which leverages parameter-efficient fine-tuning and data-free knowledge transfer. We exhaustively conduct ImageNet class conditional generation experiments to show that our method can successfully guide diffusion with small trainable parameters and no labeled data. Finally, we show that image classifiers, depth estimators, and semantic segmentation models can guide publicly available GLIDE through our framework in a plug-and-play manner. Our code is available at https://github.com/riiid/PPAP.
翻訳日:2023-03-29 01:11:17 公開日:2023-03-27
# 映像の空間的視点による高能率ロバストネス評価

Efficient Robustness Assessment via Adversarial Spatial-Temporal Focus on Videos ( http://arxiv.org/abs/2301.00896v2 )

ライセンス: Link先を確認
Wei Xingxing and Wang Songping and Yan Huanqian(参考訳) ビデオ認識モデルに対する敵対的ロバスト性評価は、安全クリティカルなタスクに対する広範囲の応用が懸念されている。 画像と比較すると、ビデオは高次元であり、逆動画を生成する際に膨大な計算コストがかかる。 これは特に、脅威モデルの勾配推定が一般的に利用され、高次元が大量のクエリに繋がるクエリベースのブラックボックス攻撃に対して深刻である。 そこで本研究では,映像内の時間的冗長性と空間的冗長性を同時に排除し,検索空間の縮小による効率的かつ効率的な勾配推定を実現することを提案する。 このアイデアを実現するために,ビデオ内のフレーム間およびフレーム内から集中したキーフレームとキー領域を同時に攻撃する,新しいアストラクショナル空間時間焦点攻撃(AstFocus)を設計する。 AstFocus攻撃はMARL(Multi-Agent Reinforcement Learning)フレームワークに基づいている。 ひとつのエージェントがキーフレームを選択し、別のエージェントがキー領域を選択する責務を負う。 これら2つのエージェントは、協調予測を行うブラックボックス脅威モデルから受け取った共通の報酬によって共同で訓練される。 連続的なクエリにより、キーフレームとキー領域からなる縮小された検索空間が正確になり、クエリ番号全体が元のビデオより小さくなっている。 4つの主流なビデオ認識モデルと3つの広く使われているアクション認識データセットに関する大規模な実験により、提案されたAstFocus攻撃は、不正率、クエリ数、時間、摂動等級を同時に上回るSOTA手法を示す。

Adversarial robustness assessment for video recognition models has raised concerns owing to their wide applications on safety-critical tasks. Compared with images, videos have much high dimension, which brings huge computational costs when generating adversarial videos. This is especially serious for the query-based black-box attacks where gradient estimation for the threat models is usually utilized, and high dimensions will lead to a large number of queries. To mitigate this issue, we propose to simultaneously eliminate the temporal and spatial redundancy within the video to achieve an effective and efficient gradient estimation on the reduced searching space, and thus query number could decrease. To implement this idea, we design the novel Adversarial spatial-temporal Focus (AstFocus) attack on videos, which performs attacks on the simultaneously focused key frames and key regions from the inter-frames and intra-frames in the video. AstFocus attack is based on the cooperative Multi-Agent Reinforcement Learning (MARL) framework. One agent is responsible for selecting key frames, and another agent is responsible for selecting key regions. These two agents are jointly trained by the common rewards received from the black-box threat models to perform a cooperative prediction. By continuously querying, the reduced searching space composed of key frames and key regions is becoming precise, and the whole query number becomes less than that on the original video. Extensive experiments on four mainstream video recognition models and three widely used action recognition datasets demonstrate that the proposed AstFocus attack outperforms the SOTA methods, which is prevenient in fooling rate, query number, time, and perturbation magnitude at the same.
翻訳日:2023-03-29 01:04:28 公開日:2023-03-27
# 量子非破壊測定による量子勾配評価

Quantum gradient evaluation through quantum non-demolition measurements ( http://arxiv.org/abs/2301.07128v2 )

ライセンス: Link先を確認
Paolo Solinas, Simone Caletti and Giovanni Minuto(参考訳) コスト関数の導関数を量子コンピュータで推定するためのQNDM(Quantum Non-Demolition Measurement)プロトコルについて議論する。 % これは変分量子回路の実装における重要なステップである。 コスト関数は古典的に評価が難しいと考えられており、量子作用素の平均値と関連付けられている。 次に、量子コンピュータを用いて、いわゆる変分量子回路を用いてシステムを進化させることにより、関数とその導関数に関する情報を効率的に抽出する。 この目的のために、観測可能な、すなわちコスト関数の微分の導関数を直接推定できる量子検出器の使用を提案する。 標準的直接測定アプローチに関しては、変分量子回路を実行するのに必要な回路イテレーションの数を減らすことに繋がる。 より高階微分を推定したい場合、利点は増大する。 また,提案手法は,変分量子回路を実行するのに必要な論理ゲートの総数という観点で,さらなるアドバンテージをもたらすことができることを示した。 これらの結果からQNDMは変分量子回路の実装の代替となる。

We discuss a Quantum Non-Demolition Measurement (QNDM) protocol to estimate the derivatives of a cost function with a quantum computer. %This is a key step for the implementation of variational quantum circuits. The cost function, which is supposed to be classically hard to evaluate, is associated with the average value of a quantum operator. Then a quantum computer is used to efficiently extract information about the function and its derivative by evolving the system with a so-called variational quantum circuit. To this aim, we propose to use a quantum detector that allows us to directly estimate the derivatives of an observable, i.e., the derivative of the cost function. With respect to the standard direct measurement approach, this leads to a reduction of the number of circuit iterations needed to run the variational quantum circuits. The advantage increases if we want to estimate the higher-order derivatives. We also show that the presented approach can lead to a further advantage in terms of the number of total logical gates needed to run the variational quantum circuits. These results make the QNDM a valuable alternative to implementing the variational quantum circuits.
翻訳日:2023-03-29 00:53:25 公開日:2023-03-27
# CAT: オープンワールドオブジェクト検出のためのLoCalizationとIdentificAtion Cascade Detection Transformer

CAT: LoCalization and IdentificAtion Cascade Detection Transformer for Open-World Object Detection ( http://arxiv.org/abs/2301.01970v6 )

ライセンス: Link先を確認
Shuailei Ma, Yuefeng Wang, Jiaqi Fan, Ying Wei, Thomas H. Li, Hongli Liu and Fanbing Lv(参考訳) より一般的で挑戦的な目標であるopen-world object detection(owod)は、既知のオブジェクトと未知のオブジェクトの両方を検出し、これらの未知のオブジェクトを段階的に識別するために、既知のオブジェクトのデータからトレーニングされたモデルを必要とする。 標準検出フレームワークと固定擬似ラベリング機構(PLM)を用いた既存の研究には次のような問題がある。 (i)未知の物体を検出することは、モデルが既知の物体を検出する能力を大幅に減少させる。 (ii)plmは、入力の事前知識を十分に活用していない。 (iii)plmの固定的な選択方法は、モデルが正しい方向に訓練されていることを保証できない。 我々は、人間は、混乱を緩和するために、1つの物体を同時にローカライズし識別するのではなく、全ての前景の物体に集中し、各物体を詳細に識別することを好むと観察する。 これにより,共有デコーダによる検出プロセスをカスケード復号方式でデカップリングする,cat(localization and identification cascade detection transformer)という新しい手法が提案される。 一方,モデル駆動と入力駆動plmを組み合わせた自己適応型擬似ラベル機構を提案し,未知オブジェクトに対するロバストな擬似ラベルを生成し,猫による未知オブジェクトの検索能力を大幅に向上させる。 2つのベンチマークデータセット(MS-COCOとPASCAL VOC)の総合的な実験により、OWOD、インクリメンタルオブジェクト検出(IOD)、オープンセット検出(Open-set detection)のタスクにおける全ての指標において、我々のモデルが最先端よりも優れていることが示された。

Open-world object detection (OWOD), as a more general and challenging goal, requires the model trained from data on known objects to detect both known and unknown objects and incrementally learn to identify these unknown objects. The existing works which employ standard detection framework and fixed pseudo-labelling mechanism (PLM) have the following problems: (i) The inclusion of detecting unknown objects substantially reduces the model's ability to detect known ones. (ii) The PLM does not adequately utilize the priori knowledge of inputs. (iii) The fixed selection manner of PLM cannot guarantee that the model is trained in the right direction. We observe that humans subconsciously prefer to focus on all foreground objects and then identify each one in detail, rather than localize and identify a single object simultaneously, for alleviating the confusion. This motivates us to propose a novel solution called CAT: LoCalization and IdentificAtion Cascade Detection Transformer which decouples the detection process via the shared decoder in the cascade decoding way. In the meanwhile, we propose the self-adaptive pseudo-labelling mechanism which combines the model-driven with input-driven PLM and self-adaptively generates robust pseudo-labels for unknown objects, significantly improving the ability of CAT to retrieve unknown objects. Comprehensive experiments on two benchmark datasets, i.e., MS-COCO and PASCAL VOC, show that our model outperforms the state-of-the-art in terms of all metrics in the task of OWOD, incremental object detection (IOD) and open-set detection.
翻訳日:2023-03-29 00:51:27 公開日:2023-03-27
# 不確実な品質多様性:不確実な領域における品質多様性の評価手法と新しい手法

Uncertain Quality-Diversity: Evaluation methodology and new methods for Quality-Diversity in Uncertain Domains ( http://arxiv.org/abs/2302.00463v2 )

ライセンス: Link先を確認
Manon Flageat and Antoine Cully(参考訳) 品質多様性最適化(QD)は、幅広いアプリケーションにわたって有望な結果をもたらすことが証明されている。 しかし、QDアプローチは、ソリューションの真のパフォーマンスとノベルティを定量化する能力に影響を与えるため、環境における不確実性の存在に苦慮する。 この問題は以前の文献で独立して何度も強調されている。 本稿では,4つの主要な貢献を通じて,この問題に対する視点を統一することを提案する。 まず、不確実な領域に対する共通フレームワークを定式化する: 不確実なQD設定、すなわち、各解に対する適合性および記述子がもはや固定値ではなく、可能な値を越えて分布する特別なQDの場合。 第2に、新しい世代ごとのサンプリング予算と、不確実QDに特化して設計された既存のメトリクスのセットを頼りに、不確実QDアプローチを評価するための新しい方法論を提案する。 第3に,アーカイブサンプリング,並列適応サンプリング,ディープグリッドサンプリングの3つの新しいQDアルゴリズムを提案する。 本稿では,QDコミュニティにおけるハードウェアアクセラレーションの最近の進歩を考慮し,多数の並列評価を可能にし,不確実性に対する安価なアプローチをサンプリングする手法を提案する。 最終および第4のコントリビューションは、この新しいフレームワークと関連する比較手法を使用して、既存のアプローチと新しいアプローチをベンチマークすることです。 我々は、不確実領域におけるMAP-Elitesの制限を再び示し、既存のDeep-Gridアプローチと新しいアルゴリズムの性能を強調した。 このフレームワークとメソッドの目標は、不確実性QDを考慮した将来の作業のためのインスツルメンタルベンチマークになることである。

Quality-Diversity optimisation (QD) has proven to yield promising results across a broad set of applications. However, QD approaches struggle in the presence of uncertainty in the environment, as it impacts their ability to quantify the true performance and novelty of solutions. This problem has been highlighted multiple times independently in previous literature. In this work, we propose to uniformise the view on this problem through four main contributions. First, we formalise a common framework for uncertain domains: the Uncertain QD setting, a special case of QD in which fitness and descriptors for each solution are no longer fixed values but distribution over possible values. Second, we propose a new methodology to evaluate Uncertain QD approaches, relying on a new per-generation sampling budget and a set of existing and new metrics specifically designed for Uncertain QD. Third, we propose three new Uncertain QD algorithms: Archive-sampling, Parallel-Adaptive-sampling and Deep-Grid-sampling. We propose these approaches taking into account recent advances in the QD community toward the use of hardware acceleration that enable large numbers of parallel evaluations and make sampling an affordable approach to uncertainty. Our final and fourth contribution is to use this new framework and the associated comparison methods to benchmark existing and novel approaches. We demonstrate once again the limitation of MAP-Elites in uncertain domains and highlight the performance of the existing Deep-Grid approach, and of our new algorithms. The goal of this framework and methods is to become an instrumental benchmark for future works considering Uncertain QD.
翻訳日:2023-03-29 00:45:43 公開日:2023-03-27
# ESC:ゼロショットオブジェクトナビゲーションのためのソフトコモンセンス制約による探索

ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object Navigation ( http://arxiv.org/abs/2301.13166v2 )

ライセンス: Link先を確認
Kaiwen Zhou, Kaizhi Zheng, Connor Pryor, Yilin Shen, Hongxia Jin, Lise Getoor, Xin Eric Wang(参考訳) 特定のオブジェクトを正確に見つけてナビゲートする能力は、現実世界で動作し、タスクを完了させるためにオブジェクトと対話するエージェントにとって重要な能力である。 このようなオブジェクトナビゲーションタスクは、通常、ラベル付きオブジェクトを持つ視覚環境において大規模なトレーニングを必要とする。 本研究では,事前学習モデルにおける常識知識を,ナビゲーション経験や視覚環境でのトレーニングなしにオープンワールドオブジェクトナビゲーションに伝達する,ソフト・コモンセンス制約(esc)を用いた新たなゼロショットオブジェクトナビゲーション手法を提案する。 第一に、ESCは、オープンワールドのプロンプトベースのグラウンドリングのための事前学習されたビジョンと言語モデルと、ルームおよびオブジェクト推論のための事前学習されたコモンセンス言語モデルを利用する。 そして、ESCはコモンセンス知識を、効率的な探索のためのソフトロジック述語としてモデル化することで、ナビゲーション行動に変換する。 MP3D, HM3D, および RoboTHOR ベンチマークの大規模な実験により、我々のESC法はベースラインよりも大幅に改善され、ゼロショットオブジェクトナビゲーションのための新しい最先端結果が得られる(例えば、MP3D の CoW よりも158% の相対的継承率向上)。

The ability to accurately locate and navigate to a specific object is a crucial capability for embodied agents that operate in the real world and interact with objects to complete tasks. Such object navigation tasks usually require large-scale training in visual environments with labeled objects, which generalizes poorly to novel objects in unknown environments. In this work, we present a novel zero-shot object navigation method, Exploration with Soft Commonsense constraints (ESC), that transfers commonsense knowledge in pre-trained models to open-world object navigation without any navigation experience nor any other training on the visual environments. First, ESC leverages a pre-trained vision and language model for open-world prompt-based grounding and a pre-trained commonsense language model for room and object reasoning. Then ESC converts commonsense knowledge into navigation actions by modeling it as soft logic predicates for efficient exploration. Extensive experiments on MP3D, HM3D, and RoboTHOR benchmarks show that our ESC method improves significantly over baselines, and achieves new state-of-the-art results for zero-shot object navigation (e.g., 158% relative Success Rate improvement than CoW on MP3D).
翻訳日:2023-03-29 00:44:58 公開日:2023-03-27
# 逆攻撃性とロバストサンプルの同定

Identifying Adversarially Attackable and Robust Samples ( http://arxiv.org/abs/2301.12896v2 )

ライセンス: Link先を確認
Vyas Raina and Mark Gales(参考訳) adversarial attackは、ディープラーニングモデルのアウトプットに大きな、望ましくない変更を引き起こす入力サンプルに、小さな、不可避な摂動を挿入する。 敵意攻撃の生成や防衛システム構築に関する広範な研究にもかかわらず、入力データの観点からの敵意攻撃の理解に関する研究は限られている。 本研究は, 対人攻撃(攻撃可能なサンプル)に最も影響を受けやすいサンプルを同定し, 逆に最も感受性の低いサンプルを同定することを目的とした, サンプル攻撃可能性の概念を紹介する。 本研究では,未知のターゲットモデルに対する未知のデータセットにおいて,逆攻撃可能で頑健なサンプルを検出するディープラーニングに基づく手法を提案する。 標準画像分類データセットの実験により、様々なアーキテクチャにおける深層攻撃性検知器の可搬性を評価することができる。 深部攻撃性検知器は、攻撃性/破壊性サンプルを特定するための単純なモデル不確実性に基づく測定よりも優れていた。 これは、不確実性が決定境界までのサンプル距離を測定するための不適切なプロキシであることを示唆している。 敵意攻撃理論の理解を深めるとともに,敵意攻撃可能で頑健なサンプルを同定する能力は,例えば,敵意訓練の強化におけるアクティブラーニングなど,サンプル選択タスクの効率向上に寄与することが明らかとなった。

Adversarial attacks insert small, imperceptible perturbations to input samples that cause large, undesired changes to the output of deep learning models. Despite extensive research on generating adversarial attacks and building defense systems, there has been limited research on understanding adversarial attacks from an input-data perspective. This work introduces the notion of sample attackability, where we aim to identify samples that are most susceptible to adversarial attacks (attackable samples) and conversely also identify the least susceptible samples (robust samples). We propose a deep-learning-based method to detect the adversarially attackable and robust samples in an unseen dataset for an unseen target model. Experiments on standard image classification datasets enables us to assess the portability of the deep attackability detector across a range of architectures. We find that the deep attackability detector performs better than simple model uncertainty-based measures for identifying the attackable/robust samples. This suggests that uncertainty is an inadequate proxy for measuring sample distance to a decision boundary. In addition to better understanding adversarial attack theory, it is found that the ability to identify the adversarially attackable and robust samples has implications for improving the efficiency of sample-selection tasks, e.g. active learning in augmentation for adversarial training.
翻訳日:2023-03-29 00:44:32 公開日:2023-03-27
# タスク非依存型グラフニューラルネットワークの評価

Task-Agnostic Graph Neural Network Evaluation via Adversarial Collaboration ( http://arxiv.org/abs/2301.11517v3 )

ライセンス: Link先を確認
Xiangyu Zhao, Hannes St\"ark, Dominique Beaini, Yiren Zhao, Pietro Li\`o(参考訳) 分子表現学習のためのグラフニューラルネットワーク(GNN)研究の進展を評価するための信頼性の高い手法の開発がますます求められている。 分子表現学習のための既存のGNNベンチマーク手法は、特定のデータセット上のノード/グラフ分類/回帰タスクにおけるGNNのパフォーマンスの比較に重点を置いている。 しかし、2つのGNNを直接比較する、原則的でタスクに依存しない手法が欠けている。 さらに、既存の自己教師型学習研究の多くは、データに手作りの強化を取り入れており、その特徴からグラフに適用することが困難な点もいくつかある。 上記の問題に対処するため,グラフ適応協調(GraphAC, Graph Adversarial Collaboration)を提案する。 2つのGNNが互いに直接競合することから、共同で自分自身を更新できる、競争力のあるバーロウツインズ(Competitive Barlow Twins)という新しい客観的機能を導入します。 GraphACは様々な面で異なる表現性を持つGNNの識別に成功し、拡張を必要とせず、原則的で信頼性の高いGNN評価手法であることを示した。

It has been increasingly demanding to develop reliable methods to evaluate the progress of Graph Neural Network (GNN) research for molecular representation learning. Existing GNN benchmarking methods for molecular representation learning focus on comparing the GNNs' performances on some node/graph classification/regression tasks on certain datasets. However, there lacks a principled, task-agnostic method to directly compare two GNNs. Additionally, most of the existing self-supervised learning works incorporate handcrafted augmentations to the data, which has several severe difficulties to be applied on graphs due to their unique characteristics. To address the aforementioned issues, we propose GraphAC (Graph Adversarial Collaboration) -- a conceptually novel, principled, task-agnostic, and stable framework for evaluating GNNs through contrastive self-supervision. We introduce a novel objective function: the Competitive Barlow Twins, that allow two GNNs to jointly update themselves from direct competitions against each other. GraphAC succeeds in distinguishing GNNs of different expressiveness across various aspects, and has demonstrated to be a principled and reliable GNN evaluation method, without necessitating any augmentations.
翻訳日:2023-03-29 00:44:08 公開日:2023-03-27
# hexplane: 動的シーンのための高速な表現

HexPlane: A Fast Representation for Dynamic Scenes ( http://arxiv.org/abs/2301.09632v2 )

ライセンス: Link先を確認
Ang Cao, Justin Johnson(参考訳) ダイナミックな3Dシーンのモデリングと再レンダリングは、3Dビジョンでは難しい課題だ。 以前のアプローチはNeRF上に構築され、暗黙の表現に依存していた。 多くのMLP評価を必要とし、現実世界のアプリケーションに制約を加えるため、これは遅い。 動的3Dシーンは、6つの学習された特徴の平面で明示的に表現できることを示し、HexPlaneと呼ばれるエレガントなソリューションを生み出します。 HexPlaneは、高効率な各平面から抽出されたベクトルを融合させることにより、時空の点の特徴を計算する。 hexplaneと小さなmlpを組み合わせることで、出力色やボリュームレンダリングによるトレーニングは、ダイナミックシーンの新しいビュー合成に印象的な結果をもたらし、以前の作業の画質にマッチすると同時に、トレーニング時間を100ドル以上削減する。 広範なアブレーションによりhexplaneの設計を確認し,異なる核融合機構,座標系,復号機構に頑健であることが確認された。 HexPlaneは4Dボリュームを表現するためのシンプルで効果的なソリューションであり、ダイナミックな3Dシーンの時空モデリングに広く貢献できることを願っています。

Modeling and re-rendering dynamic 3D scenes is a challenging task in 3D vision. Prior approaches build on NeRF and rely on implicit representations. This is slow since it requires many MLP evaluations, constraining real-world applications. We show that dynamic 3D scenes can be explicitly represented by six planes of learned features, leading to an elegant solution we call HexPlane. A HexPlane computes features for points in spacetime by fusing vectors extracted from each plane, which is highly efficient. Pairing a HexPlane with a tiny MLP to regress output colors and training via volume rendering gives impressive results for novel view synthesis on dynamic scenes, matching the image quality of prior work but reducing training time by more than $100\times$. Extensive ablations confirm our HexPlane design and show that it is robust to different feature fusion mechanisms, coordinate systems, and decoding mechanisms. HexPlane is a simple and effective solution for representing 4D volumes, and we hope they can broadly contribute to modeling spacetime for dynamic 3D scenes.
翻訳日:2023-03-29 00:42:44 公開日:2023-03-27
# ディープラーニング手法は分子情報生成に優れているか?

Do Deep Learning Methods Really Perform Better in Molecular Conformation Generation? ( http://arxiv.org/abs/2302.07061v2 )

ライセンス: Link先を確認
Gengmo Zhou, Zhifeng Gao, Zhewei Wei, Hang Zheng, Guolin Ke(参考訳) 分子コンフォメーション生成(mcg)は、創薬において基本的かつ重要な問題である。 体系的探索、モデル構築、ランダム探索、距離幾何学、分子動力学、モンテカルロ法など、多くの伝統的な手法がmcg問題を解決するために開発されている。 しかし、分子構造によってはいくつかの制限がある。 近年,深層学習に基づくMDG手法が数多く存在しており,従来の手法よりも優れていると主張している。 しかし、意外なことに、従来の手法に基づく単純で安価なアルゴリズム(パラメータフリー)を設計し、広く使われているGEOM-QM9およびGEOM-Drugsベンチマークにおいて、ディープラーニングベースのMDG手法に匹敵する、あるいは性能に優れていることを発見した。 特に,設計アルゴリズムはRDKIT生成コンフォメーションのクラスタリングである。 コミュニティがmcgのディープラーニング手法を改訂する上で,私たちの調査結果が役立つことを願っています。 提案アルゴリズムのコードはhttps://gist.github.com/zhougengmo/5b565f51adafcd911c0bc115b2ef027cにある。

Molecular conformation generation (MCG) is a fundamental and important problem in drug discovery. Many traditional methods have been developed to solve the MCG problem, such as systematic searching, model-building, random searching, distance geometry, molecular dynamics, Monte Carlo methods, etc. However, they have some limitations depending on the molecular structures. Recently, there are plenty of deep learning based MCG methods, which claim they largely outperform the traditional methods. However, to our surprise, we design a simple and cheap algorithm (parameter-free) based on the traditional methods and find it is comparable to or even outperforms deep learning based MCG methods in the widely used GEOM-QM9 and GEOM-Drugs benchmarks. In particular, our design algorithm is simply the clustering of the RDKIT-generated conformations. We hope our findings can help the community to revise the deep learning methods for MCG. The code of the proposed algorithm could be found at https://gist.github.com/ZhouGengmo/5b565f51adafcd911c0bc115b2ef027c.
翻訳日:2023-03-29 00:35:52 公開日:2023-03-27
# 高忠実解釈可能な逆リグ:四角形ブレンド形状モデルに最適化された高精度でスパースな解

High-fidelity Interpretable Inverse Rig: An Accurate and Sparse Solution Optimizing the Quartic Blendshape Model ( http://arxiv.org/abs/2302.04820v2 )

ライセンス: Link先を確認
Stevo Rackovi\'c, Cl\'audia Soares, Du\v{s}an Jakoveti\'c, Zoranka Desnica(参考訳) 本研究では,人間顔アニメーションにおける逆リグ問題を解くことにより,任意の精度でブレンド形状リグモデルに適合する手法を提案する。 この方法では、追加補正のレベルが異なるブレンドシェープモデルを考慮し、座標勾配を用いて正規化された最小二乗問題を解く。 最適化の容易化に加えて、このアプローチでは、相互排他的なコントローラが同時にアクティベートされず、イテレーション毎に適合性が向上する。 提案手法は, 重みベクトル(20%以上)の濃度を著しく低下させながら, メッシュ誤差が最先端の手法と同等か低いかの解が得られることを実験的に示し, ポストプロダクションで操作しやすい参照表現の忠実度の高い再構成を可能にする。 アルゴリズム用のpythonスクリプトは、論文が受け入れられると公開される予定だ。

We propose a method to fit arbitrarily accurate blendshape rig models by solving the inverse rig problem in realistic human face animation. The method considers blendshape models with different levels of added corrections and solves the regularized least-squares problem using coordinate descent, i.e., iteratively estimating blendshape weights. Besides making the optimization easier to solve, this approach ensures that mutually exclusive controllers will not be activated simultaneously and improves the goodness of fit after each iteration. We show experimentally that the proposed method yields solutions with mesh error comparable to or lower than the state-of-the-art approaches while significantly reducing the cardinality of the weight vector (over 20 percent), hence giving a high-fidelity reconstruction of the reference expression that is easier to manipulate in the post-production manually. Python scripts for the algorithm will be publicly available upon acceptance of the paper.
翻訳日:2023-03-29 00:34:55 公開日:2023-03-27
# hybrik-transformerによる3次元人物ポーズと形状推定

3D Human Pose and Shape Estimation via HybrIK-Transformer ( http://arxiv.org/abs/2302.04774v3 )

ライセンス: Link先を確認
Boris N. Oreshkin(参考訳) HybrIKは解析的逆運動学とディープラーニングを組み合わせて、2次元単眼画像からより正確な3Dポーズ推定を生成する。 HybrIKは、(1)事前学習された畳み込みバックボーン、(2)2次元畳み込み特徴から3次元ポーズをリフトするデコンボリューション、(3)解析的逆運動学は、プラプシブルツイストとスイング角の学習分布を用いてディープラーニング予測を補正する。 本稿では,2次元から3次元への昇降モジュールを改良し,デコンボリューションをTransformerに置き換えることで,元のHybrIK法と比較して精度と計算効率が向上することを示す。 我々は、一般的なh36m、pw3d、coco、hp3dデータセットで結果を示す。 私たちのコードはhttps://github.com/boreshkinai/hybrik-transformerで公開しています。

HybrIK relies on a combination of analytical inverse kinematics and deep learning to produce more accurate 3D pose estimation from 2D monocular images. HybrIK has three major components: (1) pretrained convolution backbone, (2) deconvolution to lift 3D pose from 2D convolution features, (3) analytical inverse kinematics pass correcting deep learning prediction using learned distribution of plausible twist and swing angles. In this paper we propose an enhancement of the 2D to 3D lifting module, replacing deconvolution with Transformer, resulting in accuracy and computational efficiency improvement relative to the original HybrIK method. We demonstrate our results on commonly used H36M, PW3D, COCO and HP3D datasets. Our code is publicly available https://github.com/boreshkinai/hybrik-transformer.
翻訳日:2023-03-29 00:34:37 公開日:2023-03-27
# 乱れと無関係の文脈性:他が満足する実体的要求に違反することもできない

Contextuality with disturbance and without: Neither can violate substantive requirements the other satisfies ( http://arxiv.org/abs/2302.11995v3 )

ライセンス: Link先を確認
Ehtibar Dzhafarov and Janne V. Kujala(参考訳) 文脈性(Contextuality)は、もともとランダム変数の連続的に連結されたシステム(外乱/信号のないシステム)に対してのみ定義された。 CbD(Contextuality-by-Default theory)は、ある制約に従属するシステムの結合の観点で定義することで、(障害を伴う)一貫性のないシステムへの文脈性の概念の拡張を提供する。 このような拡張は時々懐疑的になる。 我々は,(1) 相互接続されたシステムでは,(1) 条件が満たされるが,(2) 不整合接続されたシステムでは違反しているような,一連の仮定(つまり, 提示形式よりも概念そのものを扱うもの)を開発することができるか,という疑問を提起する。 このような要求の集合は、CbD だけでなく、CbD のような文脈性の拡張も不可能であることを示す。 これは任意の拡張文脈性理論 \T が、すべての系が一貫した連結である理論 \T' と文脈的に同値であるという事実から従う。 文脈同値性は次のように意味する: \T と \T' の系の間には、対応する系と \T' の系が、明確に定義された意味では、互いに単なる再構成であり、それらが文脈的または非文脈的であるような単射対応が存在する。

Contextuality was originally defined only for consistently connected systems of random variables (those without disturbance/signaling). Contextuality-by-Default theory (CbD) offers an extension of the notion of contextuality to inconsistently connected systems (those with disturbance), by defining it in terms of the systems' couplings subject to certain constraints. Such extensions are sometimes met with skepticism. We pose the question of whether it is possible to develop a set of substantive requirements (i.e., those addressing a notion itself rather than its presentation form) such that (1) for any consistently connected system these requirements are satisfied, but (2) they are violated for some inconsistently connected systems. We show that no such set of requirements is possible, not only for CbD but for all possible CbD-like extensions of contextuality. This follows from the fact that any extended contextuality theory \T is contextually equivalent to a theory \T' in which all systems are consistently connected. The contextual equivalence means the following: there is a bijective correspondence between the systems in \T and \T' such that the corresponding systems in \T and \T' are, in a well-defined sense, mere reformulations of each other, and they are contextual or noncontextual together.
翻訳日:2023-03-29 00:25:09 公開日:2023-03-27
# 多変量正規分布間のフィッシャー・ラオ距離の数値近似法

A numerical approximation method for the Fisher-Rao distance between multivariate normal distributions ( http://arxiv.org/abs/2302.08175v6 )

ライセンス: Link先を確認
Frank Nielsen(参考訳) 本稿では,正規分布を結合する離散化曲線に基づく多変量正規分布間のラオ距離を近似し,ジェフリーズ発散の平方根による曲線上の連続する近傍正規分布間のラオ距離を近似する簡易な方法を提案する。 正規分布の常・自然・期待パラメータ化における線形補間曲線を実験的に検討し、これらの曲線とカルボ・オラーの等距離正規多様体のFisher-Rao $d$-variate を$(d+1)\times (d+1)$ symmetric positive-definite matrices [Journal of multivariate analysis 35.2 (1990): 223-242] の錐に埋め込む曲線と比較する。 我々は, 数値近似を下界と上界の両方と比較し, 近似手法の質評価を行った。 最後に、カルボとオルラーの等尺埋め込みに関するいくつかの情報幾何学的性質を示す。

We present a simple method to approximate Rao's distance between multivariate normal distributions based on discretizing curves joining normal distributions and approximating Rao's distances between successive nearby normal distributions on the curves by the square root of Jeffreys divergence, the symmetrized Kullback-Leibler divergence. We consider experimentally the linear interpolation curves in the ordinary, natural and expectation parameterizations of the normal distributions, and compare these curves with a curve derived from the Calvo and Oller's isometric embedding of the Fisher-Rao $d$-variate normal manifold into the cone of $(d+1)\times (d+1)$ symmetric positive-definite matrices [Journal of multivariate analysis 35.2 (1990): 223-242]. We report on our experiments and assess the quality of our approximation technique by comparing the numerical approximations with both lower and upper bounds. Finally, we present several information-geometric properties of the Calvo and Oller's isometric embedding.
翻訳日:2023-03-29 00:24:42 公開日:2023-03-27
# 奥行きとセマンティクスを考慮したマルチモーダル領域翻訳:lidar点雲からの3次元パノラマカラー画像の生成

Depth- and Semantics-aware Multi-modal Domain Translation: Generating 3D Panoramic Color Images from LiDAR Point Clouds ( http://arxiv.org/abs/2302.07661v2 )

ライセンス: Link先を確認
Tiago Cortinhal, Eren Erdal Aksoy(参考訳) 本研究は,LiDARとカメラセンサのマルチモーダル構成によるクロスドメイン画像・画像変換のための,深度とセマンティックスを考慮した新しい条件生成モデルTITAN-Nextを提案する。 提案モデルでは,シーンセマンティクスを中間レベル表現として活用し,シーンセグメントのみに依存して生のLiDAR点雲をRGB-Dカメラ画像に変換する。 我々は、これがこの種の最初のフレームワークであり、フェールセーフなメカニズムを提供し、ターゲット画像領域で利用可能なデータを増やすなど、自動運転車に実践的な応用があると主張している。 提案モデルは,大規模かつ挑戦的なセマンティック・キティデータセットに基づいて評価され,実験結果から,元のTITAN-Netや他の強力なベースラインよりも23.7$\%のマージンをかなり上回ることがわかった。

This work presents a new depth- and semantics-aware conditional generative model, named TITAN-Next, for cross-domain image-to-image translation in a multi-modal setup between LiDAR and camera sensors. The proposed model leverages scene semantics as a mid-level representation and is able to translate raw LiDAR point clouds to RGB-D camera images by solely relying on semantic scene segments. We claim that this is the first framework of its kind and it has practical applications in autonomous vehicles such as providing a fail-safe mechanism and augmenting available data in the target image domain. The proposed model is evaluated on the large-scale and challenging Semantic-KITTI dataset, and experimental findings show that it considerably outperforms the original TITAN-Net and other strong baselines by 23.7$\%$ margin in terms of IoU.
翻訳日:2023-03-29 00:24:14 公開日:2023-03-27
# 低ランク適応型視覚トランスフォーマによる顔偽造検出の高速化

Enhancing General Face Forgery Detection via Vision Transformer with Low-Rank Adaptation ( http://arxiv.org/abs/2303.00917v2 )

ライセンス: Link先を確認
Chenqi Kong, Haoliang Li, Shiqi Wang(参考訳) 今日では、偽ニュース、詐欺、偽造などに対するセキュリティ上の懸念が強まっている。 ドメイン内フェイス偽造検出の成功が実証されたにもかかわらず、既存の検出方法は一般化能力がなく、予期せぬドメインにデプロイすると劇的なパフォーマンス低下に苦しむ傾向がある。 この問題を軽減するために,視覚変換器(ViT)アーキテクチャに基づくより一般的な偽顔検出モデルを設計する。 訓練段階では、プリトレーニングされたvit重みが凍結され、低ランク適応(lora)モジュールのみが更新される。 さらに、SCL(Single Center Loss)をトレーニングプロセスの監視に適用し、モデルの一般化能力をさらに向上させる。 提案手法は,クロスマニピュレーションとクロスデータセット評価の両方において,最先端検出性能を実現する。

Nowadays, forgery faces pose pressing security concerns over fake news, fraud, impersonation, etc. Despite the demonstrated success in intra-domain face forgery detection, existing detection methods lack generalization capability and tend to suffer from dramatic performance drops when deployed to unforeseen domains. To mitigate this issue, this paper designs a more general fake face detection model based on the vision transformer(ViT) architecture. In the training phase, the pretrained ViT weights are freezed, and only the Low-Rank Adaptation(LoRA) modules are updated. Additionally, the Single Center Loss(SCL) is applied to supervise the training process, further improving the generalization capability of the model. The proposed method achieves state-of-the-arts detection performances in both cross-manipulation and cross-dataset evaluations.
翻訳日:2023-03-29 00:15:43 公開日:2023-03-27
# 消散性猫クビット用高忠実ゲートの設計

Designing High-Fidelity Gates for Dissipative Cat Qubits ( http://arxiv.org/abs/2303.00760v2 )

ライセンス: Link先を確認
Ronan Gautier, Mazyar Mirrahimi, Alain Sarlette(参考訳) 誘導二光子散逸で安定化されたボソニック・キャット量子ビットは指数的にバイアスのあるノイズを持つシステムであり、低オーバーヘッド、フォールトトレラント、普遍量子コンピューティングへの扉を開く。 しかし、そのような量子ビットに対する現在のゲート提案は、関連する実験パラメータによるスケーリングが不十分な非保護型のノイズをかなり引き起こす。 そこで本研究では,2光子偏光の設計に用いるリザーバモードを再考し,ゲート誘起誤差の軽減にどのように活用できるかを示すことにより,放散猫量子ビットに対する新たな視点を提案する。 そこで我々は,高忠実度および偏りを保った猫キュービットゲートの4つの新しい設計を導入し,これらを一般的なゲート方式と比較した。 これら4つの設計は、異なる相補的なアイデアを持つ散逸系のためのゲートエンジニアリングの概要を提供する。 特に,すでに達成可能な低エラーゲート設計と長期実装を提案する。

Bosonic cat qubits stabilized with a driven two-photon dissipation are systems with exponentially biased noise, opening the door to low-overhead, fault-tolerant and universal quantum computing. However, current gate proposals for such qubits induce substantial noise of the unprotected type, whose poor scaling with the relevant experimental parameters limits their practical use. In this work, we provide a new perspective on dissipative cat qubits by reconsidering the reservoir mode used to engineer the tailored two-photon dissipation, and show how it can be leveraged to mitigate gate-induced errors. Doing so, we introduce four new designs of high-fidelity and bias-preserving cat qubit gates, and compare them to the prevalent gate methods. These four designs should give a broad overview of gate engineering for dissipative systems with different and complementary ideas. In particular, we propose both already achievable low-error gate designs and longer-term implementations.
翻訳日:2023-03-29 00:15:30 公開日:2023-03-27
# webを横切るための分散サブweb仕様

Distributed Subweb Specifications for Traversing the Web ( http://arxiv.org/abs/2302.14411v2 )

ライセンス: Link先を確認
Bart Bogaerts, Bas Ketsman, Younes Zeboudj, Heba Aamer, Ruben Taelman, Ruben Verborgh(参考訳) 単一のデータセットではなく、ドキュメントのweb上でsparqlクエリが評価されるリンクトラバーサルベースのクエリ処理(ltqp)は、理論上興味深いが非現実的だと見なされることが多い。 しかし、データの分散化がますます精査される中で、シンプルなドキュメントベースのインターフェースを備えた分散データWebは、データパブリッシャが自身のデータとアクセス権をコントロールすることを可能にし、魅力的である。 ltqpはそのようなWeb上で複雑なクエリの評価を可能にするが、パフォーマンス上の問題(データを含むドキュメントの多さによる)と情報品質の懸念(そのようなドキュメントを提供する多くの情報源による)に悩まされている。 既存のltqpアプローチでは、クエリソースを見つけることの負担は、データコンシューマの手に委ねられている。 本稿では,これらの問題を解決するためには,データパブリッシャが興味のある情報源を示唆し,データ消費者を信頼に値するデータへと導くことも可能であるべきであると論じる。 このようなリンクトラバーサルの導出を可能にする理論的枠組みを導入し,その特性について検討する。 これはクエリ結果を改善し、ネットワーク要求数を削減できるという理論的な例を示します。 提案提案は,仕様付き仮想リンクWeb上で実験的に評価し,データ品質だけでなく,クエリの効率も向上することを確認した。 論理プログラミングの理論と実践(tplp)における考察。

Link Traversal-based Query Processing (ltqp), in which a sparql query is evaluated over a web of documents rather than a single dataset, is often seen as a theoretically interesting yet impractical technique. However, in a time where the hypercentralization of data has increasingly come under scrutiny, a decentralized Web of Data with a simple document-based interface is appealing, as it enables data publishers to control their data and access rights. While ltqp allows evaluating complex queries over such webs, it suffers from performance issues (due to the high number of documents containing data) as well as information quality concerns (due to the many sources providing such documents). In existing ltqp approaches, the burden of finding sources to query is entirely in the hands of the data consumer. In this paper, we argue that to solve these issues, data publishers should also be able to suggest sources of interest and guide the data consumer towards relevant and trustworthy data. We introduce a theoretical framework that enables such guided link traversal and study its properties. We illustrate with a theoretic example that this can improve query results and reduce the number of network requests. We evaluate our proposal experimentally on a virtual linked web with specifications and indeed observe that not just the data quality but also the efficiency of querying improves. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2023-03-29 00:14:34 公開日:2023-03-27
# 意味の線形空間:視覚言語モデルにおける構成構造

Linear Spaces of Meanings: Compositional Structures in Vision-Language Models ( http://arxiv.org/abs/2302.14383v2 )

ライセンス: Link先を確認
Matthew Trager, Pramuditha Perera, Luca Zancato, Alessandro Achille, Parminder Bhatia, Stefano Soatto(参考訳) 事前学習された視覚言語モデル(vlms)からのデータ埋め込みにおける構成構造について検討する。 伝統的に、構成性は既存の語彙からの単語の埋め込みに関する代数的操作と関連付けられている。 対照的に、エンコーダからの表現を埋め込み空間内のより小さなベクトルの集合の組み合わせとして近似しようとする。 これらのベクトルは、モデルの埋め込み空間内で直接概念を生成するための「理想語」と見なすことができる。 まず,幾何学的観点から構成構造を理解するための枠組みを提案する。 次に、これらの構成構造がVLM埋め込みの場合の確率論的に持つものを説明し、それが実際に発生する理由の直感を与える。 最後に,これらの構造をCLIPの埋め込みで実証的に探索し,分類,デバイアス,検索などの視覚言語課題の解決に有用性を評価する。 この結果から, 埋め込みベクトル上の単純線形代数演算は, VLMの挙動を制御するための合成および解釈可能な手法として利用できることがわかった。

We investigate compositional structures in data embeddings from pre-trained vision-language models (VLMs). Traditionally, compositionality has been associated with algebraic operations on embeddings of words from a pre-existing vocabulary. In contrast, we seek to approximate representations from an encoder as combinations of a smaller set of vectors in the embedding space. These vectors can be seen as "ideal words" for generating concepts directly within the embedding space of the model. We first present a framework for understanding compositional structures from a geometric perspective. We then explain what these compositional structures entail probabilistically in the case of VLM embeddings, providing intuitions for why they arise in practice. Finally, we empirically explore these structures in CLIP's embeddings and we evaluate their usefulness for solving different vision-language tasks such as classification, debiasing, and retrieval. Our results show that simple linear algebraic operations on embedding vectors can be used as compositional and interpretable methods for regulating the behavior of VLMs.
翻訳日:2023-03-29 00:14:13 公開日:2023-03-27
# im2hands: 相互作用する両手形状の注意深い暗黙表現

Im2Hands: Learning Attentive Implicit Representation of Interacting Two-Hand Shapes ( http://arxiv.org/abs/2302.14348v3 )

ライセンス: Link先を確認
Jihyun Lee, Minhyuk Sung, Honggyu Choi, Tae-Kyun Kim(参考訳) 2つの相互作用する手の最初の神経的な表現である暗黙的な2つの手(im2hands)を提示する。 パラメトリックハンドモデルと/または低分解能メッシュに依存する既存の両手再構成法とは異なり、Im2Handsは両手高精細な形状を高精細に再現できる。 両手間の形状の複雑さと相互作用のコンテキストを扱うために、Im2Handsは、RGBイメージと粗い3Dキーポイントに設定された両手の占有量を、(1)初期占有率推定と(2)文脈認識占有率改善に責任を負う2つの新しい注意ベースのモジュールによってモデル化する。 Im2Handsはまず、クエリ・イメージ・アテンションを用いて、各手で設計された標準空間において、手動のニューラルネットワークによる占有を学習する。 その後、ポーズ空間における最初の両手の占有を洗練し、クエリアンカーの注意を使って両手の形状間の一貫性を高める。 さらに,単一画像再構成シナリオにおいて,予測した手指キーポイントからロバストな2手形状推定を可能にするキーポイントリファインメントモジュールを提案する。 筆者らは,im2ハンドの両手再建における効果を実験により実証し,本手法が最先端の結果を得る方法と比較した。 私たちのコードはhttps://github.com/jyunlee/im2handsで公開されています。

We present Implicit Two Hands (Im2Hands), the first neural implicit representation of two interacting hands. Unlike existing methods on two-hand reconstruction that rely on a parametric hand model and/or low-resolution meshes, Im2Hands can produce fine-grained geometry of two hands with high hand-to-hand and hand-to-image coherency. To handle the shape complexity and interaction context between two hands, Im2Hands models the occupancy volume of two hands - conditioned on an RGB image and coarse 3D keypoints - by two novel attention-based modules responsible for (1) initial occupancy estimation and (2) context-aware occupancy refinement, respectively. Im2Hands first learns per-hand neural articulated occupancy in the canonical space designed for each hand using query-image attention. It then refines the initial two-hand occupancy in the posed space to enhance the coherency between the two hand shapes using query-anchor attention. In addition, we introduce an optional keypoint refinement module to enable robust two-hand shape estimation from predicted hand keypoints in a single-image reconstruction scenario. We experimentally demonstrate the effectiveness of Im2Hands on two-hand reconstruction in comparison to related methods, where ours achieves state-of-the-art results. Our code is publicly available at https://github.com/jyunlee/Im2Hands.
翻訳日:2023-03-29 00:13:59 公開日:2023-03-27
# 高表現類似度モデルを用いたマカクとマウスの視覚経路を有するディープスパイキングニューラルネットワーク

Deep Spiking Neural Networks with High Representation Similarity Model Visual Pathways of Macaque and Mouse ( http://arxiv.org/abs/2303.06060v2 )

ライセンス: Link先を確認
Liwei Huang, Zhengyu Ma, Liutao Yu, Huihui Zhou, Yonghong Tian(参考訳) 深層人工神経ネットワーク(ANN)は霊長類とネズミの視覚経路をモデル化する上で重要な役割を果たしている。 しかし、ニューロンの計算特性を生物学的に比較すると非常に単純化する。 スパイキングニューラルネットワーク(SNN)は、スパイキングニューロンが生物学的ニューロンと同じようにスパイクの時系列で情報をエンコードするので、生物学的にもっとも有効なモデルだ。 しかし、深部snsモデルを用いた視覚経路の研究が不足している。 本研究では,視覚野を初めて深部snsでモデル化し,それに加えて,最先端の深部cnnとvitsの比較を行った。 3つの類似度指標を用いて、2つの種から収集された3つの神経データセットを3種類の刺激で神経表現類似度実験を行う。 広範な類似性分析に基づき,本研究は種間の機能的階層と機構についてさらに検討する。 SNNのほぼ全ての類似度スコアは、平均6.6%のCNNよりも高い。 最も類似度が高い層の深さは、マウスの皮質領域ではほとんど差がないが、マカク領域ではかなり異なるため、マウスの視覚処理構造はマカクより局所的に均質であることが示唆された。 さらに、マウス上層脳のようなニューラルネットワークで観察されるマルチブランチ構造は、マウスにおける並列処理ストリームの計算的証拠を提供し、異なる刺激下でのマカク神経表現の適合性は、マカクにおける情報処理の機能的特殊化を示す。 本研究は,SNNが視覚系の機能的階層と機構をモデル化し,説明するための有望な候補として機能することを示す。

Deep artificial neural networks (ANNs) play a major role in modeling the visual pathways of primate and rodent. However, they highly simplify the computational properties of neurons compared to their biological counterparts. Instead, Spiking Neural Networks (SNNs) are more biologically plausible models since spiking neurons encode information with time sequences of spikes, just like biological neurons do. However, there is a lack of studies on visual pathways with deep SNNs models. In this study, we model the visual cortex with deep SNNs for the first time, and also with a wide range of state-of-the-art deep CNNs and ViTs for comparison. Using three similarity metrics, we conduct neural representation similarity experiments on three neural datasets collected from two species under three types of stimuli. Based on extensive similarity analyses, we further investigate the functional hierarchy and mechanisms across species. Almost all similarity scores of SNNs are higher than their counterparts of CNNs with an average of 6.6%. Depths of the layers with the highest similarity scores exhibit little differences across mouse cortical regions, but vary significantly across macaque regions, suggesting that the visual processing structure of mice is more regionally homogeneous than that of macaques. Besides, the multi-branch structures observed in some top mouse brain-like neural networks provide computational evidence of parallel processing streams in mice, and the different performance in fitting macaque neural representations under different stimuli exhibits the functional specialization of information processing in macaques. Taken together, our study demonstrates that SNNs could serve as promising candidates to better model and explain the functional hierarchy and mechanisms of the visual system.
翻訳日:2023-03-29 00:07:45 公開日:2023-03-27
# 多値重み付き知識ベースにおけるデファジブル推論の複雑さと拡張性

Complexity and scalability of defeasible reasoning in many-valued weighted knowledge bases with typicality ( http://arxiv.org/abs/2303.04534v2 )

ライセンス: Link先を確認
Mario Alviano, Laura Giordano, Daniele Theseider Dupr\'e(参考訳) 概念的」多述語意味論に基づく記述論理の重み付け知識ベースは、多層パーセプトロンの論理的解釈を提供する。 この文脈では、解集合プログラミング(asp)は有限多値の場合の難解な推論に対処するのに適しており、問題の複雑性に対して$\pi^p_2$の上限を与えるが、しかしながら、正確な複雑さは未知であり、概念実証実装のみを提供する。 この論文は、$p^{np[log]}$完全性の結果と、大きな検索空間を持つ重み付き知識ベースを扱う新しいaspエンコーディングを提供することで、不足を解消する。

Weighted knowledge bases for description logics with typicality under a "concept-wise" multi-preferential semantics provide a logical interpretation of MultiLayer Perceptrons. In this context, Answer Set Programming (ASP) has been shown to be suitable for addressing defeasible reasoning in the finitely many-valued case, providing a $\Pi^p_2$ upper bound on the complexity of the problem, nonetheless leaving unknown the exact complexity and only providing a proof-of-concept implementation. This paper fulfils the lack by providing a $P^{NP[log]}$-completeness result and new ASP encodings that deal with weighted knowledge bases with large search spaces.
翻訳日:2023-03-29 00:05:59 公開日:2023-03-27
# NL4Optコンペティション:自然言語記述に基づく最適化問題の定式化

NL4Opt Competition: Formulating Optimization Problems Based on Their Natural Language Descriptions ( http://arxiv.org/abs/2303.08233v2 )

ライセンス: Link先を確認
Rindranirina Ramamonjison, Timothy T. Yu, Raymond Li, Haley Li, Giuseppe Carenini, Bissan Ghaddar, Shiqi He, Mahdi Mostajabdaveh, Amin Banitalebi-Dehkordi, Zirui Zhou, Yong Zhang(参考訳) 最適化のための自然言語(NL4Opt)コンペティションは、そのテキスト記述に基づいて最適化問題の意味と定式化を抽出する方法を検討するために作成された。 具体的には、非専門家が自然言語を使って対話できるようにすることで、最適化ソルバのアクセシビリティとユーザビリティを高めることを目的としている。 この課題を,(1)最適化問題の構成要素に対応する意味的エンティティを認識・ラベル付けすること,(2)検出された問題エンティティから問題の意味表現(論理形式)を生成すること,の2つのサブタスクに分けた。 最初の課題は、最適化問題の実体を検出し、タグ付けすることで曖昧さを減らすことである。 第2のタスクは、線形プログラミング(LP)問題の中間表現を生成し、商用の問題解決者によって使用できる形式に変換する。 本稿では,LP単語問題データセットとNeurIPS 2022コンペティションの共有タスクについて述べる。 さらに,chatgpt大言語モデルの性能と勝利ソリューションの比較を行った。 このコンペティションを通じて、最適化モデリングのための新しい機械学習アプリケーションやデータセットの開発に関心を寄せたいと思っています。

The Natural Language for Optimization (NL4Opt) Competition was created to investigate methods of extracting the meaning and formulation of an optimization problem based on its text description. Specifically, the goal of the competition is to increase the accessibility and usability of optimization solvers by allowing non-experts to interface with them using natural language. We separate this challenging goal into two sub-tasks: (1) recognize and label the semantic entities that correspond to the components of the optimization problem; (2) generate a meaning representation (i.e., a logical form) of the problem from its detected problem entities. The first task aims to reduce ambiguity by detecting and tagging the entities of the optimization problems. The second task creates an intermediate representation of the linear programming (LP) problem that is converted into a format that can be used by commercial solvers. In this report, we present the LP word problem dataset and shared tasks for the NeurIPS 2022 competition. Furthermore, we investigate and compare the performance of the ChatGPT large language model against the winning solutions. Through this competition, we hope to bring interest towards the development of novel machine learning applications and datasets for optimization modeling.
翻訳日:2023-03-28 23:58:23 公開日:2023-03-27
# ロボットナビゲーションのための音声視覚言語マップ

Audio Visual Language Maps for Robot Navigation ( http://arxiv.org/abs/2303.07522v2 )

ライセンス: Link先を確認
Chenguang Huang, Oier Mees, Andy Zeng, Wolfram Burgard(参考訳) 世界でのインタラクションはマルチセンサーな体験だが、多くのロボットは、視覚知覚に頼って、環境をマッピングし、ナビゲートしている。 本研究では,音声,視覚,言語からの情報を保存するための3次元空間地図表現であるAVLMapを提案する。 avlmapsは、インターネットスケールデータで事前トレーニングされたマルチモーダル基礎モデルのオープンボキャブラリ機能を、その機能を集中型の3dボクセルグリッドに融合することで統合する。 ナビゲーションの文脈では,avlmapsによって,テキスト記述や画像,ランドマークの音声スニペットなど,マルチモーダルなクエリに基づいて,ロボットシステムが地図内の目標をインデックス化できることが示されている。 特に、音声情報を追加することで、ロボットはゴール位置をより確実に曖昧にすることができる。 AVLMapsはマルチモーダルプロンプトからゼロショットマルチモーダルゴールナビゲーションを可能にし、曖昧なシナリオでは50%改善されたリコールを提供する。 これらの機能は、現実世界のモバイルロボットにも拡張され、視覚、音声、空間の概念を参照するランドマークにナビゲートされる。 ビデオとコードは、https://avlmaps.github.io.comで入手できる。

While interacting in the world is a multi-sensory experience, many robots continue to predominantly rely on visual perception to map and navigate in their environments. In this work, we propose Audio-Visual-Language Maps (AVLMaps), a unified 3D spatial map representation for storing cross-modal information from audio, visual, and language cues. AVLMaps integrate the open-vocabulary capabilities of multimodal foundation models pre-trained on Internet-scale data by fusing their features into a centralized 3D voxel grid. In the context of navigation, we show that AVLMaps enable robot systems to index goals in the map based on multimodal queries, e.g., textual descriptions, images, or audio snippets of landmarks. In particular, the addition of audio information enables robots to more reliably disambiguate goal locations. Extensive experiments in simulation show that AVLMaps enable zero-shot multimodal goal navigation from multimodal prompts and provide 50% better recall in ambiguous scenarios. These capabilities extend to mobile robots in the real world - navigating to landmarks referring to visual, audio, and spatial concepts. Videos and code are available at: https://avlmaps.github.io.
翻訳日:2023-03-28 23:56:47 公開日:2023-03-27
# PARASOL:拡散画像合成のためのパラメトリックスタイル制御

PARASOL: Parametric Style Control for Diffusion Image Synthesis ( http://arxiv.org/abs/2303.06464v2 )

ライセンス: Link先を確認
Gemma Canet Tarr\'es, Dan Ruta, Tu Bui, John Collomosse(参考訳) 両コンテンツと微細な視覚スタイルの埋め込みを共同で条件付けすることで、画像の視覚スタイルの非交叉パラメトリック制御を可能にするマルチモーダル合成モデルであるPARASOLを提案する。 我々は,各モダリティの特定の損失を用いて潜在拡散モデル(ldm)を訓練し,分類器フリーのガイダンスを適用し,独立コンテンツと推論時のスタイルモダリティに対する不連続制御を奨励する。 補助的なセマンティクスとスタイルに基づく検索を活用して,コンテンツとスタイルの相補性を保証し,LDMの監督のためのトレーニング三つ子を作成する。 PARASOLは、画像生成とスタイリゼーションのための拡散モデルにおける視覚スタイルのニュアンス制御を可能にするとともに、テキストベースの検索結果を、コンテンツとスタイル記述子の両方を補間することによって、より密にユーザ意図に適合させることができる生成検索を可能にする。

We propose PARASOL, a multi-modal synthesis model that enables disentangled, parametric control of the visual style of the image by jointly conditioning synthesis on both content and a fine-grained visual style embedding. We train a latent diffusion model (LDM) using specific losses for each modality and adapt the classifier-free guidance for encouraging disentangled control over independent content and style modalities at inference time. We leverage auxiliary semantic and style-based search to create training triplets for supervision of the LDM, ensuring complementarity of content and style cues. PARASOL shows promise for enabling nuanced control over visual style in diffusion models for image creation and stylization, as well as generative search where text-based search results may be adapted to more closely match user intent by interpolating both content and style descriptors.
翻訳日:2023-03-28 23:56:02 公開日:2023-03-27
# 対交換相互作用による絡み合いの広がり

Spreading entanglement through pairwise exchange interactions ( http://arxiv.org/abs/2303.10197v2 )

ライセンス: Link先を確認
L. Theerthagiri, R. Ganesh(参考訳) 絡み合いの広がりは大きな関心事である。 これは量子状態合成に特に関係しており、初期直積状態が高度に絡み合ったターゲット状態に変換されることが求められている。 対交換相互作用に基づくデバイスでは、このようなプロセスは様々な方法で実行および最適化することができる。 ベンチマーク問題として、n$2レベル原子またはキュービットに1つの励起を拡散するタスクを考察する。 1つの量子ビットが励起された初期状態から始まり、全ての量子ビットが同じ励起振幅(一般化W状態)を持つターゲット状態を求める。 このターゲットは、適切に選択された対交換相互作用によって到達される。 例えば、任意の一対のキュービットを制御可能な期間にわたって近接させることができるようなセットアップがあるかもしれません。 この課題を達成するための3つのプロトコルについて述べる。 第一に、1つの原子は、他の全ての原子と順次相互作用する飛行量子ビットとして機能する。 第二に、キュービットは順番にペアで相互作用する。 この2つの場合、必要な相互作用時間は、エレガントな幾何学的解釈を持つパターンに従う。 これは2千年以上にわたって知られていたテオドロスの渦巻き内の角度に対応している。 第3のプロトコルは分割と分割のアプローチに従い、各ステップで2つのキュービットを等しく分割する。 大きな$n$の場合、flying-qubitプロトコルは$\sqrt{n}$でスケールする完全なインタラクション時間を与え、シーケンシャルなアプローチは$n$で線形にスケールする。 分割・対数アプローチでは、時間は、$\log N$ というスケールの低い境界を持つ。 このようなプロトコルでは、最終状態の位相差は独立に制御できないことが示される。 例えば、w状態(全ての位相が等しい)は対交換によっては生成できない。

The spread of entanglement is a problem of great interest. It is particularly relevant to quantum state synthesis, where an initial direct-product state is sought to be converted into a highly entangled target state. In devices based on pairwise exchange interactions, such a process can be carried out and optimized in various ways. As a benchmark problem, we consider the task of spreading one excitation among $N$ two-level atoms or qubits. Starting from an initial state where one qubit is excited, we seek a target state where all qubits have the same excitation-amplitude -- a generalized-W state. This target is to be reached by suitably chosen pairwise exchange interactions. For example, we may have a a setup where any pair of qubits can be brought into proximity for a controllable period of time. We describe three protocols that accomplish this task, each with $N-1$ tightly-constrained steps. In the first, one atom acts as a flying qubit that sequentially interacts with all others. In the second, qubits interact pairwise in sequential order. In these two cases, the required interaction times follow a pattern with an elegant geometric interpretation. They correspond to angles within the spiral of Theodorus -- a construction known for more than two millennia. The third protocol follows a divide-and-conquer approach -- dividing equally between two qubits at each step. For large $N$, the flying-qubit protocol yields a total interaction time that scales as $\sqrt{N}$, while the sequential approach scales linearly with $ N$. For the divide-and-conquer approach, the time has a lower bound that scales as $\log N$. With any such protocol, we show that the phase differences in the final state cannot be independently controlled. For instance, a W-state (where all phases are equal) cannot be generated by pairwise exchange.
翻訳日:2023-03-28 23:49:13 公開日:2023-03-27
# IRGen:画像検索のための生成モデリング

IRGen: Generative Modeling for Image Retrieval ( http://arxiv.org/abs/2303.10126v2 )

ライセンス: Link先を確認
Yidan Zhang, Ting Zhang, Dong Chen, Yujing Wang, Qi Chen, Xing Xie, Hao Sun, Weiwei Deng, Qi Zhang, Fan Yang, Mao Yang, Qingmin Liao, Baining Guo(参考訳) 生成的モデリングは自然言語処理やコンピュータビジョンにおいてユビキタスであるが、画像検索への応用は未検討である。 本稿では,シーケンス・ツー・シーケンスモデルを用いて画像検索を生成モデルの一形態として再キャストし,現在の統一テーマに寄与する。 我々のフレームワークIRGenは、エンドツーエンドの微分検索を可能にする統一モデルであり、直接最適化により優れた性能を実現する。 IRGenの開発中、画像の極めて短いセマンティックな配列に変換するという重要な技術的課題に取り組み、効率的かつ効果的な検索を可能にする。 実証実験により,本モデルが一般的に使用される3つのベンチマーク,例えばre recall@10スコアのin-shopデータセットにおけるprecision@10の最高基準法よりも22.9\%高い値が得られることを示した。

While generative modeling has been ubiquitous in natural language processing and computer vision, its application to image retrieval remains unexplored. In this paper, we recast image retrieval as a form of generative modeling by employing a sequence-to-sequence model, contributing to the current unified theme. Our framework, IRGen, is a unified model that enables end-to-end differentiable search, thus achieving superior performance thanks to direct optimization. While developing IRGen we tackle the key technical challenge of converting an image into quite a short sequence of semantic units in order to enable efficient and effective retrieval. Empirical experiments demonstrate that our model yields significant improvement over three commonly used benchmarks, for example, 22.9\% higher than the best baseline method in precision@10 on In-shop dataset with comparable recall@10 score.
翻訳日:2023-03-28 23:48:47 公開日:2023-03-27
# $p+$:テキストから画像へのコンディショニングの拡張

$P+$: Extended Textual Conditioning in Text-to-Image Generation ( http://arxiv.org/abs/2303.09522v2 )

ライセンス: Link先を確認
Andrey Voynov, Qinghao Chu, Daniel Cohen-Or, Kfir Aberman(参考訳) テキストから画像への拡張テキスト条件空間($P+$)を導入する。 この空間は層間プロンプトから導かれる複数のテキスト条件で構成され、それぞれ拡散モデルのデノイングUネットの層に対応する。 拡張空間は画像合成の非結合性と制御性が向上することを示す。 さらに、拡張テキスト変換(XTI)を導入し、画像は$P+$に変換され、層単位のトークンで表現される。 XTI は表現的かつ正確であり,元の Textual Inversion (TI) 空間よりも高速に収束することを示す。 拡張反転法は、再構成と編集可能性の間の明らかなトレードオフを含まず、より規則的な反転を引き起こす。 テキスト・ツー・イメージ・モデルのパーソナライズのための手法の有効性を実証するため,新しい空間の特性を分析し,理解するための広範囲な実験を行った。 さらに、この空間のユニークな特性を利用して、テキストから画像へのモデルを用いたオブジェクトスタイルの混合において、これまで達成できなかった結果を得る。 プロジェクトページ: https://prompt-plus.github.io

We introduce an Extended Textual Conditioning space in text-to-image models, referred to as $P+$. This space consists of multiple textual conditions, derived from per-layer prompts, each corresponding to a layer of the denoising U-net of the diffusion model. We show that the extended space provides greater disentangling and control over image synthesis. We further introduce Extended Textual Inversion (XTI), where the images are inverted into $P+$, and represented by per-layer tokens. We show that XTI is more expressive and precise, and converges faster than the original Textual Inversion (TI) space. The extended inversion method does not involve any noticeable trade-off between reconstruction and editability and induces more regular inversions. We conduct a series of extensive experiments to analyze and understand the properties of the new space, and to showcase the effectiveness of our method for personalizing text-to-image models. Furthermore, we utilize the unique properties of this space to achieve previously unattainable results in object-style mixing using text-to-image models. Project page: https://prompt-plus.github.io
翻訳日:2023-03-28 23:48:32 公開日:2023-03-27
# コンセンサスによる敵対的ロバストな協調的認識

Among Us: Adversarially Robust Collaborative Perception by Consensus ( http://arxiv.org/abs/2303.09495v2 )

ライセンス: Link先を確認
Yiming Li and Qi Fang and Jiamu Bai and Siheng Chen and Felix Juefei-Xu and Chen Feng(参考訳) 複数のロボットは(例えば物体を検知するなど)シーンを個人よりも協調的に知覚できるが、深層学習では敵の攻撃に苦しむ。 これは敵の防御によって対処できるが、その訓練にはよく知られていない攻撃機構が必要である。 異なる方法として、未確認攻撃者に一般化可能なサンプリングベース防衛戦略であるROBOSACを提案する。 私たちのキーとなる考え方は、協調的な知覚は、個々の知覚よりも結果に不満を抱くよりも、コンセンサスにつながるべきだ、ということです。 知覚の結果は、チームメートのランダムなサブセットとのコラボレーションの有無に関わらず、コンセンサスに達するまで比較されます。 そのようなフレームワークでは、サンプリングされたサブセット内の多くのチームメイトは、しばしばより良い知覚性能を伴うが、潜在的な攻撃を拒否するには、より長いサンプリング時間を必要とする。 したがって、攻撃者フリーのサブセットの所望のサイズを保証するためにどれだけのサンプリング試行が必要か、または、そのサブセットの最大サイズが、所定の数回の試行でうまくサンプリングできるかを導出する。 自律走行シナリオにおける協調的3次元物体検出の課題について,提案手法を検証する。

Multiple robots could perceive a scene (e.g., detect objects) collaboratively better than individuals, although easily suffer from adversarial attacks when using deep learning. This could be addressed by the adversarial defense, but its training requires the often-unknown attacking mechanism. Differently, we propose ROBOSAC, a novel sampling-based defense strategy generalizable to unseen attackers. Our key idea is that collaborative perception should lead to consensus rather than dissensus in results compared to individual perception. This leads to our hypothesize-and-verify framework: perception results with and without collaboration from a random subset of teammates are compared until reaching a consensus. In such a framework, more teammates in the sampled subset often entail better perception performance but require longer sampling time to reject potential attackers. Thus, we derive how many sampling trials are needed to ensure the desired size of an attacker-free subset, or equivalently, the maximum size of such a subset that we can successfully sample within a given number of trials. We validate our method on the task of collaborative 3D object detection in autonomous driving scenarios.
翻訳日:2023-03-28 23:48:14 公開日:2023-03-27
# 確率補間体:流れと拡散の統一的枠組み

Stochastic Interpolants: A Unifying Framework for Flows and Diffusions ( http://arxiv.org/abs/2303.08797v2 )

ライセンス: Link先を確認
Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden(参考訳) フローベースおよび拡散ベースを統一する生成モデルのクラスを紹介する。 これらのモデルは、Albergo & Vanden-Eijnden (2023) で提案されたフレームワークを拡張し、任意の確率密度関数を正確に有限時間でブリッジするために 'stochastic interpolants' と呼ばれる幅広い時間確率過程のクラスを使用できる。 これらの補間体は、2つの所定の密度のデータと、橋を柔軟に形作る追加の潜在変数を組み合わせることで構築される。 確率補間子の時間依存性の確率密度関数は、一階輸送方程式と、調整可能な拡散を伴うフォッカー・プランク方程式の族を満たすことが示されている。 個々のサンプルの時間的進化を考慮すると、この視点はすぐに、確率フロー方程式に基づく決定論的および確率的生成モデルと、調整可能なノイズレベルを持つ確率微分方程式の両方をもたらす。 これらのモデルに入るドリフト係数は、単純な二次目的関数のユニークな最小値として特徴づけられる時間依存速度場であり、補間密度のスコアの新しい目的である。 驚くべきことに、これらの二次目的の最小化は、確率力学に基づいて構築された任意の生成モデルの可能性を制御する。 対照的に、決定論的ダイナミクスに基づく生成モデルは、さらに、ターゲットとモデルの間のフィッシャーの発散を制御する必要がある。 また, 補間系生成モデルの確率とクロスエントロピーを推定し, 他の確率的橋との接続を議論し, それらのモデルが補間体を明示的に最適化する場合に, 二つの対象密度間のシュル=オディンガー橋を復元することを示す。

A class of generative models that unifies flow-based and diffusion-based methods is introduced. These models extend the framework proposed in Albergo & Vanden-Eijnden (2023), enabling the use of a broad class of continuous-time stochastic processes called `stochastic interpolants' to bridge any two arbitrary probability density functions exactly in finite time. These interpolants are built by combining data from the two prescribed densities with an additional latent variable that shapes the bridge in a flexible way. The time-dependent probability density function of the stochastic interpolant is shown to satisfy a first-order transport equation as well as a family of forward and backward Fokker-Planck equations with tunable diffusion. Upon consideration of the time evolution of an individual sample, this viewpoint immediately leads to both deterministic and stochastic generative models based on probability flow equations or stochastic differential equations with an adjustable level of noise. The drift coefficients entering these models are time-dependent velocity fields characterized as the unique minimizers of simple quadratic objective functions, one of which is a new objective for the score of the interpolant density. Remarkably, we show that minimization of these quadratic objectives leads to control of the likelihood for any of our generative models built upon stochastic dynamics. By contrast, we establish that generative models based upon a deterministic dynamics must, in addition, control the Fisher divergence between the target and the model. We also construct estimators for the likelihood and the cross-entropy of interpolant-based generative models, discuss connections with other stochastic bridges, and demonstrate that such models recover the Schr\"odinger bridge between the two target densities when explicitly optimizing over the interpolant.
翻訳日:2023-03-28 23:47:31 公開日:2023-03-27
# gpt-4技術報告

GPT-4 Technical Report ( http://arxiv.org/abs/2303.08774v3 )

ライセンス: Link先を確認
OpenAI(参考訳) 本稿では,画像とテキストの入力を受け付け,テキスト出力を生成する大規模マルチモーダルモデルgpt-4の開発について報告する。 多くの実世界のシナリオでは人間よりも能力は低いが、GPT-4は様々な専門的、学術的なベンチマークで人間レベルのパフォーマンスを示しており、試験受験者の上位10%のスコアで模擬試験に合格している。 GPT-4は、文書内の次のトークンを予測するために事前訓練されたトランスフォーマーベースのモデルである。 トレーニング後のアライメントプロセスは,実効性と所望の行動への順応性の向上をもたらす。 このプロジェクトのコアコンポーネントは、幅広いスケールで予測可能な振る舞いをするインフラストラクチャと最適化手法の開発だった。 これにより、GPT-4の1/1000分の1以下のモデルに基づいて、GPT-4の性能のいくつかの側面を正確に予測できる。

We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers. GPT-4 is a Transformer-based model pre-trained to predict the next token in a document. The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior. A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4's performance based on models trained with no more than 1/1,000th the compute of GPT-4.
翻訳日:2023-03-28 23:47:04 公開日:2023-03-27
# 量子コンピューティングに基づく化学反応ダイナミクスのシミュレーション

Simulation of chemical reaction dynamics based on quantum computing ( http://arxiv.org/abs/2303.08571v2 )

ライセンス: Link先を確認
Qiankun Gong, Qingmin Man, Ye Li, Menghan Dou, Qingchun Wang, Yu-Chun Wu, Guo-Ping Guo(参考訳) 化学系の分子エネルギーは量子コンピュータ上での計算に成功しているが、化学反応の動的過程、特に触媒設計における物質合成により多くの注意が払われている。 ノイズの多い中間スケール量子(NISQ)デバイスの能力が限られているため、反応力学を直接シミュレートし、反応経路を決定することは依然として課題である。 本稿では,相関サンプリング法を拡張して反応ダイナミクスをシミュレートする量子計算に基づくab initio分子動力学を開発した。 そして,この手法を用いてヘッセン行列を計算し,計算資源を評価する。 水素交換反応と二分子求核置換sn2反応をシミュレートし, このアプローチの性能を検証した。 この結果から,量子コンピューティング応用の重要な拡張である分子構造,性質,反応性を特徴付けることは信頼性が高いことが示唆された。

The molecular energies of chemical systems have been successfully calculated on quantum computers, however, more attention has been paid to the dynamic process of chemical reactions in practical application, especially in catalyst design, material synthesis. Due to the limited the capabilities of the noisy intermediate scale quantum (NISQ) devices, directly simulating the reaction dynamics and determining reaction pathway still remain a challenge. Here we develop the ab initio molecular dynamics based on quantum computing to simulate reaction dynamics by extending correlated sampling approach. And, we use this approach to calculate Hessian matrix and evaluate computation resources. We test the performance of our approach by simulating hydrogen exchange reaction and bimolecular nucleophilic substitution SN2 reaction. Our results suggest that it is reliable to characterize the molecular structure, property, and reactivity, which is another important expansion of the application of quantum computing
翻訳日:2023-03-28 23:46:52 公開日:2023-03-27
# 複素数値ニューラルネットワークを用いた物理インフォームド光カーネル回帰

Physics-Informed Optical Kernel Regression Using Complex-valued Neural Fields ( http://arxiv.org/abs/2303.08435v2 )

ライセンス: Link先を確認
Guojin Chen, Zehua Pei, Haoyu Yang, Yuzhe Ma, Bei Yu, Martin D. F. Wong(参考訳) リソグラフィーは集積回路製造の基本であり、大きな計算オーバーヘッドを必要とする。 機械学習(ML)ベースのリソグラフィーモデルの進歩は、製造プロセスの費用と能力の間のトレードオフを軽減する。 しかし、以前の手法はすべてリソグラフィシステムを画像対画像のブラックボックスマッピングとして捉えており、ネットワークパラメータを利用して大量のマスク対aerialまたはマスク対resist画像ペアからのロートマッピングを学習し、一般化能力に乏しい。 本稿では,厳密なリソグラフィモデルを非パラメトリックマスク操作に分解し,決定要因,瞳孔,リソグラフィ情報を含む光カーネルを学習するMLベースの新しいパラダイムを提案する。 複雑な値のニューラルネットワークを最適化し、座標から光学核回帰を行うことにより、より少ないパラメータの小規模トレーニングデータセットを用いてリソグラフィシステムを高精度に復元し、優れた一般化能力を示す。 実験によると、我々のフレームワークはパラメータの31%を使うことができるが、69$\times$は平均2乗誤差が1.3$\times$は最先端のスループットよりも小さい。

Lithography is fundamental to integrated circuit fabrication, necessitating large computation overhead. The advancement of machine learning (ML)-based lithography models alleviates the trade-offs between manufacturing process expense and capability. However, all previous methods regard the lithography system as an image-to-image black box mapping, utilizing network parameters to learn by rote mappings from massive mask-to-aerial or mask-to-resist image pairs, resulting in poor generalization capability. In this paper, we propose a new ML-based paradigm disassembling the rigorous lithographic model into non-parametric mask operations and learned optical kernels containing determinant source, pupil, and lithography information. By optimizing complex-valued neural fields to perform optical kernel regression from coordinates, our method can accurately restore lithography system using a small-scale training dataset with fewer parameters, demonstrating superior generalization capability as well. Experiments show that our framework can use 31% of parameters while achieving 69$\times$ smaller mean squared error with 1.3$\times$ higher throughput than the state-of-the-art.
翻訳日:2023-03-28 23:46:38 公開日:2023-03-27
# ヌル状態を持つダイソン・シュウィンガー方程式の改定

Taming Dyson-Schwinger equations with null states ( http://arxiv.org/abs/2303.10978v2 )

ライセンス: Link先を確認
Wenliang Li(参考訳) 量子場理論において、ダイソン・シュウィンガー方程式(英: dyson-schwinger equation)は、自己整合性のある方法で、n$-point green 関数に関連する結合方程式の無限集合である。 彼らは、量子色力学やハドロン物理学から強い相関電子系まで、非摂動研究において重要な応用を見出した。 しかし、それらは解決するのが非常に難しい。 主な問題の1つは、無限系の有限切断が過小評価されていることである。 最近では、benderらも参加している。 [prl 130, 101602 (2023)] は、大きな n$ 漸近的な挙動を利用するように提案し、d=0$ の時空で正確な結果を得ることに成功した。 高い$d$では、大きな$n$の振る舞いを推測するのがより難しくなります。 本稿では、nullブートストラップに照らして別の経路を提案する。 未決定システムは、null状態条件を付与することで解決される。 このアプローチは、より簡単に$d>0$に拡張できる。 具体例として、$D=0$ と $D=1$ の場合には、複素解を含む $g\phi^n$ 型のエルミート理論および非エルミート理論の正確な結果に実際に収束することを示す。

In quantum field theory, the Dyson-Schwinger equations are an infinite set of coupled equations relating $n$-point Green's functions in a self-consistent manner. They have found important applications in non-perturbative studies, ranging from quantum chromodynamics and hadron physics to strongly correlated electron systems. However, they are notoriously formidable to solve. One of the main problems is that a finite truncation of the infinite system is underdetermined. Recently, Bender et al. [PRL 130, 101602 (2023)] proposed to make use of the large-$n$ asymptotic behaviors and successfully obtained accurate results in $D=0$ spacetime. At higher $D$, it seems more difficult to deduce the large-$n$ behaviors. In this paper, we propose another avenue in light of the null bootstrap. The underdetermined system is solved by imposing the null state condition. This approach can be extended to $D>0$ more readily. As concrete examples, we show that the cases of $D=0$ and $D=1$ indeed converge to the exact results for several Hermitian and non-Hermitian theories of the $g\phi^n$ type, including the complex solutions.
翻訳日:2023-03-28 23:38:43 公開日:2023-03-27
# 見ることなく回転する:タッチによるデクスタリティを目指して

Rotating without Seeing: Towards In-hand Dexterity through Touch ( http://arxiv.org/abs/2303.10880v4 )

ライセンス: Link先を確認
Zhao-Heng Yin, Binghao Huang, Yuzhe Qin, Qifeng Chen, Xiaolong Wang(参考訳) 触覚情報は人間の器用さにおいて重要な役割を果たす。 これは視覚から直接推測できない有用な接触情報を明らかにする。 実際、人間は視覚を使わずに手作業で操作することも可能である。 マルチフィンガーロボットでも同じ機能を実現できるだろうか? 本稿では,物体を目にせずに触りながら物体の回転を行うシステムであるtouch dexterityを提案する。 ロボットハンドの片側(手のひら、指のリンク、指先)を重ねて、密集した二分力センサー(タッチか無タッチか)を用いた新しいシステムデザインを導入する。 このような設計は低コストであり、オブジェクトのカバー範囲を大きくし、同時にsim2realギャップを最小化する。 シミュレーションにおいて多種多様な物体に対する強化学習を用いて手動回転ポリシーを訓練する。 タッチのみのセンシングに頼ることで、実際のロボットハンドにポリシーを直接配置し、トレーニングで提示されない新しいオブジェクトを回転させることができる。 我々のプロジェクトはhttps://touchdexterity.github.io.comで公開されている。

Tactile information plays a critical role in human dexterity. It reveals useful contact information that may not be inferred directly from vision. In fact, humans can even perform in-hand dexterous manipulation without using vision. Can we enable the same ability for the multi-finger robot hand? In this paper, we present Touch Dexterity, a new system that can perform in-hand object rotation using only touching without seeing the object. Instead of relying on precise tactile sensing in a small region, we introduce a new system design using dense binary force sensors (touch or no touch) overlaying one side of the whole robot hand (palm, finger links, fingertips). Such a design is low-cost, giving a larger coverage of the object, and minimizing the Sim2Real gap at the same time. We train an in-hand rotation policy using Reinforcement Learning on diverse objects in simulation. Relying on touch-only sensing, we can directly deploy the policy in a real robot hand and rotate novel objects that are not presented in training. Extensive ablations are performed on how tactile information help in-hand manipulation.Our project is available at https://touchdexterity.github.io.
翻訳日:2023-03-28 23:38:09 公開日:2023-03-27
# EqMotion: 不変相互作用推論を用いた等変マルチエージェント動作予測

EqMotion: Equivariant Multi-agent Motion Prediction with Invariant Interaction Reasoning ( http://arxiv.org/abs/2303.10876v2 )

ライセンス: Link先を確認
Chenxin Xu, Robby T. Tan, Yuhong Tan, Siheng Chen, Yu Guang Wang, Xinchao Wang, Yanfeng Wang(参考訳) 多くのアプリケーションにおいて,関係推論によるエージェント動作の予測が重要である。 運動予測タスクでは、ユークリッド幾何変換の下での運動同分散とエージェント相互作用の不変性は、決定的かつ基本的な原理である。 しかし、そのような等分散性と不変性は、既存のほとんどの方法によって見過ごされている。 このギャップを埋めるために、不変相互作用推論を持つ効率的な同変運動予測モデルであるEqMotionを提案する。 運動同値化を実現するため,同変演算の専用設計によりユークリッド変換可能な特徴を学習するための等変幾何学的特徴学習モジュールを提案する。 エージェントの相互作用を推論するために,より安定した相互作用モデリングを実現するための不変相互作用推論モジュールを提案する。 さらに,より包括的動作機能を促進するために,不変パターン特徴を学習するための不変パターン特徴学習モジュールを提案し,同変幾何特徴と協調してネットワーク表現性を高める。 提案モデルに対して,粒子動力学,分子動力学,人体骨格運動予測,歩行者軌道予測の4つの異なるシナリオで実験を行った。 実験の結果,本手法は一般に適用できるだけでなく,4つのタスクすべてにおいて最先端の予測性能を実現し,24.0/30.1/8.6/9.2%向上した。 コードはhttps://github.com/MediaBrain-SJTU/EqMotion.comで入手できる。

Learning to predict agent motions with relationship reasoning is important for many applications. In motion prediction tasks, maintaining motion equivariance under Euclidean geometric transformations and invariance of agent interaction is a critical and fundamental principle. However, such equivariance and invariance properties are overlooked by most existing methods. To fill this gap, we propose EqMotion, an efficient equivariant motion prediction model with invariant interaction reasoning. To achieve motion equivariance, we propose an equivariant geometric feature learning module to learn a Euclidean transformable feature through dedicated designs of equivariant operations. To reason agent's interactions, we propose an invariant interaction reasoning module to achieve a more stable interaction modeling. To further promote more comprehensive motion features, we propose an invariant pattern feature learning module to learn an invariant pattern feature, which cooperates with the equivariant geometric feature to enhance network expressiveness. We conduct experiments for the proposed model on four distinct scenarios: particle dynamics, molecule dynamics, human skeleton motion prediction and pedestrian trajectory prediction. Experimental results show that our method is not only generally applicable, but also achieves state-of-the-art prediction performances on all the four tasks, improving by 24.0/30.1/8.6/9.2%. Code is available at https://github.com/MediaBrain-SJTU/EqMotion.
翻訳日:2023-03-28 23:37:51 公開日:2023-03-27
# 橋渡し型審議民主主義と社会規模の技術の展開

Bridging Deliberative Democracy and Deployment of Societal-Scale Technology ( http://arxiv.org/abs/2303.10831v2 )

ライセンス: Link先を確認
Ned Cooper(参考訳) 本稿では,人間-コンピュータインタラクション(HCI)コミュニティにおいて,大規模言語モデル(LLM)のための技術と政策設計を情報提供・コーディネートするための検討プロセスの設計に重点を置くことを推奨する。 まず,社会規模の技術の定義を提案し,LLMをその定義内に配置する。 次に、LLMの安全性を確保するための既存のプロセスは不十分であり、制度の民主的正当性を与えていないと論じる。 代わりに、アウトプットとデプロイメントコンテキストの安全性に関する質問に対して、ユーザや他の利害関係者間の審議のプロセスが必要です。 このaiの安全研究と実践のシフトは、審議の成果を技術開発プロセスに翻訳するために、審議の実施方法とインターフェースと技術特徴の設計を決定する企業と公共の政策の設計を必要とする。 結論として,HCI コミュニティが LLM 等の社会規模技術に対して,検討プロセスが技術や政策設計に情報を伝達することを保証する役割について提案する。

This position paper encourages the Human-Computer Interaction (HCI) community to focus on designing deliberative processes to inform and coordinate technology and policy design for large language models (LLMs) -- a `societal-scale technology'. First, I propose a definition for societal-scale technology and locate LLMs within this definition. Next, I argue that existing processes to ensure the safety of LLMs are insufficient and do not give the systems democratic legitimacy. Instead, we require processes of deliberation amongst users and other stakeholders on questions about the safety of outputs and deployment contexts. This shift in AI safety research and practice will require the design of corporate and public policies that determine how to enact deliberation and the design of interfaces and technical features to translate the outcomes of deliberation into technical development processes. To conclude, I propose roles for the HCI community to ensure deliberative processes inform technology and policy design for LLMs and other societal-scale technology.
翻訳日:2023-03-28 23:37:27 公開日:2023-03-27
# 顔行動単位検出のための時空間AU関係グラフ表現学習

Spatio-Temporal AU Relational Graph Representation Learning For Facial Action Units Detection ( http://arxiv.org/abs/2303.10644v2 )

ライセンス: Link先を確認
Zihan Wang, Siyang Song, Cheng Luo, Yuzhi Zhou, Shiling Wu, Weicheng Xie, Linlin Shen(参考訳) 本稿では,第5回ABAW(Affective Behavior Analysis in-the-wild Competition)へのAU(Facial Action Units)認定申請について述べる。 私たちのアプローチは3つの主要なモジュールで構成されています。 (i)入力シーケンスの各入力顔画像から強い顔表現を生成する予め訓練された顔表現エンコーダ (ii)顔表現からAU特徴の集合を特に学習するAU特有特徴生成装置、及び (iii)時空間グラフ表現を構成する時空間グラフ学習モジュール。 このグラフ表現は、すべてのフレームに含まれるAUを記述し、対応する顔内のモデル化された空間情報とフレーム間の学習時間ダイナミクスの両方に基づいて、各AUの発生を予測する。 実験の結果,提案手法がベースラインを上回り,時空間グラフ表現学習により,すべてのアブレーションシステムにおいて最良結果を生成することができた。 私たちのモデルは、第5回ABAWコンペティションのAU認識トラックで4位です。

This paper presents our Facial Action Units (AUs) recognition submission to the fifth Affective Behavior Analysis in-the-wild Competition (ABAW). Our approach consists of three main modules: (i) a pre-trained facial representation encoder which produce a strong facial representation from each input face image in the input sequence; (ii) an AU-specific feature generator that specifically learns a set of AU features from each facial representation; and (iii) a spatio-temporal graph learning module that constructs a spatio-temporal graph representation. This graph representation describes AUs contained in all frames and predicts the occurrence of each AU based on both the modeled spatial information within the corresponding face and the learned temporal dynamics among frames. The experimental results show that our approach outperformed the baseline and the spatio-temporal graph representation learning allows our model to generate the best results among all ablated systems. Our model ranks at the 4th place in the AU recognition track at the 5th ABAW Competition.
翻訳日:2023-03-28 23:36:50 公開日:2023-03-27
# オープン世界のすべてを検知する:Universal Object Detectionを目指して

Detecting Everything in the Open World: Towards Universal Object Detection ( http://arxiv.org/abs/2303.11749v2 )

ライセンス: Link先を確認
Zhenyu Wang, Yali Li, Xi Chen, Ser-Nam Lim, Antonio Torralba, Hengshuang Zhao, Shengjin Wang(参考訳) 本稿では,すべてのシーンを検出し,すべてのカテゴリを予測することを目的としたユニバーサルオブジェクト検出を正式に取り上げる。 人間のアノテーション、限られた視覚情報、オープンワールドにおける新しいカテゴリーへの依存は、従来の検出器の普遍性を厳しく制限する。 オープン世界に巨大なカテゴリを認識できるユニバーサルオブジェクト検出器であるunidetectorを提案する。 UniDetector の普遍性の臨界点は次のとおりである。 1)複数ソースおよび異種ラベル空間の画像を利用して画像とテキスト空間のアライメントを訓練し、普遍表現に十分な情報を保証する。 2)視覚と言語のモダリティの両方から豊富な情報を得て,目に見えるクラスと見えないクラスのバランスを保ちながら,オープンワールドに容易に一般化する。 3) 提案手法と確率校正により, 新たなカテゴリーの一般化能力をさらに向上させる。 これらの貢献により、UniDetectorは、これまでで最大の測定可能なカテゴリサイズである7k以上のカテゴリを検出できる。 当社のUniDetectorは、LVIS、ImageNetBoxes、VisualGenomeのような大語彙データセット上で、ゼロショットの強力な一般化機能を動作します。 さまざまなシーンを持つ13の公開検出データセットでは、UniDetectorは、トレーニングデータのわずか35%で最先端のパフォーマンスも達成している。

In this paper, we formally address universal object detection, which aims to detect every scene and predict every category. The dependence on human annotations, the limited visual information, and the novel categories in the open world severely restrict the universality of traditional detectors. We propose UniDetector, a universal object detector that has the ability to recognize enormous categories in the open world. The critical points for the universality of UniDetector are: 1) it leverages images of multiple sources and heterogeneous label spaces for training through the alignment of image and text spaces, which guarantees sufficient information for universal representations. 2) it generalizes to the open world easily while keeping the balance between seen and unseen classes, thanks to abundant information from both vision and language modalities. 3) it further promotes the generalization ability to novel categories through our proposed decoupling training manner and probability calibration. These contributions allow UniDetector to detect over 7k categories, the largest measurable category size so far, with only about 500 classes participating in training. Our UniDetector behaves the strong zero-shot generalization ability on large-vocabulary datasets like LVIS, ImageNetBoxes, and VisualGenome - it surpasses the traditional supervised baselines by more than 4\% on average without seeing any corresponding images. On 13 public detection datasets with various scenes, UniDetector also achieves state-of-the-art performance with only a 3\% amount of training data.
翻訳日:2023-03-28 23:31:17 公開日:2023-03-27
# 仮想マーカーによる3次元メッシュ推定

3D Human Mesh Estimation from Virtual Markers ( http://arxiv.org/abs/2303.11726v2 )

ライセンス: Link先を確認
Xiaoxuan Ma, Jiajun Su, Chunyu Wang, Wentao Zhu, Yizhou Wang(参考訳) 体積的3次元ポーズ推定の成功に触発されて、最近のヒトメッシュ推定者は、3次元の骨格を中間表現として推定することを提案している。 しかし、体型情報は骨格の抽出によって失われ、平凡なパフォーマンスに繋がる。 高度なモーションキャプチャシステムは、体表面に密集した物理的マーカーを配置することで、その非剛性運動から現実的なメッシュを抽出することで問題を解決している。 しかし、マーカーなしでは野生の画像には適用できない。 本研究では,大規模mocapデータに基づいて体表面の64個のランドマークキーポイントを生成的に学習し,物理的マーカーの効果を模倣した中間表現であるvirtual markersを提案する。 仮想マーカーは野生の画像から正確に検出することができ、単純な補間によって現実的な形状で無傷メッシュを再構築することができる。 提案手法は3つのデータセット上で最先端の手法より優れている。 特に、様々な身体形状を持つSURREALデータセットにおいて、既存の手法を顕著な差で上回っている。 コードはhttps://github.com/ShirleyMaxx/VirtualMarker.comで入手できる。

Inspired by the success of volumetric 3D pose estimation, some recent human mesh estimators propose to estimate 3D skeletons as intermediate representations, from which, the dense 3D meshes are regressed by exploiting the mesh topology. However, body shape information is lost in extracting skeletons, leading to mediocre performance. The advanced motion capture systems solve the problem by placing dense physical markers on the body surface, which allows to extract realistic meshes from their non-rigid motions. However, they cannot be applied to wild images without markers. In this work, we present an intermediate representation, named virtual markers, which learns 64 landmark keypoints on the body surface based on the large-scale mocap data in a generative style, mimicking the effects of physical markers. The virtual markers can be accurately detected from wild images and can reconstruct the intact meshes with realistic shapes by simple interpolation. Our approach outperforms the state-of-the-art methods on three datasets. In particular, it surpasses the existing methods by a notable margin on the SURREAL dataset, which has diverse body shapes. Code is available at https://github.com/ShirleyMaxx/VirtualMarker.
翻訳日:2023-03-28 23:30:33 公開日:2023-03-27
# 偏微分方程式に対する特徴適応多要素物理インフォームド機械学習

Feature-adjacent multi-fidelity physics-informed machine learning for partial differential equations ( http://arxiv.org/abs/2303.11577v3 )

ライセンス: Link先を確認
Wenqian Chen, Panos Stinis(参考訳) 物理インフォームドニューラルネットワークは偏微分方程式の解法として登場した。 しかし、複雑な問題に対して、そのようなネットワークのトレーニングには高忠実度データが必要である。 高忠実度データへの依存を低減または排除するために,低忠実度および高忠実度ソリューションで共有される特徴空間に基づく新しい多忠実度アーキテクチャを提案する。 特徴空間では、その相対距離を制限して、低忠実度および高忠実度解の射影が隣接している。 特徴空間はエンコーダで表現され、元の解空間へのマッピングはデコーダを介して実行される。 偏微分方程式によって記述される定常および非定常問題の前方および逆問題に対して,提案手法が検証されている。

Physics-informed neural networks have emerged as an alternative method for solving partial differential equations. However, for complex problems, the training of such networks can still require high-fidelity data which can be expensive to generate. To reduce or even eliminate the dependency on high-fidelity data, we propose a novel multi-fidelity architecture which is based on a feature space shared by the low- and high-fidelity solutions. In the feature space, the projections of the low-fidelity and high-fidelity solutions are adjacent by constraining their relative distance. The feature space is represented with an encoder and its mapping to the original solution space is effected through a decoder. The proposed multi-fidelity approach is validated on forward and inverse problems for steady and unsteady problems described by partial differential equations.
翻訳日:2023-03-28 23:29:50 公開日:2023-03-27
# メモリ効率の良い双方向変換器を用いた長ビデオのエンドツーエンド生成モデル

Towards End-to-End Generative Modeling of Long Videos with Memory-Efficient Bidirectional Transformers ( http://arxiv.org/abs/2303.11251v2 )

ライセンス: Link先を確認
Jaehoon Yoo, Semin Kim, Doyup Lee, Chiheon Kim, Seunghoon Hong(参考訳) 自己回帰トランスフォーマーはビデオ生成において顕著な成功を収めている。 しかしながら、トランスフォーマーは、自己注意の二次的な複雑さによるビデオの長期依存性を直接学習することは禁止され、本質的には自己回帰プロセスによる推論時間とエラーの伝播が遅くなる。 本稿では,ビデオの長期依存性のエンドツーエンド学習と高速推論のためのメモリ効率2方向変換器(MeBT)を提案する。 近年の双方向変換器の進歩に基づき,部分観察パッチからビデオの時空間体積全体を並列に復号する手法を開発した。 提案したトランスフォーマーは、観測可能なコンテキストトークンを固定数の潜在トークンに投影し、マスクされたトークンをクロスアテンションで復号するように条件付けすることで、符号化と復号の両方において線形時間複雑性を実現する。 線形複雑化と双方向モデリングを応用した本手法は,画質と速度の両方で適度に長いビデオを生成するオートレグレッシブトランスフォーマーよりも大幅に向上したことを示す。 ビデオとコードはhttps://sites.google.com/view/mebt-cvpr2023で入手できる。

Autoregressive transformers have shown remarkable success in video generation. However, the transformers are prohibited from directly learning the long-term dependency in videos due to the quadratic complexity of self-attention, and inherently suffering from slow inference time and error propagation due to the autoregressive process. In this paper, we propose Memory-efficient Bidirectional Transformer (MeBT) for end-to-end learning of long-term dependency in videos and fast inference. Based on recent advances in bidirectional transformers, our method learns to decode the entire spatio-temporal volume of a video in parallel from partially observed patches. The proposed transformer achieves a linear time complexity in both encoding and decoding, by projecting observable context tokens into a fixed number of latent tokens and conditioning them to decode the masked tokens through the cross-attention. Empowered by linear complexity and bidirectional modeling, our method demonstrates significant improvement over the autoregressive Transformers for generating moderately long videos in both quality and speed. Videos and code are available at https://sites.google.com/view/mebt-cvpr2023 .
翻訳日:2023-03-28 23:27:57 公開日:2023-03-27
# 音楽駆動グループ振付

Music-Driven Group Choreography ( http://arxiv.org/abs/2303.12337v2 )

ライセンス: Link先を確認
Nhat Le, Thang Pham, Tuong Do, Erman Tjiputra, Quang D. Tran, Anh Nguyen(参考訳) 音楽駆動振付は様々な産業用途において難しい問題である。 近年,シングルダンサーのためのダンス動作を合成する手法が数多く提案されている。 しかし、グループのためのダンスモーションの生成は、まだ未解決の問題である。 本稿では,グループダンス生成のための大規模データセットである$\rm AIOZ-GDANCE$を提案する。 単一ダンスのみをサポートする既存のデータセットとは異なり、新しいデータセットにはグループダンスビデオが含まれており、グループ振付の研究をサポートする。 本研究では,人間をループに乗せた半自律的なラベリング手法を提案し,データセットの3次元基底真理を求める。 提案されたデータセットは、16.7時間のペア音楽と7つのダンススタイルと16の音楽ジャンルをカバーする3Dモーションで構成されている。 グループダンスを創り出すための単一ダンス生成手法は,不整合運動や踊り手同士の衝突など,不十分な結果をもたらす可能性がある。 そこで本研究では,入力音楽のシーケンスとダンサーの3次元位置のセットを用いて,複数のグループコヒーレントな振り付けを効率的に生成する新しい手法を提案する。 グループダンスの質を測定するための新しい評価指標を提案し,本手法の有効性を示すために集中的な実験を行う。 我々のプロジェクトは、グループダンス生成の今後の研究を促進するもので、以下で利用可能である。

Music-driven choreography is a challenging problem with a wide variety of industrial applications. Recently, many methods have been proposed to synthesize dance motions from music for a single dancer. However, generating dance motion for a group remains an open problem. In this paper, we present $\rm AIOZ-GDANCE$, a new large-scale dataset for music-driven group dance generation. Unlike existing datasets that only support single dance, our new dataset contains group dance videos, hence supporting the study of group choreography. We propose a semi-autonomous labeling method with humans in the loop to obtain the 3D ground truth for our dataset. The proposed dataset consists of 16.7 hours of paired music and 3D motion from in-the-wild videos, covering 7 dance styles and 16 music genres. We show that naively applying single dance generation technique to creating group dance motion may lead to unsatisfactory results, such as inconsistent movements and collisions between dancers. Based on our new dataset, we propose a new method that takes an input music sequence and a set of 3D positions of dancers to efficiently produce multiple group-coherent choreographies. We propose new evaluation metrics for measuring group dance quality and perform intensive experiments to demonstrate the effectiveness of our method. Our project facilitates future research on group dance generation and is available at: https://aioz-ai.github.io/AIOZ-GDANCE/
翻訳日:2023-03-28 23:22:05 公開日:2023-03-27
# 円リドバーグ状態量子シミュレータにおけるスピン-運動結合:2原子の場合

Spin-motion coupling in a circular Rydberg state quantum simulator: case of two atoms ( http://arxiv.org/abs/2303.12150v2 )

ライセンス: Link先を確認
Paul M\'ehaignerie, Cl\'ement Sayrin, Jean-Michel Raimond, Michel Brune, Guillaume Roux(参考訳) ライドバーグ原子はスピンアレイの量子シミュレーションに顕著な道具である。 円リドバーグ原子は非常に長い時間スケールでのシミュレーションへの道を開き、原子のレーザートラップと自発的放出抑制の組み合わせを用いて、閉じ込められた円形原子の連鎖に基づくxxzスピンアレイシミュレータを提案した(t.l. nguyen $\textit{et al.)。 フィス(phys)。 rev. x 8, 011032 (2018)] このようなシミュレーターは、通常の低角運動量短寿命のリドベルク原子に基づくものから外れた状態(熱化、ガラス動力学)に達する可能性がある。 約束された長期スケールでは、トラップ内の原子運動とスピンダイナミクスの不可避な結合が重要な役割を果たす可能性がある。 ここでは、調和トラップに閉じ込められた2つの相互作用する円リドベルグ原子の単純な場合におけるスピン交換と運動力学の相互作用について研究する。 時間発展は、双極子-双極子相互作用項の位置依存性が原子運動の拡張上で線形化できるときに正確に解かれる。 本稿では,シミュレータ提案の現実的パラメータを用いて,より複雑なケースで数値シミュレーションを行う。 3つの応用について論じる。 まず、現実的な実験パラメータが原子とスピンのダイナミクスが完全に絡み合う状態につながり、興味深い非古典的な運動状態が生じることを示す。 また, 他のパラメータ領域では, スピンダイナミクスはトラップ内の原子の初期温度に大きく依存し, 感度な運動温度測定法を提供することを示した。 最後に、最も重要なことは、スピンダイナミクスに対して運動が無視できる影響を及ぼすパラメータの範囲について論じる。

Rydberg atoms are remarkable tools for the quantum simulation of spin arrays. Circular Rydberg atoms open the way to simulations over very long time scales, using a combination of laser trapping of the atoms and spontaneous-emission inhibition, as shown in the proposal of a XXZ spin-array simulator based on chains of trapped circular atoms [T.L. Nguyen $\textit{et al.}$, Phys. Rev. X 8, 011032 (2018)]. Such simulators could reach regimes (thermalization, glassy dynamics) that are out of the reach of those based on ordinary, low-angular-momentum short-lived Rydberg atoms. Over the promised long time scales, the unavoidable coupling of the spin dynamics with the atomic motion in the traps may play an important role. We study here the interplay between the spin exchange and motional dynamics in the simple case of two interacting circular Rydberg atoms confined in harmonic traps. The time evolution is solved exactly when the position dependence of the dipole-dipole interaction terms can be linearized over the extension of the atomic motion. We present numerical simulations in more complex cases, using the realistic parameters of the simulator proposal. We discuss three applications. First, we show that realistic experimental parameters lead to a regime in which atomic and spin dynamics become fully entangled, generating interesting non-classical motional states. We also show that, in other parameter regions, the spin dynamics notably depends on the initial temperature of the atoms in the trap, providing a sensitive motional thermometry method. Last, and most importantly, we discuss the range of parameters in which the motion has negligible influence over the spin dynamics.
翻訳日:2023-03-28 23:20:51 公開日:2023-03-27
# 説明する: 合成顔検出モデルにおけるサリエンスに基づく説明可能性

Explain To Me: Salience-Based Explainability for Synthetic Face Detection Models ( http://arxiv.org/abs/2303.11969v2 )

ライセンス: Link先を確認
Colton Crum, Patrick Tinsley, Aidan Boyd, Jacob Piland, Christopher Sweet, Timothy Kelley, Kevin Bowyer, Adam Czajka(参考訳) 畳み込みニューラルネットワークのパフォーマンスは、過去10年間で改善を続けている。 同時に、モデル複雑性が増加するにつれて、モデル決定を説明するのがますます難しくなります。 このような説明は、人間と機械のペアリング装置の信頼性の高い操作や、多くの等精度モデルの中で「最良の」モデルを確立する必要がある場合のモデル選択に重要である。 解像度マップは、予測を行う上で重要な画像領域モデルを強調することで、モデル決定を説明する一般的な方法の1つである。 しかし、スケールでのサラエンスマップの検査は実用的ではない。 本稿では,大規模モデルにおけるモデルの振る舞いを説明するために,モデルサルジェンスを活用する5つの新しい手法を提案する。 これらの方法は (a)モデルのサリエンスマップの平均エントロピーは何か。 (b)オフオブセットサンプルを投入した場合、モデルサリエンスがどのように変化するか。 (c)モデルサリエンスが幾何学的変換にいかに密接に従っているか。 (d)独立訓練におけるモデル塩分安定度とは何か、 (e)salienceモデルがsalience誘導画像劣化にどのように反応するか。 提案手法を具体的・主題的に評価するために, 従来のクロスエントロピー損失訓練モデルと, モデル一般化性を高めるためのトレーニングにおいて, 人間のサリエンスによって指導された2種類のモデルを用いて, 合成顔検出のための一連の実験を行った。 これらの2種類のモデルの特徴は,サリエンスマップの異なる解釈可能な特性によって特徴づけられ,提案手法の正確性を評価することができる。 この論文とともに,各尺度のソースコードを提供する。

The performance of convolutional neural networks has continued to improve over the last decade. At the same time, as model complexity grows, it becomes increasingly more difficult to explain model decisions. Such explanations may be of critical importance for reliable operation of human-machine pairing setups, or for model selection when the "best" model among many equally-accurate models must be established. Saliency maps represent one popular way of explaining model decisions by highlighting image regions models deem important when making a prediction. However, examining salience maps at scale is not practical. In this paper, we propose five novel methods of leveraging model salience to explain a model behavior at scale. These methods ask: (a) what is the average entropy for a model's salience maps, (b) how does model salience change when fed out-of-set samples, (c) how closely does model salience follow geometrical transformations, (d) what is the stability of model salience across independent training runs, and (e) how does model salience react to salience-guided image degradations. To assess the proposed measures on a concrete and topical problem, we conducted a series of experiments for the task of synthetic face detection with two types of models: those trained traditionally with cross-entropy loss, and those guided by human salience when training to increase model generalizability. These two types of models are characterized by different, interpretable properties of their salience maps, which allows for the evaluation of the correctness of the proposed measures. We offer source codes for each measure along with this paper.
翻訳日:2023-03-28 23:19:30 公開日:2023-03-27
# PropagateとCalibrate:リアルタイムの非視線追跡

Propagate And Calibrate: Real-time Passive Non-line-of-sight Tracking ( http://arxiv.org/abs/2303.11791v2 )

ライセンス: Link先を確認
Yihao Wang, Zhigang Wang, Bin Zhao, Dong Wang, Mulin Chen, Xuelong Li(参考訳) 非視線追跡(NLOS)は、視界外からの物体の動きを検出する能力によって近年注目を集めている。 nlos追跡に関する以前のほとんどの作業は、例えばレーザーのようなアクティブな照明に依存しており、高いコストと精巧な実験条件に苦しめられている。 さらに、これらのテクニックは、過度に単純化された設定のため、実用には程遠い。 対照的に,リレー壁を観察することによって,目に見えない部屋を歩く人物を追跡する純粋受動的手法を提案する。 中継壁の映像の知覚不能な変化を抽出するために,時間的局所的動きの伝達源として差分フレームを導入する。 さらに,フレームレベルの粒度に動的メッセージと静的メッセージの両方を活用できるように,伝搬と校正を交互に行うPAC-Netを提案する。 提案手法を評価するため,我々は,現実的なNLOSデータセットの真空を埋める最初の動的受動NLOS追跡データセットであるNLOS-Trackを構築し,公開する。 NLOS-Trackには何千ものNLOSビデオクリップと対応する軌跡が含まれている。 実写データと合成データの両方を含んでいる。 私たちのコードとデータセットはhttps://againstentropy.github.io/nlos-track/で利用可能です。

Non-line-of-sight (NLOS) tracking has drawn increasing attention in recent years, due to its ability to detect object motion out of sight. Most previous works on NLOS tracking rely on active illumination, e.g., laser, and suffer from high cost and elaborate experimental conditions. Besides, these techniques are still far from practical application due to oversimplified settings. In contrast, we propose a purely passive method to track a person walking in an invisible room by only observing a relay wall, which is more in line with real application scenarios, e.g., security. To excavate imperceptible changes in videos of the relay wall, we introduce difference frames as an essential carrier of temporal-local motion messages. In addition, we propose PAC-Net, which consists of alternating propagation and calibration, making it capable of leveraging both dynamic and static messages on a frame-level granularity. To evaluate the proposed method, we build and publish the first dynamic passive NLOS tracking dataset, NLOS-Track, which fills the vacuum of realistic NLOS datasets. NLOS-Track contains thousands of NLOS video clips and corresponding trajectories. Both real-shot and synthetic data are included. Our codes and dataset are available at https://againstentropy.github.io/NLOS-Track/.
翻訳日:2023-03-28 23:18:44 公開日:2023-03-27
# AIの民主化 - 複数の意味、目標、方法

Democratising AI: Multiple Meanings, Goals, and Methods ( http://arxiv.org/abs/2303.12642v2 )

ライセンス: Link先を確認
Elizabeth Seger, Aviv Ovadya, Ben Garfinkel, Divya Siddarth, Allan Dafoe(参考訳) 多くの政党がAIの民主化を要求しているが、この言葉は様々な目標を指し、その追求は時折矛盾する。 本稿では,(1)AI利用の民主化,(2)AI開発の民主化,(3)AI利益の民主化,(4)AIガバナンスの民主化の4つについて論じる。 各形態の民主化を達成するための多くの目標と方法について議論する。 この論文の主な特徴は、AIの民主化は、AIアクセシビリティの改善と混同してはならない、多義的で時には矛盾する概念であるということだ。 AIの民主化、具体的な方針とトレードオフに関する生産的な議論、という曖昧なコミットメントを超えて、AIガバナンスの民主化の主要な役割を、使用、開発、利益に関する決定を巡って、トレードオフとリスクをナビゲートするために認識する必要がある。

Numerous parties are calling for the democratisation of AI, but the phrase is used to refer to a variety of goals, the pursuit of which sometimes conflict. This paper identifies four kinds of AI democratisation that are commonly discussed: (1) the democratisation of AI use, (2) the democratisation of AI development, (3) the democratisation of AI profits, and (4) the democratisation of AI governance. Numerous goals and methods of achieving each form of democratisation are discussed. The main takeaway from this paper is that AI democratisation is a multifarious and sometimes conflicting concept that should not be conflated with improving AI accessibility. If we want to move beyond ambiguous commitments to democratising AI, to productive discussions of concrete policies and trade-offs, then we need to recognise the principal role of the democratisation of AI governance in navigating tradeoffs and risks across decisions around use, development, and profits.
翻訳日:2023-03-28 21:36:08 公開日:2023-03-27
# Reveal to Revise: 深層モデルの反復バイアス補正のための説明可能なAIライフサイクル

Reveal to Revise: An Explainable AI Life Cycle for Iterative Bias Correction of Deep Models ( http://arxiv.org/abs/2303.12641v2 )

ライセンス: Link先を確認
Frederik Pahde, Maximilian Dreyer, Wojciech Samek, Sebastian Lapuschkin(参考訳) 最先端の機械学習モデルは、トレーニングデータに埋め込まれた散発的な相関を学ぶことが多い。 これは、皮膚がん検出などの医療応用において、これらのモデルを高い意思決定のためにデプロイする際のリスクを引き起こす。 この問題を解決するために,eXplainable Artificial Intelligence (XAI) ライフサイクル全体を包含するフレームワークであるReveal to Revise (R2R)を提案する。 最初のステップ(1)では、R2Rは、帰属関係における外れ値や、モデルによって学習された潜在概念の検査によって、モデルの弱点を明らかにする。 第二に、責任あるアーティファクトが検出され、空間的に入力データに局所化され、(3)モデル動作の修正に利用されます。 具体的には, RRR, CDEP, ClArC の手法をモデル修正に適用し, (4) (re-) モデルの性能とアーチファクトに対する感受性を評価する。 メラノーマ検出と骨年齢推定のための2つの医用ベンチマークデータセットを用いて,r2rフレームワークをvgg,resnet,effernetアーキテクチャに適用し,実際のデータセット-イントリンシックアーティファクトおよび合成変異を制御環境で明らかに・修正する。 XAIライフサイクルを完了し、異なるバイアスを軽減するために複数のR2Rイテレーションを実演します。 コードはhttps://github.com/maxdreyer/Reveal2Reviseで入手できる。

State-of-the-art machine learning models often learn spurious correlations embedded in the training data. This poses risks when deploying these models for high-stake decision-making, such as in medical applications like skin cancer detection. To tackle this problem, we propose Reveal to Revise (R2R), a framework entailing the entire eXplainable Artificial Intelligence (XAI) life cycle, enabling practitioners to iteratively identify, mitigate, and (re-)evaluate spurious model behavior with a minimal amount of human interaction. In the first step (1), R2R reveals model weaknesses by finding outliers in attributions or through inspection of latent concepts learned by the model. Secondly (2), the responsible artifacts are detected and spatially localized in the input data, which is then leveraged to (3) revise the model behavior. Concretely, we apply the methods of RRR, CDEP and ClArC for model correction, and (4) (re-)evaluate the model's performance and remaining sensitivity towards the artifact. Using two medical benchmark datasets for Melanoma detection and bone age estimation, we apply our R2R framework to VGG, ResNet and EfficientNet architectures and thereby reveal and correct real dataset-intrinsic artifacts, as well as synthetic variants in a controlled setting. Completing the XAI life cycle, we demonstrate multiple R2R iterations to mitigate different biases. Code is available on https://github.com/maxdreyer/Reveal2Revise.
翻訳日:2023-03-28 21:35:50 公開日:2023-03-27
# P^{3}O$: プロンプトによる強化学習のための視覚表現の転送

$P^{3}O$: Transferring Visual Representations for Reinforcement Learning via Prompting ( http://arxiv.org/abs/2303.12371v2 )

ライセンス: Link先を確認
Guoliang You, Xiaomeng Chu, Yifan Duan, Jie Peng, Jianmin Ji, Yu Zhang and Yanyong Zhang(参考訳) 深層強化学習(DRL)アルゴリズムは、学習したポリシーを異なる視覚的入力を持つ新しい環境に移すことが重要である。 本稿では,プロンプトを適用することにより,対象からソース環境へ視覚表現を転送する3段階のdrlアルゴリズムであるprompate based proximal policy optimization (p^{3}o$)を提案する。 p^{3}o$のプロセスは、事前トレーニング、プロンプト、予測という3つのステージで構成される。 特に,表現変換のためのプロンプト変換器を特定し,対象環境に対してプロンプト変換器をトレーニングするための2段階のトレーニングプロセスを提案する。 私たちは、$p^{3}o$を実装し、openaiのカーレースゲームで評価します。 実験の結果,$P^{3}O$は最先端の視覚伝達方式よりも優れていた。 特に、$p^{3}o$は、異なる視覚入力を持つ環境で学習されたポリシーがうまく機能することを可能にする。

It is important for deep reinforcement learning (DRL) algorithms to transfer their learned policies to new environments that have different visual inputs. In this paper, we introduce Prompt based Proximal Policy Optimization ($P^{3}O$), a three-stage DRL algorithm that transfers visual representations from a target to a source environment by applying prompting. The process of $P^{3}O$ consists of three stages: pre-training, prompting, and predicting. In particular, we specify a prompt-transformer for representation conversion and propose a two-step training process to train the prompt-transformer for the target environment, while the rest of the DRL pipeline remains unchanged. We implement $P^{3}O$ and evaluate it on the OpenAI CarRacing video game. The experimental results show that $P^{3}O$ outperforms the state-of-the-art visual transferring schemes. In particular, $P^{3}O$ allows the learned policies to perform well in environments with different visual inputs, which is much more effective than retraining the policies in these environments.
翻訳日:2023-03-28 21:33:48 公開日:2023-03-27
# MAIR:3次元空間変動照明推定によるマルチビューアテンション逆レンダリング

MAIR: Multi-view Attention Inverse Rendering with 3D Spatially-Varying Lighting Estimation ( http://arxiv.org/abs/2303.12368v2 )

ライセンス: Link先を確認
JunYong Choi and SeokYeong Lee and Haesol Park and Seung-Won Jung and Ig-Jae Kim and Junghyun Cho(参考訳) マルチビュー画像を用いてシーンを幾何学、SVBRDF、3次元空間的に変化する照明に分解するシーンレベルの逆レンダリングフレームワークを提案する。 マルチビュー画像はシーンに関する様々な情報を提供するため、オブジェクトレベルの逆レンダリングにおけるマルチビュー画像は当然のことだ。 しかし、マルチビューhdr合成データセットがないため、シーンレベルの逆レンダリングは主にシングルビュー画像を用いて研究されている。 我々は,OpenRoomsデータセットを拡張し,多視点画像を扱うための効率的なパイプラインを設計し,空間的に変化する照明を分割することで,シーンレベルの逆レンダリングを実現した。 提案手法は,シングルビュー方式よりも優れた性能を実現するだけでなく,実世界のシーンにおいて頑健な性能が得られることを示す。 また、空間的に変化する光量によって、どんな3D位置でも写実的な物体を挿入することができる。

We propose a scene-level inverse rendering framework that uses multi-view images to decompose the scene into geometry, a SVBRDF, and 3D spatially-varying lighting. Because multi-view images provide a variety of information about the scene, multi-view images in object-level inverse rendering have been taken for granted. However, owing to the absence of multi-view HDR synthetic dataset, scene-level inverse rendering has mainly been studied using single-view image. We were able to successfully perform scene-level inverse rendering using multi-view images by expanding OpenRooms dataset and designing efficient pipelines to handle multi-view images, and splitting spatially-varying lighting. Our experiments show that the proposed method not only achieves better performance than single-view-based methods, but also achieves robust performance on unseen real-world scene. Also, our sophisticated 3D spatially-varying lighting volume allows for photorealistic object insertion in any 3D location.
翻訳日:2023-03-28 21:33:28 公開日:2023-03-27
# 量子鍵分布系保護のための光パワーリミッタのセキュリティ境界

Security boundaries of an optical power limiter for protecting quantum key distribution systems ( http://arxiv.org/abs/2303.12355v2 )

ライセンス: Link先を確認
Qingquan Peng, Binwu Gao, Konstantin Zaitsev, Dongyang Wang, Jiangfang Ding, Yingwen Liu, Qin Liao, Ying Guo, Anqi Huang and Junjie Wu(参考訳) 無認可光注入は、量子鍵分布(QKD)システムの実用的セキュリティにとって、常に重要な脅威である。 熱・光デフォーカス効果に基づく光パワーリミッタ (opl) を提案し, 注入されたハッキング光を制限した。 ハードウェア対策として、様々な光注入攻撃によるOPLの性能試験を行い、広く展開される前にセキュリティ境界を明らかにする。 量子暗号におけるOPLのセキュリティバウンダリを調べるため、連続波(c.w.)光注入攻撃とパルス繰り返し率0.5Hz,40MHz,1GHzのパルス照射攻撃下でのOPLの挙動を総合的に検証し分析した。 テスト結果は、OPLのセキュリティ境界を照らし、ユースケースでOPLを適切に利用することを可能にする。 ここで提案する試験と解析の方法論は,QKDシステムにおける他のパワーリミテーションコンポーネントに適用可能である。

Unauthorized light injection has always been a vital threat to the practical security of a quantum key distribution (QKD) system. An optical power limiter (OPL) based on the thermo-optical defocusing effect has been proposed and implemented, limiting the injected hacking light. As a hardware countermeasure, the performance of the OPL under various light-injection attacks shall be tested to clarify the security boundary before being widely deployed. To investigate the OPL's security boundary in quantum cryptography, we comprehensively test and analyse the behavior of OPL under continuous-wave (c.w.) light-injection attacks and pulse illumination attacks with pulses' repetition rate at 0.5-Hz,40-MHz, and 1-GHz. The testing results illuminate the security boundary of the OPL, which allows one to properly employ the OPL in the use cases. The methodology of testing and analysis proposed here is applicable to other power-limitation components in a QKD system.
翻訳日:2023-03-28 21:33:12 公開日:2023-03-27
# 持続可能性のための人工知能:コンピュータビジョンによる持続可能なスマートプロダクトサービスシステムの実現

Artificial Intelligence for Sustainability: Facilitating Sustainable Smart Product-Service Systems with Computer Vision ( http://arxiv.org/abs/2303.13540v2 )

ライセンス: Link先を確認
Jannis Walk, Niklas K\"uhl, Michael Saidani, J\"urgen Schatte(参考訳) よりクリーンな生産と持続可能性の目的でのディープラーニングの利用と影響は、まだほとんど研究されていない。 この研究は、生産および製品利用の持続可能性を高めるために、ディープラーニングをどのように活用できるかを示している。 具体的には、深層学習に基づくコンピュータビジョンを用いて製品の摩耗状態を決定する。 結果として得られる洞察は、統合性と結果の方向性を改善した、新しい製品サービスシステムの基盤となる。 さらに、これらの洞察は製品利用の改善と研究開発の革新を促進することが期待されている。 我々は, 加工ツールと回転X線アノードの2つの製品に対するアプローチを実証する。 技術的観点から,深層学習型コンピュータビジョンを用いて,これらの製品の摩耗状態を認識することができることを示す。 特に,2つの製品の顕微鏡画像から摩耗を検出する。 セマンティックセグメンテーションにU-Netを用いて,画素の粒度に基づいて摩耗を検出する。 得られた平均サイス係数0.631と0.603は、提案手法の有効性を示している。 その結果、例えば、マシニングプロセスパラメータを改善するために、専門家はより良い決定を下すことができる。 提案手法が環境持続可能性に与える影響を評価するため,両製品に利益をもたらすライフサイクル評価を行った。 その結果, 加工工具のCO2排出量を12%, 回転アノードの44%削減できることが示唆された。 この研究はガイドラインとなり、研究者や実践者に同様のシナリオでコンピュータビジョンを活用させ、持続可能なスマート製品サービスシステムを開発し、よりクリーンな生産を可能にする。

The usage and impact of deep learning for cleaner production and sustainability purposes remain little explored. This work shows how deep learning can be harnessed to increase sustainability in production and product usage. Specifically, we utilize deep learning-based computer vision to determine the wear states of products. The resulting insights serve as a basis for novel product-service systems with improved integration and result orientation. Moreover, these insights are expected to facilitate product usage improvements and R&D innovations. We demonstrate our approach on two products: machining tools and rotating X-ray anodes. From a technical standpoint, we show that it is possible to recognize the wear state of these products using deep-learning-based computer vision. In particular, we detect wear through microscopic images of the two products. We utilize a U-Net for semantic segmentation to detect wear based on pixel granularity. The resulting mean dice coefficients of 0.631 and 0.603 demonstrate the feasibility of the proposed approach. Consequently, experts can now make better decisions, for example, to improve the machining process parameters. To assess the impact of the proposed approach on environmental sustainability, we perform life cycle assessments that show gains for both products. The results indicate that the emissions of CO2 equivalents are reduced by 12% for machining tools and by 44% for rotating anodes. This work can serve as a guideline and inspire researchers and practitioners to utilize computer vision in similar scenarios to develop sustainable smart product-service systems and enable cleaner production.
翻訳日:2023-03-28 21:25:38 公開日:2023-03-27
# CV-QKDの最大耐雑音化と2方向容量の低減

Maximum tolerable excess noise in CV-QKD and improved lower bound on two-way capacities ( http://arxiv.org/abs/2303.12867v2 )

ライセンス: Link先を確認
Francesco Anna Mele, Ludovico Lami, Vittorio Giovannetti(参考訳) 量子チャネルの双方向容量は、量子リピータがない状態でノイズ伝達線で接続された2つの遠くのパーティによって達成可能な究極の絡み合い分布率を決定する。 リピータは構築とメンテナンスにコストがかかる可能性が高いため、量子通信の中心的な課題は、それらなしで達成可能なパフォーマンスを理解することである。 本稿では,光ファイバーや自由空間リンクに影響を及ぼす雑音の現実的モデルである熱減衰器,熱増幅器,加法的ガウス雑音など,すべての位相非感応性ガウス流路のエネルギー制約と非拘束性量子および秘密鍵容量の新たな下界を求める。 oursは、(逆)コヒーレント情報が負となるパラメータ範囲における最初の非零下界であり、チャネルが絡み合わなければ、絡み合い分布が常に可能であることを明示的に示している。 さらに,我々は,再帰プロトコルとハッシュプロトコルを組み合わせることで,具体的な絡み合い分布と蒸留プロトコルを考案し,最適化する。

The two-way capacities of quantum channels determine the ultimate entanglement distribution rates achievable by two distant parties that are connected by a noisy transmission line, in absence of quantum repeaters. Since repeaters will likely be expensive to build and maintain, a central open problem of quantum communication is to understand what performances are achievable without them. In this paper, we find a new lower bound on the energy-constrained and unconstrained two-way quantum and secret-key capacities of all phase-insensitive bosonic Gaussian channels, namely thermal attenuator, thermal amplifier, and additive Gaussian noise, which are realistic models for the noise affecting optical fibres or free-space links. Ours is the first nonzero lower bound in the parameter range where the (reverse) coherent information becomes negative, and it shows explicitly that entanglement distribution is always possible when the channel is not entanglement breaking. In addition, our construction is fully explicit, i.e. we devise and optimise a concrete entanglement distribution and distillation protocol that works by combining recurrence and hashing protocols.
翻訳日:2023-03-28 21:24:31 公開日:2023-03-27
# 量子幾何学的テンソルを持たない変分量子時間進化

Variational Quantum Time Evolution without the Quantum Geometric Tensor ( http://arxiv.org/abs/2303.12839v2 )

ライセンス: Link先を確認
Julien Gacon, Jannes Nys, Riccardo Rossi, Stefan Woerner, Giuseppe Carleo(参考訳) 量子状態のリアルタイムおよび想像的進化は、量子力学の研究、基底状態の作成、熱力学的観測値の計算のための物理学と化学の強力なツールである。 また、量子機械学習や最適化といった幅広い分野の応用も見出す。 短期的デバイスでは、変動量子時間発展はこれらのタスクの有望な候補であり、必要な回路モデルによって利用可能なデバイスの能力と近似精度をトレードオフすることができる。 しかし、たとえ回路が確実に実行されるとしても、変分量子時間発展アルゴリズムは関連するシステムサイズではすぐに実現不可能となる。 これらは量子幾何学的テンソルの計算を必要とし、その複雑性は回路内のパラメータの数と二次的にスケールする。 本研究では、量子幾何学的テンソルの明示的な評価を回避した二重定式化を利用して、このスケーリング問題の解を提案する。 ハイゼンベルク・ハミルトニアンの時間進化のアルゴリズムを実証し、標準的な変分量子時間進化アルゴリズムのコストのごく一部で系の力学を正確に再現することを示した。 応用例として、qmettsアルゴリズムを用いて熱力学的観測量を計算する。

The real- and imaginary-time evolution of quantum states are powerful tools in physics and chemistry to investigate quantum dynamics, prepare ground states or calculate thermodynamic observables. They also find applications in wider fields such as quantum machine learning or optimization. On near-term devices, variational quantum time evolution is a promising candidate for these tasks, as the required circuit model can be tailored to trade off available device capabilities and approximation accuracy. However, even if the circuits can be reliably executed, variational quantum time evolution algorithms quickly become infeasible for relevant system sizes. They require the calculation of the Quantum Geometric Tensor and its complexity scales quadratically with the number of parameters in the circuit. In this work, we propose a solution to this scaling problem by leveraging a dual formulation that circumvents the explicit evaluation of the Quantum Geometric Tensor. We demonstrate our algorithm for the time evolution of the Heisenberg Hamiltonian and show that it accurately reproduces the system dynamics at a fraction of the cost of standard variational quantum time evolution algorithms. As an application, we calculate thermodynamic observables with the QMETTS algorithm.
翻訳日:2023-03-28 21:23:20 公開日:2023-03-27
# Sim-to-Real Reinforcement Learningによる双方向ブロックアセンブリ

Bi-Manual Block Assembly via Sim-to-Real Reinforcement Learning ( http://arxiv.org/abs/2303.14870v1 )

ライセンス: Link先を確認
Satoshi Kataoka, Youngseog Chung, Seyed Kamyar Seyed Ghasemipour, Pannag Sanketi, Shixiang Shane Gu, Igor Mordatch(参考訳) ロボット操作におけるほとんどの成功は単発グリップロボットに限られており、低デキスタリティは、ピック・アンド・プレイス、インサーション、オブジェクト・アレンジメントまでの解決可能なタスクの範囲を制限する。 アセンブリのようなより複雑なタスクには、デュアルとマルチアームのプラットフォームが必要ですが、バイアームの調整や衝突回避、ロバストな把持、ロングホリゾン計画といったユニークな課題が伴います。 本研究は,実世界のロボット操作タスクにおいて,実世界(Sim2Real)にシミュレーションおよび転送を行うための訓練的深部強化学習(RL)ポリシーの実現可能性について検討する。 両手動操作のためのテストベッドとして,並列グリップを持つ2つのロボットが3つの磁気ブロックを接続し,U字形を形成するU字型磁気ブロックアセンブリタスクを開発した。 手動で設計したコントローラや人間によるデモンストレーションがなければ、RLを用いてシミュレーションで訓練されたポリシーにより、2つのxArm6ロボットがU字組立タスクを、90%以上の成功率で解決でき、実際のハードウェア上では、追加の現実世界の微調整が不要であることを示す。 本稿では,タスク仕様,学習アルゴリズム,直接共同空間制御,行動制約,知覚とアクティベーションノイズ,行動遅延,行動補間など,システムの各コンポーネントが,このようなシンプルかつ成功的な政策学習と伝達にいかに重要かを強調した。 この結果から,実ハードウェア上での両腕能力の大幅な向上が期待できる。本システムは,実世界のロボットマニピュレータの能力を大幅に拡大し,深層rlとsim2実機移行に関する今後の研究を刺激できることを期待する。

Most successes in robotic manipulation have been restricted to single-arm gripper robots, whose low dexterity limits the range of solvable tasks to pick-and-place, inser-tion, and object rearrangement. More complex tasks such as assembly require dual and multi-arm platforms, but entail a suite of unique challenges such as bi-arm coordination and collision avoidance, robust grasping, and long-horizon planning. In this work we investigate the feasibility of training deep reinforcement learning (RL) policies in simulation and transferring them to the real world (Sim2Real) as a generic methodology for obtaining performant controllers for real-world bi-manual robotic manipulation tasks. As a testbed for bi-manual manipulation, we develop the U-Shape Magnetic BlockAssembly Task, wherein two robots with parallel grippers must connect 3 magnetic blocks to form a U-shape. Without manually-designed controller nor human demonstrations, we demonstrate that with careful Sim2Real considerations, our policies trained with RL in simulation enable two xArm6 robots to solve the U-shape assembly task with a success rate of above90% in simulation, and 50% on real hardware without any additional real-world fine-tuning. Through careful ablations,we highlight how each component of the system is critical for such simple and successful policy learning and transfer,including task specification, learning algorithm, direct joint-space control, behavior constraints, perception and actuation noises, action delays and action interpolation. Our results present a significant step forward for bi-arm capability on real hardware, and we hope our system can inspire future research on deep RL and Sim2Real transfer of bi-manualpolicies, drastically scaling up the capability of real-world robot manipulators.
翻訳日:2023-03-28 17:16:12 公開日:2023-03-27
# ラベルフリー肝腫瘍切除

Label-Free Liver Tumor Segmentation ( http://arxiv.org/abs/2303.14869v1 )

ライセンス: Link先を確認
Qixin Hu, Yixiong Chen, Junfei Xiao, Shuwen Sun, Jieneng Chen, Alan Yuille, Zongwei Zhou(参考訳) 我々は,ctスキャンで合成腫瘍を用いて,手作業による注記を必要とせず,aiモデルが肝腫瘍を正確に分割できることを実証する。 われわれの合成腫瘍は、2つの興味深い利点がある: (I) 現実的な形状とテクスチャ、医療専門家でさえ本物の腫瘍と混同できる; (II) 肝腫瘍のセグメント化を実際の腫瘍で訓練されたモデルと同じような方法で行うことができるAIモデルを訓練するのに効果的である。 この結果から, 将来, Voxel (Voxel) による腫瘍のアノテートに対する手作業が著しく削減される可能性が示唆された。 さらに, 合成腫瘍は小腫瘍(あるいは小腫瘍)の例を自動生成し, 癌の早期発見に不可欠である小肝腫瘍の検出成功率を向上させる可能性を秘めている。 トレーニングデータの充実に加えて、私たちの合成戦略により、AIの堅牢性を厳格に評価することができます。

We demonstrate that AI models can accurately segment liver tumors without the need for manual annotation by using synthetic tumors in CT scans. Our synthetic tumors have two intriguing advantages: (I) realistic in shape and texture, which even medical professionals can confuse with real tumors; (II) effective for training AI models, which can perform liver tumor segmentation similarly to the model trained on real tumors -- this result is exciting because no existing work, using synthetic tumors only, has thus far reached a similar or even close performance to real tumors. This result also implies that manual efforts for annotating tumors voxel by voxel (which took years to create) can be significantly reduced in the future. Moreover, our synthetic tumors can automatically generate many examples of small (or even tiny) synthetic tumors and have the potential to improve the success rate of detecting small liver tumors, which is critical for detecting the early stages of cancer. In addition to enriching the training data, our synthesizing strategy also enables us to rigorously assess the AI robustness.
翻訳日:2023-03-28 17:15:37 公開日:2023-03-27
# 連関学習における線形層漏洩攻撃の資源問題

The Resource Problem of Using Linear Layer Leakage Attack in Federated Learning ( http://arxiv.org/abs/2303.14868v1 )

ライセンス: Link先を確認
Joshua C. Zhao, Ahmed Roushdy Elkordy, Atul Sharma, Yahya H. Ezzeldin, Salman Avestimehr, Saurabh Bagchi(参考訳) セキュアアグリゲーションは、連合学習におけるプライバシの高レベルを約束し、サーバが復号化されたアグリゲーション更新へのアクセスしか持たない。 この設定内では、クライアント数やバッチサイズに関わらず、スケールし、高いリーク率を達成することができる唯一のデータ再構成攻撃は、線形層リーク手法である。 これは、注入された完全連結(fc)層を大きくすることで行われる。 しかし、結果としてリソースのオーバーヘッドは増大し、クライアントの数が増えるにつれて大きくなる。 このリソースのオーバーヘッドは、バッチサイズが大きい個々の更新と同じ方法でアグリゲート更新に対する攻撃を処理するすべての以前の作業において、誤った視点によって引き起こされていることを示す。 代わりに、アグリゲーションが複数の個別の更新を組み合わせるという観点から更新を攻撃することにより、リソースオーバーヘッドを軽減するためにスパーシティの応用が可能になる。 その結果、sparsityの使用により、モデルサイズオーバーヘッドを327$\times$以上削減でき、計算時間はsotaと比較して3.34$\times$となる。

Secure aggregation promises a heightened level of privacy in federated learning, maintaining that a server only has access to a decrypted aggregate update. Within this setting, linear layer leakage methods are the only data reconstruction attacks able to scale and achieve a high leakage rate regardless of the number of clients or batch size. This is done through increasing the size of an injected fully-connected (FC) layer. However, this results in a resource overhead which grows larger with an increasing number of clients. We show that this resource overhead is caused by an incorrect perspective in all prior work that treats an attack on an aggregate update in the same way as an individual update with a larger batch size. Instead, by attacking the update from the perspective that aggregation is combining multiple individual updates, this allows the application of sparsity to alleviate resource overhead. We show that the use of sparsity can decrease the model size overhead by over 327$\times$ and the computation time by 3.34$\times$ compared to SOTA while maintaining equivalent total leakage rate, 77% even with $1000$ clients in aggregation.
翻訳日:2023-03-28 17:15:16 公開日:2023-03-27
# コントラスト学習におけるマルチモーダル表現の再検討:パッチとトークン埋め込みから離散トークンへ

Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens ( http://arxiv.org/abs/2303.14865v1 )

ライセンス: Link先を確認
Yuxiao Chen, Jianbo Yuan, Yu Tian, Shijie Geng, Xinyu Li, Ding Zhou, Dimitris N. Metaxas, Hongxia Yang(参考訳) CLIPのような対照的な学習ベースの視覚言語事前学習アプローチは多くの視覚言語タスクで大きな成功を収めている。 これらの手法は、視覚パッチと言語トークンから情報を集約して生成された類似した特徴埋め込みでマッチングされた画像テキストペアを符号化することにより、交叉型アライメントを実現する。 しかし,視覚パッチやテキストトークンは意味レベルや粒度が異なるため,このような表現を用いたクロスモーダル情報の直接調整は困難である。 この問題を軽減するために,FDT(Finite Discrete Tokens)に基づくマルチモーダル表現を提案する。 fdtは、ある種の視覚的概念を表す学習可能なトークンのセットである。 画像とテキストは、FDT空間にマルチモーダル入力をグラウンディングし、活性化されたFDT表現を集約することで、共有FDTを使用して埋め込む。 マッチしたビジュアル概念とセマンティック概念は、スパースアクティベーション制約によって同じ離散トークンセットで表現されるように強制される。 これにより、2つのモード間の粒度ギャップが低減される。 定量的・質的分析を通じ,クリップスタイルモデルにおけるfdt表現を用いることで,視覚認識や視覚言語下流タスクにおけるクロスモーダルアライメントとパフォーマンスが向上することを示す。 さらに,本手法はより包括的な表現を学習できることを示し,学習したfdtはオブジェクトからアクションや属性まで,有意義なクロスモーダル対応を捉える。

Contrastive learning-based vision-language pre-training approaches, such as CLIP, have demonstrated great success in many vision-language tasks. These methods achieve cross-modal alignment by encoding a matched image-text pair with similar feature embeddings, which are generated by aggregating information from visual patches and language tokens. However, direct aligning cross-modal information using such representations is challenging, as visual patches and text tokens differ in semantic levels and granularities. To alleviate this issue, we propose a Finite Discrete Tokens (FDT) based multimodal representation. FDT is a set of learnable tokens representing certain visual-semantic concepts. Both images and texts are embedded using shared FDT by first grounding multimodal inputs to FDT space and then aggregating the activated FDT representations. The matched visual and semantic concepts are enforced to be represented by the same set of discrete tokens by a sparse activation constraint. As a result, the granularity gap between the two modalities is reduced. Through both quantitative and qualitative analyses, we demonstrate that using FDT representations in CLIP-style models improves cross-modal alignment and performance in visual recognition and vision-language downstream tasks. Furthermore, we show that our method can learn more comprehensive representations, and the learned FDT capture meaningful cross-modal correspondence, ranging from objects to actions and attributes.
翻訳日:2023-03-28 17:14:57 公開日:2023-03-27
# スケーラブルCMOSアーキテクチャのための電子スピン量子ビット可変性へのバウンド

Bounds to electron spin qubit variability for scalable CMOS architectures ( http://arxiv.org/abs/2303.14864v1 )

ライセンス: Link先を確認
Jes\'us D. Cifuentes, Tuomo Tanttu, Will Gilbert, Jonathan Y. Huang, Ensar Vahapoglu, Ross C. C. Leon, Santiago Serrano, Dennis Otter, Daniel Dunmore, Philip Y. Mai, Fr\'ed\'eric Schlattner, MengKe Feng, Kohei Itoh, Nikolay Abrosimov, Hans-Joachim Pohl, Michael Thewalt, Arne Laucht, Chih Hwan Yang, Christopher C. Escott, Wee Han Lim, Fay E. Hudson, Rajib Rahman, Andre Saraiva, Andrew S. Dzurak(参考訳) CMOS量子ドット中の電子のスピンは、精巧な量子特性とスケーラブルな製造を組み合わせる。 しかし、量子技術の時代には、Si/SiO2をマイクロエレクトロニクス標準として冠したメトリクスは、量子ビット性能への影響について再評価する必要がある。 我々は、Si/SiO$_2$インタフェースの不可避な原子スケール粗さによるスピン量子ビットの変動をグラフ化し、12デバイスで実験をコンパイルし、これらの結果を分析する理論的ツールを開発した。 モンテカルロ法は、エネルギースペクトルの代わりに波動関数と電子経路を直接解析することにより、数百万個の原子を持つ装置のゆらぎを記述するために適応される。 粗さの影響は,キュービット位置,変形,谷分割,谷相,スピン軌道結合および交換結合における変動性と相関する。 これらの変数は、堅牢な制御方法が組み込まれている限り、量子コンピューティングのスケーラブルなアーキテクチャの許容範囲内にあることが判明した。

Spins of electrons in CMOS quantum dots combine exquisite quantum properties and scalable fabrication. In the age of quantum technology, however, the metrics that crowned Si/SiO2 as the microelectronics standard need to be reassessed with respect to their impact upon qubit performance. We chart the spin qubit variability due to the unavoidable atomic-scale roughness of the Si/SiO$_2$ interface, compiling experiments in 12 devices, and developing theoretical tools to analyse these results. Atomistic tight binding and path integral Monte Carlo methods are adapted for describing fluctuations in devices with millions of atoms by directly analysing their wavefunctions and electron paths instead of their energy spectra. We correlate the effect of roughness with the variability in qubit position, deformation, valley splitting, valley phase, spin-orbit coupling and exchange coupling. These variabilities are found to be bounded and lie within the tolerances for scalable architectures for quantum computing as long as robust control methods are incorporated.
翻訳日:2023-03-28 17:14:33 公開日:2023-03-27
# DiffTAD:拡散を考慮した時間的行動検出

DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion ( http://arxiv.org/abs/2303.14863v1 )

ライセンス: Link先を確認
Sauradip Nag, Xiatian Zhu, Jiankang Deng, Yi-Zhe Song and Tao Xiang(参考訳) 本稿では,時間的行動検出(TAD)の新しい定式化について提案する。 入力ランダムな時間的提案として、不適切な長いビデオが与えられた場合に、アクションの提案を精度良く得ることができる。 これは、従来の差別的な学習方法に対する生成的モデリングの視点を示す。 この能力は、まずランダムな提案(フォワード/ノイズ化過程)に地道的提案を拡散し、次にノイズ化過程(すなわち後方/デノイング過程)を逆転させることによって達成される。 具体的には,より高速に収束する時間的位置問合せ設計を導入することで,変圧器デコーダ(例: detr)のデノージングプロセスを確立する。 さらに,推定加速度のためのクロスステップ選択条件付けアルゴリズムを提案する。 ActivityNet と THUMOS の広範囲な評価から,DiffTAD が従来の代替技術と比較して最高のパフォーマンスを達成していることがわかる。 コードはhttps://github.com/sauradip/diffusiontadで入手できる。

We propose a new formulation of temporal action detection (TAD) with denoising diffusion, DiffTAD in short. Taking as input random temporal proposals, it can yield action proposals accurately given an untrimmed long video. This presents a generative modeling perspective, against previous discriminative learning manners. This capability is achieved by first diffusing the ground-truth proposals to random ones (i.e., the forward/noising process) and then learning to reverse the noising process (i.e., the backward/denoising process). Concretely, we establish the denoising process in the Transformer decoder (e.g., DETR) by introducing a temporal location query design with faster convergence in training. We further propose a cross-step selective conditioning algorithm for inference acceleration. Extensive evaluations on ActivityNet and THUMOS show that our DiffTAD achieves top performance compared to previous art alternatives. The code will be made available at https://github.com/sauradip/DiffusionTAD.
翻訳日:2023-03-28 17:14:17 公開日:2023-03-27
# 時間非依存摂動理論の新しい導出

New derivation of Time-Independent Perturbation Theory ( http://arxiv.org/abs/2303.14862v1 )

ライセンス: Link先を確認
A. N. Kvinikhidze and B. Blankleider(参考訳) 本稿では,時間独立摂動理論(PT)の新たな導出を提案し,量子力学(QM)の教科書で提示される通常の導出に対して根本的な優位性を持つ。 そのため、現行の方法よりも、PTの学習がより簡単かつ迅速に行えるようになる。 それにもかかわらず、このアプローチではポテンシャルをエネルギー独立にしたり、逆自由グリーン関数 $g_0^{-1}(e)$ を qm のようにエネルギー $e$ の線型函数とする必要はなく、相対論的 qm や bethe-salpeter 方程式、量子場理論における任意の準ポテンシャル的アプローチといった qm の拡張に直接適用することができる。

We propose a new derivation of Time-Independent Perturbation Theory (PT) that has a fundamental advantage over the usual derivations presented in textbooks on Quantum Mechanics (QM): it is simpler and much shorter. As such, it can provide an easier and quicker way for students to learn PT, than afforded by current methods. In spite of that, our approach does not require the potentials to be energy independent or the inverse free Green function $G_0^{-1}(E)$ to be a linear function of energy $E$, as is the case in QM, and can be applied directly to various extensions of QM including Relativistic QM, the Bethe-Salpeter equation, and all kinds of quasipotential approaches in Quantum Field Theory.
翻訳日:2023-03-28 17:13:58 公開日:2023-03-27
# 2次元におけるスケール不変散乱

Scale Invariant Scattering in 2D ( http://arxiv.org/abs/2303.14861v1 )

ライセンス: Link先を確認
T. Curtright and C. Vignat(参考訳) 2つの空間次元の非相対論的スケール不変系に対しては、量子散乱振幅 $f(\theta)$ が分散関係として与えられ、${\rm Im}(f(\theta)$) の単純な閉形式と、統合された断面 $\sigma \propto {\rm Im}(f(\theta=0))$ が与えられる。 固定$\theta \neq 0$の場合、古典的極限は容易に得られる。

For a non-relativistic scale invariant system in two spatial dimensions, the quantum scattering amplitude $f(\theta)$ is given as a dispersion relation, with a simple closed form for ${\rm Im}(f(\theta)$) as well as the integrated cross-section $\sigma \propto {\rm Im}(f(\theta=0))$. For fixed $\theta \neq 0$, the classical limit is straightforward to obtain.
翻訳日:2023-03-28 17:13:41 公開日:2023-03-27
# Augmentation-based Graph OOD Generalization のラベルシフトについて

Mind the Label Shift of Augmentation-based Graph OOD Generalization ( http://arxiv.org/abs/2303.14859v1 )

ライセンス: Link先を確認
Junchi Yu and Jian Liang and Ran He(参考訳) アウト・オブ・ディストリビューション(OOD)の一般化はグラフニューラルネットワーク(GNN)にとって重要な問題である。 近年の研究では、拡張環境を生成し、一般化のための不変GNNを学ぶために異なるグラフエディションを使用している。 しかし、グラフ構造版が必然的にグラフラベルを変更するため、ラベルシフトは通常増大する。 これは、一般化に有害な拡張環境間の一貫性のない予測関係をもたらす。 この問題に対処するために、グラフOODの一般化を容易にするラベル不変拡張を生成する \textbf{LiSA} を提案する。 グラフエディションに頼る代わりに、LiSAはトレーニンググラフの \textbf{L}abel-\textbf{i}nvariant \textbf{S}ubgraphs を利用して、 \textbf{A}ugmented環境を構築する。 特に、LiSAは、局所的な予測パターンを抽出し、複数のラベル不変部分グラフを効率的に構築するために、変動部分グラフジェネレータを設計する。 次に、異なるジェネレータによって生成されたサブグラフを収集し、異なる拡張環境を構築する。 拡張環境間の多様性を促進するため、LiSAはさらに、環境分布間のペアワイド距離を拡大するために、トラクタブルエネルギーベースの正規化を導入する。 このように、LiSAは、一貫した予測関係を持つ多様な拡張環境を生成し、不変GNNの学習を容易にする。 ノードレベルのOODベンチマークとグラフレベルのOODベンチマークの大規模な実験は、LiSAが異なるGNNバックボーンで印象的な一般化性能を達成することを示している。 コードは \url{https://github.com/Samyu0304/LiSA} で入手できる。

Out-of-distribution (OOD) generalization is an important issue for Graph Neural Networks (GNNs). Recent works employ different graph editions to generate augmented environments and learn an invariant GNN for generalization. However, the label shift usually occurs in augmentation since graph structural edition inevitably alters the graph label. This brings inconsistent predictive relationships among augmented environments, which is harmful to generalization. To address this issue, we propose \textbf{LiSA}, which generates label-invariant augmentations to facilitate graph OOD generalization. Instead of resorting to graph editions, LiSA exploits \textbf{L}abel-\textbf{i}nvariant \textbf{S}ubgraphs of the training graphs to construct \textbf{A}ugmented environments. Specifically, LiSA first designs the variational subgraph generators to extract locally predictive patterns and construct multiple label-invariant subgraphs efficiently. Then, the subgraphs produced by different generators are collected to build different augmented environments. To promote diversity among augmented environments, LiSA further introduces a tractable energy-based regularization to enlarge pair-wise distances between the distributions of environments. In this manner, LiSA generates diverse augmented environments with a consistent predictive relationship and facilitates learning an invariant GNN. Extensive experiments on node-level and graph-level OOD benchmarks show that LiSA achieves impressive generalization performance with different GNN backbones. Code is available on \url{https://github.com/Samyu0304/LiSA}.
翻訳日:2023-03-28 17:13:28 公開日:2023-03-27
# PT対称性と準エルミート量子論の運用基盤」に対するコメントへの回答

Reply to the Comment on `The operational foundations of PT-symmetric and quasi-Hermitian quantum theory' ( http://arxiv.org/abs/2303.14890v1 )

ライセンス: Link先を確認
Abhijeet Alase, Salini Karuvade, Carlo Maria Scandolo(参考訳) この文書は、「PT対称および準エルミート量子論の運用基盤」と題された最近の研究に対するコメント arXiv:2301.01215への回答である。 最初のコメントは3つの追加書で構成されています。 最初の補題では、我々の研究は動機付けの問題として不明確なものであり、PT対称量子論が標準量子論を拡張しているかどうかが文献で既に答えられている。 第2の補題は、我々の研究に欠けているいくつかの参照を示し、第3の補題は、標準量子論の拡張にどんな制約をもたらすかを示している。 我々の回答では、第一追加項の主張は、動機づけられる質問の誤解の結果であると説明した。 正しく解釈すると、コメントの3番目の追加項は、なぜモチベーションのある質問が興味深く関連があるのかを詳しく説明している。 また、第3の追加項で示唆される線に沿った標準量子論の拡張の展望についても、簡潔にコメントする。 第2次補足への反応として、ある参照を引用しながら、他の参照を除外する根拠を説明します。

This document is our reply to the Comment arXiv:2301.01215 on our recent work titled `The operational foundations of PT-symmetric and quasi-Hermitian quantum theory'. The original Comment consists of three addenda to our work. The first addendum claims that our work is ill-motivated as the motivating question, namely whether PT-symmetric quantum theory extends the standard quantum theory, was already answered in the literature. The second addendum points to some missing references in our work, and the third addendum suggests what constraints could lead to an extension of standard quantum theory. In our reply, we explain that the claim in the first addendum is a result of a misinterpretation of our motivating question. When interpreted correctly, the third addendum in the Comment in itself elaborates on why our motivating question is interesting and relevant. We also briefly comment on the prospects of an extension of standard quantum theory along the lines suggested in the third addendum. As our response to the second addendum, we explain our rationale behind citing certain references while leaving out others.
翻訳日:2023-03-28 17:07:14 公開日:2023-03-27
# 孤立した想像力を持つモデルベース強化学習

Model-Based Reinforcement Learning with Isolated Imaginations ( http://arxiv.org/abs/2303.14889v1 )

ライセンス: Link先を確認
Minting Pan and Xiangming Zhu and Yunbo Wang and Xiaokang Yang(参考訳) 世界モデルは、視覚に基づく対話システムにおける行動の結果を学ぶ。 しかし、自律運転のような現実的なシナリオでは、独立性や活動信号にわずかに依存する制御不能なダイナミクスがしばしば存在し、効果的な世界モデルを学ぶことは困難である。 この問題に対処するため,我々は,モデルに基づく強化学習アプローチであるiso-dream++を提案する。 まず, 環境の混合時空間変動から制御可能な状態遷移を分離するよう, 世界モデルに促す逆ダイナミクスを最適化する。 第2に,非制御可能な状態を未来に展開し,現在の制御可能な状態と適応的に関連付ける,疎結合な潜在的想像力に基づくポリシ最適化を行う。 これにより、ロングホリゾンのバイスモータ制御タスクは、他の車両の動きを予測できる自動運転車のような野生の混合動力源を分離することで、潜在的なリスクを回避することができる。 これまでの研究に加えて,制御可能状態と非制御可能状態の間の疎結合について検討し,状態分離のトレーニング崩壊問題に対処し,トランスファー学習セットアップにおける我々のアプローチを検証する。 Iso-Dream++はCARLAやDeepMind Controlで既存の強化学習モデルよりも優れています。

World models learn the consequences of actions in vision-based interactive systems. However, in practical scenarios like autonomous driving, noncontrollable dynamics that are independent or sparsely dependent on action signals often exist, making it challenging to learn effective world models. To address this issue, we propose Iso-Dream++, a model-based reinforcement learning approach that has two main contributions. First, we optimize the inverse dynamics to encourage the world model to isolate controllable state transitions from the mixed spatiotemporal variations of the environment. Second, we perform policy optimization based on the decoupled latent imaginations, where we roll out noncontrollable states into the future and adaptively associate them with the current controllable state. This enables long-horizon visuomotor control tasks to benefit from isolating mixed dynamics sources in the wild, such as self-driving cars that can anticipate the movement of other vehicles, thereby avoiding potential risks. On top of our previous work, we further consider the sparse dependencies between controllable and noncontrollable states, address the training collapse problem of state decoupling, and validate our approach in transfer learning setups. Our empirical study demonstrates that Iso-Dream++ outperforms existing reinforcement learning models significantly on CARLA and DeepMind Control.
翻訳日:2023-03-28 17:06:58 公開日:2023-03-27
# ボトムアップ人材推定のためのグローバルリレーモデルとリファインメント

Global Relation Modeling and Refinement for Bottom-Up Human Pose Estimation ( http://arxiv.org/abs/2303.14888v1 )

ライセンス: Link先を確認
Ruoqi Yin, Jianqin Yin(参考訳) 本稿では,多人数ポーズ推定(MPPE)におけるボトムアップパラダイムについて検討する。 従来のボトムアップ手法では, 特徴学習プロセスにおけるインスタンスや環境の関係をモデル化せず, 後処理中に異なる身体部位を識別するインスタンスの関係を考慮しようとする。 さらに、既存の作品の多くはアップサンプリングとダウンサンプリングの操作を採用している。 サンプリングプロセスでは、ソース機能とのミスアレーメントの問題が発生し、モデルによって学習されるキーポイント機能に偏りが生じる。 上記の制限を克服するために,ボトムアップヒトポーズ推定のための畳み込みニューラルネットワークを提案する。 基本モジュールは2つある。 一 グローバルリレーショナルモデリング(GRM)モジュールは、特徴学習プロセスにおいて複数の段階的特徴を融合することにより、画像領域間の関係(環境コンテキスト、インスタンスインタラクティブ情報など)をグローバルに学習する。 空間的およびチャネル次元の適応性の実現に焦点を当てた空間チャネルアテンション機構と組み合わせる。 (II)MFAモジュールは、複数のブランチから特徴を集約し、融合した特徴を調整し、洗練された局所キーポイント表現を得る。 このモデルでは,局所からグローバルへの粒度の違いに着目し,多人数ポーズ推定の性能を著しく向上させる。 COCO と CrowdPose のデータセットで得られた結果は,多人数ポーズ推定の効率的なフレームワークであることを実証している。

In this paper, we concern on the bottom-up paradigm in multi-person pose estimation (MPPE). Most previous bottom-up methods try to consider the relation of instances to identify different body parts during the post processing, while ignoring to model the relation among instances or environment in the feature learning process. In addition, most existing works adopt the operations of upsampling and downsampling. During the sampling process, there will be a problem of misalignment with the source features, resulting in deviations in the keypoint features learned by the model. To overcome the above limitations, we propose a convolutional neural network for bottom-up human pose estimation. It invovles two basic modules: (i) Global Relation Modeling (GRM) module globally learns relation (e.g., environment context, instance interactive information) among region of image by fusing multiple stages features in the feature learning process. It combines with the spatial-channel attention mechanism, which focuses on achieving adaptability in spatial and channel dimensions. (ii) Multi-branch Feature Align (MFA) module aggregates features from multiple branches to align fused feature and obtain refined local keypoint representation. Our model has the ability to focus on different granularity from local to global regions, which significantly boosts the performance of the multi-person pose estimation. Our results on the COCO and CrowdPose datasets demonstrate that it is an efficient framework for multi-person pose estimation.
翻訳日:2023-03-28 17:06:36 公開日:2023-03-27
# テキストは必要なすべて:制御可能な音声合成を用いたASRモデルのパーソナライズ

Text is All You Need: Personalizing ASR Models using Controllable Speech Synthesis ( http://arxiv.org/abs/2303.14885v1 )

ライセンス: Link先を確認
Karren Yang, Ting-Yao Hu, Jen-Hao Rick Chang, Hema Swetha Koppula, Oncel Tuzel(参考訳) 汎用音声認識モデルを特定の個人に適応させることは、パーソナライズされたデータの不足のために難しい問題である。 近年の研究では、パーソナライズされたテキスト音声合成によるトレーニングデータの量の増加が提案されている。 合成データがパーソナライゼーションにいつ有効か、そしてなぜそのようなケースで有効か、という2つの基本的な疑問を問う。 最初の問題に対処するため、我々は最先端の自動音声認識(ASR)モデルを適用し、異なる話者タイプを表す4つのベンチマークデータセットから話者をターゲットにした。 合成データを用いたasrパーソナライゼーションは,すべてのケースにおいて有効である。 (i)グローバルデータでは、対象話者が過小評価されていること、及び (ii)グローバルモデルの容量は限られている。 パーソナライズされた合成データがなぜ有効かという2つ目の疑問に対処するため、制御可能な音声合成を用いて様々なスタイルと内容の音声を生成する。 意外なことに、スタイルよりもむしろ合成データのテキスト内容が話者適応に重要であることが判明した。 これらの結果から,音声コンテンツに基づくASRパーソナライズのためのデータ選択戦略を提案する。

Adapting generic speech recognition models to specific individuals is a challenging problem due to the scarcity of personalized data. Recent works have proposed boosting the amount of training data using personalized text-to-speech synthesis. Here, we ask two fundamental questions about this strategy: when is synthetic data effective for personalization, and why is it effective in those cases? To address the first question, we adapt a state-of-the-art automatic speech recognition (ASR) model to target speakers from four benchmark datasets representative of different speaker types. We show that ASR personalization with synthetic data is effective in all cases, but particularly when (i) the target speaker is underrepresented in the global data, and (ii) the capacity of the global model is limited. To address the second question of why personalized synthetic data is effective, we use controllable speech synthesis to generate speech with varied styles and content. Surprisingly, we find that the text content of the synthetic data, rather than style, is important for speaker adaptation. These results lead us to propose a data selection strategy for ASR personalization based on speech content.
翻訳日:2023-03-28 17:06:11 公開日:2023-03-27
# 野生におけるエンドツーエンドのテーブル認識のための大規模データセット

A large-scale dataset for end-to-end table recognition in the wild ( http://arxiv.org/abs/2303.14884v1 )

ライセンス: Link先を確認
Fan Yang, Lei Hu, Xinwu Liu, Shuangping Huang, Zhenghui Gu(参考訳) テーブル認識(Table Recognition, TR)は、パターン認識におけるホットスポットの一つで、画像中のテーブルから情報を抽出することを目的としている。 一般的なテーブル認識タスクには、テーブル検出(TD)、テーブル構造認識(TSR)、テーブルコンテンツ認識(TCR)がある。 TDは画像中のテーブルを見つけ、TCRはテキストの内容を認識し、TSRは空間的な図形構造を認識する。 現在、実際のシナリオにおけるエンドツーエンドのTRは、3つのサブタスクを同時に達成しているが、まだ探索されていない研究領域である。 研究者を妨げる主要な要因の1つは、ベンチマークデータセットの欠如である。 そこで本研究では,多様なテーブル形式を持つテーブル認識セット(tabrecset,table recognition set,tabrecset)という新しい大規模データセットを提案する。 エンドツーエンドのTRのための最大かつ最初のバイリンガルデータセットであり、38.1Kのテーブルがあり、20.4Kは英語で、17.7Kは中国語である。 サンプルは、境界完全および不完全なテーブル、正規および不規則なテーブル(回転、歪んだ、等)など、多種多様である。 シナリオは、スキャンされた画像からカメラに取り込まれた画像、ドキュメント、Excelテーブル、教育試験論文、財務請求書まで様々だ。 アノテーションは、それぞれTD、TSR、TR用の表体空間アノテーション、セル空間論理アノテーション、およびテキストコンテンツから構成される。 空間アノテーションは、ほとんどのデータセットで採用されるバウンディングボックスや四角形の代わりにポリゴンを利用する。 ポリゴン空間アノテーションは、野生のシナリオでよく見られる不規則なテーブルに適している。 さらに,テーブルアノテーションの効率と品質を改善するために,テーブルメという対話型アノテーションツールを提案する。

Table recognition (TR) is one of the research hotspots in pattern recognition, which aims to extract information from tables in an image. Common table recognition tasks include table detection (TD), table structure recognition (TSR) and table content recognition (TCR). TD is to locate tables in the image, TCR recognizes text content, and TSR recognizes spatial ogical structure. Currently, the end-to-end TR in real scenarios, accomplishing the three sub-tasks simultaneously, is yet an unexplored research area. One major factor that inhibits researchers is the lack of a benchmark dataset. To this end, we propose a new large-scale dataset named Table Recognition Set (TabRecSet) with diverse table forms sourcing from multiple scenarios in the wild, providing complete annotation dedicated to end-to-end TR research. It is the largest and first bi-lingual dataset for end-to-end TR, with 38.1K tables in which 20.4K are in English\, and 17.7K are in Chinese. The samples have diverse forms, such as the border-complete and -incomplete table, regular and irregular table (rotated, distorted, etc.). The scenarios are multiple in the wild, varying from scanned to camera-taken images, documents to Excel tables, educational test papers to financial invoices. The annotations are complete, consisting of the table body spatial annotation, cell spatial logical annotation and text content for TD, TSR and TCR, respectively. The spatial annotation utilizes the polygon instead of the bounding box or quadrilateral adopted by most datasets. The polygon spatial annotation is more suitable for irregular tables that are common in wild scenarios. Additionally, we propose a visualized and interactive annotation tool named TableMe to improve the efficiency and quality of table annotation.
翻訳日:2023-03-28 17:05:52 公開日:2023-03-27
# TransCODE: 効率的なトレーニングと推論のためのトランスフォーマーとアクセラレータの共同設計

TransCODE: Co-design of Transformers and Accelerators for Efficient Training and Inference ( http://arxiv.org/abs/2303.14882v1 )

ライセンス: Link先を確認
Shikhar Tuli and Niraj K. Jha(参考訳) このようなモデルを大規模に効率的にデプロイするには、機械学習モデルと評価ハードウェアの自動設計が不可欠である。 トランスモデルの最先端性能にもかかわらず、リソース制約のあるハードウェアプラットフォーム上ではまだ実行準備ができていない。 トランスアーキテクチャの高メモリ要求と低並列化性がこの問題を悪化させる。 最近提案されている加速器は、トランスフォーマーモデルのスループットとエネルギー消費を最適化しようとする。 しかし、そのような作品は、モデルアーキテクチャの片側探索か、あるいはオフザシェルフデバイスの制限されたセットに限られる。 さらに、以前の作業はモデル推論を加速するだけであって、トレーニングではないため、メモリと計算リソースが大幅に向上し、問題をさらに難しくしている。 これらの制限に対処するため、この研究はDynaPropと呼ばれる動的トレーニングフレームワークを提案し、トレーニングプロセスを高速化し、メモリ消費を減らす。 DynaPropは、実行時にアクティベーションと勾配を発生させる低オーバーヘッドプルーニング手法である。 多様なトランスアーキテクチャのハードウェア上でこの手法を効果的に実行するために,アクセルの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークELECTORを提案する。 このシミュレータは,提案手法であるTransCODEと組み合わせて,与えられたタスクに対して高い精度で最高の性能のモデルを得るとともに,レイテンシ,エネルギー消費,チップ面積を最小化する。 得られた変圧器・加速器対は、最新技術対よりも0.3%高い精度を達成し、5.2$\times$低レイテンシと3.0$\times$低エネルギー消費をもたらす。

Automated co-design of machine learning models and evaluation hardware is critical for efficiently deploying such models at scale. Despite the state-of-the-art performance of transformer models, they are not yet ready for execution on resource-constrained hardware platforms. High memory requirements and low parallelizability of the transformer architecture exacerbate this problem. Recently-proposed accelerators attempt to optimize the throughput and energy consumption of transformer models. However, such works are either limited to a one-sided search of the model architecture or a restricted set of off-the-shelf devices. Furthermore, previous works only accelerate model inference and not training, which incurs substantially higher memory and compute resources, making the problem even more challenging. To address these limitations, this work proposes a dynamic training framework, called DynaProp, that speeds up the training process and reduces memory consumption. DynaProp is a low-overhead pruning method that prunes activations and gradients at runtime. To effectively execute this method on hardware for a diverse set of transformer architectures, we propose ELECTOR, a framework that simulates transformer inference and training on a design space of accelerators. We use this simulator in conjunction with the proposed co-design technique, called TransCODE, to obtain the best-performing models with high accuracy on the given task and minimize latency, energy consumption, and chip area. The obtained transformer-accelerator pair achieves 0.3% higher accuracy than the state-of-the-art pair while incurring 5.2$\times$ lower latency and 3.0$\times$ lower energy consumption.
翻訳日:2023-03-28 17:05:23 公開日:2023-03-27
# GPT-PINN:パラメトリックPDEの非侵入的メタラーニングに向けた物理インフォームニューラルネットワークの生成

GPT-PINN: Generative Pre-Trained Physics-Informed Neural Networks toward non-intrusive Meta-learning of parametric PDEs ( http://arxiv.org/abs/2303.14878v1 )

ライセンス: Link先を確認
Yanlai Chen and Shawn Koohy(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、ディープニューラルネットワークの表現性と現代の異種ハードウェアの計算能力を活用する非線形偏微分方程式(PDE)の数値解を得るための強力なツールである。 しかし、そのトレーニングは、特にマルチクエリとリアルタイムのシミュレーション設定では、まだ時間がかかり、パラメータ化は過度に過剰になることが多い。 本稿では、パラメトリックPDEの設定における課題を緩和するために、GPT-PINN(Generative Pre-Trained PINN)を提案する。 GPT-PINNはパラメトリックシステムのための新しいメタラーニングパラダイムである。 ネットワークのネットワークとして、その外部/メタネットワークは、ニューロンの数を著しく減らした1つの隠れ層のみを持つハイパーリダクションである。 さらに、各隠れたニューロンの活性化機能は、事前に選択されたシステム構成で事前訓練された(フル)ピンである。 メタネットワークは適応的にシステムのパラメトリック依存を ``learns' とし、この隠れたレイヤ1ニューロンを '`grows' とした。 最後に、この適応的に選択されたパラメータ値のセットで訓練された非常に少数のネットワークを包含することで、メタネットワークはパラメータ領域全体にわたってパラメトリックシステムの代理解を正確かつ効率的に生成することができる。

Physics-Informed Neural Network (PINN) has proven itself a powerful tool to obtain the numerical solutions of nonlinear partial differential equations (PDEs) leveraging the expressivity of deep neural networks and the computing power of modern heterogeneous hardware. However, its training is still time-consuming, especially in the multi-query and real-time simulation settings, and its parameterization often overly excessive. In this paper, we propose the Generative Pre-Trained PINN (GPT-PINN) to mitigate both challenges in the setting of parametric PDEs. GPT-PINN represents a brand-new meta-learning paradigm for parametric systems. As a network of networks, its outer-/meta-network is hyper-reduced with only one hidden layer having significantly reduced number of neurons. Moreover, its activation function at each hidden neuron is a (full) PINN pre-trained at a judiciously selected system configuration. The meta-network adaptively ``learns'' the parametric dependence of the system and ``grows'' this hidden layer one neuron at a time. In the end, by encompassing a very small number of networks trained at this set of adaptively-selected parameter values, the meta-network is capable of generating surrogate solutions for the parametric system across the entire parameter domain accurately and efficiently.
翻訳日:2023-03-28 17:04:57 公開日:2023-03-27
# 学習に基づく適応最適化による誤差緩和量子近似最適化

Error-mitigated Quantum Approximate Optimization via Learning-based Adaptive Optimization ( http://arxiv.org/abs/2303.14877v1 )

ライセンス: Link先を確認
Lixue Cheng, Yu-Qin Chen, Shi-Xin Zhang, Shengyu Zhang(参考訳) 組合せ最適化問題はユビキタスであり、一般には計算が難しい。 量子コンピューティングは、これらの問題のいくつかを解決するための潜在的な計算上の利点を提供する強力なツールとして考えられている。 最も代表的な量子古典ハイブリッドアルゴリズムの1つである量子近似最適化アルゴリズム(QAOA)は、離散最適化問題を連続回路パラメータ領域上の古典最適化問題に変換することにより、ある種の組合せ最適化問題を解決するように設計されている。 パラメータ変数に対するQAOAの客観的な展望は、広範に局所的な最小値と不規則なプラトーに対して悪名高く、訓練におけるその生存性は古典的最適化アルゴリズムの有効性に大きく依存している。 QAOAの性能を向上させるため,QAOAの適応型古典最適化器であるDARBOを設計した。 実験の結果,アルゴリズムは速度,精度,安定性の点で従来の勾配・勾配のない最適化よりも大幅に優れていた。 また,超伝導量子プロセッサ上での完全な最適化ループを成功させることで,測定効率と量子ノイズの抑制の問題にも対処した。 この研究はqaoaの全力を解き放ち、実用的な古典的タスクにおいて量子優位を達成する道を開くのに役立つ。

Combinatorial optimization problems are ubiquitous and computationally hard to solve in general. Quantum computing is envisioned as a powerful tool offering potential computational advantages for solving some of these problems. Quantum approximate optimization algorithm (QAOA), one of the most representative quantum-classical hybrid algorithms, is designed to solve certain combinatorial optimization problems by transforming a discrete optimization problem into a classical optimization problem over a continuous circuit parameter domain. QAOA objective landscape over the parameter variables is notorious for pervasive local minima and barren plateaus, and its viability in training significantly relies on the efficacy of the classical optimization algorithm. To enhance the performance of QAOA, we design double adaptive-region Bayesian optimization (DARBO), an adaptive classical optimizer for QAOA. Our experimental results demonstrate that the algorithm greatly outperforms conventional gradient-based and gradient-free optimizers in terms of speed, accuracy, and stability. We also address the issues of measurement efficiency and the suppression of quantum noise by successfully conducting the full optimization loop on the superconducting quantum processor. This work helps to unlock the full power of QAOA and paves the way toward achieving quantum advantage in practical classical tasks.
翻訳日:2023-03-28 17:04:23 公開日:2023-03-27
# 動的環境における人間-ロボットマルチエージェントシステムの最適作業計画と実行

Optimal task and motion planning and execution for human-robot multi-agent systems in dynamic environments ( http://arxiv.org/abs/2303.14874v1 )

ライセンス: Link先を確認
Marco Faroni, Alessandro Umbrico, Manuel Beschi, Andrea Orlandini, Amedeo Cesta, Nicola Pedrocchi(参考訳) マルチエージェントシステムにおけるシンボリック推論と幾何学的推論の組み合わせは、計画、スケジューリング、同期問題を含む困難なタスクである。 既存の作品は、エージェントと環境の相互作用のためにこれらのシステム固有のタスクの持続時間と幾何学的実現可能性の変動を見落としていた。 本研究では,時間的・空間的変動を考慮したタスクのシーケンシング,代入,実行を最適化するためのタスクと動作計画の組み合わせを提案する。 このフレームワークはタスクとアクションの分離に依存しており、アクションはシンボリックタスクの幾何学的実現の1つである。 タスクレベルでは、タイムラインベースの計画では、時間的制約、持続時間変動、タスクのシナジーな割り当てを扱う。 行動レベルでは、環境の変化を扱う実際の動きのオンラインモーションプランニング計画。 ロボットアームと人間の作業員が可能な限り短時間でモザイクを組み立てる協調的な製造シナリオにおいて,アプローチの有効性を示す。 既存の作業と比較して、我々のアプローチは幅広いアプリケーションに適用され、プロセスの実行時間を短縮します。

Combining symbolic and geometric reasoning in multi-agent systems is a challenging task that involves planning, scheduling, and synchronization problems. Existing works overlooked the variability of task duration and geometric feasibility that is intrinsic to these systems because of the interaction between agents and the environment. We propose a combined task and motion planning approach to optimize sequencing, assignment, and execution of tasks under temporal and spatial variability. The framework relies on decoupling tasks and actions, where an action is one possible geometric realization of a symbolic task. At the task level, timeline-based planning deals with temporal constraints, duration variability, and synergic assignment of tasks. At the action level, online motion planning plans for the actual movements dealing with environmental changes. We demonstrate the approach effectiveness in a collaborative manufacturing scenario, in which a robotic arm and a human worker shall assemble a mosaic in the shortest time possible. Compared with existing works, our approach applies to a broader range of applications and reduces the execution time of the process.
翻訳日:2023-03-28 17:03:57 公開日:2023-03-27
# ヒト脳のbertニューロンと生体ニューロンにおける人工ニューロンの結合

Coupling Artificial Neurons in BERT and Biological Neurons in the Human Brain ( http://arxiv.org/abs/2303.14871v1 )

ライセンス: Link先を確認
Xu Liu, Mengyue Zhou, Gaosheng Shi, Yu Du, Lin Zhao, Zihao Wu, David Liu, Tianming Liu, Xintao Hu(参考訳) 計算自然言語処理(NLP)モデルと人間の脳内の言語へのニューラルレスポンスのリンクは、言語知覚の根底にある神経表現を遠ざけるための努力を促進する一方で、NLPモデルの評価と改善のための神経言語学的証拠を提供する。 NLPモデルの表現と言語入力によって誘発される脳活動のマッピングは通常、この共生を明らかにするために配置される。 しかし、2つの重大な問題が進行を制限する。 1)モデルの表現(人工ニューロン,ANs)は層レベルの埋め込みに依存しているので,粒度を欠く。 2)脳活動(生体ニューロン、BN)は、孤立した皮質単位(すなわちボクセル/領域)の神経記録に限られており、脳機能間の結合や相互作用が欠如している。 これらの問題に対処するために この研究では 1) 変換器ベースNLPモデル(BERT)における粒度の細かいANを定義し、その時間的アクティベーションを入力テキストシーケンスに測定する。 2) BNを、機能的磁気共鳴画像(fMRI)データから抽出された機能的脳ネットワーク(FBN)として定義し、脳内の機能的相互作用を捉える。 3) 時間的活性化の同期を最大化することによりANとBNを結合する。 私たちの実験結果が示す 1) ANとBNの活性化は著しく同期している。 2 ANは、有意義な言語/意味情報を持ち、BN署名に固執する。 3)アンカーされたBNは神経言語学的文脈で解釈できる。 本研究は,言語に応答してトランスフォーマーに基づくNLPモデルとニューラルアクティビティをリンクする,新しい,汎用的で効果的なフレームワークを導入し,脳にインスパイアされたNLPモデルの評価や開発などの今後の研究に新たな洞察を与える可能性がある。

Linking computational natural language processing (NLP) models and neural responses to language in the human brain on the one hand facilitates the effort towards disentangling the neural representations underpinning language perception, on the other hand provides neurolinguistics evidence to evaluate and improve NLP models. Mappings of an NLP model's representations of and the brain activities evoked by linguistic input are typically deployed to reveal this symbiosis. However, two critical problems limit its advancement: 1) The model's representations (artificial neurons, ANs) rely on layer-level embeddings and thus lack fine-granularity; 2) The brain activities (biological neurons, BNs) are limited to neural recordings of isolated cortical unit (i.e., voxel/region) and thus lack integrations and interactions among brain functions. To address those problems, in this study, we 1) define ANs with fine-granularity in transformer-based NLP models (BERT in this study) and measure their temporal activations to input text sequences; 2) define BNs as functional brain networks (FBNs) extracted from functional magnetic resonance imaging (fMRI) data to capture functional interactions in the brain; 3) couple ANs and BNs by maximizing the synchronization of their temporal activations. Our experimental results demonstrate 1) The activations of ANs and BNs are significantly synchronized; 2) the ANs carry meaningful linguistic/semantic information and anchor to their BN signatures; 3) the anchored BNs are interpretable in a neurolinguistic context. Overall, our study introduces a novel, general, and effective framework to link transformer-based NLP models and neural activities in response to language and may provide novel insights for future studies such as brain-inspired evaluation and development of NLP models.
翻訳日:2023-03-28 17:03:32 公開日:2023-03-27
# オープンワールドオブジェクト検出の課題への取り組み

Addressing the Challenges of Open-World Object Detection ( http://arxiv.org/abs/2303.14930v1 )

ライセンス: Link先を確認
David Pershouse, Feras Dayoub, Dimity Miller, Niko S\"underhauf(参考訳) オープンワールドオブジェクト検出(OWOD)では,オブジェクト検出者は既知のクラスからオブジェクトを識別し,新しいオブジェクトを識別し,継続的に学習する必要がある。 以前の研究は、新しい物体を検出する能力が比較的低い検出器と、既知のクラスの1つとして新しい物体を分類する可能性の高い検出器を生み出した。 OWODが提示する3つの主要な課題を特定し,これら3つの課題に対処するオープンワールドオブジェクト検出器OW-RCNNを導入することで,この問題に対処する。 OW-RCNNは、MS-COCOのオープンワールド評価プロトコルを用いて、新しいオブジェクトを検知する能力(U-リコールの16-21%の絶対的な増加)を大幅に増加させ、既知のクラスの1つとして分類されるのを回避し(A-OSEの最大52%の削減)、既知のクラスのパフォーマンスを維持しながら、それらを段階的に検出する能力(mAPの1-6%の絶対的な増加)を示す。

We address the challenging problem of open world object detection (OWOD), where object detectors must identify objects from known classes while also identifying and continually learning to detect novel objects. Prior work has resulted in detectors that have a relatively low ability to detect novel objects, and a high likelihood of classifying a novel object as one of the known classes. We approach the problem by identifying the three main challenges that OWOD presents and introduce OW-RCNN, an open world object detector that addresses each of these three challenges. OW-RCNN establishes a new state of the art using the open-world evaluation protocol on MS-COCO, showing a drastically increased ability to detect novel objects (16-21% absolute increase in U-Recall), to avoid their misclassification as one of the known classes (up to 52% reduction in A-OSE), and to incrementally learn to detect them while maintaining performance on previously known classes (1-6% absolute increase in mAP).
翻訳日:2023-03-28 16:58:09 公開日:2023-03-27
# キーフレームに基づく動作補間のためのインシシトモーションマニフォールドを用いた連続中間トークン学習

Continuous Intermediate Token Learning with Implicit Motion Manifold for Keyframe Based Motion Interpolation ( http://arxiv.org/abs/2303.14926v1 )

ライセンス: Link先を確認
Clinton Ansun Mo, Kun Hu, Chengjiang Long, Zhiyong Wang(参考訳) シャープなキーフレームから洗練された3Dモーションを導出することは、連続性と例外的な骨格精度のために特に難しい問題である。 アクション機能は、しばしば一連のキーフレームから正確に導出することができるため、トランスフォーマーでグローバルコンテキストを活用することは、有望なデータ駆動埋め込みアプローチである。 しかし、既存の方法は、キーフレームと基本的な補間法を用いて、連続性のための補間中間フレームの入力を伴うことが多い。 本稿では,鍵フレームに基づく制約付き潜在運動多様体を定式化するための新しい枠組みを提案する。 特に,提案手法は,潜在運動部分空間,すなわちキーフレーム符号化ステージと中間トークン生成ステージとを識別する2つの段階と,多様体から動きデータを外挿して構成するその後の動き合成ステージとからなる。 提案手法は,LaFAN1 と CMU Mocap の双方で実施した広範囲な実験を通じて,より優れた補間精度と地上の真理運動との視覚的類似性を実証する。

Deriving sophisticated 3D motions from sparse keyframes is a particularly challenging problem, due to continuity and exceptionally skeletal precision. The action features are often derivable accurately from the full series of keyframes, and thus, leveraging the global context with transformers has been a promising data-driven embedding approach. However, existing methods are often with inputs of interpolated intermediate frame for continuity using basic interpolation methods with keyframes, which result in a trivial local minimum during training. In this paper, we propose a novel framework to formulate latent motion manifolds with keyframe-based constraints, from which the continuous nature of intermediate token representations is considered. Particularly, our proposed framework consists of two stages for identifying a latent motion subspace, i.e., a keyframe encoding stage and an intermediate token generation stage, and a subsequent motion synthesis stage to extrapolate and compose motion data from manifolds. Through our extensive experiments conducted on both the LaFAN1 and CMU Mocap datasets, our proposed method demonstrates both superior interpolation accuracy and high visual similarity to ground truth motions.
翻訳日:2023-03-28 16:57:46 公開日:2023-03-27
# 結合ボソニックおよび離散変数量子符号に基づく全光多重量子リピータ

All-photonic multiplexed quantum repeaters based on concatenated bosonic and discrete-variable quantum codes ( http://arxiv.org/abs/2303.14923v1 )

ライセンス: Link先を確認
Filip Rozp\k{e}dek, Kaushik P. Seshadreesan, Paul Polakos, Liang Jiang, Saikat Guha(参考訳) 長距離量子通信は、距離を持つ信号の指数的減衰を克服するために量子リピータを使用する必要がある。 そのようなリピータの1つのクラスは、通信チャネルの損失を克服するために量子誤差補正を利用する。 本稿では,ボソニックな Gottesman-Kitaev-Preskill (GKP) 符号を多重化した双方向リピータアーキテクチャで使用するための新しい戦略を提案する。 我々が利用しているGKP符号の重要な特徴は、GKP量子ビットが決定論的2量子ビットゲートを容易に受け入れることである。 さらに、このようなclique-clustersの必要性を軽減するには、単一のプロトコル実行から少なくとも1つのエンドツーエンドの絡み合ったペアの抽出に制限されなくなります。 実際、gkp量子ビットの測定中に生成されたアナログ情報の可用性のおかげで、推定された品質に基づいてリンクを接続するより優れた絡み合い交換手順を設計できる。 これにより、すべての多重リンクを使用することができ、単一のプロトコルからの大量のリンクがエンドツーエンドの絡み合いを生成するのに役立ちます。 このアーキテクチャは,GKP状態の有限スキーズとホモダイン検出の非効率性から生じる不完全性に対して,高速なエンドツーエンドの絡み合い生成を可能にする。 特に、1000kmを超える長距離量子通信は、GKPのスキーズが13dB未満であっても可能であることを示す。 また,提案方式の実装に必要なGKP量子ビット数を定量化し,優れたハードウェアパラメータに対して,プロトコルの実行毎に約10^3-10^4$GKP量子ビットを必要とすることを確認する。

Long distance quantum communication will require the use of quantum repeaters to overcome the exponential attenuation of signal with distance. One class of such repeaters utilizes quantum error correction to overcome losses in the communication channel. Here we propose a novel strategy of using the bosonic Gottesman-Kitaev-Preskill (GKP) code in a two-way repeater architecture with multiplexing. The crucial feature of the GKP code that we make use of is the fact that GKP qubits easily admit deterministic two-qubit gates, hence allowing for multiplexing without the need for generating large cluster states as required in previous all-photonic architectures based on discrete-variable codes. Moreover, alleviating the need for such clique-clusters entails that we are no longer limited to extraction of at most one end-to-end entangled pair from a single protocol run. In fact, thanks to the availability of the analog information generated during the measurements of the GKP qubits, we can design better entanglement swapping procedures in which we connect links based on their estimated quality. This enables us to use all the multiplexed links so that large number of links from a single protocol run can contribute to the generation of the end-to-end entanglement. We find that our architecture allows for high-rate end-to-end entanglement generation and is resilient to imperfections arising from finite squeezing in the GKP state preparation and homodyne detection inefficiency. In particular we show that long-distance quantum communication over more than 1000 km is possible even with less than 13 dB of GKP squeezing. We also quantify the number of GKP qubits needed for the implementation of our scheme and find that for good hardware parameters our scheme requires around $10^3-10^4$ GKP qubits per repeater per protocol run.
翻訳日:2023-03-28 16:57:26 公開日:2023-03-27
# CAT:協力的対人訓練

CAT:Collaborative Adversarial Training ( http://arxiv.org/abs/2303.14922v1 )

ライセンス: Link先を確認
Xingbin Liu, Huafeng Kuang, Xianming Lin, Yongjian Wu, Rongrong Ji(参考訳) 敵対的なトレーニングは、ニューラルネットワークの堅牢性を改善することができる。 従来の方法は、単一の敵の訓練戦略に焦点を合わせ、異なる戦略で訓練されたモデル特性を考慮しない。 先行手法を再検討することで,サンプルインスタンスに対して異なる対向訓練手法が異なる頑健性を持つことが分かった。 例えば、サンプルインスタンスは標準敵訓練(AT)でトレーニングされたモデルで正しく分類できるが、TRADESでトレーニングされたモデルでは、その逆では分類できない。 そこで本研究では,ニューラルネットワークのロバスト性を改善するための協調学習フレームワークを提案する。 具体的には、異なる対戦型トレーニング手法を使用して、堅牢なモデルをトレーニングし、トレーニングプロセス中にモデルが知識と対話できるようにします。 CAT(Collaborative Adversarial Training)は、堅牢性と正確性の両方を改善する。 各種ネットワークおよびデータセットの大規模な実験により,本手法の有効性が検証された。 CATは、Auto-Attackベンチマークの下でCIFAR-10上の追加データを使用することなく、最先端の敵の堅牢性を達成する。 コードはhttps://github.com/liuxingbin/catで入手できる。

Adversarial training can improve the robustness of neural networks. Previous methods focus on a single adversarial training strategy and do not consider the model property trained by different strategies. By revisiting the previous methods, we find different adversarial training methods have distinct robustness for sample instances. For example, a sample instance can be correctly classified by a model trained using standard adversarial training (AT) but not by a model trained using TRADES, and vice versa. Based on this observation, we propose a collaborative adversarial training framework to improve the robustness of neural networks. Specifically, we use different adversarial training methods to train robust models and let models interact with their knowledge during the training process. Collaborative Adversarial Training (CAT) can improve both robustness and accuracy. Extensive experiments on various networks and datasets validate the effectiveness of our method. CAT achieves state-of-the-art adversarial robustness without using any additional data on CIFAR-10 under the Auto-Attack benchmark. Code is available at https://github.com/liuxingbin/CAT.
翻訳日:2023-03-28 16:56:52 公開日:2023-03-27
# 電子健康記録における表予測問題に対する事前学習言語モデルの適用

Adapting Pretrained Language Models for Solving Tabular Prediction Problems in the Electronic Health Record ( http://arxiv.org/abs/2303.14920v1 )

ライセンス: Link先を確認
Christopher McMaster, David FL Liew, Douglas EV Pires(参考訳) 本稿ではドメイン適応を用いた電子健康記録(EHR)タスクにDeBERTaモデルを適用するアプローチを提案する。 我々は,MIMIC-III放電サマリー,臨床ノート,放射線学報告,PubMed要約からなるデータセット上で,小さなDeBERTaモデルを事前訓練する。 我々は,このモデルの性能を,臨床用EHR(MeDeBERTa)とXGBoostモデルから臨床用テキストを事前学習したDeBERTaモデルと比較した。 また,MIMIC-IV-EDデータセットを用いて,3つのベンチマークタスクの性能評価を行った。 データを前処理してテキストフォーマットに変換し、元のデータセットの4バージョンを生成して、データ処理とデータインクルージョンを比較します。 その結果,提案手法は3つのタスクのうち2つのモデル (p<0.001) よりも優れており,第3のタスクのパフォーマンスと一致していることがわかった。

We propose an approach for adapting the DeBERTa model for electronic health record (EHR) tasks using domain adaptation. We pretrain a small DeBERTa model on a dataset consisting of MIMIC-III discharge summaries, clinical notes, radiology reports, and PubMed abstracts. We compare this model's performance with a DeBERTa model pre-trained on clinical texts from our institutional EHR (MeDeBERTa) and an XGBoost model. We evaluate performance on three benchmark tasks for emergency department outcomes using the MIMIC-IV-ED dataset. We preprocess the data to convert it into text format and generate four versions of the original datasets to compare data processing and data inclusion. The results show that our proposed approach outperforms the alternative models on two of three tasks (p<0.001) and matches performance on the third task, with the use of descriptive columns improving performance over the original column names.
翻訳日:2023-03-28 16:56:37 公開日:2023-03-27
# 異常感応活性化マッピングによるcovid-19の疑わしい領域の同定

Identifying Suspicious Regions of Covid-19 by Abnormality-Sensitive Activation Mapping ( http://arxiv.org/abs/2303.14901v1 )

ライセンス: Link先を確認
Ryo Toda, Hayato Itoh, Masahiro Oda, Yuichiro Hayashi, Yoshito Otake, Masahiro Hashimoto, Toshiaki Akashi, Shigeki Aoki, Kensaku Mori(参考訳) 胸部CT上における新型コロナウイルス(COVID-19)の疑わしい部位の同定を完全自動化する手法を提案する。 新型コロナウイルスの診断における胸部CTスキャンの主な役割は、疾患特有の炎症の同定である。 この作業は一般的にCTボリュームの解釈を通じて放射線技師が行うが,作業負荷が大きいため,コンピュータを用いた自動解析法が望まれる。 ほとんどのコンピュータ支援診断研究は、識別に必要な要素の一部にのみ対応している。 本研究では,3次元アテンション機構を持つ2.5次元CNNを用いて,分類タスクによる識別手法を実現する。 注意重み付け特徴に正の勾配に基づくバックプロパゲーションを適用して不審領域を可視化する。 提案手法の一般化能力を明らかにするために,社内データセットと公開データセットの2つの実験を行った。 提案されたアーキテクチャはすべてのデータセットに対して0.900以上のAUCを達成し、感度は0.853 \pm 0.036$、特異性は0.870 \pm 0.040$である。 また, 放射線検査で指摘された悪性病変を疑似部位として同定できる。

This paper presents a fully-automated method for the identification of suspicious regions of a coronavirus disease (COVID-19) on chest CT volumes. One major role of chest CT scanning in COVID-19 diagnoses is identification of an inflammation particular to the disease. This task is generally performed by radiologists through an interpretation of the CT volumes, however, because of the heavy workload, an automatic analysis method using a computer is desired. Most computer-aided diagnosis studies have addressed only a portion of the elements necessary for the identification. In this work, we realize the identification method through a classification task by using a 2.5-dimensional CNN with three-dimensional attention mechanisms. We visualize the suspicious regions by applying a backpropagation based on positive gradients to attention-weighted features. We perform experiments on an in-house dataset and two public datasets to reveal the generalization ability of the proposed method. The proposed architecture achieved AUCs of over 0.900 for all the datasets, and mean sensitivity $0.853 \pm 0.036$ and specificity $0.870 \pm 0.040$. The method can also identify notable lesions pointed out in the radiology report as suspicious regions.
翻訳日:2023-03-28 16:56:19 公開日:2023-03-27
# 言語間時間知識グラフ推論のための相互ペース知識蒸留

Mutually-paced Knowledge Distillation for Cross-lingual Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2303.14898v1 )

ライセンス: Link先を確認
Ruijie Wang, Zheng Li, Jingfeng Yang, Tianyu Cao, Chao Zhang, Bing Yin and Tarek Abdelzaher(参考訳) 本稿では,低リソース言語における時間的知識グラフ(TKG)の推論を容易にするための言語間時間的知識グラフ推論問題について検討する。 TKGを横断する言語間蒸留能力は、特に低リソース言語において、非常に不完全なTKGに対して既存の推論手法が不満足な性能を示すことを考慮して、ますます重要になっている。 しかし、2つの面で大きな課題がある。 まず、知識伝達のブリッジとして機能する言語間アライメントは、2つのTKG間で十分な知識を伝達するには不十分である。 第二に、アライメントエンティティの時間的知識の相違、特にアライメントが信頼できない場合、知識蒸留過程を誤解させる可能性がある。 そこで本研究では,TKGで訓練された教師ネットワークが,TKGを対象とする教師ネットワークのトレーニングをアライメントモジュールでガイドできる知識蒸留モデルMP-KDを提案する。 具体的には,mp-kdは,表現モジュールによって抽出された時間情報に基づいて,tkg間の擬似アライメントを生成する。 知識伝達の有効性を最大化し, 時間的知識の相違による騒音を制御するため, 時間的言語間注目機構によりMP-KDを強化し, そのアライメント強度を動的に推定する。 2つの手順は、モデルトレーニングとともに相互にペースします。 EventKGベンチマークにおける12の言語間TKG転送タスクに関する大規模な実験により,提案手法の有効性が示された。

This paper investigates cross-lingual temporal knowledge graph reasoning problem, which aims to facilitate reasoning on Temporal Knowledge Graphs (TKGs) in low-resource languages by transfering knowledge from TKGs in high-resource ones. The cross-lingual distillation ability across TKGs becomes increasingly crucial, in light of the unsatisfying performance of existing reasoning methods on those severely incomplete TKGs, especially in low-resource languages. However, it poses tremendous challenges in two aspects. First, the cross-lingual alignments, which serve as bridges for knowledge transfer, are usually too scarce to transfer sufficient knowledge between two TKGs. Second, temporal knowledge discrepancy of the aligned entities, especially when alignments are unreliable, can mislead the knowledge distillation process. We correspondingly propose a mutually-paced knowledge distillation model MP-KD, where a teacher network trained on a source TKG can guide the training of a student network on target TKGs with an alignment module. Concretely, to deal with the scarcity issue, MP-KD generates pseudo alignments between TKGs based on the temporal information extracted by our representation module. To maximize the efficacy of knowledge transfer and control the noise caused by the temporal knowledge discrepancy, we enhance MP-KD with a temporal cross-lingual attention mechanism to dynamically estimate the alignment strength. The two procedures are mutually paced along with model training. Extensive experiments on twelve cross-lingual TKG transfer tasks in the EventKG benchmark demonstrate the effectiveness of the proposed MP-KD method.
翻訳日:2023-03-28 16:56:00 公開日:2023-03-27
# Seer:潜時拡散モデルを用いた言語指示ビデオ予測

Seer: Language Instructed Video Prediction with Latent Diffusion Models ( http://arxiv.org/abs/2303.14897v1 )

ライセンス: Link先を確認
Xianfan Gu, Chuan Wen, Jiaming Song, Yang Gao(参考訳) 将来の軌道を想像することは、ロボットが音を立てて目標を達成するための鍵だ。 したがって、テキストコンディショニングビデオ予測(tvp)は、与えられた言語命令と参照フレームによる将来のビデオフレームの予測など、一般的なロボットポリシー学習を促進するために必要なタスクである。 命令と高忠実度フレームで指定されたタスクレベルの目標を、大規模データと計算を必要とする、非常に難しいタスクである。 この課題に対処し,ロボットに未来を予知する能力を与えるため,時間軸に沿ったテキスト・トゥ・イメージ(T2I)安定拡散モデルを膨らませることで,サンプルと計算効率のよいモデルである「textbf{Seer}」を提案する。 フレーム間の事前学習T2Iモデルの豊富な事前知識を伝播させるために, 自己回帰的空間的注意とフレーム列テキスト分解という2つの新しい手法を用いて, U-Netと言語条件モデルを構築した。 十分に設計されたアーキテクチャにより、Seerは少数のレイヤーを少量のデータで微調整することで、高忠実でコヒーレントで命令に沿ったビデオフレームを生成することができる。 v2(ssv2)とbridgedataデータセットによる実験結果は、4つのrtx 3090 gpuで約210時間トレーニングを行い、ssv2上で現在のsomaモデルのfvdを290から200に減らし、人間評価において少なくとも70\%の選好を達成するという、優れたビデオ予測性能を示している。

Imagining the future trajectory is the key for robots to make sound planning and successfully reach their goals. Therefore, text-conditioned video prediction (TVP) is an essential task to facilitate general robot policy learning, i.e., predicting future video frames with a given language instruction and reference frames. It is a highly challenging task to ground task-level goals specified by instructions and high-fidelity frames together, requiring large-scale data and computation. To tackle this task and empower robots with the ability to foresee the future, we propose a sample and computation-efficient model, named \textbf{Seer}, by inflating the pretrained text-to-image (T2I) stable diffusion models along the temporal axis. We inflate the denoising U-Net and language conditioning model with two novel techniques, Autoregressive Spatial-Temporal Attention and Frame Sequential Text Decomposer, to propagate the rich prior knowledge in the pretrained T2I models across the frames. With the well-designed architecture, Seer makes it possible to generate high-fidelity, coherent, and instruction-aligned video frames by fine-tuning a few layers on a small amount of data. The experimental results on Something Something V2 (SSv2) and Bridgedata datasets demonstrate our superior video prediction performance with around 210-hour training on 4 RTX 3090 GPUs: decreasing the FVD of the current SOTA model from 290 to 200 on SSv2 and achieving at least 70\% preference in the human evaluation.
翻訳日:2023-03-28 16:55:32 公開日:2023-03-27
# 局所探索のための線形重み移動規則

A Linear Weight Transfer Rule for Local Search ( http://arxiv.org/abs/2303.14894v1 )

ライセンス: Link先を確認
Md Solimul Chowdhury and Cayden R. Codel and Marijn J.H. Heule(参考訳) 分割分散固定重みアルゴリズム (ddfw) は、局所的ミニマにおける重みを満足度から偽化節へ転送する動的局所探索sat解決アルゴリズムである。 ddfwはいくつかのハードコンビネートインスタンスで非常に効果的である。 しかし、その成功にもかかわらず、2005年のデビュー以来ほとんど研究を受けていない。 本稿では,局所ミニマにおける節間の動的重みを移動させる線形重み移動法,局所ミニマにおいて満足節をどのように選択して重みを与えるかの調整,およびフリップする変数を選択する重み付きランダム法という3つの基本アルゴリズムの修正を提案する。 我々はddfwの修正をソルバyalsat上に実装した。 本実験は,過去3年間のSATコンペティションを含む複数のベンチマークにおいて,従来のddfwアルゴリズムと比較して性能が向上したことを示す。 さらに、改良された解法は、Ahmed et al. (2014) の2つのファンデルワーデン数の下界での予想を反論するハードコンビナトリのインスタンスを排他的に解き、30年以上開き続けているハードグラフカラーのインスタンスでうまく機能する。

The Divide and Distribute Fixed Weights algorithm (ddfw) is a dynamic local search SAT-solving algorithm that transfers weight from satisfied to falsified clauses in local minima. ddfw is remarkably effective on several hard combinatorial instances. Yet, despite its success, it has received little study since its debut in 2005. In this paper, we propose three modifications to the base algorithm: a linear weight transfer method that moves a dynamic amount of weight between clauses in local minima, an adjustment to how satisfied clauses are chosen in local minima to give weight, and a weighted-random method of selecting variables to flip. We implemented our modifications to ddfw on top of the solver yalsat. Our experiments show that our modifications boost the performance compared to the original ddfw algorithm on multiple benchmarks, including those from the past three years of SAT competitions. Moreover, our improved solver exclusively solves hard combinatorial instances that refute a conjecture on the lower bound of two Van der Waerden numbers set forth by Ahmed et al. (2014), and it performs well on a hard graph-coloring instance that has been open for over three decades.
翻訳日:2023-03-28 16:54:59 公開日:2023-03-27
# 3dポイントクラウド自動アノテーションのためのコンテキスト認識トランスフォーマー

Context-Aware Transformer for 3D Point Cloud Automatic Annotation ( http://arxiv.org/abs/2303.14893v1 )

ライセンス: Link先を確認
Xiaoyan Qian, Chang Liu, Xiaojuan Qi, Siew-Chong Tan, Edmund Lam, Ngai Wong(参考訳) 3dポイントクラウドを手動でアノテートするのは手間がかかるため、3d自動アノテーションは注目を集めている。 しかし、既存の手法は通常複雑で、3Dフォアグラウンド/バックグラウンドセグメンテーション、円筒形オブジェクトの提案、ポイントコンプリートなどである。 さらに、彼らはしばしば3dアノテーションのハードサンプルに特に有益であるオブジェクト間の特徴関係を見落とします。 そこで本研究では,2Dボックスから正確な3Dボックスアノテーションを生成するための3Dボックスラベラとして,簡易かつ効果的なコンテキスト認識変換器(CAT)を提案する。 我々は、CATエンコーダがオブジェクト内エンコーダ(ローカル)とオブジェクト間エンコーダ(グロバル)で構成され、それぞれシーケンスに沿って自己アテンションを行う一般的なエンコーダデコーダアーキテクチャを採用する。 前者は点間の物体間相互作用をモデル化し、後者は異なる物体間の特徴関係を抽出し、シーンレベルの理解を促進する。 ローカルおよびグローバルエンコーダによって、CATはワークフローの合理化によって高品質な3Dボックスアノテーションを生成することができ、KITTIテストセットのハードタスクで既存の最先端のAPを最大1.79%上回ることができる。

3D automatic annotation has received increased attention since manually annotating 3D point clouds is laborious. However, existing methods are usually complicated, e.g., pipelined training for 3D foreground/background segmentation, cylindrical object proposals, and point completion. Furthermore, they often overlook the inter-object feature relation that is particularly informative to hard samples for 3D annotation. To this end, we propose a simple yet effective end-to-end Context-Aware Transformer (CAT) as an automated 3D-box labeler to generate precise 3D box annotations from 2D boxes, trained with a small number of human annotations. We adopt the general encoder-decoder architecture, where the CAT encoder consists of an intra-object encoder (local) and an inter-object encoder (global), performing self-attention along the sequence and batch dimensions, respectively. The former models intra-object interactions among points, and the latter extracts feature relations among different objects, thus boosting scene-level understanding. Via local and global encoders, CAT can generate high-quality 3D box annotations with a streamlined workflow, allowing it to outperform existing state-of-the-art by up to 1.79% 3D AP on the hard task of the KITTI test set.
翻訳日:2023-03-28 16:54:33 公開日:2023-03-27
# 命令型言語モデルを用いた統一テキスト構造化

Unified Text Structuralization with Instruction-tuned Language Models ( http://arxiv.org/abs/2303.14956v1 )

ライセンス: Link先を確認
Xuanfan Ni and Piji Li(参考訳) テキスト構造化は自然言語処理(NLP)の重要な分野の一つであり、情報抽出(IE)と構造形式化から構成される。 しかし、現在のテキスト構造化の研究は、専門的な専門知識を必要とする異なるドメインや言語から手動で注釈付けされた高品質なデータセットが不足している。 さらに、ほとんどのIEメソッドは、エンティティ、リレーション、イベントといった特定のタイプの構造化データのために設計されており、他人に一般化するのは困難である。 本研究では,テキストから多種多様な構造を抽出するために,大規模言語モデル(llm)を指示する簡易かつ効率的な手法を提案する。 より具体的には、テキストをllmに送る前に、それぞれ所望のieタスクと構造体タイプを示すプレフィックスと接尾辞命令を追加します。 2つのLCMの実験では、言語モデルが様々な言語や知識のデータセット上で、他の最先端のメソッドと同等に動作し、命令の内容を変更することで、他のIEサブタスクに一般化できることが示されている。 私たちのアプローチのもう1つの利点は、研究者がローソースやドメイン固有のシナリオ(例えば金融や法学の分野)で、低コストでデータセットを構築するのに役立つことです。

Text structuralization is one of the important fields of natural language processing (NLP) consists of information extraction (IE) and structure formalization. However, current studies of text structuralization suffer from a shortage of manually annotated high-quality datasets from different domains and languages, which require specialized professional knowledge. In addition, most IE methods are designed for a specific type of structured data, e.g., entities, relations, and events, making them hard to generalize to others. In this work, we propose a simple and efficient approach to instruct large language model (LLM) to extract a variety of structures from texts. More concretely, we add a prefix and a suffix instruction to indicate the desired IE task and structure type, respectively, before feeding the text into a LLM. Experiments on two LLMs show that this approach can enable language models to perform comparable with other state-of-the-art methods on datasets of a variety of languages and knowledge, and can generalize to other IE sub-tasks via changing the content of instruction. Another benefit of our approach is that it can help researchers to build datasets in low-source and domain-specific scenarios, e.g., fields in finance and law, with low cost.
翻訳日:2023-03-28 16:47:23 公開日:2023-03-27
# DyGait: 高速歩行認識のための動的表現の爆発

DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition ( http://arxiv.org/abs/2303.14953v1 )

ライセンス: Link先を確認
Ming Wang, Xianda Guo, Beibei Lin, Tian Yang, Zheng Zhu, Lincheng Li, Shunli Zhang and Xin Yu(参考訳) 歩行認識は、歩行パターンを通じて人間のアイデンティティを認識するバイオメトリック技術である。 他のバイオメトリック技術と比較して、歩行認識は偽装が困難であり、被験者の協力なしに長距離の状況に適用できる。 したがって、犯罪防止や社会保障に特有の可能性と幅広い応用がある。 現在、ほとんどの歩行認識手法は、映像フレームから特徴を直接抽出して表現を確立する。 しかし、これらのアーキテクチャは異なる特徴からの表現を等しく学習するが、動的特徴に十分な注意を払っておらず、これはシルエットの動的部分(例えば脚)を時間とともに表現することを指す。 歩行中の身体の動的部分が他の部分(例えばバッグ)よりも情報的であるため,本稿ではDyGaitという新しい高性能なフレームワークを提案する。 これは、動的特徴の抽出に焦点を当てた、歩行認識に関する最初のフレームワークである。 具体的には、動的情報を最大限に活用するために、人体の動的部分の時空間的特徴表現を自動的に確立する動的拡張モジュール(DAM)を提案する。 実験の結果,我々のDyGaitネットワークは,他の最先端歩行認識手法よりも優れていた。 GREWデータセットが71.4%、Gait3Dデータセットが66.3%、CAIA-Bデータセットが98.4%、OU-MVLPデータセットが98.3%である。

Gait recognition is a biometric technology that recognizes the identity of humans through their walking patterns. Compared with other biometric technologies, gait recognition is more difficult to disguise and can be applied to the condition of long-distance without the cooperation of subjects. Thus, it has unique potential and wide application for crime prevention and social security. At present, most gait recognition methods directly extract features from the video frames to establish representations. However, these architectures learn representations from different features equally but do not pay enough attention to dynamic features, which refers to a representation of dynamic parts of silhouettes over time (e.g. legs). Since dynamic parts of the human body are more informative than other parts (e.g. bags) during walking, in this paper, we propose a novel and high-performance framework named DyGait. This is the first framework on gait recognition that is designed to focus on the extraction of dynamic features. Specifically, to take full advantage of the dynamic information, we propose a Dynamic Augmentation Module (DAM), which can automatically establish spatial-temporal feature representations of the dynamic parts of the human body. The experimental results show that our DyGait network outperforms other state-of-the-art gait recognition methods. It achieves an average Rank-1 accuracy of 71.4% on the GREW dataset, 66.3% on the Gait3D dataset, 98.4% on the CASIA-B dataset and 98.3% on the OU-MVLP dataset.
翻訳日:2023-03-28 16:47:02 公開日:2023-03-27
# ユニタリティ極限における普遍四量体極限サイクル

Universal tetramer limit-cycle at the unitarity limit ( http://arxiv.org/abs/2303.14952v1 )

ライセンス: Link先を確認
Tobias Frederico and Mario Gattobigio(参考訳) Efimov とは独立な四ボソン極限サイクルがユニタリ極限においてハミルトン系に現れることを示す。 モデル相互作用は、2-、3-および4-体の短距離ポテンシャルを含み、それぞれ普遍三量体および四量体エネルギー準位に対して3-および4-ボソンの相互に絡み合う。 固定弱有界トリマーに対する2つの連続する普遍四量体のエネルギーの相関に付随する極限サイクルは、主にモデル独立である。 これは、独立四ボソンスケールの普遍的な表現であり、エフィモフスケールを超えるサイクルと関連付けられる。

We demonstrate that a four-boson limit-cycle independent of the Efimov one appears in Hamiltonian systems at the unitary limit. The model interaction contains two-, three- and four-body short-range potentials, which disentangle the interwoven three- and four-boson cycles, for the universal trimer and tetramer energy levels, respectively. The limit-cycle associated with the correlation between the energies of two successive universal tetramer levels for fixed weakly bound trimer is found to be largely model independent. This is a universal manifestation of an independent four-boson scale associated with a cycle beyond the Efimov one.
翻訳日:2023-03-28 16:46:37 公開日:2023-03-27
# ネガティブサンプリングによる文脈化トピックモデルの改善

Improving Contextualized Topic Models with Negative Sampling ( http://arxiv.org/abs/2303.14951v1 )

ライセンス: Link先を確認
Suman Adhya, Avishek Lahiri, Debarshi Kumar Sanyal, Partha Pratim Das(参考訳) 大規模な文書コレクションを探索する主要な手法として、トピックモデリングが登場している。 話題モデリングへの最近のアプローチは、大きな文脈化言語モデルと変分オートエンコーダを用いる。 本稿では,生成するトピックの品質を向上させるために,文脈化トピックモデルに対する負のサンプリング機構を提案する。 特に,モデルトレーニング中に生成された文書トピックベクトルを摂動させ,正しい文書トピックベクトルから再構成された文書を,入力文書と類似し,摂動ベクトルから再構成された文書と区別するように促すために三重項損失を用いる。 公開されている3つのベンチマークデータセットに対する異なるトピック数の実験では、ほとんどの場合、私たちのアプローチはベースラインよりもトピックコヒーレンスの増加につながります。 私たちのモデルは、非常に高いトピックの多様性も達成します。

Topic modeling has emerged as a dominant method for exploring large document collections. Recent approaches to topic modeling use large contextualized language models and variational autoencoders. In this paper, we propose a negative sampling mechanism for a contextualized topic model to improve the quality of the generated topics. In particular, during model training, we perturb the generated document-topic vector and use a triplet loss to encourage the document reconstructed from the correct document-topic vector to be similar to the input document and dissimilar to the document reconstructed from the perturbed vector. Experiments for different topic counts on three publicly available benchmark datasets show that in most cases, our approach leads to an increase in topic coherence over that of the baselines. Our model also achieves very high topic diversity.
翻訳日:2023-03-28 16:46:27 公開日:2023-03-27
# すべての孤立多体系に対する真の多成分非局所性

Genuine Multipartite Nonlocality for All Isolated Many-body Systems ( http://arxiv.org/abs/2303.14943v1 )

ライセンス: Link先を確認
Ming-Xing Luo, Shao-Ming Fei(参考訳) 多体系の非局所性を理解することは、これらのシステムの挙動に関する貴重な知見となり、量子シミュレーションや量子コンピューティングにおいて実用的な応用が期待できる。 ギシンの定理は、ベル非局所性、epr-ステアリング、孤立系の絡み合いという3種類の量子相関の同値性を確立する。 真の多成分相関に関しても同様の結果は存在しない。 我々は,新しいネットワークインフレーション手法を提案することで,この問題に答える。 本手法は, 真のマルチパーティライト非局所性, 真のマルチパーティライトEPRステアリング, および真のマルチパーティライトエンタングルメントが, 任意の孤立多体システムに等価であることを示す。 これは、与えられたソースの複数のコピーからなる膨らませたネットワーク上でのベル試験によって達成される。 デバイス非依存の手法もノイズに対して堅牢である。

Understanding the nonlocality of many-body systems offers valuable insights into the behaviors of these systems and may have practical applications in quantum simulation and quantum computing. Gisin's Theorem establishes the equivalence of three types of quantum correlations: Bell nonlocality, EPR-steering, and entanglement for isolated systems. No similar result exists with regard to genuine multipartite correlations. We answer this open problem by proposing a new network-inflation method. Our approach demonstrates that genuine multipartite nonlocality, genuine multipartite EPR-steering, and genuine multipartite entanglement are equivalent for any isolated many-body system. This is achieved through an extended Bell test on an inflated network consisting of multiple copies of the given sources. The device-independent method is also robust against noise.
翻訳日:2023-03-28 16:46:14 公開日:2023-03-27
# 説明・適応・再訓練:異なる説明方法によるPPM分類器の精度向上方法

Explain, Adapt and Retrain: How to improve the accuracy of a PPM classifier through different explanation styles ( http://arxiv.org/abs/2303.14939v1 )

ライセンス: Link先を確認
Williams Rizzi and Chiara Di Francescomarino and Chiara Ghidini and Fabrizio Maria Maggi(参考訳) 最近の論文では、結果指向予測のための予測プロセス監視(ppm)モデルが誤った予測をもたらす理由を説明するための新しいアプローチが紹介されている。 さらに,最先端のポストホック説明器を用いて得られた説明を活用し,予測者が半自動的に誤りを生じさせる最も一般的な特徴を特定し,その特徴の影響を低減し,予測モデルの精度を向上させる方法を示した。 この研究は、イベントログにおける頻繁な制御フローパターンが、特定の予測を特徴付ける重要な特徴を表すかもしれないという仮定から始まる。 したがって、本稿では、 二 予測プロセスモニタリングにおいて、DECLARE制約を活用でき、この符号化の有効性を予測プロセスモニタリング、特に結果指向予測のタスクにおいて比較することができる新規なエンコーディングを用いる。 (ii) 予測者にミスを起こさせる最も一般的な特徴を特定するために、完全に自動化されたパイプラインを導入する。 3) 提案したパイプラインは, 異なる実生活データセット上で検証することにより, 予測モデルの精度を高める効果を示す。

Recent papers have introduced a novel approach to explain why a Predictive Process Monitoring (PPM) model for outcome-oriented predictions provides wrong predictions. Moreover, they have shown how to exploit the explanations, obtained using state-of-the art post-hoc explainers, to identify the most common features that induce a predictor to make mistakes in a semi-automated way, and, in turn, to reduce the impact of those features and increase the accuracy of the predictive model. This work starts from the assumption that frequent control flow patterns in event logs may represent important features that characterize, and therefore explain, a certain prediction. Therefore, in this paper, we (i) employ a novel encoding able to leverage DECLARE constraints in Predictive Process Monitoring and compare the effectiveness of this encoding with Predictive Process Monitoring state-of-the art encodings, in particular for the task of outcome-oriented predictions; (ii) introduce a completely automated pipeline for the identification of the most common features inducing a predictor to make mistakes; and (iii) show the effectiveness of the proposed pipeline in increasing the accuracy of the predictive model by validating it on different real-life datasets.
翻訳日:2023-03-28 16:45:59 公開日:2023-03-27
# LEURN:ニューラルネットワークによる説明可能な一様ルールの学習

LEURN: Learning Explainable Univariate Rules with Neural Networks ( http://arxiv.org/abs/2303.14937v1 )

ライセンス: Link先を確認
Caglar Aytekin(参考訳) 本稿では,一変量決定規則を学習するニューラルネットワークアーキテクチャであるLEURNを提案する。 LEURNはホワイトボックスアルゴリズムであり、一変量木となり、各段階で説明可能な決定を行う。 各レイヤにおいて、LEURNは、以前にチェックされたルールと対応するレスポンスの埋め込みに基づいて、一変量ルールのセットを見つける。 ルール発見と最終決定機構はどちらもこれらの埋め込みの重み付けされた線形結合であるため、全てのルールの寄与は明確に定式化され、説明可能である。 LEURNは、特徴を選択し、重要な特徴を抽出し、一対のサンプル間のセマンティックな類似性を提供し、生成的に使用し、信頼スコアを与えることができる。 滑らかさパラメータのおかげで、LEURNは決定木やバニラニューラルネットワークのように制御できる。 これらの利点に加えて、LEURNは分類と回帰問題のための30のグラフデータセットにわたる最先端の手法に匹敵するパフォーマンスを達成する。

In this paper, we propose LEURN: a neural network architecture that learns univariate decision rules. LEURN is a white-box algorithm that results into univariate trees and makes explainable decisions in every stage. In each layer, LEURN finds a set of univariate rules based on an embedding of the previously checked rules and their corresponding responses. Both rule finding and final decision mechanisms are weighted linear combinations of these embeddings, hence contribution of all rules are clearly formulated and explainable. LEURN can select features, extract feature importance, provide semantic similarity between a pair of samples, be used in a generative manner and can give a confidence score. Thanks to a smoothness parameter, LEURN can also controllably behave like decision trees or vanilla neural networks. Besides these advantages, LEURN achieves comparable performance to state-of-the-art methods across 30 tabular datasets for classification and regression problems.
翻訳日:2023-03-28 16:45:38 公開日:2023-03-27
# TabIQA: ビジネスドキュメントイメージに関する質問に対する回答

TabIQA: Table Questions Answering on Business Document Images ( http://arxiv.org/abs/2303.14935v1 )

ライセンス: Link先を確認
Phuc Nguyen, Nam Tuan Ly, Hideaki Takeda, and Atsuhiro Takasu(参考訳) ビジネス文書から質問に答えるテーブルには、表構造、クロスドキュメント参照、単純な検索クエリ以上の数値計算を必要とする多くの課題がある。 本稿では,ビジネス文書イメージに関する疑問に答えるために,TabIQAという新しいパイプラインを提案する。 TabIQAが最先端のディープラーニング技術を融合 1) 画像から表の内容や構造情報を抽出すること 2) 数値データ,テキストベースの情報,構造化テーブルからの複雑なクエリに関する様々な質問に答える。 VQAonBD 2023データセットの評価結果は、テーブル関連質問への回答において、有望なパフォーマンスを達成するためのTabIQAの有効性を示す。 tabiqaリポジトリはhttps://github.com/phucty/itabqaで入手できる。

Table answering questions from business documents has many challenges that require understanding tabular structures, cross-document referencing, and additional numeric computations beyond simple search queries. This paper introduces a novel pipeline, named TabIQA, to answer questions about business document images. TabIQA combines state-of-the-art deep learning techniques 1) to extract table content and structural information from images and 2) to answer various questions related to numerical data, text-based information, and complex queries from structured tables. The evaluation results on VQAonBD 2023 dataset demonstrate the effectiveness of TabIQA in achieving promising performance in answering table-related questions. The TabIQA repository is available at https://github.com/phucty/itabqa.
翻訳日:2023-03-28 16:45:24 公開日:2023-03-27
# 空間適応型自己監督学習による実世界の画像認識

Spatially Adaptive Self-Supervised Learning for Real-World Image Denoising ( http://arxiv.org/abs/2303.14934v1 )

ライセンス: Link先を確認
Junyi Li, Zhilu Zhang, Xiaoyu Liu, Chaoyu Feng, Xiaotao Wang, Lei Lei, Wangmeng Zuo(参考訳) 近年,ssid (self-supervised image denoising) が注目されている。 しかし、ほとんどの手法は空間的に独立なノイズを扱うことに重点を置いており、空間的に相関するノイズを持つ実世界のsRGB画像にはほとんど実用性がない。 ノイズ相関を壊すためにピクセルシャッフルダウンサンプリングが提案されているが、画像の元の情報を壊し、ノイズ除去性能を制限している。 本稿では,現実の sRGB 画像の空間適応的監視を求める,この問題を解決するための新しい視点を提案する。 具体的には,ノイズ画像における平坦領域とテクスチャ領域のそれぞれの特性を考慮に入れ,それらを別々に監督する。 平坦な領域では、ノイズ相関画素の影響を排除するため、現在の画素から遠く離れた非隣接画素から監視を安全に導出することができる。 そして、我々は、フラットエリアの監視を提供するために、盲点ネットワークを盲点ネットワーク(BNN)に拡張する。 テクスチャ領域では、監督は隣接するピクセルの内容と密接に関連しなければならない。 LAN自体がBNNの出力によって選択的に制御されるのに対して,我々はその要件を満たすためのローカル・アウェア・ネットワーク(LAN)を提案する。 これら2つの監督を組み合わせることで、デノイジングネットワーク(例えばu-net)をよく訓練することができる。 本手法は実世界のsrgb写真において最先端のssid法に好適な効果を示す。 コードはhttps://github.com/nagejacob/SpatiallyAdaptiveSSIDで公開されている。

Significant progress has been made in self-supervised image denoising (SSID) in the recent few years. However, most methods focus on dealing with spatially independent noise, and they have little practicality on real-world sRGB images with spatially correlated noise. Although pixel-shuffle downsampling has been suggested for breaking the noise correlation, it breaks the original information of images, which limits the denoising performance. In this paper, we propose a novel perspective to solve this problem, i.e., seeking for spatially adaptive supervision for real-world sRGB image denoising. Specifically, we take into account the respective characteristics of flat and textured regions in noisy images, and construct supervisions for them separately. For flat areas, the supervision can be safely derived from non-adjacent pixels, which are much far from the current pixel for excluding the influence of the noise-correlated ones. And we extend the blind-spot network to a blind-neighborhood network (BNN) for providing supervision on flat areas. For textured regions, the supervision has to be closely related to the content of adjacent pixels. And we present a locally aware network (LAN) to meet the requirement, while LAN itself is selectively supervised with the output of BNN. Combining these two supervisions, a denoising network (e.g., U-Net) can be well-trained. Extensive experiments show that our method performs favorably against state-of-the-art SSID methods on real-world sRGB photographs. The code is available at https://github.com/nagejacob/SpatiallyAdaptiveSSID.
翻訳日:2023-03-28 16:45:12 公開日:2023-03-27
# MD-VQA:UGCライブビデオの多次元品質評価

MD-VQA: Multi-Dimensional Quality Assessment for UGC Live Videos ( http://arxiv.org/abs/2303.14933v1 )

ライセンス: Link先を確認
Zicheng Zhang, Wei Wu, Wei Sun, Dangyang Tu, Wei Lu, Xiongkuo Min, Ying Chen, Guangtao Zhai(参考訳) ユーザ生成コンテンツ(UGC)ライブビデオは、キャプチャ手順中に様々な歪みに悩まされ、様々な視覚特性を示す。 このようなソースビデオはさらに圧縮され、メディアサーバプロバイダによってエンコードされ、エンドユーザに配布される。 UGCライブビデオの興隆により、配信プロセスにおけるライブストリーミングビデオの監視とパーセプションに有効なビデオ品質評価(VQA)ツールが必要である。 本稿では,第一種主観的UGC Live VQAデータベースを構築し,有効な評価ツールを開発することで,‘textbf{UGC Live VQA} 問題に対処する。 具体的には、実際のライブストリーミングシナリオで418のソースUGCビデオを収集し、その後の主観的VQA実験のために、異なるビットレートで3,762個の圧縮映像を生成する。 構築したデータベースに基づいて,UGCライブビデオの視覚的品質を,それぞれ意味的,歪み,動き的側面から測定する,Shaunderline{M}ulti-\underline{D}imensional \underline{VQA} (\textbf{MD-VQA})評価器を開発した。 MD-VQAはUGC Live VQAデータベースと既存の圧縮されたUGC VQAデータベースの両方で最先端の性能を実現する。

User-generated content (UGC) live videos are often bothered by various distortions during capture procedures and thus exhibit diverse visual qualities. Such source videos are further compressed and transcoded by media server providers before being distributed to end-users. Because of the flourishing of UGC live videos, effective video quality assessment (VQA) tools are needed to monitor and perceptually optimize live streaming videos in the distributing process. In this paper, we address \textbf{UGC Live VQA} problems by constructing a first-of-a-kind subjective UGC Live VQA database and developing an effective evaluation tool. Concretely, 418 source UGC videos are collected in real live streaming scenarios and 3,762 compressed ones at different bit rates are generated for the subsequent subjective VQA experiments. Based on the built database, we develop a \underline{M}ulti-\underline{D}imensional \underline{VQA} (\textbf{MD-VQA}) evaluator to measure the visual quality of UGC live videos from semantic, distortion, and motion aspects respectively. Extensive experimental results show that MD-VQA achieves state-of-the-art performance on both our UGC Live VQA database and existing compressed UGC VQA databases.
翻訳日:2023-03-28 16:44:49 公開日:2023-03-27
# 視覚言語対応によるブラインド画像品質評価:マルチタスク学習の視点から

Blind Image Quality Assessment via Vision-Language Correspondence: A Multitask Learning Perspective ( http://arxiv.org/abs/2303.14968v1 )

ライセンス: Link先を確認
Weixia Zhang and Guangtao Zhai and Ying Wei and Xiaokang Yang and Kede Ma(参考訳) 画像品質の人間の知覚を基準情報なしで予測するブラインド画像品質評価(BIQA)の進歩を目指す。 モデルパラメータの共有と損失重み付けが自動的に決定される方法で、BIQAの汎用的かつ自動化されたマルチタスク学習手法を開発し、他のタスクからの補助的知識を活用する。 具体的には、まず、テキストテンプレートを用いて(複数のタスクから)全ての候補ラベルの組み合わせを記述し、視覚-テキスト埋め込みのコサイン類似性から結合確率を計算する。 各タスクの予測はジョイント分布から推測でき、注意深く設計された損失関数によって最適化される。 BIQA,シーン分類,歪み型同定という3つの課題の総合的な学習実験を通じて,提案手法の有効性を検証する。 1)シーン分類と歪み型識別の利点を生かし,複数のIQAデータセットの最先端性能を向上する。 2)群最大分化競争においてより堅牢であり, 3) さまざまなIQAデータセットの品質アノテーションをより効果的に調整する。 ソースコードはhttps://github.com/zwx8981/LIQEで入手できる。

We aim at advancing blind image quality assessment (BIQA), which predicts the human perception of image quality without any reference information. We develop a general and automated multitask learning scheme for BIQA to exploit auxiliary knowledge from other tasks, in a way that the model parameter sharing and the loss weighting are determined automatically. Specifically, we first describe all candidate label combinations (from multiple tasks) using a textual template, and compute the joint probability from the cosine similarities of the visual-textual embeddings. Predictions of each task can be inferred from the joint distribution, and optimized by carefully designed loss functions. Through comprehensive experiments on learning three tasks - BIQA, scene classification, and distortion type identification, we verify that the proposed BIQA method 1) benefits from the scene classification and distortion type identification tasks and outperforms the state-of-the-art on multiple IQA datasets, 2) is more robust in the group maximum differentiation competition, and 3) realigns the quality annotations from different IQA datasets more effectively. The source code is available at https://github.com/zwx8981/LIQE.
翻訳日:2023-03-28 16:39:21 公開日:2023-03-27
# エントロピーアプローチによる適応的フェデレーション学習

Adaptive Federated Learning via Entropy Approach ( http://arxiv.org/abs/2303.14966v1 )

ライセンス: Link先を確認
Shensheng Zheng, Xuehe Wang, Lingjie Duan(参考訳) リソース制約のある独立したクライアントは、ローカルにプライバシに敏感なデータを保存しながら、中央サーバのオーケストレーションの下でグローバルモデルを協調的に学習することができる。 しかし,ヘテロジニアスクライアントの機器の相違やデータのばらつきにより,局所モデル間のパラメータ偏差が生じ,収束速度が遅く,グローバルモデルの精度が低下する。 現在のFLアルゴリズムは静的クライアント学習戦略を広く利用しており、異なるクライアントの動的トレーニングパラメータに適応できない。 本稿では,異なる局所モデルパラメータ間の偏差を考慮し,不均一なクライアント間の偏差を緩和し,グローバルモデルの高速収束を実現するために,エントロピー理論に基づく各クライアントに対する適応学習率スキームを提案する。 他のクライアントのローカル情報がないため、特にローカルクライアントと中央サーバ間の通信のないローカルトレーニングの時期において、各クライアントの最適な動的学習率を設計することは困難である。 各クライアントの分散学習率設計を実現するために,まず,他のクライアントの局所モデルパラメータに関連する条件を推定する平均場スキームを導入する。 そして、ハミルトン方程式を構成することにより、クライアント毎の分散適応学習率を閉形式に求める。 さらに,平均場推定器に対する不動点解が存在することを証明し,それを得るためのアルゴリズムを提案する。 最後に, 実データを用いた実験結果から, 局所モデルパラメータ間の偏差を他のFLアルゴリズムと比較して効果的に除去できることが示唆された。

Federated Learning (FL) has recently emerged as a popular framework, which allows resource-constrained discrete clients to cooperatively learn the global model under the orchestration of a central server while storing privacy-sensitive data locally. However, due to the difference in equipment and data divergence of heterogeneous clients, there will be parameter deviation between local models, resulting in a slow convergence rate and a reduction of the accuracy of the global model. The current FL algorithms use the static client learning strategy pervasively and can not adapt to the dynamic training parameters of different clients. In this paper, by considering the deviation between different local model parameters, we propose an adaptive learning rate scheme for each client based on entropy theory to alleviate the deviation between heterogeneous clients and achieve fast convergence of the global model. It's difficult to design the optimal dynamic learning rate for each client as the local information of other clients is unknown, especially during the local training epochs without communications between local clients and the central server. To enable a decentralized learning rate design for each client, we first introduce mean-field schemes to estimate the terms related to other clients' local model parameters. Then the decentralized adaptive learning rate for each client is obtained in closed form by constructing the Hamilton equation. Moreover, we prove that there exist fixed point solutions for the mean-field estimators, and an algorithm is proposed to obtain them. Finally, extensive experimental results on real datasets show that our algorithm can effectively eliminate the deviation between local model parameters compared to other recent FL algorithms.
翻訳日:2023-03-28 16:38:50 公開日:2023-03-27
# 半教師付き異常検出に基づく乱れ前処理時間の研究

Disruption Precursor Onset Time Study Based on Semi-supervised Anomaly Detection ( http://arxiv.org/abs/2303.14965v1 )

ライセンス: Link先を確認
Xinkun Ai, Wei Zheng, Ming Zhang, Dalong Chen, Chengshuo Shen, Bihao Guo, Bingjia Xiao, Yu Zhong, Nengchao Wang, Zhoujun Yang, Zhipeng Chen, Zhongyong Chen, Yonghua Ding, Yuan Pan, and J-TEXT team(参考訳) トカマクにおけるプラズマ破壊の完全な理解は現在不足しており、データ駆動法は破壊予測に広く利用されている。 しかし、既存のデータ駆動破壊予測者は、ラベル付きトレーニングデータを必要とする教師付き学習技術を使用している。 破壊前兆の手動ラベリングは退屈で困難な作業であり、一部の前駆者は正確な識別が困難であり、機械学習モデルの可能性を制限している。 この問題に対処するために、一般的なラベリング手法では、前駆体が破壊の前の一定時間に発生すると仮定しているが、プラズマ不安定がエスカレートする速度が異なるため、異なるタイプの破壊や同じタイプの破壊には一致しない可能性がある。 これにより、教師付き学習予測器の誤ったラベル付きサンプルと準最適性能が得られる。 本稿では,不均衡な正および負のデータサンプルと不正確なラベル付き破壊前駆体サンプルの欠点を克服する異常検出に基づく破壊予測手法を提案する。 本稿では,J-TEXT と EAST の異なるアルゴリズムに基づく異常検出予測器の有効性と信頼性を実証し,異常検出予測器によって推定される事前起動時間の信頼性を評価する。 これらの予測器により推定される前駆開始時刻は、異なるショットの開始時刻が必ずしも同じではないため、ラベリング方法が改善の余地があることが示されている。 最後に、異常検出予測器によって推定される開始時刻を用いて前駆的ラベル付けを最適化し、教師付き学習破壊予測器上で最適化されたラベルをテストする。 J-TEXTとEASTの結果、最適化されたラベルでトレーニングされたモデルは、固定された時間ラベルでトレーニングされたモデルよりも優れていた。

The full understanding of plasma disruption in tokamaks is currently lacking, and data-driven methods are extensively used for disruption prediction. However, most existing data-driven disruption predictors employ supervised learning techniques, which require labeled training data. The manual labeling of disruption precursors is a tedious and challenging task, as some precursors are difficult to accurately identify, limiting the potential of machine learning models. To address this issue, commonly used labeling methods assume that the precursor onset occurs at a fixed time before the disruption, which may not be consistent for different types of disruptions or even the same type of disruption, due to the different speeds at which plasma instabilities escalate. This leads to mislabeled samples and suboptimal performance of the supervised learning predictor. In this paper, we present a disruption prediction method based on anomaly detection that overcomes the drawbacks of unbalanced positive and negative data samples and inaccurately labeled disruption precursor samples. We demonstrate the effectiveness and reliability of anomaly detection predictors based on different algorithms on J-TEXT and EAST to evaluate the reliability of the precursor onset time inferred by the anomaly detection predictor. The precursor onset times inferred by these predictors reveal that the labeling methods have room for improvement as the onset times of different shots are not necessarily the same. Finally, we optimize precursor labeling using the onset times inferred by the anomaly detection predictor and test the optimized labels on supervised learning disruption predictors. The results on J-TEXT and EAST show that the models trained on the optimized labels outperform those trained on fixed onset time labels.
翻訳日:2023-03-28 16:38:23 公開日:2023-03-27
# 写真画像における深い色差測定値の学習

Learning a Deep Color Difference Metric for Photographic Images ( http://arxiv.org/abs/2303.14964v1 )

ライセンス: Link先を確認
Haoyu Chen, Zhihua Wang, Yang Yang, Qilin Sun, Kede Ma(参考訳) 最もよく確立され広く使われている色差(cd)の指標は手作りで、均一に着色されたパッチに対して主観的に調整されており、自然の風景の複雑さを特徴とする写真画像にはあまり一般化していない。 写真画像のためのCD公式の構築は、画像や照明、視覚科学、色科学のコミュニティにおいて活発な研究課題である。 本稿では,4つの望ましい特性を持つ写真画像の深度CDメトリクスを学習することを目的とする。 第一に、視覚科学における観察とよく一致し、色と形は視覚皮質処理において不可分にリンクされている。 第二に、数学的な意味での適切な計量である。 第3に、写真画像間の正確なCDを計算し、主に色相が異なる。 第4に、異なるデジタルカメラで撮影された同じシーンの写真画像にしばしば現れる、穏やかな幾何学的歪み(例えば、翻訳やパララックスによる)に対して堅牢である。 特徴変換のためのマルチスケールの自己回帰正規化フローを学習し、続いて人間の知覚CDに線形に比例したユークリッド距離を学習することにより、これらの特性を一度に満たせることを示す。 大規模SPCDデータセットの定量的および定性的実験は、学習したCDメトリックの可能性を実証する。

Most well-established and widely used color difference (CD) metrics are handcrafted and subject-calibrated against uniformly colored patches, which do not generalize well to photographic images characterized by natural scene complexities. Constructing CD formulae for photographic images is still an active research topic in imaging/illumination, vision science, and color science communities. In this paper, we aim to learn a deep CD metric for photographic images with four desirable properties. First, it well aligns with the observations in vision science that color and form are linked inextricably in visual cortical processing. Second, it is a proper metric in the mathematical sense. Third, it computes accurate CDs between photographic images, differing mainly in color appearances. Fourth, it is robust to mild geometric distortions (e.g., translation or due to parallax), which are often present in photographic images of the same scene captured by different digital cameras. We show that all these properties can be satisfied at once by learning a multi-scale autoregressive normalizing flow for feature transform, followed by the Euclidean distance which is linearly proportional to the human perceptual CD. Quantitative and qualitative experiments on the large-scale SPCD dataset demonstrate the promise of the learned CD metric.
翻訳日:2023-03-28 16:37:55 公開日:2023-03-27
# 方言に基づく埋め込み空間のばらつきと不安定性

Variation and Instability in Dialect-Based Embedding Spaces ( http://arxiv.org/abs/2303.14963v1 )

ライセンス: Link先を確認
Jonathan Dunn(参考訳) 本論文は, 組込みの不安定性を抑えつつ, 英語の異なる地域品種で訓練された埋め込み空間の変動を測定する。 以前の研究では、類似した言語の品種を区別することは可能であることを示したが、この論文は2つのフォローアップ質問で実験した: まず、トレーニングデータに表される品種はトレーニング後の埋め込み空間に体系的に影響を及ぼすか? 本稿では,品種間の埋め込みの差異がベースライン不安定性よりも著しく高いことを示す。 第二に、このような方言に基づく変化は辞書全体に等しく広がるのか? 本稿では,レキシコンの特定の部分が特に変動していることを示す。 これらの実験により, 埋め込み空間は学習データに表される方言に大きく影響されることが確認された。 この発見は、前述した語彙的および構文的変化に加えて、方言にまたがる意味的変化が存在することを示している。

This paper measures variation in embedding spaces which have been trained on different regional varieties of English while controlling for instability in the embeddings. While previous work has shown that it is possible to distinguish between similar varieties of a language, this paper experiments with two follow-up questions: First, does the variety represented in the training data systematically influence the resulting embedding space after training? This paper shows that differences in embeddings across varieties are significantly higher than baseline instability. Second, is such dialect-based variation spread equally throughout the lexicon? This paper shows that specific parts of the lexicon are particularly subject to variation. Taken together, these experiments confirm that embedding spaces are significantly influenced by the dialect represented in the training data. This finding implies that there is semantic variation across dialects, in addition to previously-studied lexical and syntactic variation.
翻訳日:2023-03-28 16:37:33 公開日:2023-03-27
# ソフトウィンディングサブネットワークを用いた忘れない連続学習

Forget-free Continual Learning with Soft-Winning SubNetworks ( http://arxiv.org/abs/2303.14962v1 )

ライセンス: Link先を確認
Haeyong Kang, Jaehong Yoon, Sultan Rizky Madjid, Sung Ju Hwang, Chang D. Yoo(参考訳) RLTH(Regularized Lottery Ticket hypothesis)は,連続学習タスクにおいて高密度ネットワーク内に競争円滑な(非バイナリ)サブネットが存在することを示唆し,各タスクに対して適応的バイナリ(WSN)と非バイナリサブネット(SoftNet)を逐次学習・選択するアーキテクチャに基づく連続学習手法を提案する。 WSNとSoftNetは、各タスクに関連するサブネットの正規化モデルウェイトとタスク適応型非バイナリマスクを共同で学習し、以前のサブネットのウェイトを再利用して、活性化される小さなウェイト(入賞券)を選択する。 提案したWSNとSoftNetは,各サブネットワークモデルがタスクインクリメンタルラーニング(TIL)における他のサブネットワークに侵害されないため,破滅的忘れに対して本質的に免疫を持つ。 TILでは、当選チケット毎に発生する二進マスクを1つのNビット二進数マスクに符号化し、ハフマン符号を用いてタスク数に対するネットワーク容量のサブ線形増加のために圧縮する。 驚くべきことに、推論ステップでは、取得したwsn(wsnの前景を保持する)の背景に小さなノイズを注入して生じるソフトネットは、tilの今後のタスクに優れた転送能力を提供します。 SoftNetは、Few-shot Class Incremental Learning (FSCIL)のいくつかの例に対して、オーバーフィッティングに取り組むためのパラメータの正規化におけるWSNに対する効果を示している。

Inspired by Regularized Lottery Ticket Hypothesis (RLTH), which states that competitive smooth (non-binary) subnetworks exist within a dense network in continual learning tasks, we investigate two proposed architecture-based continual learning methods which sequentially learn and select adaptive binary- (WSN) and non-binary Soft-Subnetworks (SoftNet) for each task. WSN and SoftNet jointly learn the regularized model weights and task-adaptive non-binary masks of subnetworks associated with each task whilst attempting to select a small set of weights to be activated (winning ticket) by reusing weights of the prior subnetworks. Our proposed WSN and SoftNet are inherently immune to catastrophic forgetting as each selected subnetwork model does not infringe upon other subnetworks in Task Incremental Learning (TIL). In TIL, binary masks spawned per winning ticket are encoded into one N-bit binary digit mask, then compressed using Huffman coding for a sub-linear increase in network capacity to the number of tasks. Surprisingly, in the inference step, SoftNet generated by injecting small noises to the backgrounds of acquired WSN (holding the foregrounds of WSN) provides excellent forward transfer power for future tasks in TIL. SoftNet shows its effectiveness over WSN in regularizing parameters to tackle the overfitting, to a few examples in Few-shot Class Incremental Learning (FSCIL).
翻訳日:2023-03-28 16:37:19 公開日:2023-03-27
# 拡散分別平滑化によるロバスト外分布検出法の検討

Diffusion Denoised Smoothing for Certified and Adversarial Robust Out-Of-Distribution Detection ( http://arxiv.org/abs/2303.14961v1 )

ライセンス: Link先を確認
Nicola Franco, Daniel Korth, Jeanette Miriam Lorenz, Karsten Roscher, Stephan Guennemann(参考訳) 機械学習の利用が拡大するにつれて、安全性の確保の重要性は過大評価されない。 この点において重要な関心事は、与えられたサンプルがトレーニング分布からのものであるか、あるいは"Out-Of-Distribution"(OOD)サンプルであるかどうかを識別する能力である。 さらに、敵はOODサンプルを分類器を確実に予測するための方法で操作することができる。 本研究では,ネットワークアーキテクチャによらず,特定のコンポーネントや追加のトレーニングを必要とせず,入力周辺の$\ell_2$-norm内でOOD検出の堅牢性を証明する新しい手法を提案する。 さらに,oodサンプルに対する敵意攻撃を検出する現在の手法を改良し,分散サンプルに対して高いレベルの認証と敵意のロバスト性を提供する。 CIFAR10/100におけるOOD検出指標の平均値は、以前のアプローチと比較して$\sim 13 \% / 5\%$の増加を示している。

As the use of machine learning continues to expand, the importance of ensuring its safety cannot be overstated. A key concern in this regard is the ability to identify whether a given sample is from the training distribution, or is an "Out-Of-Distribution" (OOD) sample. In addition, adversaries can manipulate OOD samples in ways that lead a classifier to make a confident prediction. In this study, we present a novel approach for certifying the robustness of OOD detection within a $\ell_2$-norm around the input, regardless of network architecture and without the need for specific components or additional training. Further, we improve current techniques for detecting adversarial attacks on OOD samples, while providing high levels of certified and adversarial robustness on in-distribution samples. The average of all OOD detection metrics on CIFAR10/100 shows an increase of $\sim 13 \% / 5\%$ relative to previous approaches.
翻訳日:2023-03-28 16:36:50 公開日:2023-03-27
# ディエンス物体検出のためのあいまいさ耐性半教師付き学習

Ambiguity-Resistant Semi-Supervised Learning for Dense Object Detection ( http://arxiv.org/abs/2303.14960v1 )

ライセンス: Link先を確認
Chang Liu, Weiming Zhang, Xiangru Lin, Wei Zhang, Xiao Tan, Junyu Han, Xiaomao Li, Errui Ding, Jingdong Wang(参考訳) SSOD(Semi-Supervised Object Detection)技術により、一段検出器は一般に二段クラスターと比較して限られたプロモーションを得る。 1) 選択された擬似ラベルの曖昧さは, 分類スコアが局所的品質を適切に表現できないため, 精度が低い。 2) サンプルが擬似ラベルの付与において不適切なラベルと一致するという指示の曖昧さ。 これらの問題に対処するために,一段階検出器のためのAmbiguity-Resistant Semi-supervised Learning (ARSL)を提案する。 具体的には,選択の曖昧さを緩和するため,疑似ラベルの分類と局所化品質を共同で定量化するためにjce(joint-confidence estimation)を提案する。 割り当ての曖昧性については、信頼できない擬似ボックスではなく、ピクセルレベルの予測に基づいてラベルを割り当てるためにタスク分離割り当て(tsa)が導入される。 ディビジョン・アンド・コンクエスト(divide-and-conquer)戦略を採用し、分類と局所化のタスクに別々にプラスを活用し、割り当ての曖昧さに対してより堅牢である。 総合的な実験により、ARSLは曖昧さを効果的に軽減し、MS COCOおよびPASCALVOC上で最先端のSSOD性能を達成することが示されている。 コードはhttps://github.com/PaddlePaddle/PaddleDetectionで見ることができる。

With basic Semi-Supervised Object Detection (SSOD) techniques, one-stage detectors generally obtain limited promotions compared with two-stage clusters. We experimentally find that the root lies in two kinds of ambiguities: (1) Selection ambiguity that selected pseudo labels are less accurate, since classification scores cannot properly represent the localization quality. (2) Assignment ambiguity that samples are matched with improper labels in pseudo-label assignment, as the strategy is misguided by missed objects and inaccurate pseudo boxes. To tackle these problems, we propose a Ambiguity-Resistant Semi-supervised Learning (ARSL) for one-stage detectors. Specifically, to alleviate the selection ambiguity, Joint-Confidence Estimation (JCE) is proposed to jointly quantifies the classification and localization quality of pseudo labels. As for the assignment ambiguity, Task-Separation Assignment (TSA) is introduced to assign labels based on pixel-level predictions rather than unreliable pseudo boxes. It employs a "divide-and-conquer" strategy and separately exploits positives for the classification and localization task, which is more robust to the assignment ambiguity. Comprehensive experiments demonstrate that ARSL effectively mitigates the ambiguities and achieves state-of-the-art SSOD performance on MS COCO and PASCAL VOC. Codes can be found at https://github.com/PaddlePaddle/PaddleDetection.
翻訳日:2023-03-28 16:36:35 公開日:2023-03-27
# 再利用可能な量子オラクル構築のための最初のガイドライン

Some Initial Guidelines for Building Reusable Quantum Oracles ( http://arxiv.org/abs/2303.14959v1 )

ライセンス: Link先を確認
Javier Sanchez-Rivero, Daniel Talav\'an, Jose Garcia-Alonso, Antonio Ruiz-Cort\'es, and Juan Manuel Murillo(参考訳) 量子ハードウェアの進化は、開発者が優れた品質特性を持つ量子ソフトウェアを作成するのに役立つ量子ソフトウェア工学の進歩の必要性を強調している。 特に、再利用性は伝統的にコストと労力の効率の観点から重要な品質特性と見なされてきた。 量子ソフトウェアの再利用性の向上は、再利用されたコンポーネントにもこれらの属性がある限り、よりシンプルなコンポーネントを品質特性で再利用することで、開発者がより複雑なソリューションを作成するのに役立つ。 この研究は、他のアルゴリズムの入力として使われる関数の実行に使用できる、よく知られた量子アルゴリズムのパターンであるoraclesの再利用性に焦点を当てている。 特に本研究では,再利用可能な量子神託を作成するためのガイドラインをいくつか提示する。 これらのガイドラインには、oracleの再利用のための3つの異なるレベルが含まれている。 これらのガイドラインを示すために、oracleは単純なoracleを再利用することで、2つの異なる整数の実装を構築した。 これらの実装の品質は、機能と量子回路深さの観点から評価される。 次に、提案されたガイドラインに従って、提供されたオラクルの再利用を促進するためのドキュメントの例を示す。 この研究は、量子ソフトウェア再利用可能性に関する議論の第一点となることを目指している。 量子ソフトウェア再利用可能性に関するより具体的な基準を確立するためには、さらなる作業が必要である。

The evolution of quantum hardware is highlighting the need for advances in quantum software engineering that help developers create quantum software with good quality attributes. Specifically, reusability has been traditionally considered an important quality attribute in terms of efficiency of cost and effort. Increasing the reusability of quantum software will help developers create more complex solutions, by reusing simpler components, with better quality attributes, as long as the reused components have also these attributes. This work focuses on the reusability of oracles, a well-known pattern of quantum algorithms that can be used to perform functions used as input by other algorithms. In particular, in this work, we present several guidelines for making reusable quantum oracles. These guidelines include three different levels for oracle reuse: the ideas inspiring the oracle, the function which creates the oracle, and the oracle itself. To demonstrate these guidelines, two different implementations of a range of integers oracle have been built by reusing simpler oracles. The quality of these implementations is evaluated in terms of functionality and quantum circuit depth. Then, we provide an example of documentation following the proposed guidelines for both implementations to foster reuse of the provided oracles. This work aims to be a first point of discussion towards quantum software reusability. Additional work is needed to establish more specific criteria for quantum software reusability.
翻訳日:2023-03-28 16:36:11 公開日:2023-03-27
# unarxive 2022: 構造化フルテキストと引用ネットワークを含む、nlpのために前処理されたすべてのarxiv出版物

unarXive 2022: All arXiv Publications Pre-Processed for NLP, Including Structured Full-Text and Citation Network ( http://arxiv.org/abs/2303.14957v1 )

ライセンス: Link先を確認
Tarek Saier and Johan Krause and Michael F\"arber(参考訳) 学術出版物に基づく大規模データセットは、様々な書誌分析および自然言語処理(nlp)アプリケーションの基礎となっている。 特に出版物のフルテキストから派生したデータセットが最近注目を集めている。 このようなデータセットはすでにいくつか存在するが、ドメインと時間カバレッジ、引用ネットワークの完全性、フルテキストコンテンツの表現に関して重要な欠点がある。 これらの点に対処するため、unarXiveというデータセットの新バージョンを提案する。 私たちは、データ処理パイプラインと出力フォーマットを2つの既存のデータセットにベースとし、それぞれを改善します。 得られたデータセットは、複数の分野にまたがる1.9Mの出版物と32年からなる。 さらに、前者よりも完全な引用ネットワークを持ち、文書構造の表現が豊富であり、数学的表記のようなテキスト以外の出版内容も保持している。 データセットに加えて、引用レコメンデーションとIMRaD分類のための準備の整ったトレーニング/テストデータを提供する。 すべてのデータとソースコードはhttps://github.com/illdepence/unarxiveで公開されている。

Large-scale data sets on scholarly publications are the basis for a variety of bibliometric analyses and natural language processing (NLP) applications. Especially data sets derived from publication's full-text have recently gained attention. While several such data sets already exist, we see key shortcomings in terms of their domain and time coverage, citation network completeness, and representation of full-text content. To address these points, we propose a new version of the data set unarXive. We base our data processing pipeline and output format on two existing data sets, and improve on each of them. Our resulting data set comprises 1.9 M publications spanning multiple disciplines and 32 years. It furthermore has a more complete citation network than its predecessors and retains a richer representation of document structure as well as non-textual publication content such as mathematical notation. In addition to the data set, we provide ready-to-use training/test data for citation recommendation and IMRaD classification. All data and source code is publicly available at https://github.com/IllDepence/unarXive.
翻訳日:2023-03-28 16:35:52 公開日:2023-03-27
# 交通信号認識のための二元化ニューラルネットワークの構成

Architecturing Binarized Neural Networks for Traffic Sign Recognition ( http://arxiv.org/abs/2303.15005v1 )

ライセンス: Link先を確認
Andreea Postovan and M\u{a}d\u{a}lina Era\c{s}cu(参考訳) 交通標識は道路の安全と交通の流れの管理を支援するため、自動運転の視覚システムに不可欠な部分である。 畳み込みニューラルネットワーク(cnns)を用いた精度の高い結果(技術状態は99.46\%)のため、交通標識分類ではディープラーニングの使用がよく知られているが、二元化ニューラルネットワーク(bnns)についてはほとんど知られていない。 cnnと比較すると、bnnはモデルサイズを小さくし、畳み込み操作を単純化し、自動運転の文脈で現れる計算量制限されたエネルギー制約付きデバイスで有望な結果を示している。 本研究は,bnnを構成層の特徴から構築するためのボトムアップアプローチを提案する。 これらの構成層(バイナリ化畳み込み層、最大プール層、バッチ正規化層、完全連結層)は、カーネルサイズ、フィルタ数、ニューロンの異なる値の様々な組み合わせで、トレーニングにドイツ交通信号認識ベンチマーク(GTSRB)を用いて研究されている。 その結果、GTSRBの90ドル以上(最大値が96.45ドル)、テスト用のベルギーと中国のデータセットも考慮して80ドル以上(最大値が8.99ドル)のBNNアーキテクチャを提案する。 これらのアーキテクチャのパラメータの数は100kから2M未満である。 本論文の付属資料はhttps://github.com/apostovan21/BinarizedNeuralNetwork.comで公開されている。

Traffic signs support road safety and managing the flow of traffic, hence are an integral part of any vision system for autonomous driving. While the use of deep learning is well-known in traffic signs classification due to the high accuracy results obtained using convolutional neural networks (CNNs) (state of the art is 99.46\%), little is known about binarized neural networks (BNNs). Compared to CNNs, BNNs reduce the model size and simplify convolution operations and have shown promising results in computationally limited and energy-constrained devices which appear in the context of autonomous driving. This work presents a bottom-up approach for architecturing BNNs by studying characteristics of the constituent layers. These constituent layers (binarized convolutional layers, max pooling, batch normalization, fully connected layers) are studied in various combinations and with different values of kernel size, number of filters and of neurons by using the German Traffic Sign Recognition Benchmark (GTSRB) for training. As a result, we propose BNNs architectures which achieve more than $90\%$ for GTSRB (the maximum is $96.45\%$) and an average greater than $80\%$ (the maximum is $88.99\%$) considering also the Belgian and Chinese datasets for testing. The number of parameters of these architectures varies from 100k to less than 2M. The accompanying material of this paper is publicly available at https://github.com/apostovan21/BinarizedNeuralNetwork.
翻訳日:2023-03-28 16:29:55 公開日:2023-03-27
# 量子直交配列からの量子$k$-一様状態

Quantum $k$-uniform states from quantum orthogonal arrays ( http://arxiv.org/abs/2303.15001v1 )

ライセンス: Link先を確認
Yajuan Zang, Zihong Tian, Shao-Ming Fei, Hui-Juan Zuo(参考訳) 量子直交配列 (quantum orthogonal array) は、k$-uniform 状態と呼ばれる多元状態の顕著なクラスを定義する。 本稿では,素電力レベルを持つ強度2の量子直交配列の構成と強度3の構成について述べる。 その結果、プライムパワーの次元を持つ2-一様系の無限クラス $d\geq 2$ for arbitrary $n\geq 5$; 3-uniform states of $n$-qubit systems for arbitrary $n\geq 6$ and $n\neq 7,8,9,11$; 3-uniform states of $n$ systems with dimension of prime power $d\geq 7$ for arbitrary $n\geq 7$ が与えられる。

The quantum orthogonal arrays define remarkable classes of multipartite entangled states called $k$-uniform states whose every reductions to $k$ parties are maximally mixed. We present constructions of quantum orthogonal arrays of strength 2 with levels of prime power, as well as some constructions of strength 3. As a consequence, we give infinite classes of 2-uniform states of $N$ systems with dimension of prime power $d\geq 2$ for arbitrary $N\geq 5$; 3-uniform states of $N$-qubit systems for arbitrary $N\geq 6$ and $N\neq 7,8,9,11$; 3-uniform states of $N$ systems with dimension of prime power $d\geq 7$ for arbitrary $N\geq 7$.
翻訳日:2023-03-28 16:29:29 公開日:2023-03-27
# 弱教師付き物体検出のためのトランスベースマルチインスタンス学習

Transformer-based Multi-Instance Learning for Weakly Supervised Object Detection ( http://arxiv.org/abs/2303.14999v1 )

ライセンス: Link先を確認
Zhaofei Wang, Weijia Zhang, Min-Ling Zhang(参考訳) Weakly Supervised Object Detection (WSOD)は、画像レベルのアノテーションのみを使用してオブジェクト検出モデルのトレーニングを可能にする。 最先端のWSOD検出器は一般的に、検出器のバックボーンとしてマルチインスタンス学習(MIL)に依存し、画像のバウンディングボックスの提案が互いに独立していると仮定する。 しかしながら、そのようなアプローチは最高スコアの提案のみを利用し、潜在的に有用な情報を他の提案から取り除くため、独立したMILバックボーンは、モデルをオブジェクトの正常な部分に制限したり、クラス毎に1つのオブジェクトだけを検出するようにします。 上記の問題を解決するために,Weakly Supervised Transformer Detection Network (WSTDN) という名前の視覚変換器を用いた新しいWSODバックボーンを提案する。 我々のアルゴリズムは, インスタンス間関係を考慮した自己アテンションモジュールがWSODの有効なバックボーンであることを初めて示すだけでなく, メモリ転送改善(MTR)手順と統合されたバウンディングボックスマイニング(BBM)手法を導入し, インスタンス依存性を利用してインスタンスのリファインメントを容易にする。 PASCAL VOC2007 および VOC2012 ベンチマーク実験の結果,提案した WSTDN および修正インスタンスリファインメントモジュールの有効性が示された。

Weakly Supervised Object Detection (WSOD) enables the training of object detection models using only image-level annotations. State-of-the-art WSOD detectors commonly rely on multi-instance learning (MIL) as the backbone of their detectors and assume that the bounding box proposals of an image are independent of each other. However, since such approaches only utilize the highest score proposal and discard the potentially useful information from other proposals, their independent MIL backbone often limits models to salient parts of an object or causes them to detect only one object per class. To solve the above problems, we propose a novel backbone for WSOD based on our tailored Vision Transformer named Weakly Supervised Transformer Detection Network (WSTDN). Our algorithm is not only the first to demonstrate that self-attention modules that consider inter-instance relationships are effective backbones for WSOD, but also we introduce a novel bounding box mining method (BBM) integrated with a memory transfer refinement (MTR) procedure to utilize the instance dependencies for facilitating instance refinements. Experimental results on PASCAL VOC2007 and VOC2012 benchmarks demonstrate the effectiveness of our proposed WSTDN and modified instance refinement modules.
翻訳日:2023-03-28 16:29:14 公開日:2023-03-27
# 上腕神経前庭癌に対する多面的MR画像変換法

Multi-view Cross-Modality MR Image Translation for Vestibular Schwannoma and Cochlea Segmentation ( http://arxiv.org/abs/2303.14998v1 )

ライセンス: Link先を確認
Bogyeong Kang, Hyeonyeong Nam, Ji-Wung Han, Keun-Soo Heo, and Tae-Eui Kam(参考訳) 本研究では, コントラスト強調T1 (ceT1) MR画像から高分解能T2 (hrT2) MR画像へ変換できる多視点画像翻訳フレームワークを提案する。 ピクセルレベルの一貫性制約とパッチレベルのコントラスト制約をそれぞれ使用する2つの画像翻訳モデルを並列に採用した。 これにより、異なる視点を反映した擬似hrT2画像が増大し、最終的に高い性能のセグメンテーションモデルが得られる。 CrossMoDA 課題に対する実験結果から,本手法は前庭神経ショーニーノーマとコクリーセグメンテーションの性能を向上させることができた。

In this work, we propose a multi-view image translation framework, which can translate contrast-enhanced T1 (ceT1) MR imaging to high-resolution T2 (hrT2) MR imaging for unsupervised vestibular schwannoma and cochlea segmentation. We adopt two image translation models in parallel that use a pixel-level consistent constraint and a patch-level contrastive constraint, respectively. Thereby, we can augment pseudo-hrT2 images reflecting different perspectives, which eventually lead to a high-performing segmentation model. Our experimental results on the CrossMoDA challenge show that the proposed method achieved enhanced performance on the vestibular schwannoma and cochlea segmentation.
翻訳日:2023-03-28 16:28:50 公開日:2023-03-27
# 正規化EMアルゴリズム

Regularized EM algorithm ( http://arxiv.org/abs/2303.14989v1 )

ライセンス: Link先を確認
Pierre Houdouin and Esa Ollila and Frederic Pascal(参考訳) expectation-Maximization (EM)アルゴリズムは、(局所的な)最大推定推定(MLE)を計算するために広く使われている反復アルゴリズムである。 ガウス混合モデル(GMM)に基づくデータのクラスタリングなど、幅広い問題で使用することができる。 数値不安定性と収束問題は、サンプルサイズがデータ次元よりもそれほど大きくない状況で発生する。 このような低サンプルサポート(LSS)設定では、EM-GMMアルゴリズムにおける共分散行列の更新は特異あるいは不整合となり、アルゴリズムがクラッシュする可能性がある。 一方、多くの信号処理問題では、異なるクラスタ共分散行列の特定の構造を示す事前情報が得られる。 本稿では,従来の知識を効率的に活用し,LSSの状況に対処できる,GMM-sの正規化EMアルゴリズムを提案する。 本手法は,共分散行列更新の正定性を保証するために正規化推定を用いたペナルティ化gmmの確率を最大化することを目的としている。 コンバージェンスホールドの理論的保証は、構造化共分散行列モデルや低サンプル設定のEMアルゴリズムの性能向上につながることを示す。

Expectation-Maximization (EM) algorithm is a widely used iterative algorithm for computing (local) maximum likelihood estimate (MLE). It can be used in an extensive range of problems, including the clustering of data based on the Gaussian mixture model (GMM). Numerical instability and convergence problems may arise in situations where the sample size is not much larger than the data dimensionality. In such low sample support (LSS) settings, the covariance matrix update in the EM-GMM algorithm may become singular or poorly conditioned, causing the algorithm to crash. On the other hand, in many signal processing problems, a priori information can be available indicating certain structures for different cluster covariance matrices. In this paper, we present a regularized EM algorithm for GMM-s that can make efficient use of such prior knowledge as well as cope with LSS situations. The method aims to maximize a penalized GMM likelihood where regularized estimation may be used to ensure positive definiteness of covariance matrix updates and shrink the estimators towards some structured target covariance matrices. We show that the theoretical guarantees of convergence hold, leading to better performing EM algorithm for structured covariance matrix models or with low sample settings.
翻訳日:2023-03-28 16:28:36 公開日:2023-03-27
# mSPD-NN:関数コネクトロミクス多様体からのバイオマーカー発見のための幾何学的認識型ニューラルネットワークフレームワーク

mSPD-NN: A Geometrically Aware Neural Framework for Biomarker Discovery from Functional Connectomics Manifolds ( http://arxiv.org/abs/2303.14986v1 )

ライセンス: Link先を確認
Niharika S. D'Souza and Archana Venkataraman(参考訳) コネクトミクスは、ニューロイメージングの強力なツールとして登場し、コネクティビティデータの統計的および機械学習手法の最近の進歩を促している。 コネクトームは行列多様体に属すが、ほとんどの分析フレームワークは基礎となるデータ幾何を無視している。 これは、平均推定のような単純な演算が容易に計算可能な閉形式解を持たないためである。 対称正定値行列(SPD)の集合の測地平均を推定するために,コネクトームのための幾何学的認識型ニューラルネットワーク,すなわちmSPD-NNを提案する。 mspd-nnは結合重みを持つ双線型完全連結層で構成され、fr\'echet平均推定から生じる行列正規式を最適化するために新しい損失関数を利用する。 合成データを用いた実験により、SPD平均推定の一般的な代替手段に対するmSPD-NNの有効性を実証し、拡張性とノイズに対する堅牢性の観点から競合性能を提供する。 RS-fMRIデータにおけるmSPD-NNの現実的柔軟性について述べるとともに,ADHD-ASD併用群と健康管理群の微妙なネットワーク差に伴う安定したバイオマーカーを明らかにする。

Connectomics has emerged as a powerful tool in neuroimaging and has spurred recent advancements in statistical and machine learning methods for connectivity data. Despite connectomes inhabiting a matrix manifold, most analytical frameworks ignore the underlying data geometry. This is largely because simple operations, such as mean estimation, do not have easily computable closed-form solutions. We propose a geometrically aware neural framework for connectomes, i.e., the mSPD-NN, designed to estimate the geodesic mean of a collections of symmetric positive definite (SPD) matrices. The mSPD-NN is comprised of bilinear fully connected layers with tied weights and utilizes a novel loss function to optimize the matrix-normal equation arising from Fr\'echet mean estimation. Via experiments on synthetic data, we demonstrate the efficacy of our mSPD-NN against common alternatives for SPD mean estimation, providing competitive performance in terms of scalability and robustness to noise. We illustrate the real-world flexibility of the mSPD-NN in multiple experiments on rs-fMRI data and demonstrate that it uncovers stable biomarkers associated with subtle network differences among patients with ADHD-ASD comorbidities and healthy controls.
翻訳日:2023-03-28 16:28:17 公開日:2023-03-27
# contactium: 強い相関を持つモデルシステム

Contactium: A strongly correlated model system ( http://arxiv.org/abs/2303.14982v1 )

ライセンス: Link先を確認
Jerzy Cioslowski, Berthold-Georg Englert, Martin-Isbj\"orn Trappe, and Jun Hao Hue(参考訳) 無限の閉じ込め強度$\omega$の極限において、フェルミ-フン擬ポテンシャルを通して相互作用する調和閉じ込めにおける2つのフェルミオンまたはボソンからなる系の基底状態は強く相関している。 この'contactium'の1粒子記述の詳細な分析は、クーロン粒子間相互作用を含む従来のモデルシステム(例えば2電子ハーモニウム原子、バリウム、スフェリウム)では見られないいくつかの特異性を示している。 まず第一に、自然軌道 (nos) $\{ \psi_\mathfrak{n}(\omega;\vec r) \}$ の接点のどれも占有されておらず、これはすべての角モーメントに対する非ゼロ集合占有を意味する。 第二に、NOとそれらの非随意に順序づけられた職業数 $\{ \nu_\mathfrak{n} \}$ は、魅力的なガウスポテンシャルを持つゼロエネルギーシュル「オーディンガー方程式」の固有函数と固有値と関連している。 This observation enables the derivation of their properties such as the $\mathfrak{n}^{-4/3}$ asymptotic decay of $\nu_\mathfrak{n}$ at the $\mathfrak{n} \to \infty$ limit (which differs from that of $\mathfrak{n}^{-8/3}$ in the Coulombic systems), the independence of the confinement energy ${v_\mathfrak{n} = \langle \psi_\mathfrak{n}(\omega;\vec r) | \frac{1}{2} % \omega^2r^2 | \psi_\mathfrak{n}(\omega;\vec r) \rangle}$ of $\mathfrak{n}$, and the $\mathfrak{n}^{-2/3}$ asymptotic decay of the respective contribution $\nu_\mathfrak{n}t_\mathfrak{n}$ to the kinetic energy. 適切なスケーリングを行うと、接点の弱い占有したNOは、これらの系における粒子間相互作用が全く異なるにもかかわらず、${\omega \to \infty}$制限の2電子ハーモニウム原子のNOとほぼ同一であることが判明した。

At the limit of an infinite confinement strength $\omega$, the ground state of a system that comprises two fermions or bosons in a harmonic confinement interacting through the Fermi--Huang pseudopotential remains strongly correlated. A detailed analysis of the one-particle description of this ``contactium'' reveals several peculiarities that are not encountered in conventional model systems (such as the two-electron harmonium atom, ballium, and spherium) involving Coulombic interparticle interactions. First of all, none of the natural orbitals (NOs) $\{ \psi_\mathfrak{n}(\omega;\vec r) \}$ of the contactium is unoccupied, which implies nonzero collective occupancies for all the angular momenta. Second, the NOs and their nonascendingly ordered occupation numbers $\{ \nu_\mathfrak{n} \}$ turn out to be related to the eigenfunctions and eigenvalues of a zero-energy Schr\"odinger equation with an attractive Gaussian potential. This observation enables the derivation of their properties such as the $\mathfrak{n}^{-4/3}$ asymptotic decay of $\nu_\mathfrak{n}$ at the $\mathfrak{n} \to \infty$ limit (which differs from that of $\mathfrak{n}^{-8/3}$ in the Coulombic systems), the independence of the confinement energy ${v_\mathfrak{n} = \langle \psi_\mathfrak{n}(\omega;\vec r) | \frac{1}{2} % \omega^2r^2 | \psi_\mathfrak{n}(\omega;\vec r) \rangle}$ of $\mathfrak{n}$, and the $\mathfrak{n}^{-2/3}$ asymptotic decay of the respective contribution $\nu_\mathfrak{n}t_\mathfrak{n}$ to the kinetic energy. Upon suitable scaling, the weakly occupied NOs of the contactium turn out to be virtually identical with those of the two-electron harmonium atom at the ${\omega \to \infty}$ limit, despite the entirely different interparticle interactions in these systems.
翻訳日:2023-03-28 16:27:55 公開日:2023-03-27
# 混合トランス-CNNアーキテクチャを用いた学習画像圧縮

Learned Image Compression with Mixed Transformer-CNN Architectures ( http://arxiv.org/abs/2303.14978v1 )

ライセンス: Link先を確認
Jinming Liu, Heming Sun, Jiro Katto(参考訳) 学習画像圧縮(lic)法は,従来の画像圧縮標準と比較して,将来的な進歩と速度歪み性能を示した。 既存のlicメソッドの多くは、畳み込みニューラルネットワーク(CNNベース)またはTransformerベースである。 両方のメリットをエクスプロイトすることは、探究する価値のあるポイントであり、2つの課題があります。 1) 2つの手法を効果的に融合する方法? 2) 適切な複雑さでより高いパフォーマンスを実現するには? 本稿では,CNNの局所モデリング能力とトランスフォーマーの非局所モデリング能力を取り入れ,画像圧縮モデルの全体構造を改善するために,制御可能な複雑性を有する並列トランスフォーマー-CNN混合(TCM)ブロックを提案する。 さらに,近年のエントロピー推定モデルとアテンションモジュールの進歩に触発されて,パラメータ効率の高いスウィントランスフォーマーベースアテンション(SWAtten)モジュールを用いたチャネルワイドエントロピーモデルを提案する。 提案手法は,既存のlic手法と比較して,3種類の解像度データセット(Kodak,Tecnick,CLIC Professional Validation)における最先端の速度歪み特性を実証した。 コードはhttps://github.com/jmliu206/lic_tcm。

Learned image compression (LIC) methods have exhibited promising progress and superior rate-distortion performance compared with classical image compression standards. Most existing LIC methods are Convolutional Neural Networks-based (CNN-based) or Transformer-based, which have different advantages. Exploiting both advantages is a point worth exploring, which has two challenges: 1) how to effectively fuse the two methods? 2) how to achieve higher performance with a suitable complexity? In this paper, we propose an efficient parallel Transformer-CNN Mixture (TCM) block with a controllable complexity to incorporate the local modeling ability of CNN and the non-local modeling ability of transformers to improve the overall architecture of image compression models. Besides, inspired by the recent progress of entropy estimation models and attention modules, we propose a channel-wise entropy model with parameter-efficient swin-transformer-based attention (SWAtten) modules by using channel squeezing. Experimental results demonstrate our proposed method achieves state-of-the-art rate-distortion performances on three different resolution datasets (i.e., Kodak, Tecnick, CLIC Professional Validation) compared to existing LIC methods. The code is at https://github.com/jmliu206/LIC_TCM.
翻訳日:2023-03-28 16:27:16 公開日:2023-03-27
# 小型物体検出のための新しいマルチ・ツー・シングルモジュール

A novel Multi to Single Module for small object detection ( http://arxiv.org/abs/2303.14977v1 )

ライセンス: Link先を確認
Xiaohui Guo(参考訳) 小型物体検出はコンピュータビジョンと物体検出において重要な課題となる。 小さな物体検出器の性能は、しばしばピクセルの欠如と重要でない特徴によって損なわれる。 この問題は、特徴スケールの変動と特徴処理時の情報損失に起因する情報不一致に起因する。 この課題に対して,本論文では,特徴抽出と精細化を改良し,特定の層を強化するM2S(Multi to Single Module)を提案する。 具体的には、M2Sは、情報抽出機能と機能改善効果を改善するために提案されたクロススケールアグリゲーションモジュール(CAM)と2つの関係モジュール(DRM)を含んでいる。 さらに,m2sを用いて検出ヘッドを付加することにより,小型物体検出の精度を向上させる。 提案手法の有効性をVisDrone2021-DETとSeaDronesSeeV2の2つのデータセットで評価した。 実験の結果,既存手法と比較して性能が向上した。 ベースラインモデル(yolov5s)と比較して、m2sはvisdrone2021-detテストデータセットで約1.1\%、seadronesseev2検証セットで15.68\%向上している。

Small object detection presents a significant challenge in computer vision and object detection. The performance of small object detectors is often compromised by a lack of pixels and less significant features. This issue stems from information misalignment caused by variations in feature scale and information loss during feature processing. In response to this challenge, this paper proposes a novel the Multi to Single Module (M2S), which enhances a specific layer through improving feature extraction and refining features. Specifically, M2S includes the proposed Cross-scale Aggregation Module (CAM) and explored Dual Relationship Module (DRM) to improve information extraction capabilities and feature refinement effects. Moreover, this paper enhances the accuracy of small object detection by utilizing M2S to generate an additional detection head. The effectiveness of the proposed method is evaluated on two datasets, VisDrone2021-DET and SeaDronesSeeV2. The experimental results demonstrate its improved performance compared with existing methods. Compared to the baseline model (YOLOv5s), M2S improves the accuracy by about 1.1\% on the VisDrone2021-DET testing dataset and 15.68\% on the SeaDronesSeeV2 validation set.
翻訳日:2023-03-28 16:26:52 公開日:2023-03-27
# ビジュアルトークンマッチングを用いた密集予測タスクのユニバーサル・マイズショット学習

Universal Few-shot Learning of Dense Prediction Tasks with Visual Token Matching ( http://arxiv.org/abs/2303.14969v1 )

ライセンス: Link先を確認
Donggyun Kim, Jinwoo Kim, Seongwoong Cho, Chong Luo, Seunghoon Hong(参考訳) デンス予測タスクはコンピュータビジョンの基本的な問題である。 教師付き手法は高ピクセルラベリングコストに悩まされるため、ラベル付き画像から高密度なタスクを学習できる数ショットの学習ソリューションが望まれる。 しかし、現在の少数ショット学習法は、セマンティクスのセグメンテーションのような制限されたタスクを対象としており、これはおそらく、暗黙のセマンティクスの任意のタスクに柔軟かつ効率的に適応できる汎用的で統一されたモデルを設計することの難しさによるものと思われる。 任意の密接な予測タスクのための汎用的な数ショット学習システムであるVisual Token Matching (VTM)を提案する。 すべてのタスクをカプセル化するイメージやラベルのパッチレベルの埋め込みトークンに対して、非パラメトリックマッチングを採用する。 また、VTMは、マッチングアルゴリズムを変調するタスク固有のパラメータの少ないタスクに柔軟に適応する。 複数の特徴階層でトークンマッチングを行うViTバックボーンを含む強力な階層エンコーダデコーダアーキテクチャとして,VTMを実装した。 我々は,タスクノミーデータセットの挑戦的な変種を用いてVTMを実験し,不明瞭な予測タスクを頑健に学習することを確認する。 驚くべきことに、新しいタスクのラベル付き例(完全な監督の0.004%)のみを使用して、完全に監督されたベースラインと競合する。 コードはhttps://github.com/gitgyun/visual_token_matchingで入手できる。

Dense prediction tasks are a fundamental class of problems in computer vision. As supervised methods suffer from high pixel-wise labeling cost, a few-shot learning solution that can learn any dense task from a few labeled images is desired. Yet, current few-shot learning methods target a restricted set of tasks such as semantic segmentation, presumably due to challenges in designing a general and unified model that is able to flexibly and efficiently adapt to arbitrary tasks of unseen semantics. We propose Visual Token Matching (VTM), a universal few-shot learner for arbitrary dense prediction tasks. It employs non-parametric matching on patch-level embedded tokens of images and labels that encapsulates all tasks. Also, VTM flexibly adapts to any task with a tiny amount of task-specific parameters that modulate the matching algorithm. We implement VTM as a powerful hierarchical encoder-decoder architecture involving ViT backbones where token matching is performed at multiple feature hierarchies. We experiment VTM on a challenging variant of Taskonomy dataset and observe that it robustly few-shot learns various unseen dense prediction tasks. Surprisingly, it is competitive with fully supervised baselines using only 10 labeled examples of novel tasks (0.004% of full supervision) and sometimes outperforms using 0.1% of full supervision. Codes are available at https://github.com/GitGyun/visual_token_matching.
翻訳日:2023-03-28 16:26:31 公開日:2023-03-27
# 時間的・非時間的データに対する因果探索法の検討

A Survey on Causal Discovery Methods for Temporal and Non-Temporal Data ( http://arxiv.org/abs/2303.15027v1 )

ライセンス: Link先を確認
Uzma Hasan, Emam Hossain, Md Osman Gani(参考訳) Causal Discovery (CD) は、変数間の因果関係をデータから識別するプロセスである。 長年にわたり、基礎となる因果メカニズムを明らかにするために、データの統計的性質に基づいたいくつかの手法が開発されてきた。 本研究では,因果発見における共通用語を紹介するとともに,異なる設定における因果縁を特定するために設計されたアプローチの包括的考察を行う。 さらに、因果発見アルゴリズムの性能を評価するために利用可能なベンチマークデータセットや、因果発見を簡単に行うためのツール、これらの手法を評価するのに使用される一般的なメトリクスについても論じる。 最後に,cdに関連する共通課題を提示するとともに,様々な分野におけるcdの応用について論じる。

Causal Discovery (CD) is the process of identifying the cause-effect relationships among the variables from data. Over the years, several methods have been developed primarily based on the statistical properties of data to uncover the underlying causal mechanism. In this study we introduce the common terminologies in causal discovery, and provide a comprehensive discussion of the approaches designed to identify the causal edges in different settings. We further discuss some of the benchmark datasets available for evaluating the performance of the causal discovery algorithms, available tools to perform causal discovery readily, and the common metrics used to evaluate these methods. Finally, we conclude by presenting the common challenges involved in CD and also, discuss the applications of CD in multiple areas of interest.
翻訳日:2023-03-28 16:20:32 公開日:2023-03-27
# 閉じ込め型イオンシミュレーターにおける非ヘルミット吸収分光法による複素エネルギートポロジーの探索

Probing Complex-energy Topology via Non-Hermitian Absorption Spectroscopy in a Trapped Ion Simulator ( http://arxiv.org/abs/2303.15026v1 )

ライセンス: Link先を確認
Mingming Cao, Kai Li, Wending Zhao, Weixuan Guo, Bingxiag Qi, Xiuying Chang, Zichao Zhou, Yong Xu, Luming Duan(参考訳) 非エルミート系は一般に複雑なエネルギーを持ち、リンクや結び目のような位相構造を持つ。 量子シミュレーターにおける非エルミタン模型の実験的な工学的な進歩は大きいが、これらの系の複雑なエネルギーを実験的に探究することは大きな課題であり、複雑なエネルギートポロジーを直接診断することは困難である。 ここでは, 複素固有エネルギーがunlink, unknot, hopfリンク位相構造を示す1つのトラップイオンを持つ2バンド非ヘルミティアンモデルを実験的に実現する。 非エルミート吸収分光法に基づき、レーザービームを介して1つの系レベルを補助レベルに結合し、長い時間後にイオンの集団を補助レベル上で実験的に測定する。 複素固有エネルギーは抽出され、unlink、unknotまたはhopfリンクトポロジー構造を示す。 本研究は, 複素エネルギーを非エルミート吸収分光法により量子シミュレータで実験的に測定できることを示し, トラップイオン, 低温原子, 超伝導回路, 固体スピン系などの非エルミート量子系における複素エネルギー特性を探索する扉を開く。

Non-Hermitian systems generically have complex energies, which may host topological structures, such as links or knots. While there has been great progress in experimentally engineering non-Hermitian models in quantum simulators, it remains a significant challenge to experimentally probe complex energies in these systems, thereby making it difficult to directly diagnose complex-energy topology. Here, we experimentally realize a two-band non-Hermitian model with a single trapped ion whose complex eigenenergies exhibit the unlink, unknot or Hopf link topological structures. Based on non-Hermitian absorption spectroscopy, we couple one system level to an auxiliary level through a laser beam and then experimentally measure the population of the ion on the auxiliary level after a long period of time. Complex eigenenergies are then extracted, illustrating the unlink, unknot or Hopf link topological structure. Our work demonstrates that complex energies can be experimentally measured in quantum simulators via non-Hermitian absorption spectroscopy, thereby opening the door for exploring various complex-energy properties in non-Hermitian quantum systems, such as trapped ions, cold atoms, superconducting circuits or solid-state spin systems.
翻訳日:2023-03-28 16:20:19 公開日:2023-03-27
# アノテーションを欠くユニバーサル病変検出のためのエンドツーエンドフレームワーク

An End-to-End Framework For Universal Lesion Detection With Missing Annotations ( http://arxiv.org/abs/2303.15024v1 )

ライセンス: Link先を確認
Xiaoyu Bai, Yong Xia(参考訳) 完全な注釈付き大規模医療画像データセットは非常に貴重である。 しかし、医療画像のラベル付けは面倒で専門的な知識を必要とするため、利用可能な大規模なデータセットにはアノテーションの問題があることが多い。 例えば、さまざまな病変のラベルが付いた大規模CT画像データセットであるDeepLesionでは、アノテーションの欠落率は50%と報告されている。 病変検出装置を直接訓練することは、未診断病変による偽陰性監視に悩まされる。 この問題に対処するために、以前の研究では、病変のマイニングと検出器のトレーニングを切り替えるために、洗練された多段階戦略を用いてきた。 そこで本研究では,非標識病変を同時に検出し,同時に診断を行うための新しいエンドツーエンドフレームワークを提案する。 我々の枠組みは教師と生徒のパラダイムに従っている。 各イテレーションにおいて、教師モデルは入力データを推測し、一連の予測を生成する。 高信頼度予測は、学生モデルを訓練するための部分的にラベル付けされた真実と組み合わせられる。 DeepLesionデータセットでは、従来の部分的にラベル付けされたトレーニングセットを使用して、他のより複雑なメソッドよりも優れ、平均感度が2.3\%、平均精度が2.7\%、最先端の普遍的な病変検出結果が達成できる。

Fully annotated large-scale medical image datasets are highly valuable. However, because labeling medical images is tedious and requires specialized knowledge, the large-scale datasets available often have missing annotation issues. For instance, DeepLesion, a large-scale CT image dataset with labels for various kinds of lesions, is reported to have a missing annotation rate of 50\%. Directly training a lesion detector on it would suffer from false negative supervision caused by unannotated lesions. To address this issue, previous works have used sophisticated multi-stage strategies to switch between lesion mining and detector training. In this work, we present a novel end-to-end framework for mining unlabeled lesions while simultaneously training the detector. Our framework follows the teacher-student paradigm. In each iteration, the teacher model infers the input data and creates a set of predictions. High-confidence predictions are combined with partially-labeled ground truth for training the student model. On the DeepLesion dataset, using the original partially labeled training set, our model can outperform all other more complicated methods and surpass the previous best method by 2.3\% on average sensitivity and 2.7\% on average precision, achieving state-of-the-art universal lesion detection results.
翻訳日:2023-03-28 16:19:56 公開日:2023-03-27
# ScarceNet:スカースアノテーションによる動物行動の推定

ScarceNet: Animal Pose Estimation with Scarce Annotations ( http://arxiv.org/abs/2303.15023v1 )

ライセンス: Link先を確認
Chen Li and Gim Hee Lee(参考訳) 動物のポーズ推定は、ラベル付きデータの欠如により重要だが未探索の課題である。 本稿では,ラベル付きデータとラベル付き画像の小さなセットのみを利用可能とする,少ないアノテーションで動物のポーズ推定の課題に取り組む。 この問題の解決策の核心は、よくラベルされた動物のポーズデータの欠如を補うためにラベルのないデータを使用することである。 そこで本研究では,ラベルのない画像に対して人工ラベルを生成するための擬似ラベルベース手法であるscarcenetを提案する。 擬似ラベルは、ラベル付き画像の小さなセットで訓練されたモデルで生成されるが、一般的にノイズが多く、トレーニングに直接使用するとパフォーマンスが損なわれる。 この問題を解決するために、まず、信頼できる擬似ラベルを選択するために、小さな損失のトリックを使う。 有効ではあるが、多数の高損失サンプルが使われていないため、選択プロセスは即効性がある。 さらに,合意チェックに基づいて,高損失サンプルから再利用可能なサンプルを特定することを提案する。 擬似ラベルは再生成され、再利用可能なサンプルの監視を提供する。 最後に、信頼性や再利用可能なサンプルがまだ残っているため、一貫性の制約を強制する学生-教師フレームワークを導入する。 信頼度の高い擬似ラベル選択と再利用サンプル再ラベルと一貫性制約を組み合わせることで、未ラベルデータを完全に活用することができる。 我々は、既存の半教師付きアプローチを大きなマージンで上回るAP-10Kデータセットに対するアプローチを評価する。 また、TigDogデータセットでテストし、アノテーションが少ない場合に、ドメイン適応ベースのアプローチよりも優れたパフォーマンスを実現できるようにしています。 私たちのコードはプロジェクトのWebサイトで利用可能です。

Animal pose estimation is an important but under-explored task due to the lack of labeled data. In this paper, we tackle the task of animal pose estimation with scarce annotations, where only a small set of labeled data and unlabeled images are available. At the core of the solution to this problem setting is the use of the unlabeled data to compensate for the lack of well-labeled animal pose data. To this end, we propose the ScarceNet, a pseudo label-based approach to generate artificial labels for the unlabeled images. The pseudo labels, which are generated with a model trained with the small set of labeled images, are generally noisy and can hurt the performance when directly used for training. To solve this problem, we first use a small-loss trick to select reliable pseudo labels. Although effective, the selection process is improvident since numerous high-loss samples are left unused. We further propose to identify reusable samples from the high-loss samples based on an agreement check. Pseudo labels are re-generated to provide supervision for those reusable samples. Lastly, we introduce a student-teacher framework to enforce a consistency constraint since there are still samples that are neither reliable nor reusable. By combining the reliable pseudo label selection with the reusable sample re-labeling and the consistency constraint, we can make full use of the unlabeled data. We evaluate our approach on the challenging AP-10K dataset, where our approach outperforms existing semi-supervised approaches by a large margin. We also test on the TigDog dataset, where our approach can achieve better performance than domain adaptation based approaches when only very few annotations are available. Our code is available at the project website.
翻訳日:2023-03-28 16:19:35 公開日:2023-03-27
# 論証交換による紛争解決による対話的説明

Interactive Explanations by Conflict Resolution via Argumentative Exchanges ( http://arxiv.org/abs/2303.15022v1 )

ライセンス: Link先を確認
Antonio Rago, Hengzhi Li and Francesca Toni(参考訳) 説明可能なAI(XAI)の分野が成熟するにつれて、AIモデルの(アウトプットの)インタラクティブな説明を求める声が高まっている。 本稿では,エージェント間の衝突解決(AIモデルや人間など)を計算的議論に頼って,対話的な説明に焦点をあてる。 具体的には,複数エージェントシステムにおいて,エージェント間の衝突を解決するために,個々のエージェントの定量的双極性議論フレームワークに格納された情報を動的に共有するための議論的交換(axs)を定義する。 次に、マシンと人間がマシンの予測について対話するXAI設定にAXをデプロイする。 XAIに適したAXを特徴付けるいくつかの理論的特性を特定し評価する。 最後に,機械における推論の反現実的パターンを捉え,人間の認知バイアスの影響を強調するなど,様々なエージェント行動を定義することで,XAIのためのAXをインスタンス化する。 実験により(シミュレーション環境において)これらの行動の比較的な利点を競合解決の観点から示し、最強の議論が必ずしも最も効果的であるとは限らないことを示した。

As the field of explainable AI (XAI) is maturing, calls for interactive explanations for (the outputs of) AI models are growing, but the state-of-the-art predominantly focuses on static explanations. In this paper, we focus instead on interactive explanations framed as conflict resolution between agents (i.e. AI models and/or humans) by leveraging on computational argumentation. Specifically, we define Argumentative eXchanges (AXs) for dynamically sharing, in multi-agent systems, information harboured in individual agents' quantitative bipolar argumentation frameworks towards resolving conflicts amongst the agents. We then deploy AXs in the XAI setting in which a machine and a human interact about the machine's predictions. We identify and assess several theoretical properties characterising AXs that are suitable for XAI. Finally, we instantiate AXs for XAI by defining various agent behaviours, e.g. capturing counterfactual patterns of reasoning in machines and highlighting the effects of cognitive biases in humans. We show experimentally (in a simulated environment) the comparative advantages of these behaviours in terms of conflict resolution, and show that the strongest argument may not always be the most effective.
翻訳日:2023-03-28 16:19:10 公開日:2023-03-27
# 人間の感覚を借用する: ソーシャルメディアのマルチモーダル分類のためのコメント認識自己学習

Borrowing Human Senses: Comment-Aware Self-Training for Social Media Multimodal Classification ( http://arxiv.org/abs/2303.15016v1 )

ライセンス: Link先を確認
Chunpu Xu and Jing Li(参考訳) ソーシャルメディアは毎日、画像とテキストのペアで巨大なマルチメディアコンテンツを作成しており、様々なマルチモーダル分類タスクのビジョンと言語理解の自動化の必要性を示している。 一般的に研究されている視覚言語データと比較して、ソーシャルメディア投稿はより暗黙的な画像テキスト関係を示す傾向がある。 そこでは,視覚的および言語的類似性を両立させて検索するユーザコメントからヒントを抽出する。 その後、分類タスクは教師/学生のフレームワークで自己学習を通して探索され、既存のベンチマークで通常ラベル付けされたデータスケールによって動機付けられる。 画像テキスト関係分類,皮肉検出,感情分類,ヘイトスピーチ検出の4つのマルチモーダルソーシャルメディアベンチマークにおいて,有意な実験を行った。 提案手法は,コメントモデリングや自己学習を用いない従来の最先端モデルの性能をさらに向上することを示す。

Social media is daily creating massive multimedia content with paired image and text, presenting the pressing need to automate the vision and language understanding for various multimodal classification tasks. Compared to the commonly researched visual-lingual data, social media posts tend to exhibit more implicit image-text relations. To better glue the cross-modal semantics therein, we capture hinting features from user comments, which are retrieved via jointly leveraging visual and lingual similarity. Afterwards, the classification tasks are explored via self-training in a teacher-student framework, motivated by the usually limited labeled data scales in existing benchmarks. Substantial experiments are conducted on four multimodal social media benchmarks for image text relation classification, sarcasm detection, sentiment classification, and hate speech detection. The results show that our method further advances the performance of previous state-of-the-art models, which do not employ comment modeling or self-training.
翻訳日:2023-03-28 16:18:50 公開日:2023-03-27
# Open Temporal Graph Neural Networksに向けて

Towards Open Temporal Graph Neural Networks ( http://arxiv.org/abs/2303.15015v1 )

ライセンス: Link先を確認
Kaituo Feng, Changsheng Li, Xiaolu Zhang, Jun Zhou(参考訳) 時間グラフのためのグラフニューラルネットワーク(GNN)は近年注目を集めており、ノードのクラスセットが閉じているという仮定が一般的である。 しかし、実世界のシナリオでは、時間経過とともに動的に増加するクラスセットで開集合問題に直面することが多い。 これは、既存の動的GNNメソッドに2つの大きな課題をもたらす。 i) 新しいクラスノードが古いクラスノードにリンクされることの多いオープン時間グラフにおいて、適切な情報を動的に伝播する方法。 この事件は激しい矛盾につながるだろう。 これは、通常のGNNが接続ノードの埋め込みを類似させる傾向があるためであり、これらの2つの対話ノードの埋め込みは異なるクラスに属するため、区別可能であることを期待する。 (II)時間グラフで新しいクラスを学習する際に古いクラスを忘れる破滅的な知識を避ける方法。 本稿では,この2つの課題に対処する目的で,OTGNetと呼ばれるオープン時間グラフに対する汎用的,原則的学習手法を提案する。 ノードの知識をクラス関連とクラス非依存に分割できると仮定し、情報ボトルネックの原理を拡張して、異なるクラスのノード間でクラス非依存の知識を伝播させ、矛盾する情報を集約しないようにすることで、新しいメッセージパッシングメカニズムを探求する。 さらに,効果的なクラスインクリメンタル学習のために,重要かつ多様な3adサブグラフ構造を選択する戦略を考案する。 異なる領域の3つの実世界のデータセットを広範囲に実験した結果,本手法がベースラインよりも優れていることが示された。

Graph neural networks (GNNs) for temporal graphs have recently attracted increasing attentions, where a common assumption is that the class set for nodes is closed. However, in real-world scenarios, it often faces the open set problem with the dynamically increased class set as the time passes by. This will bring two big challenges to the existing dynamic GNN methods: (i) How to dynamically propagate appropriate information in an open temporal graph, where new class nodes are often linked to old class nodes. This case will lead to a sharp contradiction. This is because typical GNNs are prone to make the embeddings of connected nodes become similar, while we expect the embeddings of these two interactive nodes to be distinguishable since they belong to different classes. (ii) How to avoid catastrophic knowledge forgetting over old classes when learning new classes occurred in temporal graphs. In this paper, we propose a general and principled learning approach for open temporal graphs, called OTGNet, with the goal of addressing the above two challenges. We assume the knowledge of a node can be disentangled into class-relevant and class-agnostic one, and thus explore a new message passing mechanism by extending the information bottleneck principle to only propagate class-agnostic knowledge between nodes of different classes, avoiding aggregating conflictive information. Moreover, we devise a strategy to select both important and diverse triad sub-graph structures for effective class-incremental learning. Extensive experiments on three real-world datasets of different domains demonstrate the superiority of our method, compared to the baselines.
翻訳日:2023-03-28 16:18:35 公開日:2023-03-27
# 非教師なしセマンティクスセグメンテーションにおける隠れ正の活用

Leveraging Hidden Positives for Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2303.15014v1 )

ライセンス: Link先を確認
Hyun Seok Seong, WonJun Moon, SuBeen Lee, Jae-Pil Heo(参考訳) ピクセルレベルのアノテーションをラベル付けするマンパワーの劇的な需要は、教師なしセマンティックセグメンテーションの出現を引き起こした。 視覚変換器(ViT)のバックボーンを用いた最近の研究は、例外的な性能を示しているが、タスク固有のトレーニングガイダンスや局所的な意味的一貫性については考慮されていない。 これらの問題に取り組むために,隠れた肯定を抽出し,豊かな意味関係を学習し,地域における意味的一貫性を確保することで,コントラスト学習を活用する。 具体的には,固定トレーニングバックボーンとセグメンテーション・ヘッド・イン・トレーニングによって定義された特徴的類似性に基づいて,各アンカーに対してタスク非依存とタスク特化の2種類のグローバルな隠蔽陽性を最初に発見する。 後者のコントリビューションの段階的な増加は、タスク固有のセマンティックな特徴をキャプチャするモデルを誘導する。 さらに,隣接パッチ間の意味的一貫性を学習するための勾配伝播戦略を導入する。 具体的には、予め定義された類似度スコアに比例して、局所的な隠蔽陽性(セマンティックに類似した近傍パッチ)に損失伝播を加える。 提案手法は,ココスタフ,都市景観,ポツダム-3データセットの新たな最先端(sota)結果を実現する。 私たちのコードは、https://github.com/hynnsk/HP.comで利用可能です。

Dramatic demand for manpower to label pixel-level annotations triggered the advent of unsupervised semantic segmentation. Although the recent work employing the vision transformer (ViT) backbone shows exceptional performance, there is still a lack of consideration for task-specific training guidance and local semantic consistency. To tackle these issues, we leverage contrastive learning by excavating hidden positives to learn rich semantic relationships and ensure semantic consistency in local regions. Specifically, we first discover two types of global hidden positives, task-agnostic and task-specific ones for each anchor based on the feature similarities defined by a fixed pre-trained backbone and a segmentation head-in-training, respectively. A gradual increase in the contribution of the latter induces the model to capture task-specific semantic features. In addition, we introduce a gradient propagation strategy to learn semantic consistency between adjacent patches, under the inherent premise that nearby patches are highly likely to possess the same semantics. Specifically, we add the loss propagating to local hidden positives, semantically similar nearby patches, in proportion to the predefined similarity scores. With these training schemes, our proposed method achieves new state-of-the-art (SOTA) results in COCO-stuff, Cityscapes, and Potsdam-3 datasets. Our code is available at: https://github.com/hynnsk/HP.
翻訳日:2023-03-28 16:18:10 公開日:2023-03-27
# NeRFを用いた3次元マルチクラス画像変換

3D-Aware Multi-Class Image-to-Image Translation with NeRFs ( http://arxiv.org/abs/2303.15012v1 )

ライセンス: Link先を確認
Senmao Li, Joost van de Weijer, Yaxing Wang, Fahad Shahbaz Khan, Meiqin Liu, Jian Yang(参考訳) ニューラルラジアンス場(NeRF)と組み合わせた3D認識生成モデル(3D認識GAN)の最近の進歩は、目覚ましい成果を得た。 しかし、3D-Aware I2I (3D-Aware I2I) 翻訳のための3D-Aware GANの研究は行われていない。 2D-I2I翻訳法は非現実的な形状/同一性の変化に悩まされる。 3D対応の多クラスI2I翻訳を行うために,この学習プロセスを多クラス対応のGANステップと3D対応のI2I翻訳ステップに分離する。 最初のステップでは、新しい条件付きアーキテクチャと効果的なトレーニング戦略の2つの新しい手法を提案する。 第2のステップでは、ビュー一貫性を保ったマルチクラス3D対応GANアーキテクチャに基づいて、3D対応I2I翻訳システムを構築する。 ビュー整合性の問題をさらに軽減するため,U-netライクなアダプタネットワーク設計,階層的表現制約,相対正規化損失など,いくつかの新しい手法を提案する。 2つのデータセットに関する広範囲な実験において、定量的および定性的な結果から、マルチビュー一貫性を備えた3d対応i2i翻訳を成功させた。

Recent advances in 3D-aware generative models (3D-aware GANs) combined with Neural Radiance Fields (NeRF) have achieved impressive results. However no prior works investigate 3D-aware GANs for 3D consistent multi-class image-to-image (3D-aware I2I) translation. Naively using 2D-I2I translation methods suffers from unrealistic shape/identity change. To perform 3D-aware multi-class I2I translation, we decouple this learning process into a multi-class 3D-aware GAN step and a 3D-aware I2I translation step. In the first step, we propose two novel techniques: a new conditional architecture and an effective training strategy. In the second step, based on the well-trained multi-class 3D-aware GAN architecture, that preserves view-consistency, we construct a 3D-aware I2I translation system. To further reduce the view-consistency problems, we propose several new techniques, including a U-net-like adaptor network design, a hierarchical representation constrain and a relative regularization loss. In extensive experiments on two datasets, quantitative and qualitative results demonstrate that we successfully perform 3D-aware I2I translation with multi-view consistency.
翻訳日:2023-03-28 16:17:45 公開日:2023-03-27
# 合成視覚推論のためのカリキュラム学習

Curriculum Learning for Compositional Visual Reasoning ( http://arxiv.org/abs/2303.15006v1 )

ライセンス: Link先を確認
Wafa Aissa (CEDRIC - VERTIGO), Marin Ferecatu (CEDRIC - VERTIGO), Michel Crucianu (CEDRIC - VERTIGO)(参考訳) VQA(Visual Question Answering)は、大規模なデータセットと高価なトレーニングを必要とする複雑なタスクである。 Neural Module Networks (NMN) はまず質問を推論パスに変換し、そのパスに従って画像を分析し、回答を提供する。 本稿では,GQAデータセット上での‘ウォームスタート’学習に事前定義されたクロスモーダル埋め込みに依存したNMN手法を提案する。 CLメソッドの定義にはいくつかの難易度基準が採用されている。 CL法を適宜選択することにより,トレーニングコストとトレーニングデータの量を大幅に削減し,最終的なVQA精度に限られた影響を与えることを示す。 さらに,訓練中に中間損失を導入し,cl戦略を単純化できることを見いだす。

Visual Question Answering (VQA) is a complex task requiring large datasets and expensive training. Neural Module Networks (NMN) first translate the question to a reasoning path, then follow that path to analyze the image and provide an answer. We propose an NMN method that relies on predefined cross-modal embeddings to ``warm start'' learning on the GQA dataset, then focus on Curriculum Learning (CL) as a way to improve training and make a better use of the data. Several difficulty criteria are employed for defining CL methods. We show that by an appropriate selection of the CL method the cost of training and the amount of training data can be greatly reduced, with a limited impact on the final VQA accuracy. Furthermore, we introduce intermediate losses during training and find that this allows to simplify the CL strategy.
翻訳日:2023-03-28 16:17:24 公開日:2023-03-27
# メタキャリブレーション規則化ニューラルネットワーク

Meta-Calibration Regularized Neural Networks ( http://arxiv.org/abs/2303.15057v1 )

ライセンス: Link先を確認
Cheng Wang and Jacek Golebiowski(参考訳) 予測確率と真正性確率のミスマッチは、現代のディープニューラルネットワークでよく確認されている。 最近の研究は、従来の目的と並んでキャリブレーション誤差のプロキシを最適化することで、キャリブレーションモデルを直接訓練することでこの問題に対処することを目的としている。 近年,メタ校正(Meta-Calibration, MC)により, メタラーニングによる校正モデル学習の有効性が示された。 本研究では,(1)ガンマネットワーク(gamma-net),(2)ガンマネットワークの最適化のための焦点損失のための連続空間におけるサンプル回りガンマを学習するメタネットワーク,(2)ガンマネットを円滑に最適化することを目的とした,ガウス型カーネル型不偏微分型eceであるsmoous expected calibration error(sece)という2つの主成分をmcに拡張する。 提案手法は,予測性能を維持しつつ,より優れたキャリブレーションに向けてニューラルネットワークを定式化する。 私たちの実験は (a)連続空間におけるサンプルワイドガンマの学習は、効果的に校正を行うことができる。 b) SECE は ガンマネットをスムーズに最適化し, 双極子スキームの堅牢性を向上させる。 (c)ガンマネットとSECEの組み合わせは,様々なキャリブレーション指標で最高のキャリブレーション性能を達成し,最近提案された3つのデータセットに対する複数の手法と比較して,非常に競争力のある予測性能を維持する。

Miscalibration-the mismatch between predicted probability and the true correctness likelihood-has been frequently identified in modern deep neural networks. Recent work in the field aims to address this problem by training calibrated models directly by optimizing a proxy of the calibration error alongside the conventional objective. Recently, Meta-Calibration (MC) showed the effectiveness of using meta-learning for learning better calibrated models. In this work, we extend MC with two main components: (1) gamma network (gamma-net), a meta network to learn a sample-wise gamma at a continuous space for focal loss for optimizing backbone network; (2) smooth expected calibration error (SECE), a Gaussian-kernel based unbiased and differentiable ECE which aims to smoothly optimizing gamma-net. The proposed method regularizes neural network towards better calibration meanwhile retain predictive performance. Our experiments show that (a) learning sample-wise gamma at continuous space can effectively perform calibration; (b) SECE smoothly optimise gamma-net towards better robustness to binning schemes; (c) the combination of gamma-net and SECE achieve the best calibration performance across various calibration metrics and retain very competitive predictive performance as compared to multiple recently proposed methods on three datasets.
翻訳日:2023-03-28 16:10:56 公開日:2023-03-27
# chatgptはテキスト注釈タスクでクラウドワーカーを上回る

ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks ( http://arxiv.org/abs/2303.15056v1 )

ライセンス: Link先を確認
Fabrizio Gilardi, Meysam Alizadeh, Ma\"el Kubli(参考訳) 多くのnlpアプリケーションは様々なタスク、特に分類器の訓練や教師なしモデルの性能評価のために手動のデータアノテーションを必要とする。 作業の規模や複雑さによっては、mturkのようなプラットフォーム上のクラウドワーカーや、研究アシスタントのような訓練された注釈家によって作業が行われる。 2,382ツイートのサンプルを使って、chatgptは、関連性、スタンス、トピック、フレーム検出など、いくつかのアノテーションタスクにおいて、クラウドワーカーよりも優れています。 特に、ChatGPTのゼロショット精度は5つのタスクのうち4つのタスクでクラウドワーカーよりも高く、ChatGPTのインターコーダ契約は、すべてのタスクでクラウドワーカーとトレーニングアノテータの両方よりも高い。 さらに、ChatGPTのアノテーションあたりのコストは0.003ドル未満で、MTurkの約20倍安い。 これらの結果は,大規模言語モデルがテキスト分類の効率を大幅に向上させる可能性を示している。

Many NLP applications require manual data annotations for a variety of tasks, notably to train classifiers or evaluate the performance of unsupervised models. Depending on the size and degree of complexity, the tasks may be conducted by crowd-workers on platforms such as MTurk as well as trained annotators, such as research assistants. Using a sample of 2,382 tweets, we demonstrate that ChatGPT outperforms crowd-workers for several annotation tasks, including relevance, stance, topics, and frames detection. Specifically, the zero-shot accuracy of ChatGPT exceeds that of crowd-workers for four out of five tasks, while ChatGPT's intercoder agreement exceeds that of both crowd-workers and trained annotators for all tasks. Moreover, the per-annotation cost of ChatGPT is less than $0.003 -- about twenty times cheaper than MTurk. These results show the potential of large language models to drastically increase the efficiency of text classification.
翻訳日:2023-03-28 16:10:31 公開日:2023-03-27
# HPCを用いたAIに基づく高エネルギー物理ワークロードのハイパーパラメータ最適化、量子支援モデル性能予測、ベンチマーク

Hyperparameter optimization, quantum-assisted model performance prediction, and benchmarking of AI-based High Energy Physics workloads using HPC ( http://arxiv.org/abs/2303.15053v1 )

ライセンス: Link先を確認
Eric Wulff, Maria Girone, David Southwick, Juan Pablo Garc\'ia Amboage, Eduard Cuba(参考訳) ディープラーニングベースのAIモデルのトレーニングとハイパーパラメータ最適化(HPO)は、しばしばリソースを集中的に計算し、大規模分散リソースとスケーラブルでリソース効率のよいハイパーパラメータ検索アルゴリズムの使用を要求する。 本研究は,HPOプロセスの高性能化を支援するためのモデル性能予測の可能性について検討する。 加えて、量子アニーラは性能予測器の訓練に使われ、量子システムの現在の限界から生じるいくつかの問題を克服し、解の安定性を向上させる方法が提案されている。 これにより、量子コンピュータが古典的な機械学習チューニングパイプラインにどのように統合できるかを示す古典的なマシンに匹敵する量子マシンで結果を達成することができる。 さらに、衝突イベント再構成のためのAIモデルに基づくコンテナ化ベンチマークの開発から、ディープニューラルネットワークのトレーニングのための異なるハードウェアアクセラレーターの適合性の比較と評価を可能にする結果が提示される。

Training and Hyperparameter Optimization (HPO) of deep learning-based AI models are often compute resource intensive and calls for the use of large-scale distributed resources as well as scalable and resource efficient hyperparameter search algorithms. This work studies the potential of using model performance prediction to aid the HPO process carried out on High Performance Computing systems. In addition, a quantum annealer is used to train the performance predictor and a method is proposed to overcome some of the problems derived from the current limitations in quantum systems as well as to increase the stability of solutions. This allows for achieving results on a quantum machine comparable to those obtained on a classical machine, showing how quantum computers could be integrated within classical machine learning tuning pipelines. Furthermore, results are presented from the development of a containerized benchmark based on an AI-model for collision event reconstruction that allows us to compare and assess the suitability of different hardware accelerators for training deep neural networks.
翻訳日:2023-03-28 16:10:10 公開日:2023-03-27
# 遅延チョイススキームにおけるコヒーレント誘導量子相関

Coherently induced quantum correlation in a delayed-choice scheme ( http://arxiv.org/abs/2303.15052v1 )

ライセンス: Link先を確認
B. S. Ham(参考訳) 量子絡み合いは古典物理学では得られないユニークな量子特徴として知られている。 近年,基底-積重ね合わせのコヒーレンス理解が量子相関の鍵となるフランソン型相関と遅延結合型量子消去器について,量子相関のコヒーレンス解釈が提案されている。 ここでは、ペア化されたコヒーレント光子間の基底積重ね合わせのコヒーレンス操作を、局所パラメータの共相関係によって量子特徴が表される遅延選択スキームで量子特徴に対して提示する。 このようなコヒーレントな励起量子特徴は、空間のような分離量子粒子間の非局所量子相関に対するベル不等式違反の核である。

Quantum entanglement is known as a unique quantum feature that cannot be obtained by classical physics. Recently, coherence interpretations of the quantum correlation have been presented for Franson-type correlation and delayed-choice quantum eraser, where coherence understanding of the basis-product superposition is the key to the quantum correlation. Here, coherence manipulations of the basis-product superposition between paired coherent photons are presented for the quantum feature in a delayed-choice scheme, whose quantum feature is represented by a joint-phase relation of local parameters. Such a coherently excited quantum feature is the heart of the Bell inequality violations for the nonlocal quantum correlation between space-like separated quantum particles.
翻訳日:2023-03-28 16:09:53 公開日:2023-03-27
# InterviewBot: 大学受験生にインタビューするリアルタイムエンドツーエンド対話システム

InterviewBot: Real-Time End-to-End Dialogue System to Interview Students for College Admission ( http://arxiv.org/abs/2303.15049v1 )

ライセンス: Link先を確認
Zihao Wang and Jinho Choi(参考訳) 本稿では,会話履歴を動的に統合し,トピックをカスタマイズしたインタビューボットをコヒーレントな埋め込み空間に組み込んで,米国の大学に通学する留学生と10分間のハイブリッドドメイン(オープンおよびクローズド)会話を行い,学術的・文化的即応性を評価する。 ニューラルベースエンドツーエンド対話モデルを構築するために、人間対人間インタビューの音声録音7,361件を自動転写し、440件を手作業で微調整・評価する。 変換器を用いたエンコーダデコーダモデルの入力/出力サイズ制限を克服するため、コンテキストアテンションとトピック記憶という2つの新しい手法を提案し、モデルが関連性があり一貫した相互作用を行えるようにした。 最終モデルは,インタビューデータに対する回答を統計的に比較し,また,プロのインタビュアーや様々な学生にリアルタイムに対話させ,フルエンシーや文脈認識において高い満足度を得ることにより,動的に評価した。

We present the InterviewBot that dynamically integrates conversation history and customized topics into a coherent embedding space to conduct 10 mins hybrid-domain (open and closed) conversations with foreign students applying to U.S. colleges for assessing their academic and cultural readiness. To build a neural-based end-to-end dialogue model, 7,361 audio recordings of human-to-human interviews are automatically transcribed, where 440 are manually corrected for finetuning and evaluation. To overcome the input/output size limit of a transformer-based encoder-decoder model, two new methods are proposed, context attention and topic storing, allowing the model to make relevant and consistent interactions. Our final model is tested both statistically by comparing its responses to the interview data and dynamically by inviting professional interviewers and various students to interact with it in real-time, finding it highly satisfactory in fluency and context awareness.
翻訳日:2023-03-28 16:09:40 公開日:2023-03-27
# 光中心対称性を用いた夜間スマートフォン反射フレア除去

Nighttime Smartphone Reflective Flare Removal Using Optical Center Symmetry Prior ( http://arxiv.org/abs/2303.15046v1 )

ライセンス: Link先を確認
Yuekun Dai, Yihang Luo, Shangchen Zhou, Chongyi Li, Chen Change Loy(参考訳) 反射フレア(reflection flare)は、レンズ内部に光が反射し、写真に明るいスポットや「ゴースト効果」が生じる現象であり、その品質に影響を及ぼす可能性がある。 反射フレアの除去は非常に望ましいが困難である。 既存の多くの方法は、これらの明るい点を検出するために手動で設計された特徴に依存しているが、様々な種類の光によって生成された反射フレアを識別できず、複数の光源を持つシナリオの光源を誤って除去することもある。 これらの課題に対処するために、反射フレアと光源は常にレンズの光学中心の周囲に対称であることを示す光中心対称性を事前に提案する。 この前は反射フレアの提案領域をより正確に見つけることができ、ほとんどのスマートフォンカメラに適用できる。 この先に構築したBracketFlareと呼ばれる反射フレア除去データセットは、多様なリアルな反射フレアパターンを含む。 連続ブラケットを用いて未露出画像の反射フレアパターンをキャプチャし、通常露出画像と組み合わせることで、フレア腐食画像とフレアフリー画像の対を合成する。 データセットによって、ニューラルネットワークは反射フレアを効果的に取り除くように訓練することができる。 大規模な実験により,本手法が合成および実世界のデータセットに与える影響を実証した。

Reflective flare is a phenomenon that occurs when light reflects inside lenses, causing bright spots or a "ghosting effect" in photos, which can impact their quality. Eliminating reflective flare is highly desirable but challenging. Many existing methods rely on manually designed features to detect these bright spots, but they often fail to identify reflective flares created by various types of light and may even mistakenly remove the light sources in scenarios with multiple light sources. To address these challenges, we propose an optical center symmetry prior, which suggests that the reflective flare and light source are always symmetrical around the lens's optical center. This prior helps to locate the reflective flare's proposal region more accurately and can be applied to most smartphone cameras. Building on this prior, we create the first reflective flare removal dataset called BracketFlare, which contains diverse and realistic reflective flare patterns. We use continuous bracketing to capture the reflective flare pattern in the underexposed image and combine it with a normally exposed image to synthesize a pair of flare-corrupted and flare-free images. With the dataset, neural networks can be trained to remove the reflective flares effectively. Extensive experiments demonstrate the effectiveness of our method on both synthetic and real-world datasets.
翻訳日:2023-03-28 16:09:21 公開日:2023-03-27
# 未知の露光時間下でのマルチフレーム補間と劣化

Joint Video Multi-Frame Interpolation and Deblurring under Unknown Exposure Time ( http://arxiv.org/abs/2303.15043v1 )

ライセンス: Link先を確認
Wei Shang, Dongwei Ren, Yi Yang, Hongzhi Zhang, Kede Ma, Wangmeng Zuo(参考訳) 消費者カメラが撮影した自然なビデオは、ダイナミックなシーンの複雑さ、レンズとセンサーの不完全さ、理想的な露出設定などによって、フレームレートと動きのぼやけが少なくなることが多い。 その結果,映像フレームの補間とデブロアリングを共同で行う計算手法が,露光時間が知られて固定されているという非現実的な仮定によって出現し始める。 本研究は,より現実的で挑戦的な課題 - 未知の露光時間下での映像マルチフレーム補間とデブラリング - を,野心的に目標とする。 この目的に向けて、我々はまず教師付きコントラスト学習の変種を採用し、入力されたぼやけたフレームから露出認識表現を構築する。 次に、2つのU-Netを運動内および運動間分析のために訓練し、ゲインチューニングにより学習した露光表現に適応する。 我々は, プログレッシブな露出適応畳み込みとモーションリファインメントにより, 露出と動き表現に基づく映像再構成ネットワークを構築した。 シミュレーションデータセットと実世界のデータセットの両方に対する広範囲な実験により,本手法は,ジョイントビデオのx8補間とデブラリングタスクにおいて,最先端の性能向上を実現する。 さらに,疑わしいx16補間タスクでは,PSNRの観点から既存の手法よりも1.5dB以上優れていた。

Natural videos captured by consumer cameras often suffer from low framerate and motion blur due to the combination of dynamic scene complexity, lens and sensor imperfection, and less than ideal exposure setting. As a result, computational methods that jointly perform video frame interpolation and deblurring begin to emerge with the unrealistic assumption that the exposure time is known and fixed. In this work, we aim ambitiously for a more realistic and challenging task - joint video multi-frame interpolation and deblurring under unknown exposure time. Toward this goal, we first adopt a variant of supervised contrastive learning to construct an exposure-aware representation from input blurred frames. We then train two U-Nets for intra-motion and inter-motion analysis, respectively, adapting to the learned exposure representation via gain tuning. We finally build our video reconstruction network upon the exposure and motion representation by progressive exposure-adaptive convolution and motion refinement. Extensive experiments on both simulated and real-world datasets show that our optimized method achieves notable performance gains over the state-of-the-art on the joint video x8 interpolation and deblurring task. Moreover, on the seemingly implausible x16 interpolation task, our method outperforms existing methods by more than 1.5 dB in terms of PSNR.
翻訳日:2023-03-28 16:09:00 公開日:2023-03-27
# エゴノイズと環境騒音の適応的多チャンネル連成低減

Partially Adaptive Multichannel Joint Reduction of Ego-noise and Environmental Noise ( http://arxiv.org/abs/2303.15042v1 )

ライセンス: Link先を確認
Huajian Fang, Niklas Wittmer, Johannes Twiefel, Stefan Wermter and Timo Gerkmann(参考訳) 人間とロボットの相互作用は、環境騒音の影響を受ける音声録音からターゲット音声を推定できるノイズロバスト音声処理モジュールと、いわゆるエゴノイズ(ego-noise)に依存する。 外部の環境騒音源は環境によって異なるが、エゴノイズは主にロボットの内部モーターと関節によって引き起こされる。 エゴノイズと環境ノイズ低減はしばしば分離され、環境ノイズを考慮せずにエゴノイズ低減が行われる。 近年, 変動型オートエンコーダ(VAE)に基づく音声モデルと完全適応型非負行列分解(NMF)ノイズモデルを組み合わせることで, 環境騒音の異なるクリーン音声を復元する。 しかし、その強化性能は、例えばエゴノイズを含む有害な音響シナリオにおいて制限される。 本稿では,環境騒音に対する適応性を保ちつつ,エゴノイズモデルの事前学習を行い,エゴノイズの空間的・スペクトル的特徴を活用し,エゴノイズと環境雑音を協調的にモデル化するマルチチャネル部分適応スキームを提案する。 実験の結果, 提案手法は, エゴノイズと環境騒音が同時に発生する場合, 完全に固定されたスキームと完全適応スキームに基づく手法よりも優れていた。

Human-robot interaction relies on a noise-robust audio processing module capable of estimating target speech from audio recordings impacted by environmental noise, as well as self-induced noise, so-called ego-noise. While external ambient noise sources vary from environment to environment, ego-noise is mainly caused by the internal motors and joints of a robot. Ego-noise and environmental noise reduction are often decoupled, i.e., ego-noise reduction is performed without considering environmental noise. Recently, a variational autoencoder (VAE)-based speech model has been combined with a fully adaptive non-negative matrix factorization (NMF) noise model to recover clean speech under different environmental noise disturbances. However, its enhancement performance is limited in adverse acoustic scenarios involving, e.g. ego-noise. In this paper, we propose a multichannel partially adaptive scheme to jointly model ego-noise and environmental noise utilizing the VAE-NMF framework, where we take advantage of spatially and spectrally structured characteristics of ego-noise by pre-training the ego-noise model, while retaining the ability to adapt to unknown environmental noise. Experimental results show that our proposed approach outperforms the methods based on a completely fixed scheme and a fully adaptive scheme when ego-noise and environmental noise are present simultaneously.
翻訳日:2023-03-28 16:08:39 公開日:2023-03-27
# ブラックボックスパラメータ推定に向けて

Towards black-box parameter estimation ( http://arxiv.org/abs/2303.15041v1 )

ライセンス: Link先を確認
Amanda Lenzi and Haavard Rue(参考訳) ディープラーニングアルゴリズムは、シミュレーションが容易だが可能性計算が難しい統計モデルのパラメータを推定するのに成功している。 しかし、これらの手法の成功は、観測されたデータを十分に再現するパラメータをシミュレートすることに依存し、現在、これらのシミュレーションを作成するための効率的な方法が欠如している。 弱パラメータ構造仮定のみに基づいて統計モデルのパラメータを推定する新しいブラックボックス手法を開発した。 時系列のような頻繁な発生を伴う十分に構造化された可能性に対して、幅広いデータサイズをカバーする広範なシミュレーションデータベース上で、ディープニューラルネットワークを事前トレーニングすることで実現される。 他の複雑な依存関係に対して、反復アルゴリズムは複数のラウンドで正しいパラメータ領域にシミュレーションを誘導する。 これらのアプローチは、複雑な空間的および時間的依存を持つ非ガウスモデルからパラメータの不確かさを推定し、定量化することができる。 我々の手法の成功は、完全に柔軟な自動ブラックボックス推定フレームワークへの第一歩である。

Deep learning algorithms have recently shown to be a successful tool in estimating parameters of statistical models for which simulation is easy, but likelihood computation is challenging. But the success of these approaches depends on simulating parameters that sufficiently reproduce the observed data, and, at present, there is a lack of efficient methods to produce these simulations. We develop new black-box procedures to estimate parameters of statistical models based only on weak parameter structure assumptions. For well-structured likelihoods with frequent occurrences, such as in time series, this is achieved by pre-training a deep neural network on an extensive simulated database that covers a wide range of data sizes. For other types of complex dependencies, an iterative algorithm guides simulations to the correct parameter region in multiple rounds. These approaches can successfully estimate and quantify the uncertainty of parameters from non-Gaussian models with complex spatial and temporal dependencies. The success of our methods is a first step towards a fully flexible automatic black-box estimation framework.
翻訳日:2023-03-28 16:08:15 公開日:2023-03-27
# メタ知識共埋め込みによる画像品質認識診断

Image Quality-aware Diagnosis via Meta-knowledge Co-embedding ( http://arxiv.org/abs/2303.15038v1 )

ライセンス: Link先を確認
Haoxuan Che, Siyu Chen, Hao Chen(参考訳) 医用画像は通常、臨床における画像劣化に悩まされ、深層学習モデルの性能が低下する。 この問題を解決するために、以前のほとんどの作品は、モデルに潜在的な価値を無視しながら、劣化を招く低品質画像をフィルタリングすることに焦点を当ててきた。 劣化の知識を効果的に学習し活用することで、モデルはその悪影響に抵抗し、誤診断を避けることができる。 本稿では,低品質な画像と画像品質ラベルを活かして,より正確で堅牢な診断を実現することを目的とした画像品質認識診断の課題を提起する。 しかし、画像品質評価と疾患診断の間には、劣化の多様性と表面的無関係な目標があるため、診断を支援するために品質ラベルを効果的に活用することは依然として困難である。 そこで本研究では,タスクネットとメタラーナという2つのサブネットからなるメタ知識協調型ネットワークを提案する。 Task Netは、知識を組み込んだ機能による診断を強化するために、明示的な品質情報利用メカニズムを構築し、Meta Learnerは、メタラーニングと共同エンコーディングマスキングを通じて、これらの機能のセマンティクスの有効性と制約を保証する。 4種類の医用画像を用いた5つのデータセットの優れた性能は,本手法の有効性と汎用性を示している。

Medical images usually suffer from image degradation in clinical practice, leading to decreased performance of deep learning-based models. To resolve this problem, most previous works have focused on filtering out degradation-causing low-quality images while ignoring their potential value for models. Through effectively learning and leveraging the knowledge of degradations, models can better resist their adverse effects and avoid misdiagnosis. In this paper, we raise the problem of image quality-aware diagnosis, which aims to take advantage of low-quality images and image quality labels to achieve a more accurate and robust diagnosis. However, the diversity of degradations and superficially unrelated targets between image quality assessment and disease diagnosis makes it still quite challenging to effectively leverage quality labels to assist diagnosis. Thus, to tackle these issues, we propose a novel meta-knowledge co-embedding network, consisting of two subnets: Task Net and Meta Learner. Task Net constructs an explicit quality information utilization mechanism to enhance diagnosis via knowledge co-embedding features, while Meta Learner ensures the effectiveness and constrains the semantics of these features via meta-learning and joint-encoding masking. Superior performance on five datasets with four widely-used medical imaging modalities demonstrates the effectiveness and generalizability of our method.
翻訳日:2023-03-28 16:08:00 公開日:2023-03-27
# unidistill:バードズ・アイ・ビューにおける3次元物体検出のための普遍的クロスモダリティ知識蒸留フレームワーク

UniDistill: A Universal Cross-Modality Knowledge Distillation Framework for 3D Object Detection in Bird's-Eye View ( http://arxiv.org/abs/2303.15083v1 )

ライセンス: Link先を確認
Shengchao Zhou, Weizhou Liu, Chen Hu, Shuchang Zhou, and Chao Ma(参考訳) 自律運転のための3Dオブジェクト検出の分野では、マルチモダリティと単一モダリティを含むセンサーポートフォリオは多様で複雑である。 マルチモーダル法はシステム複雑性を持ち, 単一モーダル法の精度は比較的低いため, それらのトレードオフをいかに行うかは難しい。 本研究では, 単一モダリティ検出器の性能向上を図るために, 普遍的クロスモーダル知識蒸留フレームワーク (UniDistill) を提案する。 特に、トレーニング中にUniDistillは、教師と学生の検出器の両方の特徴を、異なるモダリティのフレンドリーな表現であるBird's-Eye-View (BEV)に投影する。 そして、3つの蒸留損失を算出し、前景の特徴を緩やかに整列させ、推論中に追加のコストを伴わずに教師から学ぶのを助ける。 BEVの異なる検出器の同様の検出パラダイムを利用して、UniDistillは容易にLiDAR-to-camera、カメラ-to-LiDAR、融合-to-LiDAR、融合-to-camera蒸留パスをサポートする。 さらに, 3つの蒸留損失は, 背景情報の不整合の影響や, 異なる大きさの物体間のバランスをフィルタリングし, 蒸留効果を向上させる。 nuScenesの大規模な実験により、UniDistillは学生検出器のmAPとNDSを2.0%〜3.2%改善することを示した。

In the field of 3D object detection for autonomous driving, the sensor portfolio including multi-modality and single-modality is diverse and complex. Since the multi-modal methods have system complexity while the accuracy of single-modal ones is relatively low, how to make a tradeoff between them is difficult. In this work, we propose a universal cross-modality knowledge distillation framework (UniDistill) to improve the performance of single-modality detectors. Specifically, during training, UniDistill projects the features of both the teacher and the student detector into Bird's-Eye-View (BEV), which is a friendly representation for different modalities. Then, three distillation losses are calculated to sparsely align the foreground features, helping the student learn from the teacher without introducing additional cost during inference. Taking advantage of the similar detection paradigm of different detectors in BEV, UniDistill easily supports LiDAR-to-camera, camera-to-LiDAR, fusion-to-LiDAR and fusion-to-camera distillation paths. Furthermore, the three distillation losses can filter the effect of misaligned background information and balance between objects of different sizes, improving the distillation effectiveness. Extensive experiments on nuScenes demonstrate that UniDistill effectively improves the mAP and NDS of student detectors by 2.0%~3.2%.
翻訳日:2023-03-28 16:02:00 公開日:2023-03-27
# 長時間時空間依存性を有するexemplarに基づくビデオカラー化

Exemplar-based Video Colorization with Long-term Spatiotemporal Dependency ( http://arxiv.org/abs/2303.15081v1 )

ライセンス: Link先を確認
Siqi Chen, Xueming Li, Xianlin Zhang, Mingdao Wang, Yu Zhang, Jiatong Han, Yue Zhang(参考訳) 映像のカラー化は、古い映画復元のような応用に欠かせない技術である。 最近の手法は静止画や定在的な動きのある場面ではうまく機能するが、空間的にも時間的にも長期依存をモデル化する能力が弱く、色相、色相不連続、その他のアーティファクトに繋がるため、常に移動シーンの堅牢さに欠ける。 この問題を解決するために,長時間の時空間依存性を有するビデオカラー化フレームワークを提案する。 長期空間依存性を高めるため、並列化されたcnn変換ブロックとダブルヘッド非局所動作を設計する。 提案するcnn-transformerブロックは, 長期的空間依存を局所的なテクスチャや構造的特徴にうまく組み込むことができ, ダブルヘッド非局所操作は拡張機能の性能をさらに活用する。 長期の時間的依存の強化には,新たなリンクサブネットを導入する。 リンクサブネットは、隣接するフレームブロック間で動き情報を伝搬し、時間的連続性を維持する。 実験により,本モデルが最近の最先端手法を定量的・定性的に上回っていることを実証した。 また,本モデルでは,特に物体が大きく不規則に変化する場面において,よりカラフルでリアルで安定した結果が得られる。

Exemplar-based video colorization is an essential technique for applications like old movie restoration. Although recent methods perform well in still scenes or scenes with regular movement, they always lack robustness in moving scenes due to their weak ability in modeling long-term dependency both spatially and temporally, leading to color fading, color discontinuity or other artifacts. To solve this problem, we propose an exemplar-based video colorization framework with long-term spatiotemporal dependency. To enhance the long-term spatial dependency, a parallelized CNN-Transformer block and a double head non-local operation are designed. The proposed CNN-Transformer block can better incorporate long-term spatial dependency with local texture and structural features, and the double head non-local operation further leverages the performance of augmented feature. While for long-term temporal dependency enhancement, we further introduce the novel linkage subnet. The linkage subnet propagate motion information across adjacent frame blocks and help to maintain temporal continuity. Experiments demonstrate that our model outperforms recent state-of-the-art methods both quantitatively and qualitatively. Also, our model can generate more colorful, realistic and stabilized results, especially for scenes where objects change greatly and irregularly.
翻訳日:2023-03-28 16:01:34 公開日:2023-03-27
# 大言語モデルは要約評価のための多言語ロールプレーヤである

Large Language Models are Diverse Role-Players for Summarization Evaluation ( http://arxiv.org/abs/2303.15078v1 )

ライセンス: Link先を確認
Ning Wu, Ming Gong, Linjun Shou, Shining Liang, Daxin Jiang(参考訳) テキスト要約は多くのシナリオにおいて幅広い応用がある。 生成されたテキストの品質評価は複雑な問題である。 言語評価に対する大きな課題は、既存のメトリクスと人的評価の間に明確な相違があることである。 例えば、文書要約の品質は、文法的、意味的正当性などの客観的側面と、包括性、簡潔性、面白さといった主観的次元の両方から人間の注釈によって測定することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元をうまく捉えられないかもしれない。 本稿では,目的と主観の両方から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するllmsに基づく新しい評価フレームワークを提案する。 まず,ロールプレイヤのプロンプト機構に基づいて,生成したテキストの客観的次元と主観次元をモデル化する。 さらに、入力コンテキストに基づいて動的ロールプレイヤプロファイルを生成することができるコンテキストベースのプロンプト機構を導入する。 最後に,バッチプロンプトに基づくマルチロールプレーヤを設計し,複数の評価結果を評価結果に統合する。 要約のための2つの実データセットの実験結果から,本モデルは非常に競争力が高く,アノテータとの整合性が高いことが示された。

Text summarization has a wide range of applications in many scenarios. The evaluation of the quality of the generated text is a complex problem. A big challenge to language evaluation is that there is a clear divergence between existing metrics and human evaluation. For example, the quality of a document summary can be measured by human annotators from both objective aspects, such as grammatical and semantic correctness, as well as subjective dimensions, such as comprehensiveness, succinctness, and interestingness. Most of the automatic evaluation methods like BLUE/ROUGE may be not able to capture the above dimensions well. In this paper, we propose a new evaluation framework based on LLMs, which provides a comprehensive evaluation framework by comparing generated text and reference text from both objective and subjective aspects. First, we propose to model objective and subjective dimensions of generated text based on roleplayers prompting mechanism. Furthermore, we introduce a context-based prompting mechanism that is able to generate dynamic roleplayer profiles based on input context. Finally, we design a multi-roleplayer prompting technology based on batch prompting to integrate multiple evaluation results into evaluation results. Experimental results on two real datasets for summarization show that our model is highly competitive and has a very high consistency with human annotators.
翻訳日:2023-03-28 16:01:12 公開日:2023-03-27
# ポアソンプロセスとしての宇宙衝突のための接続データメッセージ

Conjunction Data Messages for Space Collision Behave as a Poisson Process ( http://arxiv.org/abs/2303.15074v1 )

ライセンス: Link先を確認
Francisco Caldas, Cl\'audia Soares, Cl\'audia Nunes and Marta Guimar\~aes(参考訳) 宇宙デブリは宇宙探査において大きな問題である。 国際機関は、軌道上のオブジェクトの大規模なデータベースを継続的に監視し、結合データメッセージ形式で警告を発する。 衛星オペレーターにとって重要な問題は、新しい情報がいつ到着するかを見積もることである。 メッセージ到着プロセスの統計的学習モデルを提案し、(1)次の指定された時間間隔に新しいメッセージが存在するかという2つの重要な質問に答える。 (2) 次のメッセージがいつ、いつ、いつ、どのように不確実になるのか? ベイジアン・ポアソン過程モデルの質問(2)の平均予測誤差は,50kの近接遭遇事象のテストセットにおいて,4時間以上のベースラインよりも小さい。

Space debris is a major problem in space exploration. International bodies continuously monitor a large database of orbiting objects and emit warnings in the form of conjunction data messages. An important question for satellite operators is to estimate when fresh information will arrive so that they can react timely but sparingly with satellite maneuvers. We propose a statistical learning model of the message arrival process, allowing us to answer two important questions: (1) Will there be any new message in the next specified time interval? (2) When exactly and with what uncertainty will the next message arrive? The average prediction error for question (2) of our Bayesian Poisson process model is smaller than the baseline in more than 4 hours in a test set of 50k close encounter events.
翻訳日:2023-03-28 16:00:50 公開日:2023-03-27
# Gated Recurrent Unit Based Sequence-to-Sequence Model におけるニューロン機能の検討

Exposing the Functionalities of Neurons for Gated Recurrent Unit Based Sequence-to-Sequence Model ( http://arxiv.org/abs/2303.15072v1 )

ライセンス: Link先を確認
Yi-Ting Lee, Da-Yi Wu, Chih-Chun Yang, Shou-De Lin(参考訳) 本論文の目的は,seq2seqモデルに関する科学的発見を報告することである。 ニューロンレベルでのRNNモデルの解析は、自然界における再帰的なメカニズムのため、DNNやCNNモデルの解析よりも難しい課題であると考えられている。 本稿では,バニラgrを用いたseq2seqモデルがトークン配置を実現する理由を説明するために,ニューロンレベルでの解析を行う。 記憶、計数、トリガー、出力の4つの異なる種類のニューロンを発見し、それらのニューロンが協調して正しい位置にある正しいトークンを生成するメカニズムをさらに解明しました。

The goal of this paper is to report certain scientific discoveries about a Seq2Seq model. It is known that analyzing the behavior of RNN-based models at the neuron level is considered a more challenging task than analyzing a DNN or CNN models due to their recursive mechanism in nature. This paper aims to provide neuron-level analysis to explain why a vanilla GRU-based Seq2Seq model without attention can achieve token-positioning. We found four different types of neurons: storing, counting, triggering, and outputting and further uncover the mechanism for these neurons to work together in order to produce the right token in the right position.
翻訳日:2023-03-28 16:00:38 公開日:2023-03-27
# 原子配列における2バンドブロッホ振動の極端サブラグランス

Extreme subradiance from two-band Bloch oscillations in atomic arrays ( http://arxiv.org/abs/2303.15071v1 )

ライセンス: Link先を確認
Luojia Wang, Da-Wei Wang, Luqi Yuan, Yaping Yang, and Xianfeng Chen(参考訳) 原子配列は光子を介する双極子相互作用を持つ重要な量子光学プラットフォームを提供し、量子情報処理における重要な応用を実現するために設計することができる。 このような応用の大きな障害は、励起状態の高速崩壊である。 本稿では,原子配列内の2バンドブロッホ振動を外部磁場下で制御することにより,有限の大きさの原子配列の自発的崩壊時間よりも最大12桁大きい時間スケールでエキゾチックなサブラジアンを実現できることを示す。 鍵となる発見は、自由空間光円錐内の散逸帯に散乱する励起状態の波束を阻止する方法を示し、したがって非常に長い崩壊期間、亜ラジカル状態に留まる励起をもたらす。 原子配列内の外部磁場からの空間線形ポテンシャルを導入し、相互に結合した2バンドブロッホ振動を反対方向に操作することにより、そのような動作が可能となることを示す。 また,超ラジアント状態とサブラジアント状態の制御可能な切り替えの可能性も指摘し,量子ストレージの応用の可能性も示唆した。

Atomic arrays provide an important quantum optical platform with photon-mediated dipoledipole interactions, which can be engineered to realize key applications in quantum information processing. A major obstacle for such application is the fast decay of the excited states. By controlling two-band Bloch oscillations in an atomic array under external magnetic field, here we show that exotic subradiance can be realized and maintained at a time scale upto 12 orders of magnitude larger than the spontaneous decay time in atomic arrays with the finite size. The key finding is to show a way for preventing the wavepacket of excited states scattering into the dissipative zone inside the free space light cone, which therefore leads to the excitation staying at a subradiant state for extremely long decay time. We show that such operation can be achieved by introducing a spatially linear potential from external magnetic field in atomic arrays and then manipulating interconnected two-band Bloch oscillations along opposite directions. Our results also point out the possibility of controllable switching between superradiant and subradiant states, which leads to potential applications in quantum storage.
翻訳日:2023-03-28 16:00:24 公開日:2023-03-27
# 境界箱回帰のための平滑化による連接断面

Intersection over Union with smoothing for bounding box regression ( http://arxiv.org/abs/2303.15067v1 )

ライセンス: Link先を確認
Petra \v{S}tevuli\'akov\'a, Petr Hurtik(参考訳) 本稿では,境界ボックス回帰に対する損失関数の構成に着目する。 IoU(Intersection over Union)メートル法はより高速に収束し、探索空間全体にわたって損失関数の表面を滑らかに連続させ、ラベルのより正確な近似に達するように改良される。 主原理は、平滑化部を原IoUに追加することであり、平滑化部は、接地真理境界ボックスから入力画像の境界まで増加する値の線形空間によって与えられるので、空間探索空間全体をカバーしている。 この損失関数の背後にあるモチベーションと形式性を示し、IoU, DIoU, CIoU, SIoUを大きな差で上回っていることを実験的に証明した。 提案した損失関数は,地中真理境界ボックスの次元における雑音に対して頑健であることを示す。 リファレンス実装はgitlab.com/irafm-ai/smoothing-iouで利用可能である。

We focus on the construction of a loss function for the bounding box regression. The Intersection over Union (IoU) metric is improved to converge faster, to make the surface of the loss function smooth and continuous over the whole searched space, and to reach a more precise approximation of the labels. The main principle is adding a smoothing part to the original IoU, where the smoothing part is given by a linear space with values that increases from the ground truth bounding box to the border of the input image, and thus covers the whole spatial search space. We show the motivation and formalism behind this loss function and experimentally prove that it outperforms IoU, DIoU, CIoU, and SIoU by a large margin. We experimentally show that the proposed loss function is robust with respect to the noise in the dimension of ground truth bounding boxes. The reference implementation is available at gitlab.com/irafm-ai/smoothing-iou.
翻訳日:2023-03-28 16:00:04 公開日:2023-03-27
# 入射神経表現によるマルチコントラストMRI超解像

Multi-contrast MRI Super-resolution via Implicit Neural Representations ( http://arxiv.org/abs/2303.15065v1 )

ライセンス: Link先を確認
Julian McGinnis, Suprosanna Shit, Hongwei Bran Li, Vasiliki Sideri-Lampretsa, Robert Graf, Maik Dannecker, Jiazhen Pan, Nil Stolt Ans\'o, Mark M\"uhlau, Jan S. Kirschke, Daniel Rueckert, Benedikt Wiestler(参考訳) 臨床ルーチンと振り返りコホートは一般的にマルチパラメトリック磁気共鳴イメージングを含むが、主に信号対雑音比と走査時間の制約により異方性2Dビューで取得される。 このように、獲得されたビューは、平面外解像度の低下に苦しめられ、通常等方性3dスキャンを必要とする下流のボリューム画像解析に影響を及ぼす。 マルチコントラストスキャンの異なる視点を高解像度の等方性3次元スキャンに組み合わせることは、主観的なフレームワークを求める大規模なトレーニングコホートが欠如していることから困難である。本研究は、インプリシットニューラルネットワーク表現(INR)を利用したこの問題に対する新しい解決策を提案する。 提案したINRは,連続空間関数における相補的視点の2つの異なるコントラストを共同で学習し,それら間の解剖学的情報交換の利点を享受する。 単一のコモディティGPU上で数分でトレーニングされた私たちのモデルは、3つのデータセットによる実験において、異なるコントラストのペア間で現実的な超解像を提供する。 相互情報(MI)を指標として、我々のモデルは配列の最適MIに収束し、解剖学的に忠実な再構築を実現する。 コードはhttps://github.com/jqmcginnis/multi_contrast_inr。

Clinical routine and retrospective cohorts commonly include multi-parametric Magnetic Resonance Imaging; however, they are mostly acquired in different anisotropic 2D views due to signal-to-noise-ratio and scan-time constraints. Thus acquired views suffer from poor out-of-plane resolution and affect downstream volumetric image analysis that typically requires isotropic 3D scans. Combining different views of multi-contrast scans into high-resolution isotropic 3D scans is challenging due to the lack of a large training cohort, which calls for a subject-specific framework.This work proposes a novel solution to this problem leveraging Implicit Neural Representations (INR). Our proposed INR jointly learns two different contrasts of complementary views in a continuous spatial function and benefits from exchanging anatomical information between them. Trained within minutes on a single commodity GPU, our model provides realistic super-resolution across different pairs of contrasts in our experiments with three datasets. Using Mutual Information (MI) as a metric, we find that our model converges to an optimum MI amongst sequences, achieving anatomically faithful reconstruction. Code is available at: https://github.com/jqmcginnis/multi_contrast_inr.
翻訳日:2023-03-28 15:59:47 公開日:2023-03-27
# The Devil is the Points: Weakly Semi-Supervised Instance Segmentation via Point-Guided Mask Representation

The Devil is in the Points: Weakly Semi-Supervised Instance Segmentation via Point-Guided Mask Representation ( http://arxiv.org/abs/2303.15062v1 )

ライセンス: Link先を確認
Beomyoung Kim, Joonhyun Jeong, Dongyoon Han, Sung Ju Hwang(参考訳) 本稿では、予算効率と高性能インスタンスセグメンテーションのためのポイントラベル付き弱半教師付きインスタンスセグメンテーション(WSSIS)という新しい学習手法を提案する。 すなわち,いくつかの完全ラベル付き画像と多数の点ラベル付き画像からなるデータセット設定を考える。 半教師付きアプローチの主な課題は、主に偽陰性と偽陽性のインスタンス提案のトレードオフに起因し、予算フレンドリーなポイントラベルを強力な弱い監督源として効果的に活用し、課題を解決するためのwssisの手法を提案する。 さらに、完全ラベル付きデータの量が極端に限られているハードケースに対処するために、粗いマスクのノイズを洗練するMaskRefineNetを提案する。 cocoおよびbdd100kデータセットについて広範な実験を行い,完全なラベル付きcocoデータ(38.8%対39.7%)の50%であっても,完全教師付きモデルに匹敵する有望な結果を得た。 さらに, 完全ラベル付きCOCOデータの5%程度を使用する場合, 最先端の半教師あり学習法(33.7%対24.9%)に比べて, 高い性能を示した。 コードはhttps://github.com/clovaai/PointWSSISで公開されている。

In this paper, we introduce a novel learning scheme named weakly semi-supervised instance segmentation (WSSIS) with point labels for budget-efficient and high-performance instance segmentation. Namely, we consider a dataset setting consisting of a few fully-labeled images and a lot of point-labeled images. Motivated by the main challenge of semi-supervised approaches mainly derives from the trade-off between false-negative and false-positive instance proposals, we propose a method for WSSIS that can effectively leverage the budget-friendly point labels as a powerful weak supervision source to resolve the challenge. Furthermore, to deal with the hard case where the amount of fully-labeled data is extremely limited, we propose a MaskRefineNet that refines noise in rough masks. We conduct extensive experiments on COCO and BDD100K datasets, and the proposed method achieves promising results comparable to those of the fully-supervised model, even with 50% of the fully labeled COCO data (38.8% vs. 39.7%). Moreover, when using as little as 5% of fully labeled COCO data, our method shows significantly superior performance over the state-of-the-art semi-supervised learning method (33.7% vs. 24.9%). The code is available at https://github.com/clovaai/PointWSSIS.
翻訳日:2023-03-28 15:59:24 公開日:2023-03-27
# tmo:微分可能レンダリングを用いたモバイルデバイスを用いたテクスチャメッシュによるオブジェクトの取得

TMO: Textured Mesh Acquisition of Objects with a Mobile Device by using Differentiable Rendering ( http://arxiv.org/abs/2303.15060v1 )

ライセンス: Link先を確認
Jaehoon Choi, Dongki Jung, Taejae Lee, Sangwook Kim, Youngdong Jung, Dinesh Manocha, Donghwan Lee(参考訳) 我々は,画像,深度マップ,有効なポーズへのアクセスを提供する単一のスマートフォンで,テクスチャ化されたメッシュを野生で取得するための新しいパイプラインを提案する。 本手法は,まず,フィルタ付き深度マップを生成でき,対応する深さで誘導されるカメラポーズを洗練する動きから,rgbd支援構造を導入する。 そこで,我々は,高品質メッシュを実現するニューラル暗黙表面再構成法を採用し,従来のマルチビューステレオ法による正規化を適用するための新たなトレーニングプロセスを開発した。 さらに,不完全なテクスチャマップに微分可能なレンダリングを適用し,知覚的に元のシーンに近いテクスチャを生成する。 私たちのパイプラインは、ラボ内の環境や正確なマスクイメージを必要とせずに、現実世界の一般的なオブジェクトに適用できます。 複雑な形状のキャプチャーオブジェクトの結果を示し,既存の3次元再構成法やテクスチャマッピング法に対して数値的検証を行った。

We present a new pipeline for acquiring a textured mesh in the wild with a single smartphone which offers access to images, depth maps, and valid poses. Our method first introduces an RGBD-aided structure from motion, which can yield filtered depth maps and refines camera poses guided by corresponding depth. Then, we adopt the neural implicit surface reconstruction method, which allows for high-quality mesh and develops a new training process for applying a regularization provided by classical multi-view stereo methods. Moreover, we apply a differentiable rendering to fine-tune incomplete texture maps and generate textures which are perceptually closer to the original scene. Our pipeline can be applied to any common objects in the real world without the need for either in-the-lab environments or accurate mask images. We demonstrate results of captured objects with complex shapes and validate our method numerically against existing 3D reconstruction and texture mapping methods.
翻訳日:2023-03-28 15:59:00 公開日:2023-03-27
# 結合クラスター理論の再検討 第2部:単一参照結合クラスター方程式の解析

Coupled-Cluster Theory Revisited. Part II: Analysis of the single-reference Coupled-Cluster equations ( http://arxiv.org/abs/2303.15106v1 )

ライセンス: Link先を確認
Mih\'aly A. Csirik and Andre Laestadius(参考訳) 本稿では,結合クラスタ型手法のための包括的数学的枠組みを提案する。 本稿では,位相次数理論を用いた単一参照結合クラスタ法の非線形方程式を解析する。 我々は,これらの方程式の解の存在結果と質的情報を確立し,数値的に観測された挙動にも光を当てる。 特に、単一参照結合クラスタマッピングの零点の位相指数を計算する。 truncated Coupled-Cluster 法では、シュロディンガー方程式の近似固有状態のエネルギー誤差を導出する。

In a series of two articles, we propose a comprehensive mathematical framework for Coupled-Cluster-type methods. In this second part, we analyze the nonlinear equations of the single-reference Coupled-Cluster method using topological degree theory. We establish existence results and qualitative information about the solutions of these equations that also sheds light on the numerically observed behavior. In particular, we compute the topological index of the zeros of the single-reference Coupled-Cluster mapping. For the truncated Coupled-Cluster method, we derive an energy error bound for approximate eigenstates of the Schrodinger equation.
翻訳日:2023-03-28 15:52:37 公開日:2023-03-27
# 四角形注意付き視覚変圧器

Vision Transformer with Quadrangle Attention ( http://arxiv.org/abs/2303.15105v1 )

ライセンス: Link先を確認
Qiming Zhang, Jing Zhang, Yufei Xu, Dacheng Tao(参考訳) ウィンドウベースの注意は、その優れた性能、計算複雑性の低下、メモリフットプリントの低下により、視覚トランスフォーマーにおいて一般的な選択となっている。 しかし、データに依存しない手作りウィンドウの設計は、トランスフォーマーの柔軟性を制約し、様々な大きさ、形状、方向のオブジェクトに適応させる。 この問題に対処するために、ウィンドウベースの注意を一般的な四角形に拡張する新しい四角形注意法(QA)を提案する。 提案手法では,学習可能な学習可能な四角形回帰モジュールを用いて,デフォルトウィンドウからターゲット四角形への変換を予測し,トークンサンプリングとアテンション計算を行い,異なる形状と向きの様々なターゲットをモデル化し,リッチなコンテキスト情報を取得する。 QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。 公開ベンチマークに関する広範囲な実験により、qformerは分類、オブジェクト検出、意味セグメンテーション、ポーズ推定を含む様々な視覚タスクにおいて、既存の代表的視覚トランスフォーマーよりも優れていることが示されている。 コードは \href{https://github.com/ViTAE-Transformer/QFormer}{QFormer} で公開される。

Window-based attention has become a popular choice in vision transformers due to its superior performance, lower computational complexity, and less memory footprint. However, the design of hand-crafted windows, which is data-agnostic, constrains the flexibility of transformers to adapt to objects of varying sizes, shapes, and orientations. To address this issue, we propose a novel quadrangle attention (QA) method that extends the window-based attention to a general quadrangle formulation. Our method employs an end-to-end learnable quadrangle regression module that predicts a transformation matrix to transform default windows into target quadrangles for token sampling and attention calculation, enabling the network to model various targets with different shapes and orientations and capture rich context information. We integrate QA into plain and hierarchical vision transformers to create a new architecture named QFormer, which offers minor code modifications and negligible extra computational cost. Extensive experiments on public benchmarks demonstrate that QFormer outperforms existing representative vision transformers on various vision tasks, including classification, object detection, semantic segmentation, and pose estimation. The code will be made publicly available at \href{https://github.com/ViTAE-Transformer/QFormer}{QFormer}.
翻訳日:2023-03-28 15:52:29 公開日:2023-03-27
# 変形可能な形状解析のための一般化可能な局所特徴事前学習

Generalizable Local Feature Pre-training for Deformable Shape Analysis ( http://arxiv.org/abs/2303.15104v1 )

ライセンス: Link先を確認
Souhaib Attaiki and Lei Li and Maks Ovsjanikov(参考訳) トランスファーラーニングは、トレーニングデータが少ない設定で問題に対処するのに基本です。 3dでいくつかのトランスファーラーニングアプローチが提案されているが、残念ながらこれらのソリューションは一般的に3dオブジェクト全体、あるいはシーンレベルで動作し、変形可能な有機形状のような新しいクラスへの一般化に失敗している。 さらに、現在、異なる3D形状カテゴリ間で事前訓練された特徴が転送可能であるかについての理解の欠如がある。 本稿では,これらの課題に取り組むための一歩を踏み出す。 まず,変形可能な3dオブジェクトを含むタスクにおける特徴の局所性と転送可能性の関係を分析するとともに,局所的な特徴の事前学習において異なるバックボーンと損失を比較する。 適切なトレーニングを行うことで、学習した特徴はそのようなタスクに役立てることができるが、重要なことは、受容的フィールドサイズを適切に選択することのみである。 次に,3次元伝達学習における受容場を最適化する微分可能な手法を提案する。 これは、人間や動物のような3d形状の目に見えないクラスにうまく一般化できる最初の学習可能な特徴に繋がる。 提案手法は, セグメント化, 形状対応, 分類などの下流課題に対して, 最先端の成果をもたらすことを示す。 私たちのコードは \url{https://github.com/pvnieo/vader} で利用可能です。

Transfer learning is fundamental for addressing problems in settings with little training data. While several transfer learning approaches have been proposed in 3D, unfortunately, these solutions typically operate on an entire 3D object or even scene-level and thus, as we show, fail to generalize to new classes, such as deformable organic shapes. In addition, there is currently a lack of understanding of what makes pre-trained features transferable across significantly different 3D shape categories. In this paper, we make a step toward addressing these challenges. First, we analyze the link between feature locality and transferability in tasks involving deformable 3D objects, while also comparing different backbones and losses for local feature pre-training. We observe that with proper training, learned features can be useful in such tasks, but, crucially, only with an appropriate choice of the receptive field size. We then propose a differentiable method for optimizing the receptive field within 3D transfer learning. Jointly, this leads to the first learnable features that can successfully generalize to unseen classes of 3D shapes such as humans and animals. Our extensive experiments show that this approach leads to state-of-the-art results on several downstream tasks such as segmentation, shape correspondence, and classification. Our code is available at \url{https://github.com/pvnieo/vader}.
翻訳日:2023-03-28 15:52:06 公開日:2023-03-27
# コントラスト学習は類似グラフ上のスペクトルクラスタリング

Contrastive Learning Is Spectral Clustering On Similarity Graph ( http://arxiv.org/abs/2303.15103v1 )

ライセンス: Link先を確認
Zhiquan Tan, Yifan Zhang, Jingqin Yang, Yang Yuan(参考訳) コントラスト学習は強力な自己教師付き学習手法であるが,その動作方法や動作理由に関する理論的な理解は限られている。 本稿では,標準InfoNCE損失を用いたコントラスト学習が類似グラフ上のスペクトルクラスタリングと等価であることを示す。 この等価性をビルディングブロックとして利用し、分析をCLIPモデルに拡張し、類似したマルチモーダルオブジェクトが組み合わさっていることを厳密に特徴付ける。 理論的な知見により、いくつかの視覚データセット上で標準のガウスカーネルよりも優れた新しいカーネル関数を組み込んだカーネル混合損失を導入する。

Contrastive learning is a powerful self-supervised learning method, but we have a limited theoretical understanding of how it works and why it works. In this paper, we prove that contrastive learning with the standard InfoNCE loss is equivalent to spectral clustering on the similarity graph. Using this equivalence as the building block, we extend our analysis to the CLIP model and rigorously characterize how similar multi-modal objects are embedded together. Motivated by our theoretical insights, we introduce the kernel mixture loss, incorporating novel kernel functions that outperform the standard Gaussian kernel on several vision datasets.
翻訳日:2023-03-28 15:51:45 公開日:2023-03-27
# DANI-Net:微分可能なシャドウハンドリング、異方性リフレクタンスモデリング、ニューラルインバースレンダリングによる非校正光度ステレオ

DANI-Net: Uncalibrated Photometric Stereo by Differentiable Shadow Handling, Anisotropic Reflectance Modeling, and Neural Inverse Rendering ( http://arxiv.org/abs/2303.15101v1 )

ライセンス: Link先を確認
Zongrui Li, Qian Zheng, Boxin Shi, Gang Pan, Xudong Jiang(参考訳) 非平衡測光ステレオ(UPS)は、未知の光によってもたらされる固有の曖昧さのために困難である。 あいまいさは非ランベルト的対象に対して緩和されるが、不規則な影や異方性反射のような複雑な反射性を持つ一般材料を含む複雑な形状を持つより一般的な対象に対しては解決が難しい。 シャドーとリフレクタンスからの手がかりを利用してUPSを解き、一般的な材料の性能を向上させるため、異方性シャドーハンドリングと異方性リフレクタンスモデリングを備えた逆レンダリングフレームワークDANI-Netを提案する。 非微分可能影写像を用いて等方性物質を仮定する従来の方法とは異なり、我々のネットワークは2つの異なる経路を通る影のキューと異方性反射の恩恵を受ける。 複数の実世界のデータセットの実験は、優れた、堅牢なパフォーマンスを示しています。

Uncalibrated photometric stereo (UPS) is challenging due to the inherent ambiguity brought by the unknown light. Although the ambiguity is alleviated on non-Lambertian objects, the problem is still difficult to solve for more general objects with complex shapes introducing irregular shadows and general materials with complex reflectance like anisotropic reflectance. To exploit cues from shadow and reflectance to solve UPS and improve performance on general materials, we propose DANI-Net, an inverse rendering framework with differentiable shadow handling and anisotropic reflectance modeling. Unlike most previous methods that use non-differentiable shadow maps and assume isotropic material, our network benefits from cues of shadow and anisotropic reflectance through two differentiable paths. Experiments on multiple real-world datasets demonstrate our superior and robust performance.
翻訳日:2023-03-28 15:51:32 公開日:2023-03-27
# 情報抽出研究:トークン化を念頭に置いて!

An Information Extraction Study: Take In Mind the Tokenization! ( http://arxiv.org/abs/2303.15100v1 )

ライセンス: Link先を確認
Christos Theodoropoulos, Marie-Francine Moens(参考訳) 深層学習モデルの入力としてトークン化テキストの代わりに文字を使うことの利点とトレードオフに関する最近の研究は、大きく進歩している。 新しいトークンフリーモデルでは従来のトークン化のステップが取り除かれるが、その効率性はまだ不明である。 さらに、トークン化の効果はシーケンスタギングタスクでは比較的未探索である。 そこで本研究では,文書から情報を抽出する際のトークン化の影響を調査し,サブワードモデルと文字モデルの比較検討と分析を行う。 具体的には,生物医学文献からの情報抽出(ie)について検討する。 トークン化パターンは、最先端のパフォーマンスをもたらす帰納的バイアスを導入し、文字ベースのモデルは有望な結果をもたらす。

Current research on the advantages and trade-offs of using characters, instead of tokenized text, as input for deep learning models, has evolved substantially. New token-free models remove the traditional tokenization step; however, their efficiency remains unclear. Moreover, the effect of tokenization is relatively unexplored in sequence tagging tasks. To this end, we investigate the impact of tokenization when extracting information from documents and present a comparative study and analysis of subword-based and character-based models. Specifically, we study Information Extraction (IE) from biomedical texts. The main outcome is twofold: tokenization patterns can introduce inductive bias that results in state-of-the-art performance, and the character-based models produce promising results; thus, transitioning to token-free IE models is feasible.
翻訳日:2023-03-28 15:51:04 公開日:2023-03-27
# AHPにおける安全な判断集約に向けて

Towards secure judgments aggregation in AHP ( http://arxiv.org/abs/2303.15099v1 )

ライセンス: Link先を確認
Konrad Ku{\l}akowski and Jacek Szybowski and Jiri Mazurek and Sebastian Ernst(参考訳) 意思決定手法では、一般的な仮定は専門家の誠実さと専門性である。 しかし、グループ分析階層プロセス(GAHP)のようなグループ決定フレームワークの1つ以上の専門家が、結果の操作を好意的に行おうとする場合は、そうではない。 本研究の目的は,GAHP設定に2つのヒューリスティックを導入することで,マニピュレータを検知し,重みを減らしてグループコンセンサスへの影響を最小限に抑えることである。 第一のヒューリスティックは、マニピュレータがグループ内の他の専門家の判断に関して外れ値と見なすことができる判断を提供するという仮定に基づいている。 第二のヒューリスティックは、不正な判断はグループの平均的な一貫性よりも一貫性が低いと仮定する。 どちらのアプローチも数値的な例とシミュレーションで示される。

In the decision making methods the common assumption is the honesty and professionalism of experts. However, this is not the case when one or more experts in the group decision making framework, such as the group analytic hierarchy process (GAHP), try to manipulate results in their favor. The aim of this paper is to introduce two heuristics in the GAHP setting allowing to detect the manipulators and minimize their effect on the group consensus by diminishing their weights. The first heuristic is based on the assumption that manipulators will provide judgments which can be considered outliers with respect to judgments of the rest of the experts in the group. Second heuristic assumes that dishonest judgments are less consistent than average consistency of the group. Both approaches are illustrated with numerical examples and simulations.
翻訳日:2023-03-28 15:50:45 公開日:2023-03-27
# 弱教師付き学習による欠陥検出

Defect detection using weakly supervised learning ( http://arxiv.org/abs/2303.15092v1 )

ライセンス: Link先を確認
Vasileios Sevetlidis and George Pavlidis and Vasiliki Balaska and Athanasios Psomoulis and Spyridon Mouroutsos and Antonios Gasteratos(参考訳) 多くの現実のシナリオでは、大量のラベル付きデータを取得するのは大変な作業です。 近年,限られたラベル付きデータのみを用いた学習モデルの実現により,教師付き学習の代替手段として,弱教師付き学習技術が注目されている。 本稿では,欠陥検出作業において,弱教師付き分類器と完全教師付き分類器の性能を比較した。 欠陥を含む画像のデータセット上で実験を行い、その精度、精度、リコールに基づいて2つの分類器を評価する。 その結果,弱教師付き分類器は教師付き分類器に匹敵する性能を示し,ラベル付きデータを著しく少なくすることがわかった。

In many real-world scenarios, obtaining large amounts of labeled data can be a daunting task. Weakly supervised learning techniques have gained significant attention in recent years as an alternative to traditional supervised learning, as they enable training models using only a limited amount of labeled data. In this paper, the performance of a weakly supervised classifier to its fully supervised counterpart is compared on the task of defect detection. Experiments are conducted on a dataset of images containing defects, and evaluate the two classifiers based on their accuracy, precision, and recall. Our results show that the weakly supervised classifier achieves comparable performance to the supervised classifier, while requiring significantly less labeled data.
翻訳日:2023-03-28 15:50:23 公開日:2023-03-27
# 説明可能な注意型lstmによる旅行時間と距離の予測

Prediction of Time and Distance of Trips Using Explainable Attention-based LSTMs ( http://arxiv.org/abs/2303.15087v1 )

ライセンス: Link先を確認
Ebrahim Balouji, Jonas Sj\"oblom, Nikolce Murgovski, Morteza Haghir Chehreghani(参考訳) 本稿では,将来の走行時間と走行可能な距離を予測するための機械学習ソリューションを提案する。 この予測課題に対して,我々は4つの手法を開発し検討する。 第1の手法では、旅行時間と距離の多次元履歴データを同時に扱うように設計された長短期記憶(LSTM)構造を用いる。 これを用いて将来の走行時間を予測し、LSTMネットワークの出力を全接続層で結合することで走行距離を予測する。 2つ目の方法は、注意に基づくLSTMネットワーク(At-LSTM)を使用して同じタスクを実行する。 3つ目の方法は2つのLSTMネットワークを並列に利用し、1つは旅行の時刻を予測し、もう1つは距離を予測する。 各LSTMの出力は、完全に接続された層を通して結合される。 最後に、最後のモデルは2つの並列At-LSTMに基づいており、各At-LSTMは完全な連結層を通して時間と距離を別々に予測する。 提案手法のうち、最も先進的な手法であるAt-LSTMは、最初の手法であるLSTMよりも23.89%良い3.99%の誤差差で次の旅行距離と時間を予測する。 また,ネットワークがどのように学習を行うかを理解し,情報のシーケンスをモデル化するための説明可能性としてtimehapを提案する。

In this paper, we propose machine learning solutions to predict the time of future trips and the possible distance the vehicle will travel. For this prediction task, we develop and investigate four methods. In the first method, we use long short-term memory (LSTM)-based structures specifically designed to handle multi-dimensional historical data of trip time and distances simultaneously. Using it, we predict the future trip time and forecast the distance a vehicle will travel by concatenating the outputs of LSTM networks through fully connected layers. The second method uses attention-based LSTM networks (At-LSTM) to perform the same tasks. The third method utilizes two LSTM networks in parallel, one for forecasting the time of the trip and the other for predicting the distance. The output of each LSTM is then concatenated through fully connected layers. Finally, the last model is based on two parallel At-LSTMs, where similarly, each At-LSTM predicts time and distance separately through fully connected layers. Among the proposed methods, the most advanced one, i.e., parallel At-LSTM, predicts the next trip's distance and time with 3.99% error margin where it is 23.89% better than LSTM, the first method. We also propose TimeSHAP as an explainability method for understanding how the networks perform learning and model the sequence of information.
翻訳日:2023-03-28 15:50:03 公開日:2023-03-27
# 動詞-副詞関係の測定による学習行動の変化

Learning Action Changes by Measuring Verb-Adverb Textual Relationships ( http://arxiv.org/abs/2303.15086v1 )

ライセンス: Link先を確認
Davide Moltisanti, Frank Keller, Hakan Bilen, Laura Sevilla-Lara(参考訳) この研究の目的は、ビデオでのアクションの実行方法を理解することです。 つまり、ビデオが与えられた場合、その動作に適用される修正を示す副詞(例えば「きめ細かい」カット)を予測しようとする。 我々はこの問題を回帰課題とみなした。 我々は,動詞と副詞間のテキスト関係を計測し,学習対象とする行動変化を表す回帰目標を生成する。 我々は,このアプローチを様々なデータセット上でテストし,adverb予測と対義語分類の両方において最先端の結果を得る。 さらに、テスト中にアクションラベルが利用可能であることと、副詞を対語としてペアリングすることの2つの一般的な仮定条件を持ち上げることで、以前の作業よりも優れています。 既存の副詞認識用データセットはノイズがあり、学習が困難になるか、外観が副詞の影響を受けない動作を含むため、評価の信頼性が低下する。 これに対処するために、私たちは新しい高品質データセット、adverbs in recipes (air)を収集します。 我々は,授業用レシピビデオに着目し,異なる実行時の視覚的な変化を示す一連のアクションをキュレートする。 AIRのビデオはよりトリミングされ、複数のアノテーションによって手動でレビューされ、高いラベリング品質が保証された。 結果は、よりクリーンなビデオから、モデルがAIRからより良く学習できることを示しています。 同時に、AIRの副詞予測は困難で、改善の余地がかなりあることを実証しています。

The goal of this work is to understand the way actions are performed in videos. That is, given a video, we aim to predict an adverb indicating a modification applied to the action (e.g. cut "finely"). We cast this problem as a regression task. We measure textual relationships between verbs and adverbs to generate a regression target representing the action change we aim to learn. We test our approach on a range of datasets and achieve state-of-the-art results on both adverb prediction and antonym classification. Furthermore, we outperform previous work when we lift two commonly assumed conditions: the availability of action labels during testing and the pairing of adverbs as antonyms. Existing datasets for adverb recognition are either noisy, which makes learning difficult, or contain actions whose appearance is not influenced by adverbs, which makes evaluation less reliable. To address this, we collect a new high quality dataset: Adverbs in Recipes (AIR). We focus on instructional recipes videos, curating a set of actions that exhibit meaningful visual changes when performed differently. Videos in AIR are more tightly trimmed and were manually reviewed by multiple annotators to ensure high labelling quality. Results show that models learn better from AIR given its cleaner videos. At the same time, adverb prediction on AIR is challenging, demonstrating that there is considerable room for improvement.
翻訳日:2023-03-28 15:49:40 公開日:2023-03-27
# 顔分割のためのパラメータ効率の良い局所インシシト画像関数ネットワーク

Parameter Efficient Local Implicit Image Function Network for Face Segmentation ( http://arxiv.org/abs/2303.15122v1 )

ライセンス: Link先を確認
Mausoom Sarkar, Nikitha SR, Mayur Hemani, Rishabh Jain, Balaji Krishnamurthy(参考訳) 顔解析は、人間の顔を含む画像のピクセル単位のラベリングとして定義される。 ラベルは、目、唇、鼻、髪などの重要な顔領域を特定するために定義される。 本研究では,人間の顔の構造的一貫性を利用して,局所的暗黙関数ネットワークであるfp-liifを用いた軽量な顔パシング手法を提案する。 本稿では,convolutional encoderとpixel mlpデコーダを備えた単純なアーキテクチャを提案する。これは最先端のモデルと比較して1/26分の1のパラメータを使用し,celebamask-hqやlapaといった複数のデータセットで最先端のモデルにマッチし,それを上回るものである。 事前トレーニングは一切使用せず、他の作業と比較すると、ネットワークは入力解像度を変更することなく、異なる解像度でセグメンテーションを生成することもできる。 この研究は、FPSが高く、モデルサイズが小さいため、低コンピュートまたは低バンド幅デバイスでの顔分割を可能にする。

Face parsing is defined as the per-pixel labeling of images containing human faces. The labels are defined to identify key facial regions like eyes, lips, nose, hair, etc. In this work, we make use of the structural consistency of the human face to propose a lightweight face-parsing method using a Local Implicit Function network, FP-LIIF. We propose a simple architecture having a convolutional encoder and a pixel MLP decoder that uses 1/26th number of parameters compared to the state-of-the-art models and yet matches or outperforms state-of-the-art models on multiple datasets, like CelebAMask-HQ and LaPa. We do not use any pretraining, and compared to other works, our network can also generate segmentation at different resolutions without any changes in the input resolution. This work enables the use of facial segmentation on low-compute or low-bandwidth devices because of its higher FPS and smaller model size.
翻訳日:2023-03-28 15:44:03 公開日:2023-03-27
# 凸制約下における線形力学系の学習

Learning linear dynamical systems under convex constraints ( http://arxiv.org/abs/2303.15121v1 )

ライセンス: Link先を確認
Hemant Tyagi and Denis Efimov(参考訳) 線形力学系を1つの軌道から同定する問題を考察する。 最近の結果は、システム行列 $A^* \in \mathbb{R}^{n \times n}$ に構造的仮定が存在しないような設定に主に焦点を合わせ、その結果、通常の最小二乗推定器(OLS)を詳細に分析した。 A^*$ に関する以前の構造情報は、$A^*$ を含む凸集合 $\mathcal{K}$ の形で取得できると仮定する。 続く制約付き最小二乗推定子の解に対しては、フロベニウスノルムにおける非漸近的誤差境界を導出し、これは '\mathcal{k}$ at $a^*$ の接錐の局所サイズに依存する。 この結果の有用性を説明するために,我々は,その設定をインスタンス化する。 (i)$\mathcal{K}$は$\mathbb{R}^{n \times n}$の$d$次元部分空間である。 (ii) $a^*$ は $k$-sparse であり、$\mathcal{k}$ は適切なスケールの$\ell_1$ ボールである。 d, k \ll n^2$ のレジームでは、我々の境界は ols 推定子から得られるものにより改善される。

We consider the problem of identification of linear dynamical systems from a single trajectory. Recent results have predominantly focused on the setup where no structural assumption is made on the system matrix $A^* \in \mathbb{R}^{n \times n}$, and have consequently analyzed the ordinary least squares (OLS) estimator in detail. We assume prior structural information on $A^*$ is available, which can be captured in the form of a convex set $\mathcal{K}$ containing $A^*$. For the solution of the ensuing constrained least squares estimator, we derive non-asymptotic error bounds in the Frobenius norm which depend on the local size of the tangent cone of $\mathcal{K}$ at $A^*$. To illustrate the usefulness of this result, we instantiate it for the settings where, (i) $\mathcal{K}$ is a $d$ dimensional subspace of $\mathbb{R}^{n \times n}$, or (ii) $A^*$ is $k$-sparse and $\mathcal{K}$ is a suitably scaled $\ell_1$ ball. In the regimes where $d, k \ll n^2$, our bounds improve upon those obtained from the OLS estimator.
翻訳日:2023-03-28 15:43:44 公開日:2023-03-27
# ゴーストスペクトロメトリーによるリモートスペクトルの高速識別

Fast remote spectral discrimination through ghost spectrometry ( http://arxiv.org/abs/2303.15120v1 )

ライセンス: Link先を確認
Andrea Chiuri, Marco Barbieri, Iole Venditti, Federico Angelini, Chiara Battocchio, Matteo G A Paris, Ilaria Gianani(参考訳) 化学、生物学的、放射線学的、核的な脅威の存在を評価することは、測定された吸収プロファイルにおけるスペクトルの特徴の存在を分析することで通常対処される重要な課題である。 量子光を用いることで、ゴーストスペクトロメトリによる測定精度を損なうことなく、遠隔で測定を行うことができる。 しかし、十分な信号対雑音比を持つためには、通常、取得時間を長く待たなければならないため、リモートセンシングによるメリットを減じる必要がある。 しかし、多くの場合、対象物の完全なスペクトル線形状の再構築は不要であり、その関心は、スペクトル吸収対象が存在するか否かを判別することにある。 本稿では,低資源測定と参照を比較することにより,ゴーストスペクトロメトリにより,このタスクを迅速かつ正確に行うことができることを示す。 異なるサンプルを用いて得られた実験結果を考察し,それらをシミュレーションで補完し,最も一般的なシナリオを探索する。

Assessing the presence of chemical, biological, radiological and nuclear threats is a crucial task which is usually dealt with by analyzing the presence of spectral features in a measured absorption profile. The use of quantum light allows to perform these measurements remotely without compromising the measurement accuracy through ghost spectrometry. However, in order to have sufficient signal-to-noise ratio, it is typically required to wait long acquisition times, hence subtracting to the benefits provided by remote sensing. In many instances, though, reconstructing the full spectral lineshape of an object is not needed and the interest lies in discriminating whether a spectrally absorbing object may be present or not. Here we show that this task can be performed fast and accurately through ghost spectrometry by comparing the low resources measurement with a reference. We discuss the experimental results obtained with different samples and complement them with simulations to explore the most common scenarios.
翻訳日:2023-03-28 15:43:21 公開日:2023-03-27
# 多制約BIMモデルクエリのためのオントロジー支援自然言語ベースアプローチ

An ontology-aided, natural language-based approach for multi-constraint BIM model querying ( http://arxiv.org/abs/2303.15116v1 )

ライセンス: Link先を確認
Mengtian Yin, Llewellyn Tang, Chris Webster, Shen Xu, Xiongyi Li, Huaquan Ying(参考訳) 必要な建物情報を効率的に取得できることは、建設プロジェクトのステークホルダーがエンジニアリングやマネジメント活動を行う上で非常に重要です。 自然言語インタフェース(NLI)システムは、ビルディング情報モデル(BIM)に問い合わせる時間と費用効率のよい方法として登場しつつある。 しかし、既存の手法では、異なる制約を論理的に組み合わせて細かなクエリを実行できるため、自然言語(NL)ベースのBIMクエリの使用性が低下する。 本稿では,異なる属性と関係制約を含む自然言語クエリ(NLQ)を,複雑なBIMモデルを問合せするためのコンピュータ可読コードに自動的にマッピングする,オントロジー支援型セマンティックパーサを提案する。 まず,IFCの概念と関係のNL表現を表現するためにモジュールオントロジーが開発され,対象とするBIMモデルから,プロジェクト固有の情報を同化するためのエンティティに集約された。 その後、オントロジー支援セマンティックパーザは、NLQから概念、関係、および値の制約を段階的に抽出し、制約条件を完全に識別する。 提案手法は,BIMユーザから収集した225NLQを91%の精度で評価した。 最後に, 実世界の住宅の設計検査を事例として, 建設業における提案手法の実用的価値を示す。

Being able to efficiently retrieve the required building information is critical for construction project stakeholders to carry out their engineering and management activities. Natural language interface (NLI) systems are emerging as a time and cost-effective way to query Building Information Models (BIMs). However, the existing methods cannot logically combine different constraints to perform fine-grained queries, dampening the usability of natural language (NL)-based BIM queries. This paper presents a novel ontology-aided semantic parser to automatically map natural language queries (NLQs) that contain different attribute and relational constraints into computer-readable codes for querying complex BIM models. First, a modular ontology was developed to represent NL expressions of Industry Foundation Classes (IFC) concepts and relationships, and was then populated with entities from target BIM models to assimilate project-specific information. Hereafter, the ontology-aided semantic parser progressively extracts concepts, relationships, and value restrictions from NLQs to fully identify constraint conditions, resulting in standard SPARQL queries with reasoning rules to successfully retrieve IFC-based BIM models. The approach was evaluated based on 225 NLQs collected from BIM users, with a 91% accuracy rate. Finally, a case study about the design-checking of a real-world residential building demonstrates the practical value of the proposed approach in the construction industry.
翻訳日:2023-03-28 15:43:07 公開日:2023-03-27
# ビブロアコースティックセンシングによる脊椎椎間孔掘削時の自動断裂検出

Automatic breach detection during spine pedicle drilling based on vibroacoustic sensing ( http://arxiv.org/abs/2303.15114v1 )

ライセンス: Link先を確認
Aidana Massalimova, Maikel Timmermans, Nicola Cavalcanti, Daniel Suter, Matthias Seibold, Fabio Carrillo, Christoph J. Laux, Reto Sutter, Mazda Farshad, Kathleen Denis, Philipp F\"urnstahl(参考訳) ペディクルドリルは、複雑で重要な脊椎手術の作業である。 パイロットホール掘削中の外科的ツールの皮質壁への侵入を検知することは、脊髄、血管、神経などのペプシクルに隣接する重要な解剖学的構造への損傷を避けるために不可欠である。 現在,ペプシクル掘削の指導は放射線集約的かつ術前情報に限定した画像誘導法を用いて行われている。 本研究は,非視覚センサと深層学習を併用した新しい放射能非破壊検出アルゴリズムを提案する。 コンタクトマイクロフォン、フリーフィールドマイクロホン、三軸加速度計、一軸加速度計、光学トラッキングシステムなどの複数の振動センサが設定に統合された。 データはL5からT10までの4つのカダベリックヒトの脊椎で収集された。 経験豊富な脊椎外科医が光学ナビゲーションに依存するペディクルを掘削した。 追跡データに基づく新しい自動ラベル付け手法を導入した。 ラベル付きデータはその後、Melt-spectrogramsでネットワークに送られ、データの分類を破滅と非ブローチに分類した。 異なるセンサタイプ, センサ位置, それらの組み合わせを評価した。 個々のセンサーに対する最も優れたリコールは、背皮膚に装着されたコンタクトマイク(85.8\%)と、ドリルされた脊椎の脊椎突起に装着された一軸加速度計(81.0\%)で達成できる。 最高性能のデータ融合モデルは、後者の2つのセンサーと98倍のリコールを組み合わせた。 提案手法は, 椎間板掘削時のスクリュー転位や偶然の骨破折を回避し, さらなる外科的応用に拡張可能な非視覚センサ融合の可能性を示す。

Pedicle drilling is a complex and critical spinal surgery task. Detecting breach or penetration of the surgical tool to the cortical wall during pilot-hole drilling is essential to avoid damage to vital anatomical structures adjacent to the pedicle, such as the spinal cord, blood vessels, and nerves. Currently, the guidance of pedicle drilling is done using image-guided methods that are radiation intensive and limited to the preoperative information. This work proposes a new radiation-free breach detection algorithm leveraging a non-visual sensor setup in combination with deep learning approach. Multiple vibroacoustic sensors, such as a contact microphone, a free-field microphone, a tri-axial accelerometer, a uni-axial accelerometer, and an optical tracking system were integrated into the setup. Data were collected on four cadaveric human spines, ranging from L5 to T10. An experienced spine surgeon drilled the pedicles relying on optical navigation. A new automatic labeling method based on the tracking data was introduced. Labeled data was subsequently fed to the network in mel-spectrograms, classifying the data into breach and non-breach. Different sensor types, sensor positioning, and their combinations were evaluated. The best results in breach recall for individual sensors could be achieved using contact microphones attached to the dorsal skin (85.8\%) and uni-axial accelerometers clamped to the spinous process of the drilled vertebra (81.0\%). The best-performing data fusion model combined the latter two sensors with a breach recall of 98\%. The proposed method shows the great potential of non-visual sensor fusion for avoiding screw misplacement and accidental bone breaches during pedicle drilling and could be extended to further surgical applications.
翻訳日:2023-03-28 15:42:42 公開日:2023-03-27
# SWeMLS-KGにおけるセマンティックWebと機械学習システムの記述と編成

Describing and Organizing Semantic Web and Machine Learning Systems in the SWeMLS-KG ( http://arxiv.org/abs/2303.15113v1 )

ライセンス: Link先を確認
Fajar J. Ekaputra, Majlinda Llugiqi, Marta Sabou, Andreas Ekelhart, Heiko Paulheim, Anna Breit, Artem Revenko, Laura Waltersdorfer, Kheir Eddine Farfar, S\"oren Auer(参考訳) 機械学習(ML)コンポーネントとセマンティックWeb(SW)コミュニティが開発した技術(Semantic Web Machine Learning、略してSWeML)を組み合わせることに焦点を当てた、学習と象徴的なコンポーネントを組み合わせたインテリジェントシステムを構築するための、人工知能研究の一般的なトレンドに合わせて、新たなサブ領域が登場した。 過去20年間の急速な成長といくつかのコミュニティへの影響により、これらのSWeMLシステムの空間、その特性、トレンドをよりよく理解する必要がある。 しかし、原則と偏見のないアプローチを採用する調査は欠落している。 このギャップを埋めるために、私たちは体系的な調査を行い、この領域で過去10年間に発行された500近い論文を分析しました。 我々の分析では、SWeML Systemsに対する関心が急速に高まり、いくつかのアプリケーションドメインやタスクに大きな影響を与えています。 この急速な成長の触媒は、ディープラーニングとナレッジグラフ技術の利用の増加である。 本稿では,本研究を通じて得られた領域の深い理解を活用することにより,SWeMLシステムの分類システムとして,オントロジーとして公開する。

In line with the general trend in artificial intelligence research to create intelligent systems that combine learning and symbolic components, a new sub-area has emerged that focuses on combining machine learning (ML) components with techniques developed by the Semantic Web (SW) community - Semantic Web Machine Learning (SWeML for short). Due to its rapid growth and impact on several communities in the last two decades, there is a need to better understand the space of these SWeML Systems, their characteristics, and trends. Yet, surveys that adopt principled and unbiased approaches are missing. To fill this gap, we performed a systematic study and analyzed nearly 500 papers published in the last decade in this area, where we focused on evaluating architectural, and application-specific features. Our analysis identified a rapidly growing interest in SWeML Systems, with a high impact on several application domains and tasks. Catalysts for this rapid growth are the increased application of deep learning and knowledge graph technologies. By leveraging the in-depth understanding of this area acquired through this study, a further key contribution of this paper is a classification system for SWeML Systems which we publish as ontology.
翻訳日:2023-03-28 15:42:14 公開日:2023-03-27
# 作曲ゼロショット学習におけるディスタングルとしての学習注意

Learning Attention as Disentangler for Compositional Zero-shot Learning ( http://arxiv.org/abs/2303.15111v1 )

ライセンス: Link先を確認
Shaozhe Hao, Kai Han, Kwan-Yee K. Wong(参考訳) compositional zero-shot learning (czsl) は、目に見える構成から視覚概念(属性とオブジェクト)を学習し、概念知識を目に見えない構成に組み合わせることを目的としている。 CZSLの鍵は、属性オブジェクト合成の絡み合いを学習することである。 そこで本研究では,クロスアテンションを構成的アンタングルとして利用して,非アンタングルな概念埋め込みを学習することを提案する。 例えば、目に見えない構成の「黄色い花」を認識したい場合、それぞれ異なる黄色い物体と異なる花から、属性概念の「黄色」と対象概念の「花」を学ぶことができる。 さらに,関心概念を学ぶために,注意レベルでの規則化を採用する。 具体的には,地球移動器距離(EMD)を横断モジュールの特徴的類似度指標として適用する。 さらに,概念の絡み合いの利点を生かして,推論プロセスを改善し,複数の概念確率を組み合わせることで予測スコアを調整する。 3つのCZSLベンチマークデータセットに関する総合的な実験により、我々の手法はクローズドワールドとオープンワールドの両方で過去の作業よりも大幅に優れており、新しい最先端技術を確立している。

Compositional zero-shot learning (CZSL) aims at learning visual concepts (i.e., attributes and objects) from seen compositions and combining concept knowledge into unseen compositions. The key to CZSL is learning the disentanglement of the attribute-object composition. To this end, we propose to exploit cross-attentions as compositional disentanglers to learn disentangled concept embeddings. For example, if we want to recognize an unseen composition "yellow flower", we can learn the attribute concept "yellow" and object concept "flower" from different yellow objects and different flowers respectively. To further constrain the disentanglers to learn the concept of interest, we employ a regularization at the attention level. Specifically, we adapt the earth mover's distance (EMD) as a feature similarity metric in the cross-attention module. Moreover, benefiting from concept disentanglement, we improve the inference process and tune the prediction score by combining multiple concept probabilities. Comprehensive experiments on three CZSL benchmark datasets demonstrate that our method significantly outperforms previous works in both closed- and open-world settings, establishing a new state-of-the-art.
翻訳日:2023-03-28 15:41:51 公開日:2023-03-27
# 毒性検出データセットはブランドの安全性に十分ではない

Beyond Toxic: Toxicity Detection Datasets are Not Enough for Brand Safety ( http://arxiv.org/abs/2303.15110v1 )

ライセンス: Link先を確認
Elizaveta Korotkova, Isaac Kwan Yin Chung(参考訳) ソーシャルメディア上のユーザー生成コンテンツの急速な成長は、コンテンツの自動モデレーションに対する需要の大幅な増加をもたらした。 ヘイトスピーチの検出や有毒なコメント分類のための様々な方法や枠組みが提案されている。 この作業では、共通データセットを組み合わせて、これらのタスクをブランドセーフティに拡張します。 ブランドの安全性は、広告が現れるべきではない状況を特定し、有害性だけでなく、有害なコンテンツもカバーすることで、商業的なブランディングを保護することを目的としている。 これらのデータセットはラベルセットが異なるため、バイナリ分類タスクとして全体的な問題にアプローチする。 ブランドの安全性のサブセットに共通の毒性検出データセットを適用することで、ブランドの安全性固有のデータセットを構築する必要性を実証し、テキスト分類における重み付けサンプリング戦略の効果を実証的に分析する。

The rapid growth in user generated content on social media has resulted in a significant rise in demand for automated content moderation. Various methods and frameworks have been proposed for the tasks of hate speech detection and toxic comment classification. In this work, we combine common datasets to extend these tasks to brand safety. Brand safety aims to protect commercial branding by identifying contexts where advertisements should not appear and covers not only toxicity, but also other potentially harmful content. As these datasets contain different label sets, we approach the overall problem as a binary classification task. We demonstrate the need for building brand safety specific datasets via the application of common toxicity detection datasets to a subset of brand safety and empirically analyze the effects of weighted sampling strategies in text classification.
翻訳日:2023-03-28 15:41:28 公開日:2023-03-27
# 方向調整による逆例の転送性の向上

Improving the Transferability of Adversarial Examples via Direction Tuning ( http://arxiv.org/abs/2303.15109v1 )

ライセンス: Link先を確認
Xiangyuan Yang, Jie Lin, Hanlin Zhang, Xinyu Yang, Peng Zhao(参考訳) 移動型対人攻撃では、敵対例は代理モデルによってのみ生成され、犠牲者モデルにおいて効果的な摂動が達成される。 本研究は,移動型対向攻撃によって生じる対向例の転送性向上に多大な努力を払っているが,現在の移動型対向攻撃の実際の更新方向と急激な更新方向の差は,大きな更新ステップ長によって引き起こされるため,生成対向例は十分に収束しないことがわかった。 しかし、更新ステップ長の直接削減は深刻な更新発振を引き起こすため、生成した敵の例も犠牲者モデルへの大きな転送性を得ることができない。 これらの問題に対処するために,新しい転送ベース攻撃,すなわち方向チューニング攻撃を提案し,大きなステップ長の更新偏差を減少させるだけでなく,小さなサンプリングステップ長の更新振動を緩和し,生成された敵対的サンプルをうまく収束させ,被害者モデルにおける大きな転送可能性を達成する。 さらに,ネットワークプルーニング手法を提案し,決定境界を円滑にすることで,更新振動を低減し,生成した逆数例の転送性を向上させる。 ImageNetにおける実験結果から,本手法が生成した敵の攻撃成功率(ASR)は,防御のない5つの犠牲者モデルでは87.9\%から94.5\%に向上し,最新の勾配攻撃と比較して8つの先進防衛手法では69.1\%から76.2\%に改善できることが示された。

In the transfer-based adversarial attacks, adversarial examples are only generated by the surrogate models and achieve effective perturbation in the victim models. Although considerable efforts have been developed on improving the transferability of adversarial examples generated by transfer-based adversarial attacks, our investigation found that, the big deviation between the actual and steepest update directions of the current transfer-based adversarial attacks is caused by the large update step length, resulting in the generated adversarial examples can not converge well. However, directly reducing the update step length will lead to serious update oscillation so that the generated adversarial examples also can not achieve great transferability to the victim models. To address these issues, a novel transfer-based attack, namely direction tuning attack, is proposed to not only decrease the update deviation in the large step length, but also mitigate the update oscillation in the small sampling step length, thereby making the generated adversarial examples converge well to achieve great transferability on victim models. In addition, a network pruning method is proposed to smooth the decision boundary, thereby further decreasing the update oscillation and enhancing the transferability of the generated adversarial examples. The experiment results on ImageNet demonstrate that the average attack success rate (ASR) of the adversarial examples generated by our method can be improved from 87.9\% to 94.5\% on five victim models without defenses, and from 69.1\% to 76.2\% on eight advanced defense methods, in comparison with that of latest gradient-based attacks.
翻訳日:2023-03-28 15:41:17 公開日:2023-03-27
# 単一2k解像度画像からの高精度3dデジタル化

High-fidelity 3D Human Digitization from Single 2K Resolution Images ( http://arxiv.org/abs/2303.15108v1 )

ライセンス: Link先を確認
Sang-Hun Han, Min-Gyu Park, Ju Hong Yoon, Ju-Mi Kang, Young-Jae Park and Hae-Gon Jeon(参考訳) 高品質な3次元人体再構成には、高精細で大規模なトレーニングデータと、高精細な入力画像を効果的に活用する適切なネットワーク設計が必要である。 そこで本研究では,2k解像度画像から3dモデルを推定し,大規模2kデータセットを構築する2k2kと呼ばれる簡易かつ効果的な3d人物デジタル化手法を提案する。 提案手法は,人間の大域的な形状とその詳細を別々に復元する。 低分解能深度ネットワークは低分解能画像から大域構造を予測し、部分的画像-正常ネットワークは3次元人体構造の詳細を予測する。 高分解能深度ネットワークは、大域的な3d形状と詳細な構造をマージし、高分解能の前面と背面の深さマップを推定する。 最後に、市販のメッシュジェネレータが完全な3d人間モデルを再構築し、https://github.com/sanghunhan92/2k2kで利用可能である。 さらに,テクスチャマップ,3dジョイント,smplパラメータなどの2,050種類の3dヒューマンモデルも研究目的に提供しています。 実験では,近年の各種データセットにおける競合性能を示す。

High-quality 3D human body reconstruction requires high-fidelity and large-scale training data and appropriate network design that effectively exploits the high-resolution input images. To tackle these problems, we propose a simple yet effective 3D human digitization method called 2K2K, which constructs a large-scale 2K human dataset and infers 3D human models from 2K resolution images. The proposed method separately recovers the global shape of a human and its details. The low-resolution depth network predicts the global structure from a low-resolution image, and the part-wise image-to-normal network predicts the details of the 3D human body structure. The high-resolution depth network merges the global 3D shape and the detailed structures to infer the high-resolution front and back side depth maps. Finally, an off-the-shelf mesh generator reconstructs the full 3D human model, which are available at https://github.com/SangHunHan92/2K2K. In addition, we also provide 2,050 3D human models, including texture maps, 3D joints, and SMPL parameters for research purposes. In experiments, we demonstrate competitive performance over the recent works on various datasets.
翻訳日:2023-03-28 15:40:45 公開日:2023-03-27
# オンラインイノベーションコミュニティにおける創造性と技術的制約が個人学習に与える影響

How creative versus technical constraints affect individual learning in an online innovation community ( http://arxiv.org/abs/2303.15163v1 )

ライセンス: Link先を確認
Victor P. Seidel, Christoph Riedl(参考訳) オンラインイノベーションコミュニティは、制約に縛られたデザイン空間における新しいソリューションを探すことができる。 過去の研究は、個々のプロジェクトに対する創造的な制約の影響に焦点を当ててきたが、繰り返しデザインの提出から学習に制約がどのように影響するかや、オンラインプラットフォームに不可欠な技術的制約の影響についてはあまり知られていない。 オンラインコミュニティにおけるデザインスペースの探索において、創造性と技術的制約は個人学習にどのように影響するか? 私たちは、33,813人の個人から136,989件のデザイン申請をクラウドソースした、オンラインイノベーションコミュニティからの10年間のデータを分析しました。 我々は,プラットフォーム上で並行して実施する2種類の設計コンテストのデータを活用し,プラットフォーム変更によって技術的制約が軽減される自然実験を評価した。 技術的な制約が十分に緩和された場合のみ、創造的な制約は高い学習率につながることが分かっています。 本研究は,創造的デザイン作業の管理や,オンラインイノベーションコミュニティを支援する情報システムの技術的制約の下流効果に影響を及ぼすものである。

Online innovation communities allow for a search for novel solutions within a design space bounded by constraints. Past research has focused on the effect of creative constraints on individual projects, but less is known about how constraints affect learning from repeated design submissions and the effect of the technical constraints that are integral to online platforms. How do creative versus technical constraints affect individual learning in exploring a design space in online communities? We analyzed ten years of data from an online innovation community that crowdsourced 136,989 design submissions from 33,813 individuals. We leveraged data from two types of design contests-creatively constrained and unconstrained-running in parallel on the platform, and we evaluated a natural experiment where a platform change reduced technical constraints. We find that creative constraints lead to high rates of learning only if technical constraints are sufficiently relaxed. Our findings have implications for the management of creative design work and the downstream effects of the technical constraints of the information systems that support online innovation communities.
翻訳日:2023-03-28 15:34:09 公開日:2023-03-27
# 人間のスケッチは物体検出に何ができるのか?

What Can Human Sketches Do for Object Detection? ( http://arxiv.org/abs/2303.15149v1 )

ライセンス: Link先を確認
Pinaki Nath Chowdhury and Ayan Kumar Bhunia and Aneeshan Sain and Subhadeep Koley and Tao Xiang and Yi-Zhe Song(参考訳) スケッチは非常に表現力が高く、本質的に主観的および細かな視覚的手がかりを捉えている。 しかし、このような人間のスケッチの原生的性質の探索は、画像検索のそれに限定されている。 本稿では,スケッチの表現性を初めて育成するが,オブジェクト検出の基本的なビジョンタスクについて述べる。 最終的な結果はスケッチ可能なオブジェクト検出フレームワークで、zebras(instance-aware detection)の群れ内の \textit{you} sketch -\textit{that} ``zebra''(例えば、草を食べているもの)と、あなたが望む \textit{part}(例えば ``zebra' の ``head" )のみに基づいて検出される。 モデルが機能しないことを 決定づけます (i)テストでどのカテゴリを期待するか(ゼロショット) (ii)追加のバウンディングボックス(フル教師付き)とクラスラベル(弱教師付き)を必要としない。 基礎モデル(例えばCLIP)と既存のスケッチモデルとの間には直感的な相乗効果があり、スケッチベースの画像検索(SBIR)はタスクを優雅に解決できる -- CLIPはモデルの一般化を提供し、SBIRは(sketch$\rightarrow$photo)ギャップを埋める。 特に,sbirモデルのスケッチ枝とフォト枝の両方に独立したプロンプトを行い,クリップの一般化能力の裏面に高度に一般化可能なスケッチとフォトエンコーダを構築する。 次に、検出されたボックスの領域埋め込みがSBIRのスケッチや写真埋め込みと一致するように、学習したエンコーダをオブジェクト検出に適用する訓練パラダイムを考案する。 pascal-voc や ms-coco のような標準オブジェクト検出データセットのフレームワークの評価は、ゼロショット設定での supervised (sod) と weakly supervised object detector (wsod) の両方よりも優れている。 プロジェクトページ: \url{https://pinakinathc.github.io/sketch-detect}

Sketches are highly expressive, inherently capturing subjective and fine-grained visual cues. The exploration of such innate properties of human sketches has, however, been limited to that of image retrieval. In this paper, for the first time, we cultivate the expressiveness of sketches but for the fundamental vision task of object detection. The end result is a sketch-enabled object detection framework that detects based on what \textit{you} sketch -- \textit{that} ``zebra'' (e.g., one that is eating the grass) in a herd of zebras (instance-aware detection), and only the \textit{part} (e.g., ``head" of a ``zebra") that you desire (part-aware detection). We further dictate that our model works without (i) knowing which category to expect at testing (zero-shot) and (ii) not requiring additional bounding boxes (as per fully supervised) and class labels (as per weakly supervised). Instead of devising a model from the ground up, we show an intuitive synergy between foundation models (e.g., CLIP) and existing sketch models build for sketch-based image retrieval (SBIR), which can already elegantly solve the task -- CLIP to provide model generalisation, and SBIR to bridge the (sketch$\rightarrow$photo) gap. In particular, we first perform independent prompting on both sketch and photo branches of an SBIR model to build highly generalisable sketch and photo encoders on the back of the generalisation ability of CLIP. We then devise a training paradigm to adapt the learned encoders for object detection, such that the region embeddings of detected boxes are aligned with the sketch and photo embeddings from SBIR. Evaluating our framework on standard object detection datasets like PASCAL-VOC and MS-COCO outperforms both supervised (SOD) and weakly-supervised object detectors (WSOD) on zero-shot setups. Project Page: \url{https://pinakinathc.github.io/sketch-detect}
翻訳日:2023-03-28 15:33:54 公開日:2023-03-27
# 深度に基づく半監督型3次元ハンドポース推定のための一貫性トレーニングによるエンベロープのプッシュ

Pushing the Envelope for Depth-Based Semi-Supervised 3D Hand Pose Estimation with Consistency Training ( http://arxiv.org/abs/2303.15147v1 )

ライセンス: Link先を確認
Mohammad Rezaei, Farnaz Farahanipad, Alex Dillhoff, Vassilis Athitsos(参考訳) 近年,深度に基づく3次元手ポーズ推定法が著しく進歩しているにもかかわらず,精度を高めるには大量のラベル付きトレーニングデータが必要である。 しかし、そのようなデータの収集は費用も時間もかかる。 そこで本研究では,ラベル付きトレーニングデータへの依存を著しく低減する半教師付き手法を提案する。 提案手法は,教師ネットワークと学生ネットワークの2つの同一ネットワークを共同で訓練した。 教師ネットワークは、利用可能なラベル付きサンプルとラベルなしサンプルの両方を使用してトレーニングされる。 ラベルのないサンプルを損失定式化を通じて活用し、一連のアフィン変換の下で推定等価性を奨励する。 学生ネットワークは、教師ネットワークが提供する擬似ラベルを用いて、未ラベルのサンプルを用いて訓練される。 テスト時の推論には、学生ネットワークのみを使用する。 大規模な実験により,提案手法は最先端の半教師付き手法よりも高い性能を示した。

Despite the significant progress that depth-based 3D hand pose estimation methods have made in recent years, they still require a large amount of labeled training data to achieve high accuracy. However, collecting such data is both costly and time-consuming. To tackle this issue, we propose a semi-supervised method to significantly reduce the dependence on labeled training data. The proposed method consists of two identical networks trained jointly: a teacher network and a student network. The teacher network is trained using both the available labeled and unlabeled samples. It leverages the unlabeled samples via a loss formulation that encourages estimation equivariance under a set of affine transformations. The student network is trained using the unlabeled samples with their pseudo-labels provided by the teacher network. For inference at test time, only the student network is used. Extensive experiments demonstrate that the proposed method outperforms the state-of-the-art semi-supervised methods by large margins.
翻訳日:2023-03-28 15:33:14 公開日:2023-03-27
# SimpleNet:画像異常検出と位置決めのための簡易ネットワーク

SimpleNet: A Simple Network for Image Anomaly Detection and Localization ( http://arxiv.org/abs/2303.15140v1 )

ライセンス: Link先を確認
Zhikang Liu, Yiming Zhou, Yuansheng Xu, Zilei Wang(参考訳) 本稿では,異常検出と局所化のためのシンプルでアプリケーションフレンドリーなネットワーク(SimpleNet)を提案する。 SimpleNet は,(1) 局所特徴を生成する事前学習された特徴抽出器,(2) 対象領域に局所特徴を変換する浅層特徴適応器,(3) 正規特徴にガウスノイズを加えることによって異常特徴を偽装する単純な異常特徴生成器,(4) 異常特徴と正常特徴を区別するバイナリ異常識別器の4つのコンポーネントから構成される。 推論中、異常特徴発生器は破棄される。 私たちのアプローチは3つの直観に基づいている。 まず、トレーニング済みの機能からターゲット指向の機能に変換することは、ドメインバイアスを避けるのに役立つ。 第二に、画像空間における欠陥の共通性があまりないため、特徴空間における合成異常の生成はより効果的である。 第3に、単純な判別器は効率的で実用的です。 単純さにもかかわらず、simplenetは従来の手法を量的、質的に上回っている。 MVTec ADベンチマークでは、SimpleNetは99.6%の異常検出AUROCを達成し、次の最高のパフォーマンスモデルと比較してエラーを55.5%削減した。 さらに、SimpleNetは既存のメソッドよりも高速で、3080ti GPU上で77FPSのフレームレートを持つ。 さらにSimpleNetは、ワンクラスノベルティ検出タスクのパフォーマンスが大幅に改善されたことを示している。 コード:https://github.com/DonaldRR/SimpleNet

We propose a simple and application-friendly network (called SimpleNet) for detecting and localizing anomalies. SimpleNet consists of four components: (1) a pre-trained Feature Extractor that generates local features, (2) a shallow Feature Adapter that transfo local features towards target domain, (3) a simple Anomaly Feature Generator that counterfeits anomaly features by adding Gaussian noise to normal features, and (4) a binary Anomaly Discriminator that distinguishes anomaly features from normal features. During inference, the Anomaly Feature Generator would be discarded. Our approach is based on three intuitions. First, transforming pre-trained features to target-oriented features helps avoid domain bias. Second, generating synthetic anomalies in feature space is more effective, as defects may not have much commonality in the image space. Third, a simple discriminator is much efficient and practical. In spite of simplicity, SimpleNet outperforms previous methods quantitatively and qualitatively. On the MVTec AD benchmark, SimpleNet achieves an anomaly detection AUROC of 99.6%, reducing the error by 55.5% compared to the next best performing model. Furthermore, SimpleNet is faster than existing methods, with a high frame rate of 77 FPS on a 3080ti GPU. Additionally, SimpleNet demonstrates significant improvements in performance on the One-Class Novelty Detection task. Code: https://github.com/DonaldRR/SimpleNet.
翻訳日:2023-03-28 15:32:57 公開日:2023-03-27
# 長距離相互作用を有する円形導波路における真のマルチモード絡み合いの生成

Production of genuine multimode entanglement in circular waveguides with long-range interactions ( http://arxiv.org/abs/2303.15137v1 )

ライセンス: Link先を確認
T Anuradha, Ayan Patra, Rivu Gupta, Amit Rai, Aditi Sen De(参考訳) 生成物の初期状態, 圧縮(コヒーレント)状態, 残りは真空状態から始めると, 様々な相互作用強度に結合したモードからなる円形導波路は, 一般化幾何測度(GGM)を用いて定量化した実効多モードエンタングルメント(GME)を生成可能であることを報告する。 その結果,GGMが崩壊し,相互作用強度と時間の変化とともに復活する一方で,導波路間の相互作用範囲が増加するにつれて,得られる状態のGME含量が増加することを示した。 長距離相互作用の利点を説明するために、ggm曲線の下の領域を測定する累積ggmと呼ばれる量を提案する。 任意のモード数を含むシステムに対して,すべてのモードが等しく相互作用する場合に,GGMの正確な表現を解析的に決定する。 解析全体は位相空間形式主義で行われる。 我々は, 相互作用強度によらず, GMEの安定生産を約束する結合パラメータにおいて, 障害の構成的効果を示す。

Starting with a product initial state, squeezed (coherent squeezed) state in one of the modes, and vacuum in the rest, we report that a circular waveguide comprising modes coupled with varying interaction strength is capable of producing genuine multimode entanglement (GME), quantified via the generalized geometric measure (GGM). We demonstrate that for a fixed interaction and squeezing strength, the GME content of the resulting state increases as the range of interactions between the waveguides increases, although the GGM collapses and revives with the variation of interaction strength and time. To illustrate the advantage of long-range interactions, we propose a quantity, called accumulated GGM, measuring the area under the GGM curve, which clearly illustrates the growing trends with the increasing range of interactions. We analytically determine the exact expression of GGM for systems involving an arbitrary number of modes, when all the modes interact with each other equally. The entire analysis is performed in phase-space formalism. We manifest the constructive effect of disorder in the coupling parameter, which promises a steady production of GME, independent of the interaction strength.
翻訳日:2023-03-28 15:32:34 公開日:2023-03-27
# グラフに基づくラベル伝搬を用いたクロス発話asr

Cross-utterance ASR Rescoring with Graph-based Label Propagation ( http://arxiv.org/abs/2303.15132v1 )

ライセンス: Link先を確認
Srinath Tankasala, Long Chen, Andreas Stolcke, Anirudh Raju, Qianli Deng, Chander Chandak, Aparna Khare, Roland Maas, Venkatesh Ravichandran(参考訳) そこで本稿では,ASR N-best仮説をグラフベースのラベル伝搬で再現する手法を提案する。 従来の言語モデル(lm)ベースのasrリコーリング/リカリングモデルとは対照的に,本手法は音響情報に着目し,個別ではなく発話間で協調的にリコーリングを行う。 VCTKデータセットの実験により、我々のアプローチは、アクセントの異なる話者グループ間での公平さと同様に、ASRの性能を一貫して改善することを示した。 我々のアプローチは、新しいドメインやアクセント固有のモデルをトレーニングすることなく、ASRシステムの主観的バイアスを軽減するための低コストなソリューションを提供する。

We propose a novel approach for ASR N-best hypothesis rescoring with graph-based label propagation by leveraging cross-utterance acoustic similarity. In contrast to conventional neural language model (LM) based ASR rescoring/reranking models, our approach focuses on acoustic information and conducts the rescoring collaboratively among utterances, instead of individually. Experiments on the VCTK dataset demonstrate that our approach consistently improves ASR performance, as well as fairness across speaker groups with different accents. Our approach provides a low-cost solution for mitigating the majoritarian bias of ASR systems, without the need to train new domain- or accent-specific models.
翻訳日:2023-03-28 15:32:13 公開日:2023-03-27
# unlearnableを学習する: 不可解な例攻撃を抑制する敵対的拡張

Learning the Unlearnable: Adversarial Augmentations Suppress Unlearnable Example Attacks ( http://arxiv.org/abs/2303.15127v1 )

ライセンス: Link先を確認
Tianrui Qin, Xitong Gao, Juanjuan Zhao, Kejiang Ye, Cheng-Zhong Xu(参考訳) 学習不能な攻撃は、深層学習モデルのトレーニングに許可されていない使用に対して、公開データを保護するために使用できるデータ中毒技術である。 これらの方法は、元の画像にステルスな摂動を加えるため、ディープラーニングモデルがこれらのトレーニングデータから効果的に学習することが困難になる。 現在の研究では、敵の訓練は、ある程度は、未発生のサンプル攻撃の影響を軽減することができるが、一般的なデータ増強法はそのような毒には効果がないことが示唆されている。 しかし、敵対的な訓練はかなりの計算資源を必要とし、非自明な正確性を失う可能性がある。 本稿では,実効的なデータ拡張ポリシーと損失最大化の相乗効果を組み合わせることで,最先端の非学習的攻撃に対する現在の防御方法に勝るueraser法を提案する。 UEraserは、現在のSOTAの敵対的訓練方法とは対照的に、現在の未学習の攻撃や防御によって想定される摂動予算$ $ $ $ell_p を超えて、敵の増強を使用する。 また、モデルの一般化能力の向上にも寄与し、精度の低下を防ぐ。 UEraserは、エラー最大化データ拡張による未学習効果を排除し、トレーニング済みのモデル精度を回復する。 興味深いことに, UEraser-Liteは, 対向性増強を伴わない高速な変種であり, クリーンアキュラシーの保存にも有効である。 CIFAR-10、CIFAR-100、SVHN、および様々な攻撃で生成されたImageNet-subsetデータセットに挑戦し、クリーントレーニング中に得られた結果に匹敵する結果を得る。 また,適応攻撃に対する効果を示す。 私たちのコードはオープンソースで、ディープラーニングコミュニティで利用可能です。

Unlearnable example attacks are data poisoning techniques that can be used to safeguard public data against unauthorized use for training deep learning models. These methods add stealthy perturbations to the original image, thereby making it difficult for deep learning models to learn from these training data effectively. Current research suggests that adversarial training can, to a certain degree, mitigate the impact of unlearnable example attacks, while common data augmentation methods are not effective against such poisons. Adversarial training, however, demands considerable computational resources and can result in non-trivial accuracy loss. In this paper, we introduce the UEraser method, which outperforms current defenses against different types of state-of-the-art unlearnable example attacks through a combination of effective data augmentation policies and loss-maximizing adversarial augmentations. In stark contrast to the current SOTA adversarial training methods, UEraser uses adversarial augmentations, which extends beyond the confines of $ \ell_p $ perturbation budget assumed by current unlearning attacks and defenses. It also helps to improve the model's generalization ability, thus protecting against accuracy loss. UEraser wipes out the unlearning effect with error-maximizing data augmentations, thus restoring trained model accuracies. Interestingly, UEraser-Lite, a fast variant without adversarial augmentations, is also highly effective in preserving clean accuracies. On challenging unlearnable CIFAR-10, CIFAR-100, SVHN, and ImageNet-subset datasets produced with various attacks, it achieves results that are comparable to those obtained during clean training. We also demonstrate its efficacy against possible adaptive attacks. Our code is open source and available to the deep learning community: https://github.com/lafeat/ueraser.
翻訳日:2023-03-28 15:32:01 公開日:2023-03-27
# NeuralPCI: 3次元点雲非線形補間のための時空間ニューラルネットワーク

NeuralPCI: Spatio-temporal Neural Field for 3D Point Cloud Multi-frame Non-linear Interpolation ( http://arxiv.org/abs/2303.15126v1 )

ライセンス: Link先を確認
Zehan Zheng, Danni Wu, Ruisi Lu, Fan Lu, Guang Chen, Changjun Jiang(参考訳) 近年,コンピュータビジョンの補間作業に注目が集まっている。 ビデオ補間が著しく進歩したにもかかわらず、点雲補間はまだ不十分である。 一方、実世界のシナリオに多数の非線形大きな動きが存在するため、ポイントクラウド補間作業はより困難になる。 これらの問題に照らし合わせて,3dポイントクラウド補間のためのエンドツーエンドの4次元空間的ニューラルフィールドであるneuralpciを提案する。 さらに,NL-Driveと呼ばれる複数フレームのクラウド補間データセットを構築し,自律走行シーンにおける大きな非線形動作を推定し,本手法の優位性を示す。 結局のところ、NeuralPCIはDHB(Dynamic Human Bodies)とNL-Driveデータセットの両方で最先端のパフォーマンスを達成する。 補間作業の他に,本手法は自然に雲外挿,モーフィング,自動ラベルまで拡張することができる。 コードはhttps://github.com/ispc-lab/NeuralPCIで入手できる。

In recent years, there has been a significant increase in focus on the interpolation task of computer vision. Despite the tremendous advancement of video interpolation, point cloud interpolation remains insufficiently explored. Meanwhile, the existence of numerous nonlinear large motions in real-world scenarios makes the point cloud interpolation task more challenging. In light of these issues, we present NeuralPCI: an end-to-end 4D spatio-temporal Neural field for 3D Point Cloud Interpolation, which implicitly integrates multi-frame information to handle nonlinear large motions for both indoor and outdoor scenarios. Furthermore, we construct a new multi-frame point cloud interpolation dataset called NL-Drive for large nonlinear motions in autonomous driving scenes to better demonstrate the superiority of our method. Ultimately, NeuralPCI achieves state-of-the-art performance on both DHB (Dynamic Human Bodies) and NL-Drive datasets. Beyond the interpolation task, our method can be naturally extended to point cloud extrapolation, morphing, and auto-labeling, which indicates its substantial potential in other domains. Codes are available at https://github.com/ispc-lab/NeuralPCI.
翻訳日:2023-03-28 15:31:30 公開日:2023-03-27
# lmcanvas: 大きな言語モデルによる書き込み環境をパーソナライズするためのオブジェクト指向インタラクション

LMCanvas: Object-Oriented Interaction to Personalize Large Language Model-Powered Writing Environments ( http://arxiv.org/abs/2303.15125v1 )

ライセンス: Link先を確認
Tae Soo Kim, Arghya Sarkar, Yoonjoo Lee, Minsuk Chang, Juho Kim(参考訳) 大規模言語モデル(LLM)は、ライターのワークフロー(例えば、パラフレーズ、アナロジーの作成)で特定のタスクを自動化またはサポートすることで、書き込みを強化することができる。 この機能を活用することで、特定の記述タスクにLLMベースのツールを提供するインターフェースの集合が開発された。 しかし、これらのインターフェイスは、ライターが独自のタスクのために個人的なツールを作成するための制限されたサポートを提供し、ライターのニーズを包括的に満たさない可能性がある。 本研究は,書記者が自作の LLM ベースの書記ツールを作成でき,キャンバス内の「ブロック」と対話して個人的な書記環境を設定できるインタフェースであるLMCanvas を構想する。 このインターフェースでは、ユーザはテキストブロックを作成して、書き込みとllmプロンプトをカプセル化し、モデルパラメータの設定のためのモデルブロックを作成し、これらを接続して、生成するパイプラインブロックを作成することができる。 本ワークショップでは,LMCanvasの設計と,このコンセプトを開発する計画について論じる。

Large language models (LLMs) can enhance writing by automating or supporting specific tasks in writers' workflows (e.g., paraphrasing, creating analogies). Leveraging this capability, a collection of interfaces have been developed that provide LLM-powered tools for specific writing tasks. However, these interfaces provide limited support for writers to create personal tools for their own unique tasks, and may not comprehensively fulfill a writer's needs -- requiring them to continuously switch between interfaces during writing. In this work, we envision LMCanvas, an interface that enables writers to create their own LLM-powered writing tools and arrange their personal writing environment by interacting with "blocks" in a canvas. In this interface, users can create text blocks to encapsulate writing and LLM prompts, model blocks for model parameter configurations, and connect these to create pipeline blocks that output generations. In this workshop paper, we discuss the design for LMCanvas and our plans to develop this concept.
翻訳日:2023-03-28 15:31:13 公開日:2023-03-27
# 人工マーカー除去のための物体認識識別によるブラインド塗装

Blind Inpainting with Object-aware Discrimination for Artificial Marker Removal ( http://arxiv.org/abs/2303.15124v1 )

ライセンス: Link先を確認
Xuechen Guo, Wenhao Hu, Chiming Ni, Wenhao Chai, Shiyan Li and Gaoang Wang(参考訳) 医用画像には、医師が付加した人工マーカーがしばしば含まれており、AIベースの診断の精度に悪影響を及ぼす可能性がある。 この問題に対処し、欠落した視覚コンテンツを回復するためには、塗装技術が不可欠である。 しかし、既存の塗装方法は手動のマスク入力を必要とし、アプリケーションのシナリオを制限する。 本稿では,画像中の対象領域のマスクを指定せず,視覚コンテンツを自動的に補完する新しいブラインドインペインティング手法を提案する。 提案モデルはマスクフリーの再構成ネットワークと物体認識判別器を含む。 再構成ネットワークは、2つの枝からなり、腐敗した領域を人工的なマーカーで予測し、失明した視覚コンテンツを同時に復元する。 オブジェクト認識識別器は、任意の局所領域において再構成画像のマーカーを検出できないように、高密度物体検出器の強力な認識能力に依存している。 これにより、再構築された画像は、可能な限りクリーンに近いものにすることができる。 提案手法は超音波(us)、mri(mri)、電子顕微鏡(em)などの複数の画像モダリティをカバーし、様々な未知の領域パターンに対して有効で頑健であることを実証し、異なる医用画像データセット上で評価した。

Medical images often contain artificial markers added by doctors, which can negatively affect the accuracy of AI-based diagnosis. To address this issue and recover the missing visual contents, inpainting techniques are highly needed. However, existing inpainting methods require manual mask input, limiting their application scenarios. In this paper, we introduce a novel blind inpainting method that automatically completes visual contents without specifying masks for target areas in an image. Our proposed model includes a mask-free reconstruction network and an object-aware discriminator. The reconstruction network consists of two branches that predict the corrupted regions with artificial markers and simultaneously recover the missing visual contents. The object-aware discriminator relies on the powerful recognition capabilities of the dense object detector to ensure that the markers of reconstructed images cannot be detected in any local regions. As a result, the reconstructed image can be close to the clean one as much as possible. Our proposed method is evaluated on different medical image datasets, covering multiple imaging modalities such as ultrasound (US), magnetic resonance imaging (MRI), and electron microscopy (EM), demonstrating that our method is effective and robust against various unknown missing region patterns.
翻訳日:2023-03-28 15:30:54 公開日:2023-03-27
# 実験プロトコルを用いた自己愛着の解釈性の評価

Evaluating self-attention interpretability through human-grounded experimental protocol ( http://arxiv.org/abs/2303.15190v1 )

ライセンス: Link先を確認
Milan Bhan, Nina Achache, Victor Legrand, Annabelle Blangero, Nicolas Chesneau(参考訳) 自然言語処理におけるトランスフォーマーのような複雑なアーキテクチャの開発において、注意機構が重要な役割を担っている。 しかし、変圧器は解釈が難しく、ブラックボックスと見なされている。 本稿では,トランスフォーマーの注意係数が解釈可能性に与える影響を評価することを目的とする。 CLaSsification-Attention (CLS-A) と呼ばれる新しい注意に基づく解釈法を提案する。 CLS-Aは、トランスフォーマーアーキテクチャ内の分類タスクに特有の部分に関する注意係数分布に基づいて、各単語の解釈可能性スコアを算出する。 CLS-Aを他の解釈可能性法と比較するための人為的な実験を行った。 実験プロトコルは、人間の推論に従って説明を提供するための解釈可能性の方法の能力に依存している。 実験設計には、反応時間とヒトの反応速度の正確な測定が含まれる。 CLS-Aは、平均反応時間と精度に関する通常の解釈可能性手法と相容れない。 CLS-Aの計算コストは、他の解釈可能性法と比較して低く、分類器の設計による可用性は特に興味深い。 データ分析はまた、分類器予測の確率スコアと適切な説明との関係も強調する。 最後に, CLS-Aの使用の関連性を確認し, トランスフォーマー分類器を説明するための豊富な情報を含む自己注意度を示す。

Attention mechanisms have played a crucial role in the development of complex architectures such as Transformers in natural language processing. However, Transformers remain hard to interpret and are considered as black-boxes. This paper aims to assess how attention coefficients from Transformers can help in providing interpretability. A new attention-based interpretability method called CLaSsification-Attention (CLS-A) is proposed. CLS-A computes an interpretability score for each word based on the attention coefficient distribution related to the part specific to the classification task within the Transformer architecture. A human-grounded experiment is conducted to evaluate and compare CLS-A to other interpretability methods. The experimental protocol relies on the capacity of an interpretability method to provide explanation in line with human reasoning. Experiment design includes measuring reaction times and correct response rates by human subjects. CLS-A performs comparably to usual interpretability methods regarding average participant reaction time and accuracy. The lower computational cost of CLS-A compared to other interpretability methods and its availability by design within the classifier make it particularly interesting. Data analysis also highlights the link between the probability score of a classifier prediction and adequate explanations. Finally, our work confirms the relevancy of the use of CLS-A and shows to which extent self-attention contains rich information to explain Transformer classifiers.
翻訳日:2023-03-28 15:24:32 公開日:2023-03-27
# 単一光子に対する波動粒子双対性の確率論的考察

A probabilistic view of wave-particle duality for single photons ( http://arxiv.org/abs/2303.15185v1 )

ライセンス: Link先を確認
Andrea Aiello(参考訳) 単一光子状態に作製した光の波動-粒子双対性を示す簡単な実験について述べる。 古典的確率論の観点からこの問題にアプローチすることにより、標準相関関数は実験で同時に測定できる波動と粒子観測物の間の隠れた非線形依存を明らかにすることができないことが分かる。 したがって,観測対象間の依存関係のより一般的な尺度として相互情報を用いる。 これは波動粒子双対性に関する新しい視点を与える。

We describe a simple experiment exemplifying wave-particle duality in light beams prepared in a single-photon state. By approaching the problem from the perspective of classical probability theory, we find that standard correlation functions fails to reveal a hidden nonlinear dependence between some wave and particle observables that can be simultaneously measured in the experiment. Therefore, we use mutual information as a more general measure of the dependence between such observables. This provides a new perspective on wave-particle duality.
翻訳日:2023-03-28 15:24:17 公開日:2023-03-27
# 敵対的特徴増強による長期データに基づく個人化フェデレーション学習

Personalized Federated Learning on Long-Tailed Data via Adversarial Feature Augmentation ( http://arxiv.org/abs/2303.15168v1 )

ライセンス: Link先を確認
Yang Lu, Pinxin Qian, Gang Huang, Hanzi Wang(参考訳) パーソナライズされた連合学習(pfl)は、すべてのクライアントの知識に基づいて、各クライアントのパーソナライズされたモデルを学ぶことを目的としている。 既存のPFL法は、一般に、全てのクライアントにわたる基礎となるグローバルデータが、ロングテール分布を考慮せずに均一に分散されていると仮定する。 FL環境におけるデータ不均一性と長期分布の連成問題は、より困難であり、パーソナライズされたモデルの性能に深刻な影響を及ぼす。 本稿では,この問題に対処するために,fedafa(federated learning with adversarial feature augmentation)と呼ばれるpfl手法を提案する。 FedAFAは、各クライアントのパーソナライズされたモデルを最適化し、ローカルなマイノリティクラスを強化するためのバランスのとれた機能セットを生成する。 ローカルマイノリティクラスの特徴は、グローバルモデルによって抽出されたローカル多数派クラス特徴から知識を敵対的な例学習方法で転送することによって生成される。 データの不均一性と長期分布の異なる条件下でのベンチマーク実験の結果、FedAFAは最先端のPFLアルゴリズムと比較して、各クライアントのパーソナライズ性能を著しく改善することが示された。 コードはhttps://github.com/pxqian/FedAFAで公開されている。

Personalized Federated Learning (PFL) aims to learn personalized models for each client based on the knowledge across all clients in a privacy-preserving manner. Existing PFL methods generally assume that the underlying global data across all clients are uniformly distributed without considering the long-tail distribution. The joint problem of data heterogeneity and long-tail distribution in the FL environment is more challenging and severely affects the performance of personalized models. In this paper, we propose a PFL method called Federated Learning with Adversarial Feature Augmentation (FedAFA) to address this joint problem in PFL. FedAFA optimizes the personalized model for each client by producing a balanced feature set to enhance the local minority classes. The local minority class features are generated by transferring the knowledge from the local majority class features extracted by the global model in an adversarial example learning manner. The experimental results on benchmarks under different settings of data heterogeneity and long-tail distribution demonstrate that FedAFA significantly improves the personalized performance of each client compared with the state-of-the-art PFL algorithm. The code is available at https://github.com/pxqian/FedAFA.
翻訳日:2023-03-28 15:22:48 公開日:2023-03-27
# 事前訓練深部骨格特徴を用いたプロンプト誘導ゼロショット異常動作認識

Prompt-Guided Zero-Shot Anomaly Action Recognition using Pretrained Deep Skeleton Features ( http://arxiv.org/abs/2303.15167v1 )

ライセンス: Link先を確認
Fumiaki Sato, Ryo Hachiuma, Taiki Sekii(参考訳) そこで本研究では,ビデオレベルの異常行動事象を異常なサンプルを伴わずに検出し,従来の骨格に基づくアプローチである標的ドメイン依存型DNNトレーニング,骨格エラーに対する堅牢性,正常標本の欠如という3つの制限を同時に解決する。 本稿では,大規模行動認識データセット上で事前学習したターゲットドメイン非依存型骨格特徴抽出器を用いた,ユーザプロンプト誘導型ゼロショット学習フレームワークを提案する。 特に、通常のサンプルを用いたトレーニングフェーズでは、DNNの重みを凍結しながら正常な動作の骨格特性の分布をモデル化し、この分布を推論フェーズで推定する。 さらに,スケルトンエラーに対するロバスト性を高めるために,ポイントクラウド深層学習パラダイムにインスパイアされたDNNアーキテクチャを導入する。 さらに, 正常な動作が異常な動作と誤認されることを防止するため, 通常の動作を間接的に補う異常スコアに, 共通空間に並んだユーザプロンプトの埋め込みと骨格の特徴の類似点を組み込んだ。 2つの公開データセットにおいて,提案手法の有効性をテストする実験を行った。

This study investigates unsupervised anomaly action recognition, which identifies video-level abnormal-human-behavior events in an unsupervised manner without abnormal samples, and simultaneously addresses three limitations in the conventional skeleton-based approaches: target domain-dependent DNN training, robustness against skeleton errors, and a lack of normal samples. We present a unified, user prompt-guided zero-shot learning framework using a target domain-independent skeleton feature extractor, which is pretrained on a large-scale action recognition dataset. Particularly, during the training phase using normal samples, the method models the distribution of skeleton features of the normal actions while freezing the weights of the DNNs and estimates the anomaly score using this distribution in the inference phase. Additionally, to increase robustness against skeleton errors, we introduce a DNN architecture inspired by a point cloud deep learning paradigm, which sparsely propagates the features between joints. Furthermore, to prevent the unobserved normal actions from being misidentified as abnormal actions, we incorporate a similarity score between the user prompt embeddings and skeleton features aligned in the common space into the anomaly score, which indirectly supplements normal actions. On two publicly available datasets, we conduct experiments to test the effectiveness of the proposed method with respect to abovementioned limitations.
翻訳日:2023-03-28 15:22:28 公開日:2023-03-27
# 芸術的イメージ美学評価に向けて : 大規模データセットと新しい方法

Towards Artistic Image Aesthetics Assessment: a Large-scale Dataset and a New Method ( http://arxiv.org/abs/2303.15166v1 )

ライセンス: Link先を確認
Ran Yi, Haoyuan Tian, Zhihao Gu, Yu-Kun Lai and Paul L. Rosin(参考訳) 画像美学評価(IAA)は、その主観性が高いため難しい課題である。 現在の研究の多くは、あらゆる種類の写真画像の一般的なモデルを学ぶために大規模なデータセット(AVAやAADBなど)に依存している。 しかし、芸術的イメージの美的品質を測る光はほとんどなく、既存のデータセットには比較的少ないアートワークしか含まれていない。 このような欠陥は芸術的イメージの美的評価に大きな障害となる。 芸術的画像美学評価(AIAA)の分野におけるギャップを埋めるために、我々はまず大規模なAIAAデータセット、Boldbrush Artistic Image Dataset(BAID)を紹介した。 そこで我々は,スタイル特異的で汎用的な美的情報を効果的に抽出し,活用できるSAAN(Style-specific Art Assessment Network)を提案する。 実験により,提案手法はBAIDデータセット上での既存のIAA手法よりも高い性能を示した。 提案したデータセットと手法は,今後のAIAA研究の基盤として機能し,この分野のさらなる研究を促すことができると考えている。 データセットとコードは、https://github.com/Dreemurr-T/BAID.gitで入手できる。

Image aesthetics assessment (IAA) is a challenging task due to its highly subjective nature. Most of the current studies rely on large-scale datasets (e.g., AVA and AADB) to learn a general model for all kinds of photography images. However, little light has been shed on measuring the aesthetic quality of artistic images, and the existing datasets only contain relatively few artworks. Such a defect is a great obstacle to the aesthetic assessment of artistic images. To fill the gap in the field of artistic image aesthetics assessment (AIAA), we first introduce a large-scale AIAA dataset: Boldbrush Artistic Image Dataset (BAID), which consists of 60,337 artistic images covering various art forms, with more than 360,000 votes from online users. We then propose a new method, SAAN (Style-specific Art Assessment Network), which can effectively extract and utilize style-specific and generic aesthetic information to evaluate artistic images. Experiments demonstrate that our proposed approach outperforms existing IAA methods on the proposed BAID dataset according to quantitative comparisons. We believe the proposed dataset and method can serve as a foundation for future AIAA works and inspire more research in this field. Dataset and code are available at: https://github.com/Dreemurr-T/BAID.git
翻訳日:2023-03-28 15:22:03 公開日:2023-03-27
# スピノリアル球:スピン1/2の巨視的対象

The spinorial ball: a macroscopic object of spin-1/2 ( http://arxiv.org/abs/2303.15215v1 )

ライセンス: Link先を確認
Samuel Bernard-Bernardet, David Dumas, Benjamin Apffel(参考訳) 歴史的に、半スピン粒子の観測は量子力学の最も驚くべき特徴の1つであった。 これらはしばしば「1ターン後に最初の状態に戻るのではなく、2ターン後に行うオブジェクト」と表現される。 同様の振る舞いを示すためにベルトやリボンを挟むといった制約を使ったマクロな実装がある(「ディラックベルトトリック」)。 しかし、半スピンの挙動を持つ無拘束の巨視的物体のデモンストレーションはいまだに解明されていない。 本稿では,この隙間を埋め,スピノリアル球を導入することを提案する。 内部led照明を備えた半透明のプラスチックボールで、自由に動くマクロな半スピン物体として振る舞う。 半整数スピンを導入して視覚化する新しいツールと SU(2) から SO(3) への被覆群準同型を提供し、特に SO(3) の異なるホモトピー類をはっきりと視覚化する。 本稿では, 量子計測と波動関数の崩壊を, スピノリアル球を用いて再現する手法について考察する。 システム全体がオープンソースハードウェアであり、ビルドの詳細、モデル、3dプリンティングファイルなどがオープンソースライセンスで提供されている。

Historically, the observation of half-spin particles was one of the most surprising features of quantum mechanics. They are often described as "objects that do not come back to their initial state after one turn but do after two turns". There are macroscopic implementations using constraints such as clamping a belt or ribbon that purport to show similar behavior (the "Dirac belt trick"). However, a demonstration of an unconstrained macroscopic object with half-spin behavior remains elusive. In this article, we propose to fill this gap and introduce the spinorial ball. It consists of a translucent plastic ball with internal LED illumination that behaves as a freely movable macroscopic half-spin object. It provides a new tool to introduce and visualize half-integer spins as well as the covering group homomorphism from SU(2) to SO(3), and offers in particular a clear visualization of the different homotopy classes of SO(3). We discuss its development and function, and how one can mimic quantum measurement and wave function collapse using this the spinorial ball. The entire system is open source hardware, with build details, models, 3d printing files, etc., provided under an open source license.
翻訳日:2023-03-28 15:14:59 公開日:2023-03-27
# CLIDiM:顕微鏡による画像復調のためのコントラスト学習

CLIDiM: Contrastive Learning for Image Denoising in Microscopy ( http://arxiv.org/abs/2303.15214v1 )

ライセンス: Link先を確認
Felix Fuentes-Hurtado, Jean-Baptiste Sibarita, Virgile Viasnoff(参考訳) 顕微鏡画像は、しばしば高レベルのノイズに悩まされ、さらなる分析と解釈を妨げる。 コンテンツ対応画像復元法(CARE)はこの問題に対処するために提案されているが、大量のトレーニングデータを必要とし、過度に適合する。 これらの課題を克服するために,数発の顕微鏡画像復調のための新しいフレームワークを提案する。 提案手法では,比較学習(CL)を用いて学習した生成逆数ネットワーク(GAN)と損失項を保存する2つの構造(構造的類似度指数とトータル変量損失)を組み合わせることにより,画像の画質を向上する。 本手法は,3つのよく知られた顕微鏡画像データセット上での有効性を実証し,ノイズ品質を維持しつつトレーニングデータの量を大幅に削減でき,ペアデータ取得の負担を軽減し,少ない学習を可能にする。 提案するフレームワークは他の画像復元タスクにも容易に拡張でき、顕微鏡画像解析の分野を著しく前進させる可能性がある。

Microscopy images often suffer from high levels of noise, which can hinder further analysis and interpretation. Content-aware image restoration (CARE) methods have been proposed to address this issue, but they often require large amounts of training data and suffer from over-fitting. To overcome these challenges, we propose a novel framework for few-shot microscopy image denoising. Our approach combines a generative adversarial network (GAN) trained via contrastive learning (CL) with two structure preserving loss terms (Structural Similarity Index and Total Variation loss) to further improve the quality of the denoised images using little data. We demonstrate the effectiveness of our method on three well-known microscopy imaging datasets, and show that we can drastically reduce the amount of training data while retaining the quality of the denoising, thus alleviating the burden of acquiring paired data and enabling few-shot learning. The proposed framework can be easily extended to other image restoration tasks and has the potential to significantly advance the field of microscopy image analysis.
翻訳日:2023-03-28 15:14:41 公開日:2023-03-27
# ハイパーパラメータ最適化のためのDeep Ranking Ensembles

Deep Ranking Ensembles for Hyperparameter Optimization ( http://arxiv.org/abs/2303.15212v1 )

ライセンス: Link先を確認
Abdus Salam Khazi, Sebastian Pineda Arango, Josif Grabocka(参考訳) 機械学習アルゴリズムのハイパーパラメータの自動最適化は、AIの主要なオープンな問題のひとつだ。 ハイパーパラメータ最適化(HPO)の既存の作業は、回帰タスクとしてハイパーパラメータの応答面を近似するためのモデルをシュロゲートする。 対照的に、シュロゲートを訓練するための最適な戦略は、ハイパーパラメータ構成のパフォーマンスのランクを学習からランキング問題として保持することである、という仮説を立てる。 その結果、メタ学習型ニューラルネットワークは、アンサンブルによる不確実性をモデル化しながら、構成性能のランク付けに最適化される新しい手法を提案する。 12のベースライン、16のHPO検索スペース、86のデータセット/タスクからなる大規模実験プロトコルにおいて、本手法がHPOの新たな最先端結果を実現することを示す。

Automatically optimizing the hyperparameters of Machine Learning algorithms is one of the primary open questions in AI. Existing work in Hyperparameter Optimization (HPO) trains surrogate models for approximating the response surface of hyperparameters as a regression task. In contrast, we hypothesize that the optimal strategy for training surrogates is to preserve the ranks of the performances of hyperparameter configurations as a Learning to Rank problem. As a result, we present a novel method that meta-learns neural network surrogates optimized for ranking the configurations' performances while modeling their uncertainty via ensembling. In a large-scale experimental protocol comprising 12 baselines, 16 HPO search spaces and 86 datasets/tasks, we demonstrate that our method achieves new state-of-the-art results in HPO.
翻訳日:2023-03-28 15:14:22 公開日:2023-03-27
# l_p$とリスク一貫性の関連と正規化カーネル法への影響について

On the Connection between $L_p$ and Risk Consistency and its Implications on Regularized Kernel Methods ( http://arxiv.org/abs/2303.15210v1 )

ライセンス: Link先を確認
Hannes K\"ohler(参考訳) 予測者の品質は、しばしばそのリスクによって評価されるため、リスク一貫性を学習方法の望ましい特性とみなすことは自然であり、そのような方法の多くはリスク一貫性があることが証明されている。 本稿では,リスク一貫性とl_p$-consistencyとの密接な関係を,従来よりもはるかに広い損失関数のクラスに対して確立することを目的とする。 この接続をシフト損失関数に転送しようとする試みは、驚くべきことに、このシフトは、基礎となる確率測度に必要な仮定を、他の多くの結果と同程度に減少させるものではない。 結果はサポートベクターマシンなどの正規化されたカーネルメソッドに適用される。

As a predictor's quality is often assessed by means of its risk, it is natural to regard risk consistency as a desirable property of learning methods, and many such methods have indeed been shown to be risk consistent. The first aim of this paper is to establish the close connection between risk consistency and $L_p$-consistency for a considerably wider class of loss functions than has been done before. The attempt to transfer this connection to shifted loss functions surprisingly reveals that this shift does not reduce the assumptions needed on the underlying probability measure to the same extent as it does for many other results. The results are applied to regularized kernel methods such as support vector machines.
翻訳日:2023-03-28 15:14:10 公開日:2023-03-27
# 自動車追従のアクティブ推論モデル:アドバンテージと応用

An active inference model of car following: Advantages and applications ( http://arxiv.org/abs/2303.15201v1 )

ライセンス: Link先を確認
Ran Wei, Anthony D. McDonald, Alfredo Garcia, Gustav Markkula, Johan Engstrom, and Matthew O'Kelly(参考訳) ドライバープロセスモデルは、自動および自律走行車技術のテスト、検証、開発において中心的な役割を果たす。 制御理論と物理に基づく規則から開発された以前のモデルは、その制限された行動レパートリーのため、自動車両の用途で制限されている。 データ駆動機械学習モデルはルールベースのモデルよりも能力があるが、大規模なトレーニングデータセットの必要性と解釈可能性の欠如、すなわち入力データと出力動作の間の理解可能なリンクによって制限される。 本稿では,解釈可能性を維持しつつ,データ駆動モデルに匹敵する振る舞いの柔軟性を有するアクティブ推論を用いたモデリング手法を提案する。 提案モデルであるアクティブ推論駆動エージェント(AIDA)を,ルールに基づくインテリジェントドライバモデルと2つのニューラルネットワーク行動クローンモデルに対するベンチマーク分析により評価した。 モデルはトレーニングされ、一貫したプロセスを使用して現実世界の運転データセットでテストされた。 テストの結果、AIDAはルールベースのIntelligent Driver Modelよりも運転制御がかなり優れていると予測し、4つの評価のうち3つでデータ駆動ニューラルネットワークモデルと類似の精度を示した。 その後の解釈可能性分析により、aidaの学習された分布は運転行動理論と一致し、分布の可視化によってモデルの意思決定プロセスを直接理解し、限られたトレーニングデータに帰結するモデルの誤りを正すことができることが示された。 結果は、AIDAがブラックボックスのデータ駆動モデルに代わる有望な選択肢であることを示し、より多様なデータセットによる運転スタイルのモデリングとモデルトレーニングに焦点を当てたさらなる研究の必要性を示唆している。

Driver process models play a central role in the testing, verification, and development of automated and autonomous vehicle technologies. Prior models developed from control theory and physics-based rules are limited in automated vehicle applications due to their restricted behavioral repertoire. Data-driven machine learning models are more capable than rule-based models but are limited by the need for large training datasets and their lack of interpretability, i.e., an understandable link between input data and output behaviors. We propose a novel car following modeling approach using active inference, which has comparable behavioral flexibility to data-driven models while maintaining interpretability. We assessed the proposed model, the Active Inference Driving Agent (AIDA), through a benchmark analysis against the rule-based Intelligent Driver Model, and two neural network Behavior Cloning models. The models were trained and tested on a real-world driving dataset using a consistent process. The testing results showed that the AIDA predicted driving controls significantly better than the rule-based Intelligent Driver Model and had similar accuracy to the data-driven neural network models in three out of four evaluations. Subsequent interpretability analyses illustrated that the AIDA's learned distributions were consistent with driver behavior theory and that visualizations of the distributions could be used to directly comprehend the model's decision making process and correct model errors attributable to limited training data. The results indicate that the AIDA is a promising alternative to black-box data-driven models and suggest a need for further research focused on modeling driving style and model training with more diverse datasets.
翻訳日:2023-03-28 15:13:19 公開日:2023-03-27
# 物理インフォームドニューラルネットワークにおける探索最適化

Probing optimisation in physics-informed neural networks ( http://arxiv.org/abs/2303.15196v1 )

ライセンス: Link先を確認
Nayara Fonseca, Veronica Guidetti, Will Trojak(参考訳) 物理インフォームドニューラルネットワーク(PINN)の精度に対するオプティマイザ選択の効果について,新しい比較を行った。 一部のオプティマイザが優れている理由を知るために、訓練軌道曲率を追跡し、低計算コストでフライで評価できる新しいアプローチが提案されている。 線形随伴方程式は,いくつかの随伴速度について検討し,オプティマイザーの選択がピンズモデルの性能と精度に大きく影響することを示した。 さらに, 曲率尺度を用いて, 収束誤差とオプティマイザー局所参照フレームの曲率との間に負の相関が認められた。 この場合、より大きい局所曲率値はより良い解をもたらすと結論づけられた。 その結果, PINNの最適化は, ミニマが高度に湾曲しているため困難である。

A novel comparison is presented of the effect of optimiser choice on the accuracy of physics-informed neural networks (PINNs). To give insight into why some optimisers are better, a new approach is proposed that tracks the training trajectory curvature and can be evaluated on the fly at a low computational cost. The linear advection equation is studied for several advective velocities, and we show that the optimiser choice substantially impacts PINNs model performance and accuracy. Furthermore, using the curvature measure, we found a negative correlation between the convergence error and the curvature in the optimiser local reference frame. It is concluded that, in this case, larger local curvature values result in better solutions. Consequently, optimisation of PINNs is made more difficult as minima are in highly curved regions.
翻訳日:2023-03-28 15:12:24 公開日:2023-03-27
# CoCon: コンテキスト化された研究成果物の併用に関するデータセット

CoCon: A Data Set on Combined Contextualized Research Artifact Use ( http://arxiv.org/abs/2303.15193v1 )

ライセンス: Link先を確認
Tarek Saier and Youxiang Dong and Michael F\"arber(参考訳) 学界における情報過負荷の後、研究者が関連する研究を識別するのを助けるための探索・推薦・予測の方法論やシステムが積極的に研究・開発されている。 しかし、既存の作業は粒度の点で制限されており、論文のレベルやデータセットのような単一の種類のアーティファクトのみに焦点を当てている。 学術出版物とその内容に関するより包括的な分析・システムを実現するため,学術出版物の総合的な利用を反映した大規模な学術データセットであるCoConを提案する。 データセットは35kの成果物(データセット、メソッド、モデル、タスク)と340の出版物で構成されています。 また、「総合研究成果物利用予測」のためのリンク予測タスクを形式化し、データに基づくMLアプリケーションの解析と開発を利用するためのコードを提供する。 すべてのデータとコードはhttps://github.com/IllDepence/contextgraphで公開されている。

In the wake of information overload in academia, methodologies and systems for search, recommendation, and prediction to aid researchers in identifying relevant research are actively studied and developed. Existing work, however, is limited in terms of granularity, focusing only on the level of papers or a single type of artifact, such as data sets. To enable more holistic analyses and systems dealing with academic publications and their content, we propose CoCon, a large scholarly data set reflecting the combined use of research artifacts, contextualized in academic publications' full-text. Our data set comprises 35 k artifacts (data sets, methods, models, and tasks) and 340 k publications. We additionally formalize a link prediction task for "combined research artifact use prediction" and provide code to utilize analyses of and the development of ML applications on our data. All data and code is publicly available at https://github.com/IllDepence/contextgraph.
翻訳日:2023-03-28 15:12:10 公開日:2023-03-27
# Troika: 合成ゼロショット学習のためのマルチパスクロスモーダルトラクション

Troika: Multi-Path Cross-Modal Traction for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2303.15230v1 )

ライセンス: Link先を確認
Siteng Huang, Biao Gong, Yutong Feng, Yiliang Lv, Donglin Wang(参考訳) 近年のコンポジションゼロショット学習 (CZSL) 法は, コンポジションオブジェクト対にのみトレーニング可能なプロンプトを構築することで, 事前学習された視覚言語モデル (VLM) に適応している。 これらの手法は、目に見える構成の合同表現を学習することで、状態と対象の明示的なモデリングを無視し、事前学習された知識の活用と一般化を目に見えない構成に制限する。 本稿では, 解の普遍性に着目し, 状態, 対象, 構成を協調的にモデル化する3つの識別枝(すなわちマルチパス)を確立するczslモデルのための新しいパラダイムを提案する。 提示されたTroikaは、ブランチ固有のプロンプト表現と分解された視覚的特徴を一致させる実装です。 意味的に類似するマルチモーダル表現間のバイアスを校正するため、我々はさらにクロスモーダルトラクションモジュールをトロイカに考案し、プロンプト表現を現在の視覚コンテンツにシフトさせる。 提案手法は,クローズドワールドとオープンワールドの両設定において,既存の手法を著しく上回っている。

Recent compositional zero-shot learning (CZSL) methods adapt pre-trained vision-language models (VLMs) by constructing trainable prompts only for composed state-object pairs. Relying on learning the joint representation of seen compositions, these methods ignore the explicit modeling of the state and object, thus limiting the exploitation of pre-trained knowledge and generalization to unseen compositions. With a particular focus on the universality of the solution, in this work, we propose a novel paradigm for CZSL models that establishes three identification branches (i.e., Multi-Path) to jointly model the state, object, and composition. The presented Troika is our implementation that aligns the branch-specific prompt representations with decomposed visual features. To calibrate the bias between semantically similar multi-modal representations, we further devise a Cross-Modal Traction module into Troika that shifts the prompt representation towards the current visual content. We conduct extensive experiments on three popular benchmarks, where our method significantly outperforms existing methods in both closed-world and open-world settings.
翻訳日:2023-03-28 15:06:25 公開日:2023-03-27
# タンパク質のアミノ酸パターンの解釈型機械学習 : 統計的アンサンブルアプローチ

Interpretable machine learning of amino acid patterns in proteins: a statistical ensemble approach ( http://arxiv.org/abs/2303.15228v1 )

ライセンス: Link先を確認
Anna Braghetto, Enzo Orlandini, Marco Baiesi(参考訳) 説明可能で解釈不能な機械学習は、データの基盤構造を理解するのに役立つ。 機械学習モデルのアンサンブル解析を導入し,その解釈を統合する。 その応用により、制限されたボルツマンマシンは、$\alpha$-helicesまたは$\beta$-sheetsの開始または終了時に5つのアミノ酸の配列に格納された情報を、一貫して数ビットに圧縮する。 機械が学習した重量は、アミノ酸の予期せぬ性質とタンパク質の二次構造を明らかにします。 (i) his と thr は、$\alpha$-helices の両親交配パターンに不可分な貢献をしている。 (ii)最後には特にアラに富む$\alpha$-helicesのクラスがあります。 (iii)プロは、極性アミノ酸又は荷電性アミノ酸が占有するスロットを多く占めており、ヘリックスの開始時にその存在が関係している。 (iv) glu、特に片側のasp、val、leu、iso、pheは、最も強力な両親媒性パターン、すなわち「効果的な疎水性」の極値を示す傾向を示すが、それらは最も強力な(非)疎水性アミノ酸ではない。

Explainable and interpretable unsupervised machine learning helps understand the underlying structure of data. We introduce an ensemble analysis of machine learning models to consolidate their interpretation. Its application shows that restricted Boltzmann machines compress consistently into a few bits the information stored in a sequence of five amino acids at the start or end of $\alpha$-helices or $\beta$-sheets. The weights learned by the machines reveal unexpected properties of the amino acids and the secondary structure of proteins: (i) His and Thr have a negligible contribution to the amphiphilic pattern of $\alpha$-helices; (ii) there is a class of $\alpha$-helices particularly rich in Ala at their end; (iii) Pro occupies most often slots otherwise occupied by polar or charged amino acids, and its presence at the start of helices is relevant; (iv) Glu and especially Asp on one side, and Val, Leu, Iso, and Phe on the other, display the strongest tendency to mark amphiphilic patterns, i.e., extreme values of an "effective hydrophobicity", though they are not the most powerful (non) hydrophobic amino acids.
翻訳日:2023-03-28 15:06:02 公開日:2023-03-27
# コミュニケーション要求を低減した非同期オンラインフェデレーション学習

Asynchronous Online Federated Learning with Reduced Communication Requirements ( http://arxiv.org/abs/2303.15226v1 )

ライセンス: Link先を確認
Francois Gauthier, Vinay Chakravarthi Gogineni, Stefan Werner, Yih-Fang Huang, Anthony Kuh(参考訳) online federated learning(fl)は、地理的に分散したデバイスが、ローカルに利用可能なストリーミングデータからグローバルな共有モデルを学ぶことができる。 ほとんどのオンラインFL文献は、参加するクライアントと通信チャネルに関する最良のシナリオを考察している。 しかし、これらの仮定はしばしば実世界のアプリケーションでは満たされない。 非同期設定は、利用可能な計算能力やバッテリ制約による不均一なクライアント参加、通信チャネルやストラグラーデバイスによる遅延など、より現実的な環境を反映することができる。 さらに、ほとんどの応用ではエネルギー効率を考慮する必要がある。 部分共有型コミュニケーションの原理を用いて,通信効率の高い非同期オンライン連合学習(PAO-Fed)戦略を提案する。 参加者のコミュニケーションオーバーヘッドを減らすことで,学習課題への参加をよりアクセスしやすく,効率的に行うことができる。 さらに,提案手法はランダム参加を考慮し,更新の遅延を処理し,精度への影響を緩和する。 提案したPAO-Fed法の1次および2次収束性を証明し,その定常平均平方偏差の式を得る。 最後に,提案手法の有効性を,合成データセットと実生活データセットの両方で検証する。 シミュレーションにより,提案したPAO-Fedは,通信オーバーヘッドを98%削減しつつ,オンライン統合確率勾配と同じ収束特性を実現することができることがわかった。

Online federated learning (FL) enables geographically distributed devices to learn a global shared model from locally available streaming data. Most online FL literature considers a best-case scenario regarding the participating clients and the communication channels. However, these assumptions are often not met in real-world applications. Asynchronous settings can reflect a more realistic environment, such as heterogeneous client participation due to available computational power and battery constraints, as well as delays caused by communication channels or straggler devices. Further, in most applications, energy efficiency must be taken into consideration. Using the principles of partial-sharing-based communications, we propose a communication-efficient asynchronous online federated learning (PAO-Fed) strategy. By reducing the communication overhead of the participants, the proposed method renders participation in the learning task more accessible and efficient. In addition, the proposed aggregation mechanism accounts for random participation, handles delayed updates and mitigates their effect on accuracy. We prove the first and second-order convergence of the proposed PAO-Fed method and obtain an expression for its steady-state mean square deviation. Finally, we conduct comprehensive simulations to study the performance of the proposed method on both synthetic and real-life datasets. The simulations reveal that in asynchronous settings, the proposed PAO-Fed is able to achieve the same convergence properties as that of the online federated stochastic gradient while reducing the communication overhead by 98 percent.
翻訳日:2023-03-28 15:05:44 公開日:2023-03-27
# リーマン多様体上のガウス過程によるワンショット特徴保存点雲の単純化

One-shot Feature-Preserving Point Cloud Simplification with Gaussian Processes on Riemannian Manifolds ( http://arxiv.org/abs/2303.15225v1 )

ライセンス: Link先を確認
Stuti Pathak, Thomas M. McDonald, Rudi Penne(参考訳) 大規模ポイントクラウドの処理,ストレージ,送信は,自動運転や仮想現実,リモートセンシングといった現実環境への3dモデルの適用の進展を妨げる,コンピュータビジョンコミュニティの現在進行中の課題である。 本研究では,従来の表面再構成工程を使わずに,点雲の健全な構造特徴と全体形状の両方を保存できる新しい一発点雲簡略化法を提案する。 本手法では、リーマン多様体上で定義された核を持つガウス過程を用い、任意の点クラウド上の曲面変動関数をモデル化する。 グリーディスパーシフィケーションスキームを用いて点を順次選択して元の雲の簡易版を得る。 このスキームで使用される選択基準は、単純化された雲が元の点雲の表面の変化を最もよく表すことを保証している。 本手法をいくつかのベンチマークデータセットで評価し,既存の手法と比較し,経験的性能と計算効率の両面で競合することを示す。

The processing, storage and transmission of large-scale point clouds is an ongoing challenge in the computer vision community which hinders progress in the application of 3D models to real-world settings, such as autonomous driving, virtual reality and remote sensing. We propose a novel, one-shot point cloud simplification method which preserves both the salient structural features and the overall shape of a point cloud without any prior surface reconstruction step. Our method employs Gaussian processes with kernels defined on Riemannian manifolds, allowing us to model the surface variation function across any given point cloud. A simplified version of the original cloud is obtained by sequentially selecting points using a greedy sparsification scheme. The selection criterion used for this scheme ensures that the simplified cloud best represents the surface variation of the original point cloud. We evaluate our method on several benchmark datasets, compare it to a range of existing methods and show that our method is competitive both in terms of empirical performance and computational efficiency.
翻訳日:2023-03-28 15:05:20 公開日:2023-03-27
# デジタルニューロモルフィックプロセッサの箱を開ける : 効果的なアルゴリズム・ハードウエア共同設計に向けて

Open the box of digital neuromorphic processor: Towards effective algorithm-hardware co-design ( http://arxiv.org/abs/2303.15224v1 )

ライセンス: Link先を確認
Guangzhi Tang, Ali Safa, Kevin Shidqi, Paul Detterer, Stefano Traferro, Mario Konijnenburg, Manolis Sifalakis, Gert-Jan van Schaik, Amirreza Yousefzadeh(参考訳) スパースおよびイベント駆動型スパイクニューラルネットワーク(SNN)アルゴリズムは、エネルギー効率の良いエッジコンピューティングの理想的な候補ソリューションである。 しかし、SNNアルゴリズムの複雑さが増大しているため、ハードウェアをループに入れずに計算コストを適切にベンチマークし最適化することは容易ではない。 デジタルニューロモルフィックプロセッサはSNNアルゴリズムのベンチマークに広く採用されているが、そのブラックボックスの性質はアルゴリズムハードウェアの協調最適化に問題がある。 本研究では,SENeCAニューロモルフィックアーキテクチャのニューロン処理命令セットと詳細なエネルギー消費を提示することにより,アルゴリズム設計者のためのデジタルニューロモルフィックプロセッサのブラックボックスを開く。 簡便なベンチマークと最適化のために、ニューロンモデルや学習規則を含むセネカの本質的神経形態成分のエネルギーコストを提供する。 さらに,SENeCAの階層記憶を活用し,既存のニューロモルフィックプロセッサに対して優位性を示す。 ビデオ処理とオンライン学習のためのSNNアルゴリズムのエネルギー効率を示し、アルゴリズム設計を最適化するための作業の可能性を示す。 全体として,アルゴリズム設計者がSNNアルゴリズムを正確にベンチマークし,効率的なアルゴリズムハードウェア共同設計への道を開くための実践的なアプローチを提案する。

Sparse and event-driven spiking neural network (SNN) algorithms are the ideal candidate solution for energy-efficient edge computing. Yet, with the growing complexity of SNN algorithms, it isn't easy to properly benchmark and optimize their computational cost without hardware in the loop. Although digital neuromorphic processors have been widely adopted to benchmark SNN algorithms, their black-box nature is problematic for algorithm-hardware co-optimization. In this work, we open the black box of the digital neuromorphic processor for algorithm designers by presenting the neuron processing instruction set and detailed energy consumption of the SENeCA neuromorphic architecture. For convenient benchmarking and optimization, we provide the energy cost of the essential neuromorphic components in SENeCA, including neuron models and learning rules. Moreover, we exploit the SENeCA's hierarchical memory and exhibit an advantage over existing neuromorphic processors. We show the energy efficiency of SNN algorithms for video processing and online learning, and demonstrate the potential of our work for optimizing algorithm designs. Overall, we present a practical approach to enable algorithm designers to accurately benchmark SNN algorithms and pave the way towards effective algorithm-hardware co-design.
翻訳日:2023-03-28 15:05:02 公開日:2023-03-27
# 生成したデータはニューラルネットワークのパフォーマンスにどの程度影響するか?

How far generated data can impact Neural Networks performance? ( http://arxiv.org/abs/2303.15223v1 )

ライセンス: Link先を確認
Sayeh Gholipour Picha, Dawood AL Chanti, Alice Caplier(参考訳) ディープラーニングモデルの成功は、特定のタスクを解決するためのデータセットのサイズと品質に依存する。 本稿では,ニューラルネットワークの性能向上において,生成データがどのように役立つかを検討する。 そこで本研究では, 表情認識を, 簡単な補足ではなく, 口, まぶたなどの局所的な領域レベルで, 局所的なデータ生成に挑戦する必要があるため, 表情認識を検討する。 Generative Adversarial Networks (GAN) はそのような局所的な変形を生成する代替手法を提供するが、さらなる検証が必要である。 そこで我々は,非複雑畳み込みニューラルネットワーク(CNN)に基づくEkman感情認識のための分類器を検討する。 データ生成プロセスでは、2つのGANを頼りに表情(FE)を生成することを検討する。 第1はランダムなアイデンティティを生成し、第2は顔の変形をその上に課す。 我々は,実顔,GAN生成,および実顔とGAN生成顔の組み合わせを用いて,CNN分類器の訓練を検討する。 我々は、FER精度の向上に最も寄与する実データと混合するデータ生成量に関する上限を決定する。 実験の結果,実データに対する5倍の合成データが精度16%向上することが判明した。

The success of deep learning models depends on the size and quality of the dataset to solve certain tasks. Here, we explore how far generated data can aid real data in improving the performance of Neural Networks. In this work, we consider facial expression recognition since it requires challenging local data generation at the level of local regions such as mouth, eyebrows, etc, rather than simple augmentation. Generative Adversarial Networks (GANs) provide an alternative method for generating such local deformations but they need further validation. To answer our question, we consider noncomplex Convolutional Neural Networks (CNNs) based classifiers for recognizing Ekman emotions. For the data generation process, we consider generating facial expressions (FEs) by relying on two GANs. The first generates a random identity while the second imposes facial deformations on top of it. We consider training the CNN classifier using FEs from: real-faces, GANs-generated, and finally using a combination of real and GAN-generated faces. We determine an upper bound regarding the data generation quantity to be mixed with the real one which contributes the most to enhancing FER accuracy. In our experiments, we find out that 5-times more synthetic data to the real FEs dataset increases accuracy by 16%.
翻訳日:2023-03-28 15:04:41 公開日:2023-03-27
# 距離を知る: 顔分析のための合成データと実データとのギャップを理解する

Knowing the Distance: Understanding the Gap Between Synthetic and Real Data For Face Parsing ( http://arxiv.org/abs/2303.15219v1 )

ライセンス: Link先を確認
Eli Friedman, Assaf Lehr, Alexey Gruzdev, Vladimir Loginov, Max Kogan, Moran Rubin, Orly Zvitia(参考訳) コンピュータビジョンのアルゴリズムを訓練するための合成データの利用は、コスト効率、スケーラビリティ、正確なマルチモダリティラベルを提供する能力により、ますます人気が高まっている。 最近の研究では、合成データのみをトレーニングするネットワークで印象的な結果が得られたが、合成データと実データの間にはフォトリアリズムの欠如に起因するパフォーマンスギャップが残っている。 本研究の目的は,顔解析タスクにおけるギャップをより詳細に検討することである。 分散ギャップ,ラベルギャップ,フォトリアリズムギャップの3つのタイプのギャップを区別する。 以上の結果から,分布ギャップはパフォーマンスギャップの最大の要因であり,50%以上を占めることがわかった。 このギャップに対処し、ラベルギャップを考慮し、合成データに基づいて訓練されたモデルが、同様の量の実データに基づいて訓練されたモデルと同等の結果を得ることを示す。 これは、合成データが実際のデータ、特に実際のデータが限定的または入手が困難である場合に、実際のデータの代替となることを示唆している。 本研究では,合成データセットにおけるコンテンツの多様性の重要性を強調し,フォトリアリズムギャップがコンピュータビジョンモデルの性能に影響を与える最も重要な要因であるという考えに挑戦する。

The use of synthetic data for training computer vision algorithms has become increasingly popular due to its cost-effectiveness, scalability, and ability to provide accurate multi-modality labels. Although recent studies have demonstrated impressive results when training networks solely on synthetic data, there remains a performance gap between synthetic and real data that is commonly attributed to lack of photorealism. The aim of this study is to investigate the gap in greater detail for the face parsing task. We differentiate between three types of gaps: distribution gap, label gap, and photorealism gap. Our findings show that the distribution gap is the largest contributor to the performance gap, accounting for over 50% of the gap. By addressing this gap and accounting for the labels gap, we demonstrate that a model trained on synthetic data achieves comparable results to one trained on a similar amount of real data. This suggests that synthetic data is a viable alternative to real data, especially when real data is limited or difficult to obtain. Our study highlights the importance of content diversity in synthetic datasets and challenges the notion that the photorealism gap is the most critical factor affecting the performance of computer vision models trained on synthetic data.
翻訳日:2023-03-28 15:04:17 公開日:2023-03-27
# 不均衡データに対するXGBoostの評価:フラッド検出への応用

Evaluating XGBoost for Balanced and Imbalanced Data: Application to Fraud Detection ( http://arxiv.org/abs/2303.15218v1 )

ライセンス: Link先を確認
Gissel Velarde, Anindya Sudhir, Sanjay Deshmane, Anuj Deshmunkh, Khushboo Sharma and Vaibhav Joshi(参考訳) 本稿では,データセットのサイズやクラス分布の異なるxgboostの性能を,完全バランスから高度不均衡まで評価する。 XGBoostは、検出性能と速度のために、いくつかのベンチマークで際立っているため、評価のために選択されている。 不正検出の問題を導入した後、本論文は検出システムやバイナリ分類器の評価メトリクスをレビューし、バランスのとれたデータセットに対して、異なるメトリクスがどのように機能するかを例示する。 そして、XGBoostの原理を調べます。 データ準備のためのパイプラインを提案し、Vanilla XGBoostとランダムに検索したXGBoostを比較する。 ランダム検索の微調整は、10万サンプルの大規模なデータセットに対して、それぞれ10万サンプルと1万サンプルの小さなデータセットに対して、一貫した改善を提供する。 さらに、XGBoost認識性能は、より多くのデータが利用可能になると向上し、データセットがより不均衡になるにつれて検出性能が低下する。 50,45,25,5%の正のサンプルによる分布試験では、検出性能の低下が最も多く、正のサンプルはわずか5%であった。 トレーニングセットのバランスを取ることは、一貫した改善を提供しない。 したがって、将来の研究には、データ不均衡に対処するための異なる技術に関する体系的な研究と、ラベルの欠如に対処するために、グラフ、オートエンコーダ、生成的な敵対的手法を含む他のアプローチの評価が含まれる。

This paper evaluates XGboost's performance given different dataset sizes and class distributions, from perfectly balanced to highly imbalanced. XGBoost has been selected for evaluation, as it stands out in several benchmarks due to its detection performance and speed. After introducing the problem of fraud detection, the paper reviews evaluation metrics for detection systems or binary classifiers, and illustrates with examples how different metrics work for balanced and imbalanced datasets. Then, it examines the principles of XGBoost. It proposes a pipeline for data preparation and compares a Vanilla XGBoost against a random search-tuned XGBoost. Random search fine-tuning provides consistent improvement for large datasets of 100 thousand samples, not so for medium and small datasets of 10 and 1 thousand samples, respectively. Besides, as expected, XGBoost recognition performance improves as more data is available, and deteriorates detection performance as the datasets become more imbalanced. Tests on distributions with 50, 45, 25, and 5 percent positive samples show that the largest drop in detection performance occurs for the distribution with only 5 percent positive samples. Sampling to balance the training set does not provide consistent improvement. Therefore, future work will include a systematic study of different techniques to deal with data imbalance and evaluating other approaches, including graphs, autoencoders, and generative adversarial methods, to deal with the lack of labels.
翻訳日:2023-03-28 15:03:56 公開日:2023-03-27
# 第3モードとの分散結合による2つのボソニックポラリトンの絡み合い

Entangling Two Bosonic Polaritons via Dispersive Coupling with a Third Mode ( http://arxiv.org/abs/2303.15217v1 )

ライセンス: Link先を確認
Xuan Zuo, Zhi-Yuan Fan, Hang Qian, Rui-Chang Shen, Jie Li(参考訳) 2つのハイブリッド化(偏光子)モードを形成する2つの強結合ボソニック系を絡む一般的なメカニズムを提供する。 これは第3ボソニックモードとの分散結合によって実現される。 2つのハイブリッドモードがそれぞれ第3のモードで散在する駆動フィールドのサイドバンドと共振する場合と、2つのポラリトンにおける2つのボソニックモードの重みが適切に選択された場合に、静止絡みが達成される。 絡み合いは、系の散逸と浴槽温度に対して堅牢である。 絡み合い理論は非常に一般的であり、キャビティマグノメカニカルやエキシトン-光子-フォノン系のような様々なボソニック系に適用できる。

We provide a general mechanism of entangling two strongly-coupled bosonic systems that form two hybridized (polariton) modes. This is realized by dispersively coupling with a third bosonic mode. Stationary entanglement is achieved when the two hybridized modes are respectively resonant with the sidebands of the drive field scattered by the third mode and when the weights of the two bosonic modes in the two polaritons are appropriately chosen. The entanglement is robust against dissipations of the system and bath temperature. The entanglement theory is quite general and applicable to a variety of bosonic systems, such as cavity magnomechanical and exciton-photon-phonon systems.
翻訳日:2023-03-28 15:03:30 公開日:2023-03-27
# ロバストなリスクアウェアオプションヘッジ

Robust Risk-Aware Option Hedging ( http://arxiv.org/abs/2303.15216v1 )

ライセンス: Link先を確認
David Wu, Sebastian Jaimungal(参考訳) オプションヘッジ/トレーディングの目標は、単に下方リスクに対する保護以上のものであって、利得を求める欲求もまたエージェントの戦略を推進している。 本研究では,経路依存的金融デリバティブに関連するリスクを軽減するための,堅牢なリスクアウェア強化学習(rl)の可能性を示す。 これをjaimungal、pesenti、wang、tatsat(2022年)と、ロバストなリスク対応性能基準を最適化したポリシー勾配アプローチを利用して達成する。 本稿では, この手法をバリアオプションのヘッジに適用し, エージェントがリスク回避からリスク探究へと移行するにつれて, 最適なヘッジ戦略が歪曲することを示す。 エージェントが戦略を強固にする方法です さらに、データ生成プロセス(DGP)がトレーニングDGPと異なる場合のヘッジの性能について検討し、ロバストでないものよりもロバストな戦略が優れていることを示す。

The objectives of option hedging/trading extend beyond mere protection against downside risks, with a desire to seek gains also driving agent's strategies. In this study, we showcase the potential of robust risk-aware reinforcement learning (RL) in mitigating the risks associated with path-dependent financial derivatives. We accomplish this by leveraging the Jaimungal, Pesenti, Wang, Tatsat (2022) and their policy gradient approach, which optimises robust risk-aware performance criteria. We specifically apply this methodology to the hedging of barrier options, and highlight how the optimal hedging strategy undergoes distortions as the agent moves from being risk-averse to risk-seeking. As well as how the agent robustifies their strategy. We further investigate the performance of the hedge when the data generating process (DGP) varies from the training DGP, and demonstrate that the robust strategies outperform the non-robust ones.
翻訳日:2023-03-28 15:03:15 公開日:2023-03-27
# 対称バイマニュアルマニピュレーションのための学習型適応コンプライアンス手法

A Learning-based Adaptive Compliance Method for Symmetric Bi-manual Manipulation ( http://arxiv.org/abs/2303.15262v1 )

ライセンス: Link先を確認
Yuxue Cao and Shengjie Wang and Xiang Zheng and Wenke Ma and Tao Zhang(参考訳) シンメトリバイマニュアル操作は、その強力な負荷容量のため、様々な軌道上の操作に不可欠である。 その結果,適応性とコンプライアンスを向上しつつ,高い操作精度を実現するという課題に注目が集まっている。 しかし、以前の作業では、動作計画とコンプライアンス制御を分離する非効率なアルゴリズムフレームワークに依存していた。 さらに、コンプライアンスコントローラは、手動でパラメータを調整するため、堅牢性に欠ける。 本稿では,対称双方向操作の効率とロバスト性を向上させる学習型適応コンプライアンスアルゴリズム(lac)を提案する。 具体的には、まず、所望の軌道生成とインピーダンスパラメータ調整を組み合わせて効率と堅牢性を向上させる。 第2に,LSTMネットワークを用いたActor-Criticフレームワークを導入し,双方向操作の同期性を向上させる。 LSTMネットワークはエージェントによって得られる力状態を前処理し、コンプライアンス操作の性能をさらに改善する。 両腕協調処理およびペグ・イン・ホール組立実験で評価すると,本手法は最適性とロバスト性の観点からベースラインアルゴリズムより優れている。

Symmetric bi-manual manipulation is essential for various on-orbit operations due to its potent load capacity. As a result, there exists an emerging research interest in the problem of achieving high operation accuracy while enhancing adaptability and compliance. However, previous works relied on an inefficient algorithm framework that separates motion planning from compliant control. Additionally, the compliant controller lacks robustness due to manually adjusted parameters. This paper proposes a novel Learning-based Adaptive Compliance algorithm (LAC) that improves the efficiency and robustness of symmetric bi-manual manipulation. Specifically, first, the algorithm framework combines desired trajectory generation with impedance-parameter adjustment to improve efficiency and robustness. Second, we introduce a centralized Actor-Critic framework with LSTM networks, enhancing the synchronization of bi-manual manipulation. LSTM networks pre-process the force states obtained by the agents, further ameliorating the performance of compliance operations. When evaluated in the dual-arm cooperative handling and peg-in-hole assembly experiments, our method outperforms baseline algorithms in terms of optimality and robustness.
翻訳日:2023-03-28 14:56:11 公開日:2023-03-27
# 運用設計領域を活用した自己適応から自己進化へ

From Self-Adaptation to Self-Evolution Leveraging the Operational Design Domain ( http://arxiv.org/abs/2303.15260v1 )

ライセンス: Link先を確認
Danny Weyns, Jesper Andersson(参考訳) 常に変化する条件下で目標を達成するエンジニアリングの長期実行コンピューティングシステムは、大きな課題を生んでいる。 自己適応は、変化する条件を扱うための実行可能なアプローチであることが示されている。 しかし、自己適応システムの能力は、その運用設計ドメイン(odd)、すなわちシステムが構築された条件(要求、制約、コンテキスト)によって制限される。 新しい目標を追加したり、新しいコンテキストを扱うような変更には、システムの進化が必要です。 システム進化プロセスは大幅に自動化されているが、人間主導のままである。 コンピューティングシステムの複雑さが増大すると、人間による進化は最終的に管理不能になる。 本稿では,ODDの定義を自己適応システムに適用する。 次に、ODDでカバーされていない条件がシステム進化を必要とする理由を説明する。 そこで本研究では,ODDの概念を取り入れた自己進化のための新たなアプローチについて概説する。 自己進化を実現するためのオープンな挑戦で締めくくります。

Engineering long-running computing systems that achieve their goals under ever-changing conditions pose significant challenges. Self-adaptation has shown to be a viable approach to dealing with changing conditions. Yet, the capabilities of a self-adaptive system are constrained by its operational design domain (ODD), i.e., the conditions for which the system was built (requirements, constraints, and context). Changes, such as adding new goals or dealing with new contexts, require system evolution. While the system evolution process has been automated substantially, it remains human-driven. Given the growing complexity of computing systems, human-driven evolution will eventually become unmanageable. In this paper, we provide a definition for ODD and apply it to a self-adaptive system. Next, we explain why conditions not covered by the ODD require system evolution. Then, we outline a new approach for self-evolution that leverages the concept of ODD, enabling a system to evolve autonomously to deal with conditions not anticipated by its initial ODD. We conclude with open challenges to realise self-evolution.
翻訳日:2023-03-28 14:55:55 公開日:2023-03-27
# アクティブな自己監視型学習:必要最低限の関係性

Active Self-Supervised Learning: A Few Low-Cost Relationships Are All You Need ( http://arxiv.org/abs/2303.15256v1 )

ライセンス: Link先を確認
Vivien Cabannes, Leon Bottou, Yann Lecun, Randall Balestriero(参考訳) Self-Supervised Learning (SSL)は、ラベルのないデータから転送可能な表現を学習する選択肢のソリューションとして登場した。 しかし、SSLは意味論的に類似していること、すなわち肯定的なビューで知られているサンプルを構築する必要がある。 このような知識を必要とすることはSSLの主要な制限であり、しばしば同じ入力に既知のデータ拡張を適用するといったアドホック戦略によって取り組まれる。 本研究では,oracle がサンプル間のセマンティック関係を問合せする positive active learning (pal) を通じて,この原則を一般化し,形式化する。 PALは3つの主要な目標を達成する。 まず、SSLを超えて理論的に基礎を成す学習フレームワークを公開し、採用する託宣によって教師付きおよび半教師付き学習に取り組むように拡張する。 第二に、事前知識、例えばいくつかのラベルをトレーニングパイプラインの変更なしにSSL損失に組み込むための一貫したアルゴリズムを提供する。 第3に、アノテートデータセットに対する低コストなソリューションを提供する適切なアクティブラーニングフレームワークを提供し、入力間のセマンティックな関係に関する単純な問合せに基づくアクティブラーニングの理論と実践のギャップを確実に引き起こす。

Self-Supervised Learning (SSL) has emerged as the solution of choice to learn transferable representations from unlabeled data. However, SSL requires to build samples that are known to be semantically akin, i.e. positive views. Requiring such knowledge is the main limitation of SSL and is often tackled by ad-hoc strategies e.g. applying known data-augmentations to the same input. In this work, we generalize and formalize this principle through Positive Active Learning (PAL) where an oracle queries semantic relationships between samples. PAL achieves three main objectives. First, it unveils a theoretically grounded learning framework beyond SSL, that can be extended to tackle supervised and semi-supervised learning depending on the employed oracle. Second, it provides a consistent algorithm to embed a priori knowledge, e.g. some observed labels, into any SSL losses without any change in the training pipeline. Third, it provides a proper active learning framework yielding low-cost solutions to annotate datasets, arguably bringing the gap between theory and practice of active learning that is based on simple-to-answer-by-non-experts queries of semantic relationships between inputs.
翻訳日:2023-03-28 14:55:43 公開日:2023-03-27
# テキスト変換を用いたゼロショット合成画像検索

Zero-Shot Composed Image Retrieval with Textual Inversion ( http://arxiv.org/abs/2303.15247v1 )

ライセンス: Link先を確認
Alberto Baldrati, Lorenzo Agnolucci, Marco Bertini, Alberto Del Bimbo(参考訳) Composed Image Retrieval (CIR) は、2つの画像の違いを記述した参照画像と相対キャプションからなるクエリに基づいてターゲット画像を取得することを目的としている。 CIRのためのデータセットのラベル付けに必要な高い労力とコストは、教師付き学習に依存するため、既存のメソッドの広範の使用を妨げる。 本研究では,ラベル付きトレーニングデータセットを必要とせずにCIRに対処することを目的としたZero-Shot CIR(ZS-CIR)を提案する。 提案手法は,0-Shot composEd imAge Retrieval with textuaL invErsion (SEARLE) と命名され,参照画像の視覚的特徴をCLIPトークン埋め込み空間内の擬ワードトークンにマッピングし,相対的なキャプションと統合する。 ZS-CIRの研究を支援するために、コンテクストにおける共通オブジェクトの合成画像検索データセット(CIRCO)を導入する。 実験により、SEARLEは、CIRタスクの2つの主要なデータセットであるFashionIQとCIRRと、提案されたCIRCOのベースラインよりも優れたパフォーマンスを示すことが示された。 データセット、コード、モデルはhttps://github.com/miccunifi/SEARLEで公開されている。

Composed Image Retrieval (CIR) aims to retrieve a target image based on a query composed of a reference image and a relative caption that describes the difference between the two images. The high effort and cost required for labeling datasets for CIR hamper the widespread usage of existing methods, as they rely on supervised learning. In this work, we propose a new task, Zero-Shot CIR (ZS-CIR), that aims to address CIR without requiring a labeled training dataset. Our approach, named zero-Shot composEd imAge Retrieval with textuaL invErsion (SEARLE), maps the visual features of the reference image into a pseudo-word token in CLIP token embedding space and integrates it with the relative caption. To support research on ZS-CIR, we introduce an open-domain benchmarking dataset named Composed Image Retrieval on Common Objects in context (CIRCO), which is the first dataset for CIR containing multiple ground truths for each query. The experiments show that SEARLE exhibits better performance than the baselines on the two main datasets for CIR tasks, FashionIQ and CIRR, and on the proposed CIRCO. The dataset, the code and the model are publicly available at https://github.com/miccunifi/SEARLE .
翻訳日:2023-03-28 14:55:24 公開日:2023-03-27
# 畳み込みニューラルネットワークを用いた層間ネットワークトレーニングと従来のネットワークトレーニングの比較

Comparison between layer-to-layer network training and conventional network training using Convolutional Neural Networks ( http://arxiv.org/abs/2303.15245v1 )

ライセンス: Link先を確認
Kiran Kumar Ashish Bhyravabhottla and WonSook Lee(参考訳) 特徴: 階層間ネットワークトレーニングと畳み込みニューラルネットワークを用いた従来のネットワークトレーニングの比較 抽象: 畳み込みニューラルネットワーク(CNN)は,データから特徴を抽出する効果から,様々なアプリケーションで広く利用されている。 しかし、CNNのパフォーマンスはアーキテクチャとトレーニングプロセスに大きく依存している。 本研究では,層間学習法を提案し,その性能を従来の訓練法と比較する。 層間トレーニングアプローチでは,初期層の一部を学生ネットワークとして,後期層を教師ネットワークとして扱う。 各トレーニングステップにおいて,教師ネットワークの出力から学習する学生ネットワークを段階的にトレーニングし,その逆を学習する。 トレーニング済みのImageNet重みと通常のCNNモデルなしでVGG16ネットワーク上でこの手法を評価する。 実験の結果, 層間学習法は両モデルの従来の訓練法よりも優れていた。 具体的には,VGG16ネットワークとCNNモデルのテストセットにおいて,従来のトレーニング手法と比較して,層間トレーニングにより高い精度を実現する。 本研究は、CNNにおけるレイヤーワイドトレーニングの重要性を強調し、CNNの精度を向上させるための層間トレーニングが有望なアプローチであることを示す。

Title: Comparison between layer-to-layer network training and conventional network training using Convolutional Neural Networks Abstract: Convolutional neural networks (CNNs) are widely used in various applications due to their effectiveness in extracting features from data. However, the performance of a CNN heavily depends on its architecture and training process. In this study, we propose a layer-to-layer training method and compare its performance with the conventional training method. In the layer-to-layer training approach, we treat a portion of the early layers as a student network and the later layers as a teacher network. During each training step, we incrementally train the student network to learn from the output of the teacher network, and vice versa. We evaluate this approach on a VGG16 network without pre-trained ImageNet weights and a regular CNN model. Our experiments show that the layer-to-layer training method outperforms the conventional training method for both models. Specifically, we achieve higher accuracy on the test set for the VGG16 network and the CNN model using layer-to-layer training compared to the conventional training method. Overall, our study highlights the importance of layer-wise training in CNNs and suggests that layer-to-layer training can be a promising approach for improving the accuracy of CNNs.
翻訳日:2023-03-28 14:54:58 公開日:2023-03-27
# 逆問題に対するvaes混合モデルによる多様体学習

Manifold Learning by Mixture Models of VAEs for Inverse Problems ( http://arxiv.org/abs/2303.15244v1 )

ライセンス: Link先を確認
Giovanni S. Alberti, Johannes Hertrich, Matteo Santacesaria, Silvia Sciutto(参考訳) 生成モデルを用いた超高次元データの多様体の表現は、実際には計算効率が高いことが示されている。 しかし、これはデータ多様体が大域パラメータ化を持つ必要がある。 任意の位相の多様体を表現するために,変分オートエンコーダの混合モデルを学習することを提案する。 ここで、すべてのエンコーダ-デコーダ対は多様体の1つのチャートを表す。 本研究では,モデル重みの最大推定のための損失関数を提案し,チャートと逆数の解析表現を提供するアーキテクチャを選択する。 多様体が学習されると、学習多様体に制限されたデータ忠実度項を最小化することで逆問題の解法に使用する。 生成する最小化問題を解決するために,学習多様体上のリーマン勾配降下アルゴリズムを提案する。 本手法は,画像多様体上のデブラリングおよび電気インピーダンストモグラフィと同様に,低次元トイ例に対する性能を示す。

Representing a manifold of very high-dimensional data with generative models has been shown to be computationally efficient in practice. However, this requires that the data manifold admits a global parameterization. In order to represent manifolds of arbitrary topology, we propose to learn a mixture model of variational autoencoders. Here, every encoder-decoder pair represents one chart of a manifold. We propose a loss function for maximum likelihood estimation of the model weights and choose an architecture that provides us the analytical expression of the charts and of their inverses. Once the manifold is learned, we use it for solving inverse problems by minimizing a data fidelity term restricted to the learned manifold. To solve the arising minimization problem we propose a Riemannian gradient descent algorithm on the learned manifold. We demonstrate the performance of our method for low-dimensional toy examples as well as for deblurring and electrical impedance tomography on certain image manifolds.
翻訳日:2023-03-28 14:54:36 公開日:2023-03-27
# カスケード変分量子固有解法アルゴリズム

Cascaded variational quantum eigensolver algorithm ( http://arxiv.org/abs/2303.15237v1 )

ライセンス: Link先を確認
Daniel Gunlycke, C. Stephen Hellberg, and John P. T. Stenger(参考訳) 本稿では,パラメータ最適化過程において,反復毎に1回ではなく1回の量子回路セットの実行しか必要としないカスケード変分量子固有ソルバアルゴリズムを提案する。 このアルゴリズムにより、量子処理ユニットは必要な全ての確率質量関数を探索し、古典処理ユニットは変分最適化を含む残りの全ての計算を実行する。 アンサッツ形式は解空間を制限せず、対称性やその他の物理的動機付けのある制約を含むパラメータ空間を完全に制御する。

We present a cascaded variational quantum eigensolver algorithm that only requires the execution of a set of quantum circuits once rather than at every iteration during the parameter optimization process, thereby reducing the number of needed circuit executions. This algorithm lets a quantum processing unit probe all the needed probability mass functions and a classical processing unit perform all the remaining calculations, including the variational optimization. The ansatz form does not restrict the solution space and provide full control over the parameter space, including the implementation of symmetry and other physically motivated constraints.
翻訳日:2023-03-28 14:54:24 公開日:2023-03-27
# ゼロショット分類器によるテキスト・画像拡散モデル

Text-to-Image Diffusion Models are Zero-Shot Classifiers ( http://arxiv.org/abs/2303.15233v1 )

ライセンス: Link先を確認
Kevin Clark, Priyank Jaini(参考訳) テキスト間拡散モデルの優れた生成能力は、画像テキストデータの情報表現を学ぶことを示唆している。 しかし、それらの表現がどのような知識を捉えているかは完全には理解されておらず、下流のタスクで徹底的に調べられていない。 拡散モデルをゼロショット分類器として評価する手法を提案する。 重要なアイデアは、ラベルのテキスト記述をそのラベルの確率の代理として与えたノイズ画像に対して拡散モデルの能力を使用することである。 我々はこの手法をImagenに適用し、Imagenの知識のきめ細かい側面を探索し、CLIPのゼロショット能力と比較する。 Imagenは、幅広いゼロショット画像分類データセットでCLIPと競合する。 さらに、形状/テクスチャバイアステストの最先端の結果を達成し、CLIPができない間に属性バインディングをうまく実行できます。 生成前訓練はNLPで一般的であるが、視覚基礎モデルはコントラスト学習などの他の手法を用いることが多い。 以上の結果から,生成的事前学習は,視覚と視覚言語の問題に対する説得力のある代替手段として検討すべきである。

The excellent generative capabilities of text-to-image diffusion models suggest they learn informative representations of image-text data. However, what knowledge their representations capture is not fully understood, and they have not been thoroughly explored on downstream tasks. We investigate diffusion models by proposing a method for evaluating them as zero-shot classifiers. The key idea is using a diffusion model's ability to denoise a noised image given a text description of a label as a proxy for that label's likelihood. We apply our method to Imagen, using it to probe fine-grained aspects of Imagen's knowledge and comparing it with CLIP's zero-shot abilities. Imagen performs competitively with CLIP on a wide range of zero-shot image classification datasets. Additionally, it achieves state-of-the-art results on shape/texture bias tests and can successfully perform attribute binding while CLIP cannot. Although generative pre-training is prevalent in NLP, visual foundation models often use other methods such as contrastive learning. Based on our findings, we argue that generative pre-training should be explored as a compelling alternative for vision and vision-language problems.
翻訳日:2023-03-28 14:53:57 公開日:2023-03-27
# 自動車軌道生成・サロゲート交通安全指標におけるコンピュータビジョン技術の進歩と応用

Advances and Applications of Computer Vision Techniques in Vehicle Trajectory Generation and Surrogate Traffic Safety Indicators ( http://arxiv.org/abs/2303.15231v1 )

ライセンス: Link先を確認
Mohamed Abdel-Aty, Zijin Wang, Ou Zheng, Amr Abdelraouf(参考訳) コンピュータビジョン (cv) 技術の適用は, 交通衝突や近距離ミスの観点からの微視的交通安全分析を大規模に促進する。 しかし,映像処理と交通安全モデリングは2つの異なる研究領域であり,両者のギャップを体系的に埋めることに重点を置いている研究は少ないため,交通研究者や実践者に対応するガイダンスを提供する必要がある。 本研究の目的は,SSMを用いた交通安全モデリングにおけるCV技術の適用の見直しと,今後の最善策を提案することである。 車両の検知と追跡に使用されるCVアルゴリズムを,最先端モデルへの早期アプローチとして高レベルに要約する。 そして、車両軌道抽出のためのビデオ前処理および後処理技術を導入する。 車両軌道データに対するSSMの詳細な検討と交通安全解析への応用について述べる。 最後に、トラヒックビデオ処理とSSMに基づく安全分析の実践的課題について論じ、利用可能な、あるいは潜在的なソリューションについて述べる。 本レビューは, 交通研究者や技術者がビデオ処理に適したcv技術の選択や, 各種交通安全研究目的のssmの利用を支援することを目的としている。

The application of Computer Vision (CV) techniques massively stimulates microscopic traffic safety analysis from the perspective of traffic conflicts and near misses, which is usually measured using Surrogate Safety Measures (SSM). However, as video processing and traffic safety modeling are two separate research domains and few research have focused on systematically bridging the gap between them, it is necessary to provide transportation researchers and practitioners with corresponding guidance. With this aim in mind, this paper focuses on reviewing the applications of CV techniques in traffic safety modeling using SSM and suggesting the best way forward. The CV algorithm that are used for vehicle detection and tracking from early approaches to the state-of-the-art models are summarized at a high level. Then, the video pre-processing and post-processing techniques for vehicle trajectory extraction are introduced. A detailed review of SSMs for vehicle trajectory data along with their application on traffic safety analysis is presented. Finally, practical issues in traffic video processing and SSM-based safety analysis are discussed, and the available or potential solutions are provided. This review is expected to assist transportation researchers and engineers with the selection of suitable CV techniques for video processing, and the usage of SSMs for various traffic safety research objectives.
翻訳日:2023-03-28 14:53:41 公開日:2023-03-27
# 3次元医用画像のメモリ効率処理のための拡散モデル

Diffusion Models for Memory-efficient Processing of 3D Medical Images ( http://arxiv.org/abs/2303.15288v1 )

ライセンス: Link先を確認
Florentin Bieder, Julia Wolleb, Alicia Durrer, Robin Sandk\"uhler, Philippe C. Cattin(参考訳) ノイズ拡散モデルは最近、多くの画像生成タスクで最先端のパフォーマンスを達成している。 しかし、それらは大量の計算資源を必要とする。 これにより、高解像度の3Dデータのような大きな3Dボリュームを扱う医療タスクへの応用が制限される。 本研究では,3次元拡散モデルにおける資源消費を削減し,それを3次元画像のデータセットに適用するための様々な方法を提案する。 本論文の主な貢献は、メモリ効率のよいパッチベース拡散モデル \textit{PatchDDM} であり、これは、パッチのみをトレーニングしながら、推論中に総ボリュームに適用することができる。 提案した拡散モデルは任意の画像生成タスクに適用できるが,BraTS2020データセットの腫瘍分割タスクの手法を評価し,有意義な3次元セグメンテーションを生成できることを実証する。

Denoising diffusion models have recently achieved state-of-the-art performance in many image-generation tasks. They do, however, require a large amount of computational resources. This limits their application to medical tasks, where we often deal with large 3D volumes, like high-resolution three-dimensional data. In this work, we present a number of different ways to reduce the resource consumption for 3D diffusion models and apply them to a dataset of 3D images. The main contribution of this paper is the memory-efficient patch-based diffusion model \textit{PatchDDM}, which can be applied to the total volume during inference while the training is performed only on patches. While the proposed diffusion model can be applied to any image generation tasks, we evaluate the method on the tumor segmentation task of the BraTS2020 dataset and demonstrate that we can generate meaningful three-dimensional segmentations.
翻訳日:2023-03-28 14:47:05 公開日:2023-03-27
# 自動運転のための繰り返しトラバーサルからの教師なし適応

Unsupervised Adaptation from Repeated Traversals for Autonomous Driving ( http://arxiv.org/abs/2303.15286v1 )

ライセンス: Link先を確認
Yurong You, Cheng Perng Phoo, Katie Z Luo, Travis Zhang, Wei-Lun Chao, Bharath Hariharan, Mark Campbell, Kilian Q. Weinberger(参考訳) 自動運転車が確実に動作するためには、その知覚システムはエンドユーザーの環境に一般化する必要があります。 ひとつの潜在的な解決策は、エンドユーザの環境(すなわちターゲットドメイン)から収集されたラベルなしのデータ(例えばラベルなしlidarポイントクラウド)を活用して、トレーニングとテスト環境の違いにシステムを適用することだ。 このような教師なしのドメイン適応問題に関する広範な研究が行われているが、基本的な問題として、対象領域に適応プロセスを監督する信頼できる信号が存在しないことが挙げられる。 この問題を克服するために、繰り返し経路の複数経路から教師なしデータを収集することは容易である。 従来の教師なしのドメイン適応とは異なるが、多くのドライバが同じ道路を共有しているため、この仮定は極めて現実的である。 この単純な追加的な仮定は、ターゲット領域で3d物体検出器を反復的に自己学習できる強力な信号を得るのに十分であることを示す。 具体的には, 領域外検出器を用いた擬似ラベルを生成するが, 移動物体の移動体検出を除去し, 偽陽性を低減させる。 さらに,持続的でない地域での予測を奨励することで,偽陰性を減らす。 2つの大規模運転データセットで実験を行い,車,歩行者,自転車の3次元物体検出において顕著な改善を示し,汎用自動運転への一歩を踏み出した。

For a self-driving car to operate reliably, its perceptual system must generalize to the end-user's environment -- ideally without additional annotation efforts. One potential solution is to leverage unlabeled data (e.g., unlabeled LiDAR point clouds) collected from the end-users' environments (i.e. target domain) to adapt the system to the difference between training and testing environments. While extensive research has been done on such an unsupervised domain adaptation problem, one fundamental problem lingers: there is no reliable signal in the target domain to supervise the adaptation process. To overcome this issue we observe that it is easy to collect unsupervised data from multiple traversals of repeated routes. While different from conventional unsupervised domain adaptation, this assumption is extremely realistic since many drivers share the same roads. We show that this simple additional assumption is sufficient to obtain a potent signal that allows us to perform iterative self-training of 3D object detectors on the target domain. Concretely, we generate pseudo-labels with the out-of-domain detector but reduce false positives by removing detections of supposedly mobile objects that are persistent across traversals. Further, we reduce false negatives by encouraging predictions in regions that are not persistent. We experiment with our approach on two large-scale driving datasets and show remarkable improvement in 3D object detection of cars, pedestrians, and cyclists, bringing us a step closer to generalizable autonomous driving.
翻訳日:2023-03-28 14:46:52 公開日:2023-03-27
# Gazeformer: 目標指向の人間意識のスケーラブルで効果的で高速な予測

Gazeformer: Scalable, Effective and Fast Prediction of Goal-Directed Human Attention ( http://arxiv.org/abs/2303.15274v1 )

ライセンス: Link先を確認
Sounak Mondal, Zhibo Yang, Seoyoung Ahn, Dimitris Samaras, Gregory Zelinsky, Minh Hoai(参考訳) HCI(Human-Computer Interaction)では、人間の視線を予測することが重要である。 しかし、実際にHCIアプリケーションに役立てるためには、視線予測モデルは空間的および時間的視線予測においてスケーラブルで高速で正確でなければならない。 最近のスキャンパス予測モデルは目標指向の注意に焦点を当てている(研究)。 このようなモデルは、すべての可能な対象に対して訓練されたターゲット検出器に依存する共通のアプローチと、トレーニングのための人間の視線データ(どちらもスケーラブルではない)が利用できるため、アプリケーション内で制限される。 これに対し,ZeroGazeと呼ばれるゼロショット学習という新たなタスクを,前例のない対象に対して視線を予測し,新たなモデルであるGazeformerを開発し,ZeroGaze問題を解く。 オブジェクト検出器モジュールを使用する既存の方法とは対照的に、gazeformerはターゲットを自然言語モデルでエンコードし、スキャンパス予測で意味的類似性を利用する。 変換器は文脈表現を生成するのに特に有用であるため,変換器ベースのエンコーダデコーダアーキテクチャを用いる。 gazeformerはzerogaze設定で他のモデルを大きく上回っている。 また、目標現在および目標存在探索タスクの標準視線予測において、既存の目標検出モデルよりも優れている。 パフォーマンスの改善に加えて、Gazeformerは最先端のターゲット表示型ビジュアルサーチモデルよりも5倍以上高速である。

Predicting human gaze is important in Human-Computer Interaction (HCI). However, to practically serve HCI applications, gaze prediction models must be scalable, fast, and accurate in their spatial and temporal gaze predictions. Recent scanpath prediction models focus on goal-directed attention (search). Such models are limited in their application due to a common approach relying on trained target detectors for all possible objects, and the availability of human gaze data for their training (both not scalable). In response, we pose a new task called ZeroGaze, a new variant of zero-shot learning where gaze is predicted for never-before-searched objects, and we develop a novel model, Gazeformer, to solve the ZeroGaze problem. In contrast to existing methods using object detector modules, Gazeformer encodes the target using a natural language model, thus leveraging semantic similarities in scanpath prediction. We use a transformer-based encoder-decoder architecture because transformers are particularly useful for generating contextual representations. Gazeformer surpasses other models by a large margin on the ZeroGaze setting. It also outperforms existing target-detection models on standard gaze prediction for both target-present and target-absent search tasks. In addition to its improved performance, Gazeformer is more than five times faster than the state-of-the-art target-present visual search model.
翻訳日:2023-03-28 14:46:31 公開日:2023-03-27
# 構造化キーポイントプーリングによる統一キーポイントベース行動認識フレームワーク

Unified Keypoint-based Action Recognition Framework via Structured Keypoint Pooling ( http://arxiv.org/abs/2303.15270v1 )

ライセンス: Link先を確認
Ryo Hachiuma, Fumiaki Sato, Taiki Sekii(参考訳) 本稿では,従来のスケルトンベース行動認識に関する3つの制限を同時に扱う。スケルトン検出と追跡誤差,対象行動の多様性の低さ,人的およびフレーム的行動認識である。 アクション認識にはポイントクラウドのディープラーニングパラダイムが導入され、構造化キーポイントプールと呼ばれる新しいディープニューラルネットワークアーキテクチャとともに統一されたフレームワークが提案されている。 提案手法では,各キーポイントが属するインスタンスやフレームなどのデータ構造(骨格に固有の)の事前知識に基づいて,キーポイントの特徴を逐次的に集約し,入力エラーに対する頑健性を実現する。 その制約が少なくトラッキングフリーなアーキテクチャにより、人間の骨格と非人間の物体輪郭からなる時系列のキーポイントを、入力3dポイントクラウドとして効率的に扱うことができ、対象とするアクションの種類を拡張できる。 さらに,構造化キーポイントプールにインスパイアされたポーリングスイッチングトリックを提案する。 このトリックは、トレーニングフェーズと推論フェーズの間のプーリングカーネルを切り替え、ビデオレベルアクションラベルのみを使用して、弱い教師付き方法で人的およびフレーム的アクションを検出する。 この手法により,異なる映像から抽出した複数の点群を混合した新たなデータ拡張が自然に導入できる。 実験では,提案手法の限界に対する効果を包括的に検証し,最先端の骨格に基づく行動認識と時空間的行動ローカライゼーション法より優れていることを示す。

This paper simultaneously addresses three limitations associated with conventional skeleton-based action recognition; skeleton detection and tracking errors, poor variety of the targeted actions, as well as person-wise and frame-wise action recognition. A point cloud deep-learning paradigm is introduced to the action recognition, and a unified framework along with a novel deep neural network architecture called Structured Keypoint Pooling is proposed. The proposed method sparsely aggregates keypoint features in a cascaded manner based on prior knowledge of the data structure (which is inherent in skeletons), such as the instances and frames to which each keypoint belongs, and achieves robustness against input errors. Its less constrained and tracking-free architecture enables time-series keypoints consisting of human skeletons and nonhuman object contours to be efficiently treated as an input 3D point cloud and extends the variety of the targeted action. Furthermore, we propose a Pooling-Switching Trick inspired by Structured Keypoint Pooling. This trick switches the pooling kernels between the training and inference phases to detect person-wise and frame-wise actions in a weakly supervised manner using only video-level action labels. This trick enables our training scheme to naturally introduce novel data augmentation, which mixes multiple point clouds extracted from different videos. In the experiments, we comprehensively verify the effectiveness of the proposed method against the limitations, and the method outperforms state-of-the-art skeleton-based action recognition and spatio-temporal action localization methods.
翻訳日:2023-03-28 14:46:10 公開日:2023-03-27
# 視覚アーチタイプからの手書きテキスト生成

Handwritten Text Generation from Visual Archetypes ( http://arxiv.org/abs/2303.15269v1 )

ライセンス: Link先を確認
Vittorio Pippi, Silvia Cascianelli, Rita Cucchiara(参考訳) 特に目立たないスタイルや新しい単語の場合、手書きテキストの合成画像を生成することは難しい作業であり、さらに後者には訓練中に滅多に遭遇しない文字が含まれている。 作家のスタイルをエミュレートする手法は、最近生成モデルによって取り扱われているが、希少な文字に対する一般化は無視されている。 そこで本研究では,Few-Shotスタイルの手書きテキスト生成のためのトランスフォーマーモデルを提案し,テキストとスタイルの両方の堅牢かつ情報的表現の獲得に焦点をあてる。 特に,標準的なGNUユニフォングリフとして記述されたシンボルの画像から得られた高密度ベクトルの列として,テキスト内容の新たな表現を提案する。 この戦略は、トレーニング中にめったに見られない文字を生成するのに適しており、しばしば観察される文字と視覚的詳細を共有することができる。 スタイルについては,大規模な合成データセット上で特定の事前学習を活用し,見当たらない作家の書の堅牢な表現を得る。 定量的および定性的な結果から,従来の一点符号化方式よりも稀な文字を忠実に生成する上で,提案手法の有効性が示された。

Generating synthetic images of handwritten text in a writer-specific style is a challenging task, especially in the case of unseen styles and new words, and even more when these latter contain characters that are rarely encountered during training. While emulating a writer's style has been recently addressed by generative models, the generalization towards rare characters has been disregarded. In this work, we devise a Transformer-based model for Few-Shot styled handwritten text generation and focus on obtaining a robust and informative representation of both the text and the style. In particular, we propose a novel representation of the textual content as a sequence of dense vectors obtained from images of symbols written as standard GNU Unifont glyphs, which can be considered their visual archetypes. This strategy is more suitable for generating characters that, despite having been seen rarely during training, possibly share visual details with the frequently observed ones. As for the style, we obtain a robust representation of unseen writers' calligraphy by exploiting specific pre-training on a large synthetic dataset. Quantitative and qualitative results demonstrate the effectiveness of our proposal in generating words in unseen styles and with rare characters more faithfully than existing approaches relying on independent one-hot encodings of the characters.
翻訳日:2023-03-28 14:45:45 公開日:2023-03-27
# 知識誘導関係グラフに基づく中国の青銅器の多粒度考古学年代

Multi-Granularity Archaeological Dating of Chinese Bronze Dings Based on a Knowledge-Guided Relation Graph ( http://arxiv.org/abs/2303.15266v1 )

ライセンス: Link先を確認
Rixin Zhou, Jiafu Wei, Qian Zhang, Ruihua Qi, Xi Yang, Chuntao Li(参考訳) 青銅器の考古学的年代測定は、古代中国史研究において重要な役割を担っている。 現在の考古学は、青銅年代測定を行うための訓練された専門家に依存している。 そこで本研究では,高度な深層学習技術と考古学的知識を統合するための学習に基づくアプローチを提案する。 これを実現するために,我々はまず,既存のきめ細かなデータセットよりもリッチな属性情報を含む青銅板の大規模画像データセットを収集した。 第2に,マルチヘッド分類器と知識誘導関係グラフを導入し,属性とding時代との関係を推定する。 第3に, 既存手法との比較実験を行い, その結果から, デート方式が最先端の性能を達成できることを示す。 我々のデータと応用ネットワークは、他の学際的な専門分野に関連するきめ細かな分類研究を充実させることを望んでいる。 使用するデータセットとソースコードは補足資料に含まれており、匿名ポリシーにより提出後に公開されます。 ソースコードとデータは、https://github.com/zhourixin/bronze-dingで入手できる。

The archaeological dating of bronze dings has played a critical role in the study of ancient Chinese history. Current archaeology depends on trained experts to carry out bronze dating, which is time-consuming and labor-intensive. For such dating, in this study, we propose a learning-based approach to integrate advanced deep learning techniques and archaeological knowledge. To achieve this, we first collect a large-scale image dataset of bronze dings, which contains richer attribute information than other existing fine-grained datasets. Second, we introduce a multihead classifier and a knowledge-guided relation graph to mine the relationship between attributes and the ding era. Third, we conduct comparison experiments with various existing methods, the results of which show that our dating method achieves a state-of-the-art performance. We hope that our data and applied networks will enrich fine-grained classification research relevant to other interdisciplinary areas of expertise. The dataset and source code used are included in our supplementary materials, and will be open after submission owing to the anonymity policy. Source codes and data are available at: https://github.com/zhourixin/bronze-Ding.
翻訳日:2023-03-28 14:45:23 公開日:2023-03-27
# Bilex Rx:多言語機械翻訳のための語彙データ拡張

Bilex Rx: Lexical Data Augmentation for Massively Multilingual Machine Translation ( http://arxiv.org/abs/2303.15265v1 )

ライセンス: Link先を確認
Alex Jones, Isaac Caswell, Ishank Saxena, Orhan Firat(参考訳) ニューラルマシン翻訳(NMT)はここ数年で急速に進歩しており、現代のモデルはモノリンガルテキストデータのみを使用して比較的高品質なモデルを実現することができる。 しかし、これらのモデルは、人間にとって最も容易な翻訳の側面を含む、様々な方法で苦戦している。 この研究は、この問題に対処するための安価で豊富な資源を探究する。 本研究は, web-crawled テキストで学習した200言語翻訳モデルを用いて, 実世界におけるバイリンガルlexicaの有効性を検証した。 We present several findings: (1) using lexical data augmentation, we demonstrate sizable performance gains for unsupervised translation; (2) we compare several families of data augmentation, demonstrating that they yield similar improvements, and can be combined for even greater improvements; (3) we demonstrate the importance of carefully curated lexica over larger, noisier ones, especially with larger models; and (4) we compare the efficacy of multilingual lexicon data versus human-translated parallel data. GATITOS(https://github.com/google-research/url-nlp/tree/main/gatitos)をオープンソース化しました。

Neural machine translation (NMT) has progressed rapidly over the past several years, and modern models are able to achieve relatively high quality using only monolingual text data, an approach dubbed Unsupervised Machine Translation (UNMT). However, these models still struggle in a variety of ways, including aspects of translation that for a human are the easiest - for instance, correctly translating common nouns. This work explores a cheap and abundant resource to combat this problem: bilingual lexica. We test the efficacy of bilingual lexica in a real-world set-up, on 200-language translation models trained on web-crawled text. We present several findings: (1) using lexical data augmentation, we demonstrate sizable performance gains for unsupervised translation; (2) we compare several families of data augmentation, demonstrating that they yield similar improvements, and can be combined for even greater improvements; (3) we demonstrate the importance of carefully curated lexica over larger, noisier ones, especially with larger models; and (4) we compare the efficacy of multilingual lexicon data versus human-translated parallel data. Finally, we open-source GATITOS (available at https://github.com/google-research/url-nlp/tree/main/gatitos), a new multilingual lexicon for 26 low-resource languages, which had the highest performance among lexica in our experiments.
翻訳日:2023-03-28 14:45:07 公開日:2023-03-27
# 深部マルチタスク表現学習による手画像からの人物同一性・性別・年齢推定

Joint Person Identity, Gender and Age Estimation from Hand Images using Deep Multi-Task Representation Learning ( http://arxiv.org/abs/2303.15263v1 )

ライセンス: Link先を確認
Nathanael L. Baisa(参考訳) 本稿では,手画像が性的虐待などの重大犯罪の場合にのみ利用可能な情報であることから,犯罪捜査を目的として,手画像から個人のアイデンティティ,性別,年齢を共同で推定するマルチタスク表現学習フレームワークを提案する。 重大犯罪の犯人の手画像から身元,性別,年齢を共同推定するために,最新のディープラーニングアーキテクチャを調査し,その性能を比較した。 データの不均衡を克服し、年齢予測を単純化するために、年齢推定のための年齢グループを作成する。 公開可能な1kハンドデータセット上で,畳み込みベースと変圧器ベースの両方のディープラーニングアーキテクチャの評価と比較を行う。 本研究は, 刑事捜査における手画像から, 同一性だけでなく, 被疑者の性別や年齢など他の属性を効率的に推定することが可能であることを示す。

In this paper, we propose a multi-task representation learning framework to jointly estimate the identity, gender and age of individuals from their hand images for the purpose of criminal investigations since the hand images are often the only available information in cases of serious crime such as sexual abuse. We investigate different up-to-date deep learning architectures and compare their performance for joint estimation of identity, gender and age from hand images of perpetrators of serious crime. To overcome the data imbalance and simplify the age prediction, we create age groups for the age estimation. We make extensive evaluations and comparisons of both convolution-based and transformer-based deep learning architectures on a publicly available 11k hands dataset. Our experimental analysis shows that it is possible to efficiently estimate not only identity but also other attributes such as gender and age of suspects jointly from hand images for criminal investigations, which is crucial in assisting international police forces in the court to identify and convict abusers.
翻訳日:2023-03-28 14:44:44 公開日:2023-03-27
# 情報最大化カリキュラム:専門家の混合学習のためのカリキュラムベースアプローチ

Information Maximizing Curriculum: A Curriculum-Based Approach for Training Mixtures of Experts ( http://arxiv.org/abs/2303.15349v1 )

ライセンス: Link先を確認
Denis Blessing, Onur Celik, Xiaogang Jia, Moritz Reuss, Maximilian Xiling Li, Rudolf Lioutikov, Gerhard Neumann(参考訳) 混合専門家(MoE)は、複数のモードで複雑な条件分布を学習できることで知られている。 しかし、その可能性にもかかわらず、これらのモデルは訓練が難しく、しばしば性能が悪く、その人気は限られている。 我々の仮説では、このアンダーパフォーマンスは、一般的に利用される最大可能性(ML)最適化の結果であり、モデム平均化と局所的な最大値で立ち往生する可能性が高くなる。 そこで本研究では,MoEの各コンポーネントが学習用トレーニングデータのサブセットを選択可能な,新たなカリキュラムベースの混合モデル学習手法を提案する。 このアプローチにより、各コンポーネントの独立的な最適化が可能となり、モジュール化されたアーキテクチャにより、コンポーネントの追加と削除が可能になり、ローカルな最適化の影響を受けにくくなる。 カリキュラムは、MoEで表現されていないモードからデータポイントを無視することができ、モード回避の問題を減らすことができる。 良好なデータカバレッジを実現するために,曲率の最適化とジョイントエントロピーの目標を結合し,この目標の下限を最適化する。 多様なマルチモーダル行動学習タスクに対するカリキュラムベースのアプローチを評価し、MoEモデルと条件付き生成モデルを学ぶための競合する手法よりも優れていることを示す。

Mixtures of Experts (MoE) are known for their ability to learn complex conditional distributions with multiple modes. However, despite their potential, these models are challenging to train and often tend to produce poor performance, explaining their limited popularity. Our hypothesis is that this under-performance is a result of the commonly utilized maximum likelihood (ML) optimization, which leads to mode averaging and a higher likelihood of getting stuck in local maxima. We propose a novel curriculum-based approach to learning mixture models in which each component of the MoE is able to select its own subset of the training data for learning. This approach allows for independent optimization of each component, resulting in a more modular architecture that enables the addition and deletion of components on the fly, leading to an optimization less susceptible to local optima. The curricula can ignore data-points from modes not represented by the MoE, reducing the mode-averaging problem. To achieve a good data coverage, we couple the optimization of the curricula with a joint entropy objective and optimize a lower bound of this objective. We evaluate our curriculum-based approach on a variety of multimodal behavior learning tasks and demonstrate its superiority over competing methods for learning MoE models and conditional generative models.
翻訳日:2023-03-28 14:38:54 公開日:2023-03-27
# Sigmoid Loss for Language Image Pre-Training (英語)

Sigmoid Loss for Language Image Pre-Training ( http://arxiv.org/abs/2303.15343v1 )

ライセンス: Link先を確認
Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer(参考訳) 画像テキスト事前学習のための簡易なペアワイズsgmoid損失を提案する。 ソフトマックス正規化を伴う標準的なコントラスト学習とは異なり、シグモイド損失は画像とテキストのペアのみにのみ依存し、正規化にペアの類似点のグローバルなビューを必要としない。 Sigmoidの損失により、バッチサイズをさらにスケールアップできると同時に、より小さなバッチサイズでもパフォーマンスが向上する。 4つのTPUv4チップで、4kバッチサイズでBase CLIPモデルと20kバッチサイズでLarge LiTモデルをトレーニングでき、後者は2日間で84.5%のImageNetゼロショット精度を実現している。 このバッチサイズと損失のばらつきにより、サンプル対対および正の比率に対する負の影響をさらに研究することができる。 最後に、バッチサイズを最大100万まで極端にプッシュし、バッチサイズの増大によるメリットが急速に減少し、より合理的なバッチサイズである32kが十分であることが分かりました。 我々の研究は、言語イメージ事前学習の品質と効率を改善するためのさらなる研究を動機づけることを願っている。

We propose a simple pairwise sigmoid loss for image-text pre-training. Unlike standard contrastive learning with softmax normalization, the sigmoid loss operates solely on image-text pairs and does not require a global view of the pairwise similarities for normalization. The sigmoid loss simultaneously allows further scaling up the batch size, while also performing better at smaller batch sizes. With only four TPUv4 chips, we can train a Base CLIP model at 4k batch size and a Large LiT model at 20k batch size, the latter achieves 84.5% ImageNet zero-shot accuracy in two days. This disentanglement of the batch size from the loss further allows us to study the impact of examples vs pairs and negative to positive ratio. Finally, we push the batch size to the extreme, up to one million, and find that the benefits of growing batch size quickly diminish, with a more reasonable batch size of 32k being sufficient. We hope our research motivates further explorations in improving the quality and efficiency of language-image pre-training.
翻訳日:2023-03-28 14:38:31 公開日:2023-03-27
# 拡散モデルの連続学習の探求

Exploring Continual Learning of Diffusion Models ( http://arxiv.org/abs/2303.15342v1 )

ライセンス: Link先を確認
Micha{\l} Zaj\k{a}c, Kamil Deja, Anna Kuzina, Jakub M. Tomczak, Tomasz Trzci\'nski, Florian Shkurti, Piotr Mi{\l}o\'s(参考訳) 拡散モデルは、前例のない量のデータに適用した新しいトレーニング手順により、高品質な画像を生成することに成功している。 しかし、スクラッチから拡散モデルを訓練するのは計算コストがかかる。 これは、データ分散が変化する間、計算を再利用しながら、これらのモデルを反復的にトレーニングする可能性を調べる必要性を強調している。 本研究では,この方向への第一歩を踏み出し,拡散モデルの連続学習(cl)特性を評価する。 まず,拡散確率モデル (DDPM) に適用される最も一般的なCL手法をベンチマークし,リハーサル係数を低減した経験リプレイの性能について述べる。 さらに,拡散時間にまたがる多様な挙動を示す,忘れのダイナミクスに関する洞察を提供する。 また,clの評価にbits-per-dimensionメトリックを用いた場合の落とし穴を明らかにする。

Diffusion models have achieved remarkable success in generating high-quality images thanks to their novel training procedures applied to unprecedented amounts of data. However, training a diffusion model from scratch is computationally expensive. This highlights the need to investigate the possibility of training these models iteratively, reusing computation while the data distribution changes. In this study, we take the first step in this direction and evaluate the continual learning (CL) properties of diffusion models. We begin by benchmarking the most common CL methods applied to Denoising Diffusion Probabilistic Models (DDPMs), where we note the strong performance of the experience replay with the reduced rehearsal coefficient. Furthermore, we provide insights into the dynamics of forgetting, which exhibit diverse behavior across diffusion timesteps. We also uncover certain pitfalls of using the bits-per-dimension metric for evaluating CL.
翻訳日:2023-03-28 14:38:10 公開日:2023-03-27
# ByteTrackV2:全検出ボックスを関連づけた2次元・3次元多物体追跡

ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box ( http://arxiv.org/abs/2303.15334v1 )

ライセンス: Link先を確認
Yifu Zhang, Xinggang Wang, Xiaoqing Ye, Wei Zhang, Jincheng Lu, Xiao Tan, Errui Ding, Peize Sun, Jingdong Wang(参考訳) マルチオブジェクトトラッキング(mot)は、ビデオフレーム間の境界ボックスとオブジェクトのアイデンティティを推定することを目的としている。 検出ボックスは2Dおよび3D MOTの基礎となる。 検出スコアが必然的に変化すると、追跡後にオブジェクトが失われる。 本研究では,低スコア検出ボックス内の真のオブジェクトをマイニングする階層的データアソシエーション戦略を提案する。 単純で汎用的なデータアソシエーション戦略は、2Dと3Dの両方で有効性を示す。 3次元のシナリオでは、トラッカーが世界座標の物体速度を予測するのがずっと簡単である。 本稿では,検出した速度をカルマンフィルタに組み込んで,急激な動きと短期的消失の問題に対処する相補的な動き予測戦略を提案する。 ByteTrackV2は、カメラ(56.4% AMOTA)とLiDAR(70.1% AMOTA)の両方でnuScenes 3D MOTリーダーボードをリードしている。 さらに、非パラメトリックであり、様々な検出器と統合することができ、実際のアプリケーションで魅力的である。 ソースコードはhttps://github.com/ifzhang/ByteTrack-V2で公開されている。

Multi-object tracking (MOT) aims at estimating bounding boxes and identities of objects across video frames. Detection boxes serve as the basis of both 2D and 3D MOT. The inevitable changing of detection scores leads to object missing after tracking. We propose a hierarchical data association strategy to mine the true objects in low-score detection boxes, which alleviates the problems of object missing and fragmented trajectories. The simple and generic data association strategy shows effectiveness under both 2D and 3D settings. In 3D scenarios, it is much easier for the tracker to predict object velocities in the world coordinate. We propose a complementary motion prediction strategy that incorporates the detected velocities with a Kalman filter to address the problem of abrupt motion and short-term disappearing. ByteTrackV2 leads the nuScenes 3D MOT leaderboard in both camera (56.4% AMOTA) and LiDAR (70.1% AMOTA) modalities. Furthermore, it is nonparametric and can be integrated with various detectors, making it appealing in real applications. The source code is released at https://github.com/ifzhang/ByteTrack-V2.
翻訳日:2023-03-28 14:37:48 公開日:2023-03-27
# ledを用いたオンチップパスエンタングル単一光子を用いた量子認定乱数の生成

Generation of quantum-certified random numbers using on-chip path-entangled single photons from an LED ( http://arxiv.org/abs/2303.15332v1 )

ライセンス: Link先を確認
Nicol\`o Leone, Stefano Azzini, Sonia Mazzucchi, Valter Moretti, Matteo Sanna, Massimo Borghi, Gioele Piccoli, Martino Bernard, Mher Ghulinyan and Lorenzo Pavesi(参考訳) 単一光子の絡み合いは、単一の光子の2つ以上の自由度が量子力学的に相関する特別なタイプの絡み合いである。 ここでは、商用赤LEDを光源として、単光子パス絡み合った状態を生成し、操作できるフォトニック集積チップ(PIC)を実証する。 Clauser, Horne, Shimony and Holt (CHSH) 形式でベル試験を行い、絡み合いの有無を確認することにより、CHSH相関パラメータの最大値が2.605 \pm 0.004$となる。 これにより、半デバイス独立な量子乱数生成器として、認証された乱数を生成することができる。 認証スキームはベルの不等式違反と実験装置の部分的特徴に基づくもので、入力状態または測定可観測物の特定の形態に関する追加の仮定を導入する必要はない。 最後に、minエントロピーが 33\%$ であることが示される。

Single-photon entanglement is a peculiar type of entanglement in which two or more degrees of freedom of a single photon are correlated quantum-mechanically. Here, we demonstrate a photonic integrated chip (PIC) able to generate and manipulate single-photon path-entangled states, using a commercial red LED as light source. A Bell test, in the Clauser, Horne, Shimony and Holt (CHSH) form, is performed to confirm the presence of entanglement, resulting in a maximum value of the CHSH correlation parameter equal to $2.605 \pm 0.004$. This allows us to use it as an integrated semi-device independent quantum random number generator able to produce certified random numbers. The certification scheme is based on a Bell's inequality violation and on a partial characterization of the experimental setup, without the need of introducing any further assumptions either on the input state or on the particular form of the measurement observables. In the end a min-entropy of $33\%$ is demonstrated.
翻訳日:2023-03-28 14:37:16 公開日:2023-03-27
# 一般化ゼロショット学習のためのプログレッシブセマンティクスとビジュアルの相互適応

Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2303.15322v1 )

ライセンス: Link先を確認
Man Liu, Feng Li, Chunjie Zhang, Yunchao Wei, Huihui Bai, Yao Zhao(参考訳) 一般化ゼロショット学習(GZSL)は、視覚情報と意味情報の間の本質的な相互作用に頼って、目に見えないカテゴリを、目に見えない領域から移行した知識によって識別する。 以前の研究は主に共有属性に対応する領域をローカライズする。 様々な視覚的外観が同じ属性に対応する場合、共有属性は必然的に意味的曖昧さを導入し、正確な意味的・視覚的相互作用の探索を妨げる。 本稿では,2つの意味的視覚変換モジュール(DSVTM)を配置し,属性のプロトタイプと視覚的特徴の対応性を段階的にモデル化し,意味的曖昧さと知識伝達性向上のための意味的視覚的相互適応(PSVMA)ネットワークを構成する。 具体的には、DSVTMは、インスタンス中心のプロトタイプを異なるイメージに適応させるために学習する、インスタンス駆動セマンティックエンコーダを考案した。 セマンティクスモチベーションインスタンスデコーダは、マッチしたペア間の正確なクロスドメインインタラクションを、セマンティクス関連インスタンス適応のために強化し、あいまいな視覚的表現の生成を促進する。 さらに,gzslにおける視クラスに対するバイアスを軽減するために,視クラスと視クラス間の応答一貫性を追求するためにデバイアス損失が提案されている。 PSVMAは、他の最先端の手法と比較して一貫して優れた性能が得られる。 コードはhttps://github.com/manliucoder/psvmaで入手できる。

Generalized Zero-Shot Learning (GZSL) identifies unseen categories by knowledge transferred from the seen domain, relying on the intrinsic interactions between visual and semantic information. Prior works mainly localize regions corresponding to the sharing attributes. When various visual appearances correspond to the same attribute, the sharing attributes inevitably introduce semantic ambiguity, hampering the exploration of accurate semantic-visual interactions. In this paper, we deploy the dual semantic-visual transformer module (DSVTM) to progressively model the correspondences between attribute prototypes and visual features, constituting a progressive semantic-visual mutual adaption (PSVMA) network for semantic disambiguation and knowledge transferability improvement. Specifically, DSVTM devises an instance-motivated semantic encoder that learns instance-centric prototypes to adapt to different images, enabling the recast of the unmatched semantic-visual pair into the matched one. Then, a semantic-motivated instance decoder strengthens accurate cross-domain interactions between the matched pair for semantic-related instance adaption, encouraging the generation of unambiguous visual representations. Moreover, to mitigate the bias towards seen classes in GZSL, a debiasing loss is proposed to pursue response consistency between seen and unseen predictions. The PSVMA consistently yields superior performances against other state-of-the-art methods. Code will be available at: https://github.com/ManLiuCoder/PSVMA.
翻訳日:2023-03-28 14:36:52 公開日:2023-03-27
# 閉ループクープマン演算子近似

Closed-Loop Koopman Operator Approximation ( http://arxiv.org/abs/2303.15318v1 )

ライセンス: Link先を確認
Steven Dahdah and James Richard Forbes(参考訳) クープマン作用素(koopman operator)は、非線形系を状態ベクトルの代わりに無限の昇降関数の集合の観点で見ることによって無限次元線型系として書き直すことができる。 この表現の主な特徴はその線型性であり、既存の線形系理論と互換性がある。 クープマン作用素の有限次元近似は、持ち上げ関数の有限部分集合を選択し、それをデータに適用し、持ち上げ空間における最小二乗問題を解くことにより、実験データから特定することができる。 既存のクープマン演算子近似法はオープンループシステムを特定するために設計されている。 しかし、フィードバックコントローラなしで実験を行うのは現実的または不可能である。 残念なことに、フィードバック制御の導入はシステムの入力と出力の間に相関関係をもたらすため、いくつかのプラントのダイナミクスはコントローラが無視されているかどうかを特定するのが難しい。 本稿では,クローズドループシステムのkoopmanモデルを特定し,コントローラの知識を与えられた植物のkoopmanモデルを抽出する手法を導入することで,この制限に対処する。 これは、システムのクープマン表現の線型性を活用することで達成される。 提案手法は, クープマン演算子同定法の適用性を, より広範なシステムに拡張するものである。 非線形振動を呈する高調波駆動ギヤボックスを用いて,提案手法の有効性を実験的に検証した。

The Koopman operator allows a nonlinear system to be rewritten as an infinite-dimensional linear system by viewing it in terms of an infinite set of lifting functions instead of a state vector. The main feature of this representation is its linearity, making it compatible with existing linear systems theory. A finite-dimensional approximation of the Koopman operator can be identified from experimental data by choosing a finite subset of lifting functions, applying it to the data, and solving a least squares problem in the lifted space. Existing Koopman operator approximation methods are designed to identify open-loop systems. However, it is impractical or impossible to run experiments on some systems without a feedback controller. Unfortunately, the introduction of feedback control results in correlations between the system's input and output, making some plant dynamics difficult to identify if the controller is neglected. This paper addresses this limitation by introducing a method to identify a Koopman model of the closed-loop system, and then extract a Koopman model of the plant given knowledge of the controller. This is accomplished by leveraging the linearity of the Koopman representation of the system. The proposed approach widens the applicability of Koopman operator identification methods to a broader class of systems. The effectiveness of the proposed closed-loop Koopman operator approximation method is demonstrated experimentally using a Harmonic Drive gearbox exhibiting nonlinear vibrations.
翻訳日:2023-03-28 14:36:22 公開日:2023-03-27
# 負のマイニングのための動的指標によるデュアルエンコーダ訓練の改善

Improving Dual-Encoder Training through Dynamic Indexes for Negative Mining ( http://arxiv.org/abs/2303.15311v1 )

ライセンス: Link先を確認
Nicholas Monath, Manzil Zaheer, Kelsey Allen, Andrew McCallum(参考訳) デュアルエンコーダモデルは、現代の分類と検索においてユビキタスである。 このようなデュアルエンコーダのトレーニングには、大きな出力空間上のソフトマックスの分割関数からの勾配の正確な推定が不可欠である。 トレーニング中にデュアルエンコーダモデルパラメータが変化するため、従来の静的近接インデックスの使用は準最適である。 これらの静的インデックス(1)は定期的に高価なインデックスの再構築を必要とし、(2)更新されたモデルパラメータを使用してすべてのターゲットを再エンコードする必要がある。 本稿ではこれらの課題に対処する。 まず,木構造を用いて証明可能な境界でソフトマックスを近似し,木を動的に維持するアルゴリズムを提案する。 第二に、効率の良いNystrom低ランク近似を用いた目標符号化に対する勾配更新の効果を近似する。 2,000万以上のターゲットを持つデータセットに関する実証研究において、我々のアプローチは、オラクル・ブルート力負の採掘に関してエラーを半分に削減する。 さらに,150 倍のアクセラレーションメモリを用いながら,先行技術を超えている。

Dual encoder models are ubiquitous in modern classification and retrieval. Crucial for training such dual encoders is an accurate estimation of gradients from the partition function of the softmax over the large output space; this requires finding negative targets that contribute most significantly ("hard negatives"). Since dual encoder model parameters change during training, the use of traditional static nearest neighbor indexes can be sub-optimal. These static indexes (1) periodically require expensive re-building of the index, which in turn requires (2) expensive re-encoding of all targets using updated model parameters. This paper addresses both of these challenges. First, we introduce an algorithm that uses a tree structure to approximate the softmax with provable bounds and that dynamically maintains the tree. Second, we approximate the effect of a gradient update on target encodings with an efficient Nystrom low-rank approximation. In our empirical study on datasets with over twenty million targets, our approach cuts error by half in relation to oracle brute-force negative mining. Furthermore, our method surpasses prior state-of-the-art while using 150x less accelerator memory.
翻訳日:2023-03-28 14:35:59 公開日:2023-03-27
# 知識発見のための因果スキーマ誘導

Causal schema induction for knowledge discovery ( http://arxiv.org/abs/2303.15381v1 )

ライセンス: Link先を確認
Michael Regan and Jena D. Hwang and Keisuke Sakaguchi and James Pustejovsky(参考訳) 慣れ親しんだ新しい状況を理解するには、典型的には、人間がイベントシーケンスを推論するのに役立つストーリーである因果スキーマに関する一般化を行う。 イベントに関する推論には、イベントインスタンス間で共有される原因と効果の関係を特定することが含まれます。 統計的スキーマ誘導システムは、談話にエンコードされた構造的知識や事象の意味に関連する因果グラフを活用できるが、そのような因果構造を研究するためのリソースは少なく、サイズは限られている。 本研究では,英語ニューステキストの検索強化のための知識発見タスクにスキーマ帰納モデルを適用する方法について検討する。 データ不足の問題を解決するために,時間的,事象的,因果的構造を統合したテキストグラフスキーマユニットの,手作業によるデータセットであるtorquestraを提案する。 データセットを3つの知識発見タスクにベンチマークし、それぞれのモデルの構築と評価を行います。 その結果, 因果構造を利用したシステムは, 語彙のみに頼るのではなく, 類似の因果的意味成分を共有するテキストの同定に有効であることが示唆された。 研究目的でデータセットとモデルを利用可能にしています。

Making sense of familiar yet new situations typically involves making generalizations about causal schemas, stories that help humans reason about event sequences. Reasoning about events includes identifying cause and effect relations shared across event instances, a process we refer to as causal schema induction. Statistical schema induction systems may leverage structural knowledge encoded in discourse or the causal graphs associated with event meaning, however resources to study such causal structure are few in number and limited in size. In this work, we investigate how to apply schema induction models to the task of knowledge discovery for enhanced search of English-language news texts. To tackle the problem of data scarcity, we present Torquestra, a manually curated dataset of text-graph-schema units integrating temporal, event, and causal structures. We benchmark our dataset on three knowledge discovery tasks, building and evaluating models for each. Results show that systems that harness causal structure are effective at identifying texts sharing similar causal meaning components rather than relying on lexical cues alone. We make our dataset and models available for research purposes.
翻訳日:2023-03-28 14:29:15 公開日:2023-03-27
# Hi4D: クローズヒトインタラクションの4次元インスタンスセグメンテーション

Hi4D: 4D Instance Segmentation of Close Human Interaction ( http://arxiv.org/abs/2303.15380v1 )

ライセンス: Link先を確認
Yifei Yin, Chen Guo, Manuel Kaufmann, Juan Jose Zarate, Jie Song, Otmar Hilliges(参考訳) 長時間接触下での物理的に閉じた人間-人間のインタラクションの自動解析のための方法とデータセットであるHi4Dを提案する。 いくつかの接触対象をロバストに分離することは、咬合や複雑な形状のために難しい課題である。 したがって、既存のマルチビューシステムは、通常、近接した被写体の3D表面を単一の接続メッシュに融合する。 この問題に対処するために 一 個別に装着した暗黙のアバター 二 近接した期間を通じてポーズ及び表面を洗練させる交互最適化方式 iii) 融合した生のスキャンを個別のインスタンスに分割する。 これらの例から、20の被験者ペア、100のシーケンス、合計11Kフレームからなる4DテクスチャスキャンのHi4Dデータセットをコンパイルします。 Hi4Dには2Dと3Dにリッチなインタラクション中心アノテーションと、正確に登録されたパラメトリックボディモデルが含まれている。 我々は,このデータセット上で,様々な人間のポーズや形状推定タスクを定義し,それらのベンチマークにおいて最先端の手法による結果を提供する。

We propose Hi4D, a method and dataset for the automatic analysis of physically close human-human interaction under prolonged contact. Robustly disentangling several in-contact subjects is a challenging task due to occlusions and complex shapes. Hence, existing multi-view systems typically fuse 3D surfaces of close subjects into a single, connected mesh. To address this issue we leverage i) individually fitted neural implicit avatars; ii) an alternating optimization scheme that refines pose and surface through periods of close proximity; and iii) thus segment the fused raw scans into individual instances. From these instances we compile Hi4D dataset of 4D textured scans of 20 subject pairs, 100 sequences, and a total of more than 11K frames. Hi4D contains rich interaction-centric annotations in 2D and 3D alongside accurately registered parametric body models. We define varied human pose and shape estimation tasks on this dataset and provide results from state-of-the-art methods on these benchmarks.
翻訳日:2023-03-28 14:28:55 公開日:2023-03-27
# CoDeC: コミュニケーション効率の良い分散型継続的学習

CoDeC: Communication-Efficient Decentralized Continual Learning ( http://arxiv.org/abs/2303.15378v1 )

ライセンス: Link先を確認
Sakshi Choudhary, Sai Aparna Aketi, Gobinda Saha and Kaushik Roy(参考訳) エッジでのトレーニングは、異なる場所で生成された継続的な進化データを活用する。 プライバシの懸念はこの空間的および時間的分散データの共同配置を禁止し、分散されたプライベートデータ上で効率的な継続的学習を可能にするトレーニングアルゴリズムを設計する上で極めて重要である。 分散学習は、空間分散データによるサーバレストレーニングを可能にする。 このような分散学習における基本的な障壁は、エージェント間のモデル更新を通信するための高帯域幅コストである。 さらに、この訓練パラダイムに基づく既存の研究は、以前取得した知識を維持しながら、時間的なタスクのシーケンスを学習するのに本質的に適していない。 本研究では,これらの課題に対処する通信効率の高い分散型連続学習アルゴリズムであるCoDeCを提案する。 我々は、直交勾配予測と分散エージェント間のゴシップ平均化を組み合わせることで、分散学習環境でタスクシーケンスを学習しながら破滅的な忘れを緩和する。 さらに、CoDeCは勾配部分空間に基づく新しいロスレス通信圧縮スキームを含む。 これらの勾配部分空間の基底ベクトルの線形結合として層次勾配を表現し、関連する係数を伝達する。 理論的にはアルゴリズムの収束率を解析し、CoDeCが最小限の忘れを伴って分散連続タスクをうまく学習する実験を通して実証する。 提案手法は,通信コストを最大4.8倍に削減し,アイソ性能を全通信ベースラインとする。

Training at the edge utilizes continuously evolving data generated at different locations. Privacy concerns prohibit the co-location of this spatially as well as temporally distributed data, deeming it crucial to design training algorithms that enable efficient continual learning over decentralized private data. Decentralized learning allows serverless training with spatially distributed data. A fundamental barrier in such distributed learning is the high bandwidth cost of communicating model updates between agents. Moreover, existing works under this training paradigm are not inherently suitable for learning a temporal sequence of tasks while retaining the previously acquired knowledge. In this work, we propose CoDeC, a novel communication-efficient decentralized continual learning algorithm which addresses these challenges. We mitigate catastrophic forgetting while learning a task sequence in a decentralized learning setup by combining orthogonal gradient projection with gossip averaging across decentralized agents. Further, CoDeC includes a novel lossless communication compression scheme based on the gradient subspaces. We express layer-wise gradients as a linear combination of the basis vectors of these gradient subspaces and communicate the associated coefficients. We theoretically analyze the convergence rate for our algorithm and demonstrate through an extensive set of experiments that CoDeC successfully learns distributed continual tasks with minimal forgetting. The proposed compression scheme results in up to 4.8x reduction in communication costs with iso-performance as the full communication baseline.
翻訳日:2023-03-28 14:28:41 公開日:2023-03-27
# AIR-DA:教師なし領域適応物体検出のための逆画像再構成

AIR-DA: Adversarial Image Reconstruction for Unsupervised Domain Adaptive Object Detection ( http://arxiv.org/abs/2303.15377v1 )

ライセンス: Link先を確認
Kunyang Sun, Wei Lin, Haoqin Shi, Zhengming Zhang, Yongming Huang, Horst Bischof(参考訳) 非教師付きドメイン適応型オブジェクト検出は、ラベル豊富なソースドメインからラベルのないターゲットドメインにオブジェクト検出器を適応させる難しい視覚タスクである。 近年の進歩は、特徴抽出器と領域判別器の対角訓練が特徴空間のドメイン不変性をもたらすような対向型ドメインアライメントの有効性を証明している。 しかし、ドメインシフトのため、特に低レベルの機能では、ドメイン識別は容易な作業である。 これにより、ドメイン判別器と特徴抽出器の対向訓練の不均衡が生じる。 本研究では,トレーニングバランスを改善するために補助正則化タスクを導入することにより,ドメインアライメントを改善する。 具体的には,特徴抽出器の対角的訓練を容易にするための正則化器として,AIR(Adversarial Image Reconstruction)を提案する。 さらに,適応性能を高めるため,マルチレベル機能アライメントモジュールを設計する。 提案手法は,提案手法が従来の1段階と2段階の両方において,ほとんどの設定で従来の手法よりも優れていることを示す。

Unsupervised domain adaptive object detection is a challenging vision task where object detectors are adapted from a label-rich source domain to an unlabeled target domain. Recent advances prove the efficacy of the adversarial based domain alignment where the adversarial training between the feature extractor and domain discriminator results in domain-invariance in the feature space. However, due to the domain shift, domain discrimination, especially on low-level features, is an easy task. This results in an imbalance of the adversarial training between the domain discriminator and the feature extractor. In this work, we achieve a better domain alignment by introducing an auxiliary regularization task to improve the training balance. Specifically, we propose Adversarial Image Reconstruction (AIR) as the regularizer to facilitate the adversarial training of the feature extractor. We further design a multi-level feature alignment module to enhance the adaptation performance. Our evaluations across several datasets of challenging domain shifts demonstrate that the proposed method outperforms all previous methods, of both one- and two-stage, in most settings.
翻訳日:2023-03-28 14:28:21 公開日:2023-03-27
# NeUDF:非水密モデル再構成のための多視点画像からの未署名距離場学習

NeUDF: Learning Unsigned Distance Fields from Multi-view Images for Reconstructing Non-watertight Models ( http://arxiv.org/abs/2303.15368v1 )

ライセンス: Link先を確認
Fei Hou, Jukai Deng, Xuhui Chen, Wencheng Wang, Ying He(参考訳) マルチビュー画像からのボリュームレンダリングに基づく3D再構成は近年,主にニューラルレイディアンスフィールド(NeRF)の成功により人気が高まっている。 ニューラルボリュームレンダリングを用いて3次元モデル再構築のための符号付き距離場(SDF)を学習する手法が開発されている。 しかし、SDFベースの手法は非水位モデルを表現することができず、したがって開放境界を捉えることはできない。 本稿では,非水密でテクスチャレスなモデルの再構成に特化して設計された多視点画像から,正確な符号なし距離場(UDF)を学習するための新しいアルゴリズムを提案する。 提案手法はNeUDFと呼ばれ、単純でほぼ偏りのないオクルージョン認識密度関数を導入することで既存のUDF方式の限界に対処する。 さらに、滑らかで微分可能なudf表現が提示され、学習プロセスをより簡単かつ効率的にする。 テクスチャリッチモデルとテクスチャレスモデルの両方の実験は,提案手法のロバスト性と有効性を示し,マルチビュー画像から挑戦的な3dモデルを構築するための有望な解決策である。

Volume rendering-based 3D reconstruction from multi-view images has gained popularity in recent years, largely due to the success of neural radiance fields (NeRF). A number of methods have been developed that build upon NeRF and use neural volume rendering to learn signed distance fields (SDFs) for reconstructing 3D models. However, SDF-based methods cannot represent non-watertight models and, therefore, cannot capture open boundaries. This paper proposes a new algorithm for learning an accurate unsigned distance field (UDF) from multi-view images, which is specifically designed for reconstructing non-watertight, textureless models. The proposed method, called NeUDF, addresses the limitations of existing UDF-based methods by introducing a simple and approximately unbiased and occlusion-aware density function. In addition, a smooth and differentiable UDF representation is presented to make the learning process easier and more efficient. Experiments on both texture-rich and textureless models demonstrate the robustness and effectiveness of the proposed approach, making it a promising solution for reconstructing challenging 3D models from multi-view images.
翻訳日:2023-03-28 14:28:04 公開日:2023-03-27
# 分布シフト下におけるテスト時間適応に関する包括的調査

A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts ( http://arxiv.org/abs/2303.15361v1 )

ライセンス: Link先を確認
Jian Liang and Ran He and Tieniu Tan(参考訳) 機械学習の手法はトレーニング中にロバストなモデルを獲得し、分散シフト下でもサンプルのテストにうまく一般化することを目指している。 しかし、これらの方法はしばしば未知のテスト分布のために性能低下に苦しむ。 新たなパラダイムであるテスト時間適応(tta)は、事前にトレーニングしたモデルをテスト中にラベルなしのデータに適応する可能性を持っている。 このパラダイムの最近の進歩は、推論に先立って自己適応モデルのトレーニングにラベルのないデータを活用するという大きな利点を強調している。 本研究では,TTAをテストタイム(ソースフリー)ドメイン適応,テストタイムバッチ適応,オンラインテストタイム適応,テストタイム事前適応という,いくつかの異なるカテゴリに分けた。 各カテゴリについて、高度なアルゴリズムの包括的分類法を提供し、続いてさまざまな学習シナリオについて論じる。 さらに、TTAの関連応用を分析し、今後の研究に期待できる課題と領域について論じる。 TTAメソッドの包括的なリストは、 \url{https://github.com/tim-learn/awesome-test-time-adaptation} にある。

Machine learning methods strive to acquire a robust model during training that can generalize well to test samples, even under distribution shifts. However, these methods often suffer from a performance drop due to unknown test distributions. Test-time adaptation (TTA), an emerging paradigm, has the potential to adapt a pre-trained model to unlabeled data during testing, before making predictions. Recent progress in this paradigm highlights the significant benefits of utilizing unlabeled data for training self-adapted models prior to inference. In this survey, we divide TTA into several distinct categories, namely, test-time (source-free) domain adaptation, test-time batch adaptation, online test-time adaptation, and test-time prior adaptation. For each category, we provide a comprehensive taxonomy of advanced algorithms, followed by a discussion of different learning scenarios. Furthermore, we analyze relevant applications of TTA and discuss open challenges and promising areas for future research. A comprehensive list of TTA methods can be found at \url{https://github.com/tim-learn/awesome-test-time-adaptation}.
翻訳日:2023-03-28 14:27:43 公開日:2023-03-27
# 1:2非線形量子システムの最適制御と究極境界

Optimal control and ultimate bounds of 1:2 nonlinear quantum systems ( http://arxiv.org/abs/2303.15359v1 )

ライセンス: Link先を確認
Jing-jun Zhu, Kaipeng Liu, Xi Chen and St\'ephane Gu\'erin(参考訳) 最適制御を用いることで、1:2共鳴を含む2レベルおよび3レベルの量子非線形システムの時間(量子速度限界)とエネルギーの究極の境界を確立し、リンクする。 到達不可能な完全反転にもかかわらず、ポントリャーギンの最大原理を用いて、任意の精度で最適な時間、パルス領域、エネルギーを決定する。 3階のKerr項は、共鳴にダイナミクスをロックするためにデチューニングにおいて吸収可能であることを示す。 2段階問題において、与えられた精度に対して最適な$\pi$-pulse 反転の非線形対応を決定する。 3段階問題において,直観的なパルス列は線形のパルス列と類似するが,形状が異なる。 精度の関数として最適時間の(遅い)対数増加を証明した。

Using optimal control, we establish and link the ultimate bounds in time (referred to as quantum speed limit) and energy of two- and three-level quantum nonlinear systems which feature 1:2 resonance. Despite the unreachable complete inversion, by using the Pontryagin maximum principle, we determine the optimal time, pulse area, or energy, for a given arbitrary accuracy. We show that the third-order Kerr terms can be absorbed in the detuning in order to lock the dynamics to the resonance. In the two-level problem, we determine the non-linear counterpart of the optimal $\pi$-pulse inversion for a given accuracy. In the three-level problem, we obtain an intuitive pulse sequence similar to the linear counterpart but with different shapes. We prove the (slow) logarithmic increasing of the optimal time as a function of the accuracy.
翻訳日:2023-03-28 14:27:25 公開日:2023-03-27
# 集中治療ユニットにおけるdeep learning-based early warningの汎用性:回顧的評価

Generalisability of deep learning-based early warning in the intensive care unit: a retrospective empirical evaluation ( http://arxiv.org/abs/2303.15354v1 )

ライセンス: Link先を確認
Patrick Rockenschaub, Adam Hilbert, Tabea Kossen, Falk von Dincklage, Vince Istvan Madai, Dietmar Frey(参考訳) 深層学習(Deep Learning, DL)は、医師が患者状態の悪化を早期に検出するのに役立つ。 DLベースの早期警戒モデルは、訓練を受けた病院ではよく機能するが、新しい病院では信頼性が低い傾向にある。 これにより、大規模なデプロイが難しくなる。 欧米の4つのデータソース(計334,812件)から収集した集中治療データを用いて,死亡,急性腎障害(AKI),敗血症の3つの有害事象に対するDLモデルの信頼性を体系的に評価した。 複数のデータソースを使用するか,トレーニング中の汎用性を明示的に最適化することで,新病院のモデル性能が向上するかを検討した。 モデルでは,死亡率(0.838-0.869),アキ(0.823-0.866),敗血症(0.749-0.824)がトレーニング病院で高かった。 予想通り、新しい病院でのパフォーマンスは、時には-0.200まで低下した。 複数のデータソースをトレーニングに使用することで、パフォーマンス低下を軽減し、マルチソースモデルは最高の単一ソースモデルとほぼ同等のパフォーマンスを実現した。 これは、より多くの病院のデータがトレーニングに利用できるようになるにつれて、モデルのロバスト性が向上し、トレーニングデータで最も適切なデータソースのパフォーマンスと低バウンドなロバスト性が向上することを示唆している。 汎用性を促進する専用方法は,実験における性能を著しく改善することはなかった。

Deep learning (DL) can aid doctors in detecting worsening patient states early, affording them time to react and prevent bad outcomes. While DL-based early warning models usually work well in the hospitals they were trained for, they tend to be less reliable when applied at new hospitals. This makes it difficult to deploy them at scale. Using carefully harmonised intensive care data from four data sources across Europe and the US (totalling 334,812 stays), we systematically assessed the reliability of DL models for three common adverse events: death, acute kidney injury (AKI), and sepsis. We tested whether using more than one data source and/or explicitly optimising for generalisability during training improves model performance at new hospitals. We found that models achieved high AUROC for mortality (0.838-0.869), AKI (0.823-0.866), and sepsis (0.749-0.824) at the training hospital. As expected, performance dropped at new hospitals, sometimes by as much as -0.200. Using more than one data source for training mitigated the performance drop, with multi-source models performing roughly on par with the best single-source model. This suggests that as data from more hospitals become available for training, model robustness is likely to increase, lower-bounding robustness with the performance of the most applicable data source in the training data. Dedicated methods promoting generalisability did not noticeably improve performance in our experiments.
翻訳日:2023-03-28 14:27:14 公開日:2023-03-27
# 量子状態識別に基づく量子インスパイア分類

Quantum-inspired classification based on quantum state discrimination ( http://arxiv.org/abs/2303.15353v1 )

ライセンス: Link先を確認
Emmanuel Zambrini Cruzeiro, Christine De Mol, Serge Massar and Stefano Pironio(参考訳) 量子状態判別の問題に触発された分類タスクに対する量子インスピレーション付きアルゴリズムを提案する。 構成により、これらのアルゴリズムはマルチクラス分類を実行し、過剰フィッティングを防止し、確率出力を生成することができる。 量子コンピュータに実装できるが、ここではそのようなアルゴリズムの古典的な実装に焦点を当てる。 これらの分類器の訓練には半確定プログラミングが含まれる。 また、線形計画法を利用するこれらの分類器の緩和も提示する(しかし、これはもはや量子計測とは解釈できない)。 さらに、かなり良い測定値(pgm)に基づく分類器を検討し、いわゆるカーネルトリック(kernel trick)の類似物を用いてその実装方法を示し、入力状態の任意のコピーでその性能を調べる。 我々はこれらの分類器をMNISTおよびMNIST-1Dデータセット上で評価し、PGMが一般に他の量子インスパイアされた分類器より優れており、標準分類器と互換性があることを示した。

We present quantum-inspired algorithms for classification tasks inspired by the problem of quantum state discrimination. By construction, these algorithms can perform multiclass classification, prevent overfitting, and generate probability outputs. While they could be implemented on a quantum computer, we focus here on classical implementations of such algorithms. The training of these classifiers involves Semi-Definite Programming. We also present a relaxation of these classifiers that utilizes Linear Programming (but that can no longer be interpreted as a quantum measurement). Additionally, we consider a classifier based on the Pretty Good Measurement (PGM) and show how to implement it using an analogue of the so-called Kernel Trick, which allows us to study its performance on any number of copies of the input state. We evaluate these classifiers on the MNIST and MNIST-1D datasets and find that the PGM generally outperforms the other quantum-inspired classifiers and performs comparably to standard classifiers.
翻訳日:2023-03-28 14:26:46 公開日:2023-03-27
# wasserstein知識蒸留による神経話題モデルの改善

Improving Neural Topic Models with Wasserstein Knowledge Distillation ( http://arxiv.org/abs/2303.15350v1 )

ライセンス: Link先を確認
Suman Adhya, Debarshi Kumar Sanyal(参考訳) トピックモデリングは、webおよびデジタルライブラリでドキュメントコレクションを探索するための主要な方法である。 トピックモデリングへの最近のアプローチは、事前訓練された文脈言語モデルと変分オートエンコーダを用いる。 しかし、大きなニューラルトピックモデルはメモリフットプリントがかなり大きい。 本稿では,話題品質を損なうことなく文脈化トピックモデルを圧縮する知識蒸留フレームワークを提案する。 特に, 提案した蒸留の目的は, 教師と学生モデルが生成するソフトラベルの交叉エントロピーを最小化し, 2つのモデルで学習した潜在分布間の2-ワッサーシュタイン距離を最小化することである。 2つの公開データセットで実験したところ、知識蒸留の訓練を受けた学生は、元の学生モデルよりもトピックコヒーレンスをはるかに高く達成し、教師よりもはるかに少ないパラメータを含む教師を超越していることがわかった。 蒸留されたモデルは、トピックコヒーレンスに関する他の競合トピックモデルよりも優れている。

Topic modeling is a dominant method for exploring document collections on the web and in digital libraries. Recent approaches to topic modeling use pretrained contextualized language models and variational autoencoders. However, large neural topic models have a considerable memory footprint. In this paper, we propose a knowledge distillation framework to compress a contextualized topic model without loss in topic quality. In particular, the proposed distillation objective is to minimize the cross-entropy of the soft labels produced by the teacher and the student models, as well as to minimize the squared 2-Wasserstein distance between the latent distributions learned by the two models. Experiments on two publicly available datasets show that the student trained with knowledge distillation achieves topic coherence much higher than that of the original student model, and even surpasses the teacher while containing far fewer parameters than the teacher's. The distilled model also outperforms several other competitive topic models on topic coherence.
翻訳日:2023-03-28 14:26:30 公開日:2023-03-27
# 極低照度条件下での人間の姿勢推定

Human Pose Estimation in Extremely Low-Light Conditions ( http://arxiv.org/abs/2303.15410v1 )

ライセンス: Link先を確認
Sohyun Lee, Jaesung Rim, Boseung Jeong, Geonu Kim, Byungju Woo, Haechan Lee, Sunghyun Cho, Suha Kwak(参考訳) 極低照度画像における人間のポーズ推定について検討する。 この課題は、正確なラベルによる実際の低照度画像の収集が困難であり、予測品質を著しく劣化させた入力が困難である。 最初の問題に対処するために、専用のカメラシステムを開発し、正確なポーズラベルを持つ実際の低照度画像の新しいデータセットを構築する。 当社のカメラシステムでは,データセット内の各低照度画像に,適切なポーズラベリングが可能で,トレーニング時の特権情報として使用される,アライメントされた高照度画像が結合されている。 また,照明条件に敏感な表現を学習するために,特権情報を完全に活用する新しいモデルと新しい訓練戦略を提案する。 提案手法は, 実際の極低照度画像に対して優れた性能を示し, モデルとデータセットの両方が成功に寄与することを示す。

We study human pose estimation in extremely low-light images. This task is challenging due to the difficulty of collecting real low-light images with accurate labels, and severely corrupted inputs that degrade prediction quality significantly. To address the first issue, we develop a dedicated camera system and build a new dataset of real low-light images with accurate pose labels. Thanks to our camera system, each low-light image in our dataset is coupled with an aligned well-lit image, which enables accurate pose labeling and is used as privileged information during training. We also propose a new model and a new training strategy that fully exploit the privileged information to learn representation insensitive to lighting conditions. Our method demonstrates outstanding performance on real extremely low light images, and extensive analyses validate that both of our model and dataset contribute to the success.
翻訳日:2023-03-28 14:19:58 公開日:2023-03-27
# テスト時間変換による分類器のロバスト性向上

Classifier Robustness Enhancement Via Test-Time Transformation ( http://arxiv.org/abs/2303.15409v1 )

ライセンス: Link先を確認
Tsachi Blau, Roy Ganz, Chaim Baskin, Michael Elad and Alex Bronstein(参考訳) 近年,敵対的に訓練された分類器は,知覚整合勾配(PAG)と呼ばれる興味深い性質を示すことが判明している。 PAGは、そのような分類器の勾配が人間の知覚に合わせた意味のある構造を持っていることを示唆している。 対戦訓練は、現在、敵攻撃下での分類堅牢性を達成するための最もよく知られている方法である。 しかしながら、PAG特性は、分類器の堅牢性をさらに向上するために、まだ活用されていない。 本研究では,PAGを利用した新しい防御手法であるTETRA(Classifier Robustness Enhancement Via Test-Time Transformation)を導入し,頑健な分類器の性能を向上させる。 我々の方法は2段階ある。 まず、指定されたターゲットの敵攻撃を通じて入力画像をデータセットの各クラスに修正する。 そして、最も短い距離が真のクラスと関係していると仮定して、修正された各インスタンスとの距離に基づいて入力イメージを分類する。 提案手法は, 各種防衛手法, 分類器アーキテクチャ, データセットに関する広範囲な実験により, 現状の成果を達成し, 請求項の検証を行う。 また、TETRAは、訓練中に見えないものを含む様々な攻撃に対して、識別可能な訓練分類器の精度を高めることができることを実証的に実証した。 具体的には、TETRAを適用すると、CIFAR10、CIFAR100、ImageNetで最大$+23\%$、$+20\%$、$+26\%$が大幅に改善される。

It has been recently discovered that adversarially trained classifiers exhibit an intriguing property, referred to as perceptually aligned gradients (PAG). PAG implies that the gradients of such classifiers possess a meaningful structure, aligned with human perception. Adversarial training is currently the best-known way to achieve classification robustness under adversarial attacks. The PAG property, however, has yet to be leveraged for further improving classifier robustness. In this work, we introduce Classifier Robustness Enhancement Via Test-Time Transformation (TETRA) -- a novel defense method that utilizes PAG, enhancing the performance of trained robust classifiers. Our method operates in two phases. First, it modifies the input image via a designated targeted adversarial attack into each of the dataset's classes. Then, it classifies the input image based on the distance to each of the modified instances, with the assumption that the shortest distance relates to the true class. We show that the proposed method achieves state-of-the-art results and validate our claim through extensive experiments on a variety of defense methods, classifier architectures, and datasets. We also empirically demonstrate that TETRA can boost the accuracy of any differentiable adversarial training classifier across a variety of attacks, including ones unseen at training. Specifically, applying TETRA leads to substantial improvement of up to $+23\%$, $+20\%$, and $+26\%$ on CIFAR10, CIFAR100, and ImageNet, respectively.
翻訳日:2023-03-28 14:19:42 公開日:2023-03-27
# 次元崩壊:低誤差無限ホライゾン予測のための最適測定選択

Dimensionality Collapse: Optimal Measurement Selection for Low-Error Infinite-Horizon Forecasting ( http://arxiv.org/abs/2303.15407v1 )

ライセンス: Link先を確認
Helmuth Naumer and Farzad Kamalabadi(参考訳) 本研究は,遠隔時間ホリゾン予測に最適化されたベクトル値時系列の線形汎関数計測法を提案する。 コストとして予測するためのCram\'{e}r-Rao下限(CRLB)の時間平均トレースによる無限水平問題として逐次線形測定設計の問題を定式化し、解決することにより、最終的な予測アルゴリズムに関係なく最も情報性の高いデータを収集することができる。 自然指数族からの付加雑音による測定に関する理論的結果を導入することにより、局所的な次元減少を導出できる等価な問題を構築する。 この別の定式化は、多くの微分方程式の極限挙動に固有の次元の将来の崩壊に基づいており、予測のためのCRLBの低ランク構造で直接観察することができる。 状態推定のための拡張カルマンフィルタを用いて、近似的動的プログラミングの定式化と提案手法の両方の実装を図示し、システムの折りたたみ次元の関数としてCRLBの線形改善を示す極限サイクルとカオス挙動のシミュレーションシステムにおける結果を示した。

This work introduces a method to select linear functional measurements of a vector-valued time series optimized for forecasting distant time-horizons. By formulating and solving the problem of sequential linear measurement design as an infinite-horizon problem with the time-averaged trace of the Cram\'{e}r-Rao lower bound (CRLB) for forecasting as the cost, the most informative data can be collected irrespective of the eventual forecasting algorithm. By introducing theoretical results regarding measurements under additive noise from natural exponential families, we construct an equivalent problem from which a local dimensionality reduction can be derived. This alternative formulation is based on the future collapse of dimensionality inherent in the limiting behavior of many differential equations and can be directly observed in the low-rank structure of the CRLB for forecasting. Implementations of both an approximate dynamic programming formulation and the proposed alternative are illustrated using an extended Kalman filter for state estimation, with results on simulated systems with limit cycles and chaotic behavior demonstrating a linear improvement in the CRLB as a function of the number of collapsing dimensions of the system.
翻訳日:2023-03-28 14:19:18 公開日:2023-03-27
# 量子ジャンプ軌道の効率的なシミュレーションのためのジルズピーアルゴリズム

A Gillespie algorithm for efficient simulation of quantum jump trajectories ( http://arxiv.org/abs/2303.15405v1 )

ライセンス: Link先を確認
Marco Radaelli, Gabriel T. Landi, Felix C. Binder(参考訳) 量子マスター方程式のジャンプアンラベルリング(jump unravelling)は、オープン量子システムのダイナミクスを突然ジャンプに分解し、ジャンプが起こらないコヒーレントダイナミクスの期間に挟まれる。 これらのジャンプ軌道のシミュレーションは、収束を保証するために非常に小さな時間ステップを必要とするため、計算コストがかかる。 この計算課題は、コヒーレントなハミルトン力学がジャンプに責任を負う散逸的力学と比較して速い状態において増大する。 ここでは,次のジャンプの待ち時間分布を直接構築することにより,この問題を回避したGilespieアルゴリズムの量子バージョンを提案する。 事実上、これはタイムステップの離散化を完全に回避し、代わりにシステムを1回のジャンプから次のジャンプへと継続的に進化させる。 本アルゴリズムを詳細に説明し,関連する制限事例について考察する。 それを説明するために、物理複雑性の増加の4つの例を挙げる。 これらはさらに、アルゴリズムのパフォーマンスを別のアプローチ、すなわち強力なpythonライブラリであるqutipに含まれる広く使われているルーチンと比較するのに役立ちます。 アルゴリズムの効率は大幅に向上し、どのレシエーションが最も顕著かについて議論する。 コードの実装はJuliaとMathematicaで公開されています。

The jump unravelling of a quantum master equation decomposes the dynamics of an open quantum system into abrupt jumps, interspersed by periods of coherent dynamics where no jumps occur. Simulating these jump trajectories is computationally expensive, as it requires very small time steps to ensure convergence. This computational challenge is aggravated in regimes where the coherent, Hamiltonian dynamics are fast compared to the dissipative dynamics responsible for the jumps. Here, we present a quantum version of the Gillespie algorithm that bypasses this issue by directly constructing the waiting time distribution for the next jump to occur. In effect, this avoids the need for timestep discretisation altogether, instead evolving the system continuously from one jump to the next. We describe the algorithm in detail and discuss relevant limiting cases. To illustrate it we include four example applications of increasing physical complexity. These additionally serve to compare the performance of the algorithm to alternative approaches -- namely, the widely-used routines contained in the powerful Python library QuTip. We find significant gains in efficiency for our algorithm and discuss in which regimes these are most pronounced. Publicly available implementations of our code are provided in Julia and Mathematica.
翻訳日:2023-03-28 14:18:53 公開日:2023-03-27
# 拡散モデルにおけるh空間からのトレーニングフリースタイル転送

Training-free Style Transfer Emerges from h-space in Diffusion models ( http://arxiv.org/abs/2303.15403v1 )

ライセンス: Link先を確認
Jaeseok Jeong, Mingi Kwon, Youngjung Uh(参考訳) 拡散モデル(DM)は、様々な領域で高品質な画像を合成する。 しかし、その生成過程の制御は、プロセスの中間変数が厳密に研究されていないため、まだ曖昧である。 近年、スタイルCLIPのようなDMの編集がU-Netのボトルネックとなり、$h$-spaceと名付けられている。 本稿では,dms が本来,画像の内容とスタイルに絡み合った表現を持つことを見出し,その内容が $h$-space に格納され,スキップ接続がスタイルを伝達する。 さらに,生成過程の進行的性質を考慮し,ある画像の内容を他の画像に注入する原理的な方法を提案する。 略して、元の生成過程を考える。 1) ソースコンテンツの特徴を徐々にブレンドすべきである。 2) ブレンド特徴は分布を維持するために正規化されるべきである。 3) コンテントインジェクションによるスキップ接続の変更を校正すべきである。 そして、得られた画像は、画像間翻訳のように、原画像のスタイルとソース内容を有する。 興味深いことに、見当たらないドメインのスタイルにコンテンツを注入することは、調和のようなスタイル転送をもたらす。 我々の知る限り、本手法では、非条件で事前学習した凍結生成ネットワークでのみ、トレーニング不要なフィードフォワード方式の転送を導入する。 コードはhttps://curryjung.github.io/diffstyle/で入手できる。

Diffusion models (DMs) synthesize high-quality images in various domains. However, controlling their generative process is still hazy because the intermediate variables in the process are not rigorously studied. Recently, StyleCLIP-like editing of DMs is found in the bottleneck of the U-Net, named $h$-space. In this paper, we discover that DMs inherently have disentangled representations for content and style of the resulting images: $h$-space contains the content and the skip connections convey the style. Furthermore, we introduce a principled way to inject content of one image to another considering progressive nature of the generative process. Briefly, given the original generative process, 1) the feature of the source content should be gradually blended, 2) the blended feature should be normalized to preserve the distribution, 3) the change of skip connections due to content injection should be calibrated. Then, the resulting image has the source content with the style of the original image just like image-to-image translation. Interestingly, injecting contents to styles of unseen domains produces harmonization-like style transfer. To the best of our knowledge, our method introduces the first training-free feed-forward style transfer only with an unconditional pretrained frozen generative network. The code is available at https://curryjung.github.io/DiffStyle/.
翻訳日:2023-03-28 14:18:35 公開日:2023-03-27
# ズームとアンズームを学ぶ

Learning to Zoom and Unzoom ( http://arxiv.org/abs/2303.15390v1 )

ライセンス: Link先を確認
Chittesh Thavamani, Mengtian Li, Francesco Ferroni, Deva Ramanan(参考訳) モバイルコンピューティング、自律ナビゲーション、AR/VRにおける多くの知覚システムは、特に高解像度の入力画像では難しい厳格な計算制約に直面している。 以前の研究では、タスク関連画像情報を保持しながら計算を減らし、有能な画像領域で「ズームする」非一様ダウンサンプルを提案する。 しかし、2D/3Dオブジェクト検出やセマンティックセグメンテーションのような空間ラベルを持つタスクの場合、そのような歪みは性能を損なう可能性がある。 本研究(lzu)では,入力画像上で「ズームする」こと,空間的特徴を計算すること,変形を反転させる「アンゾム」について述べる。 効率よく微分可能なアンズーム化を実現するために、ズームするワープを、可逆な片方向の双線形写像で近似する。 Lzuは2次元空間入力を持つタスクや2次元空間特徴を持つモデルに適用可能であり、Argoverse-HD上のオブジェクト検出、Cityscapes上のセマンティックセグメンテーション、nuScenesにおけるモノクロ3次元オブジェクト検出など、様々なタスクやデータセットに基づいて、この汎用性を示す。 興味深いことに,高分解能センサデータが利用できない場合でも,lzuは"サンプルアップ"にも使用できる。

Many perception systems in mobile computing, autonomous navigation, and AR/VR face strict compute constraints that are particularly challenging for high-resolution input images. Previous works propose nonuniform downsamplers that "learn to zoom" on salient image regions, reducing compute while retaining task-relevant image information. However, for tasks with spatial labels (such as 2D/3D object detection and semantic segmentation), such distortions may harm performance. In this work (LZU), we "learn to zoom" in on the input image, compute spatial features, and then "unzoom" to revert any deformations. To enable efficient and differentiable unzooming, we approximate the zooming warp with a piecewise bilinear mapping that is invertible. LZU can be applied to any task with 2D spatial input and any model with 2D spatial features, and we demonstrate this versatility by evaluating on a variety of tasks and datasets: object detection on Argoverse-HD, semantic segmentation on Cityscapes, and monocular 3D object detection on nuScenes. Interestingly, we observe boosts in performance even when high-resolution sensor data is unavailable, implying that LZU can be used to "learn to upsample" as well.
翻訳日:2023-03-28 14:18:15 公開日:2023-03-27
# EVA-CLIP:CLIPの大規模訓練技術の改善

EVA-CLIP: Improved Training Techniques for CLIP at Scale ( http://arxiv.org/abs/2303.15389v1 )

ライセンス: Link先を確認
Quan Sun, Yuxin Fang, Ledell Wu, Xinlong Wang, Yue Cao(参考訳) 対照的な言語イメージ事前トレーニング(略してCLIP)は、さまざまなシナリオでその可能性に注目を集めている。 本稿では,CLIPトレーニングの効率と有効性を向上する一連のモデルであるEVA-CLIPを提案する。 提案手法では, 表現学習, 最適化, 拡張のための新しい手法を取り入れ, EVA-CLIP は, パラメータが同じだがトレーニングコストが著しく少ない以前のCLIP モデルと比較して, 優れた性能を実現することができる。 特に、90億サンプルしか見ていない5.0BパラメータのEVA-02-CLIP-E/14+は、ImageNet-1K valで82.0ゼロショットトップ-1の精度を実現しています。 EVA-02-CLIP-L/14+は4億3000万のパラメータと60億のサンプルで、ImageNet-1K valで80.4のゼロショットトップ-1の精度を実現している。 オープンアクセスとオープンリサーチを容易にするため、コミュニティにEVA-CLIPの完全なスイートをhttps://github.com/baaivision/EVA/tree/master/EVA-CLIPでリリースする。

Contrastive language-image pre-training, CLIP for short, has gained increasing attention for its potential in various scenarios. In this paper, we propose EVA-CLIP, a series of models that significantly improve the efficiency and effectiveness of CLIP training. Our approach incorporates new techniques for representation learning, optimization, and augmentation, enabling EVA-CLIP to achieve superior performance compared to previous CLIP models with the same number of parameters but significantly smaller training costs. Notably, our largest 5.0B-parameter EVA-02-CLIP-E/14+ with only 9 billion seen samples achieves 82.0 zero-shot top-1 accuracy on ImageNet-1K val. A smaller EVA-02-CLIP-L/14+ with only 430 million parameters and 6 billion seen samples achieves 80.4 zero-shot top-1 accuracy on ImageNet-1K val. To facilitate open access and open research, we release the complete suite of EVA-CLIP to the community at https://github.com/baaivision/EVA/tree/master/EVA-CLIP.
翻訳日:2023-03-28 14:17:50 公開日:2023-03-27
# 高速放射場のための一般化可能なニューラルボクセル

Generalizable Neural Voxels for Fast Human Radiance Fields ( http://arxiv.org/abs/2303.15387v1 )

ライセンス: Link先を確認
Taoran Yi, Jiemin Fang, Xinggang Wang, Wenyu Liu(参考訳) 移動中の人体を単眼ビデオからのみ自由視点でレンダリングすることは、非常に難しい問題である。 この情報は、視覚とポーズの両方から複雑な人体構造や動きをモデル化するには小さすぎる。 ニューラルレイディアンス場(NeRF)は、新しいビュー合成において大きな力を示し、人体レンダリングに応用されている。 しかし、現在のNeRFベースのほとんどの手法は、トレーニングとレンダリングの両方に多大なコストがかかり、現実のシナリオにおける幅広い応用を妨げる。 本稿では,人間の体の構造をモノクロビデオから非常に早く学習できるレンダリングフレームワークを提案する。 このフレームワークは、ニューラルフィールドとニューラルボクセルを統合して構築されている。 特に、一般化可能な神経ボクセルの集合が構築される。 様々な人体で事前訓練されているため、これらの一般的なボクセルは基本的な骨格を表し、強い幾何学的優先を与えることができる。 微調整プロセスでは、個々のボクセルは、一般的なボクセルを補完する微分テクスチャを学習するために構築される。 これにより、新たな身体の学習を、ほんの数分でさらに加速することができる。 提案手法は,従来手法に比べてトレーニング効率が有意に向上し,レンダリング品質も同等である。 プロジェクトのページはhttps://taoranyi.com/gneuvox にある。

Rendering moving human bodies at free viewpoints only from a monocular video is quite a challenging problem. The information is too sparse to model complicated human body structures and motions from both view and pose dimensions. Neural radiance fields (NeRF) have shown great power in novel view synthesis and have been applied to human body rendering. However, most current NeRF-based methods bear huge costs for both training and rendering, which impedes the wide applications in real-life scenarios. In this paper, we propose a rendering framework that can learn moving human body structures extremely quickly from a monocular video. The framework is built by integrating both neural fields and neural voxels. Especially, a set of generalizable neural voxels are constructed. With pretrained on various human bodies, these general voxels represent a basic skeleton and can provide strong geometric priors. For the fine-tuning process, individual voxels are constructed for learning differential textures, complementary to general voxels. Thus learning a novel body can be further accelerated, taking only a few minutes. Our method shows significantly higher training efficiency compared with previous methods, while maintaining similar rendering quality. The project page is at https://taoranyi.com/gneuvox .
翻訳日:2023-03-28 14:17:30 公開日:2023-03-27
# 偽陰性および偽陽性のない完全および連続等尺不変量による未標識点雲の剛体パターンの認識

Recognizing Rigid Patterns of Unlabeled Point Clouds by Complete and Continuous Isometry Invariants with no False Negatives and no False Positives ( http://arxiv.org/abs/2303.15385v1 )

ライセンス: Link先を確認
Daniel Widdowson, Vitaliy Kurlin(参考訳) 車や他の固体物体のような剛体構造は、しばしばラベルのない点の有限の雲で表される。 これらの点雲の最も自然な同値性は、全ての点間距離を維持する剛体運動または等長法である。 点雲の剛体パターンは、偽陰性(異なる記述を持つ等方性雲)や偽正性(同じ記述を持つ非等方性雲)を伴わない等変記述子(英語版)とも呼ばれる完全等方不変量によってのみ確実に比較できる。 データのノイズと動きは、適切な計量の点の摂動の下で連続的な不変量を探す動機となる。 任意のユークリッド空間における非ラベル雲の最初の連続的完全不変量を提案する。 固定次元に対して、この不変量に対する新しい計量は、多項式時間で点数で計算可能である。

Rigid structures such as cars or any other solid objects are often represented by finite clouds of unlabeled points. The most natural equivalence on these point clouds is rigid motion or isometry maintaining all inter-point distances. Rigid patterns of point clouds can be reliably compared only by complete isometry invariants that can also be called equivariant descriptors without false negatives (isometric clouds having different descriptions) and without false positives (non-isometric clouds with the same description). Noise and motion in data motivate a search for invariants that are continuous under perturbations of points in a suitable metric. We propose the first continuous and complete invariant of unlabeled clouds in any Euclidean space. For a fixed dimension, the new metric for this invariant is computable in a polynomial time in the number of points.
翻訳日:2023-03-28 14:17:10 公開日:2023-03-27
# オンライン分類一覧

List Online Classification ( http://arxiv.org/abs/2303.15383v1 )

ライセンス: Link先を確認
Shay Moran, Ohad Sharon, Iska Tsubari(参考訳) 学習者が複数のラベルのリスト(従来の1つのラベルではなく)を使って予測できるマルチクラスオンライン予測について検討する。 このモデルの学習性は、$b$-ary littlestone次元を使って特徴づける。 この次元は古典的なリトルストーン次元の変種であり、二項誤り木は$(k+1)$-aryミス木に置き換えられ、ここで$k$はリスト内のラベルの数である。 不可知論的設定では、コンパレータクラスがシングルラベル関数かマルチラベル関数か、アルゴリズムが使用するリストのサイズとのトレードオフによって異なるシナリオを探索する。 いくつかのケースでは否定的な後悔を達成でき、それがいつ可能かを完全に特徴づけることができる。 私たちの仕事の一部として、littlestoneのsoaやrosenblattのperceptronといった古典的なアルゴリズムをラベルのリストを使って予測します。 また、Sauer-Shelah-Perles Lemmaのオンライン版を含むリスト学習クラスに対する組合せ結果も確立した。 この結果は、適応仮説(つまり、メモリを持つ関数)を表現できる仮説クラスの一般化と、マージンを持つ線形分類のようなデータ依存的な仮定をモデル化するパターンクラスの枠組みの中で述べられている。

We study multiclass online prediction where the learner can predict using a list of multiple labels (as opposed to just one label in the traditional setting). We characterize learnability in this model using the $b$-ary Littlestone dimension. This dimension is a variation of the classical Littlestone dimension with the difference that binary mistake trees are replaced with $(k+1)$-ary mistake trees, where $k$ is the number of labels in the list. In the agnostic setting, we explore different scenarios depending on whether the comparator class consists of single-labeled or multi-labeled functions and its tradeoff with the size of the lists the algorithm uses. We find that it is possible to achieve negative regret in some cases and provide a complete characterization of when this is possible. As part of our work, we adapt classical algorithms such as Littlestone's SOA and Rosenblatt's Perceptron to predict using lists of labels. We also establish combinatorial results for list-learnable classes, including an list online version of the Sauer-Shelah-Perles Lemma. We state our results within the framework of pattern classes -- a generalization of hypothesis classes which can represent adaptive hypotheses (i.e. functions with memory), and model data-dependent assumptions such as linear classification with margin.
翻訳日:2023-03-28 14:16:55 公開日:2023-03-27
# TextMI:事前学習言語モデルにおける非言語キューの統合のためのマルチモーダル情報のテキスト化

TextMI: Textualize Multimodal Information for Integrating Non-verbal Cues in Pre-trained Language Models ( http://arxiv.org/abs/2303.15430v1 )

ライセンス: Link先を確認
Md Kamrul Hasan, Md Saiful Islam, Sangwu Lee, Wasifur Rahman, Iftekhar Naim, Mohammed Ibrahim Khan, Ehsan Hoque(参考訳) 事前学習された大規模言語モデルは最近、さまざまな言語理解タスクにおいて画期的なパフォーマンスを達成している。 しかし、非言語的特徴(例えば音響的特徴と視覚的特徴)が言語と統合されない限り、同じモデルはマルチモーダルな行動理解タスク(例えば、ビデオ感情/ハンプター検出)には適用できない。 複数のモダリティを共同でモデリングすることで、モデルの複雑さが大幅に向上し、トレーニングプロセスがデータ格納化される。 大量のテキストデータはWebから入手できるが、時間とお金の両面で、大規模なマルチモーダルな行動ビデオデータセットの収集は非常に高価である。 本稿では,テキスト形式で提示された場合,大規模言語モデルだけで非言語情報を取り込むことができるか検討する。 本稿では,音声情報と視覚情報を対応するテキスト記述に変換し,音声テキストと結合する手法を提案する。 我々は、この強化された入力を事前訓練されたBERTモデルに入力し、3つの下流マルチモーダルタスク(感情、ユーモア、皮肉検出)で微調整する。 提案手法であるtextmiは,モデルの複雑さを著しく低減し,モデルの判断に解釈性を高めるとともに,優れた(マルチモーダル・サーカズム検出)やsoma(multimodal sentiment analysis and multimodal humor detection)性能を実現しながら,さまざまなタスクに適用することができる。 本稿では,マルチモーダル行動分析タスク,特に低リソース環境における全般的かつ競争力の高いベースラインとしてtextmiを提案する。

Pre-trained large language models have recently achieved ground-breaking performance in a wide variety of language understanding tasks. However, the same model can not be applied to multimodal behavior understanding tasks (e.g., video sentiment/humor detection) unless non-verbal features (e.g., acoustic and visual) can be integrated with language. Jointly modeling multiple modalities significantly increases the model complexity, and makes the training process data-hungry. While an enormous amount of text data is available via the web, collecting large-scale multimodal behavioral video datasets is extremely expensive, both in terms of time and money. In this paper, we investigate whether large language models alone can successfully incorporate non-verbal information when they are presented in textual form. We present a way to convert the acoustic and visual information into corresponding textual descriptions and concatenate them with the spoken text. We feed this augmented input to a pre-trained BERT model and fine-tune it on three downstream multimodal tasks: sentiment, humor, and sarcasm detection. Our approach, TextMI, significantly reduces model complexity, adds interpretability to the model's decision, and can be applied for a diverse set of tasks while achieving superior (multimodal sarcasm detection) or near SOTA (multimodal sentiment analysis and multimodal humor detection) performance. We propose TextMI as a general, competitive baseline for multimodal behavioral analysis tasks, particularly in a low-resource setting.
翻訳日:2023-03-28 14:10:46 公開日:2023-03-27
# JAWS: ニューラルラジアンス分野におけるシネマティックトランスファーのためのワイルドショット

JAWS: Just A Wild Shot for Cinematic Transfer in Neural Radiance Fields ( http://arxiv.org/abs/2303.15427v1 )

ライセンス: Link先を確認
Xi Wang, Robin Courant, Jinglei Shi, Eric Marchand, Marc Christie(参考訳) 本稿では,映像クリップから新たに生成されたクリップへの映像特徴のロバストな移動を実現する最適化駆動アプローチであるjawsを提案する。 この目的のために、我々は暗黙の神経表現(INR)を用いて、参照クリップと同じ映画的特徴を共有するクリップを計算する。 本稿では,外部カメラパラメータと固有カメラパラメータを時間とともに計算するINRにおいて,カメラ最適化問題の一般化を提案する。 神経表現の微分可能性を活用することで,提案する映画パラメータに直接nerfネットワークを介して,プロキシ推定器で測定した映像ロスをバックプロパゲートすることができる。 また、全体的な品質と効率を改善するためのガイダンスマップなどの具体的な拡張も導入しています。 その結果、映像からよく知られたカメラシーケンスを再現し、フレーミング、カメラパラメータ、生成したビデオクリップのタイミングを調整し、参照クリップとの類似性を最大化することができる。

This paper presents JAWS, an optimization-driven approach that achieves the robust transfer of visual cinematic features from a reference in-the-wild video clip to a newly generated clip. To this end, we rely on an implicit-neural-representation (INR) in a way to compute a clip that shares the same cinematic features as the reference clip. We propose a general formulation of a camera optimization problem in an INR that computes extrinsic and intrinsic camera parameters as well as timing. By leveraging the differentiability of neural representations, we can back-propagate our designed cinematic losses measured on proxy estimators through a NeRF network to the proposed cinematic parameters directly. We also introduce specific enhancements such as guidance maps to improve the overall quality and efficiency. Results display the capacity of our system to replicate well known camera sequences from movies, adapting the framing, camera parameters and timing of the generated video clip to maximize the similarity with the reference clip.
翻訳日:2023-03-28 14:10:18 公開日:2023-03-27
# 量子プロセッサ上での可逆ワームホールダイナミクス」へのコメント

Comment on "Comment on "Traversable wormhole dynamics on a quantum processor" " ( http://arxiv.org/abs/2303.15423v1 )

ライセンス: Link先を確認
Daniel Jafferis, Alexander Zlokapa, Joseph D. Lykken, David K. Kolchmeyer, Samantha I. Davis, Nikolai Lauk, Hartmut Neven and Maria Spiropulu(参考訳) 1, arXiv:2302.07897]のコメントは、キーポイント上の[2]と一致している。 一 実験的に観察されたテレポーテーションの微視的メカニズムは、大きさの巻線であり、 二 テレポーテーションの際、システムを熱してスクランブルする。 これらの性質は、後期の力学とは対照的に、テレポーテーションダイナミクスの重力的解釈と一致する。 [1] の異議は、実験的に実装されたプロトコルの外での反事実的シナリオに関するものである。

We observe that the comment of [1, arXiv:2302.07897] is consistent with [2] on key points: i) the microscopic mechanism of the experimentally observed teleportation is size winding and ii) the system thermalizes and scrambles at the time of teleportation. These properties are consistent with a gravitational interpretation of the teleportation dynamics, as opposed to the late-time dynamics. The objections of [1] concern counterfactual scenarios outside of the experimentally implemented protocol.
翻訳日:2023-03-28 14:10:03 公開日:2023-03-27
# KPEval: キーワード抽出・生成システムのきめ細かいセマンティック評価を目指して

KPEval: Towards Fine-grained Semantic-based Evaluation of Keyphrase Extraction and Generation Systems ( http://arxiv.org/abs/2303.15422v1 )

ライセンス: Link先を確認
Di Wu, Da Yin, Kai-Wei Chang(参考訳) キーフレーズ抽出法やキーフレーズ生成法の進歩にもかかわらず、評価のための主要なアプローチは、人間の参照との正確なマッチングと参照なし属性の無視にのみ依存する。 このスキームは、実用性のある参照やキーフレーズと意味的に等価なキーフレーズを生成するシステムを認識するのに失敗する。 異なるキーフレーズシステムの強みと弱みをよりよく理解するために,我々は,自然性,忠実性,敬礼,範囲,多様性,実用性という6つの重要な次元からなる総合的な評価フレームワークを提案する。 それぞれの次元について,評価目的に合致したデシデラタとセマンティクスベースのメトリクスの設計について論じる。 厳密なメタ評価研究は、我々の評価戦略が、以前使用されていた指標よりも人間の嗜好と相関していることを示している。 この枠組みを用いて18個のキーフレーズシステムを再評価し,(1)事前学習した言語モデルが最良となる場合,(2)ダウンストリームタスクの実用性が基準ベースのメトリクスと常に相関するとは限らないこと,(3)大きな言語モデルが参照フリー評価において強力な性能を示すこと,の2つを見出した。

Despite the significant advancements in keyphrase extraction and keyphrase generation methods, the predominant approach for evaluation only relies on exact matching with human references and disregards reference-free attributes. This scheme fails to recognize systems that generate keyphrases that are semantically equivalent to the references or keyphrases that have practical utility. To better understand the strengths and weaknesses of different keyphrase systems, we propose a comprehensive evaluation framework consisting of six critical dimensions: naturalness, faithfulness, saliency, coverage, diversity, and utility. For each dimension, we discuss the desiderata and design semantic-based metrics that align with the evaluation objectives. Rigorous meta-evaluation studies demonstrate that our evaluation strategy correlates better with human preferences compared to a range of previously used metrics. Using this framework, we re-evaluate 18 keyphrase systems and further discover that (1) the best model differs in different dimensions, with pre-trained language models achieving the best in most dimensions; (2) the utility in downstream tasks does not always correlate well with reference-based metrics; and (3) large language models exhibit a strong performance in reference-free evaluation.
翻訳日:2023-03-28 14:09:56 公開日:2023-03-27
# ACAT:医療画像の分類と検出のための対人的対人的注意

ACAT: Adversarial Counterfactual Attention for Classification and Detection in Medical Imaging ( http://arxiv.org/abs/2303.15421v1 )

ライセンス: Link先を確認
Alessandro Fontanella, Antreas Antoniou, Wenwen Li, Joanna Wardlaw, Grant Mair, Emanuele Trucco, Amos Storkey(参考訳) 一部の医療画像のタスクや、画像の小さな部分だけが分類タスクに役に立つような設定では、伝統的なcnnは時々一般化に苦労することがある。 手動で注釈付けされた関心領域(ROI)は、画像の最も情報性の高い部分を分離するために使われることがある。 しかし、これらは収集に高価であり、アノテータによって大きく異なる可能性がある。 これらの課題を克服するために,画像特徴を異なるスケールで変調するソフト空間アテンションマスクを得るために,サリエンシマップを用いたフレームワークを提案する。 本稿では,この手法を,AAT(Adversarial Counterfactual Attention)と呼ぶ。 ACATは、脳CTスキャンの病変の基準分類精度を71.39%から72.55%に引き上げ、肺CTスキャンの新型コロナウイルス関連所見を67.71%から70.84%に引き上げ、競合する方法よりも高い。 我々は,我々のアーキテクチャで採用するサリエンシーマップを生成する最善の方法を調査し,敵対的に生成された対物画像からそれを取得する方法を提案する。 手動アノテーションを使わずに、脳と肺のctスキャンに興味のある領域を分離することができる。 6つの可能な領域の病変位置をローカライズする作業において、彼らは65.05%のスコアを脳CTで取得し、最高の競合法で得られる61.29%のスコアを改善した。

In some medical imaging tasks and other settings where only small parts of the image are informative for the classification task, traditional CNNs can sometimes struggle to generalise. Manually annotated Regions of Interest (ROI) are sometimes used to isolate the most informative parts of the image. However, these are expensive to collect and may vary significantly across annotators. To overcome these issues, we propose a framework that employs saliency maps to obtain soft spatial attention masks that modulate the image features at different scales. We refer to our method as Adversarial Counterfactual Attention (ACAT). ACAT increases the baseline classification accuracy of lesions in brain CT scans from 71.39% to 72.55% and of COVID-19 related findings in lung CT scans from 67.71% to 70.84% and exceeds the performance of competing methods. We investigate the best way to generate the saliency maps employed in our architecture and propose a way to obtain them from adversarially generated counterfactual images. They are able to isolate the area of interest in brain and lung CT scans without using any manual annotations. In the task of localising the lesion location out of 6 possible regions, they obtain a score of 65.05% on brain CT scans, improving the score of 61.29% obtained with the best competing method.
翻訳日:2023-03-28 14:09:34 公開日:2023-03-27
# CQMに基づく組合せ問題の解法と薬物設計への応用

A CQM-based approach to solving a combinatorial problem with applications in drug design ( http://arxiv.org/abs/2303.15419v1 )

ライセンス: Link先を確認
B. Maurice Benson, Victoria M. Ingman, Abhay Agarwal, Shahar Keinan(参考訳) D-WaveのLeap Hybrid solverの使用は、Knapsack最適化問題の解決において、ダイナーの制約に合う固定メニューから食事の組み合わせを見つけることで実証されている。 これは、最適化問題をCQM(Constrained Quadratic Model)として初めて定式化し、量子アニーラーに送信することで実現される。 ここでは、必要なステップと実装されたコードを強調し、ChickenとWaffleのレストランメニューからのソリューションを提供します。 さらに、このモデルがどのように一般化され、多くの複雑でしばしば矛盾する構造と性質の制約のある大きな探索空間内で最適な薬物分子を見つけるかについて議論する。

The use of D-Wave's Leap Hybrid solver is demonstrated here in solving a Knapsack optimization problem: finding meal combinations from a fixed menu that fit a diner's constraints. This is done by first formulating the optimization problem as a Constrained Quadratic Model (CQM) and then submitting it to a quantum annealer. We highlight here the steps needed, as well as the implemented code, and provide solutions from a Chicken and Waffle restaurant menu. Additionally, we discuss how this model may be generalized to find optimal drug molecules within a large search space with many complex, and often contradictory, structures and property constraints.
翻訳日:2023-03-28 14:09:10 公開日:2023-03-27
# 単一のぼやけた画像から3次元ハンドメッシュシーケンスを復元する:新しいデータセットと時間展開

Recovering 3D Hand Mesh Sequence from a Single Blurry Image: A New Dataset and Temporal Unfolding ( http://arxiv.org/abs/2303.15417v1 )

ライセンス: Link先を確認
Yeonguk Oh, JoonKyu Park, Jaeha Kim, Gyeongsik Moon, Kyoung Mu Lee(参考訳) 身体の最もダイナミックな部分の1つである手は、その活発な動きのためにぼやけている。 しかし,従来の3次元手メッシュ復元手法は,ぼやけた手画像を提供するデータセットが存在しないため,ぼやけを考慮せず,シャープな手画像に重点を置いている。 まず,3次元基底構造を持つぼやけた手画像を含む新しいデータセットBlurHandを提示する。 ぼかしハンドは、連続したシャープな手画像から動きのぼやけを合成し、リアルで自然な動きのぼやけを模倣する。 新しいデータセットに加えて、ぼやけた手画像から正確な3次元手メッシュを復元するためのベースラインネットワークであるBlurHandNetを提案する。 我々のBlurHandNetは、ぼやけた入力画像を3Dハンドメッシュシーケンスに展開して、ぼやけた入力画像の時間情報を利用する。 実験では,ぼやけた画像から3Dハンドメッシュを回収するためのBlurHandの有用性を示した。 提案するbraghandnetは,野次馬内画像によく一般化しながら,ぼやけた画像に対してはるかに堅牢な結果を生成する。 トレーニングコードとBlurHandデータセットはhttps://github.com/JaehaKim97/BlurHand_RELEASEで公開されている。

Hands, one of the most dynamic parts of our body, suffer from blur due to their active movements. However, previous 3D hand mesh recovery methods have mainly focused on sharp hand images rather than considering blur due to the absence of datasets providing blurry hand images. We first present a novel dataset BlurHand, which contains blurry hand images with 3D groundtruths. The BlurHand is constructed by synthesizing motion blur from sequential sharp hand images, imitating realistic and natural motion blurs. In addition to the new dataset, we propose BlurHandNet, a baseline network for accurate 3D hand mesh recovery from a blurry hand image. Our BlurHandNet unfolds a blurry input image to a 3D hand mesh sequence to utilize temporal information in the blurry input image, while previous works output a static single hand mesh. We demonstrate the usefulness of BlurHand for the 3D hand mesh recovery from blurry images in our experiments. The proposed BlurHandNet produces much more robust results on blurry images while generalizing well to in-the-wild images. The training codes and BlurHand dataset are available at https://github.com/JaehaKim97/BlurHand_RELEASE.
翻訳日:2023-03-28 14:08:57 公開日:2023-03-27
# 学習可能なオブジェクト中心グローバル最適化による3次元映像オブジェクト検出

3D Video Object Detection with Learnable Object-Centric Global Optimization ( http://arxiv.org/abs/2303.15416v1 )

ライセンス: Link先を確認
Jiawei He, Yuntao Chen, Naiyan Wang, Zhaoxiang Zhang(参考訳) 本研究では3次元映像オブジェクト検出のための時間的視覚対応に基づく長期的最適化について検討する。 視覚対応とは、複数の画像にまたがるピクセルの1対1マッピングを指す。 対応性に基づく最適化は3次元シーン再構成の基盤となるが,移動物体が複数ビューの幾何学的制約に反し,シーン再構成の際には外れ値として扱われるため,3次元ビデオオブジェクト検出においてあまり研究されていない。 通信方式の最適化において,オブジェクトを第一級市民として扱うことでこの問題に対処する。 本研究では,対象中心時間対応学習と特徴量オブジェクトバンドル調整を備えた,エンドツーエンドの最適化可能な物体検出器ba-detを提案する。 実験により,複数のベースライン3D検出器におけるBA-Detの有効性と有効性を検証する。 我々のBA-Detは,大規模Waymo Open Dataset(WOD)上でのSOTA性能を限界計算コストのみで達成している。 私たちのコードはhttps://github.com/jiaweihe1996/ba-detで利用可能です。

We explore long-term temporal visual correspondence-based optimization for 3D video object detection in this work. Visual correspondence refers to one-to-one mappings for pixels across multiple images. Correspondence-based optimization is the cornerstone for 3D scene reconstruction but is less studied in 3D video object detection, because moving objects violate multi-view geometry constraints and are treated as outliers during scene reconstruction. We address this issue by treating objects as first-class citizens during correspondence-based optimization. In this work, we propose BA-Det, an end-to-end optimizable object detector with object-centric temporal correspondence learning and featuremetric object bundle adjustment. Empirically, we verify the effectiveness and efficiency of BA-Det for multiple baseline 3D detectors under various setups. Our BA-Det achieves SOTA performance on the large-scale Waymo Open Dataset (WOD) with only marginal computation cost. Our code is available at https://github.com/jiaweihe1996/BA-Det.
翻訳日:2023-03-28 14:08:35 公開日:2023-03-27
# 学習可能なグラフマッチング: データアソシエーションのための実践的パラダイム

Learnable Graph Matching: A Practical Paradigm for Data Association ( http://arxiv.org/abs/2303.15414v1 )

ライセンス: Link先を確認
Jiawei He, Zehao Huang, Naiyan Wang, Zhaoxiang Zhang(参考訳) データアソシエーションは、複数のオブジェクト追跡、画像マッチング、ポイントクラウド登録など、多くのコンピュータビジョンタスクの中核にある。 既存の手法は通常、ネットワークフローの最適化、二部間マッチング、エンドツーエンドの学習によってデータアソシエーション問題を解決する。 彼らの人気にもかかわらず、現在のソリューションにはいくつかの欠点がある。それらは主にビュー内コンテキスト情報を無視している。また、エンドツーエンドでディープアソシエーションモデルをトレーニングするか、最適化ベースの割り当てメソッドの利点をほとんど利用していないか、あるいは、オフ・ザ・シェルフのニューラルネットワークを使用して機能を抽出する。 本稿では,これらの問題に対処するために,一般学習可能なグラフマッチング手法を提案する。 特に、ビュー内関係を無向グラフとしてモデル化する。 そして、データアソシエーションはグラフ間の一般的なグラフマッチング問題となる。 さらに、エンドツーエンドの微分を可能にするため、元のグラフマッチング問題を2次連続プログラミングに緩和し、KKT条件と暗黙関数定理を備えたディープグラフニューラルネットワークにトレーニングを組み込む。 MOTタスクでは,複数のMOTデータセット上での最先端性能を実現する。 画像マッチングでは,一般的な屋内データセットであるscannet上で,半分のトレーニングデータとイテレーションで最先端の手法を上回っている。 コードはhttps://github.com/jiaweihe1996/gmtrackerで入手できる。

Data association is at the core of many computer vision tasks, e.g., multiple object tracking, image matching, and point cloud registration. Existing methods usually solve the data association problem by network flow optimization, bipartite matching, or end-to-end learning directly. Despite their popularity, we find some defects of the current solutions: they mostly ignore the intra-view context information; besides, they either train deep association models in an end-to-end way and hardly utilize the advantage of optimization-based assignment methods, or only use an off-the-shelf neural network to extract features. In this paper, we propose a general learnable graph matching method to address these issues. Especially, we model the intra-view relationships as an undirected graph. Then data association turns into a general graph matching problem between graphs. Furthermore, to make optimization end-to-end differentiable, we relax the original graph matching problem into continuous quadratic programming and then incorporate training into a deep graph neural network with KKT conditions and implicit function theorem. In MOT task, our method achieves state-of-the-art performance on several MOT datasets. For image matching, our method outperforms state-of-the-art methods with half training data and iterations on a popular indoor dataset, ScanNet. Code will be available at https://github.com/jiaweihe1996/GMTracker.
翻訳日:2023-03-28 14:08:21 公開日:2023-03-27
# ロバストテキスト3次元生成のための2次元拡散のデバイアススコアとプロンプト

Debiasing Scores and Prompts of 2D Diffusion for Robust Text-to-3D Generation ( http://arxiv.org/abs/2303.15413v1 )

ライセンス: Link先を確認
Susung Hong, Donghoon Ahn, Seungryong Kim(参考訳) スコア蒸留テキストから3d生成におけるビューの不整合問題は、二次元拡散モデルの固有バイアスから生じており、3dオブジェクトの非現実的な生成に繋がる。 本研究では,スコア蒸留テキストから3次元生成を探索し,ジャヌス問題の主な原因を明らかにする。 そこで本研究では,ロバストなテキスト対3d生成のためのスコア蒸留フレームワークを分離する2つの手法を提案する。 我々の最初のアプローチはスコアデバイアスと呼ばれ、最適化プロセスを通して2次元拡散モデルによって推定されるスコアのトランケーション値を徐々に増加させる。 プロンプトデバイアスと呼ばれる2つ目のアプローチでは,言語モデルを用いたユーザプロンプトとビュープロンプトの相反する単語を特定し,ビュープロンプトとオブジェクト空間カメラのポーズの相違を調整する。 実験の結果,2次元拡散モデルに対する忠実性と3次元一貫性のトレードオフを,少ないオーバーヘッドで達成し,現実主義を改善できることがわかった。

The view inconsistency problem in score-distilling text-to-3D generation, also known as the Janus problem, arises from the intrinsic bias of 2D diffusion models, which leads to the unrealistic generation of 3D objects. In this work, we explore score-distilling text-to-3D generation and identify the main causes of the Janus problem. Based on these findings, we propose two approaches to debias the score-distillation frameworks for robust text-to-3D generation. Our first approach, called score debiasing, involves gradually increasing the truncation value for the score estimated by 2D diffusion models throughout the optimization process. Our second approach, called prompt debiasing, identifies conflicting words between user prompts and view prompts utilizing a language model and adjusts the discrepancy between view prompts and object-space camera poses. Our experimental results show that our methods improve realism by significantly reducing artifacts and achieve a good trade-off between faithfulness to the 2D diffusion models and 3D consistency with little overhead.
翻訳日:2023-03-28 14:07:59 公開日:2023-03-27
# swiftformer:transformerベースのリアルタイムモバイルビジョンアプリケーションのための効率的な付加的注意

SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications ( http://arxiv.org/abs/2303.15446v1 )

ライセンス: Link先を確認
Abdelrahman Shaker, Muhammad Maaz, Hanoona Rasheed, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan(参考訳) セルフアテンションは、様々なビジョンアプリケーションにおけるグローバルなコンテキストを捉えるためのデファクトの選択肢となっている。 しかしながら、画像解像度に関する2次計算の複雑さは、リアルタイムアプリケーション、特にリソース制約のあるモバイルデバイスへのデプロイにおいての使用を制限する。 畳み込みと自己アテンションの利点を併用して、より高速なトレードオフを実現するハイブリッドアプローチが提案されているが、自己アテンションにおける高価な行列乗算演算はボトルネックのままである。 本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。 我々の設計では、キーと値の相互作用は精度を犠牲にすることなく線形層に置き換えることができる。 従来の最先端手法とは異なり,ネットワークのあらゆる段階において,効率的な自己注意の定式化が可能となる。 提案する効率的な付加的注意を駆使して,精度とモバイル推論速度の両面で最先端のパフォーマンスを実現する"swiftformer"と呼ばれるモデルを構築した。 私たちの小さなバージョンは、iphone 14でわずか0.8msのレイテンシで78.5%のimagenet-1k精度を達成し、mobilevit-v2よりも2倍高速です。 コード: https://github.com/amshaker/swiftformer

Self-attention has become a defacto choice for capturing global context in various vision applications. However, its quadratic computational complexity with respect to image resolution limits its use in real-time applications, especially for deployment on resource-constrained mobile devices. Although hybrid approaches have been proposed to combine the advantages of convolutions and self-attention for a better speed-accuracy trade-off, the expensive matrix multiplication operations in self-attention remain a bottleneck. In this work, we introduce a novel efficient additive attention mechanism that effectively replaces the quadratic matrix multiplication operations with linear element-wise multiplications. Our design shows that the key-value interaction can be replaced with a linear layer without sacrificing any accuracy. Unlike previous state-of-the-art methods, our efficient formulation of self-attention enables its usage at all stages of the network. Using our proposed efficient additive attention, we build a series of models called "SwiftFormer" which achieves state-of-the-art performance in terms of both accuracy and mobile inference speed. Our small variant achieves 78.5% top-1 ImageNet-1K accuracy with only 0.8 ms latency on iPhone 14, which is more accurate and 2x faster compared to MobileViT-v2. Code: https://github.com/Amshaker/SwiftFormer
翻訳日:2023-03-28 14:01:06 公開日:2023-03-27
# IRFL:図形言語の画像認識

IRFL: Image Recognition of Figurative Language ( http://arxiv.org/abs/2303.15445v1 )

ライセンス: Link先を確認
Ron Yosef, Yonatan Bitton, Dafna Shahaf(参考訳) メタファー、シミュレート、イディオムのような表現の図は、言語が表現力を持ち、感情を呼び起こし、それ以外は可視化が難しい抽象的な考えを伝えることを可能にする。 これらの比定形はしばしばテキストや画像などの複数のモードを通じて伝達され、広告、ニュース、ソーシャルメディアなどで頻繁に現れる。 マルチモーダル・フィギュラティブ言語を理解することは人間のコミュニケーションの重要な要素であり、日々のコミュニケーションにおいて重要な役割を果たす。 人間は直感的に多モーダルな図形言語を理解することができるが、これはドメイン、抽象、常識、深い言語と文化の知識をマッピングする認知能力を必要とする機械にとって難しい課題となる。 本研究では,フィギュラブル言語に対する視覚と言語モデルの理解を調べるために,フィギュラブル言語データセットの画像認識を提案する。 人間のアノテーションと自動パイプラインを利用して、マルチモーダルデータセットを生成し、マルチモーダル図形理解のためのベンチマークとして2つの新しいタスクを導入する。 いくつかのベースラインモデルで実験を行い、すべての性能が人間よりはるかに悪いことを発見した。 当社のデータセットとベンチマークが,フィギュラブル言語をより理解するためのモデルの開発を促進することを願っています。

Figures of speech such as metaphors, similes, and idioms allow language to be expressive, invoke emotion, and communicate abstract ideas that might otherwise be difficult to visualize. These figurative forms are often conveyed through multiple modes, such as text and images, and frequently appear in advertising, news, social media, etc. Understanding multimodal figurative language is an essential component of human communication, and it plays a significant role in our daily interactions. While humans can intuitively understand multimodal figurative language, this poses a challenging task for machines that requires the cognitive ability to map between domains, abstraction, commonsense, and profound language and cultural knowledge. In this work, we propose the Image Recognition of Figurative Language dataset to examine vision and language models' understanding of figurative language. We leverage human annotation and an automatic pipeline we created to generate a multimodal dataset and introduce two novel tasks as a benchmark for multimodal figurative understanding. We experiment with several baseline models and find that all perform substantially worse than humans. We hope our dataset and benchmark will drive the development of models that will better understand figurative language.
翻訳日:2023-03-28 14:00:43 公開日:2023-03-27
# 量子マルチモデルフィッティング

Quantum Multi-Model Fitting ( http://arxiv.org/abs/2303.15444v1 )

ライセンス: Link先を確認
Matteo Farina and Luca Magri and Willi Menapace and Elisa Ricci and Vladislav Golyanik and Federica Arrigoni(参考訳) 幾何学的モデルフィッティングは難しいが基本的なコンピュータビジョンの問題である。 近年、量子最適化は単一モデルの場合のロバスト適合性を高めつつ、マルチモデル適合性の問題も解き放たれていることが示されている。 この課題に対して,本論文では,後者のケースが量子ハードウェアの利点を大いに生かし,マルチモデルフィッティング(MMF)への最初の量子アプローチを提案する。 目的関数を緩和することなく、現代の断熱量子コンピュータで効率的にサンプルできる問題としてmmfを定式化する。 また,実世界の課題に対応する反復的・分解的手法を提案する。 実験評価の結果,様々なデータセットで有望な結果が得られた。 ソースコードはhttps://github.com/farinamatteo/qmmf。

Geometric model fitting is a challenging but fundamental computer vision problem. Recently, quantum optimization has been shown to enhance robust fitting for the case of a single model, while leaving the question of multi-model fitting open. In response to this challenge, this paper shows that the latter case can significantly benefit from quantum hardware and proposes the first quantum approach to multi-model fitting (MMF). We formulate MMF as a problem that can be efficiently sampled by modern adiabatic quantum computers without the relaxation of the objective function. We also propose an iterative and decomposed version of our method, which supports real-world-sized problems. The experimental evaluation demonstrates promising results on a variety of datasets. The source code is available at: https://github.com/FarinaMatteo/qmmf.
翻訳日:2023-03-28 14:00:23 公開日:2023-03-27
# GeoNet: 地理にまたがる教師なし適応のベンチマーク

GeoNet: Benchmarking Unsupervised Adaptation across Geographies ( http://arxiv.org/abs/2303.15443v1 )

ライセンス: Link先を確認
Tarun Kalluri, Wangdong Xu, Manmohan Chandraker(参考訳) 近年では、訓練中に見えない領域や環境に対する視覚モデルの堅牢性向上を目的としている。 重要な実用的問題は、トレーニングデータセットに未表示の新しい地理にデプロイされたモデルに関するもので、公平で包括的なコンピュータビジョンへの直接的な挑戦となる。 本稿では,地理的ロバスト性の問題を調査し,三つの主な貢献を行う。 まず,画像認識(geoplaces),画像分類(geoimnet),ユニバーサル適応(geounida)といった様々なタスクのベンチマークを含む,地理的適応のための大規模データセットジオネットを提案する。 第2に,地理的適応の問題に典型的な分布シフトの性質と,領域シフトの主な発生源が,シーンコンテキスト(コンテキストシフト),オブジェクト設計(デザインシフト),ラベル分布(プライオリシフト)の大幅な変化から生じると仮定する。 第3に,GeoNetにおける最先端の教師なしドメイン適応アルゴリズムとアーキテクチャの広範な評価を行い,地理的適応には適さないこと,大規模ビジョンモデルを用いた大規模事前学習が地理的ロバスト性にも寄与しないことを示す。 私たちのデータセットはhttps://tarun005.github.io/GeoNetで公開されています。

In recent years, several efforts have been aimed at improving the robustness of vision models to domains and environments unseen during training. An important practical problem pertains to models deployed in a new geography that is under-represented in the training dataset, posing a direct challenge to fair and inclusive computer vision. In this paper, we study the problem of geographic robustness and make three main contributions. First, we introduce a large-scale dataset GeoNet for geographic adaptation containing benchmarks across diverse tasks like scene recognition (GeoPlaces), image classification (GeoImNet) and universal adaptation (GeoUniDA). Second, we investigate the nature of distribution shifts typical to the problem of geographic adaptation and hypothesize that the major source of domain shifts arise from significant variations in scene context (context shift), object design (design shift) and label distribution (prior shift) across geographies. Third, we conduct an extensive evaluation of several state-of-the-art unsupervised domain adaptation algorithms and architectures on GeoNet, showing that they do not suffice for geographical adaptation, and that large-scale pre-training using large vision models also does not lead to geographic robustness. Our dataset is publicly available at https://tarun005.github.io/GeoNet.
翻訳日:2023-03-28 14:00:10 公開日:2023-03-27
# ゼロショットモデル診断

Zero-shot Model Diagnosis ( http://arxiv.org/abs/2303.15441v1 )

ライセンス: Link先を確認
Jinqi Luo, Zhaoning Wang, Chen Henry Wu, Dong Huang, Fernando De la Torre(参考訳) ディープビジョンモデルを展開する場合、これらのシステムの振る舞いは、信頼性と公正性を保証するために説明可能である必要があります。 ディープラーニングモデルを評価する一般的なアプローチは、関心のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することだ。 しかしながら、バランスのとれたテストセット(すなわち、すべての重要な特性に対して一様にサンプリングされるテストセット)の作成には、しばしば時間がかかり、コストがかかり、ミスが発生しやすい。 私たちは、アノテートされたテストセットなしで、任意の視覚的属性に対するディープラーニングモデルの感度を評価することができますか? 本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。 テストセットの必要性を回避するため,本システムは生成モデルとCLIPに依存している。 鍵となるアイデアは、ユーザが一連のプロンプト(問題と関連)を選択できるようにすることであり、生成モデルを用いて意味的反事実画像(バイナリ分類器の場合の予測を反転させる合成画像)を自動的に検索する。 我々は,複数の視覚領域における複数の視覚タスク(分類,キーポイント検出,セグメンテーション)を評価し,方法論の有効性を実証する。 広範な実験により,本手法は偽画像を生成することができ,テストセットを必要とせず,モデル診断に感度解析を提供できることを示した。

When it comes to deploying deep vision models, the behavior of these systems must be explicable to ensure confidence in their reliability and fairness. A common approach to evaluate deep learning models is to build a labeled test set with attributes of interest and assess how well it performs. However, creating a balanced test set (i.e., one that is uniformly sampled over all the important traits) is often time-consuming, expensive, and prone to mistakes. The question we try to address is: can we evaluate the sensitivity of deep learning models to arbitrary visual attributes without an annotated test set? This paper argues the case that Zero-shot Model Diagnosis (ZOOM) is possible without the need for a test set nor labeling. To avoid the need for test sets, our system relies on a generative model and CLIP. The key idea is enabling the user to select a set of prompts (relevant to the problem) and our system will automatically search for semantic counterfactual images (i.e., synthesized images that flip the prediction in the case of a binary classifier) using the generative model. We evaluate several visual tasks (classification, key-point detection, and segmentation) in multiple visual domains to demonstrate the viability of our methodology. Extensive experiments demonstrate that our method is capable of producing counterfactual images and offering sensitivity analysis for model diagnosis without the need for a test set.
翻訳日:2023-03-28 13:59:47 公開日:2023-03-27
# EFEM:Scene Supervisionのない3次元物体分割のための等価ニューラルネットワーク期待値の最大化

EFEM: Equivariant Neural Field Expectation Maximization for 3D Object Segmentation Without Scene Supervision ( http://arxiv.org/abs/2303.15440v1 )

ライセンス: Link先を確認
Jiahui Lei and Congyue Deng and Karl Schmeckpeper and Leonidas Guibas and Kostas Daniilidis(参考訳) Equivariant Neural Field expectation Maximization (EFEM) は、シンプルな、効果的で、ロバストな幾何学的アルゴリズムで、アノテーションやシーンでのトレーニングなしに3Dシーンにオブジェクトを分割できる。 このような教師なしセグメンテーションは,単一のオブジェクト形状プリエントを活用して達成する。 私たちはその方向に2つの新しいステップを踏む。 まず,この問題に対して同変形状表現を導入し,オブジェクト構成の変化によって引き起こされる複雑性を解消する。 次に,同変形状を用いて分割マスクを反復的に洗練する新しいEMアルゴリズムを提案する。 提案手法の有効性とロバスト性を検証するため,様々なオブジェクト構成や新しいシーンを含む新しいデータセット・チェアとマグカップを収集する。 実験結果から,本手法は,(弱々しい)教師付き手法が失敗する場面にまたがって,一貫した,堅牢な性能を実現することが示された。 https://www.cis.upenn.edu/~leijh/projects/efemで利用可能なコードとデータ

We introduce Equivariant Neural Field Expectation Maximization (EFEM), a simple, effective, and robust geometric algorithm that can segment objects in 3D scenes without annotations or training on scenes. We achieve such unsupervised segmentation by exploiting single object shape priors. We make two novel steps in that direction. First, we introduce equivariant shape representations to this problem to eliminate the complexity induced by the variation in object configuration. Second, we propose a novel EM algorithm that can iteratively refine segmentation masks using the equivariant shape prior. We collect a novel real dataset Chairs and Mugs that contains various object configurations and novel scenes in order to verify the effectiveness and robustness of our method. Experimental results demonstrate that our method achieves consistent and robust performance across different scenes where the (weakly) supervised methods may fail. Code and data available at https://www.cis.upenn.edu/~leijh/projects/efem
翻訳日:2023-03-28 13:59:23 公開日:2023-03-27
# 自己教師付き学習の段階的性質について

On the stepwise nature of self-supervised learning ( http://arxiv.org/abs/2303.15438v1 )

ライセンス: Link先を確認
James B. Simon, Maksis Knutins, Liu Ziyin, Daniel Geisz, Abraham J. Fetterman, Joshua Albrecht(参考訳) 本稿では,統合組込みネットワークを用いた自己教師型学習手法の学習過程の簡単な図形を示す。 これらの手法は, 離散的, 分離されたステップの列において, 1次元の高次元埋め込みを同時に学習する。 この結論は、訓練されたネットワークが無限に広い場合に適用できる、バーロウ・ツインズの線形化モデルの研究を通して達成される。 このモデルのトレーニングダイナミクスを、小さな初期化から解き、あるコントラストカーネルの最上位固有モードを段階的に学習し、最終学習表現に対する閉形式式を得る。 注目すべきは、Barlow Twins、SimCLR、VICRegの損失を使ってDeep ResNetsをトレーニングするのと同じステップワイズ学習現象が見られます。 我々の理論は、カーネル回帰を教師付き学習のモデルとみなすことができるように、 \textit{kernel PCA} が自己教師付き学習の有用なモデルとして機能することを示唆している。

We present a simple picture of the training process of self-supervised learning methods with joint embedding networks. We find that these methods learn their high-dimensional embeddings one dimension at a time in a sequence of discrete, well-separated steps. We arrive at this conclusion via the study of a linearized model of Barlow Twins applicable to the case in which the trained network is infinitely wide. We solve the training dynamics of this model from small initialization, finding that the model learns the top eigenmodes of a certain contrastive kernel in a stepwise fashion, and obtain a closed-form expression for the final learned representations. Remarkably, we then see the same stepwise learning phenomenon when training deep ResNets using the Barlow Twins, SimCLR, and VICReg losses. Our theory suggests that, just as kernel regression can be thought of as a model of supervised learning, \textit{kernel PCA} may serve as a useful model of self-supervised learning.
翻訳日:2023-03-28 13:59:04 公開日:2023-03-27
# facelit:ニューラル3dリフレッシュ可能な顔

FaceLit: Neural 3D Relightable Faces ( http://arxiv.org/abs/2303.15437v1 )

ライセンス: Link先を確認
Anurag Ranjan, Kwang Moo Yi, Jen-Hao Rick Chang, Oncel Tuzel(参考訳) 本稿では,様々なユーザ定義の照明条件とビューでレンダリング可能な3d顔を生成することのできる生成フレームワークfacelitを提案する。 注意深い撮影や人的労働を必要とする既存の作業とは異なり、私たちは既成のポーズと照明推定器に依存しています。 これらの推定により、ニューラルネットワークのボリュームレンダリングフレームワークにPhongリフレクタンスモデルを組み込む。 提案モデルは,ポーズや照明の自然な統計に基づいて描画された顔の形状や材料特性を学習し,マルチビュー3Dと照明の整合性を備えたフォトリアリスティックな顔画像を生成する。 提案手法は,複数のデータセット(FFHQ, MetFaces, CelebA-HQ)上で,明快な照明とビューコントロールを備えた顔の写実的生成を可能にする。 ffhqデータセット上での3d認識gan間の最先端フォトリアリズムにより,fidスコアは3.5。

We propose a generative framework, FaceLit, capable of generating a 3D face that can be rendered at various user-defined lighting conditions and views, learned purely from 2D images in-the-wild without any manual annotation. Unlike existing works that require careful capture setup or human labor, we rely on off-the-shelf pose and illumination estimators. With these estimates, we incorporate the Phong reflectance model in the neural volume rendering framework. Our model learns to generate shape and material properties of a face such that, when rendered according to the natural statistics of pose and illumination, produces photorealistic face images with multiview 3D and illumination consistency. Our method enables photorealistic generation of faces with explicit illumination and view controls on multiple datasets - FFHQ, MetFaces and CelebA-HQ. We show state-of-the-art photorealism among 3D aware GANs on FFHQ dataset achieving an FID score of 3.5.
翻訳日:2023-03-28 13:58:48 公開日:2023-03-27
# 安定なシグナチャ:潜拡散モデルにおけるローイング透かし

The Stable Signature: Rooting Watermarks in Latent Diffusion Models ( http://arxiv.org/abs/2303.15435v1 )

ライセンス: Link先を確認
Pierre Fernandez, Guillaume Couairon, Herv\'e J\'egou, Matthijs Douze and Teddy Furon(参考訳) 生成画像モデリングは幅広いアプリケーションを可能にするが、責任あるデプロイメントに関する倫理的懸念を提起する。 本稿では,画像透かしと潜在拡散モデルを組み合わせたアクティブ戦略を提案する。 目標は、生成したすべての画像が、将来の検出や識別を可能にする、見えない透かしを隠すことだ。 この方法は、バイナリシグネチャで条件付けられたイメージジェネレータの潜在デコーダを迅速に微調整する。 予め訓練された透かし抽出器は、生成された画像から隠された署名を回収し、統計検査を行い、生成モデルから来たものかどうかを判定する。 画像修正後も安定署名が機能することを示すため,様々な世代タスクにおける透かしの可視性と頑健性を評価した。 例えば、テキストプロンプトから生成された画像の原点を検出し、その内容の10\%$を90$+$\%$精度で10$^{-6}$以下で保持する。

Generative image modeling enables a wide range of applications but raises ethical concerns about responsible deployment. This paper introduces an active strategy combining image watermarking and Latent Diffusion Models. The goal is for all generated images to conceal an invisible watermark allowing for future detection and/or identification. The method quickly fine-tunes the latent decoder of the image generator, conditioned on a binary signature. A pre-trained watermark extractor recovers the hidden signature from any generated image and a statistical test then determines whether it comes from the generative model. We evaluate the invisibility and robustness of the watermarks on a variety of generation tasks, showing that Stable Signature works even after the images are modified. For instance, it detects the origin of an image generated from a text prompt, then cropped to keep $10\%$ of the content, with $90$+$\%$ accuracy at a false positive rate below 10$^{-6}$.
翻訳日:2023-03-28 13:58:34 公開日:2023-03-27
# Anti-DreamBooth: パーソナライズされたテキストと画像の合成からユーザを保護する

Anti-DreamBooth: Protecting users from personalized text-to-image synthesis ( http://arxiv.org/abs/2303.15433v1 )

ライセンス: Link先を確認
Thanh Van Le, Hao Phung, Thuan Hoang Nguyen, Quan Dao, Ngoc Tran, Anh Tran(参考訳) テキストから画像への拡散モデルは革命に過ぎず、デザインスキルがなくても誰でも簡単なテキスト入力からリアルなイメージを作成できる。 dreamboothのような強力なパーソナライズツールを使えば、少数の参照画像から学ぶだけで特定の人物の画像を生成できる。 しかし、悪用された場合、そのような強力で便利なツールは、偽ニュースや個々の被害者をターゲットにしたコンテンツを妨害し、深刻な社会的影響をもたらす可能性がある。 本稿では,このような悪質なDreamBoothの使用に対するアンチドリームBoothと呼ばれる防衛システムについて検討する。 このシステムは,各ユーザの画像に微妙なノイズ摂動を加えることで,これらの摂動画像に基づいてトレーニングされたドリームブースモデルの生成品質を損なうことを目的としている。 摂動最適化のための幅広いアルゴリズムを調査し、様々なテキストから画像へのモデルバージョンで2つの顔データセット上で広範囲に評価した。 dreambooth と diffusion-based text-to-image モデルの複雑な定式化にもかかわらず,これらのモデルの悪意のある利用からユーザを効果的に保護する手法である。 その効果は、モデルやトレーニングとテストの間の迅速/短期のミスマッチなど、悪条件にも耐えうる。 私たちのコードは、 \href{https://github.com/VinAIResearch/Anti-DreamBooth.git}{https://github.com/VinAIResearch/Anti-DreamBooth.git}で利用可能になります。

Text-to-image diffusion models are nothing but a revolution, allowing anyone, even without design skills, to create realistic images from simple text inputs. With powerful personalization tools like DreamBooth, they can generate images of a specific person just by learning from his/her few reference images. However, when misused, such a powerful and convenient tool can produce fake news or disturbing content targeting any individual victim, posing a severe negative social impact. In this paper, we explore a defense system called Anti-DreamBooth against such malicious use of DreamBooth. The system aims to add subtle noise perturbation to each user's image before publishing in order to disrupt the generation quality of any DreamBooth model trained on these perturbed images. We investigate a wide range of algorithms for perturbation optimization and extensively evaluate them on two facial datasets over various text-to-image model versions. Despite the complicated formulation of DreamBooth and Diffusion-based text-to-image models, our methods effectively defend users from the malicious use of those models. Their effectiveness withstands even adverse conditions, such as model or prompt/term mismatching between training and testing. Our code will be available at \href{https://github.com/VinAIResearch/Anti-DreamBooth.git}{https://github.com/VinAIResearch/Anti-DreamBooth.git}.
翻訳日:2023-03-28 13:58:16 公開日:2023-03-27
# SPeC: 臨床ノートの要約における性能変動の緩和に関するソフトプロンプトによる校正

SPeC: A Soft Prompt-Based Calibration on Mitigating Performance Variability in Clinical Notes Summarization ( http://arxiv.org/abs/2303.13035v2 )

ライセンス: Link先を確認
Yu-Neng Chuang, Ruixiang Tang, Xiaoqian Jiang, Xia Hu(参考訳) 電子健康記録(EHR)は、医療史、診断、治療、検査結果を含む幅広い患者の情報を保存している。 これらの記録は、医療提供者が患者ケアに関する適切な意思決定を可能にするために重要である。 臨床ノートの要約は、医療専門家が潜在的な健康リスクを特定し、より良い意思決定を行うのに役立つ。 このプロセスは、提供者が最も重要かつ現在の患者データにアクセスできるようにすることで、エラーの低減と患者の成果の向上に寄与する。 近年の研究では,大規模言語モデル(LLM)にプロンプトを組み込むことで,要約タスクの有効性が著しく向上することが示されている。 しかし,本手法により出力のばらつきが増大し,プロンプトが類似した意味を共有する場合においても,顕著に異なる出力が得られることがわかった。 この課題に対処するために,ソフトプロンプトを用いたモデルに依存しないソフトプロンプトベース校正(SPeC)パイプラインを導入する。 複数の臨床ノートタスクとLCMに関する実験結果から,本手法は各種LSMの分散を効果的に抑制するだけでなく,より均一で信頼性の高い医療情報を要約するためのソリューションを提供する。

Electronic health records (EHRs) store an extensive array of patient information, encompassing medical histories, diagnoses, treatments, and test outcomes. These records are crucial for enabling healthcare providers to make well-informed decisions regarding patient care. Summarizing clinical notes further assists healthcare professionals in pinpointing potential health risks and making better-informed decisions. This process contributes to reducing errors and enhancing patient outcomes by ensuring providers have access to the most pertinent and current patient data. Recent research has shown that incorporating prompts with large language models (LLMs) substantially boosts the efficacy of summarization tasks. However, we show that this approach also leads to increased output variance, resulting in notably divergent outputs even when prompts share similar meanings. To tackle this challenge, we introduce a model-agnostic Soft Prompt-Based Calibration (SPeC) pipeline that employs soft prompts to diminish variance while preserving the advantages of prompt-based summarization. Experimental findings on multiple clinical note tasks and LLMs indicate that our method not only bolsters performance but also effectively curbs variance for various LLMs, providing a more uniform and dependable solution for summarizing vital medical information.
翻訳日:2023-03-28 11:58:39 公開日:2023-03-27
# Defocus Clue による完全自己監督深度推定

Fully Self-Supervised Depth Estimation from Defocus Clue ( http://arxiv.org/abs/2303.10752v4 )

ライセンス: Link先を確認
Haozhe Si, Bin Zhao, Dong Wang, Yunpeng Gao, Mulin Chen, Zhigang Wang, Xuelong Li(参考訳) 画像におけるデフォーカスパターンとデフォーカスパターンの関係をモデル化したdepth-from-defocus (DFD)は、深さ推定において有望な性能を示した。 近年,複数の自己監督作業が精度の高い地中精度の確保の困難さを克服しようと試みている。 しかし、実際のシナリオではキャプチャできないオールインフォーカス(AIF)イメージに依存している。 このような制限はDFD法の適用を妨げる。 この問題に対処するため,我々は疎focalスタックから深さを推定する完全自己教師付きフレームワークを提案する。 我々は,この枠組みが深度とAIF画像の基盤構造の必要性を回避し,優れた予測を得られることを示し,DFDの理論的成功と実世界におけるその応用とのギャップを埋めることを示す。 特に,提案する (i)DFDタスクのより現実的な設定で、深度やAIF画像の接地構造は利用できない。 (II)困難条件下での深度とAIF画像の信頼性の高い予測を提供する新しい自己超越フレームワーク。 提案フレームワークは、ニューラルネットワークを用いて深度とAIF画像の予測を行い、光学モデルを用いて予測の検証と精査を行う。 我々は、レンダリングされたfocalスタックと実際のfocalスタックを備えた3つのベンチマークデータセットで、フレームワークを検証する。 定性的および定量的評価は,本手法が自己教師型DFDタスクの強力なベースラインを提供することを示している。

Depth-from-defocus (DFD), modeling the relationship between depth and defocus pattern in images, has demonstrated promising performance in depth estimation. Recently, several self-supervised works try to overcome the difficulties in acquiring accurate depth ground-truth. However, they depend on the all-in-focus (AIF) images, which cannot be captured in real-world scenarios. Such limitation discourages the applications of DFD methods. To tackle this issue, we propose a completely self-supervised framework that estimates depth purely from a sparse focal stack. We show that our framework circumvents the needs for the depth and AIF image ground-truth, and receives superior predictions, thus closing the gap between the theoretical success of DFD works and their applications in the real world. In particular, we propose (i) a more realistic setting for DFD tasks, where no depth or AIF image ground-truth is available; (ii) a novel self-supervision framework that provides reliable predictions of depth and AIF image under the challenging setting. The proposed framework uses a neural model to predict the depth and AIF image, and utilizes an optical model to validate and refine the prediction. We verify our framework on three benchmark datasets with rendered focal stacks and real focal stacks. Qualitative and quantitative evaluations show that our method provides a strong baseline for self-supervised DFD tasks.
翻訳日:2023-03-28 11:58:15 公開日:2023-03-27
# Aerial-Ground Person Re-ID

Aerial-Ground Person Re-ID ( http://arxiv.org/abs/2303.08597v4 )

ライセンス: Link先を確認
Huy Nguyen, Kien Nguyen, Sridha Sridharan, Clinton Fookes(参考訳) 人は複数の重複しないカメラで人と再識別します。 飛行中のプラットフォームを監視に展開する一方で、既存の人物のre-IDベンチマークは地上でのマッチングと空中のマッチングに非常に限定的な取り組みに重点を置いている。 そこで我々は,航空カメラと地上カメラをまたいで,人物のリIDマッチングを行う新しいベンチマークデータセットAG-ReIDを提案する。 データセットには、388のアイデンティティの21,983のイメージと、各IDに対する15のソフト属性が含まれている。 データは、高度15~45mのUAVと、大学のキャンパスで地上のCCTVカメラによって収集されました。 我々のデータセットは、カメラ間で人物の外観が著しく異なるため、人物のリIDに対する新たな視点課題を提示している。 本稿では,この課題に対処するために,ソフト属性を用いたリIDモデルのトレーニングを指導するための説明可能なアルゴリズムを提案する。 地上人物再ID課題に対する提案手法の有効性を示す実験を行った。 データセットは公開され、ベースラインコードはhttps://github.com/huynguyen792/AG-ReIDでオープンソース化される。

Person re-ID matches persons across multiple non-overlapping cameras. Despite the increasing deployment of airborne platforms in surveillance, current existing person re-ID benchmarks' focus is on ground-ground matching and very limited efforts on aerial-aerial matching. We propose a new benchmark dataset - AG-ReID, which performs person re-ID matching in a new setting: across aerial and ground cameras. Our dataset contains 21,983 images of 388 identities and 15 soft attributes for each identity. The data was collected by a UAV flying at altitudes between 15 to 45 meters and a ground-based CCTV camera on a university campus. Our dataset presents a novel elevated-viewpoint challenge for person re-ID due to the significant difference in person appearance across these cameras. We propose an explainable algorithm to guide the person re-ID model's training with soft attributes to address this challenge. Experiments demonstrate the efficacy of our method on the aerial-ground person re-ID task. The dataset will be published and the baseline codes will be open-sourced at https://github.com/huynguyen792/AG-ReID to facilitate research in this area.
翻訳日:2023-03-28 11:57:51 公開日:2023-03-27
# 単一カメラからのシーン認識型3次元マルチヒューマンモーションキャプチャ

Scene-Aware 3D Multi-Human Motion Capture from a Single Camera ( http://arxiv.org/abs/2301.05175v3 )

ライセンス: Link先を確認
Diogo Luvizon, Marc Habermann, Vladislav Golyanik, Adam Kortylewski, Christian Theobalt(参考訳) 本研究では,静的カメラで記録された1枚のRGBビデオから,シーン内の複数の人間の3次元位置を推定する問題と,その身体形状と調音性について考察する。 高価なマーカーベースやマルチビューシステムとは対照的に、当社の軽量なセットアップは、インストールが容易で専門家の知識を必要としない安価な3dモーションキャプチャを可能にするため、プライベートユーザにとって理想的です。 この困難な状況に対処するため,我々は,2次元身体関節,関節角度,正規化格差マップ,ヒトセグメンテーションマスクなど,様々な形態の大規模事前学習モデルを用いて,コンピュータビジョンの最近の進歩を活用している。 そこで,本稿では,人間の絶対3次元位置,関節的なポーズ,個々の形状,シーンのスケールについて共同で解く,非線形最適化に基づく最初のアプローチを提案する。 特に, 2次元身体関節と関節角度を用いた正規化不等式予測から, シーンの奥行きと人別尺度を推定した。 フレームあたりのシーン深度を考慮し、3次元空間の静的シーンの点雲を再構成する。 最後に、人間のフレーム当たりの3D推定値とシーンポイントクラウドを考慮し、時間的、空間的、物理的妥当性を確保するために、ビデオ上で時空間コヒーレントな最適化を行う。 本手法は,従来手法を一貫して上回る多人数3次元ポーズベンチマークを用いて評価し,異なる大きさの人物による挑戦シーンを含む実環境条件にロバストな手法であることを定性的に証明した。

In this work, we consider the problem of estimating the 3D position of multiple humans in a scene as well as their body shape and articulation from a single RGB video recorded with a static camera. In contrast to expensive marker-based or multi-view systems, our lightweight setup is ideal for private users as it enables an affordable 3D motion capture that is easy to install and does not require expert knowledge. To deal with this challenging setting, we leverage recent advances in computer vision using large-scale pre-trained models for a variety of modalities, including 2D body joints, joint angles, normalized disparity maps, and human segmentation masks. Thus, we introduce the first non-linear optimization-based approach that jointly solves for the absolute 3D position of each human, their articulated pose, their individual shapes as well as the scale of the scene. In particular, we estimate the scene depth and person unique scale from normalized disparity predictions using the 2D body joints and joint angles. Given the per-frame scene depth, we reconstruct a point-cloud of the static scene in 3D space. Finally, given the per-frame 3D estimates of the humans and scene point-cloud, we perform a space-time coherent optimization over the video to ensure temporal, spatial and physical plausibility. We evaluate our method on established multi-person 3D human pose benchmarks where we consistently outperform previous methods and we qualitatively demonstrate that our method is robust to in-the-wild conditions including challenging scenes with people of different sizes.
翻訳日:2023-03-28 11:57:32 公開日:2023-03-27
# 水中物体追跡におけるサンプル不均衡調整と類似物体排除

Sample Imbalance Adjustment and Similar Object Exclusion in Underwater Object Tracking ( http://arxiv.org/abs/2301.01482v4 )

ライセンス: Link先を確認
Yunfeng Li, Bo Wang, Ye Li, Wei Huo, Zhuoyan Liu(参考訳) 現代のトラッカーは水中画像劣化評価の競争性能を示すが、水中物体追跡(UOT)に適用した場合に2つの問題が残る。 単一オブジェクトトラッカーは、オープンエアデータセットに基づいてトレーニングされ、UOTに適用された場合、水中オブジェクトと屋外オブジェクトの間に深刻なサンプル不均衡が生じます。 さらに、魚やイルカのような水中の標的はよく似た外観であり、モデルが弱い識別的特徴を識別することは困難である。 既存の検出ベースの後処理アプローチは、追跡対象と類似したオブジェクトを区別するのに苦労する。 本研究では,水中画像とオープンエアシークエンスハイブリッドトレーニング(UOHT),動きに基づく後処理(MBPP)を併用したUOSTrackを提案する。 UOHTトレーニングパラダイムは、サンプル不均衡水中トラッカーをトレーニングするために設計されている。 特に、水中物体検出(UOD)画像は、カスタマイズされたデータ拡張によって画像対に変換され、トラッカーがより水中領域のトレーニングサンプルに露出され、水中物体の特徴表現が学習される。 MBPPパラダイムは、ターゲットに近い類似のオブジェクトを除外するために提案されている。 特に、カルマンフィルタと各フレームの候補ボックスを用いて予測された推定ボックスを用いて、失った場合にその候補領域に隠された追跡対象を再確認する。 UOSTrack は UOT100 や UTB180 と同様のオブジェクトチャレンジ属性で OSTrack と比較して平均 3.5 % のパフォーマンス向上を実現している。 UOSTrackが提供する平均的なパフォーマンス改善は、それぞれ1%と3%である。 UOTベンチマークの2つの結果は、UOSTrackが新しい最先端のベンチマークを設定し、UOHTとMBPPの有効性、UOTで使用するMBPPの一般化と適用性を示した。

Although modern trackers exhibit competitive performance for underwater image degradation assessment, two problems remain when these are applied to underwater object tracking (UOT). A single-object tracker is trained on open-air datasets, which results in a serious sample imbalance between underwater objects and open-air objects when it is applied to UOT. Moreover, underwater targets such as fish and dolphins usually have a similar appearance, and it is challenging for models to discriminate weak discriminative features. Existing detection-based post-processing approaches struggle to distinguish a tracked target from similar objects. In this study, the UOSTrack is proposed, which involves the use of underwater images and open-air sequence hybrid training (UOHT), and motion-based post-processing (MBPP). The UOHT training paradigm is designed to train the sample-imbalanced underwater tracker. In particular, underwater object detection (UOD) images are converted into image pairs through customised data augmentation, such that the tracker is exposed to more underwater domain training samples and learns the feature expressions of underwater objects. The MBPP paradigm is proposed to exclude similar objects near the target. In particular, it employs the estimation box predicted using a Kalman filter and the candidate boxes in each frame to reconfirm the tracked target that is hidden in the candidate area when it has been lost. UOSTrack provides an average performance improvement of 3.5 % compared to OSTrack on similar object challenge attribute in UOT100 and UTB180. The average performance improvements provided by UOSTrack are 1 % and 3 %, respectively. The results from two UOT benchmarks demonstrate that UOSTrack sets a new state-of-the-art benchmark, and the effectiveness of UOHT and MBPP, and the generalisation and applicability of the MBPP for use in UOT.
翻訳日:2023-03-28 11:57:07 公開日:2023-03-27
# スケーラブルな物理的一貫性のあるニューラルネットワークに向けて:データ駆動型マルチゾーンサーマルビルディングモデルへの応用

Towards Scalable Physically Consistent Neural Networks: an Application to Data-driven Multi-zone Thermal Building Models ( http://arxiv.org/abs/2212.12380v3 )

ライセンス: Link先を確認
Loris Di Natale, Bratislav Svetozarevic, Philipp Heer, and Colin Neil Jones(参考訳) 収集されるデータが増えるにつれて、データ駆動モデリングの手法が近年人気が高まっている。 物理的に健全であるが、古典的なグレーボックスモデルはしばしば識別とスケールが困難であり、その正確さは表現力の制限によって妨げられる可能性がある。 一方で、現在ではニューラルネットワーク(nns)に依存する古典的なブラックボックス法は、データから統計的パターンを導出することで、大規模でも印象的なパフォーマンスを達成していることが多い。 しかし、それらは基礎となる物理法則に完全に従わないままであり、現実世界の物理システムに対する決定がそれらに基づく場合、破滅的な失敗につながる可能性がある。 物理的に一貫性のあるニューラルネットワーク(PCNN)は最近、前述の問題に対処するために開発された。 そこで本研究では,PCNNを用いて建築温度動態をモデル化し,従来のグレーボックス法とブラックボックス法とを徹底的に比較する。 より正確には、3つの異なるpcnn拡張を設計し、アーキテクチャのモジュラリティと柔軟性を例示し、その物理的一貫性を正式に証明します。 実例では,PCNNは最先端の精度を達成でき,制約構造にもかかわらず従来のNNモデルよりも優れていた。 さらに、我々の調査は、完全に物理に依存しないまま、NNが優れたパフォーマンスを達成していることを示す明確なイラストを提供している。 この性能は計算複雑性のコストがかかるが、pcnnは他の物理的に一貫性のある手法と比較して17-35%の精度向上を示し、最先端の性能を持つスケーラブルな物理的一貫性モデルへの道を開く。

With more and more data being collected, data-driven modeling methods have been gaining in popularity in recent years. While physically sound, classical gray-box models are often cumbersome to identify and scale, and their accuracy might be hindered by their limited expressiveness. On the other hand, classical black-box methods, typically relying on Neural Networks (NNs) nowadays, often achieve impressive performance, even at scale, by deriving statistical patterns from data. However, they remain completely oblivious to the underlying physical laws, which may lead to potentially catastrophic failures if decisions for real-world physical systems are based on them. Physically Consistent Neural Networks (PCNNs) were recently developed to address these aforementioned issues, ensuring physical consistency while still leveraging NNs to attain state-of-the-art accuracy. In this work, we scale PCNNs to model building temperature dynamics and propose a thorough comparison with classical gray-box and black-box methods. More precisely, we design three distinct PCNN extensions, thereby exemplifying the modularity and flexibility of the architecture, and formally prove their physical consistency. In the presented case study, PCNNs are shown to achieve state-of-the-art accuracy, even outperforming classical NN-based models despite their constrained structure. Our investigations furthermore provide a clear illustration of NNs achieving seemingly good performance while remaining completely physics-agnostic, which can be misleading in practice. While this performance comes at the cost of computational complexity, PCNNs on the other hand show accuracy improvements of 17-35% compared to all other physically consistent methods, paving the way for scalable physically consistent models with state-of-the-art performance.
翻訳日:2023-03-28 11:56:39 公開日:2023-03-27
# スマートCCTVカメラとセマンティックセグメンテーションを用いたCNNによる知的街路管理

CNN based Intelligent Streetlight Management Using Smart CCTV Camera and Semantic Segmentation ( http://arxiv.org/abs/2209.08633v3 )

ライセンス: Link先を確認
Md Sakib Ullah Sourav, Huidong Wang, Mohammad Raziuddin Chowdhury, Rejwan Bin Sulaiman(参考訳) 最も無視されたエネルギー損失の源の1つは街灯であり、不要な地域ではあまりにも多くの光を発生させる。 エネルギー廃棄物は経済と環境に大きな影響を及ぼす。 また、通常の手動運転のため、昼は街灯が点灯し、夜はOFが点灯することがしばしば見られるが、これは21世紀になっても残念である。 これらの問題は解決するために自動街灯制御を必要とする。 本研究の目的は,コンピュータビジョン技術を利用したスマートトランスポート監視システムと閉回路テレビ(CCTV)カメラを組み合わせることで,歩行者や車両の存在を検知し,CCTVビデオストリーミングからのセマンティックイメージセグメンテーションを用いて,街灯を不要にすることで,発光ダイオード(LED)の街灯が適切な明るさで自動的に照らされるようにすることにある。 その結果、昼と夜を区別し、街灯のオン/オフを自動化して省エネを図ることが可能となった。 前述のアプローチによると、位置情報センサーデータは、よりインフォームドな街灯管理の決定に利用することができる。 タスクを完了させるために、ResNet-34をバックボーンとしてU-netモデルをトレーニングすることを検討する。 モデルの有効性は評価行列の使用によって保証される。 提案された概念は、従来の代替案よりも単純で、経済的、エネルギー効率、長期的、弾力性が高い。

One of the most neglected sources of energy loss is streetlights which generate too much light in areas where it is not required. Energy waste has enormous economic and environmental effects. In addition, due to the conventional manual nature of the operation, streetlights are frequently seen being turned ON during the day and OFF in the evening, which is regrettable even in the twenty-first century. These issues require automated streetlight control in order to be resolved. This study aims to develop a novel streetlight controlling method by combining a smart transport monitoring system powered by computer vision technology with a closed circuit television (CCTV) camera that allows the light-emitting diode (LED) streetlight to automatically light up with the appropriate brightness by detecting the presence of pedestrians or vehicles and dimming the streetlight in their absence using semantic image segmentation from the CCTV video streaming. Consequently, our model distinguishes daylight and nighttime, which made it feasible to automate the process of turning the streetlight 'ON' and 'OFF' to save energy consumption costs. According to the aforementioned approach, geolocation sensor data could be utilized to make more informed streetlight management decisions. To complete the tasks, we consider training the U-net model with ResNet-34 as its backbone. The validity of the models is guaranteed with the use of assessment matrices. The suggested concept is straightforward, economical, energy-efficient, long-lasting, and more resilient than conventional alternatives.
翻訳日:2023-03-28 11:55:14 公開日:2023-03-27
# dualafford:デュアルグリッパー操作のための協調視覚支援学習

DualAfford: Learning Collaborative Visual Affordance for Dual-gripper Manipulation ( http://arxiv.org/abs/2207.01971v6 )

ライセンス: Link先を確認
Yan Zhao, Ruihai Wu, Zhehuan Chen, Yourong Zhang, Qingnan Fan, Kaichun Mo, Hao Dong(参考訳) 未来のホームアシストロボットにとって、日々の環境において多様な3Dオブジェクトを理解し、操作することが不可欠である。 様々な3D形状で多様な操作タスクを実行できるスケーラブルなシステムの構築に向けて、最近の研究は、入力された3D幾何学上のすべての点を下流のタスク(例えば、プッシュまたはピックアップ)を達成するアクションの可能性でラベル付けする、視覚的な動作可能な可測性を学ぶ有望な結果を提唱し、実証してきた。 しかし、これらの研究はシングルグリッパー操作しか研究しなかったが、現実のタスクの多くは協調的に達成するために両手を必要とする。 本研究では,デュアルグリッパー操作タスクの協調的余裕を学ぶための新しい学習フレームワークであるdualaffordを提案する。 この手法の中核となる設計は、2つのグリップの二次問題を2つの非絡み合った相互接続サブタスクに還元し、効率的な学習を行うことである。 大規模なPartNet-MobilityデータセットとShapeNetデータセットを使用して、デュアルグリッパー操作のための4つのベンチマークタスクを設定した。 実験により,提案手法の有効性と優越性が3つのベースラインで証明された。

It is essential yet challenging for future home-assistant robots to understand and manipulate diverse 3D objects in daily human environments. Towards building scalable systems that can perform diverse manipulation tasks over various 3D shapes, recent works have advocated and demonstrated promising results learning visual actionable affordance, which labels every point over the input 3D geometry with an action likelihood of accomplishing the downstream task (e.g., pushing or picking-up). However, these works only studied single-gripper manipulation tasks, yet many real-world tasks require two hands to achieve collaboratively. In this work, we propose a novel learning framework, DualAfford, to learn collaborative affordance for dual-gripper manipulation tasks. The core design of the approach is to reduce the quadratic problem for two grippers into two disentangled yet interconnected subtasks for efficient learning. Using the large-scale PartNet-Mobility and ShapeNet datasets, we set up four benchmark tasks for dual-gripper manipulation. Experiments prove the effectiveness and superiority of our method over three baselines.
翻訳日:2023-03-28 11:54:45 公開日:2023-03-27
# ビデオデモへのステップバイステップインストラクショナルダイアグラムの適応

Aligning Step-by-Step Instructional Diagrams to Video Demonstrations ( http://arxiv.org/abs/2303.13800v2 )

ライセンス: Link先を確認
Jiahao Zhang, Anoop Cherian, Yanbin Liu, Yizhak Ben-Shabat, Cristian Rodriguez, Stephen Gould(参考訳) マルチモーダルアライメントは、あるモダリティから別のモダリティを使ってクエリする際のインスタンスの検索を容易にする。 本稿では,このようなアライメントが中間にある新しい設定を考える。 (i)組み立て図(イケアの組立マニュアルによく見られる)として表される指示ステップ、及び (ii)内装ビデオの映像セグメント(実世界の組立動作の制定を含む。) このアライメントを学習するために,新しい教師付きコントラスト学習手法を導入する。 そこで本研究では,本手法の有効性を実証するために,多様な家具組立コレクションからの183時間のビデオと,関連する指導マニュアルからの8,300点近いイラストと,それらの真実のアライメントに注釈を付したイケア組立用IAWを提案する。 第1に,ビデオセグメントとイラストレーション間の最寄りの隣接検索,第2に,各ビデオの指示ステップとセグメントのアラインメント,という2つのタスクを定義した。 iawに関する広範な実験は、代替案に対する我々のアプローチの優れた性能を示している。

Multimodal alignment facilitates the retrieval of instances from one modality when queried using another. In this paper, we consider a novel setting where such an alignment is between (i) instruction steps that are depicted as assembly diagrams (commonly seen in Ikea assembly manuals) and (ii) video segments from in-the-wild videos; these videos comprising an enactment of the assembly actions in the real world. To learn this alignment, we introduce a novel supervised contrastive learning method that learns to align videos with the subtle details in the assembly diagrams, guided by a set of novel losses. To study this problem and demonstrate the effectiveness of our method, we introduce a novel dataset: IAW for Ikea assembly in the wild consisting of 183 hours of videos from diverse furniture assembly collections and nearly 8,300 illustrations from their associated instruction manuals and annotated for their ground truth alignments. We define two tasks on this dataset: First, nearest neighbor retrieval between video segments and illustrations, and, second, alignment of instruction steps and the segments for each video. Extensive experiments on IAW demonstrate superior performances of our approach against alternatives.
翻訳日:2023-03-28 11:47:54 公開日:2023-03-27
# エッジフリーだが構造対応:GNNからMPPへのプロトタイプ誘導知識蒸留

Edge-free but Structure-aware: Prototype-Guided Knowledge Distillation from GNNs to MLPs ( http://arxiv.org/abs/2303.13763v2 )

ライセンス: Link先を確認
Taiqiang Wu, Zhe Zhao, Jiahao Wang, Xingyu Bai, Lei Wang, Ngai Wong, Yujiu Yang(参考訳) グラフタスクにおける低遅延多層パーセプトロン~(MLP)への高精度グラフニューラルネットワーク〜(GNN)の蒸留はホットな研究トピックとなっている。 しかし、MPPはノード機能にのみ依存しており、グラフ構造情報の取得に失敗する。 従来の手法では、グラフエッジをMLPの余分な入力に処理することでこの問題に対処するが、このようなグラフ構造は様々なシナリオでは利用できない。 そこで我々は,グラフエッジ~(エッジフリー)を必要とせず,構造を意識したMLPを学習するプロトタイプガイド型知識蒸留(PGKD)法を提案する。 具体的には, GNN教師のグラフ構造情報を解析し, エッジフリー環境でプロトタイプを用いて, GNNからMPPに抽出する。 一般的なグラフベンチマーク実験の結果,提案したPGKDの有効性とロバスト性を示した。

Distilling high-accuracy Graph Neural Networks~(GNNs) to low-latency multilayer perceptrons~(MLPs) on graph tasks has become a hot research topic. However, MLPs rely exclusively on the node features and fail to capture the graph structural information. Previous methods address this issue by processing graph edges into extra inputs for MLPs, but such graph structures may be unavailable for various scenarios. To this end, we propose a Prototype-Guided Knowledge Distillation~(PGKD) method, which does not require graph edges~(edge-free) yet learns structure-aware MLPs. Specifically, we analyze the graph structural information in GNN teachers, and distill such information from GNNs to MLPs via prototypes in an edge-free setting. Experimental results on popular graph benchmarks demonstrate the effectiveness and robustness of the proposed PGKD.
翻訳日:2023-03-28 11:47:33 公開日:2023-03-27
# 量子コンピュータを用いた生物シーケンス比較アルゴリズム

A biological sequence comparison algorithm using quantum computers ( http://arxiv.org/abs/2303.13608v2 )

ライセンス: Link先を確認
B\"usra K\"osoglu-Kind, Robert Loredo, Michele Grossi, Christian Bernecker, Jody M Burks, Rudiger Buchkremer(参考訳) 遺伝情報は、数千から数十億の文字で表されるヌクレオチドの線形配列に符号化される。 変異はDNAまたはRNAヌクレオチド配列の変化を指す。 したがって、突然変異検出は生物学や医学のあらゆる分野において不可欠である。 病原性増強変異の注意深いモニタリングが不可欠である。 しかし、このサイズの遺伝的配列を分析するには、膨大な量の古典計算能力が必要である。 量子コンピュータ上での視覚の人間の知覚と画像のピクセル表現に着想を得て,これらの手法をペアワイズシーケンス解析に活用した。 この手法は古典的アプローチよりも潜在的に有利であり、遺伝子配列の変異やその他の修正を特定するためにさらに応用することができる。 本稿では,ヌクレオチド間の類似度を決定するために,類似度スコアを算出した量子コンピュータ上で2つのゲノム配列間の類似度を表示・解析する手法を提案する。

Genetic information is encoded in a linear sequence of nucleotides, represented by letters ranging from thousands to billions. Mutations refer to changes in the DNA or RNA nucleotide sequence. Thus, mutation detection is vital in all areas of biology and medicine. Careful monitoring of virulence-enhancing mutations is essential. However, an enormous amount of classical computing power is required to analyze genetic sequences of this size. Inspired by human perception of vision and pixel representation of images on quantum computers, we leverage these techniques to implement a pairwise sequence analysis. The methodology has a potential advantage over classical approaches and can be further applied to identify mutations and other modifications in genetic sequences. We present a method to display and analyze the similarity between two genome sequences on a quantum computer where a similarity score is calculated to determine the similarity between nucleotides.
翻訳日:2023-03-28 11:47:17 公開日:2023-03-27
# dreambooth3d: 主題駆動テキストから3d生成

DreamBooth3D: Subject-Driven Text-to-3D Generation ( http://arxiv.org/abs/2303.13508v2 )

ライセンス: Link先を確認
Amit Raj, Srinivas Kaza, Ben Poole, Michael Niemeyer, Nataniel Ruiz, Ben Mildenhall, Shiran Zada, Kfir Aberman, Michael Rubinstein, Jonathan Barron, Yuanzhen Li, Varun Jampani(参考訳) そこで,DreamBooth3Dを提案する。DreamBooth3Dは,テキストから3Dへの生成モデルを3~6個の画像からパーソナライズする手法である。 提案手法は,テキスト・ツー・イメージ・モデル(DreamBooth)とテキスト・ツー・3D生成(DreamFusion)を併用する。 対象の入力視点に過剰なパーソナライズされたテキストから画像へのモデルが原因で,これらの手法を素直に組み合わせると,満足のいく主題固有の3dアセットが得られないことがわかった。 我々は、3段階の最適化戦略によってこれを克服し、ニューラルネットワークの放射能場の3次元的一貫性と、テキストから画像へのモデルのパーソナライズ能力を同時に活用する。 提案手法は,新規なポーズ,色,属性などのテキスト操作によって,被験者の入力画像にない高品質な3Dアセットを作成できる。

We present DreamBooth3D, an approach to personalize text-to-3D generative models from as few as 3-6 casually captured images of a subject. Our approach combines recent advances in personalizing text-to-image models (DreamBooth) with text-to-3D generation (DreamFusion). We find that naively combining these methods fails to yield satisfactory subject-specific 3D assets due to personalized text-to-image models overfitting to the input viewpoints of the subject. We overcome this through a 3-stage optimization strategy where we jointly leverage the 3D consistency of neural radiance fields together with the personalization capability of text-to-image models. Our method can produce high-quality, subject-specific 3D assets with text-driven modifications such as novel poses, colors and attributes that are not seen in any of the input images of the subject.
翻訳日:2023-03-28 11:47:05 公開日:2023-03-27
# 運動的不確実性関係のためのSLDフィッシャー情報

SLD Fisher information for kinetic uncertainty relations ( http://arxiv.org/abs/2303.13417v2 )

ライセンス: Link先を確認
Satoshi Nakajima and Yasuhiro Utsumi(参考訳) 我々は、GKSL量子マスター方程式で記述されたオープン量子系の運動不確実性関係(KUR)に対する対称対数微分(SLD)フィッシャー情報について、詳細なバランス条件を伴わずに検討する。 Vu と Saito [Phys. Lett. 128, 140602 (2022)] によって導かれる量子論的不確実性関係では、時間再スケーリングパラメータを持つ量子軌道の確率のフィッシャー情報が重要な役割を果たす。 この漁師情報は、sldフィッシャー情報によって上限されている。 有限時間および任意の初期状態において、二重時間積分であり、結合した一階微分方程式を解くことで計算できるSLD Fisher情報の簡潔な表現を導出する。 また、量子軌道のフィッシャー情報の単純な下限も導出する。 長谷川 [arXiv:2203.12421v4] によるマンデルスタム・タmm関係に基づいて, SLD Fisher の情報も速度限界に現れることを指摘した。 ジャンプ作用素がハミルトニアン系の固有状態と接続すると、相互作用図のバーズ角は、古典的なものと対照的な、短時間の力学活性の平方根によって上界に有界であることを示す。

We investigate a symmetric logarithmic derivative (SLD) Fisher information for kinetic uncertainty relations (KURs) of open quantum systems described by the GKSL quantum master equation with and without the detailed balance condition. In a quantum kinetic uncertainty relation derived by Vu and Saito [Phys. Rev. Lett. 128, 140602 (2022)], the Fisher information of probability of quantum trajectory with a time-rescaling parameter plays an essential role. This Fisher information is upper bounded by the SLD Fisher information. For a finite time and arbitrary initial state, we derive a concise expression of the SLD Fisher information, which is a double time integral and can be calculated by solving coupled first-order differential equations. We also derive a simple lower bound of the Fisher information of quantum trajectory. We point out that the SLD Fisher information also appears in the speed limit based on the Mandelstam-Tamm relation by Hasegawa [arXiv:2203.12421v4]. When the jump operators connect eigenstates of the system Hamiltonian, we show that the Bures angle in the interaction picture is upper bounded by the square root of the dynamical activity at short times, which contrasts with the classical counterpart.
翻訳日:2023-03-28 11:46:50 公開日:2023-03-27
# xplainer:x線観測からゼロショット診断へ

Xplainer: From X-Ray Observations to Explainable Zero-Shot Diagnosis ( http://arxiv.org/abs/2303.13391v2 )

ライセンス: Link先を確認
Chantal Pellegrini, Matthias Keicher, Ege \"Ozsoy, Petra Jiraskova, Rickmer Braren, Nassir Navab(参考訳) 医療画像からの診断自動予測は臨床的意思決定を支援する貴重な資源である。 しかし、そのようなシステムは、通常、医療領域では不足することが多い大量の注釈付きデータに基づいて訓練される必要がある。 ゼロショット法は、ラベル付きデータに頼ることなく、異なる臨床所見を持つ新しい設定への柔軟な適応を可能にすることで、この問題に対処する。 さらに, 臨床ワークフローに自動診断を統合するためには, 方法が透明で説明しやすいこと, 医療専門家の信頼度を高め, 正確性検証を容易にすることが必要である。 本稿では,臨床現場におけるゼロショット診断のための新しいフレームワークであるXplainerを紹介する。 Xplainerは、比較視覚言語モデルの分類記述アプローチを多言語診断タスクに適用する。 具体的には、診断を直接予測する代わりに、放射線技師がX線スキャンで探す記述的観察の存在をモデルに分類し、診断の可能性を推定するために記述子確率を使用する。 最終的な診断予測は、基礎となる記述子の予測に基づいて直接行われるため、このモデルは設計によって説明可能である。 胸部X線データセットであるCheXpertとChestX-ray14のXplainerを評価し,ゼロショット診断の性能と説明性の向上に有効であることを示した。 以上の結果から,Xplainerは意思決定プロセスのより詳細な理解を提供し,臨床診断に有用なツールであることが示唆された。

Automated diagnosis prediction from medical images is a valuable resource to support clinical decision-making. However, such systems usually need to be trained on large amounts of annotated data, which often is scarce in the medical domain. Zero-shot methods address this challenge by allowing a flexible adaption to new settings with different clinical findings without relying on labeled data. Further, to integrate automated diagnosis in the clinical workflow, methods should be transparent and explainable, increasing medical professionals' trust and facilitating correctness verification. In this work, we introduce Xplainer, a novel framework for explainable zero-shot diagnosis in the clinical setting. Xplainer adapts the classification-by-description approach of contrastive vision-language models to the multi-label medical diagnosis task. Specifically, instead of directly predicting a diagnosis, we prompt the model to classify the existence of descriptive observations, which a radiologist would look for on an X-Ray scan, and use the descriptor probabilities to estimate the likelihood of a diagnosis. Our model is explainable by design, as the final diagnosis prediction is directly based on the prediction of the underlying descriptors. We evaluate Xplainer on two chest X-ray datasets, CheXpert and ChestX-ray14, and demonstrate its effectiveness in improving the performance and explainability of zero-shot diagnosis. Our results suggest that Xplainer provides a more detailed understanding of the decision-making process and can be a valuable tool for clinical diagnosis.
翻訳日:2023-03-28 11:46:29 公開日:2023-03-27
# 物体の動き感度:イベントベースカメラのエゴモーション問題に対するバイオインスパイアソリューション

Object Motion Sensitivity: A Bio-inspired Solution to the Ego-motion Problem for Event-based Cameras ( http://arxiv.org/abs/2303.14114v2 )

ライセンス: Link先を確認
Shay Snyder (1), Hunter Thompson (2), Md Abdullah-Al Kaiser (3), Gregory Schwartz (4), Akhilesh Jaiswal (3), and Maryam Parsa (1) ((1) George Mason University, (2) Georgia Institute of Technology, (3) University of Southern California, (4) Northwestern University)(参考訳) ニューロモルフィック(イベントベースの)イメージセンサーは、人間の網膜からインスピレーションを得て、生体によく似た方法で視覚刺激を処理できる電子機器を作る。 これらのセンサーは従来のRGBセンサーとは大きく異なる情報を処理する。 具体的には、イベントベースイメージセンサが生成する知覚情報は、RGBセンサと比べて桁違いのスペーサーである。 第1世代のニューロモルフィック画像センサであるDynamic Vision Sensor (DVS)は、光受容体と最初の網膜シナプスに制限された計算にインスパイアされている。 本研究は,ニューロモルフィック画像センサの第2世代,CMOSイメージセンサ(IRIS)における統合網膜機能(Integrated Retinal Functionality in CMOS Image Sensors)の能力を強調するものである。 この研究で選択される特徴は、IRISセンサーで局所的に処理されるオブジェクト運動感度(OMS)である。 イベントベースカメラのエゴモーション問題を解決するためのOMSの能力について検討する。 OMS は従来の RGB や DVS と同様の効率で標準的なコンピュータビジョンタスクを実現できるが,帯域幅の大幅な削減が可能である。 これにより、ワイヤレスおよびコンピューティングの電力予算が削減され、高速、堅牢、エネルギー効率、低帯域幅のリアルタイム意思決定において大きな機会が開ける。

Neuromorphic (event-based) image sensors draw inspiration from the human-retina to create an electronic device that can process visual stimuli in a way that closely resembles its biological counterpart. These sensors process information significantly different than the traditional RGB sensors. Specifically, the sensory information generated by event-based image sensors are orders of magnitude sparser compared to that of RGB sensors. The first generation of neuromorphic image sensors, Dynamic Vision Sensor (DVS), are inspired by the computations confined to the photoreceptors and the first retinal synapse. In this work, we highlight the capability of the second generation of neuromorphic image sensors, Integrated Retinal Functionality in CMOS Image Sensors (IRIS), which aims to mimic full retinal computations from photoreceptors to output of the retina (retinal ganglion cells) for targeted feature-extraction. The feature of choice in this work is Object Motion Sensitivity (OMS) that is processed locally in the IRIS sensor. We study the capability of OMS in solving the ego-motion problem of the event-based cameras. Our results show that OMS can accomplish standard computer vision tasks with similar efficiency to conventional RGB and DVS solutions but offers drastic bandwidth reduction. This cuts the wireless and computing power budgets and opens up vast opportunities in high-speed, robust, energy-efficient, and low-bandwidth real-time decision making.
翻訳日:2023-03-28 11:39:23 公開日:2023-03-27
# NeuFace:マルチビュー画像からのリアルな3Dニューラルフェイスレンダリング

NeuFace: Realistic 3D Neural Face Rendering from Multi-view Images ( http://arxiv.org/abs/2303.14092v2 )

ライセンス: Link先を確認
Mingwu Zheng, Haiyu Zhang, Hongyu Yang, Di Huang(参考訳) マルチビュー画像からのリアルな顔レンダリングは、様々なコンピュータビジョンやグラフィックアプリケーションに有用である。 しかし, 顔の複雑な空間的な反射特性と幾何学的特徴から, 顔の3次元表現を忠実かつ効率的に復元することは依然として困難である。 本稿では,ニューラルレンダリング技術を用いて,正確で物理的に意味のある3次元表現を学習する,新しい3次元顔レンダリングモデルneufaceを提案する。 自然に神経BRDFを物理的にベースとしたレンダリングに組み込んで、高度な顔形状と外観の手がかりを協調的に捉える。 具体的には、近距離BRDF統合と、簡単な新しい低ランク前処理を導入し、曖昧さを効果的に低減し、顔面BRDFの性能を高める。 大規模な実験は、人間の顔レンダリングにおけるNeuFaceの優位性を実証し、共通オブジェクトへの適切な一般化能力を示した。

Realistic face rendering from multi-view images is beneficial to various computer vision and graphics applications. Due to the complex spatially-varying reflectance properties and geometry characteristics of faces, however, it remains challenging to recover 3D facial representations both faithfully and efficiently in the current studies. This paper presents a novel 3D face rendering model, namely NeuFace, to learn accurate and physically-meaningful underlying 3D representations by neural rendering techniques. It naturally incorporates the neural BRDFs into physically based rendering, capturing sophisticated facial geometry and appearance clues in a collaborative manner. Specifically, we introduce an approximated BRDF integration and a simple yet new low-rank prior, which effectively lower the ambiguities and boost the performance of the facial BRDFs. Extensive experiments demonstrate the superiority of NeuFace in human face rendering, along with a decent generalization ability to common objects.
翻訳日:2023-03-28 11:38:57 公開日:2023-03-27
# 両世界のベスト:表データと画像データを用いたマルチモーダルコントラスト学習

Best of Both Worlds: Multimodal Contrastive Learning with Tabular and Imaging Data ( http://arxiv.org/abs/2303.14080v2 )

ライセンス: Link先を確認
Paul Hager, Martin J. Menten, Daniel Rueckert(参考訳) 医用データセット、特にバイオバンクは、画像に加えて豊富な臨床情報を含む広範な表型データを含むことが多い。 実際には、臨床医は多様性とスケールの両面でデータが少ないが、いまだにディープラーニングソリューションの展開を望んでいる。 医療データセットのサイズの増加と高価なアノテーションコストに加えて、マルチモーダルで事前訓練し、一様予測できる教師なしの方法の必要性が高まっている。 これらのニーズに対処するために,画像と表データを利用して非モーダルエンコーダを訓練する,自己指導型コントラスト学習フレームワークを提案する。 我々のソリューションはSimCLRとSCARFという2つの主要なコントラスト学習戦略を組み合わせており、シンプルで効果的です。 実験では,心mri画像と4万人の英国バイオバンク患者から120の臨床的特徴を用いて,心筋梗塞および冠動脈疾患(cad)のリスクを予測することにより,枠組みの強度を実証する。 さらに,DVMカー広告データセットを用いて,自然画像へのアプローチの一般化可能性を示す。 表データの高い解釈可能性を利用し,帰属実験およびアブレーション実験により,形態計測表の特徴は,大きさと形状を記述し,比較学習過程において重要度を大きくし,学習埋め込みの質を向上させることを見出した。 最後に,教師付きコントラスト学習の新たな形式であるlaaf( label as a feature)を導入し,マルチモーダル事前学習中に基底真理ラベルを表型特徴として付加し,教師付きコントラストベースラインを上回った。

Medical datasets and especially biobanks, often contain extensive tabular data with rich clinical information in addition to images. In practice, clinicians typically have less data, both in terms of diversity and scale, but still wish to deploy deep learning solutions. Combined with increasing medical dataset sizes and expensive annotation costs, the necessity for unsupervised methods that can pretrain multimodally and predict unimodally has risen. To address these needs, we propose the first self-supervised contrastive learning framework that takes advantage of images and tabular data to train unimodal encoders. Our solution combines SimCLR and SCARF, two leading contrastive learning strategies, and is simple and effective. In our experiments, we demonstrate the strength of our framework by predicting risks of myocardial infarction and coronary artery disease (CAD) using cardiac MR images and 120 clinical features from 40,000 UK Biobank subjects. Furthermore, we show the generalizability of our approach to natural images using the DVM car advertisement dataset. We take advantage of the high interpretability of tabular data and through attribution and ablation experiments find that morphometric tabular features, describing size and shape, have outsized importance during the contrastive learning process and improve the quality of the learned embeddings. Finally, we introduce a novel form of supervised contrastive learning, label as a feature (LaaF), by appending the ground truth label as a tabular feature during multimodal pretraining, outperforming all supervised contrastive baselines.
翻訳日:2023-03-28 11:38:42 公開日:2023-03-27
# 適応型インスタンスワイズ・スムースティングによる対人訓練の改善

Improved Adversarial Training Through Adaptive Instance-wise Loss Smoothing ( http://arxiv.org/abs/2303.14077v2 )

ライセンス: Link先を確認
Lin Li, Michael Spratling(参考訳) 深いニューラルネットワークは、逆の摂動によって入力が破壊され、人間の知覚できない人工ノイズによって誤った予測をすることができる。 これまでのところ、敵の訓練はこのような敵の攻撃に対する最も成功した防御であった。 この研究は、敵の堅牢性を高めるために敵の訓練を改善することに焦点を当てている。 まず、インスタンスの観点から、敵のトレーニング中に敵の脆弱性がどのように進化するかを分析します。 学習中,攻撃に対して脆弱なトレーニングサンプルのかなりの割合を犠牲にすることで,攻撃的損失の全体的な低減が達成され,その結果,データ間の攻撃的脆弱性が均一に分布することを見出した。 このような「不均一な脆弱性」は、いくつかの一般的なロバストなトレーニング方法に広まり、さらに重要なことは、敵のトレーニングにおける過剰フィッティングに関連している。 本研究の目的は,新たな対人訓練手法であるインスタンス適応型平滑化強化対人訓練(ISEAT)を提案することである。 入力と減量の両方のランドスケープを、適応的でインスタンス固有の方法で円滑にし、高い逆の脆弱性を持つサンプルに対してより堅牢性を高める。 本手法が既存の防御法よりも優れていることを示す。 特に,最新のデータ拡張と半教師付き学習技術を組み合わせることで,Wide ResNet34-10では59.32%,Wide ResNet28-10では61.55%,CIFAR10では$\ell_{\infty}$-normによる攻撃に対して,最先端の堅牢性を達成している。 コードはhttps://github.com/TreeLLi/Instance-adaptive-Smoothness-Enhanced-ATで公開されている。

Deep neural networks can be easily fooled into making incorrect predictions through corruption of the input by adversarial perturbations: human-imperceptible artificial noise. So far adversarial training has been the most successful defense against such adversarial attacks. This work focuses on improving adversarial training to boost adversarial robustness. We first analyze, from an instance-wise perspective, how adversarial vulnerability evolves during adversarial training. We find that during training an overall reduction of adversarial loss is achieved by sacrificing a considerable proportion of training samples to be more vulnerable to adversarial attack, which results in an uneven distribution of adversarial vulnerability among data. Such "uneven vulnerability", is prevalent across several popular robust training methods and, more importantly, relates to overfitting in adversarial training. Motivated by this observation, we propose a new adversarial training method: Instance-adaptive Smoothness Enhanced Adversarial Training (ISEAT). It jointly smooths both input and weight loss landscapes in an adaptive, instance-specific, way to enhance robustness more for those samples with higher adversarial vulnerability. Extensive experiments demonstrate the superiority of our method over existing defense methods. Noticeably, our method, when combined with the latest data augmentation and semi-supervised learning techniques, achieves state-of-the-art robustness against $\ell_{\infty}$-norm constrained attacks on CIFAR10 of 59.32% for Wide ResNet34-10 without extra data, and 61.55% for Wide ResNet28-10 with extra data. Code is available at https://github.com/TreeLLi/Instance-adaptive-Smoothness-Enhanced-AT.
翻訳日:2023-03-28 11:38:14 公開日:2023-03-27
# dance the quantum waltz: 3量子ビットゲートを4レベルアーキテクチャにコンパイルする

Dancing the Quantum Waltz: Compiling Three-Qubit Gates on Four Level Architectures ( http://arxiv.org/abs/2303.14069v2 )

ライセンス: Link先を確認
Andrew Litteken (1), Lennart Maximilian Seifert (1), Jason D. Chadwick (1), Natalia Nottingham (1), Tanay Roy (1 and 2), Ziqian Li (1 and 3), David Schuster (1 and 3), Frederic T. Chong (1), Jonathan M. Baker (4) ((1) University of Chicago, (2) Fermilab, (3) Stanford University, (4) Duke University)(参考訳) 超伝導量子デバイスは量子計算の最先端技術であるが、いくつかの課題を抱えている。 ゲートエラー、コヒーレンスエラー、接続性の欠如はいずれも、信頼性の低い結果に寄与する。 特に接続制限は、3量子ゲートを1または2量子ゲートに分解する必要があるゲートセットを強制する。 これにより、実行すべき2ビットゲートの数を大幅に増加させる。 しかし、多くの量子デバイスはより高いエネルギーレベルにアクセスできる。 qubitの$|0\rangle$と$|1\rangle$の抽象化を$|2\rangle$と$|3\rangle$の状態にアクセスできるququartに拡張できます。 これにより、2つの量子ビットを1つの量子ビットにエンコードすることができ、2つの隣接する量子ビットから4つの完全に接続された量子ビットへの物理ユニット間の仮想接続が増加する。 この接続方式により、2つの物理デバイス間でより効率的に3量子ビットゲートを実行できる。 最適制御により合成された数個の3量子ゲートの直接対パルス実装を行い、最適制御により設計された4レベルキュートゲートの最初の実験実験で、4レベルデバイスにアクセス可能な超伝導アーキテクチャ上に3量子ゲートをコンパイルする。 我々は、トッフォリゲートの実行に一時的に高レベル状態を使用し、常に高レベル状態を使用して量子回路のフィダリティを改善する戦略を示す。 これらの手法は,中間符号化を用いて回路サイズを2倍に向上し,完全符号化クォートコンパイルでは3倍に向上する。

Superconducting quantum devices are a leading technology for quantum computation, but they suffer from several challenges. Gate errors, coherence errors and a lack of connectivity all contribute to low fidelity results. In particular, connectivity restrictions enforce a gate set that requires three-qubit gates to be decomposed into one- or two-qubit gates. This substantially increases the number of two-qubit gates that need to be executed. However, many quantum devices have access to higher energy levels. We can expand the qubit abstraction of $|0\rangle$ and $|1\rangle$ to a ququart which has access to the $|2\rangle$ and $|3\rangle$ state, but with shorter coherence times. This allows for two qubits to be encoded in one ququart, enabling increased virtual connectivity between physical units from two adjacent qubits to four fully connected qubits. This connectivity scheme allows us to more efficiently execute three-qubit gates natively between two physical devices. We present direct-to-pulse implementations of several three-qubit gates, synthesized via optimal control, for compilation of three-qubit gates onto a superconducting-based architecture with access to four-level devices with the first experimental demonstration of four-level ququart gates designed through optimal control. We demonstrate strategies that temporarily use higher level states to perform Toffoli gates and always use higher level states to improve fidelities for quantum circuits. We find that these methods improve expected fidelities with increases of 2x across circuit sizes using intermediate encoding, and increases of 3x for fully-encoded ququart compilation.
翻訳日:2023-03-28 11:37:41 公開日:2023-03-27
# 低温ハイブリッド無線/量子コヒーレントネットワーク・イン・パッケージによるスケーラブルマルチチップ量子アーキテクチャ

Scalable multi-chip quantum architectures enabled by cryogenic hybrid wireless/quantum-coherent network-in-package ( http://arxiv.org/abs/2303.14008v2 )

ライセンス: Link先を確認
Eduard Alarc\'on, Sergi Abadal, Fabio Sebastiano, Massoud Babaie, Edoardo Charbon, Peter Haring Bol\'ivar, Maurizio Palesi, Elena Blokhina, Dirk Leipold, Bogdan Staszewski, Artur Garcia-S\'aez, Carmen G. Almudever(参考訳) 量子コンピュータのスケールアップという大きな課題は、フルスタックアーキテクチャの観点を必要とする。 本稿では,分散量子コア(Qcore)を量子コヒーレントな量子ビット状態伝達リンクで相互接続し,統合された無線接続でオーケストレーションする,次世代のスケーラブル量子コンピューティングアーキテクチャの展望を示す。

The grand challenge of scaling up quantum computers requires a full-stack architectural standpoint. In this position paper, we will present the vision of a new generation of scalable quantum computing architectures featuring distributed quantum cores (Qcores) interconnected via quantum-coherent qubit state transfer links and orchestrated via an integrated wireless interconnect.
翻訳日:2023-03-28 11:37:08 公開日:2023-03-27
# 到達性解析を用いた自律走行車の物理的バックドアトリガー起動

Physical Backdoor Trigger Activation of Autonomous Vehicle using Reachability Analysis ( http://arxiv.org/abs/2303.13992v2 )

ライセンス: Link先を確認
Wenqing Li, Yue Wang, Muhammad Shafique, Saif Eddin Jabari(参考訳) 近年の研究では、自律走行車(AV)は隠れたバックドアで操作でき、物理的トリガーによって起動されると有害な行動を起こすことが示されている。 しかし、これらのトリガーが交通原則に固執しながらどのように活性化されるのかはまだ不明である。 動的なトラフィック環境でこの脆弱性を理解することは重要です。 この研究は、制御された動的システムの到達可能性問題として物理的トリガの活性化を提示することで、このギャップに対処する。 本手法は,事故の引き金条件に到達可能な交通システムにおけるセキュリティクリティカル領域を特定し,その状況に到達するための軌道を提供する。 典型的なトラフィックシナリオをテストすると、システムは100%に近いアクティベーション率の条件をトリガーすることに成功した。 本手法は,av脆弱性を識別し,効果的な安全性戦略を実現することに有用である。

Recent studies reveal that Autonomous Vehicles (AVs) can be manipulated by hidden backdoors, causing them to perform harmful actions when activated by physical triggers. However, it is still unclear how these triggers can be activated while adhering to traffic principles. Understanding this vulnerability in a dynamic traffic environment is crucial. This work addresses this gap by presenting physical trigger activation as a reachability problem of controlled dynamic system. Our technique identifies security-critical areas in traffic systems where trigger conditions for accidents can be reached, and provides intended trajectories for how those conditions can be reached. Testing on typical traffic scenarios showed the system can be successfully driven to trigger conditions with near 100% activation rate. Our method benefits from identifying AV vulnerability and enabling effective safety strategies.
翻訳日:2023-03-28 11:37:01 公開日:2023-03-27
# MUG: 理解と生成のベンチマーク

MUG: A General Meeting Understanding and Generation Benchmark ( http://arxiv.org/abs/2303.13939v2 )

ライセンス: Link先を確認
Qinglin Zhang, Chong Deng, Jiaqing Liu, Hai Yu, Qian Chen, Wen Wang, Zhijie Yan, Jinglin Liu, Yi Ren, Zhou Zhao(参考訳) ビデオ会議やオンラインコースから長いビデオ/オーディオ録音を聴くことは極めて非効率である。 ASRシステムは、記録を長文の音声文書に書き起こした後でも、ASRの書き起こしを読むことは、情報の検索を高速化するだけである。 キーフレーズ抽出やトピックセグメンテーション,要約など,さまざまなNLPアプリケーションが重要情報の収集において,ユーザの効率を著しく向上させることがわかった。 ミーティングシナリオは,これらの言語処理(SLP)機能をデプロイする上で,最も価値のあるシナリオのひとつだ。 しかし、これらのSLPタスクに注釈を付けた大規模な公開ミーティングデータセットの欠如は、彼らの進歩を著しく妨げている。 slpの進歩を促進するために,トピックセグメンテーション,トピックレベルおよびセッションレベルの抽出要約,トピックタイトル生成,キーフレーズ抽出,アクションアイテム検出など,幅広いslpタスクのパフォーマンスをベンチマークするために,mug(general meeting understanding and generation benchmark)を確立した。 mugベンチマークを容易にするために,大規模会議データセットであるalimeeting4mugコーパスを構築して公開する。このコーパスは654回録音されたマンダリン会議セッションで,トピックカバレッジが多様であり,会議記録のマニュアル書き起こしにslpタスクのマニュアルアノテーションが組み込まれている。 私たちの知る限りでは、AliMeeting4MUG Corpusは規模で最大のミーティングコーパスであり、ほとんどのSLPタスクを促進する。 本稿では,本コーパスの詳細な紹介,slpタスクと評価方法,ベースラインシステムとその性能について述べる。

Listening to long video/audio recordings from video conferencing and online courses for acquiring information is extremely inefficient. Even after ASR systems transcribe recordings into long-form spoken language documents, reading ASR transcripts only partly speeds up seeking information. It has been observed that a range of NLP applications, such as keyphrase extraction, topic segmentation, and summarization, significantly improve users' efficiency in grasping important information. The meeting scenario is among the most valuable scenarios for deploying these spoken language processing (SLP) capabilities. However, the lack of large-scale public meeting datasets annotated for these SLP tasks severely hinders their advancement. To prompt SLP advancement, we establish a large-scale general Meeting Understanding and Generation Benchmark (MUG) to benchmark the performance of a wide range of SLP tasks, including topic segmentation, topic-level and session-level extractive summarization and topic title generation, keyphrase extraction, and action item detection. To facilitate the MUG benchmark, we construct and release a large-scale meeting dataset for comprehensive long-form SLP development, the AliMeeting4MUG Corpus, which consists of 654 recorded Mandarin meeting sessions with diverse topic coverage, with manual annotations for SLP tasks on manual transcripts of meeting recordings. To the best of our knowledge, the AliMeeting4MUG Corpus is so far the largest meeting corpus in scale and facilitates most SLP tasks. In this paper, we provide a detailed introduction of this corpus, SLP tasks and evaluation methods, baseline systems and their performance.
翻訳日:2023-03-28 11:36:47 公開日:2023-03-27
# グラフニューラルネットワークによる粒子物理過程の位相再構成

Topological Reconstruction of Particle Physics Processes using Graph Neural Networks ( http://arxiv.org/abs/2303.13937v2 )

ライセンス: Link先を確認
Lukas Ehrke, John Andrew Raine, Knut Zoch, Manuel Guth, Tobias Golling(参考訳) 本稿では,粒子の減衰とメッセージパッシンググラフニューラルネットワークの柔軟性を基礎として,中間粒子を含む基礎となる物理過程を再構築する新しい手法であるtopographを提案する。 トポグラフは観測された最終状態天体の組合せ的な割り当てを解き、元の母粒子と関連付けるだけでなく、ハード散乱過程における中間粒子の性質とそれに続く崩壊を直接予測する。 グラフニューラルネットワークを用いた標準的なコンビネータアプローチや現代的なアプローチと比較すると、グラフの複雑さは再構成されたオブジェクトの数と線形にスケールする。 我々は、全ハドロン減衰チャネルにおけるトップクォーク対生成にトポグラフを適用し、標準手法より優れ、最先端の機械学習技術の性能に適合する。

We present a new approach, the Topograph, which reconstructs underlying physics processes, including the intermediary particles, by leveraging underlying priors from the nature of particle physics decays and the flexibility of message passing graph neural networks. The Topograph not only solves the combinatoric assignment of observed final state objects, associating them to their original mother particles, but directly predicts the properties of intermediate particles in hard scatter processes and their subsequent decays. In comparison to standard combinatoric approaches or modern approaches using graph neural networks, which scale exponentially or quadratically, the complexity of Topographs scales linearly with the number of reconstructed objects. We apply Topographs to top quark pair production in the all hadronic decay channel, where we outperform the standard approach and match the performance of the state-of-the-art machine learning technique.
翻訳日:2023-03-28 11:36:18 公開日:2023-03-27
# Pre-RadGraphFormer:X線から放射線グラフを生成するための事前知識強化変換器

Prior-RadGraphFormer: A Prior-Knowledge-Enhanced Transformer for Generating Radiology Graphs from X-Rays ( http://arxiv.org/abs/2303.13818v2 )

ライセンス: Link先を確認
Yiheng Xiong, Jingsong Liu, Kamilia Zaripova, Sahand Sharifzadeh, Matthias Keicher, Nassir Navab(参考訳) ラジオグラフィーグラフを用いた自由テキストX線写真からの構造化された臨床情報の抽出は, レポートジェネレーション法の臨床正当性を評価する上で有用であることが示されている。 しかし胸部X線像(CXR)からの放射線線図の直接生成は試みられていない。 このギャップに対処するために,確率的知識グラフ(PKG)の形で事前知識を持つトランスフォーマーモデルを用いて,CXR画像から直接ラジオロジーグラフを生成する,Preside-RadGraphFormerという新しい手法を提案する。 PKGは、解剖学的構造や医学的観察を含む放射線学の実体間の統計的関係をモデル化する。 この追加の文脈情報は、エンティティと関係抽出の精度を高める。 生成されたラジオロジーグラフは、自由テキストや構造化レポートの生成や病理の多ラベル分類など、様々な下流タスクに適用することができる。 提案手法は,CXR画像から直接ラジオグラフィーグラフを生成するための有望な手法であり,医用画像解析や臨床診断に有意な可能性を秘めている。

The extraction of structured clinical information from free-text radiology reports in the form of radiology graphs has been demonstrated to be a valuable approach for evaluating the clinical correctness of report-generation methods. However, the direct generation of radiology graphs from chest X-ray (CXR) images has not been attempted. To address this gap, we propose a novel approach called Prior-RadGraphFormer that utilizes a transformer model with prior knowledge in the form of a probabilistic knowledge graph (PKG) to generate radiology graphs directly from CXR images. The PKG models the statistical relationship between radiology entities, including anatomical structures and medical observations. This additional contextual information enhances the accuracy of entity and relation extraction. The generated radiology graphs can be applied to various downstream tasks, such as free-text or structured reports generation and multi-label classification of pathologies. Our approach represents a promising method for generating radiology graphs directly from CXR images, and has significant potential for improving medical image analysis and clinical decision-making.
翻訳日:2023-03-28 11:36:02 公開日:2023-03-27