このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230404となっている論文です。

PDF登録状況(公開日: 20230404)

TitleAuthorsAbstract論文公表日・翻訳日
# SATは排他的検索を必要とする

SAT Requires Exhaustive Search ( http://arxiv.org/abs/2302.09512v4 )

ライセンス: Link先を確認
Ke Xu, Guangyan Zhou(参考訳) 本稿では, CSP(大域領域)とSAT(長節節)の極めて難しい例を構築することにより, 徹底的な探索なしにはそのような例は解決できないことを証明し, より弱い結論 P $\neq$ NP を導出する。 計算複雑性理論で現在使われているものとは全く異なる(そして欠落している)が、クルト・G・"{o}del が彼の有名な論理的不合理結果を証明する際に用いたものと似ている。 g\"{o}delの数学における形式的証明不可能性を証明するという結果が示すように、この論文の結果は計算の困難さを証明することは数学では難しくないことを示している。 具体的には, 3SAT のような多くの問題に対する下位境界の証明は, 徹底的な探索を避けるために, 様々な効果的な方法が考えられるため困難である。 しかし、非常に難しい例の場合、徹底的な検索が唯一の選択肢となり、その必要性を証明するのがより簡単になる。 これにより、SAT(長い節を持つ)と3-SATの分離は、3-SATと2-SATの分離よりもずっと簡単になる。 最後に,本論文の主な結果は,g\"{o}delの結果が示す構文と意味論の根本的な違いがcspとsatにも存在していることを示す。

In this paper, by constructing extremely hard examples of CSP (with large domains) and SAT (with long clauses), we prove that such examples cannot be solved without exhaustive search, which implies a weaker conclusion P $\neq$ NP. This constructive approach for proving impossibility results is very different (and missing) from those currently used in computational complexity theory, but is similar to that used by Kurt G\"{o}del in proving his famous logical impossibility results. Just as shown by G\"{o}del's results that proving formal unprovability is feasible in mathematics, the results of this paper show that proving computational hardness is not hard in mathematics. Specifically, proving lower bounds for many problems, such as 3-SAT, can be challenging because these problems have various effective strategies available for avoiding exhaustive search. However, in cases of extremely hard examples, exhaustive search may be the only viable option, and proving its necessity becomes more straightforward. Consequently, it makes the separation between SAT (with long clauses) and 3-SAT much easier than that between 3-SAT and 2-SAT. Finally, the main results of this paper demonstrate that the fundamental difference between the syntax and the semantics revealed by G\"{o}del's results also exists in CSP and SAT.
翻訳日:2023-04-16 22:40:16 公開日:2023-04-04
# MIPヒューリスティックススケジューリングのためのオンライン学習

Online Learning for Scheduling MIP Heuristics ( http://arxiv.org/abs/2304.03755v1 )

ライセンス: Link先を確認
Antonia Chmiela, Ambros Gleixner, Pawel Lichocki, Sebastian Pokutta(参考訳) MIP(Mixed Integer Programming)はNPハードであるが、現代の解法はしばしば数分で大きな現実世界の問題を解く。 この成功の一部はヒューリスティックスによるものである。 それらの振る舞いは、非常にインスタンスに依存しているため、大規模なベンチマークインスタンスの不均一なコーパスに対する経験的テストに由来するハードコードされたルールに依存すると、準最適性能につながる可能性がある。 本稿では,経験則の適用を手元にある単一インスタンスに適用するオンライン学習手法を提案する。 我々は、一般的に使用される静的ヒューリスティックハンドリングを、ヒューリスティックの振る舞いに関する過去の観察を利用して将来の決定を行う適応フレームワークに置き換える。 特に,多武装バンディット問題である広範で複雑なヒューリスティックスの2つのクラスであるLarge Neborhood Search and Divingの制御問題をモデル化する。 文学における既存の作業を超えて、我々は1つの学習エージェントによって2つの異なるヒューリスティックのクラスを同時に制御する。 提案手法を数値的に検証し,MIPLIB 2017ベンチマークセット上で一貫したノード削減を示す。 解決に少なくとも1000秒を要する難しいインスタンスに対しては、4%のスピードアップを観察します。

Mixed Integer Programming (MIP) is NP-hard, and yet modern solvers often solve large real-world problems within minutes. This success can partially be attributed to heuristics. Since their behavior is highly instance-dependent, relying on hard-coded rules derived from empirical testing on a large heterogeneous corpora of benchmark instances might lead to sub-optimal performance. In this work, we propose an online learning approach that adapts the application of heuristics towards the single instance at hand. We replace the commonly used static heuristic handling with an adaptive framework exploiting past observations about the heuristic's behavior to make future decisions. In particular, we model the problem of controlling Large Neighborhood Search and Diving - two broad and complex classes of heuristics - as a multi-armed bandit problem. Going beyond existing work in the literature, we control two different classes of heuristics simultaneously by a single learning agent. We verify our approach numerically and show consistent node reductions over the MIPLIB 2017 Benchmark set. For harder instances that take at least 1000 seconds to solve, we observe a speedup of 4%.
翻訳日:2023-04-16 22:35:28 公開日:2023-04-04
# Adaptive Feature Fusion:ディープラーニングモデルにおける一般化の強化

Adaptive Feature Fusion: Enhancing Generalization in Deep Learning Models ( http://arxiv.org/abs/2304.03290v1 )

ライセンス: Link先を確認
Neelesh Mungoli(参考訳) 近年,ディープラーニングモデルはコンピュータビジョン,自然言語処理,音声認識など,様々な領域で顕著な成功を収めている。 しかしながら、これらのモデルの一般化能力は、それらの特徴融合技術の限界によって負の影響を受けうる。 本稿では,特徴表現の融合過程を動的に適応させることにより,ディープラーニングモデルの一般化を促進するための新しいアプローチであるAdaptive Feature Fusion(AFF)を紹介する。 提案されたAFFフレームワークは、既存のディープラーニングアーキテクチャに融合レイヤを組み込むように設計されており、シームレスな統合とパフォーマンスの向上を可能にしている。 データ駆動とモデルベースの融合戦略の組み合わせを活用することで、AFFは基礎となるデータ特性とモデル要求に基づいて、機能を適応的にフューズすることができる。 本稿では,各種アーキテクチャのための融合層の設計と実装を含む,AFFフレームワークの詳細について述べる。 複数のベンチマークデータセットで大規模な実験を行い、従来の特徴融合技術と比較してAFFアプローチの優位性を実証した。 この分析は、一般化能力の向上におけるAFFの有効性を示し、様々なタスクやアプリケーションのパフォーマンスを改善した。 最後に,AFFが適用可能な実世界のさまざまなユースケースについて論じ,その実用性について考察する。 この結論は、高度な融合戦略の探索や、他の機械学習パラダイムへのAFFの拡張など、将来の研究方向性の可能性を強調している。

In recent years, deep learning models have demonstrated remarkable success in various domains, such as computer vision, natural language processing, and speech recognition. However, the generalization capabilities of these models can be negatively impacted by the limitations of their feature fusion techniques. This paper introduces an innovative approach, Adaptive Feature Fusion (AFF), to enhance the generalization of deep learning models by dynamically adapting the fusion process of feature representations. The proposed AFF framework is designed to incorporate fusion layers into existing deep learning architectures, enabling seamless integration and improved performance. By leveraging a combination of data-driven and model-based fusion strategies, AFF is able to adaptively fuse features based on the underlying data characteristics and model requirements. This paper presents a detailed description of the AFF framework, including the design and implementation of fusion layers for various architectures. Extensive experiments are conducted on multiple benchmark datasets, with the results demonstrating the superiority of the AFF approach in comparison to traditional feature fusion techniques. The analysis showcases the effectiveness of AFF in enhancing generalization capabilities, leading to improved performance across different tasks and applications. Finally, the paper discusses various real-world use cases where AFF can be employed, providing insights into its practical applicability. The conclusion highlights the potential for future research directions, including the exploration of advanced fusion strategies and the extension of AFF to other machine learning paradigms.
翻訳日:2023-04-16 22:34:50 公開日:2023-04-04
# vishien-maat:syameseニューラルネットワークの概念を非技術ユーザに提供するスクロールytellingビジュアライゼーションデザイン

VISHIEN-MAAT: Scrollytelling visualization design for explaining Siamese Neural Network concept to non-technical users ( http://arxiv.org/abs/2304.03288v1 )

ライセンス: Link先を確認
Noptanit Chotisarn, Sarun Gulyanon, Tianye Zhang, Wei Chen(参考訳) 過去10年間、ディープラーニングのブレークスルー以来、AI研究の急速な進歩が見られた。 AI技術は、ほぼすべての分野に適用されているため、技術的および非技術的エンドユーザは、それらを活用するためにこれらの技術を理解する必要がある。 しかし、既存の素材は専門家向けに設計されているが、非技術ユーザーは簡単な手順で複雑なアイデアを提供する魅力的な材料を必要としている。 このようなプロファイルに適合する注目すべきツールのひとつにスクロール・テリングがある。これはストーリーテリングのアプローチであり、読者のペースで自然なリッチな体験を提供するとともに、複雑な概念の深いインタラクティブな説明を提供する。 そこで本研究では,非技術ユーザに対してai概念を効果的に説明できるスクロールリーテリングを作成するための新しい可視化設計を提案する。 デザインのデモンストレーションとして,視覚類似性マッチング問題に対して,シャムニューラルネットを説明するスクロールytellingを開発した。 当社のアプローチは,セールスピッチのような短時間の状況に有用な可視化を実現する上で有効です。 その結果,新しいデザインに基づく可視化は,オンライン記事のような従来の素材と比較して,非技術者の知覚と機械学習概念の知識獲得を向上することがわかった。

The past decade has witnessed rapid progress in AI research since the breakthrough in deep learning. AI technology has been applied in almost every field; therefore, technical and non-technical end-users must understand these technologies to exploit them. However existing materials are designed for experts, but non-technical users need appealing materials that deliver complex ideas in easy-to-follow steps. One notable tool that fits such a profile is scrollytelling, an approach to storytelling that provides readers with a natural and rich experience at the reader's pace, along with in-depth interactive explanations of complex concepts. Hence, this work proposes a novel visualization design for creating a scrollytelling that can effectively explain an AI concept to non-technical users. As a demonstration of our design, we created a scrollytelling to explain the Siamese Neural Network for the visual similarity matching problem. Our approach helps create a visualization valuable for a short-timeline situation like a sales pitch. The results show that the visualization based on our novel design helps improve non-technical users' perception and machine learning concept knowledge acquisition compared to traditional materials like online articles.
翻訳日:2023-04-16 22:34:28 公開日:2023-04-04
# アルゴリズムによる不動点計算の高速化について

On algorithmically boosting fixed-point computations ( http://arxiv.org/abs/2304.04665v1 )

ライセンス: Link先を確認
Ioannis Avramopoulos and Nikolaos Vasiloglou(参考訳) 本論文は,指数化アルゴリズムに関する思考実験である。 本稿の主な貢献の1つは、このアイデアが固定点計算アルゴリズムの指数化における物質的実装を見出すことを示すことである。 コンピュータ科学における様々な問題は、地図の不動点を計算する例としてキャストすることができる。 本稿では,アルゴリズム指数の(軽い)一般化であるアルゴリズムブースティングと呼ばれる反復的不動点計算の収束を促進させる一般的な方法を提案する。 まず,非線形写像の一般設定で本手法を定義する。 第2に,収束線形写像への注意を制限し,このアルゴリズムにより収束速度の指数的高速化を実現できることを示す。 第三に、アルゴリズム的ブースティングは(弱)非収束イテレータを(強)収束イテレータに変換することができることを示す。 次に,非収束連続流を収束流に変換するためのアルゴリズム的ブースティングツールに対する変分的アプローチを検討する。 最後に指数関数の実装について論じるが、これはスカラーの場合でさえ重要な問題である。

This paper is a thought experiment on exponentiating algorithms. One of the main contributions of this paper is to show that this idea finds material implementation in exponentiating fixed-point computation algorithms. Various problems in computer science can be cast as instances of computing a fixed point of a map. In this paper, we present a general method of boosting the convergence of iterative fixed-point computations that we call algorithmic boosting, which is a (slight) generalization of algorithmic exponentiation. We first define our method in the general setting of nonlinear maps. Secondly, we restrict attention to convergent linear maps and show that our algorithmic boosting method can set in motion exponential speedups in the convergence rate. Thirdly, we show that algorithmic boosting can convert a (weak) non-convergent iterator to a (strong) convergent one. We then consider a variational approach to algorithmic boosting providing tools to convert a non-convergent continuous flow to a convergent one. We, finally, discuss implementations of the exponential function, an important issue even for the scalar case.
翻訳日:2023-04-16 22:24:07 公開日:2023-04-04
# 安全な説明可能なロボット計画

Safe Explicable Robot Planning ( http://arxiv.org/abs/2304.03773v1 )

ライセンス: Link先を確認
Akkamahadevi Hanni, Andrew Boateng and Yu Zhang(参考訳) 人間の期待は、他人や世界の知識に起因している。 人間とロボットの相互作用が関係している場合、ロボットに関するそのような知識は根底的な真実と矛盾する可能性がある。 説明可能な計画は、人間の期待を和らげる新しい計画手法として導入され、より解釈可能なロボット決定のための最適なロボット行動が導入された。 問題のひとつは、説明不能な意思決定時の安全性です。 我々は,安全境界の仕様をサポートするために,安全計画を拡張した安全計画(sep)を提案する。 SEPの目的は,SEPの解決策がパレートフロンティアに置かれる多目的最適化の特別な事例である,境界によってもたらされる安全制約を満足しつつ,人間の期待に近い行動を生成する政策を見つけることである。 このような定式化の下で、安全な説明可能なポリシーと近似解を返す新しい効率的な方法を提案する。 さらに,設計者特定境界下での厳密解の最適性に関する理論的証明を提供する。 提案手法の有効性と有効性について検討し,提案手法の有効性を検証した。

Human expectations stem from their knowledge of the others and the world. Where human-robot interaction is concerned, such knowledge about the robot may be inconsistent with the ground truth, resulting in the robot not meeting its expectations. Explicable planning was previously introduced as a novel planning approach to reconciling human expectations and the optimal robot behavior for more interpretable robot decision-making. One critical issue that remains unaddressed is safety during explicable decision-making which can lead to explicable behaviors that are unsafe. We propose Safe Explicable Planning (SEP), which extends explicable planning to support the specification of a safety bound. The objective of SEP is to find a policy that generates a behavior close to human expectations while satisfying the safety constraints introduced by the bound, which is a special case of multi-objective optimization where the solution to SEP lies on the Pareto frontier. Under such a formulation, we propose a novel and efficient method that returns the safe explicable policy and an approximate solution. In addition, we provide theoretical proof for the optimality of the exact solution under the designer-specified bound. Our evaluation results confirm the applicability and efficacy of our method for safe explicable planning.
翻訳日:2023-04-16 22:23:43 公開日:2023-04-04
# イノベーションの予測に関する新しい視点:ボストン近郊の比較研究を通してイノベーション指標を特定するためのデータ駆動手法

A new perspective on the prediction of the innovation performance: A data driven methodology to identify innovation indicators through a comparative study of Boston's neighborhoods ( http://arxiv.org/abs/2304.06039v1 )

ライセンス: Link先を確認
Eleni Oikonomaki, Dimitris Belivanis(参考訳) 知識に基づく経済、商業化研究、人材のグローバル化競争の時代において、イノベーションエコシステムとイノベーションネットワークの創造は都市の努力の最前線にある。 この文脈では、公的機関、民間組織、学者は、様々な革新スコアボードでイノベーションを予測できる最も有望な指標の疑問に答える。 本論文は,既存の指標の理解を深め,従来の情報源からの大きなデータセットを用いて,様々なイノベーション評価ツールキットを補完することを目的とする。 トップダウン型イノベーション地区とコミュニティレベルのイノベーションエコシステムの両方の成功は複雑であり、十分に検討されていない。 しかし、限られたデータは、近所のレベルでの指標とイノベーションのパフォーマンスの関係に光を当てた。 この目的のために、ボストン市は、その地区の異なる特性が高いイノベーション性能を達成することの重要性を明らかにするためのケーススタディとして選ばれた。 この研究は、ボストンの35のジップコード領域にまたがる、地理的に分散した大規模なデータセットを使用しており、様々なビジネス、起業家固有の、社会経済的なデータ、および文脈的都市次元を明らかにすることのできる他の種類のデータを含んでいる。 さらに、zipコード領域のイノベーションパフォーマンスを表現するために、イノベーションの場所と結びついた新しいメトリクスが提案されている。 この分析の結果は, 革新性向上のための新しい計画モデルを生成する「新進イノベーション指標」の導入を目的としており, それ以外のケースでも容易に適用できる。 この大規模な都市情報学データセットを公開することによって、イノベーションの談話に貢献し、都市の社会経済的特徴とイノベーションのパフォーマンスの間のつながりを識別する新たな理論的枠組みを実現することが目的である。

In an era of knowledge-based economy, commercialized research and globalized competition for talent, the creation of innovation ecosystems and innovation networks is at the forefront of efforts of cities. In this context, public authorities, private organizations, and academics respond to the question of the most promising indicators that can predict innovation with various innovation scoreboards. The current paper aims at increasing the understanding of the existing indicators and complementing the various innovation assessment toolkits, using large datasets from non-traditional sources. The success of both top down implemented innovation districts and community-level innovation ecosystems is complex and has not been well examined. Yet, limited data shed light on the association between indicators and innovation performance at the neighborhood level. For this purpose, the city of Boston has been selected as a case study to reveal the importance of its neighborhood's different characteristics in achieving high innovation performance. The study uses a large geographically distributed dataset across Boston's 35 zip code areas, which contains various business, entrepreneurial-specific, socio-economic data and other types of data that can reveal contextual urban dimensions. Furthermore, in order to express the innovation performance of the zip code areas, new metrics are proposed connected to innovation locations. The outcomes of this analysis aim to introduce a 'Neighborhood Innovation Index' that will generate new planning models for higher innovation performance, which can be easily applied in other cases. By publishing this large-scale dataset of urban informatics, the goal is to contribute to the innovation discourse and enable a new theoretical framework that identifies the linkages among cities' socio-economic characteristics and innovation performance.
翻訳日:2023-04-16 22:07:29 公開日:2023-04-04
# 生成aiのための小さなステップ,one giant leap for agi: aigc時代のchatgptに関する完全な調査

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era ( http://arxiv.org/abs/2304.06488v1 )

ライセンス: Link先を確認
Chaoning Zhang, Chenshuang Zhang, Chenghao Li, Yu Qiao, Sheng Zheng, Sumit Kumar Dam, Mengchun Zhang, Jung Uk Kim, Seong Tae Kim, Jinwoo Choi, Gyeong-Moon Park, Sung-Ho Bae, Lik-Hang Lee, Pan Hui, In So Kweon, Choong Seon Hong(参考訳) OpenAIは最近、GPT-4(別名ChatGPTプラス)をリリースしたが、これは生成AI(GAI)の1つの小さなステップであるが、人工知能(AGI)の1つの大きな飛躍である。 2022年11月に公式リリースされて以来、ChatGPTは急速に多くのユーザーを惹きつけてきた。 このような前例のない注目は、ChatGPTを様々な側面から研究する多くの研究者を動機付けている。 google scholarによると、chatgptをタイトルにした記事は500以上あり、抽象的に言及している。 これを考慮すると、レビューが緊急に必要であり、私たちの仕事はこのギャップを埋めます。 全体として、この研究はChatGPTを基盤技術、アプリケーション、課題に関する包括的なレビューで調査した初めてのものである。 さらに、ChatGPTが汎用AIGC(AI生成コンテンツ)を実現するためにどのように進化するかという展望を示す。

OpenAI has recently released GPT-4 (a.k.a. ChatGPT plus), which is demonstrated to be one small step for generative AI (GAI), but one giant leap for artificial general intelligence (AGI). Since its official release in November 2022, ChatGPT has quickly attracted numerous users with extensive media coverage. Such unprecedented attention has also motivated numerous researchers to investigate ChatGPT from various aspects. According to Google scholar, there are more than 500 articles with ChatGPT in their titles or mentioning it in their abstracts. Considering this, a review is urgently needed, and our work fills this gap. Overall, this work is the first to survey ChatGPT with a comprehensive review of its underlying technology, applications, and challenges. Moreover, we present an outlook on how ChatGPT might evolve to realize general-purpose AIGC (a.k.a. AI-generated content), which will be a significant milestone for the development of AGI.
翻訳日:2023-04-16 21:47:01 公開日:2023-04-04
# diatrend:新しい分析ソリューションの開発を可能にする高度な糖尿病技術によるデータセット

DiaTrend: A dataset from advanced diabetes technology to enable development of novel analytic solutions ( http://arxiv.org/abs/2304.06506v1 )

ライセンス: Link先を確認
Temiloluwa Prioleau, Abigail Bartolome, Richard Comi, Catherine Stanger(参考訳) 客観的デジタルデータは、医療の標準を変える研究を可能にするために、多くの領域ではまだ必要ではない。 コンシューマグレードのウェアラブルとスマートフォンのデータはよりアクセスしやすいが、診断された患者が使用する臨床レベルのデバイスからも同様のデータが必要である。 糖尿病領域におけるウェアラブル医療機器の普及は、この分野およびそれ以降におけるユニークな研究と発展の舞台となっている。 しかし、オープンソースデータセットの不足は、進歩の大きな障壁となる。 糖尿病関連問題のより広範な研究を容易にし、堅牢な計算ソリューションの開発を加速するために、DiaTrendデータセットを提供する。 DiaTrendデータセットは、合計27,561日連続グルコースモニターデータと、54人の糖尿病患者のインスリンポンプデータ8,220日を含む、ウェアラブル医療機器からの集中的な縦断データで構成されている。 このデータセットは、糖尿病患者の疾患負担を軽減し、外来患者の慢性的な状態管理に関する知識を増大させる新しい分析ソリューションの開発に有用である。

Objective digital data is scarce yet needed in many domains to enable research that can transform the standard of healthcare. While data from consumer-grade wearables and smartphones is more accessible, there is critical need for similar data from clinical-grade devices used by patients with a diagnosed condition. The prevalence of wearable medical devices in the diabetes domain sets the stage for unique research and development within this field and beyond. However, the scarcity of open-source datasets presents a major barrier to progress. To facilitate broader research on diabetes-relevant problems and accelerate development of robust computational solutions, we provide the DiaTrend dataset. The DiaTrend dataset is composed of intensive longitudinal data from wearable medical devices, including a total of 27,561 days of continuous glucose monitor data and 8,220 days of insulin pump data from 54 patients with diabetes. This dataset is useful for developing novel analytic solutions that can reduce the disease burden for people living with diabetes and increase knowledge on chronic condition management in outpatient settings.
翻訳日:2023-04-16 21:37:49 公開日:2023-04-04
# Adaptive Ensemble Learning:ディープニューラルネットワークにおけるインテリジェント特徴融合によるモデル性能向上

Adaptive Ensemble Learning: Boosting Model Performance through Intelligent Feature Fusion in Deep Neural Networks ( http://arxiv.org/abs/2304.02653v1 )

ライセンス: Link先を確認
Neelesh Mungoli(参考訳) 本稿では,アダプティブアンサンブル学習手法を用いて,インテリジェントに特徴を融合することにより,ディープニューラルネットワークの性能を向上させることを目的とした適応アンサンブル学習フレームワークを提案する。 提案フレームワークは、アンサンブル学習戦略とディープラーニングアーキテクチャを統合して、さまざまなドメインにわたる複雑なタスクを処理可能な、より堅牢で適応可能なモデルを作成する。 インテリジェントな特徴融合手法を活用することで、Adaptive Ensemble Learningフレームワークはより差別的で効果的な特徴表現を生成し、モデルの性能と一般化能力を向上させる。 画像分類,オブジェクト検出,自然言語処理,グラフベースの学習タスクなど,いくつかのベンチマークデータセットで広範な実験と評価を行った。 その結果,提案フレームワークは,ベースラインモデルや従来型機能融合技術よりも一貫して優れており,ディープラーニングモデルの性能向上における効果が強調された。 さらに,知的特徴融合がモデル性能に与える影響について考察し,現実シナリオにおける適応型アンサンブル学習フレームワークの可能性について考察する。 また,適応型アンサンブルモデルの設計と実装,アンサンブルトレーニング戦略,メタラーニング手法についても検討した。 結論として、アダプティブアンサンブル学習フレームワークは、ディープニューラルネットワークのための機能融合とアンサンブル学習の分野において重要な進歩を示しており、複数のドメインにわたって幅広いアプリケーションを変換する可能性を秘めている。

In this paper, we present an Adaptive Ensemble Learning framework that aims to boost the performance of deep neural networks by intelligently fusing features through ensemble learning techniques. The proposed framework integrates ensemble learning strategies with deep learning architectures to create a more robust and adaptable model capable of handling complex tasks across various domains. By leveraging intelligent feature fusion methods, the Adaptive Ensemble Learning framework generates more discriminative and effective feature representations, leading to improved model performance and generalization capabilities. We conducted extensive experiments and evaluations on several benchmark datasets, including image classification, object detection, natural language processing, and graph-based learning tasks. The results demonstrate that the proposed framework consistently outperforms baseline models and traditional feature fusion techniques, highlighting its effectiveness in enhancing deep learning models' performance. Furthermore, we provide insights into the impact of intelligent feature fusion on model performance and discuss the potential applications of the Adaptive Ensemble Learning framework in real-world scenarios. The paper also explores the design and implementation of adaptive ensemble models, ensemble training strategies, and meta-learning techniques, which contribute to the framework's versatility and adaptability. In conclusion, the Adaptive Ensemble Learning framework represents a significant advancement in the field of feature fusion and ensemble learning for deep neural networks, with the potential to transform a wide range of applications across multiple domains.
翻訳日:2023-04-07 16:40:41 公開日:2023-04-04
# fedbot: 連合学習によるチャットボットのプライバシー向上

FedBot: Enhancing Privacy in Chatbots with Federated Learning ( http://arxiv.org/abs/2304.03228v1 )

ライセンス: Link先を確認
Addi Ait-Mlouk, Sadi Alawadi, Salman Toor, Andreas Hellander(参考訳) チャットボットは主にデータ駆動で、通常はセンシティブな発話に基づいている。 しかしながら、共有データによるディープラーニングモデルのトレーニングは、ユーザのプライバシを侵害する可能性がある。 このような問題はチャットボットの登場以来、一般的に存在してきた。 文献では、差分プライバシーやセキュアなマルチパーティ計算など、プライバシを扱うための多くのアプローチがあるが、そのほとんどはユーザーのデータにアクセスする必要がある。 このコンテキストでは、フェデレートラーニング(FL)は、データをその場所に保持する分散学習方法を通じて、データのプライバシを保護することを目的としている。 本稿では,大規模顧客サポートデータを活用した,概念実証(poc)のプライバシ保存型チャットボットであるfeedbotを提案する。 POCはDeep Bidirectional Transformerモデルとフェデレーション学習アルゴリズムを組み合わせて、コラボレーティブモデルトレーニング中の顧客のデータプライバシを保護する。 概念実証の結果は、プライバシー保護のチャットボットが、データプライバシー規則や法的要件を満たすパーソナライズされた効率的なカスタマーサービスを提供することで、カスタマーサポート産業を変革する可能性を示している。 さらに,従来のインタラクションから学習する能力を活用して,時間とともに性能と精度を向上させるように設計されている。

Chatbots are mainly data-driven and usually based on utterances that might be sensitive. However, training deep learning models on shared data can violate user privacy. Such issues have commonly existed in chatbots since their inception. In the literature, there have been many approaches to deal with privacy, such as differential privacy and secure multi-party computation, but most of them need to have access to users' data. In this context, Federated Learning (FL) aims to protect data privacy through distributed learning methods that keep the data in its location. This paper presents Fedbot, a proof-of-concept (POC) privacy-preserving chatbot that leverages large-scale customer support data. The POC combines Deep Bidirectional Transformer models and federated learning algorithms to protect customer data privacy during collaborative model training. The results of the proof-of-concept showcase the potential for privacy-preserving chatbots to transform the customer support industry by delivering personalized and efficient customer service that meets data privacy regulations and legal requirements. Furthermore, the system is specifically designed to improve its performance and accuracy over time by leveraging its ability to learn from previous interactions.
翻訳日:2023-04-07 13:13:58 公開日:2023-04-04
# 未分化の注意:中間層はBERTにとって必要か?

Undivided Attention: Are Intermediate Layers Necessary for BERT? ( http://arxiv.org/abs/2012.11881v2 )

ライセンス: Link先を確認
Sharath Nittur Sridhar, Anthony Sarah(参考訳) 近年,BERTをベースとしたモデルは,読解,自然言語推論,感情分析など,さまざまな自然言語処理(NLP)タスクの解決に極めて成功している。 すべてのBERTベースのアーキテクチャは自己保持ブロックを持ち、続いて基本的なビルディングコンポーネントとして中間層のブロックがある。 しかし、これらの中間層を包含する強い正当性は文献に残っていない。 本研究では,下流タスクのネットワーク性能における中間層の重要性について検討する。 BERT-BASEの中間層数の削減とアーキテクチャの変更により、下流タスクの微調整精度の低下が最小限に抑えられ、パラメータの減少とモデルの訓練時間が短縮されることを示す。 さらに、カーネルアライメントと線形分類器の探索により、アーキテクチャ上の変更点の洞察を得、中間層の除去が微調整精度にほとんど影響を与えないことを正当化する。

In recent times, BERT-based models have been extremely successful in solving a variety of natural language processing (NLP) tasks such as reading comprehension, natural language inference, sentiment analysis, etc. All BERT-based architectures have a self-attention block followed by a block of intermediate layers as the basic building component. However, a strong justification for the inclusion of these intermediate layers remains missing in the literature. In this work we investigate the importance of intermediate layers on the overall network performance of downstream tasks. We show that reducing the number of intermediate layers and modifying the architecture for BERT-BASE results in minimal loss in fine-tuning accuracy for downstream tasks while decreasing the number of parameters and training time of the model. Additionally, we use centered kernel alignment and probing linear classifiers to gain insight into our architectural modifications and justify that removal of intermediate layers has little impact on the fine-tuned accuracy.
翻訳日:2023-04-06 17:10:48 公開日:2023-04-04
# 戦略エージェントによる治療割り当て

Treatment Allocation with Strategic Agents ( http://arxiv.org/abs/2011.06528v5 )

ライセンス: Link先を確認
Evan Munro(参考訳) 例えば、ターゲットマーケティング、個別のクレジットオファー、異種価格などである。 治療のパーソナライゼーションは、個人がより良い治療を得るために行動を変えるインセンティブをもたらす。 戦略行動は共変量と潜在的な結果の同時分布をシフトさせる。 戦略的行動のない最適規則は、前向きな条件平均治療効果を有する者にのみ治療を割り当てる。 戦略行動において, 最適ルールはランダム化を伴い, 平均的に正の反応を示した者でも100%未満の確率で治療を割り当てることができることを示した。 本研究では,ベイズ最適化に基づく逐次実験を提案し,個別の戦略行動に関するパラメトリックな仮定を伴わない最適処理規則に収束する。

There is increasing interest in allocating treatments based on observed individual characteristics: examples include targeted marketing, individualized credit offers, and heterogeneous pricing. Treatment personalization introduces incentives for individuals to modify their behavior to obtain a better treatment. Strategic behavior shifts the joint distribution of covariates and potential outcomes. The optimal rule without strategic behavior allocates treatments only to those with a positive Conditional Average Treatment Effect. With strategic behavior, we show that the optimal rule can involve randomization, allocating treatments with less than 100% probability even to those who respond positively on average to the treatment. We propose a sequential experiment based on Bayesian Optimization that converges to the optimal treatment rule without parametric assumptions on individual strategic behavior.
翻訳日:2023-04-06 17:10:33 公開日:2023-04-04
# 各種計量における1中心の複雑さについて

On Complexity of 1-Center in Various Metrics ( http://arxiv.org/abs/2112.03222v2 )

ライセンス: Link先を確認
Amir Abboud, Mohammad Hossein Bateni, Vincent Cohen-Addad, Karthik C. S., and Saeed Seddighin(参考訳) 古典的な 1 中心問題を考える: 計量空間の集合 $P$ の$n$ 点が与えられたとき、P$ の点を見つけると、他の点への最大距離が $P$ になる。 我々は、この問題の複雑さを、$d$-dimensional $\ell_p$-metricsと、$d$の文字列に対するeditおよびummメトリクスで研究する。 1中心問題に対する我々の結果は以下の$d$に基づいて分類することができる。 $\bullet$ small $d$: ヒット集合予想 (hsc) を仮定すると、$d=\omega(\log n)$ のとき、$\ell_p$-metrics または編集または ulam メトリクスのいずれかにおいて、1-センタ問題を解くサブクアドラティックなアルゴリズムは存在しない。 $\bullet$ Large $d$: if $d=\Omega(n)$ では、条件付き下限を拡張して、(量子化SETHを仮定すると)1中心問題に対する部分量子アルゴリズムを除外します。 一方、1+\epsilon)$-approximation for 1-center in Ulam metric with running time $\tilde{O_{\varepsilon}}(nd+n^2\sqrt{d})$とする。 また、上記の下限のいくつかを近似化したり、次元 $d$ を減らすことで強化するが、全ての必要な解をリストアップするより弱いアルゴリズムのクラスに対してのみ適用する。 さらに、私たちは難しさの1つを拡張して、編集メートル法でよく研究された1-median問題の下位4次アルゴリズムを除外し、長さ$n$のそれぞれ$n$文字列のセットが与えられた場合、編集距離の和をセット内の他の文字列の和に最小化する文字列を見つけることを目標としている。

We consider the classic 1-center problem: Given a set $P$ of $n$ points in a metric space find the point in $P$ that minimizes the maximum distance to the other points of $P$. We study the complexity of this problem in $d$-dimensional $\ell_p$-metrics and in edit and Ulam metrics over strings of length $d$. Our results for the 1-center problem may be classified based on $d$ as follows. $\bullet$ Small $d$: Assuming the hitting set conjecture (HSC), we show that when $d=\omega(\log n)$, no subquadratic algorithm can solve 1-center problem in any of the $\ell_p$-metrics, or in edit or Ulam metrics. $\bullet$ Large $d$: When $d=\Omega(n)$, we extend our conditional lower bound to rule out subquartic algorithms for 1-center problem in edit metric (assuming Quantified SETH). On the other hand, we give a $(1+\epsilon)$-approximation for 1-center in Ulam metric with running time $\tilde{O_{\varepsilon}}(nd+n^2\sqrt{d})$. We also strengthen some of the above lower bounds by allowing approximations or by reducing the dimension $d$, but only against a weaker class of algorithms which list all requisite solutions. Moreover, we extend one of our hardness results to rule out subquartic algorithms for the well-studied 1-median problem in the edit metric, where given a set of $n$ strings each of length $n$, the goal is to find a string in the set that minimizes the sum of the edit distances to the rest of the strings in the set.
翻訳日:2023-04-06 16:45:20 公開日:2023-04-04
# ポスト量子非可視性の新しいアプローチ

A New Approach to Post-Quantum Non-Malleability ( http://arxiv.org/abs/2207.05861v2 )

ライセンス: Link先を確認
Xiao Liang, Omkant Pandey, Takashi Yamakawa(参考訳) 我々は、最初の$\mathit{constant}$-$\mathit{round}$ が、$\mathit{post}$-$\mathit{quantum}$$$\mathit{one}$-$$\mathit{way}$$$$\mathit{functions}$という最小限の仮定の下で、ポスト量子化後の非可算コミットメントの構成を提供する。 コミットメントに関して、非適合性の標準概念を達成する。 以前の構成では同じ仮定で$\Omega(\log^*\lambda)$ラウンドが必要だった。 我々は,ポスト量子環境において使用しやすい非可算コミットメントのための新しい手法により,結果を得る。 この手法はまた、古典的設定において、一定周期の非可算なコミットメントに対するセキュリティのほぼ初歩的な証明を与える。 既存の研究と組み合わせると、我々の結果は古典関数と量子関数の両方に対して最初の定ラウンドの量子セキュアなマルチパーティ計算($\mathit{in}$ $\mathit{the}$ $\mathit{plain}$ $\mathit{model}$, $\mathit{polynomial}$ hardness of quantum full-homomorphic encryption and quantum learning with error)が得られる。

We provide the first $\mathit{constant}$-$\mathit{round}$ construction of post-quantum non-malleable commitments under the minimal assumption that $\mathit{post}$-$\mathit{quantum}$ $\mathit{one}$-$\mathit{way}$ $\mathit{functions}$ exist. We achieve the standard notion of non-malleability with respect to commitments. Prior constructions required $\Omega(\log^*\lambda)$ rounds under the same assumption. We achieve our results through a new technique for constant-round non-malleable commitments which is easier to use in the post-quantum setting. The technique also yields an almost elementary proof of security for constant-round non-malleable commitments in the classical setting, which may be of independent interest. When combined with existing work, our results yield the first constant-round quantum-secure multiparty computation for both classical and quantum functionalities $\mathit{in}$ $\mathit{the}$ $\mathit{plain}$ $\mathit{model}$, under the $\mathit{polynomial}$ hardness of quantum fully-homomorphic encryption and quantum learning with errors.
翻訳日:2023-04-06 16:36:39 公開日:2023-04-04
# ニューラルネットワークの量子化のための簡便なアプローチ

A simple approach for quantizing neural networks ( http://arxiv.org/abs/2209.03487v2 )

ライセンス: Link先を確認
Johannes Maly, Rayan Saab(参考訳) 本稿では,完全に訓練されたニューラルネットワークの重みを定量化する新しい手法を提案する。 単純な決定論的事前処理ステップにより、与えられたトレーニングデータ上でネットワーク性能を保ちながら、メモリレススカラー量子化によりネットワーク層を定量化できる。 一方、この前処理の計算複雑性は、文学における最先端のアルゴリズムよりわずかに多い。 一方,本手法ではハイパーパラメータチューニングは不要であり,従来の手法とは対照的に平易な解析が可能となる。 単一ネットワーク層を定量化する場合、厳密な理論的保証を提供し、トレーニングデータが適切に振る舞う場合、例えば、適切なランダム分布からサンプリングされた場合、ネットワーク内のパラメータ数と相対誤差が崩壊することを示す。 また, 深層ネットワークを単一層に連続して量子化する手法も提案した。

In this short note, we propose a new method for quantizing the weights of a fully trained neural network. A simple deterministic pre-processing step allows us to quantize network layers via memoryless scalar quantization while preserving the network performance on given training data. On one hand, the computational complexity of this pre-processing slightly exceeds that of state-of-the-art algorithms in the literature. On the other hand, our approach does not require any hyper-parameter tuning and, in contrast to previous methods, allows a plain analysis. We provide rigorous theoretical guarantees in the case of quantizing single network layers and show that the relative error decays with the number of parameters in the network if the training data behaves well, e.g., if it is sampled from suitable random distributions. The developed method also readily allows the quantization of deep networks by consecutive application to single layers.
翻訳日:2023-04-06 16:26:08 公開日:2023-04-04
# 決定論的pac-bayesによる勾配降下下の一般化

Generalisation under gradient descent via deterministic PAC-Bayes ( http://arxiv.org/abs/2209.02525v3 )

ライセンス: Link先を確認
Eugenio Clerico and Tyler Farghly and George Deligiannidis and Benjamin Guedj and Arnaud Doucet(参考訳) 勾配降下法や連続勾配流で訓練されたモデルに対して、分解されたpac-ベイズ一般化境界を確立する。 PAC-Bayesian設定の標準的な実践とは対照的に、決定論的アルゴリズムは非ランダム化ステップを必要としない。 私たちの境界は、初期分布の密度と軌道上の訓練目標のヘシアンに依存する、完全に計算可能である。 本稿では,確率勾配降下(SGD),運動量に基づくスキーム,減衰ハミルトン力学など,様々な反復最適化アルゴリズムに適用可能であることを示す。

We establish disintegrated PAC-Bayesian generalisation bounds for models trained with gradient descent methods or continuous gradient flows. Contrary to standard practice in the PAC-Bayesian setting, our result applies to optimisation algorithms that are deterministic, without requiring any de-randomisation step. Our bounds are fully computable, depending on the density of the initial distribution and the Hessian of the training objective over the trajectory. We show that our framework can be applied to a variety of iterative optimisation algorithms, including stochastic gradient descent (SGD), momentum-based schemes, and damped Hamiltonian dynamics.
翻訳日:2023-04-06 16:25:55 公開日:2023-04-04
# MPCViT:不均一注意を伴う高精度かつ効率的なMPC対応視覚変換器の探索

MPCViT: Searching for Accurate and Efficient MPC-Friendly Vision Transformer with Heterogeneous Attention ( http://arxiv.org/abs/2211.13955v2 )

ライセンス: Link先を確認
Wenxuan Zeng, Meng Li, Wenjie Xiong, Tong Tong, Wenjie Lu, Jin Tan, Runsheng Wang, Ru Huang(参考訳) セキュアなマルチパーティ計算(MPC)は、暗号化されたデータに直接計算を可能にし、ディープラーニング推論におけるデータとモデルのプライバシの両方を保護する。 しかし、ビジョントランスフォーマー(ViT)を含む既存のニューラルネットワークアーキテクチャは、MPC用に設計や最適化されておらず、重大な遅延オーバーヘッドを発生させる。 通信の複雑さが高いため,Softmaxは遅延ボトルネックの原因となっているが,モデルの精度を損なうことなく,選択的に置き換えたり線形化したりすることができる。 そこで本稿では,MPCにおける高精度かつ効率的なViT推論を実現するために,MPCViTと呼ばれるMPCフレンドリーなViTを提案する。 ソフトマックス・アテンションおよびその他のアテンション・バリアントの系統的遅延と精度評価に基づいて,不均質なアテンション最適化空間を提案する。 また,高速パレート最適化のためのMPC対応ニューラルネットワーク探索アルゴリズムを開発した。 推論効率をさらに高めるため,GeLUや行列乗算など,Softmaxアテンションと他のネットワークコンポーネントを協調的に最適化するMPCViT+を提案する。 広範な実験により,mpcvitは1.9%,1.3%,4.6%,6.2倍,2.9倍,1.9倍の遅延低減を実現できた。 MPCViT+はさらに、CIFAR-100データセットの1.2倍のレイテンシ削減を実現し、MPCViTと比較してパレートフロントに到達した。

Secure multi-party computation (MPC) enables computation directly on encrypted data and protects both data and model privacy in deep learning inference. However, existing neural network architectures, including Vision Transformers (ViTs), are not designed or optimized for MPC and incur significant latency overhead. We observe Softmax accounts for the major latency bottleneck due to a high communication complexity, but can be selectively replaced or linearized without compromising the model accuracy. Hence, in this paper, we propose an MPC-friendly ViT, dubbed MPCViT, to enable accurate yet efficient ViT inference in MPC. Based on a systematic latency and accuracy evaluation of the Softmax attention and other attention variants, we propose a heterogeneous attention optimization space. We also develop a simple yet effective MPC-aware neural architecture search algorithm for fast Pareto optimization. To further boost the inference efficiency, we propose MPCViT+, to jointly optimize the Softmax attention and other network components, including GeLU, matrix multiplication, etc. With extensive experiments, we demonstrate that MPCViT achieves 1.9%, 1.3% and 4.6% higher accuracy with 6.2x, 2.9x and 1.9x latency reduction compared with baseline ViT, MPCFormer and THE-X on the Tiny-ImageNet dataset, respectively. MPCViT+ further achieves 1.2x latency reduction on CIFAR-100 dataset and reaches a better Pareto front compared with MPCViT.
翻訳日:2023-04-06 16:08:14 公開日:2023-04-04
# 寒冷原子を用いた1+1d o(3)非線形シグマ模型の量子シミュレーションのための準備

Preparation for Quantum Simulation of the 1+1D O(3) Non-linear {\sigma}-Model using Cold Atoms ( http://arxiv.org/abs/2211.07684v4 )

ライセンス: Link先を確認
Anthony N. Ciavarella, Stephan Caspar, Hersh Singh, Martin J. Savage(参考訳) 1+1D O(3)-モデル(英: 1+1D O(3) non-linear {\sigma}-model)は、非アベルゲージ理論のような漸近的に自由な理論の将来の量子格子シミュレーションのモデルシステムである。 現在, コールド原子量子シミュレータで使用可能な2次元レイアウトの有効利用が期待できる。 開境界条件を持つ系に適用でき、アナログ量子シミュレータを用いて測定できる再正規化結合の新たな定義が導入された。 モンテカルロとテンソルネットワークの計算を行い、摂動的短距離観測器の再生に必要な量子資源を決定する。 特に、既存の量子ハードウェア能力を持つ48 rydberg原子の長方形配列は、摂動的に一致する理論の低エネルギー状態を漸次的に作成できることが示されている。 これらの状態は、古典的コンピュータの範囲を超えている連続極限における非摂動観測可能をシミュレートするために用いられる。

The 1+1D O(3) non-linear {\sigma}-model is a model system for future quantum lattice simulations of other asymptotically-free theories, such as non-Abelian gauge theories. We find that utilizing dimensional reduction can make efficient use of two-dimensional layouts presently available on cold atom quantum simulators. A new definition of the renormalized coupling is introduced, which is applicable to systems with open boundary conditions and can be measured using analog quantum simulators. Monte Carlo and tensor network calculations are performed to determine the quantum resources required to reproduce perturbative short-distance observables. In particular, we show that a rectangular array of 48 Rydberg atoms with existing quantum hardware capabilities should be able to adiabatically prepare low-energy states of the perturbatively-matched theory. These states can then be used to simulate non-perturbative observables in the continuum limit that lie beyond the reach of classical computers.
翻訳日:2023-04-06 16:06:46 公開日:2023-04-04
# FrozenQubits: ホットスポットノードのスキッピングによるQAOAの忠実度向上

FrozenQubits: Boosting Fidelity of QAOA by Skipping Hotspot Nodes ( http://arxiv.org/abs/2210.17037v2 )

ライセンス: Link先を確認
Ramin Ayanzadeh, Narges Alavisamani, Poulami Das, Moinuddin Qureshi(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、短期量子コンピュータを用いた量子優位性を示す主要な候補の1つである。 残念なことに、デバイスエラー率が高いため、数量子ビット以上の問題に対して、確実にQAOA回路を動作させることが制限されます。 qaoaでは、問題グラフは量子回路に変換され、各エッジは回路の各層における2つの2量子ビットcnot演算に対応する。 CNOTはエラーを起こしやすいため、QAOA回路の忠実度は問題グラフのエッジ数によって決定される。 実世界のアプリケーションに対応するグラフの大多数は,いくつかのホットスポットノードが接続数を大幅に多くする `power-law`" 分布に従っている。 この知見を利用して、ホットスポットノードやキュービットを凍結し、与えられた問題の状態空間を複数の小さな部分空間にインテリジェントに分割し、独立して解く `frozenqubits`` を提案する。 対応するQAOAサブ回路は、各サブ回路におけるCNOT演算数の減少によるゲートおよびデコヒーレンスエラーに対して、著しく脆弱である。 従来の回路切断アプローチとは異なり、FrozenQubitsは指数関数的に複雑な後処理ステップを必要としない。 IBMの8つの異なる量子コンピュータ上の5,300QAOA回路を用いて評価したところ、FrozenQubitsは平均8.73倍(最大57倍)で解の質を向上させることができる。

Quantum Approximate Optimization Algorithm (QAOA) is one of the leading candidates for demonstrating the quantum advantage using near-term quantum computers. Unfortunately, high device error rates limit us from reliably running QAOA circuits for problems with more than a few qubits. In QAOA, the problem graph is translated into a quantum circuit such that every edge corresponds to two 2-qubit CNOT operations in each layer of the circuit. As CNOTs are extremely error-prone, the fidelity of QAOA circuits is dictated by the number of edges in the problem graph. We observe that majority of graphs corresponding to real-world applications follow the ``power-law`` distribution, where some hotspot nodes have significantly higher number of connections. We leverage this insight and propose ``FrozenQubits`` that freezes the hotspot nodes or qubits and intelligently partitions the state-space of the given problem into several smaller sub-spaces which are then solved independently. The corresponding QAOA sub-circuits are significantly less vulnerable to gate and decoherence errors due to the reduced number of CNOT operations in each sub-circuit. Unlike prior circuit-cutting approaches, FrozenQubits does not require any exponentially complex post-processing step. Our evaluations with 5,300 QAOA circuits on eight different quantum computers from IBM shows that FrozenQubits can improve the quality of solutions by 8.73x on average (and by up to 57x), albeit utilizing 2x more quantum resources.
翻訳日:2023-04-06 16:06:06 公開日:2023-04-04
# 再帰的ノイズ拡散を用いた空中からのマルチクラスセグメンテーション

Multi-Class Segmentation from Aerial Views using Recursive Noise Diffusion ( http://arxiv.org/abs/2212.00787v2 )

ライセンス: Link先を確認
Benedikt Kolbeinsson, Krystian Mikolajczyk(参考訳) 航空機からのセマンティックセグメンテーションは、安全かつ効率的に移動するために正確かつ正確なセグメンテーションに依存しているため、自律型ドローンにとって重要なタスクである。 しかし、空中画像には、多様な視点、極端なスケールのバリエーション、高いシーンの複雑さなど、独特の課題がある。 本稿では,これらの課題に対処するエンドツーエンドのセマンティックセマンティックセマンティクス拡散モデルを提案する。 本稿では,拡散過程を補完する階層的マルチスケールアプローチと同様に,情報伝達過程を通じて伝達する再帰的デノイジンを導入する。 本手法は,uavidデータセットの競合結果とvaihingenビルセグメンテーションベンチマークの最先端性能を実現する。 このメソッドの最初のイテレーションであるため、将来の改善には大いに期待できます。

Semantic segmentation from aerial views is a crucial task for autonomous drones, as they rely on precise and accurate segmentation to navigate safely and efficiently. However, aerial images present unique challenges such as diverse viewpoints, extreme scale variations, and high scene complexity. In this paper, we propose an end-to-end multi-class semantic segmentation diffusion model that addresses these challenges. We introduce recursive denoising to allow information to propagate through the denoising process, as well as a hierarchical multi-scale approach that complements the diffusion process. Our method achieves competitive results on the UAVid dataset and state-of-the-art performance on the Vaihingen Building segmentation benchmark. Being the first iteration of this method, it shows great promise for future improvements.
翻訳日:2023-04-06 15:57:21 公開日:2023-04-04
# 生データから視覚と聴覚の表現を共同学習する

Jointly Learning Visual and Auditory Speech Representations from Raw Data ( http://arxiv.org/abs/2212.06246v2 )

ライセンス: Link先を確認
Alexandros Haliassos, Pingchuan Ma, Rodrigo Mira, Stavros Petridis, Maja Pantic(参考訳) 視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチであるRAVEnを提案する。 事前学習の目的は,マスキング入力を符号化し,ゆるやかに変化する運動量エンコーダによって生成された文脈的目標を予測することである。 映像と音声の相違により、我々の設計は非対称なw.r.t.の2つのモードのプリテキストタスクである:聴覚ストリームは視覚的目標と聴覚的目標の両方を予測するが、視覚ストリームは聴覚的目標のみを予測する。 我々は,1つの事前学習段階から得られる視覚的および聴覚的エンコーダを微調整し,エンコーダを協調的に訓練する際の,低・高リソースなラベル付きデータ設定の強い結果を観察した。 特に、RAVEnは、RS3上の視覚音声認識(VSR)に関する全ての自己指導的手法を超越し、RAVEnと自己訓練を組み合わせることで、わずか30時間のラベル付きデータを使用して、90,000時間の公開データに基づいてトレーニングされた最近の半監督的手法よりも優れています。 同時に、聴覚音声認識のための低リソース設定であるLSS3(VSR)において、最先端の結果を達成している。 本研究は,手作りの特徴に頼らずに,生の映像や音声から強力な音声表現を学習できることを示す。 コードとモデルはhttps://github.com/ahaliassos/raven.comで入手できる。

We present RAVEn, a self-supervised multi-modal approach to jointly learn visual and auditory speech representations. Our pre-training objective involves encoding masked inputs, and then predicting contextualised targets generated by slowly-evolving momentum encoders. Driven by the inherent differences between video and audio, our design is asymmetric w.r.t. the two modalities' pretext tasks: Whereas the auditory stream predicts both the visual and auditory targets, the visual one predicts only the auditory targets. We observe strong results in low- and high-resource labelled data settings when fine-tuning the visual and auditory encoders resulting from a single pre-training stage, in which the encoders are jointly trained. Notably, RAVEn surpasses all self-supervised methods on visual speech recognition (VSR) on LRS3, and combining RAVEn with self-training using only 30 hours of labelled data even outperforms a recent semi-supervised method trained on 90,000 hours of non-public data. At the same time, we achieve state-of-the-art results in the LRS3 low-resource setting for auditory speech recognition (as well as for VSR). Our findings point to the viability of learning powerful speech representations entirely from raw video and audio, i.e., without relying on handcrafted features. Code and models are available at https://github.com/ahaliassos/raven.
翻訳日:2023-04-06 15:48:45 公開日:2023-04-04
# PIVOT: 連続学習のためのプロンプト

PIVOT: Prompting for Video Continual Learning ( http://arxiv.org/abs/2212.04842v2 )

ライセンス: Link先を確認
Andr\'es Villa, Juan Le\'on Alc\'azar, Motasem Alfarra, Kumail Alhamoud, Julio Hurtado, Fabian Caba Heilbron, Alvaro Soto, Bernard Ghanem(参考訳) 現代の機械学習パイプラインは、データ可用性、ストレージクォータ、プライバシ規制、高価なアノテーションプロセスによって制限されている。 これらの制約により、このような動的アノテート集合上の大規模モデルのトレーニングや更新が困難あるいは不可能になる。 継続的学習はこの問題に直接アプローチし、ディープニューラルネットワークが新しい(目に見えない)クラスの関連するパターンを効果的に学習する方法を開発するという究極の目標を掲げている。 本稿では,ビデオデータの連続学習の問題に対処する。 PIVOTは、画像領域から事前学習したモデルにおける広範な知識を活用する新しい手法であり、トレーニング可能なパラメータの数と関連する忘れ込みを減らす。 従来の方法とは異なり、forsはドメイン内事前トレーニングなしに継続的学習のためのプロンプトメカニズムを効果的に利用する最初のアプローチである。 実験の結果,PIVOTは20タスクのActivityNetセットアップにおいて27%向上した。

Modern machine learning pipelines are limited due to data availability, storage quotas, privacy regulations, and expensive annotation processes. These constraints make it difficult or impossible to train and update large-scale models on such dynamic annotated sets. Continual learning directly approaches this problem, with the ultimate goal of devising methods where a deep neural network effectively learns relevant patterns for new (unseen) classes, without significantly altering its performance on previously learned ones. In this paper, we address the problem of continual learning for video data. We introduce PIVOT, a novel method that leverages extensive knowledge in pre-trained models from the image domain, thereby reducing the number of trainable parameters and the associated forgetting. Unlike previous methods, ours is the first approach that effectively uses prompting mechanisms for continual learning without any in-domain pre-training. Our experiments show that PIVOT improves state-of-the-art methods by a significant 27% on the 20-task ActivityNet setup.
翻訳日:2023-04-06 15:46:49 公開日:2023-04-04
# スクイーズと励磁によるスウィントランスを用いた表情認識

Facial Expression Recognition using Squeeze and Excitation-powered Swin Transformers ( http://arxiv.org/abs/2301.10906v5 )

ライセンス: Link先を確認
Arpita Vats, Aman Chadha(参考訳) 顔の感情の解釈は人間のコミュニケーションにおいて重要な役割を担い、幸福、悲しみ、怒りなどの感情を表情や声のトーンを通じて認識することができる。 Facial Emotion Recognition (FER) は、コンピュータビジョンとAIに大きな関心を持つ分野であり、セキュリティ、広告、エンターテイメントなど幅広い学術的、商業的可能性を秘めている。 本稿では,swin vision transformers (swint) と squeeze and excitation block (se) に基づくferフレームワークを提案する。 我々のアプローチでは、SEとシャープネス認識最小化器(SAM)を備えたビジョントランスフォーマーを使用します。 我々の課題は、少量のデータを使って顔の感情を検出するSwinT設定に基づいた優れたFERモデルを作ることでした。 ハイブリッドデータセットを使用してモデルをトレーニングし、AffectNetデータセットのパフォーマンスを評価し、F1スコアの0.5420を達成しました。 私たちのモデルは、2022年欧州コンピュータビジョン会議(ECCV)と共同で開催されたABAWコンペティションの勝者よりも優れています。

The interpretation of facial emotions plays a crucial role in human communication, allowing people to recognize emotions such as happiness, sadness, and anger through facial expressions and vocal tones. Facial Emotion Recognition (FER) is an area of great interest in computer vision and AI, with extensive academic and commercial potential, including security, advertising, and entertainment. We present a FER framework based on Swin vision Transformers (SwinT) and squeeze and excitation block (SE), which utilizes a transformer model with an attention mechanism to address vision tasks. Our approach uses a vision transformer with SE and a sharpness-aware minimizer (SAM), as transformers typically require substantial data to be as efficient as other competitive models. Our challenge was to create a good FER model based on the SwinT configuration with the ability to detect facial emotions using a small amount of data. We used a hybrid dataset to train our model and evaluated its performance on the AffectNet dataset, achieving an F1-score of 0.5420. Our model outperformed the winner of the (ABAW) Competition, which was held in conjunction with the European Conference on Computer Vision (ECCV) 2022
翻訳日:2023-04-06 15:40:06 公開日:2023-04-04
# 任意の忠実度に対するMargolus-Levitin量子速度制限

The Margolus-Levitin quantum speed limit for an arbitrary fidelity ( http://arxiv.org/abs/2301.10063v2 )

ライセンス: Link先を確認
Niklas H\"ornedal, Ole S\"onnerborn(参考訳) mandelstam-tammとmargolus-levitinの量子速度限界は、孤立した量子系でよく知られた2つの進化時間推定値である。 これらの境界は通常、完全に区別可能な初期状態と最終状態のために定式化されるが、どちらも任意の忠実度を持つ状態の間で進化する系への厳密な拡張を持つ。 しかし、これらの拡張の基礎はいくつかの本質的な点で異なる。 拡張マンデルスタム-タム量子速度制限は解析的に証明され、明確な幾何学的解釈を持つ。 さらに、その限界を飽和させるシステムは、完全に分類されている。 一方、拡張されたマルゴラス-レヴィチン量子速度制限の導出は、数値的な推定に基づいている。 さらに、極限は幾何学的解釈を欠き、それに到達したシステムの完全な特徴付けは存在しない。 本稿では,マルゴラス-レヴィチン量子速度限界を解析的に導出し,その限界を飽和する系について詳細に述べる。 また、シンプレクティック・幾何学的解釈による極限も提供し、既存の量子速度制限とは性質が異なることを示す。 論文の最後には,拡張Mandelstam-TammとMargolus-Levitinの量子速度限界の最大値を分析し,拡張Margolus-Levitin量子速度限界の二重バージョンを導出する。 最大極限は、初期状態と最終状態の忠実性にかかわらず厳密である。 しかし、上限が飽和している条件は、初期状態と最終状態が完全に区別可能であるかどうかによって異なる。 双対極限もまたタイトであり、時間反転の議論から従う。 双対量子速度限界を飽和させる全ての系を記述する。

The Mandelstam-Tamm and Margolus-Levitin quantum speed limits are two well-known evolution time estimates for isolated quantum systems. These bounds are usually formulated for fully distinguishable initial and final states, but both have tight extensions to systems that evolve between states with arbitrary fidelity. However, the foundations for these extensions differ in some essential respects. The extended Mandelstam-Tamm quantum speed limit has been proven analytically and has a clear geometric interpretation. Furthermore, the systems that saturate the limit have been completely classified. The derivation of the extended Margolus-Levitin quantum speed limit, on the other hand, is based on numerical estimates. Moreover, the limit lacks a geometric interpretation, and there is no complete characterization of the systems reaching it. In this paper, we derive the extended Margolus-Levitin quantum speed limit analytically and describe in detail the systems that saturate the limit. We also provide the limit with a symplectic-geometric interpretation, indicating that it is of a different character than most existing quantum speed limits. At the end of the paper, we analyze the maximum of the extended Mandelstam-Tamm and Margolus-Levitin quantum speed limits, and we derive a dual version of the extended Margolus-Levitin quantum speed limit. The maximum limit is tight regardless of the fidelity of the initial and final states. However, the conditions under which the maximum limit is saturated differ depending on whether or not the initial and final states are fully distinguishable. The dual limit is also tight and follows from a time reversal argument. We describe all systems that saturate the dual quantum speed limit.
翻訳日:2023-04-06 15:39:44 公開日:2023-04-04
# エンコーダ・デコーダ言語モデルによるペアリング抗体配列の条件付き生成

Conditional Generation of Paired Antibody Chain Sequences through Encoder-Decoder Language Model ( http://arxiv.org/abs/2301.02748v3 )

ライセンス: Link先を確認
Simon K.S. Chu, Kathy Y. Wei(参考訳) タンパク質言語モデル(lms)は、シーケンス、構造、機能予測に成功している。 しかし、現在、タンパク質 LM は単一配列のエンコーダまたはデコーダのみのアーキテクチャに制限されている。 ここでは, 抗体鎖ペアリングをT5アーキテクチャを用いて前方および後方翻訳としてモデル化したpAbT5を紹介する。 pAbT5は配列生成による連鎖ペアリングを正確に反映している。 我々のタンパク質LMは可変長配列を生成し、その次単語予測確率は配列アライメントから位置特異的スコアリング行列と一致する。 タンパク質 LM の他の研究と同様に、pAbT5 は実験測定において最先端の教師なし予測を行う。 我々の知る限り、pAbT5はタンパク質-タンパク質相互作用のための最初の生成エンコーダ-デコーダタンパク質LMである。

Protein language models (LMs) have been successful in sequence, structural and functional predictions. However, currently, protein LMs are limited to encoder- or decoder-only architectures for single sequences while many biological contexts involve protein-protein interactions. Here, we introduce pAbT5, which models antibody chain pairing as forward- and back-translations using a T5-based architecture. We show that pAbT5 accurately reflects chain pairing through sequence generation. Our protein LM generates variable-length sequences and its next-word prediction probability agrees with position-specific scoring matrix from sequence alignment. Like other works in protein LM, pAbT5 performs state-of-the-art unsupervised prediction on experimental measurements. To the best of our knowledge, pAbT5 is the first generative encoder-decoder protein LM for protein-protein interactions.
翻訳日:2023-04-06 15:38:21 公開日:2023-04-04
# 多職種学習能力のキャラクタリゼーション

A Characterization of Multioutput Learnability ( http://arxiv.org/abs/2301.02729v4 )

ライセンス: Link先を確認
Vinod Raman, Unique Subedi, Ambuj Tewari(参考訳) バッチおよびオンライン環境でマルチアウトプット関数クラスを学習する問題を考える。 どちらの設定でも、関数クラスの単一出力制限が学習可能である場合に限り、マルチアウトプット関数クラスが学習可能であることを示す。 これは、バッチおよびオンライン設定の両方において、マルチラベル分類とマルチアウトプット回帰の学習可能性の完全な評価を提供する。 拡張として,バンディットフィードバック設定におけるマルチラベル学習可能性も考慮し,フルフィードバック設定と同様の特性を示す。

We consider the problem of learning multioutput function classes in batch and online settings. In both settings, we show that a multioutput function class is learnable if and only if each single-output restriction of the function class is learnable. This provides a complete characterization of the learnability of multilabel classification and multioutput regression in both batch and online settings. As an extension, we also consider multilabel learnability in the bandit feedback setting and show a similar characterization as in the full-feedback setting.
翻訳日:2023-04-06 15:38:11 公開日:2023-04-04
# SS-CPGAN:オブジェクトセグメンテーションのための自己監督型カット・アンド・パージングジェネレータネットワーク

SS-CPGAN: Self-Supervised Cut-and-Pasting Generative Adversarial Network for Object Segmentation ( http://arxiv.org/abs/2301.00366v3 )

ライセンス: Link先を確認
Kunal Chaturvedi, Ali Braytee, Jun Li, Mukesh Prasad(参考訳) 本稿では,手動のアノテーションを使わずに,前景オブジェクトのセグメンテーションを行い,リアルな合成画像を生成するための,自己監督型カット・アンド・ペーストGANを提案する。 我々は、U-Netベースの識別器と組み合わせて、シンプルながら効果的な自己教師型アプローチによって、この目標を達成する。 提案手法は,グローバルなデータ表現を分類(リアル/フェイク)によって学習するだけでなく,自己管理タスクを用いて作成した擬似ラベルを用いて意味や構造情報を学習する。 提案手法では,各画素ごとの情報学習や,識別器からのグローバルイメージフィードバックを強制することで,意味のあるマスクを作成することができる。 実験により,提案手法が標準ベンチマークデータセットの最先端手法を大幅に上回ることを示した。

This paper proposes a novel self-supervised based Cut-and-Paste GAN to perform foreground object segmentation and generate realistic composite images without manual annotations. We accomplish this goal by a simple yet effective self-supervised approach coupled with the U-Net based discriminator. The proposed method extends the ability of the standard discriminators to learn not only the global data representations via classification (real/fake) but also learn semantic and structural information through pseudo labels created using the self-supervised task. The proposed method empowers the generator to create meaningful masks by forcing it to learn informative per-pixel as well as global image feedback from the discriminator. Our experiments demonstrate that our proposed method significantly outperforms the state-of-the-art methods on the standard benchmark datasets.
翻訳日:2023-04-06 15:37:48 公開日:2023-04-04
# KHAN: 正確な政治スタンス予測のための知識対応階層型注意ネットワーク

KHAN: Knowledge-Aware Hierarchical Attention Networks for Accurate Political Stance Prediction ( http://arxiv.org/abs/2302.12126v3 )

ライセンス: Link先を確認
Yunyong Ko, Seongeun Ryu, Soeun Han, Youngseung Jeon, Jaehoon Kim, Sohyun Park, Kyungsik Han, Hanghang Tong, Sang-Wook Kim(参考訳) ニュース記事の政治的スタンス予測は、エコーチャンバー効果を緩和するために広く研究されており、人々は自分の考えに没頭し、既存の信念を強化する。 これまでの政治スタンス問題の研究は、(1)ニュース記事の政治的スタンスを反映した政治的要因を特定し、(2)その要因を効果的に捉えることに焦点を当てている。 実証的な成功にもかかわらず、彼らの特定された要因が政治的スタンス予測においてどれほど有効であるかという点で十分に正当化されていない。 そこで本研究では,政治スタンス予測の重要な要因を調査するために,ユーザ調査を行い,ニュース記事の文脈とトーン(意図)と,記事に現れる実世界の実体(説明)の外部知識が,その政治スタンスを決定する上で重要であることを観察する。 本研究では,(1)階層的注意ネットワーク(han)を用いて単語と文の関係を3つのレベルで学習し,(2)実世界の外部知識を政治スタンス予測のプロセスに組み込む知識符号化(ke)を用いて,政治的スタンス予測(khan)に対する新しい知識認識アプローチを提案する。 また、対立する政治姿勢の微妙で重要な違いを考慮し、自分たちで2つの独立した政治知識グラフ(KG-libとKG-con)を構築し、異なる政治知識を融合させることを学ぶ。 実世界の3つのデータセットに対する広範な評価を通じて,(1)精度,(2)効率,(3)有効性の観点から,DASHの優位性を示す。

The political stance prediction for news articles has been widely studied to mitigate the echo chamber effect -- people fall into their thoughts and reinforce their pre-existing beliefs. The previous works for the political stance problem focus on (1) identifying political factors that could reflect the political stance of a news article and (2) capturing those factors effectively. Despite their empirical successes, they are not sufficiently justified in terms of how effective their identified factors are in the political stance prediction. Motivated by this, in this work, we conduct a user study to investigate important factors in political stance prediction, and observe that the context and tone of a news article (implicit) and external knowledge for real-world entities appearing in the article (explicit) are important in determining its political stance. Based on this observation, we propose a novel knowledge-aware approach to political stance prediction (KHAN), employing (1) hierarchical attention networks (HAN) to learn the relationships among words and sentences in three different levels and (2) knowledge encoding (KE) to incorporate external knowledge for real-world entities into the process of political stance prediction. Also, to take into account the subtle and important difference between opposite political stances, we build two independent political knowledge graphs (KG) (i.e., KG-lib and KG-con) by ourselves and learn to fuse the different political knowledge. Through extensive evaluations on three real-world datasets, we demonstrate the superiority of DASH in terms of (1) accuracy, (2) efficiency, and (3) effectiveness.
翻訳日:2023-04-06 15:30:39 公開日:2023-04-04
# 結合を伴う文脈認識ニューラルマシン翻訳における文位置の符号化

Encoding Sentence Position in Context-Aware Neural Machine Translation with Concatenation ( http://arxiv.org/abs/2302.06459v2 )

ライセンス: Link先を確認
Lorenzo Lupo, Marco Dinarelli, Laurent Besacier(参考訳) 文脈対応翻訳は、連続文の結合を標準トランスフォーマーアーキテクチャで処理することで実現できる。 本稿では,連結ウィンドウに含まれる文の位置に関する明示的な情報をモデルに提供するという直感的な考え方について検討する。 文の位置をトークン表現にエンコードする様々な手法について比較する。 以上の結果から,コンテクスト別損失(Lupo et al.,2022)を訓練した場合,トランスフォーマーは英語からロシア語への翻訳における特定の文章位置の符号化方法の利点が示唆された。 しかし、英語とドイツ語では同様の利点は認められていない。 提案手法が有効である条件を定義するには,さらなる実証的努力が必要である。

Context-aware translation can be achieved by processing a concatenation of consecutive sentences with the standard Transformer architecture. This paper investigates the intuitive idea of providing the model with explicit information about the position of the sentences contained in the concatenation window. We compare various methods to encode sentence positions into token representations, including novel methods. Our results show that the Transformer benefits from certain sentence position encoding methods on English to Russian translation if trained with a context-discounted loss (Lupo et al., 2022). However, the same benefits are not observed in English to German. Further empirical efforts are necessary to define the conditions under which the proposed approach is beneficial.
翻訳日:2023-04-06 15:29:10 公開日:2023-04-04
# In-N-Out: ボリューム分解による顔ビデオのインバージョンと編集

In-N-Out: Face Video Inversion and Editing with Volumetric Decomposition ( http://arxiv.org/abs/2302.04871v2 )

ライセンス: Link先を確認
Yiran Xu, Zhixin Shu, Cameron Smith, Jia-Bin Huang, Seoung Wug Oh(参考訳) 3d対応ganは、ビュー合成などの創造的なコンテンツ編集機能を提供し、また2d対応の編集能力も維持する。 これらの手法は、GANインバージョンを使用して遅延コードの最適化によって画像やビデオを再構成し、コードを操作することでセマンティックな編集を可能にする。 しかしながら、顔データセット(例えばffhq)で事前トレーニングされたモデルは、例えばヘビーメイクやオクルージョンなど、分散(ood)オブジェクトで顔を扱うのに苦労することが多い。 顔ビデオのOODオブジェクトを明示的にモデル化することでこの問題に対処する。 中心となるアイデアは,2つのニューラル・ラミアンス・フィールド(in-distribution)とout-of-distributionオブジェクト(out-distribution object)を使って顔を表現すること。 このような明示的な分解は、レコンストラクション忠実性と編集可能性の間の固有のトレードオフを緩和する。 提案手法の再現精度と編集性を評価し,他のベースラインに対して良好な結果を示す。

3D-aware GANs offer new capabilities for creative content editing, such as view synthesis, while preserving the editing capability of their 2D counterparts. These methods use GAN inversion to reconstruct images or videos by optimizing a latent code, allowing for semantic editing by manipulating the code. However, a model pre-trained on a face dataset (e.g., FFHQ) often has difficulty handling faces with out-of-distribution (OOD) objects, e.g., heavy make-up or occlusions. We address this issue by explicitly modeling OOD objects in face videos. Our core idea is to represent the face in a video using two neural radiance fields, one for the in-distribution and the other for the out-of-distribution object, and compose them together for reconstruction. Such explicit decomposition alleviates the inherent trade-off between reconstruction fidelity and editability. We evaluate our method's reconstruction accuracy and editability on challenging real videos and showcase favorable results against other baselines.
翻訳日:2023-04-06 15:28:37 公開日:2023-04-04
# 逐次多ラベル分類のためのラベルアテンションネットワーク:間違った自己アテンションを見て

Label Attention Network for sequential multi-label classification: you were looking at a wrong self-attention ( http://arxiv.org/abs/2303.00280v2 )

ライセンス: Link先を確認
Elizaveta Kovtun, Galina Boeva, Artem Zabolotnyi, Evgeny Burnaev, Martin Spindler, and Alexey Zaytsev(参考訳) 利用可能なユーザ情報のほとんどは、タイムスタンプされたイベントのシーケンスとして表現することができる。 各イベントは、将来の構造が非常に興味を持つカテゴリラベルのセットに割り当てられる。 例えば、私たちの目標は、次の顧客の購入や明日のクライアントトランザクションにおけるアイテムのグループを予測することです。 これはシーケンシャルデータに対するマルチラベル分類問題である。 現代のアプローチでは、シーケンス内の要素に自己アテンションを導入するシーケンシャルデータのためのトランスフォーマーアーキテクチャにフォーカスしている。 この場合、イベントの時間的相互作用を考慮するが、ラベル間の依存性に関する情報を失う。 この欠点に乗じて、予測ステップに先立ってラベルよりも自己認識機構を活用することを提案する。 当社のアプローチは Label-Attention NETwork なので、LANET と呼んでいます。 実験的な証拠は、LANETが確立されたモデルの性能より優れており、ラベル間の相互接続を大きく捉えていることを示している。 例えば、我々のアプローチのマイクロAUCは0.9536ドル、バニラ変圧器は0.7501ドルである。 LANETの実装により、より広範な利用が容易になる。

Most of the available user information can be represented as a sequence of timestamped events. Each event is assigned a set of categorical labels whose future structure is of great interest. For instance, our goal is to predict a group of items in the next customer's purchase or tomorrow's client transactions. This is a multi-label classification problem for sequential data. Modern approaches focus on transformer architecture for sequential data introducing self-attention for the elements in a sequence. In that case, we take into account events' time interactions but lose information on label inter-dependencies. Motivated by this shortcoming, we propose leveraging a self-attention mechanism over labels preceding the predicted step. As our approach is a Label-Attention NETwork, we call it LANET. Experimental evidence suggests that LANET outperforms the established models' performance and greatly captures interconnections between labels. For example, the micro-AUC of our approach is $0.9536$ compared to $0.7501$ for a vanilla transformer. We provide an implementation of LANET to facilitate its wider usage.
翻訳日:2023-04-06 15:19:31 公開日:2023-04-04
# 動的キューを用いた対向移動性向上

Boosting Adversarial Transferability using Dynamic Cues ( http://arxiv.org/abs/2302.12252v2 )

ライセンス: Link先を確認
Muzammal Naseer, Ahmad Mahmood, Salman Khan, and Fahad Khan(参考訳) 画像モデル間の逆摂動の伝達性は広く研究されている。 この場合、既知のサロゲート \eg、ImageNetトレーニングモデルから攻撃が発生し、画像データセットでトレーニングされた未知(ブラックボックス)モデルの決定を変更するために転送される。 しかし、画像モデルから生成される攻撃は、画像モデル内の時間的手がかりの欠如による移動物体や変化シーンの動的性質を捉えない。 これにより、Supervised Vision Transformers (ViTs)、Self-supervised ViTs (\eg, DINO)、Vision- language model (\eg, CLIP) といった表現に富んだ \emph{image} モデルから Black-box \emph{video} モデルへの敵攻撃の転送可能性の低下につながる。 本研究では,画像モデルにおいて,画像の本来の性能を犠牲にすることなく,動的手がかりを誘導する。 この目的のために, 凍結画像モデルを用いて, 運動ダイナミクスを捉えるために, \emph{temporal prompts} を最適化する。 我々の時間的プロンプトは、学習可能な変換の結果であり、敵の攻撃中に時間的勾配を最適化して動きのダイナミクスを騙すことができる。 具体的には、タスク固有のプロンプトを通じて、同じソースモデル内に空間的(イメージ)および時間的(ビデオ)キューを導入する。 このようなプロンプトの攻撃は、画像モデル用に設計されたアタックを用いて、画像間および画像間モデルからの対向転送可能性を最大化する。 攻撃結果から,攻撃者は特別なアーキテクチャや,時間分割,3次元畳み込み,データモダリティの多視点畳み込みネットワークなどを必要としないことが明らかとなった。 画像モデルは、時間とともに変化する環境の中でブラックボックスモデルを騙すために敵攻撃を最適化する効果的な代理である。 コードはhttps://bit.ly/3Xd9gRQで入手できる。

The transferability of adversarial perturbations between image models has been extensively studied. In this case, an attack is generated from a known surrogate \eg, the ImageNet trained model, and transferred to change the decision of an unknown (black-box) model trained on an image dataset. However, attacks generated from image models do not capture the dynamic nature of a moving object or a changing scene due to a lack of temporal cues within image models. This leads to reduced transferability of adversarial attacks from representation-enriched \emph{image} models such as Supervised Vision Transformers (ViTs), Self-supervised ViTs (\eg, DINO), and Vision-language models (\eg, CLIP) to black-box \emph{video} models. In this work, we induce dynamic cues within the image models without sacrificing their original performance on images. To this end, we optimize \emph{temporal prompts} through frozen image models to capture motion dynamics. Our temporal prompts are the result of a learnable transformation that allows optimizing for temporal gradients during an adversarial attack to fool the motion dynamics. Specifically, we introduce spatial (image) and temporal (video) cues within the same source model through task-specific prompts. Attacking such prompts maximizes the adversarial transferability from image-to-video and image-to-image models using the attacks designed for image models. Our attack results indicate that the attacker does not need specialized architectures, \eg, divided space-time attention, 3D convolutions, or multi-view convolution networks for different data modalities. Image models are effective surrogates to optimize an adversarial attack to fool black-box models in a changing environment over time. Code is available at https://bit.ly/3Xd9gRQ
翻訳日:2023-04-06 15:19:15 公開日:2023-04-04
# rf原子磁気センサによる磁気ジョーンズベクトル検出

Magnetic Jones Vector Detection with RF Atomic Magnetometers ( http://arxiv.org/abs/2303.17757v2 )

ライセンス: Link先を確認
Cicely Motamedi and Karen Sauer(参考訳) 2次元平面における電波(rf)磁場の絶対配向と偏光状態が、2つの光ポンピング原子磁気センサを用いて一意に決定できることを理論的および実験的に示す。 さらに、これらの量子センサからの出力信号を磁気ジョーンズベクトルとして容易に表現することができる。 この複合装置は、RF方向を見つける際に電界検出を補完したり、電界が無視可能なアプリケーションで使用することができる。 後者は、ソースが近接場限界で放射する磁気双極子としてモデル化できる無数の応用で見られる。 この新しいツールは、RF励起に対する材料の反応を特徴づけたり、信号とノイズを区別するために使用することができる。

We show, theoretically and experimentally, how the absolute orientation and polarization state of radio-frequency (RF) magnetic fields in a transverse 2D plane can be uniquely determined using two optically pumped atomic magnetometers. In addition, the output signals from these quantum sensors can be readily expressed as a magnetic Jones vector. This composite device can complement electric field detection in finding RF directions, or it can be used in applications where the electric field is negligible. The latter is found in a myriad of applications where the source can be modeled as radiating magnetic dipoles in the near-field limit. This new tool could be used to characterize a material's response to RF excitation or to distinguish signal from noise.
翻訳日:2023-04-06 15:03:29 公開日:2023-04-04
# malp: proactive scheme を用いたマニピュレーション・ローカライズ

MaLP: Manipulation Localization Using a Proactive Scheme ( http://arxiv.org/abs/2303.16976v2 )

ライセンス: Link先を確認
Vishal Asnani, Xi Yin, Tal Hassner, Xiaoming Liu(参考訳) 様々な生成モデル(GM)の生成品質の向上は、バイナリ操作検出を行うだけでなく、画像中の修正画素のローカライズも必要としている。 しかし、操作ローカライゼーションのためのパッシブな研究は、目に見えないGMに対する一般化性能の低下と属性修正を示している。 この問題に対処するため,我々はmalpと呼ばれる操作ローカライズのためのプロアクティブスキームを提案する。 学習テンプレートを追加することで実際の画像を暗号化する。 画像がGMによって操作される場合、テンプレートから保護を追加することでバイナリ検出だけでなく、GMによって修正されたピクセルの識別にも役立ちます。 このテンプレートは、2ブランチアーキテクチャで推定されるローカルおよびグローバルレベルの機能を活用することで学習される。 malpは従来のパッシブワークよりも優れたパフォーマンスを示す。 また,22種類のGM上でのMALPの一般化可能性を示すとともに,今後の操作ローカライゼーション研究のベンチマークを提供する。 最後に,MALPをGMの生成品質向上のための判別器として利用できることを示す。 私たちのモデル/コードはwww.github.com/vishal3477/pro_locで利用可能です。

Advancements in the generation quality of various Generative Models (GMs) has made it necessary to not only perform binary manipulation detection but also localize the modified pixels in an image. However, prior works termed as passive for manipulation localization exhibit poor generalization performance over unseen GMs and attribute modifications. To combat this issue, we propose a proactive scheme for manipulation localization, termed MaLP. We encrypt the real images by adding a learned template. If the image is manipulated by any GM, this added protection from the template not only aids binary detection but also helps in identifying the pixels modified by the GM. The template is learned by leveraging local and global-level features estimated by a two-branch architecture. We show that MaLP performs better than prior passive works. We also show the generalizability of MaLP by testing on 22 different GMs, providing a benchmark for future research on manipulation localization. Finally, we show that MaLP can be used as a discriminator for improving the generation quality of GMs. Our models/codes are available at www.github.com/vishal3477/pro_loc.
翻訳日:2023-04-06 15:01:08 公開日:2023-04-04
# EgoTV: 自然言語タスク記述からエゴセントリックなタスク検証

EgoTV: Egocentric Task Verification from Natural Language Task Descriptions ( http://arxiv.org/abs/2303.16975v2 )

ライセンス: Link先を確認
Rishi Hazra, Brian Chen, Akshara Rai, Nitin Kamra, Ruta Desai(参考訳) 自然言語で特定された日常的なタスクを理解可能なエゴセントリックエージェントへの進歩を実現するために,egocentric task verification(egotv)と呼ばれるベンチマークと合成データセットを提案する。 EgoTVには、複数のサブタスクの分解、状態変更、オブジェクトのインタラクション、サブタスクの順序制約を含むマルチステップタスクに加えて、タスクの達成方法に関する部分的な詳細のみを含む抽象化されたタスク記述が含まれている。 また,このようなタスクの因果的,時間的,構成的推論を可能にする新しいニューロシンボリックグラウンドディング(NSG)手法を提案する。 EgoTVデータセットとCTV(CrossTask)から派生した実世界のデータセット上で,タスクトラッキングと検証に対するNSGの機能を示す。 コントリビューションには、EgoTVおよびCTVデータセットのリリースと、エゴセントリック補助剤の研究のためのNSGモデルが含まれている。

To enable progress towards egocentric agents capable of understanding everyday tasks specified in natural language, we propose a benchmark and a synthetic dataset called Egocentric Task Verification (EgoTV). EgoTV contains multi-step tasks with multiple sub-task decompositions, state changes, object interactions, and sub-task ordering constraints, in addition to abstracted task descriptions that contain only partial details about ways to accomplish a task. We also propose a novel Neuro-Symbolic Grounding (NSG) approach to enable the causal, temporal, and compositional reasoning of such tasks. We demonstrate NSG's capability towards task tracking and verification on our EgoTV dataset and a real-world dataset derived from CrossTask (CTV). Our contributions include the release of the EgoTV and CTV datasets, and the NSG model for future research on egocentric assistive agents.
翻訳日:2023-04-06 15:00:50 公開日:2023-04-04
# 走査透過電子顕微鏡による自動実験のための深層学習

Deep Learning for Automated Experimentation in Scanning Transmission Electron Microscopy ( http://arxiv.org/abs/2304.02048v1 )

ライセンス: Link先を確認
Sergei V. Kalinin, Debangshu Mukherjee, Kevin M. Roccapriore, Ben Blaiszik, Ayana Ghosh, Maxim A. Ziatdinov, A. Al-Najjar, Christina Doty, Sarah Akers, Nageswara S. Rao, Joshua C. Agar, Steven R. Spurgeon(参考訳) 機械学習(ML)は、(走査)透過電子顕微鏡、(S)TEM、イメージング、分光において、取得後のデータ解析に重要になっている。 新たなトレンドは、リアルタイム分析と閉ループ顕微鏡操作への移行である。 電子顕微鏡におけるmlの効果的な利用には、顕微鏡中心の実験ワークフロー設計と最適化のための戦略の開発が必要である。 本稿では,逐次データ解析と分散ドリフト効果,エッジ操作要件,ローカルおよびクラウドデータストレージ,ループ操作の理論など,アクティブmlへの移行に伴う課題について議論する。 具体的には、実験ワークフローのアイデア、オーケストレーション、実行における人間科学者とMLエージェントの相対的な貢献と、複数のプラットフォームにまたがって適用可能な普遍的なハイパー言語を開発する必要性について論じる。 これらの考察は、次世代実験におけるMLの運用を総括的に示すものである。

Machine learning (ML) has become critical for post-acquisition data analysis in (scanning) transmission electron microscopy, (S)TEM, imaging and spectroscopy. An emerging trend is the transition to real-time analysis and closed-loop microscope operation. The effective use of ML in electron microscopy now requires the development of strategies for microscopy-centered experiment workflow design and optimization. Here, we discuss the associated challenges with the transition to active ML, including sequential data analysis and out-of-distribution drift effects, the requirements for the edge operation, local and cloud data storage, and theory in the loop operations. Specifically, we discuss the relative contributions of human scientists and ML agents in the ideation, orchestration, and execution of experimental workflows and the need to develop universal hyper languages that can apply across multiple platforms. These considerations will collectively inform the operationalization of ML in next-generation experimentation.
翻訳日:2023-04-06 14:35:04 公開日:2023-04-04
# 双極子-双極子相互作用する$\lambda$-type原子を結合した光学空洞における多光子遮断とアンチバンチング

Multiphoton blockade and antibunching in an optical cavity coupled with dipole-dipole interacting $\Lambda$-type atoms ( http://arxiv.org/abs/2304.02047v1 )

ライセンス: Link先を確認
Zeshan Haider, Shahid Qamar, Muhammad Irfan(参考訳) 位置依存型原子-磁場カップリングを持つ3レベル原子2個と相互作用する単一モードキャビティにおける多光子遮断効果について検討した。 3レベル原子間の双極子-双極子相互作用(DDI)の影響を考察し、DDIの存在が多光子遮断にどのように影響するかを示す。 原子と磁場の対称結合のために、DDIはポンプ場デチューニングの関数として放出スペクトルの非対称性を誘導する。 正の劣化では、単光子遮断はDDI強度の関数として強くなり、光子アンチバンチングをもたらす。 しかし、負の変形により弱くなり、また完全に消滅する。 この消滅する単一光子遮断は強い2光子遮断と結びついており、2光子の束縛につながる。 したがって、ポンプ場の周波数を調整するだけで、2つの非常に異なる特徴を実現できる。 また、原子が磁場と非対称に結合している場合のDDIの効果について検討し、提案系が2光子束を示すことを示す。 我々は,DDI が存在する可能性のあるシステムの実験的実現には,本研究の結果が重要であると考えている。

We study multiphoton blockade effects in a single-mode cavity interacting with two three-level atoms in $\Lambda$-configuration having position-dependent atom-field coupling. We consider the effects of dipole-dipole interaction (DDI) between the three-level atoms and show how the presence of DDI strongly influences the multiphoton blockade. For symmetric coupling of the atoms with the field, the DDI induces an asymmetry in the emission spectra as a function of pump field detuning. At positive detuning, the single-photon blockade gets stronger as a function of DDI strength, leading to photon antibunching. However, it becomes weaker at negative detuning and can also completely vanish. We show that this vanishing single-photon blockade is associated with a strong two-photon blockade, leading to two-photon bunching. Therefore, by just tuning the frequency of the pump field, we can achieve two very distinct features. We also study the effects of DDI when the atoms are asymmetrically coupled with the field and show that the proposed system exhibits two-photon bunching. We believe our results are important for the experimental realization of such systems where DDI may be present.
翻訳日:2023-04-06 14:34:50 公開日:2023-04-04
# 初期化における変圧器の有効理論

Effective Theory of Transformers at Initialization ( http://arxiv.org/abs/2304.02034v1 )

ライセンス: Link先を確認
Emily Dinan, Sho Yaida, Susan Zhang(参考訳) 我々は,多層自己認識ブロックと多層パーセプトロンブロックを有する残差ニューラルネットワークを用いて,広帯域および深層トランスフォーマーにおける前方信号伝搬の効果的な理論解析を行う。 この分析は、これらのモデルの初期化とトレーニングハイパーパラメータの特定の幅スケーリングを示唆する。 そして、このような提案を実践的なセットアップでビジョンと言語変換をトレーニングします。

We perform an effective-theory analysis of forward-backward signal propagation in wide and deep Transformers, i.e., residual neural networks with multi-head self-attention blocks and multilayer perceptron blocks. This analysis suggests particular width scalings of initialization and training hyperparameters for these models. We then take up such suggestions, training Vision and Language Transformers in practical setups.
翻訳日:2023-04-06 14:34:30 公開日:2023-04-04
# 無質量金石粒子は存在するか?

Does a massless Goldstone boson exist? ( http://arxiv.org/abs/2304.02024v1 )

ライセンス: Link先を確認
Yu.M. Poluektov(参考訳) 古典的および量子的複素非線形スカラー場を考える。 非線形場の量子化と自発的対称性の破れを許容する摂動理論の構成について, 主近似として自己整合場の相対論的モデルを用いた新しいアプローチを提案する。 粒子の概念は、非線形量子場の理論のフレームワークの中で解析される。 単一粒子状態を構築する際、真空変動の寄与を体系的に考慮する。 開発手法の枠組みの中で,無質量スカラー粒子の存在の問題点について考察した。 1つの場演算子だけでなく2つの場演算子の積も真空平均を連続的に考慮すると、スカラー粒子の質量が現れることが示されている。 ラグランジアンに入るパラメータの場が存在する様々な状態が考慮され、これらの状態における真空エネルギー密度が計算される。 ラグランジアンに入るパラメータの値によっては、真空エネルギー密度は正か負かのいずれかであり、現代の宇宙論にとって重要であることが示されている。

Classical and quantum complex nonlinear scalar fields are considered. A new approach to the quantization of nonlinear fields and the construction of a perturbation theory with allowance for spontaneous symmetry breaking is proposed, based on the use of the relativistic model of a self-consistent field as the main approximation. The concept of a particle is analyzed within the frame-work of the theory of nonlinear quantum fields. When constructing single-particle states, the contribution of vacuum fluctuations is systematically taken into account. Within the framework of the developed approach, the problem of the existence of massless scalar particles is discussed. It is shown that successive consideration of the vacuum averages of not only one field operator, but also the products of two field operators, leads to the appearance of masses for scalar particles. Various states in which the field can exist for given parameters entering into the Lagrangian are considered, and the vacuum energy densities in these states are calculated. It is shown that, depending on the values of the parameters entering into the Lagrangian, the vacuum energy density can be either positive or negative, which is important for modern cosmology.
翻訳日:2023-04-06 14:34:23 公開日:2023-04-04
# 因果縁問題による因果関係のバウンディング確率

Bounding probabilities of causation through the causal marginal problem ( http://arxiv.org/abs/2304.02023v1 )

ライセンス: Link先を確認
Numair Sani, Atalanti A. Mastakouri, Dominik Janzing(参考訳) 因果関係の確率は、法律、医療、公共政策における意思決定において基本的な役割を果たす。 それでもそれらの点同定は困難であり、単調性のような強い仮定を必要とする。 このような仮定がなければ、既存の研究は、これらの確率の境界を確立するために、同じ処理と結果変数を含むデータセットの複数の観察を必要とする。 しかし、多くの臨床試験や公共政策評価ケースでは、異なる治療法がそれぞれ同じ結果変数に与える影響を調べる独立したデータセットが存在する。 本稿では、このような独立したデータセットから構築されたSCM間の対実的整合性(「因果的限界問題」)を付与することにより、因果関係の確率に対する既存の限界を著しく厳しくする方法を概説する。 次に,条件付き相互情報を用いて反事実的影響を定量化する新しい情報理論的手法について述べる。 後者は任意の離散変数と処理数を一般化し、因果縁問題をより解釈しやすいものにする。 利用者に「十分」という質問が残されているので、境界が不十分な場合に追加の推論方法を提供する: 可算なscmの空間の計量を定義し、より多くの情報がない場合に偽物を推測するためのエントロピー最大化scmを提案する、最大エントロピーベース手法。

Probabilities of Causation play a fundamental role in decision making in law, health care and public policy. Nevertheless, their point identification is challenging, requiring strong assumptions such as monotonicity. In the absence of such assumptions, existing work requires multiple observations of datasets that contain the same treatment and outcome variables, in order to establish bounds on these probabilities. However, in many clinical trials and public policy evaluation cases, there exist independent datasets that examine the effect of a different treatment each on the same outcome variable. Here, we outline how to significantly tighten existing bounds on the probabilities of causation, by imposing counterfactual consistency between SCMs constructed from such independent datasets ('causal marginal problem'). Next, we describe a new information theoretic approach on falsification of counterfactual probabilities, using conditional mutual information to quantify counterfactual influence. The latter generalises to arbitrary discrete variables and number of treatments, and renders the causal marginal problem more interpretable. Since the question of 'tight enough' is left to the user, we provide an additional method of inference when the bounds are unsatisfactory: A maximum entropy based method that defines a metric for the space of plausible SCMs and proposes the entropy maximising SCM for inferring counterfactuals in the absence of more information.
翻訳日:2023-04-06 14:34:06 公開日:2023-04-04
# MNL選択によるオンライン共同配置-在庫最適化

Online Joint Assortment-Inventory Optimization under MNL Choices ( http://arxiv.org/abs/2304.02022v1 )

ライセンス: Link先を確認
Yong Liang, Xiaojie Mao, Shiyuan Wang(参考訳) 本稿では,MNL(Multinomial Logit)選択モデルに従う顧客の選択行動と,アトラクションパラメータが不明確であることを前提として,オンライン共同配置-発明最適化問題について検討する。 小売業者は、予想総利益を時間とともに最大化しつつ、アトラクションパラメータに関する現実的な要求から動的に学習する周期的なアソシエーションと在庫決定を行う。 本稿では,ソートとインベントリのオンライン意思決定における探索と活用を効果的にバランスさせる新しいアルゴリズムを提案する。 提案アルゴリズムは,MNLアトラクションパラメータの新しい推定器,未知のパラメータを適応的に調整することで探索をインセンティブ化する新しい手法,および与えられたパラメータを用いた静的単一サイクルアソート・イニシアティブ計画問題への最適化オラクルに基づく。 我々は,我々のアルゴリズムに対する後悔の上限と,オンライン・ジョイント・ソートメント・発明最適化問題の下限を定め,静的最適化のオラクルが正確であることから,我々のアルゴリズムがほぼ最適の後悔率を達成したことを示唆する。 そこで我々は,より実用的な近似的静的最適化オラクルをアルゴリズムに組み込んで,アルゴリズムの後悔に対する静的最適化誤差の影響を克服する。 最後に,提案アルゴリズムの有効性を実証するために数値解析を行った。

We study an online joint assortment-inventory optimization problem, in which we assume that the choice behavior of each customer follows the Multinomial Logit (MNL) choice model, and the attraction parameters are unknown a priori. The retailer makes periodic assortment and inventory decisions to dynamically learn from the realized demands about the attraction parameters while maximizing the expected total profit over time. In this paper, we propose a novel algorithm that can effectively balance the exploration and exploitation in the online decision-making of assortment and inventory. Our algorithm builds on a new estimator for the MNL attraction parameters, a novel approach to incentivize exploration by adaptively tuning certain known and unknown parameters, and an optimization oracle to static single-cycle assortment-inventory planning problems with given parameters. We establish a regret upper bound for our algorithm and a lower bound for the online joint assortment-inventory optimization problem, suggesting that our algorithm achieves nearly optimal regret rate, provided that the static optimization oracle is exact. Then we incorporate more practical approximate static optimization oracles into our algorithm, and bound from above the impact of static optimization errors on the regret of our algorithm. At last, we perform numerical studies to demonstrate the effectiveness of our proposed algorithm.
翻訳日:2023-04-06 14:33:44 公開日:2023-04-04
# GUTS:マルチエージェントアクティブ検索のための一般化された不確実性認識トンプソンサンプリング

GUTS: Generalized Uncertainty-Aware Thompson Sampling for Multi-Agent Active Search ( http://arxiv.org/abs/2304.02075v1 )

ライセンス: Link先を確認
Nikhil Angad Bakshi, Tejus Gupta, Ramina Ghods, Jeff Schneider(参考訳) 迅速な災害対応のためのロボットソリューションは、特に捜索エリアが危険すぎる場合や、救助者にとって大きすぎる場合に、最小限の命の損失を確保するために不可欠である。 我々は,この問題を非同期多エージェント能動探索タスクとしてモデル化し,各ロボットが未知の環境下で効率よく関心対象(OOI)を探索することを目的とする。 この定式化は、検索ミッションは、検索領域を完全にカバーするのではなく、OOIの迅速な回復に焦点を当てるべきである、という要求に対処する。 以前のアプローチでは、不確実性を正確にモデル化することはできず、葉や地形による閉塞を考慮したり、異種探索チームの必要性やハードウェアや通信障害に対する堅牢性を考慮していた。 本稿では、これらの問題に対処し、大規模非構造環境における能動探索のための異種マルチロボットシステムへの展開に適した一般化不確実性対応トンプソンサンプリング(GUTS)アルゴリズムを提案する。 シミュレーション実験により,GUTSは並列化トンプソンサンプリングや網羅探索などの既存の手法を一貫して上回り,全走行の80%で全OOIを回復することを示した。 対照的に、既存のアプローチはすべてのOOIを全体の40%以下で回収する。 探索面積が約75,000 sqの非構造環境で, マルチロボットシステムを用いてフィールドテストを行う。 m. 我々のシステムは、様々な障害モードに対して堅牢性を示し、各フィールドにおけるOOIの完全なリカバリを実現し、ベースラインを大幅に上回っている。

Robotic solutions for quick disaster response are essential to ensure minimal loss of life, especially when the search area is too dangerous or too vast for human rescuers. We model this problem as an asynchronous multi-agent active-search task where each robot aims to efficiently seek objects of interest (OOIs) in an unknown environment. This formulation addresses the requirement that search missions should focus on quick recovery of OOIs rather than full coverage of the search region. Previous approaches fail to accurately model sensing uncertainty, account for occlusions due to foliage or terrain, or consider the requirement for heterogeneous search teams and robustness to hardware and communication failures. We present the Generalized Uncertainty-aware Thompson Sampling (GUTS) algorithm, which addresses these issues and is suitable for deployment on heterogeneous multi-robot systems for active search in large unstructured environments. We show through simulation experiments that GUTS consistently outperforms existing methods such as parallelized Thompson Sampling and exhaustive search, recovering all OOIs in 80% of all runs. In contrast, existing approaches recover all OOIs in less than 40% of all runs. We conduct field tests using our multi-robot system in an unstructured environment with a search area of approximately 75,000 sq. m. Our system demonstrates robustness to various failure modes, achieving full recovery of OOIs (where feasible) in every field run, and significantly outperforming our baseline.
翻訳日:2023-04-06 14:26:08 公開日:2023-04-04
# 共振器アレイ導波路に結合した複数の巨大原子を有する導波路qed系における原子-光子状態

Atom-photon dressed states in a waveguide-QED system with multiple giant atoms coupled to a resonator-array waveguide ( http://arxiv.org/abs/2304.02072v1 )

ライセンス: Link先を確認
W. Z. Jia and M. T. Yu(参考訳) 結合共振導波路に結合した複数の巨大原子からなる導波路qed系の単一励起部分空間における結合状態と散乱状態の性質について検討した。 これらの状態と対応するエネルギースペクトルに対して可能な最も一般的な解析式に基づいて、巨大原子の非双極子効果と構造的環境の影響による関連する現象を詳細に分析する。 境界状態の出現のしきい値条件と、異なる構成の服装原子間の光子による相互作用を解析した。 加えて、複数の巨大原子が導波路に結合されると、フォトニックバンドギャップの結合状態は結合構成によって異なるタイプのメタバンド構造を形成することができる。 これにより、システムは量子シミュレーションの有用なプラットフォームとなる。 最後に、複数の原子の散乱スペクトルに対する構造浴の影響は、強い結合状態においても顕著となり、非伝統的なスペクトル構造へと繋がる。

We study the properties of bound and scattering states in the single-excitation subspace in waveguide-QED systems consisting of multiple giant atoms coupled to a coupled-resonator waveguide. Based on the most general analytical expressions possible for these states and the corresponding energy spectra, we analyze in detail relevant phenomena due to the influence of a structured environment combined with the non-dipole effects of giant atoms. We analyze the threshold conditions for the appearance of bound states and the photon-mediated interactions between dressed atoms for different configurations. In addition, when multiple giant atoms are coupled to the waveguide, the bound states in the photonic band gaps can form different types of metaband structures, depending on coupling configurations. This makes the system a useful platform for quantum simulations. Finally the influence of the structured bath on the scattering spectra of multiple atoms also becomes remarkable in the strong coupling regime, leading to unconventional spectral structures.
翻訳日:2023-04-06 14:25:42 公開日:2023-04-04
# プランクの放射法則の非可換導出

Noncommutative Derivation of the Planck's Radiation Law ( http://arxiv.org/abs/2304.02067v1 )

ライセンス: Link先を確認
M. A. De Andrade, L. G. Ferreira Filho, C. Neves(参考訳) ブラックボディ放射スペクトルに対するプランクの放射法則は、実験的に測定されたブラックボディスペクトルを説明することができた。 この結果を得るために、プランクは放射線法を2倍の方法で提案した。 1) 熱放射に対するエネルギーとエントロピーの間の仮定された接続のtextit{ad hoc}修正による。 2) 放射と熱平衡における発振器のエントロピーの計算はエネルギーの離散単位によって行われると仮定して行う。 その結果、周波数の線形なエネルギー量子化が物理学に導入された。 しかし、単純な高調波発振器のエネルギー量子化は元々プランクによって不完全な方法で仮定された。 もちろん、この問題は時間とともに様々な方法で解決されてきた。 これにもかかわらず、非零基底状態エネルギーが自然にNC寄与として生じる非可換(NC)フレームワークで調和振動子を記述することで、この問題を修正する方法を提案する。 このアプローチにより、プランクの量子論は更新され、1925年に開始された量子力学と互換性を持つようになる。

The Planck's radiation law for the blackbody radiation spectrum was capable to explain the experimentally-measured blackbody spectrum. In order to get this result, Planck proposed his radiation law in a two-fold way: 1) by an \textit{ad hoc} modification of the assumed connection between energy and entropy for thermal radiation; 2) by assuming that the calculation of the entropy of an oscillator in thermal equilibrium with radiation is carried out by discrete units of energy. As a consequence, the energy quantization, linear in frequency, was thus introduced into physics. However, the energy quantization of the simple harmonic oscillator was originally postulated by Planck in an incomplete way, i.e., the ground state energy was not assumed to be null. Of course, this issue has been solved in different ways over time. Despite of this, we propose an alternative way to fix this issue by describing harmonic oscillators at noncommutative(NC) framework, where the non-null ground state energy naturally arises as a NC contribution. With this approach, the Planck's quantum theory is updated and, consequently, becomes compatible with the quantum mechanics inaugurated in 1925.
翻訳日:2023-04-06 14:25:26 公開日:2023-04-04
# 内部勾配分布テンソルの累積展開フレームワーク

Cumulant expansion framework for internal gradient distributions tensors ( http://arxiv.org/abs/2304.02065v1 )

ライセンス: Link先を確認
Leonardo A. Pedraza Perez and Gonzalo A. Alvarez(参考訳) 磁気共鳴イメージングは、強力な非侵襲的な医療診断ツールである。 核スピン信号を検出するための感度の低いものは、通常、画像の解像度を臨床スキャナーの先駆系やミリメートルの数十マイクロメートルに制限する。 組織内の水として内在する分子の拡散過程に由来する他の情報源は、いくつかの病理の潜在的なバイオマーカーとしてマイクロメトリックおよびサブマイクロメトリックスケールで形態学的情報を得ることができる。 本稿では,媒質の異種磁化率によって誘起される内部磁場勾配の分布を調べることにより,この形態的情報を抽出することを検討する。 我々は、拡散しながらこれらの内部勾配を探索する分子によって引き起こされるスピンシグナルの強調を導出するために累積展開を用いる。 累積展開に基づいて、内部勾配分布テンソル(IGDT)を定義し、それらを探索するための変調勾配スピンエコー列を提案する。 これらのIGDTは、多孔質体および生体組織を特徴付ける微細形態情報を含む。 脳組織の典型的条件による磁化崩壊に対するIGDTの影響を評価し,その効果を実験的に観察できることを示した。 その結果,IGDTを定量的診断ツールとして活用するためのフレームワークが得られた。

Magnetic resonance imaging is a powerful, non invasive tool for medical diagnosis. The low sensitivity for detecting the nuclear spin signals, typically limits the image resolution to several tens of micrometers in preclinical systems and millimeters in clinical scanners. Other sources of information, derived from diffusion processes of intrinsic molecules as water in the tissues, allow getting morphological information at micrometric and submicrometric scales as potential biomarkers of several pathologies. Here we consider extracting this morphological information by probing the distribution of internal magnetic field gradients induced by the heterogeneous magnetic susceptibility of the medium. We use a cumulant expansion to derive the dephasing on the spin signal induced by the molecules that explore these internal gradients while diffuse. Based on the cumulant expansion, we define internal gradient distributions tensors (IGDT) and propose modulating gradient spin echo sequences to probe them. These IGDT contain microstructural morphological information that characterize porous media and biological tissues. We evaluate the IGDT effects on the magnetization decay with typical conditions of brain tissue and show their effects can be experimentally observed. Our results thus provide a framework for exploiting IGDT as quantitative diagnostic tools.
翻訳日:2023-04-06 14:25:11 公開日:2023-04-04
# マルチソース領域適応の表現学習のためのアルゴリズム依存境界

Algorithm-Dependent Bounds for Representation Learning of Multi-Source Domain Adaptation ( http://arxiv.org/abs/2304.02064v1 )

ライセンス: Link先を確認
Qi Chen, Mario Marchand(参考訳) 我々は情報理論ツールを用いて、表現学習の観点からMDA(Multi-source Domain Adaptation)の新たな分析を導出する。 具体的には, 対象ラベルの少ない教師付きMDAと疑似ラベル付き教師なしMDAの関節分布アライメントについて検討し, 後者は比較的硬く, あまり研究されていない。 さらに,これら2つの設定に対して,パラメータとデータ間の相互情報によって一般化を特徴付けるアルゴリズム依存一般化境界を提案する。 そこで我々は,結合アライメントによる目標シフトに暗黙的に対処する,新しい深層MDAアルゴリズムを提案する。 最後に、相互情報境界を非空勾配ノルム推定を行うアルゴリズムに拡張する。 提案アルゴリズムは、メモリ効率を向上したターゲットシフトMDAベンチマークに匹敵する性能を有する。

We use information-theoretic tools to derive a novel analysis of Multi-source Domain Adaptation (MDA) from the representation learning perspective. Concretely, we study joint distribution alignment for supervised MDA with few target labels and unsupervised MDA with pseudo labels, where the latter is relatively hard and less commonly studied. We further provide algorithm-dependent generalization bounds for these two settings, where the generalization is characterized by the mutual information between the parameters and the data. Then we propose a novel deep MDA algorithm, implicitly addressing the target shift through joint alignment. Finally, the mutual information bounds are extended to this algorithm providing a non-vacuous gradient-norm estimation. The proposed algorithm has comparable performance to the state-of-the-art on target-shifted MDA benchmark with improved memory efficiency.
翻訳日:2023-04-06 14:24:54 公開日:2023-04-04
# 横型3次元シーンにおける連続的人間の動きの生成

Generating Continual Human Motion in Diverse 3D Scenes ( http://arxiv.org/abs/2304.02061v1 )

ライセンス: Link先を確認
Aymen Mir, Xavier Puig, Angjoo Kanazawa, Gerard Pons-Moll(参考訳) 本研究では,3次元シーンにおけるアニメーター誘導人間の動作を合成する手法を提案する。 3dシーンにおいて、スパース (3 または 4) のジョイント位置(例えば、人の手と2 フィートの位置)とシード動作シーケンスのセットが与えられると、本手法は、与えられたキーポイントによって課される制約を満足しながら、シード動作から開始される、妥当な動作シーケンスを生成する。 本研究では,連続的な動作合成問題を経路に分解し,キーポイントが指定した動作の内外への遷移を図り,シーン情報を明示的に組み込むことなくシーン制約を満たす動作の長期化を可能にする。 本手法はシーン非依存のモキャップデータのみを用いて訓練する。 結果として,我々のアプローチは,さまざまなジオメトリを備えた3dシーンに展開可能である。 ドリフトを使わずに再現可能な連続運動合成を実現するためには,次の目標が原点に位置する目標中心の正準座標系において運動を生成することが重要となる。 我々のモデルは,HPS, Replica, Matterport, ScanNet, およびNeRFを用いて表現されたシーンにおいて, 任意の順序でつかむ, 座る, 傾くといった多様な動作の長いシーケンスを生成することができる。 いくつかの実験により、3dシーンでパスをナビゲートする既存のメソッドよりも優れていることが証明された。

We introduce a method to synthesize animator guided human motion across 3D scenes. Given a set of sparse (3 or 4) joint locations (such as the location of a person's hand and two feet) and a seed motion sequence in a 3D scene, our method generates a plausible motion sequence starting from the seed motion while satisfying the constraints imposed by the provided keypoints. We decompose the continual motion synthesis problem into walking along paths and transitioning in and out of the actions specified by the keypoints, which enables long generation of motions that satisfy scene constraints without explicitly incorporating scene information. Our method is trained only using scene agnostic mocap data. As a result, our approach is deployable across 3D scenes with various geometries. For achieving plausible continual motion synthesis without drift, our key contribution is to generate motion in a goal-centric canonical coordinate frame where the next immediate target is situated at the origin. Our model can generate long sequences of diverse actions such as grabbing, sitting and leaning chained together in arbitrary order, demonstrated on scenes of varying geometry: HPS, Replica, Matterport, ScanNet and scenes represented using NeRFs. Several experiments demonstrate that our method outperforms existing methods that navigate paths in 3D scenes.
翻訳日:2023-04-06 14:24:41 公開日:2023-04-04
# 隠れ量子チャネル識別におけるシーケンシャルプロトコルのパワー

Power of sequential protocols in hidden quantum channel discrimination ( http://arxiv.org/abs/2304.02053v1 )

ライセンス: Link先を確認
Sho Sugiura, Arkopal Dutt, William J. Munro, Sina Zeytino\u{g}lu, and Isaac L. Chuang(参考訳) 多くの自然および工学的なシステムでは、未知の量子チャネルは直接制御および測定できないサブシステムに作用するが、代わりに弱い相互作用を持つ制御可能なサブシステムを通して学習される。 本研究では,これらの制約の下で量子チャネル識別(QCD)を研究し,これを秘密システムQCD(HQCD)と呼ぶ。 シーケンシャルプロトコルは完全な差別を達成し、ハイゼンベルク極限を飽和させる。 対照的に、 depth-1 と multi-shot プロトコルは hqcd を解決できない。 これは、逐次プロトコルが実験的に現実的な状況において優れていることを示唆している。

In many natural and engineered systems, unknown quantum channels act on a subsystem that cannot be directly controlled and measured, but is instead learned through a controllable subsystem that weakly interacts with it. We study quantum channel discrimination (QCD) under these restrictions, which we call hidden system QCD (HQCD). We find that sequential protocols achieve perfect discrimination and saturate the Heisenberg limit. In contrast, depth-1 parallel and multi-shot protocols cannot solve HQCD. This suggests that sequential protocols are superior in experimentally realistic situations.
翻訳日:2023-04-06 14:24:15 公開日:2023-04-04
# マルチモーダル衣料デザイン : ファッション画像編集のための人間中心潜在拡散モデル

Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing ( http://arxiv.org/abs/2304.02051v1 )

ライセンス: Link先を確認
Alberto Baldrati, Davide Morelli, Giuseppe Cartella, Marcella Cornia, Marco Bertini, Rita Cucchiara(参考訳) ファッションイラストは、デザイナーがビジョンを伝え、デザインのアイデアを概念化から実現し、服が人体とどのように相互作用するかを示すために使われる。 この文脈では、コンピュータビジョンはファッションデザインのプロセスを改善するために使用できる。 衣料品の仮想試着を中心にした従来の作品とは違って,本研究では,テキスト,人体ポーズ,スケッチなどのマルチモーダルなプロンプトに従うことで,人間中心のファッション画像の生成を導く,マルチモーダルなファッション画像編集の課題を提案する。 ファッションドメインではこれまで使われていなかったアプローチである潜在拡散モデルに基づく新しいアーキテクチャを提案することで、この問題に対処する。 タスクに適した既存のデータセットがないので、Dress CodeとVITON-HDという2つの既存のファッションデータセットも半自動で収集するマルチモーダルアノテーションで拡張します。 これらの新しいデータセットに関する実験結果は、与えられたマルチモーダル入力に対するリアリズムとコヒーレンスの両方の観点から、提案の有効性を示している。 ソースコードと収集されたマルチモーダルアノテーションは、https://github.com/aimagelab/multimodal-garment-designerで公開される。

Fashion illustration is used by designers to communicate their vision and to bring the design idea from conceptualization to realization, showing how clothes interact with the human body. In this context, computer vision can thus be used to improve the fashion design process. Differently from previous works that mainly focused on the virtual try-on of garments, we propose the task of multimodal-conditioned fashion image editing, guiding the generation of human-centric fashion images by following multimodal prompts, such as text, human body poses, and garment sketches. We tackle this problem by proposing a new architecture based on latent diffusion models, an approach that has not been used before in the fashion domain. Given the lack of existing datasets suitable for the task, we also extend two existing fashion datasets, namely Dress Code and VITON-HD, with multimodal annotations collected in a semi-automatic manner. Experimental results on these new datasets demonstrate the effectiveness of our proposal, both in terms of realism and coherence with the given multimodal inputs. Source code and collected multimodal annotations will be publicly released at: https://github.com/aimagelab/multimodal-garment-designer.
翻訳日:2023-04-06 14:24:07 公開日:2023-04-04
# 単一捕捉イオンを用いた臨界電磁界センサ

Criticality-enhanced Electromagnetic Field Sensor with Single Trapped Ions ( http://arxiv.org/abs/2304.02050v1 )

ライセンス: Link先を確認
Theodoros Ilias, Dayou Yang, Susana F. Huelga, Martin B. Plenio(参考訳) 散逸臨界点近傍で連続的に監視される駆動散逸量子センサの提案と解析を行う。 このセンサーは臨界開ラビモデルに依存しており、単一トラップイオンのスピンとフォノンの自由度を持ち、臨界エンハンス感度を達成する。 フォノン集団の「ジャンプ」に基づいて条件づけられた暗く明るい内部状態とを切り替える共トラップ型アンシライオンにより、ほぼ単位効率に近いセンサの効果的な連続監視を実現する。 実環境下では, 臨界センサは標準ショットノイズ限界を超えるスケーリングを達成し, 実験的不完全化に対して頑健であることを示す。

We propose and analyze a driven-dissipative quantum sensor that is continuously monitored close to a dissipative critical point. The sensor relies on the critical open Rabi model with the spin and phonon degrees of freedom of a single trapped ion to achieve criticality-enhanced sensitivity. Effective continuous monitoring of the sensor with nearly unit efficiency is realized via a co-trapped ancilla ion that switches between dark and bright internal states conditioned on a `jump' of the phonon population. We demonstrate that the critical sensor achieves a scaling beyond the standard shot noise limit under realistic conditions and is robust to experimental imperfections.
翻訳日:2023-04-06 14:23:46 公開日:2023-04-04
# 重みフィルタリングによる画像分類のためのマルチクラス説明不能学習

Multi-Class Explainable Unlearning for Image Classification via Weight Filtering ( http://arxiv.org/abs/2304.02049v1 )

ライセンス: Link先を確認
Samuele Poppi, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara(参考訳) Machine Unlearningは、ネットワークからトレーニングデータポイントの影響を選択的に除去するパラダイムとして最近登場した。 既存のアプローチでは、トレーニングデータの小さなサブセットまたは単一クラスをアンラーニングすることに重点を置いているが、この論文では異なる経路を採り、単一の未学習ラウンドで画像分類ネットワークの全クラスをアンラーニングできるフレームワークを考案する。 提案手法は,画像分類ネットワークの内部成分をメモリ行列で変調することにより,学習後の任意のクラスに対して,同じネットワークが学習しない動作を選択的に表示できるようにする。 各クラスに固有の重みの発見によって、このアプローチは、設計によって説明可能なクラスの表現を復元する。 本研究では,cnnとtransformerベースのバックボーンを用いて,小規模および中規模の画像分類データセット上で,重みフィルタリングネットワーク(wf-net)と命名するフレームワークをテストした。 私たちの研究は、アンラーニングのための説明可能なソリューションの開発に関する興味深い洞察を提供し、他のビジョンタスクにも容易に拡張できます。

Machine Unlearning has recently been emerging as a paradigm for selectively removing the impact of training datapoints from a network. While existing approaches have focused on unlearning either a small subset of the training data or a single class, in this paper we take a different path and devise a framework that can unlearn all classes of an image classification network in a single untraining round. Our proposed technique learns to modulate the inner components of an image classification network through memory matrices so that, after training, the same network can selectively exhibit an unlearning behavior over any of the classes. By discovering weights which are specific to each of the classes, our approach also recovers a representation of the classes which is explainable by-design. We test the proposed framework, which we name Weight Filtering network (WF-Net), on small-scale and medium-scale image classification datasets, with both CNN and Transformer-based backbones. Our work provides interesting insights in the development of explainable solutions for unlearning and could be easily extended to other vision tasks.
翻訳日:2023-04-06 14:23:35 公開日:2023-04-04
# 説明的大衆:説明可能性と民主的思考

Explanatory Publics: Explainability and Democratic Thought ( http://arxiv.org/abs/2304.02108v1 )

ライセンス: Link先を確認
David M. Berry(参考訳) 計算資本の条件下での民主政治を合法化し、擁護するために、私は「説明人」と呼ぶものの概念に貢献することを目的とする。 計算システムの「ブラックボックス」の中に隠されている破壊的技術、ネットワーク、価値観の社会的・政治的影響に疑問を呈するときに、何が重要かを探る。 説明的大衆」によって、私は社会、政治、技術、経済、文化的知識の枠組みが、説明の社会的権利を通じて正当化される必要があると確信しています。 すなわち、国家が民主主義と見なされるためには、その市民が(他の能力に加えて)説明的思考能力を開発することができ、それによって、社会における考え、実践、制度に疑問を呈することを保証する必要がある。 これは、市民が社会における考え、実践、制度をより一般的に問うことができる公共領域の概念を拡張することである。 しかし同時に、市民が機関や、彼らが使っているデジタル技術から説明アカウントを要求することも可能になる。

In order to legitimate and defend democratic politics under conditions of computational capital, my aim is to contribute a notion of what I am calling explanatory publics. I will explore what is at stake when we question the social and political effects of the disruptive technologies, networks and values that are hidden within the "black boxes" of computational systems. By "explanatory publics", I am gesturing to the need for frameworks of knowledge - whether social, political, technical, economic, or cultural - to be justified through a social right to explanation. That is, for a polity to be considered democratic, it must ensure that its citizens are able to develop a capacity for explanatory thought (in addition to other capacities), and, thereby, able to question ideas, practices, and institutions in society. This is to extend the notion of a public sphere where citizens are able to question ideas, practices, and institutions in society more generally. But it also adds the corollary that citizens can demand explanatory accounts from institutions and, crucially, the digital technologies that they use.
翻訳日:2023-04-06 14:17:16 公開日:2023-04-04
# 多孔質媒体における拡散の深層学習

Deep learning for diffusion in porous media ( http://arxiv.org/abs/2304.02104v1 )

ライセンス: Link先を確認
Krzysztof M. Graczyk, Dawid Strzelczyk, Maciej Matyka(参考訳) 我々は,多孔質媒体の基本特性を予測するために畳み込みニューラルネットワーク(cnn)を採用する。 2つの異なるメディアタイプが考慮されている: 1つは砂岩を模倣し、もう1つは生体組織の細胞外空間に由来するシステムを模倣する。 格子ボルツマン法は教師あり学習に必要なラベル付きデータを得るために用いられる。 私たちは2つのタスクを区別する。 第一に,システムの幾何解析に基づくネットワークは,ポロシティと有効拡散係数を予測する。 第二に、ネットワークはシステムの幾何と濃度マップを再構築する。 最初のタスクでは、C-NetとU-Netのエンコーダ部という2種類のCNNモデルを提案する。 どちらのネットワークも自己正規化モジュールを追加することで修正される。 モデルは合理的な正確さで予測されるが、トレーニング対象のデータタイプ内のみである。 例えば、砂岩のようなサンプルのオーバーシュートや生物学的なサンプルのアンダーシュートで訓練されたモデルです。 第2のタスクでは、u-netアーキテクチャの利用を提案する。 濃度場を正確に再構築する。 さらに、あるデータタイプでトレーニングされたネットワークは、他方でうまく機能する。 例えば、砂岩のようなサンプルで訓練されたモデルは、生物のようなサンプルで完全に動作する。

We adopt convolutional neural networks (CNN) to predict the basic properties of the porous media. Two different media types are considered: one mimics the sandstone, and the other mimics the systems derived from the extracellular space of biological tissues. The Lattice Boltzmann Method is used to obtain the labeled data necessary for performing supervised learning. We distinguish two tasks. In the first, networks based on the analysis of the system's geometry predict porosity and effective diffusion coefficient. In the second, networks reconstruct the system's geometry and concentration map. In the first task, we propose two types of CNN models: the C-Net and the encoder part of the U-Net. Both networks are modified by adding a self-normalization module. The models predict with reasonable accuracy but only within the data type, they are trained on. For instance, the model trained on sandstone-like samples overshoots or undershoots for biological-like samples. In the second task, we propose the usage of the U-Net architecture. It accurately reconstructs the concentration fields. Moreover, the network trained on one data type works well for the other. For instance, the model trained on sandstone-like samples works perfectly on biological-like samples.
翻訳日:2023-04-06 14:16:57 公開日:2023-04-04
# MadEye: 適応カメラ構成によるライブビデオ分析の精度向上

MadEye: Boosting Live Video Analytics Accuracy with Adaptive Camera Configurations ( http://arxiv.org/abs/2304.02101v1 )

ライセンス: Link先を確認
Mike Wong, Murali Ramanujam, Guha Balakrishnan, Ravi Netravali(参考訳) カメラの向き(回転とズーム)は、カメラが特定のシーンで撮影するコンテンツを制御し、それによってライブビデオ分析パイプラインの精度に大きな影響を及ぼす。 しかし、既存の分析アプローチでは、この重要な適応ノブは未修正のままであり、代わりに、固定方向からのキャプチャされた画像のエンコード、ストリーム、分析の方法を変えるのみを選んだ。 我々は,作業負荷やリソース制約の精度を最大化するために,カメラサーバシステムMadEyeを提案する。 そこでMadEyeは,コモディティ・パンティルト・ゾーム(PTZ)カメラを用いて,(1)多量の配向空間を高速に探索して実りあるサブセットを識別する探索アルゴリズムを組込み,(2)効率よく(カメラ資源のみで)ワークロードの精度を最大化する新しい知識蒸留戦略を考案した。 多様なワークロードの実験では、MadEyeは同じリソース使用量に対して2.9-25.7%の精度を向上し、同じ精度を2-3.7倍のコストで達成している。

Camera orientations (i.e., rotation and zoom) govern the content that a camera captures in a given scene, which in turn heavily influences the accuracy of live video analytics pipelines. However, existing analytics approaches leave this crucial adaptation knob untouched, instead opting to only alter the way that captured images from fixed orientations are encoded, streamed, and analyzed. We present MadEye, a camera-server system that automatically and continually adapts orientations to maximize accuracy for the workload and resource constraints at hand. To realize this using commodity pan-tilt-zoom (PTZ) cameras, MadEye embeds (1) a search algorithm that rapidly explores the massive space of orientations to identify a fruitful subset at each time, and (2) a novel knowledge distillation strategy to efficiently (with only camera resources) select the ones that maximize workload accuracy. Experiments on diverse workloads show that MadEye boosts accuracy by 2.9-25.7% for the same resource usage, or achieves the same accuracy with 2-3.7x lower resource costs.
翻訳日:2023-04-06 14:16:40 公開日:2023-04-04
# パンオプティカルセグメンテーションのための深層学習における不確実性推定

Uncertainty estimation in Deep Learning for Panoptic segmentation ( http://arxiv.org/abs/2304.02098v1 )

ライセンス: Link先を確認
Michael Smith, Frank Ferrie(参考訳) ディープラーニングベースのコンピュータビジョンアルゴリズムが技術の改善と進歩を続ける中、実世界のデータに対する堅牢性は、データセットのパフォーマンスを遅れさせ続けている。 これにより、研究室のアルゴリズムを現実世界に持ち込むのが困難になる。 モンテカルロ・ドロップアウトのようなアンサンブルに基づく不確実性推定手法は、この堅牢性問題に対処するために多くのアプリケーションで成功している。 残念ながら、このようなアンサンブルベースのアプローチが新しい問題領域に適用できるかどうかは必ずしも明確ではない。 これはパンオプティカルセグメンテーションの場合であり、問題の構造とそれを解決するために設計されたアーキテクチャは、画像分類やセマンティックセグメンテーションとは異なり、サンプル間で平均を使用する典型的なソリューションを直接適用できないことを意味する。 本稿では,モンテカルロ・ドロップアウトのようなアンサンブルに基づく不確実性推定手法が,既存のネットワークに変化がなく,性能が向上し,ネットワークによる予測の不確実性も向上することを示す。 結果はCOCO,KITTI-STEP,VIPERデータセットで定量的に定性的に示される。

As deep learning-based computer vision algorithms continue to improve and advance the state of the art, their robustness to real-world data continues to lag their performance on datasets. This makes it difficult to bring an algorithm from the lab to the real world. Ensemble-based uncertainty estimation approaches such as Monte Carlo Dropout have been successfully used in many applications in an attempt to address this robustness issue. Unfortunately, it is not always clear if such ensemble-based approaches can be applied to a new problem domain. This is the case with panoptic segmentation, where the structure of the problem and architectures designed to solve it means that unlike image classification or even semantic segmentation, the typical solution of using a mean across samples cannot be directly applied. In this paper, we demonstrate how ensemble-based uncertainty estimation approaches such as Monte Carlo Dropout can be used in the panoptic segmentation domain with no changes to an existing network, providing both improved performance and more importantly a better measure of uncertainty for predictions made by the network. Results are demonstrated quantitatively and qualitatively on the COCO, KITTI-STEP and VIPER datasets.
翻訳日:2023-04-06 14:16:18 公開日:2023-04-04
# CAMELSプロジェクト:新しいASTRIDと28パラメータTNGとSIMBAスイートで銀河形成モデル空間を拡張する

The CAMELS project: Expanding the galaxy formation model space with new ASTRID and 28-parameter TNG and SIMBA suites ( http://arxiv.org/abs/2304.02096v1 )

ライセンス: Link先を確認
Yueying Ni, Shy Genel, Daniel Angl\'es-Alc\'azar, Francisco Villaescusa-Navarro, Yongseok Jo, Simeon Bird, Tiziana Di Matteo, Rupert Croft, Nianyi Chen, Natal\'i S. M. de Santi, Matthew Gebhardt, Helen Shao, Shivam Pandey, Lars Hernquist, Romeel Dave(参考訳) 今回,機械学習(camels)による宇宙論および天体物理学における第3の流体力学シミュレーションスイートであるcamls-astridと,camels-tngおよびcamls-simbaの以前のフレームワークに基づいたモデルパラメータ空間を拡張する新しいシミュレーションセットを提案する。 CAMELS-ASTRIDは、ASTRIDシミュレーションに続く銀河形成モデルを使用し、3つの宇宙パラメータ(Omega_m$, $\sigma_8$, $\Omega_b$)と4つの恒星とAGNフィードバックを制御する4つのパラメータを含む、2,124の流体力学シミュレーションを実行する。 CAMELS の既存の TNG と SIMBA シミュレーションスイートと比較して、ASTRID のフィデューシャルモデルは、最も穏やかなAGN フィードバックを特徴とし、物質パワースペクトルに対する最小バリオン効果を予測する。 ASTRIDのトレーニングセットは、銀河団の幅広いバリエーションと、TNGやSIMBAと比較して、物質パワースペクトルに対するバリオンの影響をカバーしており、ASTRIDスイートでトレーニングされた機械学習モデルは、他の流体力学シミュレーションセットでテストすると、より良い外挿性能を示すことができる。 また、TNGモデルとSIMBAモデルにおいて28のパラメータを幅広く探索し、銀河形成モデルパラメータ空間全体と宇宙論と天体物理過程の間の複雑な非線形相互作用を実証する拡張シミュレーションセットを導入する。 新しいシミュレーションスイートでは、堅牢な機械学習モデルの構築は、銀河形成モデルの最大の多様性に関するトレーニングとテストに有利であることを示す。 また,高次元TNG-SB28シミュレーションセットを用いて,正確なニューラルネットワークを用いて宇宙パラメータを推定できることを示す。

We present CAMELS-ASTRID, the third suite of hydrodynamical simulations in the Cosmology and Astrophysics with MachinE Learning (CAMELS) project, along with new simulation sets that extend the model parameter space based on the previous frameworks of CAMELS-TNG and CAMELS-SIMBA, to provide broader training sets and testing grounds for machine-learning algorithms designed for cosmological studies. CAMELS-ASTRID employs the galaxy formation model following the ASTRID simulation and contains 2,124 hydrodynamic simulation runs that vary 3 cosmological parameters ($\Omega_m$, $\sigma_8$, $\Omega_b$) and 4 parameters controlling stellar and AGN feedback. Compared to the existing TNG and SIMBA simulation suites in CAMELS, the fiducial model of ASTRID features the mildest AGN feedback and predicts the least baryonic effect on the matter power spectrum. The training set of ASTRID covers a broader variation in the galaxy populations and the baryonic impact on the matter power spectrum compared to its TNG and SIMBA counterparts, which can make machine-learning models trained on the ASTRID suite exhibit better extrapolation performance when tested on other hydrodynamic simulation sets. We also introduce extension simulation sets in CAMELS that widely explore 28 parameters in the TNG and SIMBA models, demonstrating the enormity of the overall galaxy formation model parameter space and the complex non-linear interplay between cosmology and astrophysical processes. With the new simulation suites, we show that building robust machine-learning models favors training and testing on the largest possible diversity of galaxy formation models. We also demonstrate that it is possible to train accurate neural networks to infer cosmological parameters using the high-dimensional TNG-SB28 simulation set.
翻訳日:2023-04-06 14:15:57 公開日:2023-04-04
# 商品検索におけるクリックスルーレート予測のための長期・短期ユーザ興味の階層的融合

Hierarchically Fusing Long and Short-Term User Interests for Click-Through Rate Prediction in Product Search ( http://arxiv.org/abs/2304.02089v1 )

ライセンス: Link先を確認
Qijie Shen, Hong Wen, Jing Zhang, Qi Rao(参考訳) CTR(Click-Through Rate)の推定は、パーソナライズされた製品検索において不可欠だが難しい課題である。 しかし,既存のCTR手法は,複数の側面からユーザの短期利害関係をより効果的に抽出する方法,短期利害関係の長期利害関係の長期利害関係の抽出・融合方法,長期利害関係の絡み合いにどう対処するか,という3つの課題から,製品検索設定に苦慮している。 本稿では,これらの課題を解決するために,短期的興味抽出器(sie),長期的関心抽出器(lie),興味融合モジュール(ifm),興味疎結合モジュール(idm)という4つの基本モジュールからなる階層的関心疎結合ネットワーク(hifn)という新しいアプローチを提案する。 具体的には、クエリ依存、ターゲット依存、因果依存という3つの基本的な関心エンコーダを統合することでユーザの短期的関心を抽出し、その結果をモジュールリーに提供し、sieモジュールから短期的関心に関する注意メカニズムを考案することにより、ユーザの長期的関心を効果的に捉えられるようにする。 IFMでは、達成された長期的・短期的な利益をさらに適応的に融合させ、最終的な予測結果のために元の生のコンテキスト特徴と結合する。 最後に、IDMは、長期的・短期的な利害関係の絡み合いを考慮し、長期的・短期的な利害関係を解消する自己監督的な枠組みを考案している。 実世界のeコマースプラットフォーム上での大規模なオフラインおよびオンライン評価は、最先端の手法よりもHIFNの方が優れていることを示している。

Estimating Click-Through Rate (CTR) is a vital yet challenging task in personalized product search. However, existing CTR methods still struggle in the product search settings due to the following three challenges including how to more effectively extract users' short-term interests with respect to multiple aspects, how to extract and fuse users' long-term interest with short-term interests, how to address the entangling characteristic of long and short-term interests. To resolve these challenges, in this paper, we propose a new approach named Hierarchical Interests Fusing Network (HIFN), which consists of four basic modules namely Short-term Interests Extractor (SIE), Long-term Interests Extractor (LIE), Interests Fusion Module (IFM) and Interests Disentanglement Module (IDM). Specifically, SIE is proposed to extract user's short-term interests by integrating three fundamental interests encoders within it namely query-dependent, target-dependent and causal-dependent interest encoder, respectively, followed by delivering the resultant representation to the module LIE, where it can effectively capture user long-term interests by devising an attention mechanism with respect to the short-term interests from SIE module. In IFM, the achieved long and short-term interests are further fused in an adaptive manner, followed by concatenating it with original raw context features for the final prediction result. Last but not least, considering the entangling characteristic of long and short-term interests, IDM further devises a self-supervised framework to disentangle long and short-term interests. Extensive offline and online evaluations on a real-world e-commerce platform demonstrate the superiority of HIFN over state-of-the-art methods.
翻訳日:2023-04-06 14:15:20 公開日:2023-04-04
# 中性原子処理ノードを持つ量子ネットワーク

Quantum networks with neutral atom processing nodes ( http://arxiv.org/abs/2304.02088v1 )

ライセンス: Link先を確認
Jacob P. Covey, Harald Weinfurter, Hannes Bernien(参考訳) 量子ノードのメッシュ上の共有絡み合いを提供する量子ネットワークは、量子計算の新しい応用、センサやクロックのネットワークの精度の向上、広範囲にわたる効率的な量子通信を提供することによって、量子情報科学の分野に革命をもたらす。 個々の中性原子による最近の実験的進歩は、そのようなネットワークの重要なコンポーネントを実装するための高い可能性を示している。 我々は、個々の制御された中性原子の配列が、効率的なリモートエンタングルメント生成と大規模量子情報処理の両方にどのように適合するかについて、最新の発展と短期的な展望を強調した。 本稿では,機能要件と,中性原子処理ノードからなる大規模量子ネットワークの例について述べる。

Quantum networks providing shared entanglement over a mesh of quantum nodes will revolutionize the field of quantum information science by offering novel applications in quantum computation, enhanced precision in networks of sensors and clocks, and efficient quantum communication over large distances. Recent experimental progress with individual neutral atoms demonstrates a high potential for implementing the crucial components of such networks. We highlight latest developments and near-term prospects on how arrays of individually controlled neutral atoms are suited for both efficient remote entanglement generation and large-scale quantum information processing, thereby providing the necessary features for sharing high-fidelity and error-corrected multi-qubit entangled states between the nodes. We describe both the functionality requirements and several examples for advanced, large-scale quantum networks composed of neutral atom processing nodes.
翻訳日:2023-04-06 14:14:46 公開日:2023-04-04
# 需要応答アグリゲータを用いたエネルギー取引ゲームにおける近似stackelberg解のスケーラブルオンライン学習

Scalable Online Learning of Approximate Stackelberg Solutions in Energy Trading Games with Demand Response Aggregators ( http://arxiv.org/abs/2304.02086v1 )

ライセンス: Link先を確認
Styliani I. Kampezidou, Justin Romberg, Kyriakos G. Vamvoudakis, and Dimitri N. Mavris(参考訳) 本研究では,需要応答アグリゲータ (dr) とプロシューマーとの双方向的エネルギー交換のために,stackelbergゲーム理論の枠組みを提案する。 この定式化により、フレキシブルなエネルギー仲裁と追加の金銭的報酬が可能となり、消費者の望む日々のエネルギー需要が満たされることが保証される。 そこで, 提案手法は, オンラインサンプリングと, 累積的最適応答の学習に基づいて, 近似平衡を求めるために, スケーラブルな(プロサマー数の多い)アプローチを提案する。 さらに、近似平衡解の品質に境界を設ける。 最後に、カリフォルニアの日頭エネルギー市場とデイビス大学のエネルギー需要に関する実世界のデータを利用して、提案されたフレームワークとオンラインスケーラブルソリューションの有効性を実証する。

In this work, a Stackelberg game theoretic framework is proposed for trading energy bidirectionally between the demand-response (DR) aggregator and the prosumers. This formulation allows for flexible energy arbitrage and additional monetary rewards while ensuring that the prosumers' desired daily energy demand is met. Then, a scalable (with the number of prosumers) approach is proposed to find approximate equilibria based on online sampling and learning of the prosumers' cumulative best response. Moreover, bounds are provided on the quality of the approximate equilibrium solution. Last, real-world data from the California day-ahead energy market and the University of California at Davis building energy demands are utilized to demonstrate the efficacy of the proposed framework and the online scalable solution.
翻訳日:2023-04-06 14:14:32 公開日:2023-04-04
# EduceLab-Scrolls:X線CTによるHerculaneum Papyriからのテキストの復元

EduceLab-Scrolls: Verifiable Recovery of Text from Herculaneum Papyri using X-ray CT ( http://arxiv.org/abs/2304.02084v1 )

ライセンス: Link先を確認
Stephen Parsons, C. Seth Parker, Christy Chapman, Mami Hayashida, W. Brent Seales(参考訳) X線CT画像を用いたHerculaneum papyriの隠れテキストを明らかにするための完全なソフトウェアパイプラインを提案する。 この拡張された仮想アンラッピングパイプラインは、機械学習と、3D画像と2D画像をリンクする新しい幾何学的フレームワークを組み合わせる。 educelab-scrollsは、この問題に対する20年の研究努力を表す包括的なオープンデータセットです。 EduceLab-Scrollsには、小さな断片と無傷のロールスクロールの両方のボリュームX線CT画像が含まれている。 データセットには、インク検出モデルの教師付きトレーニングに使用される2Dイメージラベルも含まれている。 ラベリングは、スクロールフラグメントのスペクトル写真と、同じフラグメントのX線CT画像との整列を可能とし、画像空間とモダリティの間の機械学習可能なマッピングを作成する。 このアライメントは、X線CTで「見えない」炭素インクを検出するための教師あり学習を可能にする。 私たちの知る限り、これはこの種のデータセットとしては初めてのもので、ヘリテージドメインでリリースされた最大のデータセットです。 本手法は, スクロール断片の正確なテキスト行を, 既知の地底真理で明らかにすることができる。 露見されたテキストは、視覚的確認、定量的画像計測、学術的レビューを用いて検証される。 educelab-scrollsは今回初めて、ここで紹介するherculaneum papyriの隠されたテキストを発見した。 研究が進むにつれて、educelab-scrollsデータセットがよりテキスト的な発見を生み出すことを期待している。

We present a complete software pipeline for revealing the hidden texts of the Herculaneum papyri using X-ray CT images. This enhanced virtual unwrapping pipeline combines machine learning with a novel geometric framework linking 3D and 2D images. We also present EduceLab-Scrolls, a comprehensive open dataset representing two decades of research effort on this problem. EduceLab-Scrolls contains a set of volumetric X-ray CT images of both small fragments and intact, rolled scrolls. The dataset also contains 2D image labels that are used in the supervised training of an ink detection model. Labeling is enabled by aligning spectral photography of scroll fragments with X-ray CT images of the same fragments, thus creating a machine-learnable mapping between image spaces and modalities. This alignment permits supervised learning for the detection of "invisible" carbon ink in X-ray CT, a task that is "impossible" even for human expert labelers. To our knowledge, this is the first aligned dataset of its kind and is the largest dataset ever released in the heritage domain. Our method is capable of revealing accurate lines of text on scroll fragments with known ground truth. Revealed text is verified using visual confirmation, quantitative image metrics, and scholarly review. EduceLab-Scrolls has also enabled the discovery, for the first time, of hidden texts from the Herculaneum papyri, which we present here. We anticipate that the EduceLab-Scrolls dataset will generate more textual discovery as research continues.
翻訳日:2023-04-06 14:14:18 公開日:2023-04-04
# ビデオ・テキストデータなしのスケーラブルで高精度な自己教師型マルチモーダル表現学習

Scalable and Accurate Self-supervised Multimodal Representation Learning without Aligned Video and Text Data ( http://arxiv.org/abs/2304.02080v1 )

ライセンス: Link先を確認
Vladislav Lialin, Stephen Rawls, David Chan, Shalini Ghosh, Anna Rumshisky, Wael Hamza(参考訳) 弱い教師付きデータセットのスケールアップは、画像テキスト領域で非常に効果的であることが示され、最近の最先端のコンピュータビジョンやマルチモーダルニューラルネットワークに寄与している。 しかし、既存の大規模ビデオテキストデータセットとマイニング技術には、整列データの不足、データの多様性の欠如、整列データの収集が困難といったいくつかの制限がある。 現在、HowTo100Mで使われている自動音声認識(ASR)によるビデオテキストデータマイニング手法は、しばしばビデオコンテンツを参照しない低品質のキャプションを提供する。 他のマイニングアプローチは適切な言語記述(ビデオタグ)を提供しておらず、短いクリップ(altテキスト)に偏っている。 本稿では,画像キャプションの最近の進歩により,映像テキストの並列化を伴わずに高品質な映像モデルを事前学習できることを示す。 我々は、OPT言語モデルとTimeSformerビジュアルバックボーンに基づくいくつかのビデオキャプションモデルを事前訓練する。 これらのネットワークをいくつかのビデオキャプションデータセットに微調整する。 まず,既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。 第2に,画像とビデオの両方の事前学習は,単一のモダリティで事前学習するよりも有意に優れたネットワーク(msr-vttでは+4 cider)を生成する。 本手法は,既存の事前学習やデータマイニング手法を補完し,様々な設定で使用できる。 擬似ラベル方式の有効性を考えると、生成されたキャプションを公開する計画である。

Scaling up weakly-supervised datasets has shown to be highly effective in the image-text domain and has contributed to most of the recent state-of-the-art computer vision and multimodal neural networks. However, existing large-scale video-text datasets and mining techniques suffer from several limitations, such as the scarcity of aligned data, the lack of diversity in the data, and the difficulty of collecting aligned data. Currently popular video-text data mining approach via automatic speech recognition (ASR) used in HowTo100M provides low-quality captions that often do not refer to the video content. Other mining approaches do not provide proper language descriptions (video tags) and are biased toward short clips (alt text). In this work, we show how recent advances in image captioning allow us to pre-train high-quality video models without any parallel video-text data. We pre-train several video captioning models that are based on an OPT language model and a TimeSformer visual backbone. We fine-tune these networks on several video captioning datasets. First, we demonstrate that image captioning pseudolabels work better for pre-training than the existing HowTo100M ASR captions. Second, we show that pre-training on both images and videos produces a significantly better network (+4 CIDER on MSR-VTT) than pre-training on a single modality. Our methods are complementary to the existing pre-training or data mining approaches and can be used in a variety of settings. Given the efficacy of the pseudolabeling method, we are planning to publicly release the generated captions.
翻訳日:2023-04-06 14:13:54 公開日:2023-04-04
# convformer:動的多頭部畳み込み注意を利用した3次元ポーズ推定用変圧器モデルのパラメータ低減

ConvFormer: Parameter Reduction in Transformer Models for 3D Human Pose Estimation by Leveraging Dynamic Multi-Headed Convolutional Attention ( http://arxiv.org/abs/2304.02147v1 )

ライセンス: Link先を確認
Alec Diaz-Arias and Dmitriy Shin(参考訳) 近年,3次元ポーズ推定作業におけるデファクト畳み込み型アーキテクチャを,完全変換型アーキテクチャに置き換えている。 本稿では, モノラルな3次元ポーズ推定のための新規な畳み込み変換器である \textbf{\textit{ConvFormer}} を提案する。 我々は,空間的および時間的畳み込み変換器を設計し,個々のフレーム内の人間の関節関係を包括的にモデル化した。 さらに, 局所的な関節特徴の近傍において, 時間的情報を完全に融合させる「textbf{\textit{temporal joints profile」という新しい概念を導入する。 我々は,Human3.6M,MPI-INF-3DHP,HumanEvaの3つのベンチマークデータセットに対して,定量的に定性的に評価を行った。 最適なハイパーパラメータセットを特定するために、大規模な実験が行われた。 これらの実験により,従来の変圧器モデルと比較した場合,3つのデータセットでSOTA(State-of-the-Art)あるいはSOTA付近を達成できた。 さらに,H36MのProtocol III用SOTAをGTおよびCPN検出入力の両方で達成した。 最後に、MPI-INF-3DHPデータセットの3つの指標と、Protocol IIの下でHumanEvaに関する3つの被験者についてSOTAを得た。

Recently, fully-transformer architectures have replaced the defacto convolutional architecture for the 3D human pose estimation task. In this paper we propose \textbf{\textit{ConvFormer}}, a novel convolutional transformer that leverages a new \textbf{\textit{dynamic multi-headed convolutional self-attention}} mechanism for monocular 3D human pose estimation. We designed a spatial and temporal convolutional transformer to comprehensively model human joint relations within individual frames and globally across the motion sequence. Moreover, we introduce a novel notion of \textbf{\textit{temporal joints profile}} for our temporal ConvFormer that fuses complete temporal information immediately for a local neighborhood of joint features. We have quantitatively and qualitatively validated our method on three common benchmark datasets: Human3.6M, MPI-INF-3DHP, and HumanEva. Extensive experiments have been conducted to identify the optimal hyper-parameter set. These experiments demonstrated that we achieved a \textbf{significant parameter reduction relative to prior transformer models} while attaining State-of-the-Art (SOTA) or near SOTA on all three datasets. Additionally, we achieved SOTA for Protocol III on H36M for both GT and CPN detection inputs. Finally, we obtained SOTA on all three metrics for the MPI-INF-3DHP dataset and for all three subjects on HumanEva under Protocol II.
翻訳日:2023-04-06 14:07:42 公開日:2023-04-04
# 継続的最適化による構造学習の展望

Structure Learning with Continuous Optimization: A Sober Look and Beyond ( http://arxiv.org/abs/2304.02146v1 )

ライセンス: Link先を確認
Ignavier Ng, Biwei Huang, Kun Zhang(参考訳) 本稿では, 有向非巡回グラフ(dag)構造学習における連続最適化が, うまく機能しない場合と, その理由について検討し, 探索手順の信頼性を高めるための方向性を提案する。 Reisach et al. (2021) は、いくつかの連続構造学習手法の顕著な性能は、主に境界分散の増加順序と位相秩序の間の高い一致によって引き起こされ、これらの手法がデータの標準化後にうまく機能しないことを示した。 同一および非等質雑音分散を仮定した連続的アプローチに対してこの現象を解析し,反例,正当化,可能な代替説明を提供することで,どちらの場合にも文が保持されないことを示す。 さらに, 連続構造学習の最近の進歩は改善に至らず, 非凸性が特に非等式雑音分散式の主な関心事であることを示す。 本研究は,より汎用的な設定とより包括的な経験的評価のために,非等式雑音分散式を考慮すべきであることが示唆された。 最後に,サーチプロシージャの他の側面について,しきい値や疎度などの知見を提供し,最終ソリューションにおいてそれらが重要な役割を果たすことを示す。

This paper investigates in which cases continuous optimization for directed acyclic graph (DAG) structure learning can and cannot perform well and why this happens, and suggests possible directions to make the search procedure more reliable. Reisach et al. (2021) suggested that the remarkable performance of several continuous structure learning approaches is primarily driven by a high agreement between the order of increasing marginal variances and the topological order, and demonstrated that these approaches do not perform well after data standardization. We analyze this phenomenon for continuous approaches assuming equal and non-equal noise variances, and show that the statement may not hold in either case by providing counterexamples, justifications, and possible alternative explanations. We further demonstrate that nonconvexity may be a main concern especially for the non-equal noise variances formulation, while recent advances in continuous structure learning fail to achieve improvement in this case. Our findings suggest that future works should take into account the non-equal noise variances formulation to handle more general settings and for a more comprehensive empirical evaluation. Lastly, we provide insights into other aspects of the search procedure, including thresholding and sparsity, and show that they play an important role in the final solutions.
翻訳日:2023-04-06 14:07:16 公開日:2023-04-04
# マルチドメインモラル学習のためのデータ融合フレームワーク

A Data Fusion Framework for Multi-Domain Morality Learning ( http://arxiv.org/abs/2304.02144v1 )

ライセンス: Link先を確認
Siyi Guo, Negar Mokhberian, Kristina Lerman(参考訳) 言語モデルは、テキストの道徳的感情を認識し、人間の人生における道徳の役割を研究する新しい機会を生み出すために訓練することができる。 言語や道徳への関心が高まるにつれて、モラルアノテーションを備えたいくつかの根拠真理データセットがリリースされた。 しかし、これらのデータセットは、データ収集、ドメイン、トピック、アノテータの指示などの方法によって異なる。 このような異種データセットをトレーニング中に集約するだけで、うまく一般化できないモデルが得られる。 本稿では,複数の異種データセットをトレーニングするデータ融合フレームワークについて述べる。 このモデルは、ラベルシフトに対処するために、データ集合を特徴空間に整列させるためにドメイン逆トレーニングと重み付き損失関数を使用する。 提案手法は,従来の道徳的推論手法と比較して,異なるデータセットにおける最先端性能を実現する。

Language models can be trained to recognize the moral sentiment of text, creating new opportunities to study the role of morality in human life. As interest in language and morality has grown, several ground truth datasets with moral annotations have been released. However, these datasets vary in the method of data collection, domain, topics, instructions for annotators, etc. Simply aggregating such heterogeneous datasets during training can yield models that fail to generalize well. We describe a data fusion framework for training on multiple heterogeneous datasets that improve performance and generalizability. The model uses domain adversarial training to align the datasets in feature space and a weighted loss function to deal with label shift. We show that the proposed framework achieves state-of-the-art performance in different datasets compared to prior works in morality inference.
翻訳日:2023-04-06 14:06:52 公開日:2023-04-04
# 不定値線形損失最小化時の逐次線形時間最適ユニモダルフィッティング

Sequential Linearithmic Time Optimal Unimodal Fitting When Minimizing Univariate Linear Losses ( http://arxiv.org/abs/2304.02141v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 本稿では,線形損失関数下における不定値学習モデルのスコアアウトプットの最適一様変換について述べる。 スコア値と対象領域の最適マッピングが長方形関数であることを実証する。 観測試料に最適な正方形形状を求めるために, 入ってくる新試料毎に推定可能な逐次的アプローチを提案する。 このアプローチは反復ごとに対数的時間的複雑さを持ち、最適に効率的です。

This paper focuses on optimal unimodal transformation of the score outputs of a univariate learning model under linear loss functions. We demonstrate that the optimal mapping between score values and the target region is a rectangular function. To produce this optimal rectangular fit for the observed samples, we propose a sequential approach that can its estimation with each incoming new sample. Our approach has logarithmic time complexity per iteration and is optimally efficient.
翻訳日:2023-04-06 14:06:40 公開日:2023-04-04
# ジオテクニカルパロット物語(GPT: Geotechnical Parrot Tales: GPT Hallucination with prompt engineering for geotechnical Applications)

Geotechnical Parrot Tales (GPT): Overcoming GPT hallucinations with prompt engineering for geotechnical applications ( http://arxiv.org/abs/2304.02138v1 )

ライセンス: Link先を確認
Krishna Kumar(参考訳) OpenAIのChatGPTのような大規模言語モデル(LLM)の普及は、地球工学を含む様々な産業に革命をもたらした。 しかし、GPTモデルは時に可聴音を発生させるが、誤った出力を発生させ、幻覚を引き起こす。 本稿では,これらのリスクを軽減し,GPTの潜在能力を地球工学的応用に活用する上で,迅速なエンジニアリングの重要性について論じる。 LLMに関連する課題と落とし穴を探り、正確で価値のある応答を保証する上でのコンテキストの役割を強調します。 さらに,データ分析や設計といった複雑なタスクの自然なインタフェースとなるための,文脈特異的検索エンジンの開発とLLMの可能性について検討する。 また,複雑な地盤工学タスクやデータ解析を扱うために,自然言語を用いた統一インターフェースを開発する。 GPTをジオテクニカルエンジニアリングワークフローに統合することにより、プロフェッショナルは作業の合理化と、将来にわたって持続可能なレジリエントなインフラストラクチャシステムの開発が可能になる。

The widespread adoption of large language models (LLMs), such as OpenAI's ChatGPT, could revolutionized various industries, including geotechnical engineering. However, GPT models can sometimes generate plausible-sounding but false outputs, leading to hallucinations. In this article, we discuss the importance of prompt engineering in mitigating these risks and harnessing the full potential of GPT for geotechnical applications. We explore the challenges and pitfalls associated with LLMs and highlight the role of context in ensuring accurate and valuable responses. Furthermore, we examine the development of context-specific search engines and the potential of LLMs to become a natural interface for complex tasks, such as data analysis and design. We also develop a unified interface using natural language to handle complex geotechnical engineering tasks and data analysis. By integrating GPT into geotechnical engineering workflows, professionals can streamline their work and develop sustainable and resilient infrastructure systems for the future.
翻訳日:2023-04-06 14:06:35 公開日:2023-04-04
# fredom: フェアネス領域適応アプローチによる意味的シーン理解

FREDOM: Fairness Domain Adaptation Approach to Semantic Scene Understanding ( http://arxiv.org/abs/2304.02135v1 )

ライセンス: Link先を確認
Thanh-Dat Truong, Ngan Le, Bhiksha Raj, Jackson Cothren, Khoa Luu(参考訳) セマンティックシーンセグメンテーションにおけるドメイン適応は近年顕著に改善されているが、ドメイン適応の公平性に関する懸念は十分に定義されておらず、対処されていない。 加えて、公平性は、例えば、不公平な予測が人間の安全に影響を与える可能性があるとして、セグメント化モデルを人間関連の現実世界のアプリケーションにデプロイする際の最も重要な側面の1つである。 本稿では,意味的シーンセグメンテーションに対する新しいフェアネス領域適応(fredom)手法を提案する。 特に,提案した定式化フェアネス目標から,クラス分布の公平な処理に基づいて,新たな適応フレームワークを導入する。 さらに、一般に構造依存の文脈をモデル化するために、予測セグメンテーションの一貫性を課すために、新しい条件構造制約を導入する。 提案する条件構造ネットワークにより, 自己付着機構はセグメント化の構造情報を十分にモデル化した。 アブレーション研究を通じて,提案手法はセグメント化モデルの性能向上とモデル予測における公平性の促進を示す。 SYTHIA $\to$ Cityscapes と GTA5 $\to$ Cityscapes という2つの標準ベンチマークの実験結果から,本手法が State-of-the-Art (SOTA) の性能を達成したことが示された。

Although Domain Adaptation in Semantic Scene Segmentation has shown impressive improvement in recent years, the fairness concerns in the domain adaptation have yet to be well defined and addressed. In addition, fairness is one of the most critical aspects when deploying the segmentation models into human-related real-world applications, e.g., autonomous driving, as any unfair predictions could influence human safety. In this paper, we propose a novel Fairness Domain Adaptation (FREDOM) approach to semantic scene segmentation. In particular, from the proposed formulated fairness objective, a new adaptation framework will be introduced based on the fair treatment of class distributions. Moreover, to generally model the context of structural dependency, a new conditional structural constraint is introduced to impose the consistency of predicted segmentation. Thanks to the proposed Conditional Structure Network, the self-attention mechanism has sufficiently modeled the structural information of segmentation. Through the ablation studies, the proposed method has shown the performance improvement of the segmentation models and promoted fairness in the model predictions. The experimental results on the two standard benchmarks, i.e., SYNTHIA $\to$ Cityscapes and GTA5 $\to$ Cityscapes, have shown that our method achieved State-of-the-Art (SOTA) performance.
翻訳日:2023-04-06 14:06:19 公開日:2023-04-04
# 巨大実スカラーKlein-Gordon量子粒子の相対論的空間局在について

On the Relativistic Spatial Localization for massive real scalar Klein-Gordon quantum particles ( http://arxiv.org/abs/2304.02133v1 )

ライセンス: Link先を確認
Valter Moretti(参考訳) D.R.Ternoによって導入された提案を厳密に分析し、PVM の Poincar\'e-共変族の観点から、Klein-Gordon 質量実粒子の空間的局所化を観測できるとする。 これらのPOVMは、実際にニュートン・ウィグナーのPVMのキネマティックな変形であることを示す。 しかしながら、これらのPOVMの1つの最初のモーメントは、ニュートン・ウィグナー自己随伴位置作用素の制限(コア上の)と正確に一致するが、2番目のモーメントは一致しない。 この事実はニュートン・ウィグナー位置のよい性質をすべて保存することができ、ヘーガーフェルト定理から生じる非物理的特徴を排除できる。 POVMは空間的に急激な局所状態を認めないが、任意の精度でほぼ局所状態の族を認める。 次に、D.P.L.Castrigianoが導入した、ミンコフスキー参照フレームのLebesgue測定可能な空間領域に関する因果時間的発展に関する要件の一部を満たすことを確立する。 完全なカスティーリャーノの因果関係要件の妥当性は、テルノの因果関係を自然な方法で一般化する空間的局在の概念にも証明される。

I rigorously analyze a proposal, introduced by D.R.Terno, about a spatial localization observable for a Klein-Gordon massive real particle in terms of a Poincar\'e-covariant family of POVMs. I prove that these POVMs are actually a kinematic deformation of the Newton-Wigner PVMs. The first moment of one of these POVMs however exactly coincides with a restriction (on a core) of the Newton-Wigner selfadjoint position operator, though the second moment does not. This fact permits to preserve all nice properties of the Newton-Wigner position observable, dropping the unphysical features arising from the Hegerfeldt theorem. The considered POVM does not permit spatially sharply localized states, but it admits families of almost localized states with arbitrary precision. Next, I establish that the Terno localization observable satisfies part of a requirement introduced by D.P.L.Castrigiano about causal temporal evolution concerning the Lebesgue measurable spatial regions of any Minkowskian reference frame. The validity of the complete Castrigiano's causality requirement is also proved for a notion of spatial localization which generalizes Terno's one in a natural way.
翻訳日:2023-04-06 14:05:57 公開日:2023-04-04
# OpenContrails:GOES-16 ABI上でのコントラル検出のベンチマーク

OpenContrails: Benchmarking Contrail Detection on GOES-16 ABI ( http://arxiv.org/abs/2304.02122v1 )

ライセンス: Link先を確認
Joe Yue-Hei Ng, Kevin McCloskey, Jian Cui, Erica Brand, Aaron Sarna, Nita Goyal, Christopher Van Arsdale, Scott Geraedts(参考訳) コントラル(Contrails)は、航空機によって引き起こされる線状氷雲であり、おそらく航空による気候変動の最大の要因である。 コントラル回避は、航空の気候への影響を大幅に減らすための安価な方法である可能性がある。 自動コントラ検出システムは、コントラル回避システムの開発と評価に必須のツールである。 本稿では,GOES-16 Advanced Baseline Imager (ABI)データに基づいて,コントラクション検出モデルのトレーニングと評価を行う,OpenContrailsというラベル付きデータセットを提案する。 本稿では,検出精度を向上させるために時間的コンテキストを組み込んだ反則検出モデルを提案し,評価する。 human labeled datasetとcontrail detection outputsは、gs://goes_contrails_dataset.google cloud storageで公開されている。

Contrails (condensation trails) are line-shaped ice clouds caused by aircraft and are likely the largest contributor of aviation-induced climate change. Contrail avoidance is potentially an inexpensive way to significantly reduce the climate impact of aviation. An automated contrail detection system is an essential tool to develop and evaluate contrail avoidance systems. In this paper, we present a human-labeled dataset named OpenContrails to train and evaluate contrail detection models based on GOES-16 Advanced Baseline Imager (ABI) data. We propose and evaluate a contrail detection model that incorporates temporal context for improved detection accuracy. The human labeled dataset and the contrail detection outputs are publicly available on Google Cloud Storage at gs://goes_contrails_dataset.
翻訳日:2023-04-06 14:05:38 公開日:2023-04-04
# 部分空間エンコーダ法による非線形状態空間同定の初期化手法

Initialization Approach for Nonlinear State-Space Identification via the Subspace Encoder Approach ( http://arxiv.org/abs/2304.02119v1 )

ライセンス: Link先を確認
Rishi Ramkannan, Gerben I. Beintema, Roland T\'oth, Maarten Schoukens(参考訳) subnetニューラルネットワークアーキテクチャは、入出力データから非線形状態空間モデルを識別するために開発された。 これを実現するために、ロールアウトされた非線形状態空間方程式と、ニューラルネットワークとしてパラメータ化された状態エンコーダ関数を組み合わせる。 エンコーダ関数を導入し、過去の入力出力データから現在の状態を再構築する。 これにより、ロールアウト状態空間モデルの前方シミュレーションが可能になる。 このアプローチは高精度で一貫したモデル推定を提供することを示したが、トレーニングプロセスの効率的な初期化により、その収束性を著しく改善することができる。 本稿では,Best Linear Approximation (BLA) を用いた部分空間エンコーダ手法の初期化について述べる。 BLAが提供した状態空間行列とそれに関連する再構成可能性マップを用いて、ネットワークの状態遷移部とエンコーダの両方を初期化する。 改良初期化スキームの性能は、wiener-hammersteinシミュレーションの例とベンチマークデータセットで評価される。 その結果, 弱非線形系では, 線形再構成可能性マップに基づく初期化がより高速に収束し, より良いモデル品質が得られることがわかった。

The SUBNET neural network architecture has been developed to identify nonlinear state-space models from input-output data. To achieve this, it combines the rolled-out nonlinear state-space equations and a state encoder function, both parameterised as a neural network. The encoder function is introduced to reconstruct the current state from past input-output data. Hence it enables the forward simulation of the rolled-out state-space model. While this approach has shown to provide high-accuracy and consistent model estimation, its convergence can be significantly improved by efficient initialization of the training process. This paper focuses on such an initialisation of the subspace encoder approach using the Best Linear Approximation (BLA). Using the BLA provided state-space matrices and its associated reconstructability map both the state-transition part of the network and the encoder are initialized. The performance of the improved initialisation scheme is evaluated on a Wiener-Hammerstein simulation example and a benchmark dataset. The results show that for a weakly nonlinear system, the proposed initialisation based on the linear reconstructability map results in a faster convergence and a better model quality.
翻訳日:2023-04-06 14:05:25 公開日:2023-04-04
# DIR-AS:行動セグメンテーションのための個人識別と時間推論の分離

DIR-AS: Decoupling Individual Identification and Temporal Reasoning for Action Segmentation ( http://arxiv.org/abs/2304.02110v1 )

ライセンス: Link先を確認
Peiyao Wang, Haibin Ling(参考訳) 完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰セグメンテーションの問題に悩まされる。 既存の研究は、境界対応ネットワーク、多段階改良、時間的滑らかさの損失など、様々なソリューションを提案している。 しかし,そのほとんどは,粒度の異なる評価基準を効果的に取り組めない,フレーム単位での監督の利点を生かしている。 本稿では,まず,より効率的なマルチスケール注意のための時間的ピラミッド拡張と時間的ピラミッドプーリングを備えた,新しい局所的グローバルアテンション機構を考案する。 次に,アクションセグメンテーションにおける2つの固有の目標,すなわち(1)フレームワイズによる個人識別と(2)アクションセット予測による時間的推論を分離する。 その後、アクションアライメントモジュールはこれらの異なる粒度予測を融合させ、より正確でスムーズなアクションセグメンテーションをもたらす。 我々は,GTEAでは82.8%(+2.6%),Breakfastでは74.7%(+1.2%)の精度を達成し,広範囲なアブレーション研究とともに提案手法の有効性を示した。 コードは後で利用可能になる。

Fully supervised action segmentation works on frame-wise action recognition with dense annotations and often suffers from the over-segmentation issue. Existing works have proposed a variety of solutions such as boundary-aware networks, multi-stage refinement, and temporal smoothness losses. However, most of them take advantage of frame-wise supervision, which cannot effectively tackle the evaluation metrics with different granularities. In this paper, for the desirable large receptive field, we first develop a novel local-global attention mechanism with temporal pyramid dilation and temporal pyramid pooling for efficient multi-scale attention. Then we decouple two inherent goals in action segmentation, ie, (1) individual identification solved by frame-wise supervision, and (2) temporal reasoning tackled by action set prediction. Afterward, an action alignment module fuses these different granularity predictions, leading to more accurate and smoother action segmentation. We achieve state-of-the-art accuracy, eg, 82.8% (+2.6%) on GTEA and 74.7% (+1.2%) on Breakfast, which demonstrates the effectiveness of our proposed method, accompanied by extensive ablation studies. The code will be made available later.
翻訳日:2023-04-06 14:05:08 公開日:2023-04-04
# 階層的自己回帰言語モデルによる超高次元縦型電子健康記録の合成

Synthesize Extremely High-dimensional Longitudinal Electronic Health Records via Hierarchical Autoregressive Language Model ( http://arxiv.org/abs/2304.02169v1 )

ライセンス: Link先を確認
Brandon Theodorou, Cao Xiao, and Jimeng Sun(参考訳) リアルかつプライバシを保護した合成電子健康記録(EHR)は、機械学習(ML)モデリングと統計分析のための実際のEHRの代替となる。 しかし,ehr(high-fidelity and granular electronic health record)データの生成は,高次元データに固有の複雑さが原因で既存の手法では課題となっている。 本稿では, 階層型自己回帰言語mOdel(HALO)を提案する。これは, 現実のEHRの統計特性を保存し, プライバシーを考慮せずに正確なMLモデルのトレーニングに使用できる。 階層的自己回帰モデルとして設計されたhalo法は, 医用コード, 臨床訪問, 患者記録の確率密度関数を生成し, 変数選択や集計を必要とせず, 元の非集約形式のehrデータを生成する。 さらに,このモデルでは,高品質な連続変数を連続的かつ確率的に生成する。 我々は, HALOが高次元疾患コード確率(d >10,000), 訪問中の疾患共起確率(d > 1000,000), 連続訪問における条件付き確率(d > 5,000,000)で高忠実性EHRデータを生成し, 実EHRデータと比較して0.9R2以上の相関を達成できることを実証した。 このパフォーマンスにより、合成データに基づいてトレーニングされた下流MLモデルを、実データでトレーニングされたモデルに匹敵する精度を達成することができる(HALOデータでは0.938 AUROC、実データでは0.943)。 最後に、実データと合成データの組み合わせにより、実際のEHRデータのみを使用することで達成された以上のMLモデルの精度を高める。

Synthetic electronic health records (EHRs) that are both realistic and preserve privacy can serve as an alternative to real EHRs for machine learning (ML) modeling and statistical analysis. However, generating high-fidelity and granular electronic health record (EHR) data in its original, highly-dimensional form poses challenges for existing methods due to the complexities inherent in high-dimensional data. In this paper, we propose Hierarchical Autoregressive Language mOdel (HALO) for generating longitudinal high-dimensional EHR, which preserve the statistical properties of real EHR and can be used to train accurate ML models without privacy concerns. Our HALO method, designed as a hierarchical autoregressive model, generates a probability density function of medical codes, clinical visits, and patient records, allowing for the generation of realistic EHR data in its original, unaggregated form without the need for variable selection or aggregation. Additionally, our model also produces high-quality continuous variables in a longitudinal and probabilistic manner. We conducted extensive experiments and demonstrate that HALO can generate high-fidelity EHR data with high-dimensional disease code probabilities (d > 10,000), disease co-occurrence probabilities within visits (d > 1,000,000), and conditional probabilities across consecutive visits (d > 5,000,000) and achieve above 0.9 R2 correlation in comparison to real EHR data. This performance then enables downstream ML models trained on its synthetic data to achieve comparable accuracy to models trained on real data (0.938 AUROC with HALO data vs. 0.943 with real data). Finally, using a combination of real and synthetic data enhances the accuracy of ML models beyond that achieved by using only real EHR data.
翻訳日:2023-04-06 13:57:41 公開日:2023-04-04
# I2I: 知識の向上によるアダプタの初期化

I2I: Initializing Adapters with Improvised Knowledge ( http://arxiv.org/abs/2304.02168v1 )

ライセンス: Link先を確認
Tejas Srinivasan, Furong Jia, Mohammad Rostami, Jesse Thomason(参考訳) アダプタは、継続的学習における破滅的な忘れ方問題の有望な解決策を提供する。 しかし、新しいタスク毎に独立したアダプタモジュールをトレーニングすることは、クロスタスクの知識転送の機会を逃す。 我々は,先行学習したタスクのアダプタから知識を抽出し,入力タスクのアダプタを初期化する連続学習アルゴリズム「I2I」を提案する。 我々は、視覚的質問応答タスクのシーケンスに関する実験を行うことにより、多モード連続学習ベンチマークであるCLiMB上のI2Iを評価する。 i2iでトレーニングされたアダプタは、独立にトレーニングされたアダプタよりもタスクの正確性が向上し、このアルゴリズムがタスクアダプタ間の知識転送を容易にすることを実証します。 I2Iは、関連するパラメトリックコストを発生させることなく、最先端のAdapterFusionよりも、クロスタスクの知識伝達を改善する。

Adapters present a promising solution to the catastrophic forgetting problem in continual learning. However, training independent Adapter modules for every new task misses an opportunity for cross-task knowledge transfer. We propose Improvise to Initialize (I2I), a continual learning algorithm that initializes Adapters for incoming tasks by distilling knowledge from previously-learned tasks' Adapters. We evaluate I2I on CLiMB, a multimodal continual learning benchmark, by conducting experiments on sequences of visual question answering tasks. Adapters trained with I2I consistently achieve better task accuracy than independently-trained Adapters, demonstrating that our algorithm facilitates knowledge transfer between task Adapters. I2I also results in better cross-task knowledge transfer than the state-of-the-art AdapterFusion without incurring the associated parametric cost.
翻訳日:2023-04-06 13:57:09 公開日:2023-04-04
# GINA-3D: 野生における神経集合生成の学習

GINA-3D: Learning to Generate Implicit Neural Assets in the Wild ( http://arxiv.org/abs/2304.02163v1 )

ライセンス: Link先を確認
Bokui Shen, Xinchen Yan, Charles R. Qi, Mahyar Najibi, Boyang Deng, Leonidas Guibas, Yin Zhou, Dragomir Anguelov(参考訳) センサデータからシミュレーションのための3d世界をモデリングすることは、自動運転のようなロボット学習問題のためのテストと検証環境を開発するためのスケーラブルな方法である。 しかし、現実世界のような環境を手動で作り直したり作り直したりするのは難しく、高価で、スケーラブルではない。 最近の生成モデル技術は、豊富な2d画像のみを使用して3dアセットを学習することで、このような課題に対処するための有望な進歩を示している。 本稿では,カメラとLiDARセンサによる実世界の運転データを用いて,多様な車両や歩行者のリアルな3D暗黙的ニューラルアセットを作成する生成モデルGINA-3Dを紹介する。 既存の画像データセットと比較すると、実世界の運転設定は、閉塞、照明変数、ロングテール分布など、新たな課題をもたらす。 GINA-3Dは、画像の生成モデリングの最近の進歩に触発されて、表現学習と生成モデリングを学習された3面の潜在構造を持つ2段階に分離することで、これらの課題に取り組む。 このアプローチを評価するために,waymo open datasetから520万以上の車両および歩行者の画像を含む大規模オブジェクトセンタデータセットと,建設機器,ごみ収集車,ケーブルカーなどのロングテールインスタンスの80k画像セットを構築した。 我々は,本モデルと既存手法を比較し,生成画像とジオメトリの両面において,品質と多様性の最先端性能を実現することを示す。

Modeling the 3D world from sensor data for simulation is a scalable way of developing testing and validation environments for robotic learning problems such as autonomous driving. However, manually creating or re-creating real-world-like environments is difficult, expensive, and not scalable. Recent generative model techniques have shown promising progress to address such challenges by learning 3D assets using only plentiful 2D images -- but still suffer limitations as they leverage either human-curated image datasets or renderings from manually-created synthetic 3D environments. In this paper, we introduce GINA-3D, a generative model that uses real-world driving data from camera and LiDAR sensors to create realistic 3D implicit neural assets of diverse vehicles and pedestrians. Compared to the existing image datasets, the real-world driving setting poses new challenges due to occlusions, lighting-variations and long-tail distributions. GINA-3D tackles these challenges by decoupling representation learning and generative modeling into two stages with a learned tri-plane latent structure, inspired by recent advances in generative modeling of images. To evaluate our approach, we construct a large-scale object-centric dataset containing over 520K images of vehicles and pedestrians from the Waymo Open Dataset, and a new set of 80K images of long-tail instances such as construction equipment, garbage trucks, and cable cars. We compare our model with existing approaches and demonstrate that it achieves state-of-the-art performance in quality and diversity for both generated images and geometries.
翻訳日:2023-04-06 13:56:55 公開日:2023-04-04
# RGB画像からスペクトル反射率を復元する学習

Learning to Recover Spectral Reflectance from RGB Images ( http://arxiv.org/abs/2304.02162v1 )

ライセンス: Link先を確認
Dong Huo, Jian Wang, Yiming Qian, Yee-Hong Yang(参考訳) 本稿ではRGB画像からのスペクトル反射率回復(SRR)に取り組む。 地上の分光反射率とカメラの分光感度を撮影することは困難で費用がかかるため、既存の手法のほとんどは合成画像で訓練され、特に訓練されたモデルが実画像上でテストされた場合、テスト画像の内部情報を利用できないため、未認識の全てのテスト画像に対して同じパラメータを使用する。 この問題に対処するために、よく訓練されたネットワークパラメータを各テスト画像に微調整し、外部情報と内部情報を組み合わせた自己教師付きメタ補助学習(MAXL)戦略を採用する。 私たちの知る限りでは、MAXLの戦略をこの問題に適応させるのに成功した最初の作品です。 また,本手法では,素質的なエンドツーエンドトレーニングに頼る代わりに,スペクトル反射率と対応するRGB画像との物理的関係を数学的解析に基づいてネットワークに統合するアーキテクチャを提案する。 さらに、対応するRGB画像がなければ、シーンのスペクトル反射は照明とは独立であるので、複数の照明下で撮影されたRGB画像からシーンのスペクトル反射を復元し、未知の画像をさらに低減する。 定性的かつ定量的な評価は,提案したネットワークとMAXLの有効性を示す。 私たちのコードとデータはhttps://github.com/dong-huo/srr-maxlで入手できます。

This paper tackles spectral reflectance recovery (SRR) from RGB images. Since capturing ground-truth spectral reflectance and camera spectral sensitivity are challenging and costly, most existing approaches are trained on synthetic images and utilize the same parameters for all unseen testing images, which are suboptimal especially when the trained models are tested on real images because they never exploit the internal information of the testing images. To address this issue, we adopt a self-supervised meta-auxiliary learning (MAXL) strategy that fine-tunes the well-trained network parameters with each testing image to combine external with internal information. To the best of our knowledge, this is the first work that successfully adapts the MAXL strategy to this problem. Instead of relying on naive end-to-end training, we also propose a novel architecture that integrates the physical relationship between the spectral reflectance and the corresponding RGB images into the network based on our mathematical analysis. Besides, since the spectral reflectance of a scene is independent to its illumination while the corresponding RGB images are not, we recover the spectral reflectance of a scene from its RGB images captured under multiple illuminations to further reduce the unknown. Qualitative and quantitative evaluations demonstrate the effectiveness of our proposed network and of the MAXL. Our code and data are available at https://github.com/Dong-Huo/SRR-MAXL.
翻訳日:2023-04-06 13:56:30 公開日:2023-04-04
# Pac-HuBERT:原始聴覚クラスタリングとHidden-Unit BERTによる自己監督音源分離

Pac-HuBERT: Self-Supervised Music Source Separation via Primitive Auditory Clustering and Hidden-Unit BERT ( http://arxiv.org/abs/2304.02160v1 )

ライセンス: Link先を確認
Ke Chen, Gordon Wichern, Fran\c{c}ois G. Germain, Jonathan Le Roux(参考訳) 音楽ソース分離研究の進展にもかかわらず、利用可能な少量のクリーンソースデータは、パフォーマンスの一定の制限要因であり続けている。 このように、近年の自己教師型学習の進歩は、未学習の音楽データを活用することにより、分離モデルを改善するための未探索の機会となる。 本稿では,HuBERT音声表現モデルに触発された音源分離のための自己教師型学習フレームワークを提案する。 まず,有名な demucs v2 時間領域分離モデルアーキテクチャにその適応バージョンを挿入することで,hubert モデルの潜在的影響について検討した。 次に、時間周波数領域の自己教師型モデルであるPac-HuBERT(初期聴覚クラスタリングHuBERT)を提案し、後にソース分離のためにRes-U-Netデコーダと組み合わせて使用する。 pac-hubertは、音楽の原始的な聴覚的特徴を教師なしクラスタリングラベルとして使用し、free music archive (fma)データセットを使用して自己教師なし事前学習プロセスを初期化する。 結果として得られたフレームワークは、元の demucs v2 および res-u-net モデルよりも musdb18 テストセットでより良い source-to-distortion ratio (sdr) 性能を達成する。 我々はさらに、少量の教師付きデータでパフォーマンスを向上できることを実証する。 最終的に,提案フレームワークは,音楽音源分離のための限られたクリーンソースデータに対する効果的な解決法である。

In spite of the progress in music source separation research, the small amount of publicly-available clean source data remains a constant limiting factor for performance. Thus, recent advances in self-supervised learning present a largely-unexplored opportunity for improving separation models by leveraging unlabelled music data. In this paper, we propose a self-supervised learning framework for music source separation inspired by the HuBERT speech representation model. We first investigate the potential impact of the original HuBERT model by inserting an adapted version of it into the well-known Demucs V2 time-domain separation model architecture. We then propose a time-frequency-domain self-supervised model, Pac-HuBERT (for primitive auditory clustering HuBERT), that we later use in combination with a Res-U-Net decoder for source separation. Pac-HuBERT uses primitive auditory features of music as unsupervised clustering labels to initialize the self-supervised pretraining process using the Free Music Archive (FMA) dataset. The resulting framework achieves better source-to-distortion ratio (SDR) performance on the MusDB18 test set than the original Demucs V2 and Res-U-Net models. We further demonstrate that it can boost performance with small amounts of supervised data. Ultimately, our proposed framework is an effective solution to the challenge of limited clean source data for music source separation.
翻訳日:2023-04-06 13:56:06 公開日:2023-04-04
# cos($2\theta$) qubits 上の Cat-qubit-インスパイアされたゲート

Cat-qubit-inspired gate on cos($2\theta$) qubits ( http://arxiv.org/abs/2304.02155v1 )

ライセンス: Link先を確認
Catherine Leroux and Alexandre Blais(参考訳) 電圧制御半導体ナノワイヤジョセフソン接合に基づく$\cos(2\theta)$ qubitsに対しては、kerr-cat qubitのノイズバイアス保存ゲートにインスパイアされたシングルキュービット$z$ゲートを導入する。 このスキームは qubit と ancilla qubit の間のbeamsplitter 様変換による位相空間の $\pi$ 回転に依存する。 この回転は、常に二重井戸ポテンシャルを保持するような2つの量子ビットのポテンシャルエネルギーを断熱的に変化させることによって実現される。 このゲートは、常に$\cos(2\theta)$ qubit の部分空間の力学を制約し、従って、キュービットのコヒーレンスを保ちながら高忠実な演算をもたらす。 我々は,このゲートを実現する回路を導入し,数値シミュレーションによる研究結果を支援する。

For $\cos(2\theta)$ qubits based on voltage-controlled semiconductor nanowire Josephson junctions we introduce a single-qubit $Z$ gate inspired by the noise-bias preserving gate of the Kerr-cat qubit. This scheme relies on a $\pi$ rotation in phase space via a beamsplitter-like transformation between a qubit and ancilla qubit. The rotation is implemented by adiabatically changing the potential energies of the two qubits such as to preserve a double-well potential at all times. This gate constrains the dynamics in the subspace of a $\cos(2\theta)$ qubit at all times, therefore yielding high-fidelity operation while preserving the qubit's coherence. We introduce a circuit to realize this gate and support our findings with numerical simulations.
翻訳日:2023-04-06 13:55:43 公開日:2023-04-04
# 逆行性ネットワークは臨床的に有意義な大腸内視鏡ビデオフレームを作ることができるか?

Can Adversarial Networks Make Uninformative Colonoscopy Video Frames Clinically Informative? ( http://arxiv.org/abs/2304.02152v1 )

ライセンス: Link先を確認
Vanshali Sharma, M.K. Bhuyan, Pradip K. Das(参考訳) ゴーストカラー,インターレース,モーションボケなどのさまざまなアーティファクトは,大腸内視鏡検査中に取得したビデオから大腸癌(crc)の診断を妨げている。 これらのアーティファクトを含むフレームは非形成フレームと呼ばれ、大腸内視鏡ビデオに多く存在する。 人工物の影響を軽減するため,不定形フレームを臨床的に関連付けられたフレームに変換するための逆ネットワークベースのフレームワークを提案する。 YOLOv5を用いたポリプ検出のための翻訳フレームの評価により,提案手法の有効性を検討した。 予備結果は、エレガントな質的結果とともに検出性能の向上を示す。 また,今後の作業の方向性を決定するための障害事例についても検討する。

Various artifacts, such as ghost colors, interlacing, and motion blur, hinder diagnosing colorectal cancer (CRC) from videos acquired during colonoscopy. The frames containing these artifacts are called uninformative frames and are present in large proportions in colonoscopy videos. To alleviate the impact of artifacts, we propose an adversarial network based framework to convert uninformative frames to clinically relevant frames. We examine the effectiveness of the proposed approach by evaluating the translated frames for polyp detection using YOLOv5. Preliminary results present improved detection performance along with elegant qualitative outcomes. We also examine the failure cases to determine the directions for future work.
翻訳日:2023-04-06 13:55:27 公開日:2023-04-04
# 自動運転のためのLiDARシーンフローの再評価

Re-Evaluating LiDAR Scene Flow for Autonomous Driving ( http://arxiv.org/abs/2304.02150v1 )

ライセンス: Link先を確認
Nathaniel Chodosh, Deva Ramanan, Simon Lucey(参考訳) 自己教師型LiDARシーンフロー推定の現在の手法は実データではうまく機能しない。 共通評価プロトコルの様々な欠陥により、リードアプローチは実データに存在しない問題に焦点を合わせている。 近年の一連の研究を分析した結果、lidarのシーンフロー問題(支配的な剛性のある動きを取り除き、残る単純な動きを堅牢に推定する)の主な課題は、icpの動作補償や断片的な剛性仮定の強制といった古典的な手法でより効果的に解決できることが判明した。 これらのステップをテスト時間最適化手法と組み合わせることで,トレーニングデータを必要としない最先端システムを構築する。 最終的なアプローチはデータレスなので、さまざまなLiDARリグを持つデータセットに再トレーニングすることなく適用できます。 提案手法はArgoverse 2.0の既存の手法よりも優れており、NuScenesのエラー率を半減させ、WaymoやLidarKITTIの監視ネットワークの性能に匹敵する。

Current methods for self-supervised LiDAR scene flow estimation work poorly on real data. A variety of flaws in common evaluation protocols have caused leading approaches to focus on problems that do not exist in real data. We analyze a suite of recent works and find that despite their focus on deep learning, the main challenges of the LiDAR scene flow problem -- removing the dominant rigid motion and robustly estimating the simple motions that remain -- can be more effectively solved with classical techniques such as ICP motion compensation and enforcing piecewise rigid assumptions. We combine these steps with a test-time optimization method to form a state-of-the-art system that does not require any training data. Because our final approach is dataless, it can be applied on different datasets with diverse LiDAR rigs without retraining. Our proposed approach outperforms all existing methods on Argoverse 2.0, halves the error rate on NuScenes, and even rivals the performance of supervised networks on Waymo and lidarKITTI.
翻訳日:2023-04-06 13:55:16 公開日:2023-04-04
# 量子模倣学習

Quantum Imitation Learning ( http://arxiv.org/abs/2304.02480v1 )

ライセンス: Link先を確認
Zhihao Cheng, Kaining Zhang, Li Shen, Dacheng Tao(参考訳) 様々な複雑な意思決定タスクの解決に顕著な成功にもかかわらず、ディープニューラルネットワーク(DNN)を用いた模倣学習(IL)アルゴリズムのトレーニングは、高い計算負担に悩まされている。 本研究では,量子の優位性を利用してILを高速化する量子模倣学習(QIL)を提案する。 具体的には、量子行動クローニング(Q-BC)と量子生成逆模倣学習(Q-GAIL)という2つのQILアルゴリズムを開発する。 Q-BCは、広範囲な専門家データケースに適したオフラインで、負のログライクな損失で訓練されるのに対し、Q-GAILは、限られた専門家データケースに適したオンラインおよびオン政治の逆強化学習スキームで機能する。 両QILアルゴリズムは、DNNの代わりに変動量子回路(VQC)を採用し、データ再ロードとスケーリングパラメータで修正され、表現性を高める。 まず、古典データを入力として量子状態にエンコードし、次にvqcを行い、最後に量子出力を測定してエージェントの制御信号を得る。 実験の結果,Q-BCとQ-GAILはともに,量子スピードアップの可能性があり,従来のものと同等の性能を達成できることがわかった。 我々の知る限り、我々はQILの概念を初めて提案し、量子時代への道を開くパイロット研究を行っている。

Despite remarkable successes in solving various complex decision-making tasks, training an imitation learning (IL) algorithm with deep neural networks (DNNs) suffers from the high computation burden. In this work, we propose quantum imitation learning (QIL) with a hope to utilize quantum advantage to speed up IL. Concretely, we develop two QIL algorithms, quantum behavioural cloning (Q-BC) and quantum generative adversarial imitation learning (Q-GAIL). Q-BC is trained with a negative log-likelihood loss in an off-line manner that suits extensive expert data cases, whereas Q-GAIL works in an inverse reinforcement learning scheme, which is on-line and on-policy that is suitable for limited expert data cases. For both QIL algorithms, we adopt variational quantum circuits (VQCs) in place of DNNs for representing policies, which are modified with data re-uploading and scaling parameters to enhance the expressivity. We first encode classical data into quantum states as inputs, then perform VQCs, and finally measure quantum outputs to obtain control signals of agents. Experiment results demonstrate that both Q-BC and Q-GAIL can achieve comparable performance compared to classical counterparts, with the potential of quantum speed-up. To our knowledge, we are the first to propose the concept of QIL and conduct pilot studies, which paves the way for the quantum era.
翻訳日:2023-04-06 12:24:30 公開日:2023-04-04
# 完全変動雑音-スペクトル推定

Fully Variational Noise-Contrastive Estimation ( http://arxiv.org/abs/2304.02473v1 )

ライセンス: Link先を確認
Christopher Zach(参考訳) 適切なスコアリングルールの根底にある理論を用いて、潜時変量モデルに対してトラクタブルなノイズコントラスト推定(NCE)手法のファミリーを設計する。 基礎となるNCE損失の項とデータサンプルの項とノイズサンプルの項の両方を、変分ベイズのような低境界にすることができるので、この損失を完全変分ノイズコントラスト推定と呼ぶ。 変分オートエンコーダは、このファミリーの特定の例であり、適切な分類損失を用いて実データを合成サンプルから分離するものとしても理解することができる。 完全変動型NCE対象のこの家系における他の事例についても議論し、その経験的行動の違いを示す。

By using the underlying theory of proper scoring rules, we design a family of noise-contrastive estimation (NCE) methods that are tractable for latent variable models. Both terms in the underlying NCE loss, the one using data samples and the one using noise samples, can be lower-bounded as in variational Bayes, therefore we call this family of losses fully variational noise-contrastive estimation. Variational autoencoders are a particular example in this family and therefore can be also understood as separating real data from synthetic samples using an appropriate classification loss. We further discuss other instances in this family of fully variational NCE objectives and indicate differences in their empirical behavior.
翻訳日:2023-04-06 12:23:55 公開日:2023-04-04
# 注文フローを訓練した深層cnnを用いた短期変動予測

Short-Term Volatility Prediction Using Deep CNNs Trained on Order Flow ( http://arxiv.org/abs/2304.02472v1 )

ライセンス: Link先を確認
Mingyu Hao, Artem Lenskiy(参考訳) 新たに出現した資産クラスとして、暗号通貨は従来の株式市場よりも明らかに揮発性が高い。 ほとんど規制されていない性質と、しばしば流動性が低いため、暗号通貨資産の価格が数分以内に大きな変化を持続し、結果としてかなりの損失をもたらす可能性がある。 本稿では,市場情報を画像に符号化し,畳み込みニューラルネットワークを用いて短期的なボラティリティの予測を行う手法を提案する。 次に,提案する符号化モデルと対応するモデルの性能を,他のベンチマークモデルと比較する。 実験結果から,畳み込みニューラルネットワークによる市場データの予測モデルによるマーケットデータの表現は,市場ダイナミクスをよりよく捉え,ボラティリティの予測を良くする可能性が示された。

As a newly emerged asset class, cryptocurrency is evidently more volatile compared to the traditional equity markets. Due to its mostly unregulated nature, and often low liquidity, the price of crypto assets can sustain a significant change within minutes that in turn might result in considerable losses. In this paper, we employ an approach for encoding market information into images and making predictions of short-term realized volatility by employing Convolutional Neural Networks. We then compare the performance of the proposed encoding and corresponding model with other benchmark models. The experimental results demonstrate that this representation of market data with a Convolutional Neural Network as a predictive model has the potential to better capture the market dynamics and a better volatility prediction.
翻訳日:2023-04-06 12:23:43 公開日:2023-04-04
# 学習のエネルギーコスト削減のための競争的可塑性

Competitive plasticity to reduce the energetic costs of learning ( http://arxiv.org/abs/2304.02594v1 )

ライセンス: Link先を確認
Mark CW van Rossum(参考訳) 脳は計算に要するエネルギーに制約されるだけでなく、記憶を形成するのに必要なエネルギーにも制約される。 実験により、単純な条件付けタスクの学習にはかなりの代謝コストがかかることが示されている。 しかし、MNISTのようなタスクを95%の精度で学習するには、少なくとも10^{8}のシナプス更新が必要である。 そのため、脳はできるだけ少ないエネルギーで学べるように進化した可能性が高い。 フィードフォワードニューラルネットワークの学習に必要なエネルギーについて検討した。 擬似エネルギーモデルに基づいて、エネルギーを節約する2つの可塑性制限アルゴリズムを提案する。 1) 大規模な更新でのみシナプスを修正し、 2)ネットワークを経由する経路を形成するシナプスの部分集合に可塑性を制限する。 これら2つの手法を組み合わせることで、学習時間が少なくなる一方、かなりの省エネにつながる。 生物学では、ネットワークは課題よりもはるかに大きいことが多い。 特にその場合,大きな節約が実現できます。 このように、可塑性を競争的に制限することはシナプス可塑性に関連する代謝エネルギーの節約に役立つ。 その結果、生物の可塑性をよりよく理解し、人工学習と生物学習のマッチングをより良くする可能性がある。 さらに、電子メモリストレージにもコストがかかるため、このアルゴリズムはハードウェアにも恩恵をもたらす可能性がある。

The brain is not only constrained by energy needed to fuel computation, but it is also constrained by energy needed to form memories. Experiments have shown that learning simple conditioning tasks already carries a significant metabolic cost. Yet, learning a task like MNIST to 95% accuracy appears to require at least 10^{8} synaptic updates. Therefore the brain has likely evolved to be able to learn using as little energy as possible. We explored the energy required for learning in feedforward neural networks. Based on a parsimonious energy model, we propose two plasticity restricting algorithms that save energy: 1) only modify synapses with large updates, and 2) restrict plasticity to subsets of synapses that form a path through the network. Combining these two methods leads to substantial energy savings while only incurring a small increase in learning time. In biology networks are often much larger than the task requires. In particular in that case, large savings can be achieved. Thus competitively restricting plasticity helps to save metabolic energy associated to synaptic plasticity. The results might lead to a better understanding of biological plasticity and a better match between artificial and biological learning. Moreover, the algorithms might also benefit hardware because in electronics memory storage is energetically costly as well.
翻訳日:2023-04-06 11:56:08 公開日:2023-04-04
# 極低照度画像の適応性向上

Adaptive Enhancement of Extreme Low-Light Images ( http://arxiv.org/abs/2012.04112v3 )

ライセンス: Link先を確認
Evgeny Hershkovitch Neiterman, Michael Klyuchka, Gil Ben-Artzi(参考訳) 超低照度環境で撮影される暗黒画像を強化する既存の方法は、最適な出力画像の強度レベルが知られ、既にトレーニングセットに含まれていると仮定している。 しかし、この仮定はしばしば成り立たないため、暗黒領域や低コントラストなどの視覚的欠陥を含む画像が出力される。 この限界を克服する適応モデルの訓練と評価を容易にするために,室内および屋外の低照度条件の両方で撮影された1500の生画像のデータセットを作成した。 当社のデータセットに基づいて、トレーニング中に見えないものを含め、実行時に幅広い強度レベルで入力イメージを拡張できるディープラーニングモデルを導入しました。 実験結果から,提案するデータセットとモデルが組み合わさることで,多種多様な課題にまたがる画像の一貫性と効率性が向上することが示された。

Existing methods for enhancing dark images captured in a very low-light environment assume that the intensity level of the optimal output image is known and already included in the training set. However, this assumption often does not hold, leading to output images that contain visual imperfections such as dark regions or low contrast. To facilitate the training and evaluation of adaptive models that can overcome this limitation, we have created a dataset of 1500 raw images taken in both indoor and outdoor low-light conditions. Based on our dataset, we introduce a deep learning model capable of enhancing input images with a wide range of intensity levels at runtime, including ones that are not seen during training. Our experimental results demonstrate that our proposed dataset combined with our model can consistently and effectively enhance images across a wide range of diverse and challenging scenarios.
翻訳日:2023-04-05 20:06:25 公開日:2023-04-04
# MARS: テンソル解体における仮設自動ランク選択

MARS: Masked Automatic Ranks Selection in Tensor Decompositions ( http://arxiv.org/abs/2006.10859v3 )

ライセンス: Link先を確認
Maxim Kodryan, Dmitry Kropotov, Dmitry Vetrov(参考訳) テンソル分解法は、ニューラルネットワークの圧縮や加速を含む様々な応用において有効であることが証明されている。 同時に、圧縮精度トレードオフを制御する重要なパラメータを示す最適分解ランクを決定する問題は依然として深刻である。 本稿では、一般的なテンソル分解におけるランクの自動選択のための新しい効率的な方法であるMARSを紹介する。 トレーニング中は、最適なテンソル構造を「選択」する分解コア上でバイナリマスクを学習する。 学習は、特定のベイズモデルにおける最大後方(map)推定を緩和することで行われ、標準ニューラルネットワークトレーニングルーチンに自然に組み込むことができる。 様々な実験により、MARSは様々なタスクにおける以前の研究よりも優れた結果が得られることが示された。

Tensor decomposition methods have proven effective in various applications, including compression and acceleration of neural networks. At the same time, the problem of determining optimal decomposition ranks, which present the crucial parameter controlling the compression-accuracy trade-off, is still acute. In this paper, we introduce MARS -- a new efficient method for the automatic selection of ranks in general tensor decompositions. During training, the procedure learns binary masks over decomposition cores that "select" the optimal tensor structure. The learning is performed via relaxed maximum a posteriori (MAP) estimation in a specific Bayesian model and can be naturally embedded into the standard neural network training routine. Diverse experiments demonstrate that MARS achieves better results compared to previous works in various tasks.
翻訳日:2023-04-05 20:05:47 公開日:2023-04-04
# 位置測定とHuygens-Fresnel原理:偏極純状態に対するフラウンホーファー回折の量子モデル

Position measurement and the Huygens-Fresnel principle: A quantum model of Fraunhofer diffraction for polarized pure states ( http://arxiv.org/abs/1710.09758v6 )

ライセンス: Link先を確認
Bernard Fabbro(参考訳) ダイアフラムによる回折のほとんどの理論では、回折波の振幅、したがって関連する粒子の位置波関数は量子状態の事前の計算なしに直接計算される。 粒子の状態を表すモデルはほとんどなく、回折波に関連する位置と運動量の波動関数を導出する。 本稿では,この種のフラウンホーファー回折のモデルを提案する。 横隔膜は、開口を通過する粒子の3つの空間座標を測定する装置であると仮定される。 散乱理論のS行列に類似した行列は、単純な位置測定よりも複雑な過程を記述している。 いくつかの予測は検証できる。 ヒューゲンス・フレネルの原理にかかわるウェーブレット放出は、1つではなく複数の隣接するウェーブフロントから発生し、回折波強度の典型的な減衰を引き起こす。 角因子は、波動光学理論の可視性要素とは異なり、大きな回折角での強度の低下をもっともよく説明できる。 位置測定は偏光状態を変化させ、楕円偏光純状態の入射光子に対して、楕円軸は回折角に依存する回転を行うことができる。

In most theories of diffraction by a diaphragm, the amplitude of the diffracted wave, and hence the position wave function of the associated particle, is calculated directly without prior calculation of the quantum state. Few models express the state of the particle to then deduce the position and momentum wave functions related to the diffracted wave. We present a model of this type for Fraunhofer diffraction. The diaphragm is assumed to be a device for measuring the three spatial coordinates of the particles passing through the aperture. A matrix similar to the S-matrix of the scattering theory describes the process which turns out to be more complex than a simple position measurement. Some predictions can be tested. The wavelets emission involved in the Huygens-Fresnel principle occurs from several neighboring wavefronts instead of just one, causing typical damping of the diffracted wave intensity. An angular factor plausibly accounts for the decrease in intensity at large diffraction angles, unlike the obliquity factors of the wave optics theories. The position measurement modifies the polarization states and for an incident photon in an elliptically polarized pure state, the ellipse axes can undergo a rotation which depends on the diffraction angles.
翻訳日:2023-04-05 20:04:59 公開日:2023-04-04
# 辞書学習による変圧器の可視化:変圧器因子の線形重ね合わせとしての文脈的埋め込み

Transformer visualization via dictionary learning: contextualized embedding as a linear superposition of transformer factors ( http://arxiv.org/abs/2103.15949v2 )

ライセンス: Link先を確認
Zeyu Yun, Yubei Chen, Bruno A Olshausen, Yann LeCun(参考訳) トランスフォーマーネットワークは、導入以来、NLP表現学習に革命をもたらした。 変圧器の表現を説明するために多大な努力がなされているが、我々の理解は不十分であると広く認識されている。 重要な理由は、詳細な分析に十分な視覚化ツールがないことである。 本稿では,これらの「ブラックボックス」を変換因子の線形重ね合わせとして,辞書学習を用いることを提案する。 可視化により, 単語レベルのポリセミーの曖昧さ, 文レベルのパターン形成, 長距離依存など, トランスフォーマー因子が捉えた階層的意味構造を示す。 これらのパターンの中には、従来の言語知識を裏付けるものもあるが、残りは比較的予期せず、新たな洞察を与える可能性がある。 この視覚化ツールによって、トランスフォーマーネットワークの動作に関するさらなる知識と理解が深まることを願っています。 コードはhttps://github.com/zeyuyun1/TransformerVisで入手できる。

Transformer networks have revolutionized NLP representation learning since they were introduced. Though a great effort has been made to explain the representation in transformers, it is widely recognized that our understanding is not sufficient. One important reason is that there lack enough visualization tools for detailed analysis. In this paper, we propose to use dictionary learning to open up these "black boxes" as linear superpositions of transformer factors. Through visualization, we demonstrate the hierarchical semantic structures captured by the transformer factors, e.g., word-level polysemy disambiguation, sentence-level pattern formation, and long-range dependency. While some of these patterns confirm the conventional prior linguistic knowledge, the rest are relatively unexpected, which may provide new insights. We hope this visualization tool can bring further knowledge and a better understanding of how transformer networks work. The code is available at https://github.com/zeyuyun1/TransformerVis
翻訳日:2023-04-05 19:59:31 公開日:2023-04-04
# 対人運転:エンドツーエンドの自動運転を攻撃

Adversarial Driving: Attacking End-to-End Autonomous Driving ( http://arxiv.org/abs/2103.09151v6 )

ライセンス: Link先を確認
Han Wu, Syed Yunas, Sareh Rowlands, Wenjie Ruan, and Johan Wahlstrom(参考訳) ディープニューラルネットワークの研究が進むにつれて、ディープ畳み込みネットワークは自動運転タスクに有望になる。 特に、自動運転にエンドツーエンドのニューラルネットワークモデルを採用するという、新たなトレンドがある。 しかし、以前の研究では、ディープニューラルネットワーク分類器は敵の攻撃に弱いことが示されている。 回帰作業では、敵攻撃の効果はよく理解されていない。 本研究では、エンドツーエンドの自動運転モデルに対する2つのホワイトボックス攻撃を考案する。 我々の攻撃は,入力画像のゆらぎによって自律運転システムの動作を制御する。 同じ攻撃強度(エプシロン=1)の800の攻撃において、画像特異的および画像非依存の攻撃は、それぞれ元の出力から0.478と0.111のステアリング角度を逸脱し、そのステアリング角度を0.002(ステアリング角度は[-1,1]の範囲)だけ摂動するランダムノイズよりもはるかに強い。 どちらの攻撃もGPUを使わずにCPU上でリアルタイムで開始できる。 デモビデオ: https://youtu.be/I0i8uN2oOP0。

As research in deep neural networks advances, deep convolutional networks become promising for autonomous driving tasks. In particular, there is an emerging trend of employing end-to-end neural network models for autonomous driving. However, previous research has shown that deep neural network classifiers are vulnerable to adversarial attacks. While for regression tasks, the effect of adversarial attacks is not as well understood. In this research, we devise two white-box targeted attacks against end-to-end autonomous driving models. Our attacks manipulate the behavior of the autonomous driving system by perturbing the input image. In an average of 800 attacks with the same attack strength (epsilon=1), the image-specific and image-agnostic attack deviates the steering angle from the original output by 0.478 and 0.111, respectively, which is much stronger than random noises that only perturbs the steering angle by 0.002 (The steering angle ranges from [-1, 1]). Both attacks can be initiated in real-time on CPUs without employing GPUs. Demo video: https://youtu.be/I0i8uN2oOP0.
翻訳日:2023-04-05 19:59:16 公開日:2023-04-04
# 単目的機能型磁気共鳴イメージング研究におけるアクティベーション検出のための実用的モデルベースセグメンテーション手法

A practical model-based segmentation approach for improved activation detection in single-subject functional Magnetic Resonance Imaging studies ( http://arxiv.org/abs/2102.03639v3 )

ライセンス: Link先を確認
Wei-Chen Chen and Ranjan Maitra(参考訳) 機能的磁気共鳴イメージング(fMRI)は、刺激に反応して脳の活性化をマッピングするが、この活性化は、特に低信号の文脈や単一物体の研究において検出することがしばしば困難である。 正確なアクティベーション検出は、実際に非常に少数のボクセルが実際に活性化され、これらのボクセルが空間的に局所化されているという事実によって導かれるが、これら両方の事実を組み込むことは困難である。 RパッケージMixfMRIに実装された,計算可能で方法論的に健全なモデルに基づくアプローチを開発することで,単一オブジェクトと低信号fMRIに対するこれらの課題に対処する。 我々の手法の利点は、活性化の強度が異なるボクセルや領域を識別できることである。 提案手法は現実的な2次元および3次元シミュレーション実験および複数の実世界のデータセットで評価される。 最後に,低信号・単目的fMRI研究における提案手法の意義を,持続的栄養状態 (PVS) の患者に対する意識の検出と治療改善によく用いられるスポーツ想像実験で明らかにした。 この実験で活性化を確実に区別する能力は、PVS生存者や他の患者の治療と治療を改善するための臨床ツールとしてのfMRI導入への扉を開く可能性がある。

Functional Magnetic Resonance Imaging (fMRI) maps cerebral activation in response to stimuli but this activation is often difficult to detect, especially in low-signal contexts and single-subject studies. Accurate activation detection can be guided by the fact that very few voxels are, in reality, truly activated and that these voxels are spatially localized, but it is challenging to incorporate both these facts. We address these twin challenges to single-subject and low-signal fMRI by developing a computationally feasible and methodologically sound model-based approach, implemented in the R package MixfMRI, that bounds the a priori expected proportion of activated voxels while also incorporating spatial context. An added benefit of our methodology is the ability to distinguish voxels and regions having different intensities of activation. Our suggested approach is evaluated in realistic two- and three-dimensional simulation experiments as well as on multiple real-world datasets. Finally, the value of our suggested approach in low-signal and single-subject fMRI studies is illustrated on a sports imagination experiment that is often used to detect awareness and improve treatment in patients in persistent vegetative state (PVS). Our ability to reliably distinguish activation in this experiment potentially opens the door to the adoption of fMRI as a clinical tool for the improved treatment and therapy of PVS survivors and other patients.
翻訳日:2023-04-05 19:58:56 公開日:2023-04-04
# 高次元パラメータ学習のための反復ブロック粒子フィルタ:次元の呪いを破る

Iterated Block Particle Filter for High-dimensional Parameter Learning: Beating the Curse of Dimensionality ( http://arxiv.org/abs/2110.10745v4 )

ライセンス: Link先を確認
Ning Ning and Edward L. Ionides(参考訳) 高次元、部分観測、非線形確率過程のパラメータ学習は方法論的な課題である。 時空間疾患伝達システムは、そのようなプロセスの例を示し、オープン推論問題を引き起こす。 一般状態空間,測度,遷移密度,グラフ構造を有するグラフィカルな状態空間モデル上で高次元パラメータを学習するための反復ブロック粒子フィルタ(IBPF)アルゴリズムを提案する。 理論的な性能保証は、次元の呪い(COD)、アルゴリズムの収束、最大化について得られる。 超非線形・非ガウス時空間モデルによる麻疹伝播実験により,イテレーテッドアンサンブルカルマンフィルタアルゴリズム (li et al. (2020)) が非有効であり,イテレーテッドフィルタリングアルゴリズム (ionides et al. (2015)) がcodに苦しむことが明らかとなった。

Parameter learning for high-dimensional, partially observed, and nonlinear stochastic processes is a methodological challenge. Spatiotemporal disease transmission systems provide examples of such processes giving rise to open inference problems. We propose the iterated block particle filter (IBPF) algorithm for learning high-dimensional parameters over graphical state space models with general state spaces, measures, transition densities and graph structure. Theoretical performance guarantees are obtained on beating the curse of dimensionality (COD), algorithm convergence, and likelihood maximization. Experiments on a highly nonlinear and non-Gaussian spatiotemporal model for measles transmission reveal that the iterated ensemble Kalman filter algorithm (Li et al. (2020)) is ineffective and the iterated filtering algorithm (Ionides et al. (2015)) suffers from the COD, while our IBPF algorithm beats COD consistently across various experiments with different metrics.
翻訳日:2023-04-05 19:33:50 公開日:2023-04-04
# SLAMから状況認識へ:課題と調査

From SLAM to Situational Awareness: Challenges and Survey ( http://arxiv.org/abs/2110.00273v3 )

ライセンス: Link先を確認
Hriday Bavle, Jose Luis Sanchez-Lopez, Claudio Cimarelli, Ali Tourani Holger Voos(参考訳) 複雑な任務を効率的に安全に行う移動ロボットの能力は、その環境、すなわち状況に関する知識によって制限される。 高度な推論、意思決定、実行スキルにより、知的エージェントは未知の環境で自律的に行動することができる。 状況意識 (SA) は、心理学、軍事、航空宇宙、教育など様々な分野で深く研究されてきた人間の基本的な能力である。 それでも、センサー、空間知覚、センサー融合、状態推定、同時局所化とマッピング(SLAM)といった単一区画化概念に焦点を当てたロボティクスでは、まだ検討されていない。 そこで本研究では,多分野の既存知識を結びつけて,自律性を最優先するモバイルロボティクスのための完全なSAシステムを構築することを目的とする。 本研究の目的は,ロボットSAとその能力領域を構成する主成分を定義することである。 そこで本研究では,SAの各側面を調査し,それらをカバーする最先端ロボットアルゴリズムを調査し,現状の限界について考察する。 現在のアルゴリズム開発では、パフォーマンスを特定の環境のみに制限するため、saの本質的な側面はまだ未成熟である。 それでも、人工知能(AI)、特にディープラーニング(DL)は、これらのフィールドをデプロイから現実のシナリオへ分離するギャップを埋める新しい方法を導入している。 さらに、よく知られたシーングラフの一般化である状況グラフ(S-Graph)のメカニズムを通じて、ロボット理解アルゴリズムの膨大な断片化空間を相互接続する機会が発見された。 そこで我々は,最近の興味深い研究の方向性を議論し,ロボットの状況認識の将来へのビジョンを形作る。

The capability of a mobile robot to efficiently and safely perform complex missions is limited by its knowledge of the environment, namely the situation. Advanced reasoning, decision-making, and execution skills enable an intelligent agent to act autonomously in unknown environments. Situational Awareness (SA) is a fundamental capability of humans that has been deeply studied in various fields, such as psychology, military, aerospace, and education. Nevertheless, it has yet to be considered in robotics, which has focused on single compartmentalized concepts such as sensing, spatial perception, sensor fusion, state estimation, and Simultaneous Localization and Mapping (SLAM). Hence, the present research aims to connect the broad multidisciplinary existing knowledge to pave the way for a complete SA system for mobile robotics that we deem paramount for autonomy. To this aim, we define the principal components to structure a robotic SA and their area of competence. Accordingly, this paper investigates each aspect of SA, surveying the state-of-the-art robotics algorithms that cover them, and discusses their current limitations. Remarkably, essential aspects of SA are still immature since the current algorithmic development restricts their performance to only specific environments. Nevertheless, Artificial Intelligence (AI), particularly Deep Learning (DL), has brought new methods to bridge the gap that maintains these fields apart from the deployment to real-world scenarios. Furthermore, an opportunity has been discovered to interconnect the vastly fragmented space of robotic comprehension algorithms through the mechanism of Situational Graph (S-Graph), a generalization of the well-known scene graph. Therefore, we finally shape our vision for the future of robotic Situational Awareness by discussing interesting recent research directions.
翻訳日:2023-04-05 19:33:31 公開日:2023-04-04
# インフルエンシャルランク:雑音ラベルに対するロバストモデルのためのポストトレーニングの新しい視点

Influential Rank: A New Perspective of Post-training for Robust Model against Noisy Labels ( http://arxiv.org/abs/2106.07217v3 )

ライセンス: Link先を確認
Seulki Park, Hwanjun Song, Daeho Um, Dae Ung Jo, Sangdoo Yun, and Jin Young Choi(参考訳) ディープニューラルネットワークは、高いキャパシティのため、ノイズの多いラベルにも容易に適合し、モデルの一般化性能を低下させる。 そこで本研究では,雑音ラベルデータに基づく事前学習モデルの一般化性能を大幅に向上させることができる,雑音ラベル(LNL)からの学習方法を提案する。 この目的のために、トレーニングされたモデルの過剰な適合性を利用して、誤ったラベルのサンプルを識別する。 具体的には,決定境界に強い影響を与えるサンプルを徐々に除去し,決定境界を洗練し,一般化性能を向上させる。 我々のポストトレーニングアプローチは、既存のLNL法と組み合わせることで大きなシナジーを生み出す。 実世界および合成ベンチマークデータセットの実験結果から, 多様な現実シナリオにおけるアプローチの有効性が示された。

Deep neural network can easily overfit to even noisy labels due to its high capacity, which degrades the generalization performance of a model. To overcome this issue, we propose a new approach for learning from noisy labels (LNL) via post-training, which can significantly improve the generalization performance of any pre-trained model on noisy label data. To this end, we rather exploit the overfitting property of a trained model to identify mislabeled samples. Specifically, our post-training approach gradually removes samples with high influence on the decision boundary and refines the decision boundary to improve generalization performance. Our post-training approach creates great synergies when combined with the existing LNL methods. Experimental results on various real-world and synthetic benchmark datasets demonstrate the validity of our approach in diverse realistic scenarios.
翻訳日:2023-04-05 19:31:40 公開日:2023-04-04
# 単純なニューラルネットワークにおける到達可能性

Reachability In Simple Neural Networks ( http://arxiv.org/abs/2203.07941v3 )

ライセンス: Link先を確認
Marco S\"alzer and Martin Lange(参考訳) 我々は、(深度)ニューラルネットワークの到達可能性問題の複雑さを調査し、有効な入力が与えられたとき、有効な出力を計算するか? この問題は一般のニューラルネットワークに対してNP完全であり、線形不等式の接続によって与えられる入力/出力次元に関する仕様である。 我々は、証明を再結合し、元の上界と下界の証明のいくつかの欠陥を修復する。 この結果から,NP-hardnessはすでに,単純な仕様とニューラルネットワークの制限されたクラスに当てはまることを示した。 1つの隠蔽層と1の出力次元と1つの負のゼロと1つの正の重みまたはバイアスを持つニューラルネットワークが与えられると、NPハードネスを確保するのに十分である。 さらに,ニューラルネットワーク検証研究の方向性について,その拡張可能性に関する詳細な議論と展望を行う。

We investigate the complexity of the reachability problem for (deep) neural networks: does it compute valid output given some valid input? It was recently claimed that the problem is NP-complete for general neural networks and specifications over the input/output dimension given by conjunctions of linear inequalities. We recapitulate the proof and repair some flaws in the original upper and lower bound proofs. Motivated by the general result, we show that NP-hardness already holds for restricted classes of simple specifications and neural networks. Allowing for a single hidden layer and an output dimension of one as well as neural networks with just one negative, zero and one positive weight or bias is sufficient to ensure NP-hardness. Additionally, we give a thorough discussion and outlook of possible extensions for this direction of research on neural network verification.
翻訳日:2023-04-05 19:24:29 公開日:2023-04-04
# LiftReg: 限定アングル2D/3Dデフォルマブル登録

LiftReg: Limited Angle 2D/3D Deformable Registration ( http://arxiv.org/abs/2203.05565v2 )

ライセンス: Link先を確認
Lin Tian, Yueh Z. Lee, Ra\'ul San Jos\'e Est\'epar, Marc Niethammer(参考訳) 2d/3d変形可能な登録アプローチであるliftregを提案する。 LiftRegは、デジタル再構成されたラジオグラフ(DRR)とCT(Computerd tomography)イメージペアのセットを使用してトレーニングされる、深い登録フレームワークである。 シミュレーションされたトレーニングデータを使用することで、liftregは高品質のct-ct画像類似度測定を行うことができる。 登録品質をさらに向上させ,非常に限られた角度取得の固有深度あいまいさに対処するために,バックプロジェクションされた2D画像から抽出した特徴と統計的変形モデルを提案する。 このアプローチをdirlabの肺登録データセットでテストし,既存の学習に基づくペアワイズ登録アプローチよりも優れていることを示す。

We propose LiftReg, a 2D/3D deformable registration approach. LiftReg is a deep registration framework which is trained using sets of digitally reconstructed radiographs (DRR) and computed tomography (CT) image pairs. By using simulated training data, LiftReg can use a high-quality CT-CT image similarity measure, which helps the network to learn a high-quality deformation space. To further improve registration quality and to address the inherent depth ambiguities of very limited angle acquisitions, we propose to use features extracted from the backprojected 2D images and a statistical deformation model. We test our approach on the DirLab lung registration dataset and show that it outperforms an existing learning-based pairwise registration approach.
翻訳日:2023-04-05 19:24:16 公開日:2023-04-04
# 量子力学における自己拘束ノイズと指数減衰

Self-restricting Noise and Exponential Decay in Quantum Dynamics ( http://arxiv.org/abs/2203.03745v3 )

ライセンス: Link先を確認
Nicholas LaRacuente(参考訳) 開量子系の状態は通常、環境相互作用下で連続的に崩壊する。 量子マルコフ半群は散逸環境でそのような過程をモデル化する。 詳細なバランスを持つ有限次元量子マルコフ半群は、不変状態または完全崩壊状態の部分空間に向かって指数的減衰を引き起こすことが知られている。 これとは対照的に,コヒーレントなプロセスと確率的なプロセスを組み合わせた連続的なプロセスの解析を行う。 まず、これらの過程の類似の減衰境界に対する反例を見つけ、それらが失敗する条件を証明する。 第二に、より大きな系の一部に適用される局所雑音の強度と全体の崩壊の関係が単調ではないことを証明する。 騒音はそれを拡散する相互作用を抑制する。 サブシステムのより速い崩壊は、全体的な崩壊を遅くする。 我々は、IBM Qシステム上で、この相互作用とその離散アナログを実験的に観察する。 我々はこの現象を理論的に説明し,一般化する。 最後に、初期の不在にもかかわらず、指数的崩壊は有限時間における単位的有限次元半群に対して再び現れることを観察する。

States of open quantum systems usually decay continuously under environmental interactions. Quantum Markov semigroups model such processes in dissipative environments. It is known that a finite-dimensional quantum Markov semigroup with detailed balance induces exponential decay toward a subspace of invariant or fully decayed states. In contrast, we analyze continuous processes that combine coherent and stochastic processes, precluding detailed balance. First, we find counterexamples to analogous decay bounds for these processes and prove conditions under which they fail. Second, we prove that the relationship between the strength of local noise applied to part of a larger system and overall decay of the whole is non-monotonic. Noise can suppress interactions that would spread it. Faster decay of a subsystem may thereby slow overall decay. We observe this interplay numerically and its discrete analog experimentally on IBM Q systems. Our main results explain and generalize the phenomenon theoretically. Finally, we observe that in spite of its absence at early times, exponential decay re-appears for unital, finite-dimensional semigroups at finite time.
翻訳日:2023-04-05 19:24:01 公開日:2023-04-04
# FRA-LSTM:フォワードとリバースサブネットワークの融合に基づく容器軌道予測手法

FRA-LSTM: A Vessel Trajectory Prediction Method Based on Fusion of the Forward and Reverse Sub-Network ( http://arxiv.org/abs/2201.07606v2 )

ライセンス: Link先を確認
Jin Chen, Xingchen Li, Ye Xiao, Hao Chen, and Yong Zhao(参考訳) 船舶の能力を改善し、海上交通の安全を確保するため、船舶のスマートナビゲーションとインテリジェント衝突回避システムにおいて、船舶のインテリジェントな軌道予測が重要な役割を果たす。 しかし、現在の研究者は、短期的または長期の船舶軌道予測にのみ焦点を合わせており、軌道予測の精度が不十分であり、総合的歴史軌道データの詳細なマイニングが欠如している。 本稿では,前方サブネットワークと逆サブネットワーク(fra-lstm)の融合に基づく自動識別システム(ais)データ駆動型長期短期記憶(lstm)法を提案する。 本手法におけるフォワードサブネットワークは,LSTMとアテンション機構を組み合わせて,フォワード履歴データの特徴を抽出する。 同時に、逆サブネットワークは、双方向LSTM(BiLSTM)とアテンション機構を組み合わせて、後方履歴データの特徴をマイニングする。 最後に、前方および逆サブネットワークの出力特徴を融合して最終予測軌道を生成する。 提案手法の精度は BiLSTM や Seq2seq と比較して96.8% と 86.5% に向上した。 さらに,BLSTMとSeq2seqを比較し,長期軌跡予測における平均精度は90.1%であった。

In order to improve the vessel's capacity and ensure maritime traffic safety, vessel intelligent trajectory prediction plays an essential role in the vessel's smart navigation and intelligent collision avoidance system. However, current researchers only focus on short-term or long-term vessel trajectory prediction, which leads to insufficient accuracy of trajectory prediction and lack of in-depth mining of comprehensive historical trajectory data. This paper proposes an Automatic Identification System (AIS) data-driven long short-term memory (LSTM) method based on the fusion of the forward sub-network and the reverse sub-network (termed as FRA-LSTM) to predict the vessel trajectory. The forward sub-network in our method combines LSTM and attention mechanism to mine features of forward historical trajectory data. Simultaneously, the reverse sub-network combines bi-directional LSTM (BiLSTM) and attention mechanism to mine features of backward historical trajectory data. Finally, the final predicted trajectory is generated by fusing output features of the forward and reverse sub-network. Based on plenty of experiments, we prove that the accuracy of our proposed method in predicting short-term and mid-term trajectories has increased by 96.8% and 86.5% on average compared with the BiLSTM and Seq2seq. Furthermore, the average accuracy of our method is 90.1% higher than that of compared the BiLSTM and Seq2seq in predicting long-term trajectories.
翻訳日:2023-04-05 19:23:25 公開日:2023-04-04
# 赤外小目標超解像のための局所運動とコントラスト優先駆動型深層ネットワーク

Local Motion and Contrast Priors Driven Deep Network for Infrared Small Target Super-Resolution ( http://arxiv.org/abs/2201.01014v5 )

ライセンス: Link先を確認
Xinyi Ying, Yingqian Wang, Longguang Wang, Weidong Sheng, Li Liu, Zaiping Lin, Shilin Zhou(参考訳) 赤外線小型ターゲットスーパーレゾリューション(sr)は、低レゾリューションのターゲットから高コントラストのターゲットで信頼性と詳細な高解像度画像を回収することを目的としている。 赤外線小ターゲットには色や微細な構造情報がないため、シーケンス画像間の補足情報を利用してターゲットを強化することが重要である。 本稿では,赤外小ターゲットのドメイン知識を深層ネットワークに統合し,赤外小ターゲットの固有の特徴不足を軽減するために,ローカルモーションとコントラスト事前駆動深層ネットワーク(MoCoPnet)と呼ばれる最初の赤外小ターゲットSR手法を提案する。 具体的には、時空間次元に先立つ局所運動に動機づけられ、暗黙的なフレームアライメントを行い、局所時空間情報を取り込んで局所的特徴(特に小さなターゲット)を高める局所時空間アライメントモジュールを提案する。 空間次元に先行する局所的コントラストに動機づけられ,中心的差分畳み込みを特徴抽出バックボーンに組み込む中心的差分残差群を提案する。 広範な実験により,本手法が正確な空間依存性を回復し,目標コントラストを改善することを実証した。 比較の結果,MoCoPnetは,SR性能と目標拡張の両面から,最先端ビデオSRと単一画像SR法より優れていた。 SRの結果から,赤外線小目標検出におけるSRの影響についてさらに検討し,MoCoPnetが検出性能を向上させることを示す実験結果を得た。 コードはhttps://github.com/xinyiying/mocopnetで入手できる。

Infrared small target super-resolution (SR) aims to recover reliable and detailed high-resolution image with high-contrast targets from its low-resolution counterparts. Since the infrared small target lacks color and fine structure information, it is significant to exploit the supplementary information among sequence images to enhance the target. In this paper, we propose the first infrared small target SR method named local motion and contrast prior driven deep network (MoCoPnet) to integrate the domain knowledge of infrared small target into deep network, which can mitigate the intrinsic feature scarcity of infrared small targets. Specifically, motivated by the local motion prior in the spatio-temporal dimension, we propose a local spatio-temporal attention module to perform implicit frame alignment and incorporate the local spatio-temporal information to enhance the local features (especially for small targets). Motivated by the local contrast prior in the spatial dimension, we propose a central difference residual group to incorporate the central difference convolution into the feature extraction backbone, which can achieve center-oriented gradient-aware feature extraction to further improve the target contrast. Extensive experiments have demonstrated that our method can recover accurate spatial dependency and improve the target contrast. Comparative results show that MoCoPnet can outperform the state-of-the-art video SR and single image SR methods in terms of both SR performance and target enhancement. Based on the SR results, we further investigate the influence of SR on infrared small target detection and the experimental results demonstrate that MoCoPnet promotes the detection performance. The code is available at https://github.com/XinyiYing/MoCoPnet.
翻訳日:2023-04-05 19:22:59 公開日:2023-04-04
# 中枢運動型ハイパーグラフニューラルネットワークによる薬物-薬物相互作用の予測

Central-Smoothing Hypergraph Neural Networks for Predicting Drug-Drug Interactions ( http://arxiv.org/abs/2112.07837v4 )

ライセンス: Link先を確認
Duc Anh Nguyen, Canh Hao Nguyen, and Hiroshi Mamitsuka(参考訳) 薬物-薬物相互作用の予測は、薬物情報と多くの対の既知の副作用を用いて、一対の薬物の副作用(望ましくない結果)を予測する問題である。 この問題は、DDIグラフ内の各一対のノードの予測ラベル(すなわち副作用)として定式化することができ、そのノードは薬物であり、エッジは既知のラベルと相互作用する薬物である。 この問題の最先端の方法はグラフニューラルネットワーク(GNN)であり、グラフの近傍情報を利用してノード表現を学習する。 しかし、DDIには副作用の性質から複雑な関係を持つラベルが多数存在する。 GNNは、しばしばラベル関係を反映せず、稀なラベルの難易度において最高の性能を得られない1ホットベクトルとしてラベルを固定する。 本稿では,DDIを3つのハイパーエッジを持つハイパーグラフとして定式化し,薬物のノードが2個,ラベルのノードが1個である。 次に、ノードとラベルの表現を完全に学習するハイパーグラフニューラルネットワークであるCentSmoothieを紹介します。 我々はシミュレーションと実際のデータセットにおけるCentSmoothieの性能上の利点を実証的に示す。

Predicting drug-drug interactions (DDI) is the problem of predicting side effects (unwanted outcomes) of a pair of drugs using drug information and known side effects of many pairs. This problem can be formulated as predicting labels (i.e. side effects) for each pair of nodes in a DDI graph, of which nodes are drugs and edges are interacting drugs with known labels. State-of-the-art methods for this problem are graph neural networks (GNNs), which leverage neighborhood information in the graph to learn node representations. For DDI, however, there are many labels with complicated relationships due to the nature of side effects. Usual GNNs often fix labels as one-hot vectors that do not reflect label relationships and potentially do not obtain the highest performance in the difficult cases of infrequent labels. In this paper, we formulate DDI as a hypergraph where each hyperedge is a triple: two nodes for drugs and one node for a label. We then present CentSmoothie, a hypergraph neural network that learns representations of nodes and labels altogether with a novel central-smoothing formulation. We empirically demonstrate the performance advantages of CentSmoothie in simulations as well as real datasets.
翻訳日:2023-04-05 19:22:30 公開日:2023-04-04
# 3次元ポーズ推定のための階層グラフネットワーク

Hierarchical Graph Networks for 3D Human Pose Estimation ( http://arxiv.org/abs/2111.11927v2 )

ライセンス: Link先を確認
Han Li and Bowen Shi and Wenrui Dai and Yabo Chen and Botao Wang and Yu Sun and Min Guo and Chenlin Li and Junni Zou and Hongkai Xiong(参考訳) 最近の2次元から3次元の人間のポーズ推定は、人間の骨格のトポロジーによって形成されるグラフ構造を利用する傾向がある。 しかし,この骨格トポロジーは体の構造を反映するには小さすぎるため,重度の2次元から3次元の曖昧さに悩まされている。 これらの弱点を克服するために、新しいグラフ畳み込みネットワークアーキテクチャ、階層グラフネットワーク(HGN)を提案する。 これは、多スケールグラフ構造構築戦略によって生成された密度の高いグラフトポロジーに基づいており、より繊細な幾何学的情報を提供する。 提案するアーキテクチャは3つのスパース・ツー・ファイン表現サブネットワークを並列に構成し,マルチスケールのグラフ構造特徴を処理し,新しい特徴融合戦略により情報を交換することで,リッチな階層表現を実現する。 また,詳細な特徴学習をさらに促進するために,3次元粗いメッシュ制約を導入する。 大規模な実験により,HGNはネットワークパラメータを減らして最先端の性能を実現することが示された。 コードはhttps://github.com/qingshi9974/BMVC2021-Hierarchical-Graph-Networks-for-3D-Human-Pose-Estimationで公開されている。

Recent 2D-to-3D human pose estimation works tend to utilize the graph structure formed by the topology of the human skeleton. However, we argue that this skeletal topology is too sparse to reflect the body structure and suffer from serious 2D-to-3D ambiguity problem. To overcome these weaknesses, we propose a novel graph convolution network architecture, Hierarchical Graph Networks (HGN). It is based on denser graph topology generated by our multi-scale graph structure building strategy, thus providing more delicate geometric information. The proposed architecture contains three sparse-to-fine representation subnetworks organized in parallel, in which multi-scale graph-structured features are processed and exchange information through a novel feature fusion strategy, leading to rich hierarchical representations. We also introduce a 3D coarse mesh constraint to further boost detail-related feature learning. Extensive experiments demonstrate that our HGN achieves the state-of-the art performance with reduced network parameters. Code is released at https://github.com/qingshi9974/BMVC2021-Hierarchical-Graph-Networks-for-3D-Human-Pose-Estimation.
翻訳日:2023-04-05 19:22:10 公開日:2023-04-04
# 歩行者マルチオブジェクトトラッキングトラッカに対するトラックレットスイッチ逆攻撃

Tracklet-Switch Adversarial Attack against Pedestrian Multi-Object Tracking Trackers ( http://arxiv.org/abs/2111.08954v3 )

ライセンス: Link先を確認
Delv Lin, Qi Chen, Chengyu Zhou, Kun He(参考訳) マルチオブジェクト追跡(MOT)は積極的な進歩を遂げ、多くの優れたディープラーニングトラッカーを導出した。 一方、ほとんどのディープラーニングモデルは、小さな摂動で作られるがモデル予測を誤解させる可能性のある敵の例に弱いことが知られている。 本研究は,MOTトラッカーのロバスト性についてはほとんど研究されておらず,その成熟したアソシエーションアルゴリズムがトラッキング中のエラーに対してロバストに設計されているため,MOTシステムを攻撃することは困難である。 そこで我々は,MOTトラッカーの脆弱性を分析し,MOTの全追跡パイプラインに対するトラストレットスイッチ(TraSw)と呼ばれる新たな攻撃手法を提案する。 提案されたtraswは、高度な歩行者追跡装置(例えばfairmotとbytetrack)を騙すことができ、非常に少ないフレームを摂動させることで、その後のフレームのターゲットを追跡できない。 MOT-Challengeデータセット(例:2DMOT15、MOT17、MOT20)の実験では、TraSwは平均して4フレームだけを攻撃することで、95%以上の異常に高い攻撃率を達成することができた。 我々の知る限り、これは歩行者MOTトラッカーに対する敵の攻撃に関する最初の研究である。 コードはhttps://github.com/JHL-HUST/TraSwで入手できる。

Multi-Object Tracking (MOT) has achieved aggressive progress and derived many excellent deep learning trackers. Meanwhile, most deep learning models are known to be vulnerable to adversarial examples that are crafted with small perturbations but could mislead the model prediction. In this work, we observe that the robustness on the MOT trackers is rarely studied, and it is challenging to attack the MOT system since its mature association algorithms are designed to be robust against errors during the tracking. To this end, we analyze the vulnerability of popular MOT trackers and propose a novel adversarial attack method called Tracklet-Switch (TraSw) against the complete tracking pipeline of MOT. The proposed TraSw can fool the advanced deep pedestrian trackers (i.e., FairMOT and ByteTrack), causing them fail to track the targets in the subsequent frames by perturbing very few frames. Experiments on the MOT-Challenge datasets (i.e., 2DMOT15, MOT17, and MOT20) show that TraSw can achieve an extraordinarily high success attack rate of over 95% by attacking only four frames on average. To our knowledge, this is the first work on the adversarial attack against the pedestrian MOT trackers. Code is available at https://github.com/JHL-HUST/TraSw .
翻訳日:2023-04-05 19:21:49 公開日:2023-04-04
# $\texttt{GradICON}$: 勾配逆一貫性による近似微分同相

$\texttt{GradICON}$: Approximate Diffeomorphisms via Gradient Inverse Consistency ( http://arxiv.org/abs/2206.05897v3 )

ライセンス: Link先を確認
Lin Tian, Hastings Greer, Fran\c{c}ois-Xavier Vialard, Roland Kwitt, Ra\'ul San Jos\'e Est\'epar, Richard Jarrett Rushmore, Nikolaos Makris, Sylvain Bouix, Marc Niethammer(参考訳) 医用画像登録の文脈において,画像ペア間の空間変換を定常的に学習するためのアプローチを提案する。 最適化に基づく登録手法や多くの現代的な学習手法とは対照的に、変換の不規則性を直接罰するのではなく、逆整合性ペナルティによって変換規則性を促進する。 ニューラルネットワークを用いて、ソースとターゲットイメージの交換時に、ソースとターゲットイメージの間のマップ、およびマップを予測する。 既存のアプローチと異なり、これらの2つの結果の写像を構成し、恒等行列からこの合成の$\bf{Jacobian}$の偏差を正則化する。 この正規化 -- $\texttt{GradICON}$ -- は、事前の暗黙的な正規化効果を維持しながら、直接写像の構成の逆整合を促進するよりも、トレーニング登録モデルにおいてはるかによく収束する。 ハイパーパラメータのセットと非データセット固有のトレーニングプロトコルを使って、様々な現実世界の医用画像データセットで最先端の登録性能を実現する。

We present an approach to learning regular spatial transformations between image pairs in the context of medical image registration. Contrary to optimization-based registration techniques and many modern learning-based methods, we do not directly penalize transformation irregularities but instead promote transformation regularity via an inverse consistency penalty. We use a neural network to predict a map between a source and a target image as well as the map when swapping the source and target images. Different from existing approaches, we compose these two resulting maps and regularize deviations of the $\bf{Jacobian}$ of this composition from the identity matrix. This regularizer -- $\texttt{GradICON}$ -- results in much better convergence when training registration models compared to promoting inverse consistency of the composition of maps directly while retaining the desirable implicit regularization effects of the latter. We achieve state-of-the-art registration performance on a variety of real-world medical image datasets using a single set of hyperparameters and a single non-dataset-specific training protocol.
翻訳日:2023-04-05 19:14:57 公開日:2023-04-04
# 記憶拡大:ラベル雑音下での神経崩壊のモデル化

Memorization-Dilation: Modeling Neural Collapse Under Label Noise ( http://arxiv.org/abs/2206.05530v3 )

ライセンス: Link先を確認
Duc Anh Nguyen, Ron Levie, Julian Lienen, Gitta Kutyniok, Eyke H\"ullermeier(参考訳) 神経崩壊の概念は、様々な正準分類問題で経験的に観察されたいくつかの創発現象を指す。 ディープニューラルネットワークをトレーニングする最終段階において、同じクラスのすべての例の特徴埋め込みは単一の表現に崩壊する傾向があり、異なるクラスの特徴は可能な限り分離する傾向にある。 神経崩壊は、モデルが「無限の表現性」を持つと仮定され、各データポイントを任意の表現にマッピングできる、unconstrained feature representationと呼ばれる単純化されたモデルを通してしばしば研究される。 本研究では,ネットワークの表現能力の制限を考慮した,制約のない特徴表現のより現実的な変形を提案する。 実験的な証拠は、ノイズのあるデータポイントの記憶が神経崩壊の低下(拡張)につながることを示唆している。 記憶-拡散(M-D)現象のモデルを用いて、ノイズデータ上でトレーニングされたネットワークの異なる性能に異なる損失をもたらすメカニズムを示す。 正規化効果を生み出すために経験的に観測されるクロスエントロピーの修正であるラベル平滑化が分類タスクの一般化に繋がる理由を明らかにする。

The notion of neural collapse refers to several emergent phenomena that have been empirically observed across various canonical classification problems. During the terminal phase of training a deep neural network, the feature embedding of all examples of the same class tend to collapse to a single representation, and the features of different classes tend to separate as much as possible. Neural collapse is often studied through a simplified model, called the unconstrained feature representation, in which the model is assumed to have "infinite expressivity" and can map each data point to any arbitrary representation. In this work, we propose a more realistic variant of the unconstrained feature representation that takes the limited expressivity of the network into account. Empirical evidence suggests that the memorization of noisy data points leads to a degradation (dilation) of the neural collapse. Using a model of the memorization-dilation (M-D) phenomenon, we show one mechanism by which different losses lead to different performances of the trained network on noisy data. Our proofs reveal why label smoothing, a modification of cross-entropy empirically observed to produce a regularization effect, leads to improved generalization in classification tasks.
翻訳日:2023-04-05 19:14:35 公開日:2023-04-04
# アラビア語のコード変換データ拡張のための語彙置換の検討

Investigating Lexical Replacements for Arabic-English Code-Switched Data Augmentation ( http://arxiv.org/abs/2205.12649v2 )

ライセンス: Link先を確認
Injy Hamed, Nizar Habash, Slim Abdennadher, Ngoc Thang Vu(参考訳) データスパシティは、コードスイッチング(CS)NLPシステムの開発を妨げる主要な問題である。 本稿では,方言のアラビア語-英語csテキスト合成のためのデータ拡張手法について検討する。 単語列並列コーパスを用いて語彙置換を行い,cs点をランダムに選択するか,シーケンス列モデルを用いて学習するかした。 これらのアプローチを辞書ベースの置換と比較する。 人による評価によって生成された文の品質を評価し,機械翻訳(MT),自動音声認識(ASR),音声翻訳(ST)タスクにおけるデータ拡張の有効性を評価する。 その結果, 予測モデルを用いることで, 確率的アプローチよりも自然なCS文が得られることがわかった。 下流のタスクでは、ランダムなアプローチがより多くのデータを生成するにもかかわらず、どちらの手法も同等に(辞書ベースの置換よりも)機能する。 全体として、データ拡張は34%のパープレキシティ向上、ASRタスクのWERの5.2%の相対的な改善、MTタスクの+4.0-5.1のBLEUポイント、および+2.1-2.2のBLEUポイントを、拡張なしで利用可能なデータに基づいてトレーニングされたベースライン上でST上に達成している。

Data sparsity is a main problem hindering the development of code-switching (CS) NLP systems. In this paper, we investigate data augmentation techniques for synthesizing dialectal Arabic-English CS text. We perform lexical replacements using word-aligned parallel corpora where CS points are either randomly chosen or learnt using a sequence-to-sequence model. We compare these approaches against dictionary-based replacements. We assess the quality of the generated sentences through human evaluation and evaluate the effectiveness of data augmentation on machine translation (MT), automatic speech recognition (ASR), and speech translation (ST) tasks. Results show that using a predictive model results in more natural CS sentences compared to the random approach, as reported in human judgements. In the downstream tasks, despite the random approach generating more data, both approaches perform equally (outperforming dictionary-based replacements). Overall, data augmentation achieves 34% improvement in perplexity, 5.2% relative improvement on WER for ASR task, +4.0-5.1 BLEU points on MT task, and +2.1-2.2 BLEU points on ST over a baseline trained on available data without augmentation.
翻訳日:2023-04-05 19:14:14 公開日:2023-04-04
# 情報理論的に安全な量子同型暗号のためのプライバシーと正当性トレードオフ

Privacy and correctness trade-offs for information-theoretically secure quantum homomorphic encryption ( http://arxiv.org/abs/2205.12127v2 )

ライセンス: Link先を確認
Yanglin Hu, Yingkai Ouyang, Marco Tomamichel(参考訳) 暗号化されたデータを直接サーバーが計算できる量子同型暗号は、より複雑な量子暗号プロトコルを構築することができる基本的なプリミティブである。 このような構成を可能にするためには、量子ホモモルフィック暗号化は、入力データがサーバからプライベートであることを保証するデータプライバシーと、計算後の暗号文が計算自体の出力を超えて実行する回路に関する追加情報を明らかにしないことを保証する回路プライバシーの2つのプライバシー特性を満たす必要がある。 回路プライバシは古典暗号や多くの準同型暗号スキームでよく研究されているが、量子アナログはそれほど注目されていない。 ここでは、情報理論セキュリティを用いた量子同型暗号化のための回路プライバシーの定義を確立する。 さらに、量子ホモモルフィック暗号への量子オブリバスト転送を低減する。 この削減により、我々の研究は、クリフォード回路の計算のみを許容するスキームを含む、量子準同型暗号プロトコルの幅広いファミリーに対して、回路プライバシ、データプライバシ、正確性の間の根本的なトレードオフを解消する。

Quantum homomorphic encryption, which allows computation by a server directly on encrypted data, is a fundamental primitive out of which more complex quantum cryptography protocols can be built. For such constructions to be possible, quantum homomorphic encryption must satisfy two privacy properties: data privacy which ensures that the input data is private from the server, and circuit privacy which ensures that the ciphertext after the computation does not reveal any additional information about the circuit used to perform it, beyond the output of the computation itself. While circuit privacy is well-studied in classical cryptography and many homomorphic encryption schemes can be equipped with it, its quantum analogue has received little attention. Here we establish a definition of circuit privacy for quantum homomorphic encryption with information-theoretic security. Furthermore, we reduce quantum oblivious transfer to quantum homomorphic encryption. By using this reduction, our work unravels fundamental trade-offs between circuit privacy, data privacy and correctness for a broad family of quantum homomorphic encryption protocols, including schemes that allow only the computation of Clifford circuits.
翻訳日:2023-04-05 19:13:48 公開日:2023-04-04
# 強結合下での量子オットーサイクル

Quantum Otto cycle under strong coupling ( http://arxiv.org/abs/2205.09400v3 )

ライセンス: Link先を確認
Mao Kaneyasu and Yoshihiko Hasegawa(参考訳) 量子熱エンジンは、システムと貯水池の相互作用は無視できるという弱い結合の仮定の下でしばしば議論される。 この設定は解析が容易であるが、この仮定は量子スケールでは正当化できない。 本研究では,弱結合仮定を伴わずに一般に適用可能な量子オットーサイクルモデルを提案する。 我々は,弱いカップリングモデルにおける熱化過程を,熱化と脱カップリングを含むプロセスに置き換える。 提案モデルの効率を解析的に計算し,弱い相互作用限界において相互作用項の寄与が無視された場合,それ以前のモデルに還元されることを示す。 弱結合モデルの効率性が弱結合モデルの効率を上回らない十分条件は、このモデルの分離過程が正のコストを持つことである。 さらに, 簡単な2レベルシステムを用いて, 相互作用強度と提案モデルの効率の関係を数値的に検討した。 さらに,本モデルでは,特定の場合において,弱い結合モデルよりも効率が優れていることを示す。 主化関係の解析から,提案モデルの最大効率を期待できる最適相互作用ハミルトニアンの設計法を見出した。 これらの相互作用ハミルトニアンの下では、数値実験により、提案モデルが弱結合モデルよりも高い効率を達成することが示されている。

Quantum heat engines are often discussed under the weak coupling assumption that the interaction between the system and the reservoirs is negligible. Although this setup is easier to analyze, this assumption cannot be justified on the quantum scale. In this study, a quantum Otto cycle model that can be generally applied without the weak coupling assumption is proposed. We replace the thermalization process in the weak coupling model with a process comprising thermalization and decoupling. The efficiency of the proposed model is analytically calculated and it indicates that when the contribution of the interaction terms is neglected in the weak interaction limit, it reduces to that of the earlier model. The sufficient condition for the efficiency of the proposed model not to surpass that of the weak coupling model is that the decoupling processes of our model have a positive cost. Moreover, the relation between the interaction strength and the efficiency of the proposed model is numerically examined using a simple two-level system. Furthermore, we show that our model's efficiency can surpass that of the weak coupling model under particular cases. From analyzing the majorization relation, we also find a design method of the optimal interaction Hamiltonians which are expected to provide the maximum efficiency of the proposed model. Under these interaction Hamiltonians, the numerical experiment shows that the proposed model achieves higher efficiency than that of its weak coupling counterpart.
翻訳日:2023-04-05 19:13:27 公開日:2023-04-04
# 人間の動き伝達のためのアイデンティティ保存フレームワーク

An Identity-Preserved Framework for Human Motion Transfer ( http://arxiv.org/abs/2204.06862v2 )

ライセンス: Link先を確認
Jingzhe Ma, Xiaoqing Zhang and Shiqi Yu(参考訳) HMT(Human Motion Transfer)は、被写体の動きを模倣した映像クリップを作成することを目的とする。 従来の手法は高品質なビデオの合成において顕著な成果を上げてきたが、これらの手法は、生成した動画における動きのリアリズムに対する、ソースとターゲットの動きから個別化された動き情報である「textit{e.g.}」の効果を省略している。 この問題に対処するために,スケルトンに基づく手法のパイプラインに従うアイデンティティ保存型HMTネットワーク(\textit{IDPres})を提案する。 \textit{IDpres} は、個々の動きと骨格情報を取り込み、動きの表現を強化し、生成されたビデオにおける動きの現実を改善する。 個別化運動では,運動の微細化と合成に焦点が当てられている。 潜在空間における表現能力を改善し, \textit{idpres} の訓練を容易にするために, \textit{idpres} が異なる表現を同時に分離し,それらを制御して理想動作を正確に合成するトレーニングスキームを設計する。 さらに、我々の知る限り、生成されたビデオのアイデンティティ情報(個別化動作と骨格情報の両方)の比率を評価するための指標は存在しない。 そこで本稿では,歩行認識に基づくIdentity Score(\textit{IDScore})と呼ばれる新しい定量尺度を提案する。 また,この手法を評価するために,パブリックドメインから101人の被験者のソロダンスビデオを収集し,$Dancer101$と名づけた。 総合的な実験により,提案手法は再現精度と現実的な動きで最先端の手法より優れていた。

Human motion transfer (HMT) aims to generate a video clip for the target subject by imitating the source subject's motion. Although previous methods have achieved remarkable results in synthesizing good-quality videos, those methods omit the effects of individualized motion information from the source and target motions, \textit{e.g.}, fine and high-frequency motion details, on the realism of the motion in the generated video. To address this problem, we propose an identity-preserved HMT network (\textit{IDPres}), which follows the pipeline of the skeleton-based method. \textit{IDpres} takes the individualized motion and skeleton information to enhance motion representations and improve the reality of motions in the generated videos. With individualized motion, our method focuses on fine-grained disentanglement and synthesis of motion. In order to improve the representation capability in latent space and facilitate the training of \textit{IDPres}, we design a training scheme, which allows \textit{IDPres} to disentangle different representations simultaneously and control them to synthesize ideal motions accurately. Furthermore, to our best knowledge, there are no available metrics for evaluating the proportion of identity information (both individualized motion and skeleton information) in the generated video. Therefore, we propose a novel quantitative metric called Identity Score (\textit{IDScore}) based on gait recognition. We also collected a dataset with 101 subjects' solo-dance videos from the public domain, named $Dancer101$, to evaluate the method. The comprehensive experiments show the proposed method outperforms state-of-the-art methods in terms of reconstruction accuracy and realistic motion.
翻訳日:2023-04-05 19:13:08 公開日:2023-04-04
# 逐次測定における量子バックアクション効果

Quantum backaction effects in sequential measurements ( http://arxiv.org/abs/2204.01053v2 )

ライセンス: Link先を確認
Le Bin Ho(参考訳) 量子バックアクション(Quantum backaction)とは、量子系を測ることによる乱れを指す。 逐次測定では、この効果は蓄積して重要となり、システム状態と測定結果の非自明な修正につながる。 本稿では, 測定強度の役割や測定過程の性質など, 逐次測定において量子バックアクションが現われる方法を考察する。 論文は、insight quantum foundationと量子計測と情報処理の意義を強調する。

Quantum backaction refers to the disturbance of a quantum system caused by measuring it. In sequential measurements, this effect can accumulate and become significant, leading to nontrivial modifications of the system state and the measurement results. This paper explores the ways in which quantum backaction can manifest in sequential measurements, including the role of measurement strength and the nature of the measurement process. The paper highlights the insight quantum foundation and the implications for quantum measurement and information processing.
翻訳日:2023-04-05 19:12:39 公開日:2023-04-04
# 弱スーパービジョンセグメンテーションにおけるCAMの重要サンプリング

Importance Sampling CAMs for Weakly-Supervised Segmentation ( http://arxiv.org/abs/2203.12459v3 )

ライセンス: Link先を確認
Arvi Jonnarth, Michael Felsberg(参考訳) 分類ネットワークは、クラスアクティベーションマップ(cams)によって画像内のオブジェクトのローカライズとセグメンテーションに使用することができる。 しかし, 画素レベルのアノテーションがなければ, 1) 主に識別領域に着目した分類ネットワークが知られ, (2) 明確な予測輪郭のない拡散CAMを生成する。 本研究では,CAM学習の改善に2つの貢献によって両問題にアプローチする。 まず,camsによって引き起こされるクラス毎確率質量関数に基づく重要度サンプリングを行い,確率的画像レベルのクラス予測を行う。 これにより、CAMはより広い範囲のオブジェクトを活性化する。 次に,画像のエッジと予測輪郭の一致を目的とした特徴類似性損失項を定式化する。 第3のコントリビューションとして、PASCAL VOC 2012ベンチマークデータセットを用いて、これらの修正が、領域の類似性の観点から現在の最先端手法と同等でありながら、輪郭精度において性能を大幅に向上させることを示す。

Classification networks can be used to localize and segment objects in images by means of class activation maps (CAMs). However, without pixel-level annotations, classification networks are known to (1) mainly focus on discriminative regions, and (2) to produce diffuse CAMs without well-defined prediction contours. In this work, we approach both problems with two contributions for improving CAM learning. First, we incorporate importance sampling based on the class-wise probability mass function induced by the CAMs to produce stochastic image-level class predictions. This results in CAMs which activate over a larger extent of objects. Second, we formulate a feature similarity loss term which aims to match the prediction contours with edges in the image. As a third contribution, we conduct experiments on the PASCAL VOC 2012 benchmark dataset to demonstrate that these modifications significantly increase the performance in terms of contour accuracy, while being comparable to current state-of-the-art methods in terms of region similarity.
翻訳日:2023-04-05 19:12:05 公開日:2023-04-04
# 回帰のための深層バッチアクティブラーニングのためのフレームワークとベンチマーク

A Framework and Benchmark for Deep Batch Active Learning for Regression ( http://arxiv.org/abs/2203.09410v3 )

ライセンス: Link先を確認
David Holzm\"uller, Viktor Zaverkin, Johannes K\"astner, Ingo Steinwart(参考訳) 教師付き学習のためのラベルの取得は高価である。 ニューラルネットワーク回帰のサンプル効率を改善するために,ラベルなしデータのバッチを適応的にラベリングする能動的学習法を検討した。 本稿では,ネットワークに依存した)ベースカーネル,カーネル変換,選択メソッドからそのようなメソッドを構築するためのフレームワークを提案する。 本フレームワークは,ニューラルネットワークのガウス過程近似と非ベイズ手法に基づく既存のベイズ手法を包含する。 さらに,よく使われるラスト層の特徴をスケッチされた有限幅神経接核に置き換え,それらを新しいクラスタリング法と組み合わせることを提案する。 異なる手法を評価するため、15個の大きな表付き回帰データセットからなるオープンソースベンチマークを導入する。 提案手法は,我々のベンチマークの最先端性,大規模データセットへのスケール,ネットワークアーキテクチャやトレーニングコードを調整することなく,アウト・オブ・ボックスで動作する。 私たちは、すべてのカーネル、カーネル変換、選択メソッドの効率的な実装を含むオープンソースコードを提供し、結果の再現に使用しています。

The acquisition of labels for supervised learning can be expensive. In order to improve the sample-efficiency of neural network regression, we study active learning methods that adaptively select batches of unlabeled data for labeling. We present a framework for constructing such methods out of (network-dependent) base kernels, kernel transformations and selection methods. Our framework encompasses many existing Bayesian methods based on Gaussian Process approximations of neural networks as well as non-Bayesian methods. Additionally, we propose to replace the commonly used last-layer features with sketched finite-width Neural Tangent Kernels, and to combine them with a novel clustering method. To evaluate different methods, we introduce an open-source benchmark consisting of 15 large tabular regression data sets. Our proposed method outperforms the state-of-the-art on our benchmark, scales to large data sets, and works out-of-the-box without adjusting the network architecture or training code. We provide open-source code that includes efficient implementations of all kernels, kernel transformations, and selection methods, and can be used for reproducing our results.
翻訳日:2023-04-05 19:11:47 公開日:2023-04-04
# 頭部CTにおける脳内出血分節に対する直交位U-Netに沿って交わるVoxels

Voxels Intersecting along Orthogonal Levels Attention U-Net for Intracerebral Haemorrhage Segmentation in Head CT ( http://arxiv.org/abs/2208.06313v2 )

ライセンス: Link先を確認
Qinghui Liu, Bradley J MacIntosh, Till Schellhorn, Karoline Skogen, KyrreEeg Emblem, and Atle Bj{\o}rnerud(参考訳) Instance 2022 Data Challenge on non-contrast Computed Tomography (CT)において,脳内出血(ICH)セグメンテーションタスクのための新しい,フレキシブルな注意に基づくU-NetアーキテクチャであるVoxels-Intersecting along Orthogonal Levels Attention U-Netを提案する。 ICHセグメンテーションの性能は,U-Netデコード分岐に挿入したViolaアテンションを通した空間直交・クロスチャネル特徴を効率よく組み込むことで向上した。 Viola-Unetは5倍のクロスバリデーションとオンラインバリデーションで強力なベースラインnnU-Netモデルを上回った。 私たちのソリューションは、4つのパフォーマンスメトリクス(DSC、HD、NSD、RVD)すべての観点から、チャレンジ検証フェーズの勝者でした。 Viola-Unet AIツールのコードベース、トレーニング済み重量、およびDockerイメージは、 \url{https://github.com/samleoqh/Viola-Unet}で公開されている。

We propose a novel and flexible attention based U-Net architecture referred to as "Voxels-Intersecting Along Orthogonal Levels Attention U-Net" (viola-Unet), for intracranial hemorrhage (ICH) segmentation task in the INSTANCE 2022 Data Challenge on non-contrast computed tomography (CT). The performance of ICH segmentation was improved by efficiently incorporating fused spatially orthogonal and cross-channel features via our proposed Viola attention plugged into the U-Net decoding branches. The viola-Unet outperformed the strong baseline nnU-Net models during both 5-fold cross validation and online validation. Our solution was the winner of the challenge validation phase in terms of all four performance metrics (i.e., DSC, HD, NSD, and RVD). The code base, pretrained weights, and docker image of the viola-Unet AI tool are publicly available at \url{https://github.com/samleoqh/Viola-Unet}.
翻訳日:2023-04-05 19:05:51 公開日:2023-04-04
# Dice-Haldaneモデルにおける非ハーモニティ誘導例外点と皮膚効果

Non-Hermiticity induced Exceptional Points and Skin Effect in the Dice-Haldane Model ( http://arxiv.org/abs/2207.14612v4 )

ライセンス: Link先を確認
Ronika Sarkar, Arka Bandyopadhyay, Awadhesh Narayan(参考訳) トポロジーと非hermiticityの相互作用は、多種多様なシステムにおいて多様でエキサイティングな表現を生み出した。 本研究では,ダイス格子上のチャーン絶縁ハルダンモデルにおける非ヘルミティシティの役割を体系的に検討する。 非分散フラットバンドが存在するため、ディス=ハルダンモデルはチャーン数 $\pm 2$ に対応する非自明な位相をもつ位相図をホストする。 このモデルに非エルミキシー性を導入するには、バランスのとれた非エルミキアン利得と損失、そして一方向の非反向ホッピングの2つの方法がある。 これら二つの非エルミーティ性は、位数3の高階例外点を誘導する。 位相剛性とそのスケーリングを用いて、これらの高次の例外点の存在と順序を実証する。 さらに,これらの例外点をパラメータ空間内で同定し,同定するための位相図を構築する。 非ヘルミティック性は有限サイズの格子に対してさらに興味深い結果をもたらす。 バランスの取れた利得と損失とは異なり、非相反ホッピングの場合、周期境界条件下で最近傍のダイス格子系は複素平面内の有限の非零スペクトル領域に対応する。 これは開境界条件が呼び出されると非エルミート皮膚効果として現れる。 ディース・ハルダン格子モデルのより一般的な場合、非エルミート皮膚効果は、利得と損失の両方または非相反性によって引き起こされる。 興味深いことに、固有状態の局在の方向は非ハーミティティーの性質と強さに依存する。 我々は,状態の局所密度,逆参加率,エッジ確率を用いて皮膚効果の発生を確立し,その障害に対する堅牢性を示す。 結果は,非エルミート物理学を探求するためのエキサイティングなプラットフォームとして,サイス・ハルダンモデルを用いる。

The interplay of topology and non-Hermiticity has led to diverse, exciting manifestations in a plethora of systems. In this work, we systematically investigate the role of non-Hermiticity in the Chern insulating Haldane model on a dice lattice. Due to the presence of a non-dispersive flat band, the dice-Haldane model hosts a topologically rich phase diagram with the non-trivial phases accommodating Chern numbers $\pm 2$. We introduce non-Hermiticity into this model in two ways -- through balanced non-Hermitian gain and loss, and by non-reciprocal hopping in one direction. Both these types of non-Hermiticity induce higher-order exceptional points of order three. We substantiate the presence and the order of these higher-order exceptional points using the phase rigidity and its scaling. Further, we construct a phase diagram to identify and locate the occurrence of these exceptional points in the parameter space. Non-Hermiticity has yet more interesting consequences on a finite-sized lattice. Unlike for balanced gain and loss, in the case of non-reciprocal hopping, the nearest-neighbour dice lattice system under periodic boundary conditions accommodates a finite, non-zero spectral area in the complex plane. This manifests as the non-Hermitian skin effect when open boundary conditions are invoked. In the more general case of the dice-Haldane lattice model, the non-Hermitian skin effect can be caused by both gain and loss or non-reciprocity. Fascinatingly, the direction of localization of the eigenstates depends on the nature and strength of the non-Hermiticity. We establish the occurrence of the skin effect using the local density of states, inverse participation ratio and the edge probability, and demonstrate its robustness to disorder. Our results place the dice-Haldane model as an exciting platform to explore non-Hermitian physics.
翻訳日:2023-04-05 19:05:33 公開日:2023-04-04
# ボソニック量子計算のアドバンテージのための資源

Resources for bosonic quantum computational advantage ( http://arxiv.org/abs/2207.11781v3 )

ライセンス: Link先を確認
Ulysse Chabaud and Mattia Walschaers(参考訳) 量子コンピュータは、古典的コンピュータを劇的に上回ることを約束している。 しかし、そのような計算上の利点を可能にする非古典的資源は、単一の資源ではなく、これらの潜在的な利点に責任を負うことができる多くの微妙な相互作用であるため、特定することが困難である。 本研究では,すべての計算資源が入力状態に含まれる連続変数サンプリング計算にボソニック量子計算が再キャスト可能であることを示す。 この還元を用いて,入力状態と測定設定の両方の非ガウシアン星ランクに複雑性がスケールするボソニック計算の強シミュレーションのための一般的な古典的アルゴリズムを導出する。 さらに,関連する連続変数サンプリング計算の効率的な古典シミュレーションの条件について検討し,パッシブ分離性の欠如に基づく非ガウシアン絡みの操作概念を特定し,スクイージング,非ガウシアン性,絡み合いといったボソニック量子計算資源の相互作用を明らかにする。

Quantum computers promise to dramatically outperform their classical counterparts. However, the non-classical resources enabling such computational advantages are challenging to pinpoint, as it is not a single resource but the subtle interplay of many that can be held responsible for these potential advantages. In this work, we show that every bosonic quantum computation can be recast into a continuous-variable sampling computation where all computational resources are contained in the input state. Using this reduction, we derive a general classical algorithm for the strong simulation of bosonic computations, whose complexity scales with the non-Gaussian stellar rank of both the input state and the measurement setup. We further study the conditions for an efficient classical simulation of the associated continuous-variable sampling computations and identify an operational notion of non-Gaussian entanglement based on the lack of passive separability, thus clarifying the interplay of bosonic quantum computational resources such as squeezing, non-Gaussianity and entanglement.
翻訳日:2023-04-05 19:04:49 公開日:2023-04-04
# 文脈感応性新皮質ニューロンは神経情報処理の有効性と効率を変換する

Context-sensitive neocortical neurons transform the effectiveness and efficiency of neural information processing ( http://arxiv.org/abs/2207.07338v6 )

ライセンス: Link先を確認
Ahsan Adeel, Mario Franco, Mohsin Raza, Khubaib Ahmed(参考訳) ディープラーニング(DL)は、多くの現実世界のドメインの人間に匹敵する、あるいはそれ以上に優れたビッグデータ処理能力を持つが、いくつかのアプリケーションやエラーでは持続不可能な高エネルギー要求のコストがかかるため、多くの場合、大きなものになり得る。 dlの根本的な弱点は、現在の文脈に関係があるかどうかに関わらず、情報伝達を最大化する統合・ファイアポイントニューロンに固有の依存関係にあると仮定する。 これにより、不要な神経発火と競合するメッセージのフィードフォワード送信につながるため、学習が困難になり、エネルギー効率が低下する。 本稿では,これらの制約を回避するために,様々なソースからの入力を受信する,文脈に敏感な新皮質ニューロンの機能を模倣して,関連情報の伝達を増幅し,減衰させる方法を示す。 このような局所的プロセッサからなる深層ネットワークは、活動ニューロン間の合意を最大化することを目指しており、矛盾する情報の上位レベルへの伝達を制限し、大量の異種実世界データを処理するのに必要な神経活動を低減する。 現在のDLよりも効率的で効率的であることが示されているように、この2点ニューロン研究はディープネットワークアーキテクチャの細胞基盤を変換する段階的な変化をもたらす可能性がある。

Deep learning (DL) has big-data processing capabilities that are as good, or even better, than those of humans in many real-world domains, but at the cost of high energy requirements that may be unsustainable in some applications and of errors, that, though infrequent, can be large. We hypothesise that a fundamental weakness of DL lies in its intrinsic dependence on integrate-and-fire point neurons that maximise information transmission irrespective of whether it is relevant in the current context or not. This leads to unnecessary neural firing and to the feedforward transmission of conflicting messages, which makes learning difficult and processing energy inefficient. Here we show how to circumvent these limitations by mimicking the capabilities of context-sensitive neocortical neurons that receive input from diverse sources as a context to amplify and attenuate the transmission of relevant and irrelevant information, respectively. We demonstrate that a deep network composed of such local processors seeks to maximise agreement between the active neurons, thus restricting the transmission of conflicting information to higher levels and reducing the neural activity required to process large amounts of heterogeneous real-world data. As shown to be far more effective and efficient than current forms of DL, this two-point neuron study offers a possible step-change in transforming the cellular foundations of deep network architectures.
翻訳日:2023-04-05 19:04:31 公開日:2023-04-04
# ユニタリ同値制約付き線形計画法

Linear programming with unitary-equivariant constraints ( http://arxiv.org/abs/2207.05713v2 )

ライセンス: Link先を確認
Dmitry Grinko, Maris Ozols(参考訳) ユニタリ同値性(unitary equivariance)は、物理学や数学の多くの文脈で起こる自然な対称性である。 このような対称性を持つ最適化問題は、u^{\otimes p} \otimes \bar{u}^{\otimes q}$, for all $u \in \mathrm{u}(d)$ で可換な$d^{p+q}$-次元行列変数の半定値プログラムとして定式化することができる。 このような問題を解決するには、もし$p+q$ が小さいが、局所次元 $d$ が大きければ、必然的に高価である。 追加の対称性仮定の下では、この問題は$d$でスケールしない時間に解くことができる線形プログラムに還元され、異なる種類の対称性の下でこの還元を実行するための一般的なフレームワークを提供する。 本手法の重要な成分は,壁付きブラウアー代数図の線形結合による解空間のコンパクトパラメトリゼーションである。 このパラメトリゼーションはゲルファント・タセリン基底の等等式を必要とし、オクンコフ・ヴェルシクのアプローチにインスパイアされた一般的な方法 arXiv:1606.08900 を適用することによって得られる。 潜在的な応用を説明するために、量子状態の主固有値の決定、量子多数決、非対称クローニング、ブラックボックスユニタリの変換など、量子情報からのいくつかの例を用いる。 また,本手法を一般ユニタリ同変半定プログラムに拡張する可能性についても概説する。

Unitary equivariance is a natural symmetry that occurs in many contexts in physics and mathematics. Optimization problems with such symmetry can often be formulated as semidefinite programs for a $d^{p+q}$-dimensional matrix variable that commutes with $U^{\otimes p} \otimes \bar{U}^{\otimes q}$, for all $U \in \mathrm{U}(d)$. Solving such problems naively can be prohibitively expensive even if $p+q$ is small but the local dimension $d$ is large. We show that, under additional symmetry assumptions, this problem reduces to a linear program that can be solved in time that does not scale in $d$, and we provide a general framework to execute this reduction under different types of symmetries. The key ingredient of our method is a compact parametrization of the solution space by linear combinations of walled Brauer algebra diagrams. This parametrization requires the idempotents of a Gelfand-Tsetlin basis, which we obtain by adapting a general method arXiv:1606.08900 inspired by the Okounkov-Vershik approach. To illustrate potential applications, we use several examples from quantum information: deciding the principal eigenvalue of a quantum state, quantum majority vote, asymmetric cloning and transformation of a black-box unitary. We also outline a possible route for extending our method to general unitary-equivariant semidefinite programs.
翻訳日:2023-04-05 19:04:06 公開日:2023-04-04
# ニューラルネットワークによるマルチスケール注意画像デライニングネットワーク

Multi-scale Attentive Image De-raining Networks via Neural Architecture Search ( http://arxiv.org/abs/2207.00728v3 )

ライセンス: Link先を確認
Lei Cai, Yuli Fu, Wanliang Huo, Youjun Xiang, Tao Zhu, Ying Zhang, Huanqiang Zeng and Delu Zeng(参考訳) マルチスケールアーキテクチャとアテンションモジュールは、多くの深層学習に基づく画像デレイニング手法において有効性を示している。 しかし、これらの2つのコンポーネントをニューラルネットワークに手動で設計し、統合するには、膨大な労力と幅広い専門知識が必要です。 本稿では,画像デレーシングのために,高性能なマルチスケールニューラルネットワーク検索(manas)フレームワークを開発した。 提案手法は,画像デレイティングタスクに好適な複数のフレキシブルモジュールを用いた,新しいマルチスケールアテンション検索空間を定式化する。 探索空間下では、マルチスケールの減衰セルが構築され、強力な画像デレイニングネットワークの構築にさらに使用される。 ディライニングネットワークの内部のマルチスケール注意アーキテクチャは、手動設計の煩わしい手順をある程度回避する勾配に基づく探索アルゴリズムによって自動的に探索される。 Moreover, in order to obtain a robust image de-raining model, a practical and effective multi-to-one training strategy is also presented to allow the de-raining network to get sufficient background information from multiple rainy images with the same background scene, and meanwhile, multiple loss functions including external loss, internal loss, architecture regularization loss, and model complexity loss are jointly optimized to achieve robust de-raining performance and controllable model complexity. 合成および現実的な降雨画像および下流視覚応用(すなわち、対物検出とセグメンテーション)に関する大規模な実験結果は、提案手法の優位性を一貫して示している。 コードはhttps://github.com/lcai-gz/MANASで公開されている。

Multi-scale architectures and attention modules have shown effectiveness in many deep learning-based image de-raining methods. However, manually designing and integrating these two components into a neural network requires a bulk of labor and extensive expertise. In this article, a high-performance multi-scale attentive neural architecture search (MANAS) framework is technically developed for image deraining. The proposed method formulates a new multi-scale attention search space with multiple flexible modules that are favorite to the image de-raining task. Under the search space, multi-scale attentive cells are built, which are further used to construct a powerful image de-raining network. The internal multiscale attentive architecture of the de-raining network is searched automatically through a gradient-based search algorithm, which avoids the daunting procedure of the manual design to some extent. Moreover, in order to obtain a robust image de-raining model, a practical and effective multi-to-one training strategy is also presented to allow the de-raining network to get sufficient background information from multiple rainy images with the same background scene, and meanwhile, multiple loss functions including external loss, internal loss, architecture regularization loss, and model complexity loss are jointly optimized to achieve robust de-raining performance and controllable model complexity. Extensive experimental results on both synthetic and realistic rainy images, as well as the down-stream vision applications (i.e., objection detection and segmentation) consistently demonstrate the superiority of our proposed method. The code is publicly available at https://github.com/lcai-gz/MANAS.
翻訳日:2023-04-05 19:03:38 公開日:2023-04-04
# 量子推定における測定ノイズ感受性

Measurement noise susceptibility in quantum estimation ( http://arxiv.org/abs/2206.12430v2 )

ライセンス: Link先を確認
Stanislaw Kurdzialek, Rafal Demkowicz-Dobrzanski(参考訳) フィッシャー情報(fisher information)は、量子論の分野における重要な概念である。 これは最も一般的な量子測度を用いて、量子状態に符号化されたパラメータの最大到達可能な推定の直接量子化を可能にする。 しかし、量子推定スキームが測定の不完全性に対して頑健であることの定量化には失敗し、これは常に実践的な実装に存在している。 そこで本研究では,小型な計測障害による水産情報の潜在的な損失を定量化する,水産情報計測ノイズの新たな概念を提案する。 この量の公式を導出し、干渉法や超解像光学イメージングを含むパラダイム的量子推定スキームの解析においてその有用性を示す。

Fisher Information is a key notion in the whole field of quantum metrology. It allows for a direct quantification of maximal achievable precision of estimation of parameters encoded in quantum states using the most general quantum measurement. It fails, however, to quantify the robustness of quantum estimation schemes against measurement imperfections, which are always present in any practical implementations. Here, we introduce a new concept of Fisher Information Measurement Noise Susceptibility that quantifies the potential loss of Fisher Information due to small measurement disturbance. We derive an explicit formula for the quantity, and demonstrate its usefulness in analysis of paradigmatic quantum estimation schemes, including interferometry and super-resolution optical imaging.
翻訳日:2023-04-05 19:03:15 公開日:2023-04-04
# 自律走行のための3次元物体検出:総合的調査

3D Object Detection for Autonomous Driving: A Comprehensive Survey ( http://arxiv.org/abs/2206.09474v2 )

ライセンス: Link先を確認
Jiageng Mao, Shaoshuai Shi, Xiaogang Wang, Hongsheng Li(参考訳) 近年、自動運転はドライバーの負担を軽減し、運転の安全性を向上させる可能性について注目が集まっている。 現代の自動運転パイプラインでは、知覚システムは不可欠の構成要素であり、周囲の環境の状態を正確に推定し、予測と計画のための信頼できる観察を提供することを目的としている。 自動運転車の近くで重要な3Dオブジェクトの位置、サイズ、カテゴリをインテリジェントに予測する3Dオブジェクト検出は、認識システムの重要な部分である。 本稿では,自律運転における3次元物体検出技術の進歩を概観する。 まず,3次元物体検出の背景を紹介し,その課題について議論する。 第2に,lidarベース,カメラベース,マルチモーダル検出手法など,モデルとセンサ入力の観点から,3次元物体検出の進展を包括的に調査する。 また,各手法のカテゴリにおけるポテンシャルと課題を詳細に分析する。 さらに,運転システムにおける3次元物体検出の応用を体系的に検討した。 最後に,3次元物体検出手法の性能解析を行い,今後の動向を概観し,今後の方向性を展望する。

Autonomous driving, in recent years, has been receiving increasing attention for its potential to relieve drivers' burdens and improve the safety of driving. In modern autonomous driving pipelines, the perception system is an indispensable component, aiming to accurately estimate the status of surrounding environments and provide reliable observations for prediction and planning. 3D object detection, which intelligently predicts the locations, sizes, and categories of the critical 3D objects near an autonomous vehicle, is an important part of a perception system. This paper reviews the advances in 3D object detection for autonomous driving. First, we introduce the background of 3D object detection and discuss the challenges in this task. Second, we conduct a comprehensive survey of the progress in 3D object detection from the aspects of models and sensory inputs, including LiDAR-based, camera-based, and multi-modal detection approaches. We also provide an in-depth analysis of the potentials and challenges in each category of methods. Additionally, we systematically investigate the applications of 3D object detection in driving systems. Finally, we conduct a performance analysis of the 3D object detection approaches, and we further summarize the research trends over the years and prospect the future directions of this area.
翻訳日:2023-04-05 19:03:02 公開日:2023-04-04
# 言語記号:人間とロボットの相互作用の実証から取得する手話指

Signs of Language: Embodied Sign Language Fingerspelling Acquisition from Demonstrations for Human-Robot Interaction ( http://arxiv.org/abs/2209.05135v2 )

ライセンス: Link先を確認
Federico Tavella and Aphrodite Galata and Angelo Cangelosi(参考訳) 細かい動きを学習することは、ロボット工学、特にロボットハンドの文脈において難しいトピックである。 この課題の具体例の1つは、ロボットにおける手話の指先獲得である。 本稿では,追加情報なしで映像からデクスタースモータの模倣を学習する手法を提案する。 これを実現するために,まずロボットハンドのurdfモデルを構築し,各関節に1つのアクチュエータを装着した。 トレーニング済みのディープビジョンモデルを利用して、RGBビデオから手の3Dポーズを抽出する。 次に,運動模倣のための最先端強化学習アルゴリズム(すなわち近位政策最適化とソフトアクタ-クリティック)を用いて,実演から抽出した動きを再現する方針を訓練する。 基準運動に基づく模倣のための最適ハイパーパラメータ集合を同定する。 最後に,手書き文字に対応する6つのタスクでテストすることで,手法の一般化可能性を示す。 提案手法は,ロボット工学における実世界の応用の可能性を明らかにするとともに,これらの微細な動きを追加情報なしで再現できることを示す。

Learning fine-grained movements is a challenging topic in robotics, particularly in the context of robotic hands. One specific instance of this challenge is the acquisition of fingerspelling sign language in robots. In this paper, we propose an approach for learning dexterous motor imitation from video examples without additional information. To achieve this, we first build a URDF model of a robotic hand with a single actuator for each joint. We then leverage pre-trained deep vision models to extract the 3D pose of the hand from RGB videos. Next, using state-of-the-art reinforcement learning algorithms for motion imitation (namely, proximal policy optimization and soft actor-critic), we train a policy to reproduce the movement extracted from the demonstrations. We identify the optimal set of hyperparameters for imitation based on a reference motion. Finally, we demonstrate the generalizability of our approach by testing it on six different tasks, corresponding to fingerspelled letters. Our results show that our approach is able to successfully imitate these fine-grained movements without additional information, highlighting its potential for real-world applications in robotics.
翻訳日:2023-04-05 18:56:20 公開日:2023-04-04
# 人物再同定のための地域意識グローバルアテンションネットワーク

Local-Aware Global Attention Network for Person Re-Identification ( http://arxiv.org/abs/2209.04821v2 )

ライセンス: Link先を確認
Nathanael L. Baisa(参考訳) 効果的な人物再識別(re-id)には,画像からのロバストかつ判別情報の学習が不可欠である。 本稿では,身体画像と手動画像の両面から,人物Re-Idに対するエンドツーエンドの識別的特徴学習のための複合的アプローチを提案する。 局所認識型グローバルアテンションネットワーク (LAGA-Net) は,空間的注意のための1つのブランチ,チャネル的注意のための1つのブランチ,グローバルな特徴表現のための1つのブランチ,局所的特徴表現のためのもう1つのブランチからなる多分岐深層ネットワークアーキテクチャである。 注意枝は、無関係な背景を抑えながら、画像の関連する特徴に焦点を当てる。 画素シャッフルと等価なアテンション機構の弱点を克服するため,相対的な位置エンコーディングを空間アテンションモジュールに統合し,画素の空間位置を捉える。 グローバルブランチは、グローバルコンテキストや構造情報の保存を目的としている。 細粒度情報をキャプチャするローカルブランチでは,conv層上に水平にストライプを生成するために,均一なパーティショニングを行う。 画像のパーティショニングやポーズ推定などの外部の手がかりを必要とすることなく,ソフトパーティショニングを行うことで,部品の検索を行う。 一連のアブレーション研究は、各コンポーネントがLAGA-Netの性能向上に寄与していることを示している。 4つの一般的なボディベースパーソンリidベンチマークと2つの公開ハンドデータセットの広範な評価結果から,提案手法が既存の最先端手法を一貫して上回っていることが判明した。

Learning representative, robust and discriminative information from images is essential for effective person re-identification (Re-Id). In this paper, we propose a compound approach for end-to-end discriminative deep feature learning for person Re-Id based on both body and hand images. We carefully design the Local-Aware Global Attention Network (LAGA-Net), a multi-branch deep network architecture consisting of one branch for spatial attention, one branch for channel attention, one branch for global feature representations and another branch for local feature representations. The attention branches focus on the relevant features of the image while suppressing the irrelevant backgrounds. In order to overcome the weakness of the attention mechanisms, equivariant to pixel shuffling, we integrate relative positional encodings into the spatial attention module to capture the spatial positions of pixels. The global branch intends to preserve the global context or structural information. For the the local branch, which intends to capture the fine-grained information, we perform uniform partitioning to generate stripes on the conv-layer horizontally. We retrieve the parts by conducting a soft partition without explicitly partitioning the images or requiring external cues such as pose estimation. A set of ablation study shows that each component contributes to the increased performance of the LAGA-Net. Extensive evaluations on four popular body-based person Re-Id benchmarks and two publicly available hand datasets demonstrate that our proposed method consistently outperforms existing state-of-the-art methods.
翻訳日:2023-04-05 18:56:02 公開日:2023-04-04
# 文脈性濃度に基づく高次元量子テクスチュアリティの実験的検討

Experimental test of high-dimensional quantum contextuality based on contextuality concentration ( http://arxiv.org/abs/2209.02808v3 )

ライセンス: Link先を確認
Zheng-Hao Liu, Hui-Xian Meng, Zhen-Peng Xu, Jie Zhou, Jing-Ling Chen, Jin-Shi Xu, Chuan-Feng Li, Guang-Can Guo, and Ad\'an Cabello(参考訳) 文脈性は量子理論の特徴的な特徴であり、量子計算の基本的な資源である。 しかし、既存の高次元システムにおける文脈性は実験に必要な強固さを欠いている。 ここでは、システムの次元に応じて最大量子違反が増大する非文脈不等式族を同定することにより、この問題に対処する。 一見すると、この文脈性は、極端に形式化されたマルチパーティイトベル非局所性の単一系バージョンである。 興味深いのは、単一系バージョンが同じ文脈性を達成するが、低次元のヒルベルト空間を使用することである。 すなわち、次元ごとの文脈性の度合いが増加すると、文脈性は「集中性」となる。 本研究では,7次元システムにおける文脈性実験を行い,その実用性を示す。 量子イデアル測定のシーケンスを全光学的設定における破壊的測定と再現とをシミュレートすることにより、特定された非文脈的不等式の最単純な場合の68.7の標準偏差を報告した。 本研究では,高次元文脈性,クリフォード代数との関係,量子計算におけるその役割について検討する。

Contextuality is a distinctive feature of quantum theory and a fundamental resource for quantum computation. However, existing examples of contextuality in high-dimensional systems lack the necessary robustness required in experiments. Here we address this problem by identifying a family of noncontextuality inequalities whose maximum quantum violation grows with the dimension of the system. At first glance, this contextuality is the single-system version of multipartite Bell nonlocality taken to an extreme form. What is interesting is that the single-system version achieves the same degree of contextuality but uses a Hilbert space of lower dimension. That is, contextuality ``concentrates'' as the degree of contextuality per dimension increases. We show the practicality of this result by presenting an experimental test of contextuality in a seven-dimensional system. By simulating sequences of quantum ideal measurements with destructive measurements and repreparation in an all-optical setup, we report a violation of 68.7 standard deviations of the simplest case of the noncontextuality inequalities identified. Our results advance the investigation of high-dimensional contextuality, its connection to the Clifford algebra, and its role in quantum computation.
翻訳日:2023-04-05 18:55:09 公開日:2023-04-04
# 逆検出:物体検出をリアルタイムで攻撃する

Adversarial Detection: Attacking Object Detection in Real Time ( http://arxiv.org/abs/2209.01962v4 )

ライセンス: Link先を確認
Han Wu, Syed Yunas, Sareh Rowlands, Wenjie Ruan, and Johan Wahlstrom(参考訳) 知的ロボットは環境を認識するために物体検出モデルに依存している。 ディープラーニングのセキュリティの進歩に続いて、オブジェクト検出モデルは敵の攻撃に対して脆弱であることが判明した。 しかし、以前の研究は主に静的画像やオフラインビデオの攻撃に焦点を当てていた。 したがって、そのような攻撃が動的環境における現実世界のロボットアプリケーションを破壊するかどうかはまだ不明である。 本稿では,オブジェクト検出モデルに対する最初のリアルタイムオンライン攻撃を提案することで,このギャップを埋める。 所望の場所で非存在オブジェクトのバウンディングボックスを構成する3つの攻撃を考案する。 この攻撃は、約20回のイテレーションで約90\%の成功率を達成する。 デモビデオはhttps://youtu.be/zjz1anlxsmuで見ることができる。

Intelligent robots rely on object detection models to perceive the environment. Following advances in deep learning security it has been revealed that object detection models are vulnerable to adversarial attacks. However, prior research primarily focuses on attacking static images or offline videos. Therefore, it is still unclear if such attacks could jeopardize real-world robotic applications in dynamic environments. This paper bridges this gap by presenting the first real-time online attack against object detection models. We devise three attacks that fabricate bounding boxes for nonexistent objects at desired locations. The attacks achieve a success rate of about 90\% within about 20 iterations. The demo video is available at https://youtu.be/zJZ1aNlXsMU.
翻訳日:2023-04-05 18:54:51 公開日:2023-04-04
# 交互最小化法による深層ニューラルネットワーク訓練の収束速度

Convergence Rates of Training Deep Neural Networks via Alternating Minimization Methods ( http://arxiv.org/abs/2208.14318v2 )

ライセンス: Link先を確認
Jintao Xu, Chenglong Bao, Wenxun Xing(参考訳) 深層ニューラルネットワーク(DNN)のトレーニングは、非凸性と非分離構造のため、機械学習において重要かつ困難な最適化問題である。 交代最小化(AM)アプローチはDNNの構成構造を分割し、ディープラーニングと最適化コミュニティに大きな関心を寄せている。 本稿では,AM型ネットワークトレーニング手法の収束率を解析するための統合フレームワークを提案する。 本解析は,降格アルゴリズムの設計要件を緩和する非単調$j$-step 十分減少条件とkurdyka-lojasiewicz (kl) 特性に基づいている。 KL指数 $\theta$ が $[0,1)$ で異なる場合、詳細な局所収束率を示す。 さらに、局所 r-線型収束はより強固な$j$-step 十分減少条件下で議論される。

Training deep neural networks (DNNs) is an important and challenging optimization problem in machine learning due to its non-convexity and non-separable structure. The alternating minimization (AM) approaches split the composition structure of DNNs and have drawn great interest in the deep learning and optimization communities. In this paper, we propose a unified framework for analyzing the convergence rate of AM-type network training methods. Our analysis is based on the non-monotone $j$-step sufficient decrease conditions and the Kurdyka-Lojasiewicz (KL) property, which relaxes the requirement of designing descent algorithms. We show the detailed local convergence rate if the KL exponent $\theta$ varies in $[0,1)$. Moreover, the local R-linear convergence is discussed under a stronger $j$-step sufficient decrease condition.
翻訳日:2023-04-05 18:54:42 公開日:2023-04-04
# 線形回帰係数の外部ロバストとスパース推定

Outlier Robust and Sparse Estimation of Linear Regression Coefficients ( http://arxiv.org/abs/2208.11592v3 )

ライセンス: Link先を確認
Takeyuki Sasai and Hironori Fujisawa(参考訳) 共変量ベクトルと雑音をそれぞれサンプル化した場合, 線形回帰係数のアウトリア・ローバストとスパース推定を$\mathfrak{L}$-subGaussian分布と重み付き分布から検討する。 さらに、共変量ベクトルとノイズは、逆数外乱によって汚染される。 共変量行列の共変行列は未知あるいは未知の2つのケースを扱う。 特に、既知の場合、我々の推定器は、ほぼ情報理論上の最適誤差境界を達成でき、我々の誤差境界は、類似した状況を扱う以前の研究よりもシャープである。 我々の推定器解析は、鋭い誤差境界を導出するために、ジェネリックチェインに大きく依存している。

We consider outlier-robust and sparse estimation of linear regression coefficients, when covariate vectors and noises are sampled, respectively, from an $\mathfrak{L}$-subGaussian distribution and a heavy-tailed distribution. Additionally, the covariate vectors and noises are contaminated by adversarial outliers. We deal with two cases: the covariance matrix of the covariates is known or unknown. Particularly, in the known case, our estimator can attain a nearly information theoretical optimal error bound, and our error bound is sharper than those of earlier studies dealing with similar situations. Our estimator analysis relies heavily on generic chaining to derive sharp error bounds.
翻訳日:2023-04-05 18:54:25 公開日:2023-04-04
# 複雑ネットワークを用いた再生可能電気配電系統のレジリエンス同定手法

A methodology for identifying resiliency in renewable electrical distribution system using complex network ( http://arxiv.org/abs/2208.11543v2 )

ライセンス: Link先を確認
Divyanshi Dwivedi, Pradeep Kumar Yemula, Mayukha Pal(参考訳) 近年,電力供給システムは分散エネルギー資源(ders)によって広範囲に浸透し,エネルギー需要にシステムのレジリエンスを高めるという一般的な認識を満たしている。 しかし、断続的な可用性、気象条件のダイナミクス、非線形性の導入、複雑さなど様々な要因により、グリッド操作に悪影響を及ぼす可能性がある。 本手法が提案するシステムレジリエンスの詳細な理解が必要である。 本研究では、複雑なネットワーク理論を用いて、ソーラーPV生成に組み込んだ配電系統の弾力性を特定する手法を提案する。 異なる条件の複雑な相関ネットワークを求め,これらのネットワークのレジリエンスを同定するために様々なネットワークパラメータを算出した。 提案手法は, 異なる条件下での耐力を維持しつつ, システム内のソーラーパネルのホスト容量を同定し, システム内のソーラーパネルの最適配置トポロジーを得るのに役立つ。 提案手法では,変更に対して高い感度を持ち,非レジリエンスに移行可能なクリティカルノードの同定も行う。 このフレームワークは、GridLAB-Dを用いて時系列データを生成するIEEE-123 Test Feederシステム上で実証され、複雑なネットワークと機械学習モデルを用いて様々な分析が行われた。

Recently, Electrical Distribution Systems are extensively penetrated with the Distributed Energy Resources (DERs) to cater the energy demands with general perception that it enhances the system resiliency. However, it may be adverse for the grid operation due to various factors like its intermittent availability, dynamics in weather condition, introduction of nonlinearity, complexity etc. This needs a detailed understanding of system resiliency that our method proposes here. We introduce a methodology using complex network theory to identify the resiliency of distribution system when incorporated with Solar PV generation under various undesirable configurations. Complex correlated networks for different conditions were obtained and various network parameters were computed for identifying the resiliency of those networks. The proposed methodology identifies the hosting capacity of solar panels in the system while maintaining the resiliency under different unwanted conditions hence helps to obtain an optimal allocation topology for solar panels in the system. The proposed method also identifies the critical nodes that are highly sensitive to the changes and could drive the system into non-resiliency. This framework was demonstrated on IEEE-123 Test Feeder system with time-series data generated using GridLAB-D and variety of analysis were performed using complex network and machine learning models.
翻訳日:2023-04-05 18:54:07 公開日:2023-04-04
# 宝くじ:トレーニングや推論のコストを増大させることなく、ティケットを補間することでより勝つ

Lottery Pools: Winning More by Interpolating Tickets without Increasing Training or Inference Cost ( http://arxiv.org/abs/2208.10842v4 )

ライセンス: Link先を確認
Lu Yin, Shiwei Liu, Meng Fang, Tianjin Huang, Vlado Menkovski, Mykola Pechenizkiy(参考訳) lottery ticket (lts) は、密集したネットワークのパフォーマンスに合うように訓練できる、正確でスパースなサブネットワークを見つけることができる。 Ensembleは、機械学習において、複数の独立したモデルの出力を組み合わせることでパフォーマンスを向上させるための最も古い方法の1つである。 しかし、ltsの文脈におけるアンサンブルの利点は、アンサンブルがよりスパースなサブネットワークに直接結びつくのではなく、その予測をより良い決定のために活用するため、希薄になる。 本研究では,隣接する学習サブネットの重量を直接計算することで,LTの性能が著しく向上することを示す。 そこで本研究では, 簡単な補間戦略により, 繰り返し等級プルーニングによって同定されたサブネット上で「アンサンブル」を行う方法を提案する。 メソッドを Lottery Pools と呼びます。 各サブネットワークにパフォーマンス向上をもたらすナイーブアンサンブルとは対照的に、抽選プールは、余分なトレーニングや推論コストを必要とせずに、元のltsよりもはるかにスパースなサブネットワークを生成する。 CIFAR-10/100 および ImageNet 上の様々な近代的アーキテクチャにおいて,本手法は,分布内および分布外の両方において,大幅な性能向上を実現していることを示す。 VGG-16とResNet-18で評価され、製造されたスパースサブネットは、CIFAR-100で最大1.88%、CIFAR-100-Cで2.36%を上回り、CIFAR-100で最大2.22%、CIFAR-100-Cで2.38%を上回った。

Lottery tickets (LTs) is able to discover accurate and sparse subnetworks that could be trained in isolation to match the performance of dense networks. Ensemble, in parallel, is one of the oldest time-proven tricks in machine learning to improve performance by combining the output of multiple independent models. However, the benefits of ensemble in the context of LTs will be diluted since ensemble does not directly lead to stronger sparse subnetworks, but leverages their predictions for a better decision. In this work, we first observe that directly averaging the weights of the adjacent learned subnetworks significantly boosts the performance of LTs. Encouraged by this observation, we further propose an alternative way to perform an 'ensemble' over the subnetworks identified by iterative magnitude pruning via a simple interpolating strategy. We call our method Lottery Pools. In contrast to the naive ensemble which brings no performance gains to each single subnetwork, Lottery Pools yields much stronger sparse subnetworks than the original LTs without requiring any extra training or inference cost. Across various modern architectures on CIFAR-10/100 and ImageNet, we show that our method achieves significant performance gains in both, in-distribution and out-of-distribution scenarios. Impressively, evaluated with VGG-16 and ResNet-18, the produced sparse subnetworks outperform the original LTs by up to 1.88% on CIFAR-100 and 2.36% on CIFAR-100-C; the resulting dense network surpasses the pre-trained dense-model up to 2.22% on CIFAR-100 and 2.38% on CIFAR-100-C.
翻訳日:2023-04-05 18:53:44 公開日:2023-04-04
# 極端な質的回帰のためのニューラルネットワークと洪水リスク予測への応用

Neural Networks for Extreme Quantile Regression with an Application to Forecasting of Flood Risk ( http://arxiv.org/abs/2208.07590v2 )

ライセンス: Link先を確認
Olivier C. Pasche and Sebastian Engelke(参考訳) 極端な事象に対するリスクアセスメントは、歴史的観測の範囲を超えて高い質の正確な推定を必要とする。 リスクが観測された予測器の値に依存する場合、回帰手法が予測器空間の補間に使用される。 本稿では,ニューラルネットワークと極値理論のツールを複合したEQRNモデルを提案する。 ニューラルネットワークは自然にデータに付加的な構造を組み込むことができる。 時系列における複雑な逐次依存を捉えることができるEQRNの繰り返しバージョンを開発する。 スイス・アーレ流域における洪水リスク予測に本手法を適用した。 空間と時間の複数の共変量からの情報を利用して、1日前のリターンレベルと超越確率を予測する。 この出力は、従来の極端値解析から得られる静的リターンレベルを補完し、予測は変化する気候で経験した分布シフトに適応することができる。 我々のモデルは、当局が洪水をより効果的に管理し、早期警戒システムによる破壊的な影響を最小限に抑えるのに役立つ。

Risk assessment for extreme events requires accurate estimation of high quantiles that go beyond the range of historical observations. When the risk depends on the values of observed predictors, regression techniques are used to interpolate in the predictor space. We propose the EQRN model that combines tools from neural networks and extreme value theory into a method capable of extrapolation in the presence of complex predictor dependence. Neural networks can naturally incorporate additional structure in the data. We develop a recurrent version of EQRN that is able to capture complex sequential dependence in time series. We apply this method to forecasting of flood risk in the Swiss Aare catchment. It exploits information from multiple covariates in space and time to provide one-day-ahead predictions of return levels and exceedances probabilities. This output complements the static return level from a traditional extreme value analysis and the predictions are able to adapt to distributional shifts as experienced in a changing climate. Our model can help authorities to manage flooding more effectively and to minimize their disastrous impacts through early warning systems.
翻訳日:2023-04-05 18:53:08 公開日:2023-04-04
# ペルソナ適応注意によるパーソナライズされた対話生成

Personalized Dialogue Generation with Persona-Adaptive Attention ( http://arxiv.org/abs/2210.15088v3 )

ライセンス: Link先を確認
Qiushi Huang, Yu Zhang, Tom Ko, Xubo Liu, Bo Wu, Wenwu Wang, Lilian Tang(参考訳) ペルソナベースの対話システムは、歴史的な文脈と予め定義されたパーソナに基づいて一貫した応答を生成することを目的としている。 従来の対話生成とは異なり、ペルソナベースの対話は対話コンテキストとペルソナの両方を考慮する必要があり、コヒーレントトレーニングの課題となっている。 具体的には、コンテキストとペルソナの微妙な重量バランスが必要です。 そこで本研究では,ペルソナ適応注意(PAA)を用いた効果的な枠組みを提案する。 さらに、PAAに動的マスキング機構を適用して、冗長情報をコンテキストやペルソナにドロップするだけでなく、オーバーフィッティングを回避するための正規化機構として機能する。 提案したPAAフレームワークは, 自動評価と人的評価の双方において, 強いベースラインよりも優れていることを示す実験結果を得た。 さらに,提案手法は,全データ設定でトレーニングされたモデルと比較して低リソース環境で同等の性能を発揮することができ,全データ設定でトレーニングされた大規模モデルと比較して20%から30%のデータしか得られない。 設計の有効性を最大限に活用するために,重み付けされた情報を異なる方法で扱うためのいくつかの変種を設計し,重み付けとマスキング設計の必要性と不十分さを示した。

Persona-based dialogue systems aim to generate consistent responses based on historical context and predefined persona. Unlike conventional dialogue generation, the persona-based dialogue needs to consider both dialogue context and persona, posing a challenge for coherent training. Specifically, this requires a delicate weight balance between context and persona. To achieve that, in this paper, we propose an effective framework with Persona-Adaptive Attention (PAA), which adaptively integrates the weights from the persona and context information via our designed attention. In addition, a dynamic masking mechanism is applied to the PAA to not only drop redundant information in context and persona but also serve as a regularization mechanism to avoid overfitting. Experimental results demonstrate the superiority of the proposed PAA framework compared to the strong baselines in both automatic and human evaluation. Moreover, the proposed PAA approach can perform equivalently well in a low-resource regime compared to models trained in a full-data setting, which achieve a similar result with only 20% to 30% of data compared to the larger models trained in the full-data setting. To fully exploit the effectiveness of our design, we designed several variants for handling the weighted information in different ways, showing the necessity and sufficiency of our weighting and masking designs.
翻訳日:2023-04-05 18:47:16 公開日:2023-04-04
# MS-DCANet:医療画像からのCOVID-19感染分離のためのMLPベースのマルチスケール機能フレームワーク

MS-DCANet: A MLP-based Multi-Scale Feature Framework For COVID-19 Infection Segmentation From Medical Images ( http://arxiv.org/abs/2210.12361v2 )

ライセンス: Link先を確認
Xiaoyu Pan, Huazheng Zhu, Jinglong Du, Guangtao Hu, Baoru Han, Yuanyuan Jia(参考訳) コロナウイルス病2019(COVID-19)は世界中で急速に広がり、一連の深刻な健康危機を引き起こした。 深層畳み込みニューラルネットワーク(dcnn)に基づく肺感染症の自動分節化は,ct,x線などの医用画像から診断と定量的解析に大きな可能性を示した。 新型コロナウイルス(COVID-19)の医療画像のほとんどは、ぼやけた境界線、密度の高いノイズポイント、コントラストの低さ、病変の形状や大きさの著しい変化を示している。 UNetに基づく様々なモデルが提案されているが、より正確なセグメンテーションと複雑な計算要求を満たすために最適化が必要である。 さらに、既存のCOVID-19感染症セグメンテーションDCNNベースの方法は、単一モードの医療画像にのみ適している。 これらの問題を解決するために,MS-DCANetという対称エンコーダ-デコーダセグメンテーションフレームワークを提案する。 Tokenized MLP blockは、Transformerに似たシフトウインドウ機構を用いて、自己注意を取得し、局所的な言語間セマンティック依存を実現する新しいアテンション方式である。 MS-DCANetはまた、いくつかのデュアルチャネルブロックとRes-ASPPブロックを使用して、受信フィールドを拡張し、マルチスケールの特徴を抽出する。 X線とCT画像の両方を用いたCOVID-19データセットに関する多数の実験で、MS-DCANetは他のUNetモデルと比較して最先端のパフォーマンスを達成した。 MS-DCANetはトレードオフの精度と複雑さを改善することができる。 また,提案モデルの強い汎用性を証明するために,皮膚鏡像からの皮膚腫瘍とx線画像からの手骨の分画にms-dcanetを適用し,良好な結果を得た。

Coronavirus Disease 2019(COVID-19) spread rapidly around the world, causing a series of severe health crises. Automated segmentation of lung infections based on Deep Convolutional Neural Network(DCNN) from medical images such as CT, X-ray, etc, displayed a huge potential for accurate diagnosis and quantitative analysis. Most COVID-19 medical images show blurred boundaries, dense noise points, low contrast, and significant variation in the shape and size of lesions. Although various models based on UNet have been proposed, more optimisation is required to obtain accurate segmentation and meet complex computational needs. Furthermore, the existing COVID-19 infections segmentation DCNN based methods are only suitable for single modality medical images. To solve these problems, this paper proposes a symmetric Encoder-Decoder segmentation framework named MS-DCANet. We introduce Tokenized MLP block, a novel attention scheme that uses a shift-window mechanism similar to the Transformer to acquire self-attention and achieve local-to-global semantic dependency. MS-DCANet also uses several Dual Channel blocks and a Res-ASPP block to expand the receptive field and extract multi-scale features. In a large number of experiments on COVID-19 datasets using both X-ray and CT images, MS-DCANet achieved state-of-the-art performance compared with other UNet models. MS-DCANet can also improve trade-off accuracy and complexity. To prove the proposed model's strong generalisability, we also apply MS-DCANet to the segmentation of skin tumours from dermoscopy images and hand bone from X-ray images with satisfactory results.
翻訳日:2023-04-05 18:46:52 公開日:2023-04-04
# 適応型ポリトープによる量子分離性認証

Certifying Quantum Separability with Adaptive Polytopes ( http://arxiv.org/abs/2210.10054v2 )

ライセンス: Link先を確認
Ties-A. Ohst, Xiao-Dong Yu, Otfried G\"uhne, H. Chau Nguyen(参考訳) 量子状態の絡み合いと分離性の概念は物理学のいくつかの分野に関係している。 しかし、これらの特徴を特徴づける効果的な操作方法が欠けている。 適応型ポリトープ近似に基づく2粒子および多粒子量子系の量子分離性の証明法を提案する。 これは、実用上、中小次元の2粒子分離性を決定的に認識するアルゴリズムに繋がる。 多粒子系の場合、このアプローチは最大5キュービットまたは3キュートリットの完全分離性を特徴づけることができる。 最後に,本手法は,すべての二分法に対して分離可能であるが完全に分離できないような最大強固な状態など,興味深い絡み合い特性を持つ系統的量子状態の同定を可能にする。

The concept of entanglement and separability of quantum states is relevant for several fields in physics. Still, there is a lack of effective operational methods to characterise these features. We propose a method to certify quantum separability of two- and multiparticle quantum systems based on an adaptive polytope approximation. This leads to an algorithm which, for practical purposes, conclusively recognises two-particle separability for small and medium-size dimensions. For multiparticle systems, the approach allows to characterise full separability for up to five qubits or three qutrits; in addition, different classes of entanglement can be distinguished. Finally, our methods allow to identify systematically quantum states with interesting entanglement properties, such as maximally robust states which are separable for all bipartitions, but not fully separable.
翻訳日:2023-04-05 18:46:26 公開日:2023-04-04
# Zak変換: Gottesman-Kitaev-Preskill符号を用いた量子計算のフレームワーク

The Zak transform: a framework for quantum computation with the Gottesman-Kitaev-Preskill code ( http://arxiv.org/abs/2210.09494v2 )

ライセンス: Link先を確認
Giacomo Pantaleoni, Ben Q. Baragiola, Nicolas C. Menicucci(参考訳) Gottesman-Kitaev-Preskill (GKP) 符号は周期波動関数を用いて量子ビットをボソニックモードに符号化する。 この周期性により、GKP符号はザック変換の自然な設定となり、周期関数の簡単な記述を提供するように仕上がっている。 我々は、ヒルベルト空間の状態のザック変換とそのザック基底への接続をレビューし、安定化子と補正可能な誤差の基盤となるシフト作用素を分解し、位置波動関数のザック変換がGKP誤差補正に自然に現れることを発見した。 我々は,zakベースで表現されたモードのヒルベルト空間を仮想量子ビットと仮想ゲージモードに分割することで,新しいボソニックサブシステム分解 (ssd) を構築する。 ゲージモードをトレースすると論理量子状態となり、特定の論理ゲージ相互作用でトレースに先立つと、gkpエラー訂正に関連する異なる論理状態が得られる。

The Gottesman-Kitaev-Preskill (GKP) code encodes a qubit into a bosonic mode using periodic wavefunctions. This periodicity makes the GKP code a natural setting for the Zak transform, which is tailor-made to provide a simple description for periodic functions. We review the Zak transform and its connection to a Zak basis of states in Hilbert space, decompose the shift operators that underpin the stabilizers and the correctable errors, and we find that Zak transforms of the position wavefunction appear naturally in GKP error correction. We construct a new bosonic subsystem decomposition (SSD) -- the modular variable SSD -- by dividing a mode's Hilbert space, expressed in the Zak basis, into that of a virtual qubit and a virtual gauge mode. Tracing over the gauge mode gives a logical-qubit state, and preceding the trace with a particular logical-gauge interaction gives a different logical state -- that associated to GKP error correction.
翻訳日:2023-04-05 18:46:13 公開日:2023-04-04
# 遺伝的アルゴリズムによる近似状態形成量子回路の最適性の検討

Exploring the optimality of approximate state preparation quantum circuits with a genetic algorithm ( http://arxiv.org/abs/2210.06411v2 )

ライセンス: Link先を確認
Tom Rindell, Berat Yenilen, Niklas Halonen, Arttu P\"onni, Ilkka Tittonen, Matti Raasakka(参考訳) 本研究では, 量子回路生成のための遺伝的アルゴリズムを適用し, 雑音中規模量子(nisq)コンピュータの近似状態生成問題を検討する。 このアルゴリズムは、ネイティブゲートセットやキュービット接続などの回路の評価において、物理マシンの特定の特性を説明することができる。 我々は遺伝的アルゴリズムを用いて,Araujoらによって導入された低ランク状態準備アルゴリズムによって提供される回路を最適化し,CNOTゲート数に制限のあるHaarランダム状態を作成する際の忠実度を大幅に改善した。 さらに、量子ビット接続が限られ、ノイズレベルが大きい5量子ビット量子プロセッサ(IBM Falcon 5T)では、ハールランダム状態の最大忠実度は、正確な準備回路ではなく、短い近似状態準備回路によって達成される。 また, 近似状態準備回路の複雑度を理論的に解析し, 結果の動機付けを行う。 量子回路探索のための遺伝的アルゴリズムはhttps://github.com/beratyenilen/qc-gaで自由に入手できる。

We study the approximate state preparation problem on noisy intermediate-scale quantum (NISQ) computers by applying a genetic algorithm to generate quantum circuits for state preparation. The algorithm can account for the specific characteristics of the physical machine in the evaluation of circuits, such as the native gate set and qubit connectivity. We use our genetic algorithm to optimize the circuits provided by the low-rank state preparation algorithm introduced by Araujo et al., and find substantial improvements to the fidelity in preparing Haar random states with a limited number of CNOT gates. Moreover, we observe that already for a 5-qubit quantum processor with limited qubit connectivity and significant noise levels (IBM Falcon 5T), the maximal fidelity for Haar random states is achieved by a short approximate state preparation circuit instead of the exact preparation circuit. We also present a theoretical analysis of approximate state preparation circuit complexity to motivate our findings. Our genetic algorithm for quantum circuit discovery is freely available at https://github.com/beratyenilen/qc-ga .
翻訳日:2023-04-05 18:45:54 公開日:2023-04-04
# Wasserstein分布ロバスト最適化問題に対するコアセット

Coresets for Wasserstein Distributionally Robust Optimization Problems ( http://arxiv.org/abs/2210.04260v2 )

ライセンス: Link先を確認
Ruomin Huang, Jiawei Huang, Wenjie Liu and Hu Ding(参考訳) Wassersteinの分散ロバスト最適化(\textsf{WDRO})は、曖昧なデータによる機械学習のロバスト性を高めるための一般的なモデルである。 しかし、'minimax'' の定式化を解くには大量の計算を必要とするため、実際には‘textsf{WDRO} の複雑さは禁じられる。 近年、特定の機械学習タスク(ロジスティック回帰など)のための高速 \textsf{wdro} トレーニングアルゴリズムが開発されている。 しかし、一般の大規模 \textsf{WDRO} に対する効率的なアルゴリズムの設計に関する研究は、我々の知る限り、まだ非常に限られている。 \textit{Coreset} は大規模なデータセットを圧縮するための重要なツールであり、多くの最適化問題に対する計算複雑性の低減に広く応用されている。 本稿では,一般的な textsf{WDRO} 問題に対する$\epsilon$-coreset を構築するための統一フレームワークを提案する。 あいまいなデータの不確実性のため,従来の「textsf{WDRO}」のコアセットを得るのは難しいが,「dual coreset'」を「textsf{WDRO}」の強い双対性を用いて計算できることが示されている。 また、デュアルコアセットによって導入された誤差は、元の \textsf{WDRO} の目的に対して理論的に保証することができる。 双対コアセットを構築するために,新しいグリッドサンプリング手法を提案し,この手法は,特に textsf{WDRO} の双対定式化に適している。 最後に、コアセットアプローチを実装し、実験におけるいくつかの \textsf{WDRO} 問題に対するその有効性を示す。

Wasserstein distributionally robust optimization (\textsf{WDRO}) is a popular model to enhance the robustness of machine learning with ambiguous data. However, the complexity of \textsf{WDRO} can be prohibitive in practice since solving its ``minimax'' formulation requires a great amount of computation. Recently, several fast \textsf{WDRO} training algorithms for some specific machine learning tasks (e.g., logistic regression) have been developed. However, the research on designing efficient algorithms for general large-scale \textsf{WDRO}s is still quite limited, to the best of our knowledge. \textit{Coreset} is an important tool for compressing large dataset, and thus it has been widely applied to reduce the computational complexities for many optimization problems. In this paper, we introduce a unified framework to construct the $\epsilon$-coreset for the general \textsf{WDRO} problems. Though it is challenging to obtain a conventional coreset for \textsf{WDRO} due to the uncertainty issue of ambiguous data, we show that we can compute a ``dual coreset'' by using the strong duality property of \textsf{WDRO}. Also, the error introduced by the dual coreset can be theoretically guaranteed for the original \textsf{WDRO} objective. To construct the dual coreset, we propose a novel grid sampling approach that is particularly suitable for the dual formulation of \textsf{WDRO}. Finally, we implement our coreset approach and illustrate its effectiveness for several \textsf{WDRO} problems in the experiments.
翻訳日:2023-04-05 18:45:35 公開日:2023-04-04
# 有限孤立量子系におけるエントロピーと温度

Entropy and Temperature in finite isolated quantum systems ( http://arxiv.org/abs/2210.02380v2 )

ライセンス: Link先を確認
Phillip C. Burke, Masudul Haque(参考訳) マイクロカノニカルエントロピーから計算された温度と、有限孤立量子系における標準温度との比較について検討した。 我々は、数値的な対角化にアクセスできる大きさのシステムに集中する。 したがって、有限サイズのアンサンブル同値から偏差を特徴づける。 本稿では、マイクロカノニカルエントロピーの計算方法を説明し、これら様々な方法で計算されたエントロピーと温度の数値計算結果を示す。 幅が特定のエネルギー依存性を持つエネルギー窓を用いることで、標準温度からの偏差が最小限となる温度が得られることを示す。

We investigate how the temperature calculated from the microcanonical entropy compares with the canonical temperature for finite isolated quantum systems. We concentrate on systems with sizes that make them accessible to numerical exact diagonalization. We thus characterize the deviations from ensemble equivalence at finite sizes. We describe multiple ways to compute the microcanonical entropy and present numerical results for the entropy and temperature computed in these various ways. We show that using an energy window whose width has a particular energy dependence results in a temperature with minimal deviations from the canonical temperature.
翻訳日:2023-04-05 18:44:49 公開日:2023-04-04
# 3次元左心房画像分割のための相補的半教師付き学習

Complementary consistency semi-supervised learning for 3D left atrial image segmentation ( http://arxiv.org/abs/2210.01438v5 )

ライセンス: Link先を確認
Hejun Huang, Zuguo Chen, Chaoyang Chen, Ming Lu and Ying Zou(参考訳) 半教師付き左心房画像分割のための補完的整合性トレーニング(CC-Net)に基づくネットワークが提案されている。 CC-Netは,既存の半教師付きセグメンテーションアルゴリズムの限られた能力の問題に対処するために,補完情報の観点からラベル付きデータを効率的に利用している。 CC-Netの相補対称構造は、主モデルと2つの補助モデルを含む。 主モデルと補助モデルの間の相補的モデル相互摂動は一貫性を強制して相補的一貫性を形成する。 2つの補助モデルによって得られた相補的な情報は、モデル間の一貫性を保ちながら、本モデルが曖昧な領域に効果的に焦点を合わせるのに役立つ。 CC-Netは2つのパブリックデータセットで検証されている。 ラベル付きデータの特定の割合の場合、現在の高度なアルゴリズムと比較して、CC-Netは半教師付きセグメンテーション性能が最も優れている。 私たちのコードはhttps://github.com/Cuthbert-Huang/CC-Net.comで公開されています。

A network based on complementary consistency training, called CC-Net, has been proposed for semi-supervised left atrium image segmentation. CC-Net efficiently utilizes unlabeled data from the perspective of complementary information to address the problem of limited ability of existing semi-supervised segmentation algorithms to extract information from unlabeled data. The complementary symmetric structure of CC-Net includes a main model and two auxiliary models. The complementary model inter-perturbations between the main and auxiliary models force consistency to form complementary consistency. The complementary information obtained by the two auxiliary models helps the main model to effectively focus on ambiguous areas, while enforcing consistency between the models is advantageous in obtaining decision boundaries with low uncertainty. CC-Net has been validated on two public datasets. In the case of specific proportions of labeled data, compared with current advanced algorithms, CC-Net has the best semi-supervised segmentation performance. Our code is publicly available at https://github.com/Cuthbert-Huang/CC-Net.
翻訳日:2023-04-05 18:44:40 公開日:2023-04-04
# 未知動環境における高速運動計画のための障害物同定と楕円形分解

Obstacle Identification and Ellipsoidal Decomposition for Fast Motion Planning in Unknown Dynamic Environments ( http://arxiv.org/abs/2209.14233v3 )

ライセンス: Link先を確認
Mehmetcan Kaymaz and Nazim Kemal Ure(参考訳) 未知の環境における動的障害物の存在による衝突回避は、無人システムにとって最も重要な課題の1つである。 本稿では,楕円体の観点から障害物を識別し,線形および角障害物速度を推定する手法を提案する。 提案手法は,任意の物体を楕円体で近似的に表現できるという考えに基づいている。 そこで本研究では,ガウス混合モデルの変分ベイズ推定法,カチヤンアルゴリズム,精細化アルゴリズムを提案する。 提案手法はクラスタ数の知識を必要とせず,既存の最適化手法と異なり,リアルタイムに動作可能である。 さらに,2つの時間的近接点フレームの障害物に一致する楕円型特徴ベクトルを定義する。 本手法は, 回転する障害物を含む静的および動的障害のある環境に適用することができる。 このアルゴリズムを他のクラスタリング手法と比較し,軌道プランナーと組み合わせることで,動的障害が存在する場合,システム全体が未知の環境を効率的に横断できることを示す。

Collision avoidance in the presence of dynamic obstacles in unknown environments is one of the most critical challenges for unmanned systems. In this paper, we present a method that identifies obstacles in terms of ellipsoids to estimate linear and angular obstacle velocities. Our proposed method is based on the idea of any object can be approximately expressed by ellipsoids. To achieve this, we propose a method based on variational Bayesian estimation of Gaussian mixture model, the Kyachiyan algorithm, and a refinement algorithm. Our proposed method does not require knowledge of the number of clusters and can operate in real-time, unlike existing optimization-based methods. In addition, we define an ellipsoid-based feature vector to match obstacles given two timely close point frames. Our method can be applied to any environment with static and dynamic obstacles, including the ones with rotating obstacles. We compare our algorithm with other clustering methods and show that when coupled with a trajectory planner, the overall system can efficiently traverse unknown environments in the presence of dynamic obstacles.
翻訳日:2023-04-05 18:44:24 公開日:2023-04-04
# AeDet: Azimuth-invariant Multi-view 3D Object Detection

AeDet: Azimuth-invariant Multi-view 3D Object Detection ( http://arxiv.org/abs/2211.12501v3 )

ライセンス: Link先を確認
Chengjian Feng, Zequn Jie, Yujie Zhong, Xiangxiang Chu and Lin Ma(参考訳) 最近のLSSベースの多視点3Dオブジェクト検出は、畳み込み検出器を介してブリドアイビュー(BEV)の特徴を処理することで大幅に進歩した。 しかし、典型的な畳み込みは、BEV特徴の放射対称性を無視し、検出器最適化の難しさを高める。 BEVの特性の保存と最適化の容易化を目的として,アジマス同変畳み込み(AeConv)とアジマス同変アンカーを提案する。 AeConvのサンプリンググリッドは常に放射方向であり、方位不変なBEV特徴を学習することができる。 提案するアンカーにより,検出ヘッドは方位非関連目標の予測を学習できる。 さらに,カメラが分離した仮想深度を導入し,カメラ固有のパラメータの異なる画像の深度予測を統一する。 結果検出器は azimuth-equivariant detector (aedet) と呼ばれる。 AeDetは62.0%のNDSを達成し、PETRv2やBEVDepthといった最近の多視点3Dオブジェクト検出器をはるかに上回っている。 プロジェクトページ: https://fcjian.github.io/aedet。

Recent LSS-based multi-view 3D object detection has made tremendous progress, by processing the features in Brid-Eye-View (BEV) via the convolutional detector. However, the typical convolution ignores the radial symmetry of the BEV features and increases the difficulty of the detector optimization. To preserve the inherent property of the BEV features and ease the optimization, we propose an azimuth-equivariant convolution (AeConv) and an azimuth-equivariant anchor. The sampling grid of AeConv is always in the radial direction, thus it can learn azimuth-invariant BEV features. The proposed anchor enables the detection head to learn predicting azimuth-irrelevant targets. In addition, we introduce a camera-decoupled virtual depth to unify the depth prediction for the images with different camera intrinsic parameters. The resultant detector is dubbed Azimuth-equivariant Detector (AeDet). Extensive experiments are conducted on nuScenes, and AeDet achieves a 62.0% NDS, surpassing the recent multi-view 3D object detectors such as PETRv2 and BEVDepth by a large margin. Project page: https://fcjian.github.io/aedet.
翻訳日:2023-04-05 18:37:50 公開日:2023-04-04
# 塊状要素近似を超える超伝導量子ビットの理論

Theory of superconducting qubits beyond the lumped element approximation ( http://arxiv.org/abs/2211.10852v2 )

ライセンス: Link先を確認
Ari Mizel(参考訳) 超伝導量子ビットおよび関連デバイスの設計と研究において、集中要素回路モデルは標準的な理論的なアプローチである。 しかし、多くの重要な物理的問題はその範囲を超えており、例えば強いジョセフソン接合を持つ回路の挙動や小さな超伝導デバイスの特性などである。 ボゴリューボフ・ド・ゲンヌ方程式の自己整合解に対してゲージ変換を行うことにより、ジョセフソン結合を非摂動的に扱う形式論を発展させる。 我々は形式主義を応用する (a) フェルミ海効果が小電荷量子ビットの有効容量に寄与することを示すこと。 (b)小型rfsquidキュービットにおける時計回りおよび反時計回りの電流状態における非対称性を示す。 c) エンタングル電子の数を計算するのに適した超伝導シュロディンガーキャットの微視的波動関数を提供する。

In the design and investigation of superconducting qubits and related devices, a lumped element circuit model is the standard theoretical approach. However, many important physical questions lie beyond its scope, e.g. the behavior of circuits with strong Josephson junctions carrying substantial currents and the properties of small superconducting devices. By performing gauge transformations on self-consistent solutions of the Bogoliubov-de Gennes equations, we develop here a formalism that treats Josephson couplings non-perturbatively. We apply the formalism to (a) show that Fermi sea effects can contribute to the effective capacitance of small charge qubits; (b) demonstrate an asymmetry in clockwise and counterclockwise current states in small RF squid qubits; and (c) provide a microscopic wavefunction of superconducting Schrodinger cats suitable for computing the number of entangled electrons.
翻訳日:2023-04-05 18:37:28 公開日:2023-04-04
# 量子化された質量中心を持つ相対論的unruh-dewitt検出器

Relativistic Unruh-DeWitt detectors with quantized center of mass ( http://arxiv.org/abs/2211.10562v2 )

ライセンス: Link先を確認
Evan P. G. Gale and Magdalena Zych(参考訳) 本稿では、従来古典的c.m.を持ち、古典的軌道に従う検出器の相対論的量子化中心(c.m.)を含むようにunruh-dewitt(udw)モデルを拡張する。 我々は, 慣性検出器の相対論的モデルを構築し, 2つの異なるアプローチにより, 第一, 第二の量子化処理から開始し, 両者の基本的な違いを比較できる。 特に, 2つのモデル間で局在性の概念が異なることがわかり, 質量のないスカラー場と相互作用するudw検出器の自発的放射率を比較することにより, 異なる予測が導かれる。 さらに, 真空と媒体の両方でudw系を考察し, 低エネルギーで古典的あるいは量子化されたc.m.を記述する既存のモデルと比較した。 2つの相対論的ケースを含む各モデルの予測は、原則として経験的に区別でき、その結果をさらに拡張して、そのような実験を行うための最適な検知状態やプロセスを見つけることができる。 これにより、外界との相互作用における量子化c.m.の役割と、第1および第2の量子化処理における局在の違いが明確になる。

In this paper, we extend the Unruh-DeWitt (UDW) model to include a relativistic quantized center of mass (c.m.) for the detector, which traditionally has a classical c.m. and follows a classical trajectory. We develop a relativistic model of an inertial detector following two different approaches, starting from either a first- or second-quantized treatment, which enables us to compare the fundamental differences between the two schemes. In particular, we find that the notion of localization is different between the two models, and leads to distinct predictions, which we study by comparing the spontaneous emission rates for the UDW detector interacting with a massless scalar field. Furthermore, we consider the UDW system in both a vacuum and medium, and compare our results to existing models describing a classical or quantized c.m. at low energies. We find that the predictions of each model, including the two relativistic cases, can in principle be empirically distinguished, and our results can be further extended to find optimal detector states and processes to perform such experiments. This would clarify both the role of a quantized c.m. for interactions with an external field, and the differing localizations between the first- and second-quantized treatments.
翻訳日:2023-04-05 18:37:15 公開日:2023-04-04
# GAMMT:多重変換器を用いた生成曖昧性モデリング

GAMMT: Generative Ambiguity Modeling Using Multiple Transformers ( http://arxiv.org/abs/2211.09812v2 )

ライセンス: Link先を確認
Xingcheng Xu(参考訳) 確率集合に基づく逐次データに対して, gammt (generative ambiguity model using multiple transformers) と呼ばれる新しいモデルを導入する。 従来のモデルとは異なり,本手法では,シーケンスのデータ生成プロセスは決定論的ではなく,確率の集合の影響を受け,曖昧である。 この曖昧さを捉えるために、gammtは選択機構によってリンクされる複数の並列トランスを使用し、曖昧な確率の近似を可能にする。 このアプローチのジェネレーティブな性質は、入力トークンとシーケンスの複数の表現を可能にする。 私たちのモデルはまだ実験的な検証を行っていませんが、不確定なデータ生成プロセスによるモデリングシーケンスの高品質と多様性を達成するための大きな可能性を秘めています。

We introduce a novel model called GAMMT (Generative Ambiguity Models using Multiple Transformers) for sequential data that is based on sets of probabilities. Unlike conventional models, our approach acknowledges that the data generation process of a sequence is not deterministic, but rather ambiguous and influenced by a set of probabilities. To capture this ambiguity, GAMMT employs multiple parallel transformers that are linked by a selection mechanism, allowing for the approximation of ambiguous probabilities. The generative nature of our approach also enables multiple representations of input tokens and sequences. While our models have not yet undergone experimental validation, we believe that our model has great potential to achieve high quality and diversity in modeling sequences with uncertain data generation processes.
翻訳日:2023-04-05 18:36:53 公開日:2023-04-04
# 動的エージェントの将来動作予測のための2段階文脈認識モデル

Two-Stage Context-Aware model for Predicting Future Motion of Dynamic Agents ( http://arxiv.org/abs/2211.08609v5 )

ライセンス: Link先を確認
Sehwan Choi, Jungho Kim, Junyong Yun, Jun Won Choi(参考訳) 動的エージェントの将来の動きを予測することは、自律ロボットの運動計画における安全性の確保とリスク評価において最重要となる。 本研究では,初期軌道提案と軌道修正ネットワークのカスケードを用いて,シーンとインタラクションの両方のコンテキストを効果的に活用する,r-predと呼ばれる2段階運動予測手法を提案する。 初期軌道提案ネットワークは、将来の軌道分布のmモードに対応するm軌道提案を生成する。 軌道改善ネットワークは、各M提案を拡張します。 1)チューブ検索シーンアテンション(tqsa)および 2)提案レベルのインタラクションアテンション(PIA)機構。 TQSAは、興味のある軌道上の提案に近接してプールされたローカルシーンコンテキストの特徴を集約するためにチューブクエリを使用する。 PIAはさらに、隣接するエージェントからの距離で選択された軌道提案のグループを用いて、エージェント間相互作用をモデル化することで、軌道提案をさらに強化する。 Argoverse と nuScenes のデータセットを用いて行った実験により,提案する改良ネットワークは,単段ベースラインと比較して大きな性能向上を実現し,R-Pred がベンチマークのいくつかのカテゴリで最先端のパフォーマンスを達成することを示した。

Predicting the future motion of dynamic agents is of paramount importance to ensuring safety and assessing risks in motion planning for autonomous robots. In this study, we propose a two-stage motion prediction method, called R-Pred, designed to effectively utilize both scene and interaction context using a cascade of the initial trajectory proposal and trajectory refinement networks. The initial trajectory proposal network produces M trajectory proposals corresponding to the M modes of the future trajectory distribution. The trajectory refinement network enhances each of the M proposals using 1) tube-query scene attention (TQSA) and 2) proposal-level interaction attention (PIA) mechanisms. TQSA uses tube-queries to aggregate local scene context features pooled from proximity around trajectory proposals of interest. PIA further enhances the trajectory proposals by modeling inter-agent interactions using a group of trajectory proposals selected by their distances from neighboring agents. Our experiments conducted on Argoverse and nuScenes datasets demonstrate that the proposed refinement network provides significant performance improvements compared to the single-stage baseline and that R-Pred achieves state-of-the-art performance in some categories of the benchmarks.
翻訳日:2023-04-05 18:36:41 公開日:2023-04-04
# 非可換平面内の定磁場に最小結合した荷電スピンレス点粒子について

On a charged spinless point particle minimally coupled to a constant magnetic field in a noncommutative plane ( http://arxiv.org/abs/2211.07192v3 )

ライセンス: Link先を確認
S. Hasibul Hassan Chowdhury, Talal Ahmed Chowdhury(参考訳) 本稿では, 2次元非可換平面内の一定の磁場に結合した荷電スピンレス粒子について, 数学的, 物理的に一貫性のある最小条件を与える。 これは、非可換平面における2次元量子力学の文脈において、広く、不注意に使用される最小限の法則とは対照的である。 さらに, シーバーグ-ウィッテン写像の 1-パラメータ族を明示的に計算することにより, 基礎となる非可換系の非可換 u(1) ゲージ理論構造を探索する。

In this paper, we provide a mathematically and physically consistent minimal prescription for a charged spinless point particle coupled to a constant magnetic field in a 2-dimensional noncommutative plane. It turns out to be a gauge invariant prescription in contrast to the widely and carelessly used naive minimal prescription in the context of 2-dimensional quantum mechanics in a noncommutative plane. Besides, we explore the noncommutative U(1) gauge theoretic structure of the underlying noncommutative system by explicitly computing the 1-parameter family of Seiberg-Witten maps.
翻訳日:2023-04-05 18:36:02 公開日:2023-04-04
# キューブからネットワークへ: 合成ネットワーク生成のための高速汎用モデル

From Cubes to Networks: Fast Generic Model for Synthetic Networks Generation ( http://arxiv.org/abs/2211.02811v2 )

ライセンス: Link先を確認
Shaojie Min, Ji Liu(参考訳) 複素ネットワークと立方体(つまり多次元データセット)の分析は、現在異なる戦略を持つ2つの異なる研究分野である。 ユニークなネットワークドメイン方法論による立方体ダイナミクスのさらなる洞察と豊富な合成ネットワークを得るためには、立方体から関連するネットワークへの変換アプローチが必要である。 そこで本研究では,立方体を相互関連ネットワークに変換する高速汎用モデルであるFGMを提案する。 従来のモデルと比較して,fgmは,より真正度分布,パワーロー平均至近度依存性,ネットワークにとって不可欠な影響減衰現象といった,現実のネットワークとより密接に一致する典型的なパターンを示すネットワークを,コスト効率良く生成できることを示した。 さらに、FGMが様々な立方体を通して生み出すネットワークを評価する。 その結果、FGMは入力摂動に耐性を示し、一貫した微細な特性を持つネットワークを生成する。

Analytical explorations on complex networks and cubes (i.e., multi-dimensional datasets) are currently two separate research fields with different strategies. To gain more insights into cube dynamics via unique network-domain methodologies and to obtain abundant synthetic networks, we need a transformation approach from cubes into associated networks. To this end, we propose FGM, a fast generic model converting cubes into interrelated networks, whereby samples are remodeled into nodes and network dynamics are guided under the concept of nearest-neighbor searching. Through comparison with previous models, we show that FGM can cost-efficiently generate networks exhibiting typical patterns more closely aligned to factual networks, such as more authentic degree distribution, power-law average nearest-neighbor degree dependency, and the influence decay phenomenon we consider vital for networks. Furthermore, we evaluate the networks that FGM generates through various cubes. Results show that FGM is resilient to input perturbations, producing networks with consistent fine properties.
翻訳日:2023-04-05 18:35:24 公開日:2023-04-04
# 適応計測による量子平均値の推定

Quantum-enhanced mean value estimation via adaptive measurement ( http://arxiv.org/abs/2210.15624v2 )

ライセンス: Link先を確認
Kaito Wada, Kazuma Fukuchi, Naoki Yamamoto(参考訳) 量子エンハンスド (quantum-enhanced, 古典的手法と比較してクエリの複雑さが小さくなる) は、観測可能な値の推定は様々な量子技術において基本的なタスクである。 特に、量子推定理論は、そのような推定器の究極の精度を同定しており、量子クラム(英語版)(quantum cram\'{e}r-rao (qcr)) と呼ばれる。 推定精度はこれらの量子技術システムの性能を直接決定するので、QCR境界を達成する汎用的で実用的な推定方法を開発することが要求される。 しかし、不完全条件下では、そのような究極の推定器は開発されていない。 本稿では、量子ビット数に関してQCR境界を漸近的に高速に達成する偏極雑音環境における量子化平均値推定法を提案する。 本手法では,QCR境界を達成するために適応的に最適化された振幅増幅と実装可能な測定値からなる最大極大推定器を用いる。 本稿では,適応推定器の整合性や漸近正規性などの統計的特性を厳密に解析する。 さらに,本手法の有効性を示す数値シミュレーションもいくつか実施されており,特にQCR境界をほぼ飽和させるためには,推定器が最低限の測定値しか必要としないことを示す。 提案手法は、量子コンピューティングアルゴリズムのサブルーチンを超えた様々な応用において有用であり、量子コンピューティングと量子センシングにおける学際的な研究の道を開く。

Quantum-enhanced (i.e., less query complexity compared to any classical method) mean value estimation of observables is a fundamental task in various quantum technologies; in particular, it is an essential subroutine in quantum computing algorithms. Notably, the quantum estimation theory identifies the ultimate precision of such estimator, which is referred to as the quantum Cram\'{e}r-Rao (QCR) lower bound or equivalently the inverse of the quantum Fisher information. Because the estimation precision directly determines the performance of those quantum technological systems, it is highly demanded to develop a generic and practically implementable estimation method that achieves the QCR bound. Under imperfect conditions, however, such ultimate estimator has not been developed. This paper proposes a quantum-enhanced mean value estimation method in a depolarizing noisy environment that asymptotically achieves the QCR bound exponentially fast with respect to the number of qubits. The method employs a maximum likelihood estimator consisting of the amplitude amplification and an implementable measurement, which are adaptively optimized to achieve the QCR bound. We provide a rigorous analysis for the statistical properties of the proposed adaptive estimator such as consistency and asymptotic normality. Furthermore, several numerical simulations are provided to demonstrate the effectiveness of the method, particularly showing that the estimator needs only a modest number of measurements to almost saturate the QCR bound. The proposed method will be useful in various applications beyond the subroutine in quantum computing algorithms, thereby paving the way for an interdisciplinary research in quantum computing and quantum sensing.
翻訳日:2023-04-05 18:35:07 公開日:2023-04-04
# 強化学習を用いた量子コンピューティングのコンパイラ最適化

Compiler Optimization for Quantum Computing Using Reinforcement Learning ( http://arxiv.org/abs/2212.04508v2 )

ライセンス: Link先を確認
Nils Quetschlich, Lukas Burgholzer, Robert Wille(参考訳) かつて量子回路としてエンコードされた量子コンピューティングアプリケーションは、量子コンピュータ上で実行される前にコンパイルされなければならない。 古典的なコンパイルと同様に、量子コンパイルは多くのコンパイルステップと多くの最適化パスを持つシーケンシャルなプロセスである。 類似性にもかかわらず、量子コンピューティング用のコンパイラの開発はまだ初期段階にあり、最高のパスシーケンス、互換性、適応性、柔軟性の相互統合を欠いている。 本研究では,数十年にわたる古典的コンパイラ最適化を活用し,最適化量子回路コンパイルフロー開発のための強化学習フレームワークを提案する。 異なる制約と統一インターフェースを通じて、フレームワークは異なるコンパイラのテクニックと単一のコンパイルフローにおける最適化ツールの組み合わせをサポートする。 実験的評価により、提案されたフレームワーク(ibmのqiskitとquantinuumのtket)は、予想された忠実度に関する73%のケースにおいて、個々のコンパイラを著しく上回っている。 このフレームワークは、ミュンヘン量子ツールキット(MQT)の一部としてGitHub(https://github.com/cda-tum/MQTPredictor)で入手できる。

Any quantum computing application, once encoded as a quantum circuit, must be compiled before being executable on a quantum computer. Similar to classical compilation, quantum compilation is a sequential process with many compilation steps and numerous possible optimization passes. Despite the similarities, the development of compilers for quantum computing is still in its infancy -- lacking mutual consolidation on the best sequence of passes, compatibility, adaptability, and flexibility. In this work, we take advantage of decades of classical compiler optimization and propose a reinforcement learning framework for developing optimized quantum circuit compilation flows. Through distinct constraints and a unifying interface, the framework supports the combination of techniques from different compilers and optimization tools in a single compilation flow. Experimental evaluations show that the proposed framework -- set up with a selection of compilation passes from IBM's Qiskit and Quantinuum's TKET -- significantly outperforms both individual compilers in 73% of cases regarding the expected fidelity. The framework is available on GitHub (https://github.com/cda-tum/MQTPredictor) as part of the Munich Quantum Toolkit (MQT).
翻訳日:2023-04-05 18:28:50 公開日:2023-04-04
# 階層的韻律モデルによる映画ダビングの学習

Learning to Dub Movies via Hierarchical Prosody Models ( http://arxiv.org/abs/2212.04054v2 )

ライセンス: Link先を確認
Gaoxiang Cong, Liang Li, Yuankai Qi, Zhengjun Zha, Qi Wu, Wenyu Wang, Bin Jiang, Ming-Hsuan Yang, Qingming Huang(参考訳) テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情と一致する音声を生成することを目的としている。 V2Cは、ビデオに表示されるさまざまな感情と発話速度を正確に一致させるために生成された音声を必要とするため、従来の音声合成タスクよりも難しい。 従来の作品とは違って,視覚情報を唇,顔,シーンの3面から視覚情報にブリッジする階層的韻律モデリングにより,これらの問題に対処する新しい映画ダビングアーキテクチャを提案する。 具体的には,唇運動を発話継続時間に合わせて調整し,近年の心理学的知見に触発されたヴァレンスと覚醒表現に基づく注意機構により,表情を発話エネルギーとピッチに伝達する。 さらに,グローバルな映像シーンから雰囲気を捉えるために,感情ブースターをデザインする。 これらの埋め込みはすべてメルスペクトログラムを生成し、既存のvocoderを介して音声波に変換するために使われる。 ChemおよびV2Cベンチマークデータセットの大規模な実験結果から,提案手法の有効性が示された。 ソースコードとトレーニングされたモデルは一般公開される予定だ。

Given a piece of text, a video clip and a reference audio, the movie dubbing (also known as visual voice clone V2C) task aims to generate speeches that match the speaker's emotion presented in the video using the desired speaker voice as reference. V2C is more challenging than conventional text-to-speech tasks as it additionally requires the generated speech to exactly match the varying emotions and speaking speed presented in the video. Unlike previous works, we propose a novel movie dubbing architecture to tackle these problems via hierarchical prosody modelling, which bridges the visual information to corresponding speech prosody from three aspects: lip, face, and scene. Specifically, we align lip movement to the speech duration, and convey facial expression to speech energy and pitch via attention mechanism based on valence and arousal representations inspired by recent psychology findings. Moreover, we design an emotion booster to capture the atmosphere from global video scenes. All these embeddings together are used to generate mel-spectrogram and then convert to speech waves via existing vocoder. Extensive experimental results on the Chem and V2C benchmark datasets demonstrate the favorable performance of the proposed method. The source code and trained models will be released to the public.
翻訳日:2023-04-05 18:28:33 公開日:2023-04-04
# 注文は望ましくない - 動的ディープグラフ畳み込みネットワークによるパーソナリティ検出

Orders Are Unwanted: Dynamic Deep Graph Convolutional Network for Personality Detection ( http://arxiv.org/abs/2212.01515v3 )

ライセンス: Link先を確認
Tao Yang, Jinghao Deng, Xiaojun Quan, Qifan Wang(参考訳) オンライン投稿に基づくパーソナリティ特性の予測は,ソーシャルネットワーク分析など多くの分野で重要な課題となっている。 このタスクの課題の1つは、さまざまな投稿から情報をユーザ毎のプロフィールにまとめることである。 以前の多くのソリューションは、ポストを長いドキュメントにまとめ、シーケンシャルまたは階層的なモデルで文書をエンコードするだけであったが、ポストに不整合な順序を導入し、それがモデルを誤解させる可能性がある。 本稿では,この制限を克服するための動的ディープグラフ畳み込みネットワーク(D-DGCN)を提案する。 具体的には、決定論的構造の代わりに動的マルチホップ構造を採用し、DGCNモジュールと組み合わせてポスト間の接続を自動的に学習する学習・接続方式を設計する。 ポストエンコーダ、ラーニング・トゥ・コネクション、DGCNのモジュールはエンドツーエンドで共同で訓練される。 KaggleとPandoraのデータセットの実験結果は、D-DGCNの最先端ベースラインよりも優れたパフォーマンスを示している。 私たちのコードはhttps://github.com/djz233/d-dgcnで利用可能です。

Predicting personality traits based on online posts has emerged as an important task in many fields such as social network analysis. One of the challenges of this task is assembling information from various posts into an overall profile for each user. While many previous solutions simply concatenate the posts into a long document and then encode the document by sequential or hierarchical models, they introduce unwarranted orders for the posts, which may mislead the models. In this paper, we propose a dynamic deep graph convolutional network (D-DGCN) to overcome the above limitation. Specifically, we design a learn-to-connect approach that adopts a dynamic multi-hop structure instead of a deterministic structure, and combine it with a DGCN module to automatically learn the connections between posts. The modules of post encoder, learn-to-connect, and DGCN are jointly trained in an end-to-end manner. Experimental results on the Kaggle and Pandora datasets show the superior performance of D-DGCN to state-of-the-art baselines. Our code is available at https://github.com/djz233/D-DGCN.
翻訳日:2023-04-05 18:28:12 公開日:2023-04-04
# 導波路QEDにおける量子制御指向性エッジ状態

Qubit-controlled directional edge states in waveguide QED ( http://arxiv.org/abs/2212.00108v2 )

ライセンス: Link先を確認
Prasanna Pakkiam, N. Pradeep Kumar, Mikhail Pletyukhov, Arkady Fedorov(参考訳) 米-meleモデルに基づく導波路に結合した量子エミッタ(導波路アレイ内のサイト間のオンサイト電位とトンネル結合の両方を交互に置換する)からなる、その場の波長可変カイラル量子システムを提案する。 具体的には、導波路のバンドギャップに現れるフォトニック結合状態のキラリティーは、量子ビットのエネルギーのみに依存し、多くの人工原子で容易に調整できるパラメータであることを示す。 我々の導波管QED方式は、不完全なキラリティーまたは固定方向性を示す以前の提案とは対照的に、完全なキラリティーと、デバイス内の1つの可変要素で要求の方向性を変える能力の両方を達成する。 また,本モデルは,最先端の超伝導回路と量子ドットアーキテクチャの両方において容易に実装できることを示す。 その結果, クロストークを原則として維持しながら, 量子ビット間の長距離カップラを作る技術が期待できることがわかった。

We propose an in-situ tunable chiral quantum system, composed of a quantum emitter coupled to a waveguide based on the Rice-Mele model (where we alternate both the on-site potentials and tunnel couplings between sites in the waveguide array). Specifically, we show that the chirality of photonic bound state, that emerges in the bandgap of the waveguide, depends only on the energy of the qubit; a parameter that is easy to tune in many artificial atoms. In contrast to previous proposals that have either shown imperfect chirality or fixed directionality, our waveguide QED scheme achieves both perfect chirality and the capability to switch the directionality on demand with just one tunable element in the device. We also show that our model is easy to implement in both state-of-the-art superconducting circuit and quantum dot architectures. The results show technological promise in creating long-range couplers between qubits while maintaining, in principle, zero crosstalk.
翻訳日:2023-04-05 18:27:37 公開日:2023-04-04
# 移動ロボットによる2次元押圧操作のための集団知能

Collective Intelligence for 2D Push Manipulation with Mobile Robots ( http://arxiv.org/abs/2211.15136v2 )

ライセンス: Link先を確認
So Kuroki, Tatsuya Matsushima, Jumpei Arima, Hiroki Furuta, Yutaka Matsuo, Shixiang Shane Gu, Yujin Tang(参考訳) 自然システムは多くの場合、自己組織化と変化への適応を可能にする集団的知性を示すが、ほとんどの人工的なシステムでは同等なものが欠落している。 移動ロボットを用いた協調的な2Dプッシュ操作の文脈におけるそのようなシステムの可能性を検討する。 従来の研究では、制限された設定で問題に対する潜在的な解決策を示すが、計算と学習が困難である。 さらに重要なことに、これらのシステムは環境の変化に直面するときに適応する能力を持たない。 本研究では,異なるソフトボディ物理シミュレータから派生したプランナーをアテンションベースニューラルネットワークに蒸留することにより,マルチロボットプッシュ操作システムがベースラインよりも優れた性能を実現することを示す。 さらに,本システムは,トレーニング中に見えない構成に一般化し,外乱や環境変化を応用した場合にタスク完了に適応することができる。 補足ビデオは、プロジェクトのwebサイトにある: \url{https://sites.google.com/view/ciom/home}。

While natural systems often present collective intelligence that allows them to self-organize and adapt to changes, the equivalent is missing in most artificial systems. We explore the possibility of such a system in the context of cooperative 2D push manipulations using mobile robots. Although conventional works demonstrate potential solutions for the problem in restricted settings, they have computational and learning difficulties. More importantly, these systems do not possess the ability to adapt when facing environmental changes. In this work, we show that by distilling a planner derived from a differentiable soft-body physics simulator into an attention-based neural network, our multi-robot push manipulation system achieves better performance than baselines. In addition, our system also generalizes to configurations not seen during training and is able to adapt toward task completions when external turbulence and environmental changes are applied. Supplementary videos can be found on our project website: \url{https://sites.google.com/view/ciom/home}.
翻訳日:2023-04-05 18:27:20 公開日:2023-04-04
# FaiREE:Finite-Sample と Distribution-free Guarantee による公平な分類

FaiREE: Fair Classification with Finite-Sample and Distribution-Free Guarantee ( http://arxiv.org/abs/2211.15072v2 )

ライセンス: Link先を確認
Puheng Li, James Zou, Linjun Zhang(参考訳) アルゴリズム的公平性は、機械学習研究においてますます重要な役割を果たす。 いくつかのグループフェアネスの概念とアルゴリズムが提案されている。 しかし、既存の公平な分類方法の公平性保証は、多くの場合、大きなサンプルサイズを必要とする特定のデータ分布の仮定に主に依存しており、サンプルが少なからぬ数である場合には公平性に違反する可能性がある。 本稿では,有限サンプルと分布フリーな理論保証で群フェアネス制約を満たすフェア分類アルゴリズムであるfairを提案する。 FaiREEは、グループフェアネスの概念(例えば、機会の平等、平等化オッド、デモグラフィックパリティなど)を満たし、最適な精度を達成するように適応することができる。 これらの理論的保証は、合成データと実データの両方の実験によってさらに支持される。 FaiREEは最先端のアルゴリズムよりも優れた性能を示した。

Algorithmic fairness plays an increasingly critical role in machine learning research. Several group fairness notions and algorithms have been proposed. However, the fairness guarantee of existing fair classification methods mainly depends on specific data distributional assumptions, often requiring large sample sizes, and fairness could be violated when there is a modest number of samples, which is often the case in practice. In this paper, we propose FaiREE, a fair classification algorithm that can satisfy group fairness constraints with finite-sample and distribution-free theoretical guarantees. FaiREE can be adapted to satisfy various group fairness notions (e.g., Equality of Opportunity, Equalized Odds, Demographic Parity, etc.) and achieve the optimal accuracy. These theoretical guarantees are further supported by experiments on both synthetic and real data. FaiREE is shown to have favorable performance over state-of-the-art algorithms.
翻訳日:2023-04-05 18:27:06 公開日:2023-04-04
# ab initio核構造問題を解決するディープニューラルネットワークアプローチ

Deep-neural-network approach to solving the ab initio nuclear structure problem ( http://arxiv.org/abs/2211.13998v2 )

ライセンス: Link先を確認
Yilong Yang and Pengwei Zhao(参考訳) 量子力学の最初の原理から量子多体系の構造を予測することは、物理学、化学、物質科学において共通の課題である。 深層機械学習は、凝縮物質や化学問題を解くための強力なツールであることが証明されているが、原子核では、空間、スピン、アイソスピンの自由度を強く結合する複雑な核子-核子相互作用のため、依然としてかなり難しい。 核波関数の基本物理と人工ニューラルネットワークの強い表現力を組み合わせることで、深層学習型変分量子モンテカルロ法による核構造解析を行うFeynmanNetを開発した。 フェインマンネットは、ピオンレス実効場理論の上位および次階のハミルトニアンから出現するものとして、$^4$He,$^6$Li,さらには$^{16}$Oに対して、基底状態エネルギーと波動関数の非常に正確な解を提供できることを示す。 強固有のフェルミオン符号問題に苦しむ従来の拡散モンテカルロ法と比較して、ファインマンネットは変動的な方法でそのような高い精度に達し、核子数と多項式的にスケールする。 したがって、核子間の現実的な相互作用に基づいて核特性を予測する、高度に正確で効率的な 'emph{ab initio} 法への道を開く。

Predicting the structure of quantum many-body systems from the first principles of quantum mechanics is a common challenge in physics, chemistry, and material science. Deep machine learning has proven to be a powerful tool for solving condensed matter and chemistry problems, while for atomic nuclei it is still quite challenging because of the complicated nucleon-nucleon interactions, which strongly couple the spatial, spin, and isospin degrees of freedom. By combining essential physics of the nuclear wave functions and the strong expressive power of artificial neural networks, we develop FeynmanNet, a deep-learning variational quantum Monte Carlo approach for \emph{ab initio} nuclear structure. We show that FeynmanNet can provide very accurate solutions of ground-state energies and wave functions for $^4$He, $^6$Li, and even up to $^{16}$O as emerging from the leading-order and next-to-leading-order Hamiltonians of pionless effective field theory. Compared to the conventional diffusion Monte Carlo approaches, which suffer from the severe inherent fermion-sign problem, FeynmanNet reaches such a high accuracy in a variational way and scales polynomially with the number of nucleons. Therefore, it paves the way to a highly accurate and efficient \emph{ab initio} method for predicting nuclear properties based on the realistic interactions between nucleons.
翻訳日:2023-04-05 18:26:32 公開日:2023-04-04
# グリッドネットワークにおける絡み合いルーティングとボトルネック

Entanglement Routing and Bottlenecks in Grid Networks ( http://arxiv.org/abs/2211.12535v2 )

ライセンス: Link先を確認
Vaisakh Mannalath and Anirban Pathak(参考訳) 複数のユーザ間の絡み合ったペアの分散は、量子ネットワークにおける根本的な問題である。 既存のプロトコル (npj Quantum Information 5, 76 (2019)) では、ローカル補完のようなグラフ理論ツールを使用して、ネットワークユーザ間でベルペアを抽出するのに必要な測定数を最適化している。 しかし、そのようなプロトコルはユーザ間の最短経路を見つけることに依存している。 ここで、既存の結果は、一般に$X$プロトコルを実行する最も最適な経路が最短経路ではないという反直観的概念を確立するために拡張される。 この利点の具体例は12キュービット以下のサイズのネットワークで提供されている。 最寄り-neighborアーキテクチャにおける同時ベルペアの確立におけるボトルネックも検討されている。 近年,ボトルネックの存在による量子ネットワーク実装における回線やリングネットワークの不適合性が指摘され,グラフ理論からの局所同値関係を用いて,グリッドグラフでさえボトルネック問題から除外されない可能性が示唆されている。 さらに、ここで得られた結果は、測定ベースの量子ネットワーク符号化の利点を分析するのに役立ちます。

Distributing entangled pairs among multiple users is a fundamental problem in quantum networks. Existing protocols like $X$ protocol introduced in (npj Quantum Information 5, 76 (2019)) use graph theoretic tools like local complementation to optimize the number of measurements required to extract any Bell pair among the network users. However, such a protocol relies on finding the shortest path between the users. Here, the existing results are extended to establish a counter-intuitive notion that, in general, the most optimal path to perform the $X$ protocol is not along the shortest path. Specific examples of this advantage are provided on networks of size as small as 12 qubits. Bottlenecks in establishing simultaneous Bell pairs in nearest-neighbor architectures are also explored. Recent results suggesting the unsuitability of the line and ring networks for the implementation of quantum networks due to the existence of bottlenecks are revisited, and using local equivalency relations from graph theory, it is hinted at the possibility that even grid graphs are not exempt from bottleneck issues. Further, it's noted that the results obtained here would be of use in analyzing the advantages of measurement-based quantum network coding.
翻訳日:2023-04-05 18:26:04 公開日:2023-04-04
# 勾配に基づくメタ学習による再利用可能な選択肢

Reusable Options through Gradient-based Meta Learning ( http://arxiv.org/abs/2212.11726v2 )

ライセンス: Link先を確認
David Kuric, Herke van Hoof(参考訳) 強化学習における階層的手法は、新しいタスクを学ぶ際にエージェントが行うべき決定の量を減らす可能性がある。 しかし、高速学習を容易にする再利用可能な時間的抽象化を見つけることは難しい問題である。 近年,このような時間的抽象化をエンド・ツー・エンドの形で学習するための深層学習手法が提案されている。 本稿では,これらの手法の欠点を指摘し,その潜在的な負の結果について考察する。 次に,再利用可能な選択肢についてデシデラタを定式化し,これを用いて,学習オプションの問題を勾配に基づくメタラーニング問題として構成する。 これにより、選択を明示的にインセンティブ化する目的を定式化し、より高いレベルの意思決定者がいくつかのステップで異なるタスクを調整できるようにします。 実験により,本手法は学習を加速し,従来の手法よりも優れた性能を発揮する移動可能なコンポーネントを学習できることを示した。 さらに、勾配に基づくメタラーニングおよび他の提案された変化を用いた影響の定量化を行う。

Hierarchical methods in reinforcement learning have the potential to reduce the amount of decisions that the agent needs to perform when learning new tasks. However, finding reusable useful temporal abstractions that facilitate fast learning remains a challenging problem. Recently, several deep learning approaches were proposed to learn such temporal abstractions in the form of options in an end-to-end manner. In this work, we point out several shortcomings of these methods and discuss their potential negative consequences. Subsequently, we formulate the desiderata for reusable options and use these to frame the problem of learning options as a gradient-based meta-learning problem. This allows us to formulate an objective that explicitly incentivizes options which allow a higher-level decision maker to adjust in few steps to different tasks. Experimentally, we show that our method is able to learn transferable components which accelerate learning and performs better than existing prior methods developed for this setting. Additionally, we perform ablations to quantify the impact of using gradient-based meta-learning as well as other proposed changes.
翻訳日:2023-04-05 18:19:26 公開日:2023-04-04
# 生涯テスト時間適応のための確率的フレームワーク

A Probabilistic Framework for Lifelong Test-Time Adaptation ( http://arxiv.org/abs/2212.09713v2 )

ライセンス: Link先を確認
Dhanajit Brahma and Piyush Rai(参考訳) テスト時間適応(TTA)は、異なるターゲットドメインから与えられたテスト入力(s)の推測時間で事前訓練されたソースモデルを更新する問題である。 既存のほとんどのTTAアプローチは、ターゲットドメインが定常な設定、すなわち全てのテスト入力が単一のターゲットドメインから来ていると仮定する。 しかし、多くの実践的な環境では、テスト入力分布は時間とともに寿命と連続的な変化を示す可能性がある。 さらに、既存のTTAアプローチでは、ソースとターゲットドメイン間の分散シフトが発生した場合、信頼性の高い不確実性推定を提供する能力も欠如している。 これらの課題に対処するため,PETAL(Probabilistic lifElong Test-time Adaptation with seLf-training prior)を提案する。これは確率的アプローチを用いて生涯TTAを解決するもので,(1)教師モデルが学生モデルの指数的な移動平均であるような学習者フレームワークであり,(2)ソースモデルを正規化子として推論時にモデル更新を規則化する。 また、寿命/連続TTA設定におけるモデルドリフトを防止するため、無関係なパラメータのみを復元することにより、エラー蓄積の低減と最近のドメインの知識維持に寄与するデータ駆動パラメータ復元手法を提案する。 CIFAR-10C, CIFAR-100C, ImageNetC, ImageNet3DCCデータセットなどの様々なベンチマークにおいて, 予測誤差率や, Brier スコアや負のログ類似度などの不確実性に基づく測定値に関して, オンラインライフタイム適応における現状よりも優れた結果が得られた。 このアプローチのソースコードはhttps://github.com/dhanajitb/petal.comからアクセスできます。

Test-time adaptation (TTA) is the problem of updating a pre-trained source model at inference time given test input(s) from a different target domain. Most existing TTA approaches assume the setting in which the target domain is stationary, i.e., all the test inputs come from a single target domain. However, in many practical settings, the test input distribution might exhibit a lifelong/continual shift over time. Moreover, existing TTA approaches also lack the ability to provide reliable uncertainty estimates, which is crucial when distribution shifts occur between the source and target domain. To address these issues, we present PETAL (Probabilistic lifElong Test-time Adaptation with seLf-training prior), which solves lifelong TTA using a probabilistic approach, and naturally results in (1) a student-teacher framework, where the teacher model is an exponential moving average of the student model, and (2) regularizing the model updates at inference time using the source model as a regularizer. To prevent model drift in the lifelong/continual TTA setting, we also propose a data-driven parameter restoration technique which contributes to reducing the error accumulation and maintaining the knowledge of recent domains by restoring only the irrelevant parameters. In terms of predictive error rate as well as uncertainty based metrics such as Brier score and negative log-likelihood, our method achieves better results than the current state-of-the-art for online lifelong test-time adaptation across various benchmarks, such as CIFAR-10C, CIFAR-100C, ImageNetC, and ImageNet3DCC datasets. The source code for our approach is accessible at https://github.com/dhanajitb/petal.
翻訳日:2023-04-05 18:19:08 公開日:2023-04-04
# LOANet:UAV空中リモートセンシング画像から建物や道路を抽出するオブジェクト注意を用いた軽量ネットワーク

LOANet: A Lightweight Network Using Object Attention for Extracting Buildings and Roads from UAV Aerial Remote Sensing Images ( http://arxiv.org/abs/2212.08490v5 )

ライセンス: Link先を確認
Xiaoxiang Han, Yiman Liu, Gang Liu, Yuanjie Lin, Qiaohong Liu(参考訳) 深層学習による無人航空機(uav)リモートセンシング画像から建物や道路を抽出するセマンティックセグメンテーションは,測量・マッピング分野における従来の手動セグメンテーションよりも効率的で便利である。 モデルを軽量化し,モデルの精度を向上させるために,uav空中リモートセンシング画像から建物や道路にオブジェクト・アテンション(loanet)を用いた軽量ネットワークを提案する。 提案するネットワークは,軽量Densely Connected Network (LDCNet) をエンコーダとして開発したエンコーダデコーダアーキテクチャを採用している。 復号器部では、Atrous Space Pyramid Pooling Module (ASPP) と Object Attention Module (OAM) から構成される2つのマルチスケールコンテキストモジュールが、UAVリモートセンシング画像の特徴マップからより多くのコンテキスト情報を取得するように設計されている。 ASPPとOAMの間には、ASPPから抽出したマルチスケール機能にFPN(Feature Pyramid Network)モジュールが使用される。 2431のトレーニングセット、945の検証セット、および475のテストセットを含むUAVが撮影するリモートセンシング画像のプライベートデータセットを構築する。 提案したモデルは、1.4Mパラメータと5.48G浮動小数点演算(FLOPs)のみで、平均交叉対合同比(mIoU)は71.12%である。 パブリックなLoveDAデータセットとCITY-OSMデータセットに関するより広範な実験により、提案されたモデルの有効性をそれぞれ65.27%と74.39%のmIoUで検証した。

Semantic segmentation for extracting buildings and roads, from unmanned aerial vehicle (UAV) remote sensing images by deep learning becomes a more efficient and convenient method than traditional manual segmentation in surveying and mapping field. In order to make the model lightweight and improve the model accuracy, A Lightweight Network Using Object Attention (LOANet) for Buildings and Roads from UAV Aerial Remote Sensing Images is proposed. The proposed network adopts an encoder-decoder architecture in which a Lightweight Densely Connected Network (LDCNet) is developed as the encoder. In the decoder part, the dual multi-scale context modules which consist of the Atrous Spatial Pyramid Pooling module (ASPP) and the Object Attention Module (OAM) are designed to capture more context information from feature maps of UAV remote sensing images. Between ASPP and OAM, a Feature Pyramid Network (FPN) module is used to and fuse multi-scale features extracting from ASPP. A private dataset of remote sensing images taken by UAV which contains 2431 training sets, 945 validation sets, and 475 test sets is constructed. The proposed model performs well on this dataset, with only 1.4M parameters and 5.48G floating-point operations (FLOPs), achieving a mean intersection-over-union ratio (mIoU) of 71.12%. More extensive experiments on the public LoveDA dataset and CITY-OSM dataset to further verify the effectiveness of the proposed model with excellent results on mIoU of 65.27% and 74.39%, respectively.
翻訳日:2023-04-05 18:18:34 公開日:2023-04-04
# 確率的アンサンブルを用いたベイズ後方近似

Bayesian posterior approximation with stochastic ensembles ( http://arxiv.org/abs/2212.08123v2 )

ライセンス: Link先を確認
Oleksandr Balabanov, Bernhard Mehlig, Hampus Linander(参考訳) 本研究では,ベイズ後部を近似する確率的ニューラルネットワークのアンサンブルを導入し,ドロップアウトなどの確率的手法と深部アンサンブルを組み合わせた。 確率的アンサンブルは分布の族として定式化され、ベイズ後部を変分推論で近似するように訓練される。 我々はモンテカルロのドロップアウト、DropConnect、および新しい非パラメトリックなドロップアウトに基づく確率的アンサンブルを実装し、それらをおもちゃ問題とCIFAR画像分類に基づいて評価する。 いずれの課題においても,後肢の質をハミルトンモンテカルロシミュレーションに対して直接テストする。 その結果、確率的アンサンブルはベイズ推定の他の一般的なベースラインよりも正確な後方推定を提供することがわかった。

We introduce ensembles of stochastic neural networks to approximate the Bayesian posterior, combining stochastic methods such as dropout with deep ensembles. The stochastic ensembles are formulated as families of distributions and trained to approximate the Bayesian posterior with variational inference. We implement stochastic ensembles based on Monte Carlo dropout, DropConnect and a novel non-parametric version of dropout and evaluate them on a toy problem and CIFAR image classification. For both tasks, we test the quality of the posteriors directly against Hamiltonian Monte Carlo simulations. Our results show that stochastic ensembles provide more accurate posterior estimates than other popular baselines for Bayesian inference.
翻訳日:2023-04-05 18:18:03 公開日:2023-04-04
# 適応型マルチエージェント連続学習システム

Adaptive Multi-Agent Continuous Learning System ( http://arxiv.org/abs/2212.07646v2 )

ライセンス: Link先を確認
Xingyu Qian, Aximu Yuemaier, Longfei Liang, Wen-Chi Yang, Xiaogang Chen, Shunfen Li, Weibang Dai, Zhitang Song(参考訳) 本稿では,適応性を有する時間列連続学習機構に基づく,自己教師型マルチエージェントクラスタリング認識システムを提案する。 従来のアルゴリズムアプローチを用いて,エージェントの入力を予測し,エージェントの入力を駆使してシーケンスのクラスタリング認識を実現することにより,環境の多様な要求に対応するための適応性を向上させるために,いくつかの異なる機能的エージェントを接続構造を構築するように設計されている。 最後に,映像行動クラスタリングの実現可能性実験により,動的状況に対処するシステムの実現可能性を示す。 私たちの仕事はここで行われます。

We propose an adaptive multi-agent clustering recognition system that can be self-supervised driven, based on a temporal sequences continuous learning mechanism with adaptability. The system is designed to use some different functional agents to build up a connection structure to improve adaptability to cope with environmental diverse demands, by predicting the input of the agent to drive the agent to achieve the act of clustering recognition of sequences using the traditional algorithmic approach. Finally, the feasibility experiments of video behavior clustering demonstrate the feasibility of the system to cope with dynamic situations. Our work is placed here\footnote{https://github.com/qian-git/MAMMALS}.
翻訳日:2023-04-05 18:17:51 公開日:2023-04-04
# 非エルミート位相:原理と展望

Non-Hermitian Topological Phases: Principles and Prospects ( http://arxiv.org/abs/2212.06478v3 )

ライセンス: Link先を確認
Ayan Banerjee, Ronika Sarkar, Soumi Dey, Awadhesh Narayan(参考訳) 非エルミート的概念と位相的概念の相乗効果は近年非常に実りある活動へと繋がった。 これらの相互作用により、様々な新しい非エルミート位相現象が発見されている。 本稿では,非エルミート位相の位相的特徴を支える重要な原理について述べる。 Hatano-Helson, non-Hermitian Su-Schrieffer-Heeger および non-Hermitian Chern insulator というパラダイムモデルを用いて、例外点、複素エネルギーギャップ、非Hermitian対称性分類を含む非Hermitian topological system の中心的な特徴を説明する。 非エルミート皮膚効果と、バルク境界対応の復元を可能にする一般化ブリルアンゾーンの概念について議論する。 具体例を用いて障害の役割を考察し,線形応答枠組みを示し,非エルミート位相系のホール輸送特性を解析した。 また、この分野の急速な実験的進歩についても調査する。 最後に、近い将来の探査に有望である可能性のある方向を強調することで締めくくります。

The synergy between non-Hermitian concepts and topological ideas have led to very fruitful activity in the recent years. Their interplay has resulted in a wide variety of new non-Hermitian topological phenomena being discovered. In this review, we present the key principles underpinning the topological features of non-Hermitian phases. Using paradigmatic models -- Hatano-Helson, non-Hermitian Su-Schrieffer-Heeger and non-Hermitian Chern insulator -- we illustrate the central features of non-Hermitian topological systems, including exceptional points, complex energy gaps and non-Hermitian symmetry classification. We discuss the non-Hermitian skin effect and the notion of the generalized Brillouin zone, which allows restoring the bulk-boundary correspondence. Using concrete examples, we examine the role of disorder, present the linear response framework, and analyze the Hall transport properties of non-Hermitian topological systems. We also survey the rapidly growing experimental advances in this field. Finally, we end by highlighting possible directions which, in our view, may be promising for explorations in the near future.
翻訳日:2023-04-05 18:17:17 公開日:2023-04-04
# ALSO:運転推定による自動車ライダー自己監督

ALSO: Automotive Lidar Self-supervision by Occupancy estimation ( http://arxiv.org/abs/2212.05867v3 )

ライセンス: Link先を確認
Alexandre Boulch, Corentin Sautier, Bj\"orn Michele, Gilles Puy, Renaud Marlet(参考訳) 本稿では,ポイントクラウド上で動作する深層知覚モデルのバックボーンを事前学習する新しい自己教師あり手法を提案する。 中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルを訓練し、基礎となる潜在ベクトルを知覚ヘッドへの入力として使用することである。 直感的には、もしネットワークがシーン表面を再構築できるなら、わずかな入力ポイントのみを与えられた場合、おそらく、実際の知覚タスクを促進するために使用できる意味情報の断片をキャプチャする。 この原理は非常に単純な定式化であり、実装が容易であり、多種多様な3dセンサーや、セマンティックセグメンテーションやオブジェクト検出を行うディープネットワークにも広く適用できる。 実際、ほとんどの対照的な学習アプローチとは対照的に、単一のストリームパイプラインをサポートし、限られたリソースでのトレーニングを可能にする。 セマンティクスセグメンテーションとオブジェクト検出の両面で,異なる種類のライダーを含む様々な自律運転データセットについて広範な実験を行った。 その結果,既存の手法と比較して,アノテーションなしで有用な表現を学習する手法の有効性が示された。 コードはhttps://github.com/valeoai/で入手できる。

We propose a new self-supervised method for pre-training the backbone of deep perception models operating on point clouds. The core idea is to train the model on a pretext task which is the reconstruction of the surface on which the 3D points are sampled, and to use the underlying latent vectors as input to the perception head. The intuition is that if the network is able to reconstruct the scene surface, given only sparse input points, then it probably also captures some fragments of semantic information, that can be used to boost an actual perception task. This principle has a very simple formulation, which makes it both easy to implement and widely applicable to a large range of 3D sensors and deep networks performing semantic segmentation or object detection. In fact, it supports a single-stream pipeline, as opposed to most contrastive learning approaches, allowing training on limited resources. We conducted extensive experiments on various autonomous driving datasets, involving very different kinds of lidars, for both semantic segmentation and object detection. The results show the effectiveness of our method to learn useful representations without any annotation, compared to existing approaches. Code is available at https://github.com/valeoai/ALSO
翻訳日:2023-04-05 18:16:40 公開日:2023-04-04
# 4K-NeRF:超高分解能高忠実神経放射場

4K-NeRF: High Fidelity Neural Radiance Fields at Ultra High Resolutions ( http://arxiv.org/abs/2212.04701v2 )

ライセンス: Link先を確認
Zhongshu Wang, Lingzhi Li, Zhen Shen, Li Shen, Liefeng Bo(参考訳) 本稿では,4K-NeRFという,超高分解能の難易度シナリオにおける高忠実度ビューの合成を,ニューラルラジアンス場(NeRF)の方法論に基づく,新規で効果的なフレームワークを提案する。 通常、NeRFベースの手法のレンダリング手順は、トレーニングフェーズと推論フェーズの両方で、光線(またはピクセル)が独立して扱われるピクセルワイズ方式に依存しており、特に非常に高解像度に持ち上げる場合、微妙な詳細を記述するための表現能力を制限する。 本稿では,高頻度詳細回復のために線量相関を探索し,この問題に対処する。 特に,3d-awareエンコーダを用いて,低分解能空間における幾何学情報を効果的にモデル化し,3d-awareデコーダを通じて詳細な詳細を復元する。 パッチベースサンプリングによる共同学習は,知覚指向正規化からピクセル単位の損失までを監督することをさらに促進する。 ジオメトリアウェアな局所コンテキストを用いることにより,最新のnerf法に比べて高周波ディテールのレンダリング品質を著しく向上させ,4k超高分解能シナリオにおいて最先端の視覚品質を実現する。 コード提供: \url{https://github.com/frozoul/4K-NeRF}

In this paper, we present a novel and effective framework, named 4K-NeRF, to pursue high fidelity view synthesis on the challenging scenarios of ultra high resolutions, building on the methodology of neural radiance fields (NeRF). The rendering procedure of NeRF-based methods typically relies on a pixel-wise manner in which rays (or pixels) are treated independently on both training and inference phases, limiting its representational ability on describing subtle details, especially when lifting to a extremely high resolution. We address the issue by exploring ray correlation to enhance high-frequency details recovery. Particularly, we use the 3D-aware encoder to model geometric information effectively in a lower resolution space and recover fine details through the 3D-aware decoder, conditioned on ray features and depths estimated by the encoder. Joint training with patch-based sampling further facilitates our method incorporating the supervision from perception oriented regularization beyond pixel-wise loss. Benefiting from the use of geometry-aware local context, our method can significantly boost rendering quality on high-frequency details compared with modern NeRF methods, and achieve the state-of-the-art visual quality on 4K ultra-high-resolution scenarios. Code Available at \url{https://github.com/frozoul/4K-NeRF}
翻訳日:2023-04-05 18:16:19 公開日:2023-04-04
# DIFFormer:エネルギー制約拡散によるスケーラブル(グラフ)トランス

DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained Diffusion ( http://arxiv.org/abs/2301.09474v3 )

ライセンス: Link先を確認
Qitian Wu, Chenxiao Yang, Wentao Zhao, Yixuan He, David Wipf, Junchi Yan(参考訳) 現実世界のデータ生成には、しばしばインスタンス間の複雑な相互依存があり、標準学習パラダイムのiidデータ仮説に違反し、望ましいインスタンス表現を学習するための幾何学的構造を明らかにするための課題となる。 この目的のために、データセットから進化状態へインスタンスのバッチをエンコードするエネルギー制約拡散モデルを導入し、その相互作用によって他のインスタンスの情報を取り込む。 拡散過程は下降条件 w.r.t.~ 潜在構造上のインスタンス表現の大域的一貫性を特徴づける原理エネルギー関数によって制約される。 我々は、任意のインスタンスペア間の対拡散強度の閉形式最適推定を示唆する厳密な理論を提案し、これは、DIFFormer (diffusion-based Transformers)と呼ばれる新しいタイプのニューラルエンコーダを生み出し、二つのインスタンスをインスタンス化する単純なバージョンと、複雑な構造を学ぶための高度なバージョンである。 実験では,大規模グラフのノード分類,半教師付き画像/テキスト分類,空間-時空間ダイナミクス予測など,様々なタスクにおいて優れた性能を持つ汎用エンコーダバックボーンとしてモデルの適用性が強調された。

Real-world data generation often involves complex inter-dependencies among instances, violating the IID-data hypothesis of standard learning paradigms and posing a challenge for uncovering the geometric structures for learning desired instance representations. To this end, we introduce an energy constrained diffusion model which encodes a batch of instances from a dataset into evolutionary states that progressively incorporate other instances' information by their interactions. The diffusion process is constrained by descent criteria w.r.t.~a principled energy function that characterizes the global consistency of instance representations over latent structures. We provide rigorous theory that implies closed-form optimal estimates for the pairwise diffusion strength among arbitrary instance pairs, which gives rise to a new class of neural encoders, dubbed as DIFFormer (diffusion-based Transformers), with two instantiations: a simple version with linear complexity for prohibitive instance numbers, and an advanced version for learning complex structures. Experiments highlight the wide applicability of our model as a general-purpose encoder backbone with superior performance in various tasks, such as node classification on large graphs, semi-supervised image/text classification, and spatial-temporal dynamics prediction.
翻訳日:2023-04-05 18:10:42 公開日:2023-04-04
# 選挙に勝つチャンスがソーシャルメディア戦略に影響を及ぼす

The Chance of Winning Election Impacts on Social Media Strategy ( http://arxiv.org/abs/2301.07282v2 )

ライセンス: Link先を確認
Taichi Murayama, Akira Matsui, Kunihiro Miyazaki, Yasuko Matsubara, Yasushi Sakurai(参考訳) ソーシャルメディアは、政治俳優の選挙運動において最重要の場である。 多くの研究が党派関係の政治キャンペーンに注意を払っている一方で、政治家は勝利の確率に応じて異なるキャンペーンを行うこともできる。 例えば、主要な候補者は、その選挙におけるフリンジ候補者と同じ振る舞いをせず、その逆もしない。 しかし、選挙の確率に応じてソーシャルメディアの政治キャンペーン戦略の違いについてはほとんど分かっていない。 我々は,質問者のツイートをユーザ,トピック,回答の感情の観点から分析することでこの問題に対処する。 我々の研究では、勝利の確率が上がるにつれて、候補者はコミュニケーションする対象を一般の人々から電化地区や特定の人(多くのフォロワーのアカウントやアカウントを検証する)まで絞り込むことがわかりました。 本研究は、候補者の選挙状況の新しい視点に基づく分析を通じて、候補者の選挙戦略に新たな洞察をもたらす。

Social media has been a paramount arena for election campaigns for political actors. While many studies have been paying attention to the political campaigns related to partisanship, politicians also can conduct different campaigns according to their chances of winning. Leading candidates, for example, do not behave the same as fringe candidates in their elections, and vice versa. We, however, know little about this difference in social media political campaign strategies according to their odds in elections. We tackle this problem by analyzing candidates' tweets in terms of users, topics, and sentiment of replies. Our study finds that, as their chances of winning increase, candidates narrow the targets they communicate with, from people in general to the electrical districts and specific persons (verified accounts or accounts with many followers). Our study brings new insights into the candidates' campaign strategies through the analysis based on the novel perspective of the candidate's electoral situation.
翻訳日:2023-04-05 18:10:06 公開日:2023-04-04
# Async-HFL:階層型IoTネットワークにおける効率的でロバストな非同期フェデレーション学習

Async-HFL: Efficient and Robust Asynchronous Federated Learning in Hierarchical IoT Networks ( http://arxiv.org/abs/2301.06646v3 )

ライセンス: Link先を確認
Xiaofan Yu, Ludmila Cherkasova, Harsh Vardhan, Quanling Zhao, Emily Ekaireb, Xiyuan Zhang, Arya Mazumdar, Tajana Rosing(参考訳) フェデレーテッド・ラーニング(FL)は近年,デバイス上での分散学習パラダイムとして関心が高まっている。 しかし、現実のIoT(Internet-of-Things)ネットワークにFLを階層的にデプロイする上で、いくつかの課題に対処する必要がある。 既存の研究では、データの異種性、システムの異種性、予期せぬストラグラー、および可視性など、さまざまなアプローチが提案されているが、階層的かつ信頼性の低いIoTネットワークにおけるすべての課題に対処する体系的なソリューションは、いずれも提供されていない。 本稿では,一般的な3層IoTネットワークアーキテクチャでFLを実行するための非同期かつ階層的なフレームワーク(Async-HFL)を提案する。 遅延が大きく異なるため、async-hflはゲートウェイとクラウドの両方で非同期集約を使用するため、待ち時間を回避することができる。 システム不均一性とストラグラー下での収束速度におけるAsync-HFLの可能性を完全に解き放つために,ゲートウェイレベルでのデバイス選択と,クラウドレベルでのデバイスゲートウェイアソシエーションを設計する。 デバイス選択はエッジデバイスを選択してリアルタイムにローカルトレーニングをトリガーし、デバイスゲートウェイアソシエーションは複数のクラウドエポックの後に定期的にネットワークトポロジを決定する。 ns-3とNYCMeshのネットワークトポロジに基づく大規模シミュレーションを用いてAsync-HFLの収束速度を評価する。 その結果,Async-HFLは壁面時間で1.08-1.31倍早く収束し,最先端の非同期FLアルゴリズムと比較して通信コストを最大21.6%削減できることがわかった。 さらに, Async-HFLを物理配置で検証し, 予期せぬストラグラー下での堅牢な収束を観察する。

Federated Learning (FL) has gained increasing interest in recent years as a distributed on-device learning paradigm. However, multiple challenges remain to be addressed for deploying FL in real-world Internet-of-Things (IoT) networks with hierarchies. Although existing works have proposed various approaches to account data heterogeneity, system heterogeneity, unexpected stragglers and scalibility, none of them provides a systematic solution to address all of the challenges in a hierarchical and unreliable IoT network. In this paper, we propose an asynchronous and hierarchical framework (Async-HFL) for performing FL in a common three-tier IoT network architecture. In response to the largely varied delays, Async-HFL employs asynchronous aggregations at both the gateway and the cloud levels thus avoids long waiting time. To fully unleash the potential of Async-HFL in converging speed under system heterogeneities and stragglers, we design device selection at the gateway level and device-gateway association at the cloud level. Device selection chooses edge devices to trigger local training in real-time while device-gateway association determines the network topology periodically after several cloud epochs, both satisfying bandwidth limitation. We evaluate Async-HFL's convergence speedup using large-scale simulations based on ns-3 and a network topology from NYCMesh. Our results show that Async-HFL converges 1.08-1.31x faster in wall-clock time and saves up to 21.6% total communication cost compared to state-of-the-art asynchronous FL algorithms (with client selection). We further validate Async-HFL on a physical deployment and observe robust convergence under unexpected stragglers.
翻訳日:2023-04-05 18:09:52 公開日:2023-04-04
# メタパスに基づくソーシャルメディアの反響検出手法

A Meta Path-based Approach for Rumor Detection on Social Media ( http://arxiv.org/abs/2301.04341v2 )

ライセンス: Link先を確認
Bita Azarijoo, Mostafa Salehi, Shaghayegh Najari(参考訳) 人々の日常生活におけるソーシャルメディアの役割は、従来の情報源よりもソーシャルネットワークを通じてニュースを受け取る傾向が強まっている。 この公衆行動の変化は、ソーシャルメディア上で偽ニュースを広めるための扉を開き、その後、経済、政治、社会の悪影響を招き、大衆の信頼を損なう。 噂を検知する手法は数多く提案されているが,そのほとんどは,ニュース伝搬ネットワークの異種性を完全に活用するものではない。 この目的から,提案するアーキテクチャをベースラインとして検討し,メタパスに基づく埋め込みの概念を用いて,そのアーキテクチャ上の異種うわさの伝搬から構造的特徴抽出を行う。 我々はメタパスに基づくGlobal Local Attention Network (MGLAN) と名付けた。 3つの最先端データセットに関する広範な実験分析により、mglanは異なるノードタイプに対するノードレベルの識別を捉えることで、他のモデルよりも優れていることが示されている。

The prominent role of social media in people's daily lives has made them more inclined to receive news through social networks than traditional sources. This shift in public behavior has opened doors for some to diffuse fake news on social media; and subsequently cause negative economic, political, and social consequences as well as distrust among the public. There are many proposed methods to solve the rumor detection problem, most of which do not take full advantage of the heterogeneous nature of news propagation networks. With this intention, we considered a previously proposed architecture as our baseline and performed the idea of structural feature extraction from the heterogeneous rumor propagation over its architecture using the concept of meta path-based embeddings. We named our model Meta Path-based Global Local Attention Network (MGLAN). Extensive experimental analysis on three state-of-the-art datasets has demonstrated that MGLAN outperforms other models by capturing node-level discrimination to different node types.
翻訳日:2023-04-05 18:09:24 公開日:2023-04-04
# ハードコンビネート問題に対する量子価格ベースカラム生成フレームワーク

Quantum pricing-based column-generation framework for hard combinatorial problems ( http://arxiv.org/abs/2301.02637v2 )

ライセンス: Link先を確認
Wesley da Silva Coelho, Lo\"ic Henriet, Louis-Paul Henry(参考訳) 本研究では、中性原子プラットフォームに基づく量子サンプリング器を含む完全ハイブリッド古典量子アルゴリズムを提案する。 このアプローチは、オペレーションリサーチの分野で開発された古典列生成フレームワークにインスパイアされ、量子プロシージャが古典的な解法にどのように役立つかを示す。 提案手法を最小頂点色問題にベンチマークし,提案したハイブリッド量子古典列生成アルゴリズムが比較的数イテレーションで優れた解が得られることを示す。 結果と最先端の古典的手法と量子的アプローチを比較した。

In this work, we present a complete hybrid classical-quantum algorithm involving a quantum sampler based on neutral atom platforms. This approach is inspired by classical column generation frameworks developed in the field of Operations Research and shows how quantum procedures can assist classical solvers in addressing hard combinatorial problems. We benchmark our method on the Minimum Vertex Coloring problem and show that the proposed hybrid quantum-classical column generation algorithm can yield good solutions in relatively few iterations. We compare our results with state-of-the-art classical and quantum approaches.
翻訳日:2023-04-05 18:09:07 公開日:2023-04-04
# 効果的な注意モデルのための移動ブロックの再考

Rethinking Mobile Block for Efficient Attention-based Models ( http://arxiv.org/abs/2301.01146v3 )

ライセンス: Link先を確認
Jiangning Zhang, Xiangtai Li, Jian Li, Liang Liu, Zhucun Xue, Boshen Zhang, Zhengkai Jiang, Tianxin Huang, Yabiao Wang, and Chengjie Wang(参考訳) 本稿では,パラメータやフラップ,パフォーマンスをトレードオフしながら,高密度予測のための現代的な,効率的で軽量なモデルを開発することに焦点を当てる。 Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。 この作業では、効率的なIRBとTransformerの効率的なコンポーネントから軽量インフラストラクチャを再考し、CNNベースのIRBを注目モデルに拡張し、軽量モデル設計のための1つの残留Meta Mobile Block(MMB)を抽象化する。 単純かつ効果的な設計基準に従うと、現代の逆Residual Mobile Block (iRMB) を推論し、下流タスクにのみiRMBを組み込んだResNetライクなEMO(Efficient MOdel)を構築する。 imagenet-1k、coco2017、ade20kベンチマークに関する広範な実験では、iphone14でedgenextよりも2.8-4.0高速で実行しながら、同等のcnn/attentionベースのモデルを上回る71.5、75.1、78.4 top-1を達成しています。 コードは利用可能。

This paper focuses on developing modern, efficient, lightweight models for dense predictions while trading off parameters, FLOPs, and performance. Inverted Residual Block (IRB) serves as the infrastructure for lightweight CNNs, but no counterpart has been recognized by attention-based studies. This work rethinks lightweight infrastructure from efficient IRB and effective components of Transformer from a unified perspective, extending CNN-based IRB to attention-based models and abstracting a one-residual Meta Mobile Block (MMB) for lightweight model design. Following simple but effective design criterion, we deduce a modern Inverted Residual Mobile Block (iRMB) and build a ResNet-like Efficient MOdel (EMO) with only iRMB for down-stream tasks. Extensive experiments on ImageNet-1K, COCO2017, and ADE20K benchmarks demonstrate the superiority of our EMO over state-of-the-art methods, e.g., EMO-1M/2M/5M achieve 71.5, 75.1, and 78.4 Top-1 that surpass equal-order CNN-/Attention-based models, while trading-off the parameter, efficiency, and accuracy well: running 2.8-4.0 faster than EdgeNeXt on iPhone14. Code is available.
翻訳日:2023-04-05 18:08:59 公開日:2023-04-04
# スケーラブルな物理的一貫性のあるニューラルネットワークに向けて:データ駆動型マルチゾーンサーマルビルディングモデルへの応用

Towards Scalable Physically Consistent Neural Networks: an Application to Data-driven Multi-zone Thermal Building Models ( http://arxiv.org/abs/2212.12380v4 )

ライセンス: Link先を確認
Loris Di Natale, Bratislav Svetozarevic, Philipp Heer, and Colin Neil Jones(参考訳) 収集されるデータが増えるにつれて、データ駆動モデリングの手法が近年人気が高まっている。 物理的に健全であるが、古典的なグレーボックスモデルはしばしば識別とスケールが困難であり、その正確さは表現力の制限によって妨げられる可能性がある。 一方で、現在ではニューラルネットワーク(nns)に依存する古典的なブラックボックス法は、データから統計的パターンを導出することで、大規模でも印象的なパフォーマンスを達成していることが多い。 しかし、それらは基礎となる物理法則に完全に従わないままであり、現実世界の物理システムに対する決定がそれらに基づく場合、破滅的な失敗につながる可能性がある。 物理的に一貫性のあるニューラルネットワーク(PCNN)は最近、前述の問題に対処するために開発された。 そこで本研究では,PCNNを用いて建築温度動態をモデル化し,従来のグレーボックス法とブラックボックス法とを徹底的に比較する。 より正確には、3つの異なるpcnn拡張を設計し、アーキテクチャのモジュラリティと柔軟性を例示し、その物理的一貫性を正式に証明します。 実例では,PCNNは最先端の精度を達成でき,制約構造にもかかわらず従来のNNモデルよりも優れていた。 さらに、我々の調査は、完全に物理に依存しないまま、NNが優れたパフォーマンスを達成していることを示す明確なイラストを提供している。 この性能は計算複雑性のコストがかかるが、pcnnは他の物理的に一貫性のある手法と比較して17-35%の精度向上を示し、最先端の性能を持つスケーラブルな物理的一貫性モデルへの道を開く。

With more and more data being collected, data-driven modeling methods have been gaining in popularity in recent years. While physically sound, classical gray-box models are often cumbersome to identify and scale, and their accuracy might be hindered by their limited expressiveness. On the other hand, classical black-box methods, typically relying on Neural Networks (NNs) nowadays, often achieve impressive performance, even at scale, by deriving statistical patterns from data. However, they remain completely oblivious to the underlying physical laws, which may lead to potentially catastrophic failures if decisions for real-world physical systems are based on them. Physically Consistent Neural Networks (PCNNs) were recently developed to address these aforementioned issues, ensuring physical consistency while still leveraging NNs to attain state-of-the-art accuracy. In this work, we scale PCNNs to model building temperature dynamics and propose a thorough comparison with classical gray-box and black-box methods. More precisely, we design three distinct PCNN extensions, thereby exemplifying the modularity and flexibility of the architecture, and formally prove their physical consistency. In the presented case study, PCNNs are shown to achieve state-of-the-art accuracy, even outperforming classical NN-based models despite their constrained structure. Our investigations furthermore provide a clear illustration of NNs achieving seemingly good performance while remaining completely physics-agnostic, which can be misleading in practice. While this performance comes at the cost of computational complexity, PCNNs on the other hand show accuracy improvements of 17-35% compared to all other physically consistent methods, paving the way for scalable physically consistent models with state-of-the-art performance.
翻訳日:2023-04-05 18:07:33 公開日:2023-04-04
# バイアス付きランダムアクセスコード

Biased Random Access Codes ( http://arxiv.org/abs/2302.08494v2 )

ライセンス: Link先を確認
Gabriel Pereira Alves, Nicolas Gigena, J\k{e}drzej Kaniewski(参考訳) ランダムアクセスコード(rac)は、送信者がランダムなメッセージをより短いメッセージにエンコードし、受信者が復号する通信タスクであり、元のメッセージのランダムに選択された文字が何らかの確率で復元される。 回収されるメッセージと文字の両方が均一に分散されていると仮定される。 本稿では、これらの入力のより一般的な分布を可能にすることにより、このプロトコルを拡張し、古典的または量子的資源を用いてプロトコル性能を最適化する符号化および復号戦略を変更する。 本稿では,これらのバイアス付きRACの性能を数値解析ツールと解析ツールの両方で最適化する問題にアプローチする。 数値面では、古典的および量子的戦略における最適性能の数値評価を可能にするアルゴリズムと、それらを実装するために設計されたpythonパッケージであるrac-toolsを提案する。 次に、この数値ツールを使用して、$n^2 \mapsto 1$と$^d \mapsto 1$シナリオにおけるバイアス付きracの単一パラメータ族を調べる。 n^2 \mapsto 1$ シナリオの rac については、入力が相関しない場合の一般的な上限が導出され、n=2$ の量子値と一致し、場合によっては $n=3$ となる。 さらに,この上界自己テストペアおよびランク1射影計測のトリプルをそれぞれ達成できることが示される。 2^d \mapsto 1$のシナリオでは、入力文字列の分布が偏りがない場合、互いに偏りのない測定によって常に達成可能であることが示されている。

A Random Access Code (RAC) is a communication task in which the sender encodes a random message into a shorter one to be decoded by the receiver so that a randomly chosen character of the original message is recovered with some probability. Both the message and the character to be recovered are assumed to be uniformly distributed. In this paper, we extend this protocol by allowing more general distributions of these inputs, which alters the encoding and decoding strategies optimizing the protocol performance, either with classical or quantum resources. We approach the problem of optimizing the performance of these biased RACs with both numerical and analytical tools. On the numerical front, we present algorithms that allow a numerical evaluation of the optimal performance over both classical and quantum strategies and provide a Python package designed to implement them, called RAC-tools. We then use this numerical tool to investigate single-parameter families of biased RACs in the $n^2 \mapsto 1$ and $2^d \mapsto 1$ scenarios. For RACs in the $n^2 \mapsto 1$ scenario, we derive a general upper bound for the cases in which the inputs are not correlated, which coincides with the quantum value for $n=2$ and, in some cases for $n=3$. Moreover, it is shown that attaining this upper bound self-tests pairs or triples of rank-1 projective measurements, respectively. An analogous upper bound is derived for the value of RACs in the $2^d \mapsto 1$ scenario which is shown to be always attainable using mutually unbiased measurements if the distribution of input strings is unbiased.
翻訳日:2023-04-05 18:00:15 公開日:2023-04-04
# 関数上の学習分布のための変分混合ハイパージェネレータ

Variational Mixture of HyperGenerators for Learning Distributions Over Functions ( http://arxiv.org/abs/2302.06223v2 )

ライセンス: Link先を確認
Batuhan Koyuncu, Pablo Sanchez-Martin, Ignacio Peis, Pablo M. Olmos, Isabel Valera(参考訳) 近年のアプローチは、関数空間上の生成モデルを提案するために暗黙の神経表現(INR)に基づいている。 しかし、データ計算の欠如など推論タスクを扱う場合や、直接処理できない場合には計算コストがかかる。 本研究では,VAMoHと呼ばれる新しい深層生成モデルを提案する。 VAMoHはINRを用いた連続関数のモデリング機能と変分オートエンコーダ(VAE)の推論機能を組み合わせたものである。 さらにVAMoHは、事前を定義するための正規化フローと、データログライクな状態をパラメータ化するハイパーネットワークの混合に依存している。 これによりVAMoHは高い表現能力と解釈可能性が得られる。 画像やボクセル,気候データなど,さまざまな種類のデータタイプの実験を通じて,VAMoHは連続関数上の豊富な分布を効果的に学習できることを示す。 さらに、条件付き超解像生成やインペインティングなどの推論関連タスクを、計算処理の要求を少なくしつつ、従来の手法よりも優れている。

Recent approaches build on implicit neural representations (INRs) to propose generative models over function spaces. However, they are computationally costly when dealing with inference tasks, such as missing data imputation, or directly cannot tackle them. In this work, we propose a novel deep generative model, named VAMoH. VAMoH combines the capabilities of modeling continuous functions using INRs and the inference capabilities of Variational Autoencoders (VAEs). In addition, VAMoH relies on a normalizing flow to define the prior, and a mixture of hypernetworks to parametrize the data log-likelihood. This gives VAMoH a high expressive capability and interpretability. Through experiments on a diverse range of data types, such as images, voxels, and climate data, we show that VAMoH can effectively learn rich distributions over continuous functions. Furthermore, it can perform inference-related tasks, such as conditional super-resolution generation and in-painting, as well or better than previous approaches, while being less computationally demanding.
翻訳日:2023-04-05 17:59:43 公開日:2023-04-04
# 量子ノクローニングとノンテレポーテーションの計算的分離

A Computational Separation Between Quantum No-cloning and No-teleportation ( http://arxiv.org/abs/2302.01858v2 )

ライセンス: Link先を確認
Barak Nehoran, Mark Zhandry(参考訳) 量子情報の基本的なno-go定理の2つは、非閉定理(一般量子状態の複写は不可能である)とno-teleportation定理(非共有エンタングルメントのない古典的なチャネル上の量子状態の送信禁止)である。 量子状態の集合が絡み合わずにテレポート可能であるという意味では、それらが同値であることが知られている。 本研究の主目的は,計算効率を考慮した場合ではない。 量子状態と量子オラクルの集合は、これらの状態が効率的にクローン可能であるが、絡み合わずに効率的にテレポートできない。 逆のシナリオは不可能である(絡み合いなしでテレポートできる状態は常に自明にクローン化できる)ことから、この2つの重要な非go特性の間で最も完全な量子オラクル分離が可能になる。 さらに複雑性クラス $\mathsf{clonableqma}$ の研究も行っており、目撃者が効率的にclonableである $\mathsf{qma}$ のサブセットである。 その結果、量子オラクルを$\mathsf{clonableQMA}$とクラス$\mathsf{QCMA}$で分離し、その証人は古典的な弦に制限される。 また、これらのクラスを分離するoracleフリーのpromise問題も提案します。 最終的に、暗号に対するクローナブルだがテイルポータブルな状態の応用を実証し、そのような状態が鍵の消去からどのように保護できるかを示す。

Two of the fundamental no-go theorems of quantum information are the no-cloning theorem (that it is impossible to make copies of general quantum states) and the no-teleportation theorem (the prohibition on sending quantum states over classical channels without pre-shared entanglement). They are known to be equivalent, in the sense that a collection of quantum states is teleportable without entanglement if and only if it is clonable. Our main result suggests that this is not the case when computational efficiency is considered. We give a collection of quantum states and quantum oracles relative to which these states are efficiently clonable but not efficiently teleportable without entanglement. Given that the opposite scenario is impossible (states that can be teleported without entanglement can always trivially be cloned), this gives the most complete quantum oracle separation possible between these two important no-go properties. We additionally study the complexity class $\mathsf{clonableQMA}$, a subset of $\mathsf{QMA}$ whose witnesses are efficiently clonable. As a consequence of our main result, we give a quantum oracle separation between $\mathsf{clonableQMA}$ and the class $\mathsf{QCMA}$, whose witnesses are restricted to classical strings. We also propose a candidate oracle-free promise problem separating these classes. We finally demonstrate an application of clonable-but-not-teleportable states to cryptography, by showing how such states can be used to protect against key exfiltration.
翻訳日:2023-04-05 17:59:14 公開日:2023-04-04
# オフライン・オンライン強化学習のための政策拡張

Policy Expansion for Bridging Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2302.00935v2 )

ライセンス: Link先を確認
Haichao Zhang, We Xu, Haonan Yu(参考訳) オフラインデータによる事前学習と強化学習を用いたオンライン微調整は、サンプル効率と性能の観点から両世界の最善を生かして制御政策を学ぶ上で有望な戦略である。 1つの自然なアプローチは、オンライン学習のポリシーをトレーニングされたオフラインで初期化することだ。 本稿では,この課題に対する政策拡張スキームを紹介する。 オフラインポリシーを学んだ後、ポリシーセットでひとつの候補ポリシーとして使用します。 そして、そのポリシーセットを、さらなる学習に責任を持つ別のポリシーで拡張します。 2つのポリシーは、環境と対話するための適応的な方法で構成されます。 このアプローチでは、以前に学習したオフラインポリシがオンライン学習中に完全に保持されるため、オンライン学習の初期段階におけるオフラインポリシの有用な動作の破棄や、オフラインポリシが自然に探索に適応的に参加することといった潜在的な問題を軽減できる。 さらに、新たな有用な行動は、学習を通じて新たに追加されたポリシーによって捉えられる可能性がある。 様々な課題に対して実験を行い,提案手法の有効性を実証した。

Pre-training with offline data and online fine-tuning using reinforcement learning is a promising strategy for learning control policies by leveraging the best of both worlds in terms of sample efficiency and performance. One natural approach is to initialize the policy for online learning with the one trained offline. In this work, we introduce a policy expansion scheme for this task. After learning the offline policy, we use it as one candidate policy in a policy set. We then expand the policy set with another policy which will be responsible for further learning. The two policies will be composed in an adaptive manner for interacting with the environment. With this approach, the policy previously learned offline is fully retained during online learning, thus mitigating the potential issues such as destroying the useful behaviors of the offline policy in the initial stage of online learning while allowing the offline policy participate in the exploration naturally in an adaptive manner. Moreover, new useful behaviors can potentially be captured by the newly added policy through learning. Experiments are conducted on a number of tasks and the results demonstrate the effectiveness of the proposed approach.
翻訳日:2023-04-05 17:58:44 公開日:2023-04-04
# グラフ上のサイレント多数予測:知識伝達型グラフニューラルネットワーク

Predicting the Silent Majority on Graphs: Knowledge Transferable Graph Neural Network ( http://arxiv.org/abs/2302.00873v2 )

ライセンス: Link先を確認
Wendong Bi, Bingbing Xu, Xiaoqian Sun, Li Xu, Huawei Shen, Xueqi Cheng(参考訳) 声門ノード(声門少数派)とサイレントノード(サイレント多数派)からなるグラフ、すなわちVS-Graphは現実世界に広く存在している。 声帯には豊富な特徴とラベルがある傾向がある。 対照的に、サイレントノードは不完全な特徴と稀なラベルしか持たず、例えば、政治家(声)の記述と政治的傾向は豊富であるが、Twitterのソーシャルネットワーク上の一般の人々(サイレント)には及ばない。 サイレントマジョリティの予測は、依然として極めて困難な問題である。 しかし、既存のメッセージパスベースのGNNの多くは、すべてのノードが、欠落した機能やドメイン間の分散シフトを考慮せずに、同じドメインに属していると仮定しているため、VS-Graphに対処する能力は貧弱である。 上記の課題に対処するために,音声ノードからサイレントノードへ知識を伝達することで,メッセージパッシングと表現学習における分散シフトをモデル化する知識伝達可能なグラフニューラルネットワーク(KT-GNN)を提案する。 具体的には、ドメイン差を保ちながらノード表現学習のためのドメイン適応型「機能補完とメッセージパッシング機構」を設計する。 そして、KL分割に基づく知識伝達可能な分類器に従う。 実世界のシナリオに関する総合的な実験(企業財務リスク評価と政治選挙)は,本手法の優れた性能を示す。 ソースコードがオープンソース化されました。

Graphs consisting of vocal nodes ("the vocal minority") and silent nodes ("the silent majority"), namely VS-Graph, are ubiquitous in the real world. The vocal nodes tend to have abundant features and labels. In contrast, silent nodes only have incomplete features and rare labels, e.g., the description and political tendency of politicians (vocal) are abundant while not for ordinary people (silent) on the twitter's social network. Predicting the silent majority remains a crucial yet challenging problem. However, most existing message-passing based GNNs assume that all nodes belong to the same domain, without considering the missing features and distribution-shift between domains, leading to poor ability to deal with VS-Graph. To combat the above challenges, we propose Knowledge Transferable Graph Neural Network (KT-GNN), which models distribution shifts during message passing and representation learning by transferring knowledge from vocal nodes to silent nodes. Specifically, we design the domain-adapted "feature completion and message passing mechanism" for node representation learning while preserving domain difference. And a knowledge transferable classifier based on KL-divergence is followed. Comprehensive experiments on real-world scenarios (i.e., company financial risk assessment and political elections) demonstrate the superior performance of our method. Our source code has been open sourced.
翻訳日:2023-04-05 17:58:28 公開日:2023-04-04
# 言語モデルにおける個人識別情報漏洩の分析

Analyzing Leakage of Personally Identifiable Information in Language Models ( http://arxiv.org/abs/2302.00539v2 )

ライセンス: Link先を確認
Nils Lukas, Ahmed Salem, Robert Sim, Shruti Tople, Lukas Wutschitz and Santiago Zanella-B\'eguelin(参考訳) 言語モデル (LM) は、文レベルメンバーシップ推論と再構築攻撃を通じて、トレーニングデータに関する情報を漏洩させる。 PII(Personally Identible Information)に漏洩するLMのリスクを理解することは、PIIの漏洩を防ぐためにスクラブなどのデータセットキュレーション技術が十分であるという誤った仮定によるものである。 スクレイビング技術は、PII漏洩のリスクを防止しない: 実際には、スレービングは不完全であり、開示の最小化とデータセットの有用性の維持の間のトレードオフをバランスさせなければならない。 一方,PIIの開示を防止するために,文レベルのプライバシーやユーザレベルのプライバシーを保証するために設計された差分プライバシーなどのアルゴリズムによる防御がどの程度かは明らかでない。 本研究では,LMへのAPIアクセスのみによるブラックボックス抽出,推論,再構成攻撃による3種類のPIIリークに対する厳密なゲームベース定義を提案する。 事例法,医療,電子メールの3分野について,GPT-2モデルに対する攻撃を詳細に検討した。 私たちの主な貢献は (i)既存の攻撃よりも最大10$\times$のpiiシーケンスを抽出することができる新規な攻撃。 (ii) 文レベルの差分プライバシーはPII開示のリスクを低減させるが、PIIシークエンスの約3%は漏洩し、 (iii)記録レベルのメンバーシップ推論とpii再構成との微妙な関係

Language Models (LMs) have been shown to leak information about training data through sentence-level membership inference and reconstruction attacks. Understanding the risk of LMs leaking Personally Identifiable Information (PII) has received less attention, which can be attributed to the false assumption that dataset curation techniques such as scrubbing are sufficient to prevent PII leakage. Scrubbing techniques reduce but do not prevent the risk of PII leakage: in practice scrubbing is imperfect and must balance the trade-off between minimizing disclosure and preserving the utility of the dataset. On the other hand, it is unclear to which extent algorithmic defenses such as differential privacy, designed to guarantee sentence- or user-level privacy, prevent PII disclosure. In this work, we introduce rigorous game-based definitions for three types of PII leakage via black-box extraction, inference, and reconstruction attacks with only API access to an LM. We empirically evaluate the attacks against GPT-2 models fine-tuned with and without defenses on three domains: case law, health care, and e-mails. Our main contributions are (i) novel attacks that can extract up to 10$\times$ more PII sequences than existing attacks, (ii) showing that sentence-level differential privacy reduces the risk of PII disclosure but still leaks about 3% of PII sequences, and (iii) a subtle connection between record-level membership inference and PII reconstruction.
翻訳日:2023-04-05 17:58:05 公開日:2023-04-04
# Baxter-Fendley自由パラフェミオンモデルにおける例外点

Exceptional Points in the Baxter-Fendley Free Parafermion Model ( http://arxiv.org/abs/2301.11031v3 )

ライセンス: Link先を確認
Robert A. Henry and Murray T. Batchelor(参考訳) 量子イジング鎖のような特定のスピン鎖は自由フェルミオンスペクトルを持ち、分離された2レベルフェルミオン系の和として表現できる。 自由パラフェルミオン(free parafermions)は、z(n)$-symmetric clockモデルへの単純な一般化である。 1989年、バクスターはイジングチェーンを直接一般化する非エルミート的だが$pt$対称モデルを発見したが、これは後にフェンドリーによって自由パラフェルミオンスペクトルであると認識された。 モデルの磁場パラメータを複素平面に拡張することにより、一連の例外点が出現し、自由スペクトルを定義する準エネルギーが縮退することを示した。 これらの点の位置に関する解析式を導出し,様々な数値解析を行った。 これらの例外点は、複雑な横体を持つイジング鎖にも存在する。 モデルは通常これらの例外点において$PT$対称ではないが、それらの近接性は$PT$対称実数直線上のモデルに大きな影響を与える。 さらに、モデルのある場合には、(負の場を持つ)実数直線上に例外点が現れることがある。

Certain spin chains, such as the quantum Ising chain, have free fermion spectra which can be expressed as the sum of decoupled two-level fermionic systems. Free parafermions are a simple generalisation of this idea to $Z(N)$-symmetric clock models. In 1989 Baxter discovered a non-Hermitian but $PT$-symmetric model directly generalising the Ising chain, which was much later recognised by Fendley to be a free parafermion spectrum. By extending the model's magnetic field parameter to the complex plane, it is shown that a series of exceptional points emerges, where the quasienergies defining the free spectrum become degenerate. An analytic expression for the locations of these points is derived, and various numerical investigations are performed. These exceptional points also exist in the Ising chain with a complex transverse field. Although the model is not in general $PT$-symmetric at these exceptional points, their proximity can have a profound impact on the model on the $PT$-symmetric real line. Furthermore, in certain cases of the model an exceptional point may appear on the real line (with negative field).
翻訳日:2023-04-05 17:57:39 公開日:2023-04-04
# ディフューザによる画像の検出

Detecting Images Generated by Diffusers ( http://arxiv.org/abs/2303.05275v2 )

ライセンス: Link先を確認
Davide Alessandro Coccomini, Andrea Esuli, Fabrizio Falchi, Claudio Gennaro, Giuseppe Amato(参考訳) 本稿では,テキスト・画像拡散モデルにより生成された画像を検出するタスクについて検討する。 これを評価するために,MSCOCOおよびWikimediaデータセットのキャプションから生成された画像について,静的拡散とGLIDEの2つの最先端モデルを用いて検討する。 本実験では,クリップや従来の畳み込みニューラルネットワーク(cnns)から抽出した特徴から,単純多層パーセプトロン(mlps)を用いて生成画像の検出が可能であることを示す。 また,安定拡散によって生成した画像にトレーニングされたモデルが比較的よく検出できるのを観察したが,逆は成り立たない。 最後に,画像に関連付けられたテキスト情報を組み込むことで検出結果が著しく向上することは稀であるが,画像に表される被写体の種類が性能に有意な影響を与える可能性があることを見出した。 この研究は、生成された画像の検出可能性に関する洞察を提供し、現実世界のアプリケーションにおけるセキュリティとプライバシの懸念に影響を及ぼす。 結果はhttps://github.com/davide-coccomini/detecting-images-create-by-diffusersで再生できます。

This paper explores the task of detecting images generated by text-to-image diffusion models. To evaluate this, we consider images generated from captions in the MSCOCO and Wikimedia datasets using two state-of-the-art models: Stable Diffusion and GLIDE. Our experiments show that it is possible to detect the generated images using simple Multi-Layer Perceptrons (MLPs), starting from features extracted by CLIP, or traditional Convolutional Neural Networks (CNNs). We also observe that models trained on images generated by Stable Diffusion can detect images generated by GLIDE relatively well, however, the reverse is not true. Lastly, we find that incorporating the associated textual information with the images rarely leads to significant improvement in detection results but that the type of subject depicted in the image can have a significant impact on performance. This work provides insights into the feasibility of detecting generated images, and has implications for security and privacy concerns in real-world applications. The code to reproduce our results is available at: https://github.com/davide-coccomini/Detecting-Images-Generated-by-Diffusers
翻訳日:2023-04-05 17:52:06 公開日:2023-04-04
# 走るな、歩くな、より高速なニューラルネットワークのためのより高いFLOPS

Run, Don't Walk: Chasing Higher FLOPS for Faster Neural Networks ( http://arxiv.org/abs/2303.03667v2 )

ライセンス: Link先を確認
Jierun Chen, Shiu-hong Kao, Hao He, Weipeng Zhuo, Song Wen, Chul-Ho Lee, S.-H. Gary Chan(参考訳) 高速ニューラルネットワークを設計するために、多くの研究が浮動小数点演算(FLOP)の削減に重点を置いている。 しかし、このようなFLOPの削減は、必ずしも同様のレイテンシの低下につながるとは限らない。 これは主に非効率に低い浮動小数点演算(flops)に由来する。 高速なネットワークを実現するために、我々は人気のある演算子を再検討し、そのような低いFLOPSは演算子のメモリアクセス、特に奥行きの畳み込みによるものであることを示す。 そこで我々は,冗長計算とメモリアクセスを同時に削減することにより,空間的特徴をより効率的に抽出する新しい部分畳み込み(pconv)を提案する。 PConv上に構築したFasterNetは,さまざまなビジョンタスクの精度を損なうことなく,さまざまなデバイス上での動作速度を大幅に向上する,ニューラルネットワークの新たなファミリーである。 例えば、ImageNet-1kでは、私たちの小さなFasterNet-T0は、2.8\times$、3.3\times$、2.4\times$は、GPU、CPU、ARMプロセッサのMobileViT-XXSよりも高速で、2.9\%$である。 当社の大きなFasterNet-Lは、新興のSwin-Bと同等の83.5\%$ top-1の精度で、GPUでは36\%$高い推論スループットを持ち、CPUでは37\%$計算時間を節約しています。 コードは \url{https://github.com/JierunChen/FasterNet} で入手できる。

To design fast neural networks, many works have been focusing on reducing the number of floating-point operations (FLOPs). We observe that such reduction in FLOPs, however, does not necessarily lead to a similar level of reduction in latency. This mainly stems from inefficiently low floating-point operations per second (FLOPS). To achieve faster networks, we revisit popular operators and demonstrate that such low FLOPS is mainly due to frequent memory access of the operators, especially the depthwise convolution. We hence propose a novel partial convolution (PConv) that extracts spatial features more efficiently, by cutting down redundant computation and memory access simultaneously. Building upon our PConv, we further propose FasterNet, a new family of neural networks, which attains substantially higher running speed than others on a wide range of devices, without compromising on accuracy for various vision tasks. For example, on ImageNet-1k, our tiny FasterNet-T0 is $2.8\times$, $3.3\times$, and $2.4\times$ faster than MobileViT-XXS on GPU, CPU, and ARM processors, respectively, while being $2.9\%$ more accurate. Our large FasterNet-L achieves impressive $83.5\%$ top-1 accuracy, on par with the emerging Swin-B, while having $36\%$ higher inference throughput on GPU, as well as saving $37\%$ compute time on CPU. Code is available at \url{https://github.com/JierunChen/FasterNet}.
翻訳日:2023-04-05 17:51:45 公開日:2023-04-04
# 画像における物体接触検出

Detecting Human-Object Contact in Images ( http://arxiv.org/abs/2303.03373v2 )

ライセンス: Link先を確認
Yixin Chen, Sai Kumar Dwivedi, Michael J. Black, Dimitrios Tzionas(参考訳) 人間は常にオブジェクトに接触し、タスクを動かします。 したがって、人間中心の人工知能を構築するためには、人間と物体の接触を検出することが重要である。 しかし、画像から身体とシーンの間の接触を検出する堅牢な方法はなく、そのような検出器を学ぶためのデータセットも存在しない。 我々はこのギャップをHOT(Human-Object conTact)で埋める。 HOTを構築するには,(1)3次元メッシュのPROXデータセットを3次元のシーンで移動させ,さらに3次元メッシュの近接と投影によって接触する2次元画像領域を自動的にアノテートする。 2) V-COCO, HAKE, Watch-n-Patchデータセットを用いて, 接触する2次元画像領域のポリゴンの描画を訓練したアノテータに依頼する。 また、人体の身体部分も注釈付けします。 当社のホットデータセットを使って、新しいコンタクト検出器をトレーニングし、単一のカラーイメージを入力として、2dコンタクトヒートマップと接触しているボディパートラベルを出力します。 これは、現在の足場または手動接触検出器を全身の完全な汎用性にまで拡張する、新しくて困難なタスクである。 検知器は、接触推定を周囲の体部とシーンの文脈を通して導くために、部分接触分岐を使用する。 我々は検出器を広範囲に評価し、定量的な結果から、モデルがベースラインよりも優れており、全てのコンポーネントがより良い性能に寄与することを示した。 オンラインリポジトリの画像から得られた結果は、合理的な検出と一般化を示している。

Humans constantly contact objects to move and perform tasks. Thus, detecting human-object contact is important for building human-centered artificial intelligence. However, there exists no robust method to detect contact between the body and the scene from an image, and there exists no dataset to learn such a detector. We fill this gap with HOT ("Human-Object conTact"), a new dataset of human-object contacts for images. To build HOT, we use two data sources: (1) We use the PROX dataset of 3D human meshes moving in 3D scenes, and automatically annotate 2D image areas for contact via 3D mesh proximity and projection. (2) We use the V-COCO, HAKE and Watch-n-Patch datasets, and ask trained annotators to draw polygons for the 2D image areas where contact takes place. We also annotate the involved body part of the human body. We use our HOT dataset to train a new contact detector, which takes a single color image as input, and outputs 2D contact heatmaps as well as the body-part labels that are in contact. This is a new and challenging task that extends current foot-ground or hand-object contact detectors to the full generality of the whole body. The detector uses a part-attention branch to guide contact estimation through the context of the surrounding body parts and scene. We evaluate our detector extensively, and quantitative results show that our model outperforms baselines, and that all components contribute to better performance. Results on images from an online repository show reasonable detections and generalizability.
翻訳日:2023-04-05 17:51:17 公開日:2023-04-04
# 固有のリアプノフ安定性を持つデータ駆動制御

Data-Driven Control with Inherent Lyapunov Stability ( http://arxiv.org/abs/2303.03157v2 )

ライセンス: Link先を確認
Youngjae Min, Spencer M. Richards, Navid Azizan(参考訳) 学習に基づく制御の最近の進歩は、ニューラルネットワークのような深い関数近似を利用して、時間とともに制御された動的システムの進化をモデル化している。 しかし、既知の非線形系に対する安定化フィードバック則の合成は、データに適合する複雑なパラメトリック表現を言うまでもなく、難しい作業であるため、ダイナミクスモデルと安定化制御の学習の問題は継続する。 そこで本研究では,非線形力学モデルのパラメトリック表現をデータから共同学習する手法であるlyapunov stability (coils) を用いた制御を提案する。 これを実現するために,本手法では,学習した制御器によって動的モデルの安定化を本質的に制約するパラメトリックリアプノフ関数を同時に学習する。 新たな構成によって保証される学習ダイナミクスの安定性に加えて,学習コントローラが学習ダイナミクスの忠実性に関する一定の仮定の下で真のダイナミクスを安定化することを示す。 最後に,様々な非線形力学系に対するCoILSの有効性を示す。

Recent advances in learning-based control leverage deep function approximators, such as neural networks, to model the evolution of controlled dynamical systems over time. However, the problem of learning a dynamics model and a stabilizing controller persists, since the synthesis of a stabilizing feedback law for known nonlinear systems is a difficult task, let alone for complex parametric representations that must be fit to data. To this end, we propose Control with Inherent Lyapunov Stability (CoILS), a method for jointly learning parametric representations of a nonlinear dynamics model and a stabilizing controller from data. To do this, our approach simultaneously learns a parametric Lyapunov function which intrinsically constrains the dynamics model to be stabilizable by the learned controller. In addition to the stabilizability of the learned dynamics guaranteed by our novel construction, we show that the learned controller stabilizes the true dynamics under certain assumptions on the fidelity of the learned dynamics. Finally, we demonstrate the efficacy of CoILS on a variety of simulated nonlinear dynamical systems.
翻訳日:2023-04-05 17:50:51 公開日:2023-04-04
# 教師なし言語間トークン化のための自己チューニングハイパーパラメータ

Self-tuning hyper-parameters for unsupervised cross-lingual tokenization ( http://arxiv.org/abs/2303.02427v2 )

ライセンス: Link先を確認
Anton Kolonin(参考訳) 言語に依存しない英語・ロシア語・中国語におけるメタラーニングの可能性を検討する。 先行研究で提案されている非教師付きトークン化モデルのハイパーパラメータ自動決定のためのメタラーニング手法を実装し,正規化アンチエントロピー,圧縮係数,クロススプリットf1スコアなどの人間に依存しない適合度関数と,これら3つの指標の加法および乗法的複合組み合わせを組み合わせることにより,従来のf1トークン化スコアに対してテストを行った。 後者と、英語とロシア語の3つの指標の付加的な組み合わせとの間には、かなり良い相関関係がある。 中国語の場合,F1スコアと圧縮係数との間に有意な相関が認められた。 この結果から,低リソース言語とデッド言語の堅牢な非教師付きトークン化の可能性が示唆され,異なる人間の文化で進化した異なる構造的最適化スキームを持つ効率的な記号的通信符号の進化の観点から,人間の言語を考えることが可能となった。

We explore the possibility of meta-learning for the language-independent unsupervised tokenization problem for English, Russian, and Chinese. We implement the meta-learning approach for automatic determination of hyper-parameters of the unsupervised tokenization model proposed in earlier works, relying on various human-independent fitness functions such as normalised anti-entropy, compression factor and cross-split F1 score, as well as additive and multiplicative composite combinations of the three metrics, testing them against the conventional F1 tokenization score. We find a fairly good correlation between the latter and the additive combination of the former three metrics for English and Russian. In case of Chinese, we find a significant correlation between the F 1 score and the compression factor. Our results suggest the possibility of robust unsupervised tokenization of low-resource and dead languages and allow us to think about human languages in terms of the evolution of efficient symbolic communication codes with different structural optimisation schemes that have evolved in different human cultures.
翻訳日:2023-04-05 17:50:35 公開日:2023-04-04
# 量子格子系における自由核子による一般固有状態熱化

General Eigenstate Thermalization via Free Cumulants in Quantum Lattice Systems ( http://arxiv.org/abs/2303.00713v2 )

ライセンス: Link先を確認
Silvia Pappalardi, Felix Fritzsch and Toma\v{z} Prosen(参考訳) ETH(Eigenstate-Thermalization-Hypothesis)は、量子統計力学を理解するための一般的な枠組みとして確立されている。 近年になって初めて、行列要素間の高次相関を考慮に入れ、理論上は自由確率の言語を用いて理性化できる、いわゆる一般ETH(General ETH)に注目が集まるようになった。 本研究では,高次相関器から自由累積体への分解を検証し,局所的な相互作用を持つ物理多体系における一般ETHの数値計算を行った。 局所的非可積分(カオス)量子多体系(スピンチェーンハミルトニアンとフロケットブリックワークユニタリ回路)の2つのクラスで正確な対角化を行う。 ETH が予測した 4 次自由累積において, 4 時間相関関数のダイナミクスが符号化されていることを示す。 その非自明な周波数依存は局所多体系の物理的性質を符号化し、ランダム行列の非構造的、回転不変なアンサンブルと区別する。

The Eigenstate-Thermalization-Hypothesis (ETH) has been established as the general framework to understand quantum statistical mechanics. Only recently has the attention been paid to so-called general ETH, which accounts for higher-order correlations among matrix elements, and that can be rationalized theoretically using the language of Free Probability. In this work, we perform the first numerical investigation of the general ETH in physical many-body systems with local interactions by testing the decomposition of higher-order correlators into free cumulants. We perform exact diagonalization on two classes of local non-integrable (chaotic) quantum many-body systems: spin chain Hamiltonians and Floquet brickwork unitary circuits. We show that the dynamics of four-time correlation functions are encoded in fourth-order free cumulants, as predicted by ETH. Their non-trivial frequency dependence encodes the physical properties of local many-body systems and distinguishes them from structureless, rotationally invariant ensembles of random matrices.
翻訳日:2023-04-05 17:50:13 公開日:2023-04-04
# 局所固有投影による3次元生成モデル潜時歪み

3D Generative Model Latent Disentanglement via Local Eigenprojection ( http://arxiv.org/abs/2302.12798v2 )

ライセンス: Link先を確認
Simone Foti, Bongjin Koo, Danail Stoyanov, Matthew J. Clarkson(参考訳) リアルなデジタル人間のデザインは非常に複雑です。 多くのデータ駆動生成モデルは、基礎となる幾何学的形状の生成を単純化するために使われ、局所的な形状特性の生成を制御できない。 本稿では,スペクトル幾何学に基づく新たな損失関数を導入し,ニューラルネットワークに基づく3次元頭部・ボディメッシュ生成モデルに適用することで,この限界を克服する。 メッシュ変分オートエンコーダ(vaes)やgans(generative adversarial network)の潜在変数にアイデンティティ属性の局所固有プロジェクションに従うように促し、潜在性不連続を改善し、属性生成を適切に分離する。 実験結果から,我々の局所固有射影不整合(LED)モデルは,最先端技術に対する不整合性を向上するだけでなく,モデルのバニラ実装に匹敵する訓練時間で優れた生成能力を維持できることが示された。

Designing realistic digital humans is extremely complex. Most data-driven generative models used to simplify the creation of their underlying geometric shape do not offer control over the generation of local shape attributes. In this paper, we overcome this limitation by introducing a novel loss function grounded in spectral geometry and applicable to different neural-network-based generative models of 3D head and body meshes. Encouraging the latent variables of mesh variational autoencoders (VAEs) or generative adversarial networks (GANs) to follow the local eigenprojections of identity attributes, we improve latent disentanglement and properly decouple the attribute creation. Experimental results show that our local eigenprojection disentangled (LED) models not only offer improved disentanglement with respect to the state-of-the-art, but also maintain good generation capabilities with training times comparable to the vanilla implementations of the models.
翻訳日:2023-04-05 17:49:58 公開日:2023-04-04
# 3次元セマンティックセグメンテーションのためのCoVERED, CollabOratiVEロボット環境データセット

COVERED, CollabOratiVE Robot Environment Dataset for 3D Semantic segmentation ( http://arxiv.org/abs/2302.12656v2 )

ライセンス: Link先を確認
Charith Munasinghe, Fatemeh Mohammadi Amin, Davide Scaramuzza, Hans Wernher van de Venn(参考訳) safe human-robot collaboration (hrc)は最近、新興業界5.0パラダイムに多くの関心を集めている。 従来のロボットはよりインテリジェントで柔軟な協調ロボット(cobots)に置き換えられている。 cobotと人間の安全かつ効率的なコラボレーションは、cobotの産業環境の動的環境に関する包括的意味理解に大きく依存している。 このようなアプリケーションにおける意味理解の重要性にもかかわらず、協調ロボットワークスペースの3次元意味セグメンテーションには十分な研究と専用のデータセットが欠けている。 不十分なデータセットに起因するパフォーマンス上の制限は、"data hunger"問題と呼ばれる。 この現在の制限を克服するために、この研究は、ロボットセルのポイントワイドの注釈付き点雲を含む"COVERED"と呼ばれるこのユースケース用に特別に設計された新しいデータセットを開発する。 最後に,現在最先端(SOTA)アルゴリズムの性能をデータセット上で評価し,マルチLiDARシステムを用いた協調作業空間のリアルタイムセマンティックセマンティックセグメンテーションを示す。 リアルタイムに動的に変化する状況でトレーニングされたDeep Networksを使用することによる有望な結果は、私たちが正しい軌道にいることを示している。 我々の知覚パイプラインは、8Hzのスループットを維持しながら、予測点精度を$>96\%、$>92\%の平均交叉率(mIOU)で20Hzのスループットを達成する。

Safe human-robot collaboration (HRC) has recently gained a lot of interest with the emerging Industry 5.0 paradigm. Conventional robots are being replaced with more intelligent and flexible collaborative robots (cobots). Safe and efficient collaboration between cobots and humans largely relies on the cobot's comprehensive semantic understanding of the dynamic surrounding of industrial environments. Despite the importance of semantic understanding for such applications, 3D semantic segmentation of collaborative robot workspaces lacks sufficient research and dedicated datasets. The performance limitation caused by insufficient datasets is called 'data hunger' problem. To overcome this current limitation, this work develops a new dataset specifically designed for this use case, named "COVERED", which includes point-wise annotated point clouds of a robotic cell. Lastly, we also provide a benchmark of current state-of-the-art (SOTA) algorithm performance on the dataset and demonstrate a real-time semantic segmentation of a collaborative robot workspace using a multi-LiDAR system. The promising results from using the trained Deep Networks on a real-time dynamically changing situation shows that we are on the right track. Our perception pipeline achieves 20Hz throughput with a prediction point accuracy of $>$96\% and $>$92\% mean intersection over union (mIOU) while maintaining an 8Hz throughput.
翻訳日:2023-04-05 17:49:14 公開日:2023-04-04
# 物理学インフォームド深層学習による微分方程式の解法--ベンチマークテストを用いたハンドオンチュートリアル

Solving differential equations using physics informed deep learning: a hand-on tutorial with benchmark tests ( http://arxiv.org/abs/2302.12260v2 )

ライセンス: Link先を確認
Hubert Baty, Leo Baty(参考訳) 本稿では,深層学習とニューラルネットワークを用いた微分方程式の解法を,方程式の知識を取り入れて再検討する。 これはトレーニングプロセスの最適化手順中に損失関数に専門用語を追加することによって行われる。 いわゆる物理インフォームドニューラルネットワーク(PINN)は、標準的な積分法に関してこのアプローチの利点と欠点を強調するために、様々な学術的な常微分方程式でテストされる。 トレーニングプロセスに可能な限りの少ないデータを使用する可能性に注目します。 ペナリゼーション項を通じて物理法則を強制することにより微分方程式を解くピンの原理を概説する。 単純な方程式モデルに関するチュートリアルは、通常の微分方程式の方法の実践方法を説明している。 ベンチマークテストでは、問題の非線型性が弱い場合、非常に少量のトレーニングデータが解を予測するのに十分であることが示されている。 しかし、一部の部分的あるいは全体の時間積分区間でトレーニングデータの事前知識が必要となるような、強非線型問題ではそうではない。

We revisit the original approach of using deep learning and neural networks to solve differential equations by incorporating the knowledge of the equation. This is done by adding a dedicated term to the loss function during the optimization procedure in the training process. The so-called physics-informed neural networks (PINNs) are tested on a variety of academic ordinary differential equations in order to highlight the benefits and drawbacks of this approach with respect to standard integration methods. We focus on the possibility to use the least possible amount of data into the training process. The principles of PINNs for solving differential equations by enforcing physical laws via penalizing terms are reviewed. A tutorial on a simple equation model illustrates how to put into practice the method for ordinary differential equations. Benchmark tests show that a very small amount of training data is sufficient to predict the solution when the non linearity of the problem is weak. However, this is not the case in strongly non linear problems where a priori knowledge of training data over some partial or the whole time integration interval is necessary.
翻訳日:2023-04-05 17:48:53 公開日:2023-04-04
# 理論的観点からみた後量子化における振動問題の解法

Solving Oscillation Problem in Post-Training Quantization Through a Theoretical Perspective ( http://arxiv.org/abs/2303.11906v2 )

ライセンス: Link先を確認
Yuexiao Ma, Huixia Li, Xiawu Zheng, Xuefeng Xiao, Rui Wang, Shilei Wen, Xin Pan, Fei Chao, Rongrong Ji(参考訳) ポストトレーニング量子化(PTQ)は、データプライバシーと計算コストの低さから、事実上最も効率的な圧縮手法の1つである。 我々は、PTQ法で見過ごされた振動問題について論じる。 本稿では,PTQにそのような問題が欠かせない理由を説明するための理論的根拠を探究し,提示する。 そして,原理的かつ一般化された枠組みを理論的に導入することにより,この問題を解決しようとする。 特に,まずptqの振動を定式化し,モジュール容量の差が問題の原因であることを証明した。 この目的のために、モジュール容量(modcap)をデータ依存およびデータフリーのシナリオで定義し、隣接するモジュール間の差を使って振動の程度を測定する。 この問題は、対応するモジュールを共同最適化して量子化するトップk微分を選択することで解決される。 広汎な実験により,本手法は性能低下を低減し,異なるニューラルネットワークやPTQ手法に一般化された。 例えば、2/4ビットResNet-50量子化では、従来の最先端手法を1.9%上回る。 例えば、MobileNetV2*0.5ではBRECQ法を6.61%上回っている。

Post-training quantization (PTQ) is widely regarded as one of the most efficient compression methods practically, benefitting from its data privacy and low computation costs. We argue that an overlooked problem of oscillation is in the PTQ methods. In this paper, we take the initiative to explore and present a theoretical proof to explain why such a problem is essential in PTQ. And then, we try to solve this problem by introducing a principled and generalized framework theoretically. In particular, we first formulate the oscillation in PTQ and prove the problem is caused by the difference in module capacity. To this end, we define the module capacity (ModCap) under data-dependent and data-free scenarios, where the differentials between adjacent modules are used to measure the degree of oscillation. The problem is then solved by selecting top-k differentials, in which the corresponding modules are jointly optimized and quantized. Extensive experiments demonstrate that our method successfully reduces the performance drop and is generalized to different neural networks and PTQ methods. For example, with 2/4 bit ResNet-50 quantization, our method surpasses the previous state-of-the-art method by 1.9%. It becomes more significant on small model quantization, e.g. surpasses BRECQ method by 6.61% on MobileNetV2*0.5.
翻訳日:2023-04-05 17:42:41 公開日:2023-04-04
# CLIPが3Dに: 言語基底3D認識のためのプロンプトチューニングを活用する

CLIP goes 3D: Leveraging Prompt Tuning for Language Grounded 3D Recognition ( http://arxiv.org/abs/2303.11313v2 )

ライセンス: Link先を確認
Deepti Hegde, Jeya Maria Jose Valanarasu, Vishal M. Patel(参考訳) CLIPのようなビジョンランゲージモデルは、印象的なゼロショット機能のために、様々なタスクに広く採用されている。 しかし、CLIPは画像とテキストのみを自然言語の監督によって訓練したので、3次元幾何学的特徴の抽出には適していない。 我々は、この制限に対処し、3dエンコーダがゼロショット能力を発揮するように学習されるcg3d(clip goes 3d)と呼ばれる新しいフレームワークを提案する。 CG3Dは、点雲のトリプレット、対応する2D画像、自然言語の監督によるテキストを用いて訓練されている。 マルチモーダル埋め込み空間における特徴の整合を図るため、3Dエンコーダから得られた3D特徴と、CLIPから抽出した視覚的特徴とテキスト特徴の対比的損失を利用する。 CG3DにおけるCLIPの訓練に使用される自然な画像とレンダリングされた2D画像の分布シフトについて述べる。 視覚およびテキストエンコーダをトレーニングしてこのシフトを考慮しようとすると、破滅的な忘れ込みと顕著な性能低下が発生する。 そこで本研究では,cg3dで使用される3次元事前学習データセットにクリップをシフトするために,入力空間に学習可能なパラメータを導入する。 私たちは、トレーニング済みのcg3dフレームワークを広範囲にテストし、ゼロショット、オープンシーン理解、検索タスクでその印象的な能力を示しています。 さらに、下流の3D認識タスクを微調整するための強力なスタートウェイトとしても機能する。

Vision-Language models like CLIP have been widely adopted for various tasks due to their impressive zero-shot capabilities. However, CLIP is not suitable for extracting 3D geometric features as it was trained on only images and text by natural language supervision. We work on addressing this limitation and propose a new framework termed CG3D (CLIP Goes 3D) where a 3D encoder is learned to exhibit zero-shot capabilities. CG3D is trained using triplets of pointclouds, corresponding rendered 2D images, and texts using natural language supervision. To align the features in a multimodal embedding space, we utilize contrastive loss on 3D features obtained from the 3D encoder, as well as visual and text features extracted from CLIP. We note that the natural images used to train CLIP and the rendered 2D images in CG3D have a distribution shift. Attempting to train the visual and text encoder to account for this shift results in catastrophic forgetting and a notable decrease in performance. To solve this, we employ prompt tuning and introduce trainable parameters in the input space to shift CLIP towards the 3D pre-training dataset utilized in CG3D. We extensively test our pre-trained CG3D framework and demonstrate its impressive capabilities in zero-shot, open scene understanding, and retrieval tasks. Further, it also serves as strong starting weights for fine-tuning in downstream 3D recognition tasks.
翻訳日:2023-04-05 17:42:21 公開日:2023-04-04
# 視覚トランスフォーマーのロバスト化トークン注意

Robustifying Token Attention for Vision Transformers ( http://arxiv.org/abs/2303.11126v2 )

ライセンス: Link先を確認
Yong Guo, David Stutz, Bernt Schiele(参考訳) 視覚変換器(ViT)の成功にもかかわらず、ノイズやぼやけなどの一般的な汚職の存在下では精度が著しく低下している。 興味深いことに、ViTの注意機構は重要なトークンをほとんど依存しない傾向にあり、これはトークンの過剰フォーカスと呼ばれる現象である。 より批判的に、これらのトークンは腐敗に対して堅牢ではなく、しばしば高度に異なる注意パターンをもたらす。 本稿では,この過度に焦点をあてる問題を緩和し,2つの一般的な手法により,より安定した注意力を持たせることを目的とする。 具体的には、TAPは各トークンの平均プール方式を学習し、近隣の潜在的に重要なトークンに関する情報を適応的に考慮することができる。 第2に,ADL(Attention Diversification Loss)を用いることで,入力トークンの多様な集合から情報を集約するように,出力トークンを強制的に強制する。 異なるトークンのアテンションベクトル間のコサイン類似性を高いペナリゼーションにより達成する。 実験では,本手法を多種多様な変圧器アーキテクチャに適用し,ロバスト性を大幅に向上する。 例えば、ImageNet-Cの破壊堅牢性を2.4%改善するとともに、最先端のロバストアーキテクチャFANに基づいて精度を0.4%改善する。 また、セマンティックセグメンテーションタスクを微調整すると、CityScapes-Cのロバスト性は2.4%、ACDCは3.1%向上する。

Despite the success of vision transformers (ViTs), they still suffer from significant drops in accuracy in the presence of common corruptions, such as noise or blur. Interestingly, we observe that the attention mechanism of ViTs tends to rely on few important tokens, a phenomenon we call token overfocusing. More critically, these tokens are not robust to corruptions, often leading to highly diverging attention patterns. In this paper, we intend to alleviate this overfocusing issue and make attention more stable through two general techniques: First, our Token-aware Average Pooling (TAP) module encourages the local neighborhood of each token to take part in the attention mechanism. Specifically, TAP learns average pooling schemes for each token such that the information of potentially important tokens in the neighborhood can adaptively be taken into account. Second, we force the output tokens to aggregate information from a diverse set of input tokens rather than focusing on just a few by using our Attention Diversification Loss (ADL). We achieve this by penalizing high cosine similarity between the attention vectors of different tokens. In experiments, we apply our methods to a wide range of transformer architectures and improve robustness significantly. For example, we improve corruption robustness on ImageNet-C by 2.4% while simultaneously improving accuracy by 0.4% based on state-of-the-art robust architecture FAN. Also, when finetuning on semantic segmentation tasks, we improve robustness on CityScapes-C by 2.4% and ACDC by 3.1%.
翻訳日:2023-04-05 17:41:57 公開日:2023-04-04
# 自律運転における3次元動作推定のための簡易試み

A Simple Attempt for 3D Occupancy Estimation in Autonomous Driving ( http://arxiv.org/abs/2303.10076v2 )

ライセンス: Link先を確認
Wanshui Gan, Ningkai Mo, Hongbin Xu, Naoto Yokoya(参考訳) 周囲の視界画像から3次元の占有度を推定するタスクは、バードズアイビュー(BEV)の認識の成功に続く自動運転分野におけるエキサイティングな発展であり、このタスクは運転環境の重要な3次元特性を提供し、周囲の空間の全体的な理解と認識を高める。 しかし、ネットワーク設計、最適化、評価など、タスクを定義するためのベースラインが依然として欠けている。 本研究では,3次元占有率推定のためのいくつかの重要な要因を明らかにするために設計されたcnnベースのフレームワークである3次元占有率推定のための簡易な試みを提案する。 さらに,3次元占有率推定と,単眼深度推定,ステレオマッチング,BEV知覚(3Dオブジェクト検出,マップセグメンテーション)などの関連課題との関係について検討した。 評価のために,現在の公開データセットに柔軟である占有評価基準を定義するための簡単なサンプリング戦略を提案する。 さらに,提案手法とDDADおよびNuscenesデータセットの単眼深度推定手法を比較し,深度推定の指標として新しいベンチマークを構築した。関連コードはhttps://github.com/GANWANSHUI/SimpleOccupancyで利用可能である。

The task of estimating 3D occupancy from surrounding view images is an exciting development in the field of autonomous driving, following the success of Birds Eye View (BEV) perception.This task provides crucial 3D attributes of the driving environment, enhancing the overall understanding and perception of the surrounding space. However, there is still a lack of a baseline to define the task, such as network design, optimization, and evaluation. In this work, we present a simple attempt for 3D occupancy estimation, which is a CNN-based framework designed to reveal several key factors for 3D occupancy estimation. In addition, we explore the relationship between 3D occupancy estimation and other related tasks, such as monocular depth estimation, stereo matching, and BEV perception (3D object detection and map segmentation), which could advance the study on 3D occupancy estimation. For evaluation, we propose a simple sampling strategy to define the metric for occupancy evaluation, which is flexible for current public datasets. Moreover, we establish a new benchmark in terms of the depth estimation metric, where we compare our proposed method with monocular depth estimation methods on the DDAD and Nuscenes datasets.The relevant code will be available in https://github.com/GANWANSHUI/SimpleOccupancy
翻訳日:2023-04-05 17:41:32 公開日:2023-04-04
# 計算的注意を用いた人間の注意予測

Predicting Human Attention using Computational Attention ( http://arxiv.org/abs/2303.09383v2 )

ライセンス: Link先を確認
Zhibo Yang, Sounak Mondal, Seoyoung Ahn, Gregory Zelinsky, Minh Hoai, Dimitris Samaras(参考訳) 視覚的注意のほとんどのモデルは、異なる視覚的検索と自由視聴タスクを用いて、トップダウンまたはボトムアップの制御を予測することを目的としている。 注意制御の両形態を予測する単一モデルであるヒューマンアテンショントランスフォーマ(hat)を提案する。 HATは、目標現在および目標存在探索中の固定のスキャンパスを予測するための新しい最先端(SOTA)であり、タスクレスな自由視聴固定のスキャンパスの予測においてSOTAと一致または上回っている。 この新しいsotaは、新しいトランスフォーマーベースのアーキテクチャと、人間のダイナミックな視覚ワーキングメモリに似た時空間認識を集合的に生成する簡易なフォベテッド網膜を使用することで実現されている。 固定セルの粗いグリッドと固定の離散化による情報損失を経験する従来の方法とは異なり、HATは密度の高い予測アーキテクチャを備え、各固定に対する密度の高いヒートマップを出力する。 HATは、有効性と汎用性の両方を強調する、計算的注意の新たな標準を定めている。 HATの実証されたスコープと適用性は、様々な注意を要するシナリオにおいて、人間の振る舞いをより正確に予測できる新しい注意モデルの開発を促すだろう。

Most models of visual attention are aimed at predicting either top-down or bottom-up control, as studied using different visual search and free-viewing tasks. We propose Human Attention Transformer (HAT), a single model predicting both forms of attention control. HAT is the new state-of-the-art (SOTA) in predicting the scanpath of fixations made during target-present and target-absent search, and matches or exceeds SOTA in the prediction of taskless free-viewing fixation scanpaths. HAT achieves this new SOTA by using a novel transformer-based architecture and a simplified foveated retina that collectively create a spatio-temporal awareness akin to the dynamic visual working memory of humans. Unlike previous methods that rely on a coarse grid of fixation cells and experience information loss due to fixation discretization, HAT features a dense-prediction architecture and outputs a dense heatmap for each fixation, thus avoiding discretizing fixations. HAT sets a new standard in computational attention, which emphasizes both effectiveness and generality. HAT's demonstrated scope and applicability will likely inspire the development of new attention models that can better predict human behavior in various attention-demanding scenarios.
翻訳日:2023-04-05 17:41:06 公開日:2023-04-04
# 信頼銀行による水中画像復元のためのコントラスト半教師付き学習

Contrastive Semi-supervised Learning for Underwater Image Restoration via Reliable Bank ( http://arxiv.org/abs/2303.09101v4 )

ライセンス: Link先を確認
Shirui Huang, Keyan Wang, Huan Liu, Jun Chen and Yunsong Li(参考訳) 最近の水中画像復元技術の顕著な成果にもかかわらず、ラベル付きデータの欠如はさらなる進歩の大きなハードルとなっている。 本研究では,ネットワークトレーニングにラベルなしデータを組み込むための平均教師型半教師型水中画像復元(semi-uir)フレームワークを提案する。 しかし,(1)教師の予測が間違っている場合,学習における一貫性の喪失は効果を欠く可能性がある。 2)L1距離を使用すると、ネットワークが間違ったラベルをオーバーフィットさせ、確認バイアスが発生する可能性がある。 上記の問題に対処するため、我々はまず「最高の」アウトプットを疑似土台真理として保存する信頼性の高い銀行を導入する。 出力の質を評価するために,単調性特性に基づく経験的解析を行い,最も信頼性の高いNR-IQA法を選択する。 また,確認バイアス問題の観点からは,誤りラベルのオーバーフィットを防止するため,対比正規化を取り入れている。 完全参照型および非参照型水中ベンチマークによる実験結果から,本アルゴリズムはSOTA法よりも定量的かつ定性的に改善されていることが示された。 コードはhttps://github.com/Huang-ShiRui/Semi-UIR.comでリリースされた。

Despite the remarkable achievement of recent underwater image restoration techniques, the lack of labeled data has become a major hurdle for further progress. In this work, we propose a mean-teacher based Semi-supervised Underwater Image Restoration (Semi-UIR) framework to incorporate the unlabeled data into network training. However, the naive mean-teacher method suffers from two main problems: (1) The consistency loss used in training might become ineffective when the teacher's prediction is wrong. (2) Using L1 distance may cause the network to overfit wrong labels, resulting in confirmation bias. To address the above problems, we first introduce a reliable bank to store the "best-ever" outputs as pseudo ground truth. To assess the quality of outputs, we conduct an empirical analysis based on the monotonicity property to select the most trustworthy NR-IQA method. Besides, in view of the confirmation bias problem, we incorporate contrastive regularization to prevent the overfitting on wrong labels. Experimental results on both full-reference and non-reference underwater benchmarks demonstrate that our algorithm has obvious improvement over SOTA methods quantitatively and qualitatively. Code has been released at https://github.com/Huang-ShiRui/Semi-UIR.
翻訳日:2023-04-05 17:40:43 公開日:2023-04-04
# PATS:地域特徴マッチングのための部分分割型パッチエリア交通

PATS: Patch Area Transportation with Subdivision for Local Feature Matching ( http://arxiv.org/abs/2303.07700v2 )

ライセンス: Link先を確認
Junjie Ni, Yijin Li, Zhaoyang Huang, Hongsheng Li, Hujun Bao, Zhaopeng Cui, Guofeng Zhang(参考訳) ローカル機能マッチングは、イメージペア間のスパース対応を確立することを目的としている。 近年,検出器フリーの手法は一般的に優れた性能を示すが,大規模な差のある画像対では満足できない。 本稿では,この問題を解決するために,PATS(Patch Area Transportation with Subdivision)を提案する。 高価なイメージピラミッドを構築する代わりに、元のイメージペアを同じサイズのパッチに分割し、徐々にサイズを変えて、同じ規模の小さなパッチに分割し始めます。 しかし、相対的なカメラポーズとシーン構造の両方でスケール差が決定されるため、これらのパッチ間のスケール差は自明ではない。 また、実際の場面の根拠となる真理を得ることは困難である。 そこで本研究では,自己教師あり方式でスケール差を学習できるパッチエリア輸送を提案する。 1対1のマッチングのみを扱う2部グラフマッチングとは対照的に、パッチエリアトランスポーテーションは多対多の関係を扱うことができる。 PATSは、マッチング精度とカバレッジの両方を改善し、相対的なポーズ推定、視覚的ローカライゼーション、光フロー推定などの下流タスクにおいて優れた性能を示す。 ソースコードは \url{https://zju3dv.github.io/pats/} で入手できる。

Local feature matching aims at establishing sparse correspondences between a pair of images. Recently, detector-free methods present generally better performance but are not satisfactory in image pairs with large scale differences. In this paper, we propose Patch Area Transportation with Subdivision (PATS) to tackle this issue. Instead of building an expensive image pyramid, we start by splitting the original image pair into equal-sized patches and gradually resizing and subdividing them into smaller patches with the same scale. However, estimating scale differences between these patches is non-trivial since the scale differences are determined by both relative camera poses and scene structures, and thus spatially varying over image pairs. Moreover, it is hard to obtain the ground truth for real scenes. To this end, we propose patch area transportation, which enables learning scale differences in a self-supervised manner. In contrast to bipartite graph matching, which only handles one-to-one matching, our patch area transportation can deal with many-to-many relationships. PATS improves both matching accuracy and coverage, and shows superior performance in downstream tasks, such as relative pose estimation, visual localization, and optical flow estimation. The source code is available at \url{https://zju3dv.github.io/pats/}.
翻訳日:2023-04-05 17:40:24 公開日:2023-04-04
# 自律清掃のためのマルチロボットハイブリッドタスクアロケーションの実現に向けて

Towards Practical Multi-Robot Hybrid Tasks Allocation for Autonomous Cleaning ( http://arxiv.org/abs/2303.06531v2 )

ライセンス: Link先を確認
Yabin Wang, Xiaopeng Hong, Zhiheng Ma, Tiedong Ma, Baoxing Qin, Zhou Su(参考訳) タスク割り当ては、複数のロボットが協力して広い領域を掃除するマルチロボット自律清掃システムにおいて重要な役割を果たす。 しかし、現在の研究のほとんどは、不確定な作業環境でのハイブリッドタスクを考慮せずに、掃除ロボットにおける決定論的単一タスク割り当てに焦点を当てている。 さらに、関連する研究のためのデータセットやベンチマークが不足している。 本稿では,これらの問題に対処するため,不確定な清掃環境下でのマルチロボットハイブリッドタスク割り当てをロバストな最適化問題として定式化する。 まず,異なるタスクに対するタスク順序制約やハイブリッドロボットの能力制約など,実用的な制約を伴う,堅牢な混合整数線形プログラミングモデルを提案する。 第2に,手動でラベル付けされた2次元画像と3次元モデルを持つフロアプランから作成したemph{100}インスタンスのデータセットを確立する。 第3に,従来の3つの最適化手法と深層強化学習に基づく解法を用いて,収集データセットの総合的な結果を提供する。 評価の結果,本ソリューションはマルチロボットクリーニングタスクの割り当てのニーズを満たしており,ロバストソルバは,追加コストの少ない最悪のシナリオからシステムを保護できることがわかった。 ベンチマークは、https://github.com/iamwangyabin/Multi-robot-Cleaning-Task-Allocation}で公開される。

Task allocation plays a vital role in multi-robot autonomous cleaning systems, where multiple robots work together to clean a large area. However, most current studies mainly focus on deterministic, single-task allocation for cleaning robots, without considering hybrid tasks in uncertain working environments. Moreover, there is a lack of datasets and benchmarks for relevant research. In this paper, to address these problems, we formulate multi-robot hybrid-task allocation under the uncertain cleaning environment as a robust optimization problem. Firstly, we propose a novel robust mixed-integer linear programming model with practical constraints including the task order constraint for different tasks and the ability constraints of hybrid robots. Secondly, we establish a dataset of \emph{100} instances made from floor plans, each of which has 2D manually-labeled images and a 3D model. Thirdly, we provide comprehensive results on the collected dataset using three traditional optimization approaches and a deep reinforcement learning-based solver. The evaluation results show that our solution meets the needs of multi-robot cleaning task allocation and the robust solver can protect the system from worst-case scenarios with little additional cost. The benchmark will be available at {https://github.com/iamwangyabin/Multi-robot-Cleaning-Task-Allocation}.
翻訳日:2023-04-05 17:40:04 公開日:2023-04-04
# 非局所積測定による量子ステアリング共有の活性化

Activation of quantum steering sharing with unsharp nonlocal product measurements ( http://arxiv.org/abs/2303.05954v2 )

ライセンス: Link先を確認
Xin-Hong Han, Tian Qian, Shan-Chuan Dong, Ya Xiao and Yong-Jian Gu(参考訳) unsharp測定は、複数の観測者間で量子ステアリングを共有するために一般的に使用されるが、現在は局所的な測定に制限されており、非局所的な測定に基づくタスクには適さない。 本研究では,量子ステアリングを共有するために,量子楕円体を用いた最適非局所測定法を提案する。 この方法は、任意の二成分状態に適用でき、測定設定数が大きい場合でも有利である。 グリーンベルガー・ホーネ・ザイリンガー状態を例として、非シャープな非局所積測定が局所測定と比較してステアリング共有を活性化できることを示した。 さらに, 不等強度非局所測定の活性化能力は, 等強度測定よりも強いことが示唆された。 従来のアクティベーション法とは異なり、共有状態のコピー数を増やしたり、他の種類の量子相関を弱めたりする必要はなく、実験や資源の再利用が可能である。

Unsharp measurements are commonly employed for sharing quantum steering among multiple observers, but they are currently restricted to local measurements and unsuitable for nonlocal-measurement-based tasks. In this work, we propose an effective method for constructing optimal nonlocal measurements using quantum ellipsoids to share quantum steering. This method is applicable to any bipartite state and advantageous even when the number of measurement settings is large. Taking the Greenberger-Horne-Zeilinger state as an example, we demonstrate that unsharp nonlocal product measurements can activate steering sharing compared with local measurements. Furthermore, our results indicate that the activation ability of unequal-strength nonlocal measurements is stronger than that of equal-strength ones. Unlike previous activation methods, ours does not require increasing the copy number of the shared states or weakening other types of quantum correlations, making it both experiment-friendly and resource-reusable.
翻訳日:2023-04-05 17:39:43 公開日:2023-04-04
# ニューラルノードを用いた動的システム学習による制御可能な映像生成

Controllable Video Generation by Learning the Underlying Dynamical System with Neural ODE ( http://arxiv.org/abs/2303.05323v2 )

ライセンス: Link先を確認
Yucheng Xu, Li Nanbo, Arushi Goel, Zijian Guo, Zonghai Yao, Hamidreza Kasaei, Mohammadreze Kasaei, Zhibin Li(参考訳) ビデオは複雑な力学系の時間的変化を離散的な画像列の形で表現している。 ダイナミックなシステムを学ぶことで制御可能なビデオを生成することは、コンピュータビジョンコミュニティにおいて重要で未熟なトピックである。 本稿では,静的画像とテキストキャプションから高制御可能なビデオを生成するための新しいフレームワークTiV-ODEを提案する。 具体的には, 非線形常微分方程式の集合として複素力学系を表現するために, 神経常微分方程式 (neural ordinary differential equation)~(neural odes) を活用した。 このフレームワークは、望まれるダイナミック性とコンテンツの両方でビデオを生成することができる。 実験では、高度に制御可能で視覚的に一貫したビデオを生成するための提案手法と、動的システムのモデリング能力を示す。 全体として、この作業は複雑な動的シーンを処理できる高度な制御可能なビデオ生成モデルを開発するための重要なステップである。

Videos depict the change of complex dynamical systems over time in the form of discrete image sequences. Generating controllable videos by learning the dynamical system is an important yet underexplored topic in the computer vision community. This paper presents a novel framework, TiV-ODE, to generate highly controllable videos from a static image and a text caption. Specifically, our framework leverages the ability of Neural Ordinary Differential Equations~(Neural ODEs) to represent complex dynamical systems as a set of nonlinear ordinary differential equations. The resulting framework is capable of generating videos with both desired dynamics and content. Experiments demonstrate the ability of the proposed method in generating highly controllable and visually consistent videos, and its capability of modeling dynamical systems. Overall, this work is a significant step towards developing advanced controllable video generation models that can handle complex and dynamic scenes.
翻訳日:2023-04-05 17:39:26 公開日:2023-04-04
# オンライン分類一覧

List Online Classification ( http://arxiv.org/abs/2303.15383v2 )

ライセンス: Link先を確認
Shay Moran, Ohad Sharon, Iska Tsubari(参考訳) 学習者が複数のラベルのリスト(従来の1つのラベルではなく)を使って予測できるマルチクラスオンライン予測について検討する。 このモデルの学習性は、$b$-ary littlestone次元を使って特徴づける。 この次元は古典的なリトルストーン次元の変種であり、二項誤り木は$(k+1)$-aryミス木に置き換えられ、ここで$k$はリスト内のラベルの数である。 不可知論的設定では、コンパレータクラスがシングルラベル関数かマルチラベル関数か、アルゴリズムが使用するリストのサイズとのトレードオフによって異なるシナリオを探索する。 いくつかのケースでは否定的な後悔を達成でき、それがいつ可能かを完全に特徴づけることができる。 私たちの仕事の一部として、littlestoneのsoaやrosenblattのperceptronといった古典的なアルゴリズムをラベルのリストを使って予測します。 また、Sauer-Shelah-Perles Lemmaのオンライン版を含むリスト学習クラスに対する組合せ結果も確立した。 この結果は、適応仮説(つまり、メモリを持つ関数)を表現できる仮説クラスの一般化と、マージンを持つ線形分類のようなデータ依存的な仮定をモデル化するパターンクラスの枠組みの中で述べられている。

We study multiclass online prediction where the learner can predict using a list of multiple labels (as opposed to just one label in the traditional setting). We characterize learnability in this model using the $b$-ary Littlestone dimension. This dimension is a variation of the classical Littlestone dimension with the difference that binary mistake trees are replaced with $(k+1)$-ary mistake trees, where $k$ is the number of labels in the list. In the agnostic setting, we explore different scenarios depending on whether the comparator class consists of single-labeled or multi-labeled functions and its tradeoff with the size of the lists the algorithm uses. We find that it is possible to achieve negative regret in some cases and provide a complete characterization of when this is possible. As part of our work, we adapt classical algorithms such as Littlestone's SOA and Rosenblatt's Perceptron to predict using lists of labels. We also establish combinatorial results for list-learnable classes, including an list online version of the Sauer-Shelah-Perles Lemma. We state our results within the framework of pattern classes -- a generalization of hypothesis classes which can represent adaptive hypotheses (i.e. functions with memory), and model data-dependent assumptions such as linear classification with margin.
翻訳日:2023-04-05 17:33:44 公開日:2023-04-04
# 深部マルチタスク表現学習による手画像からの人物同一性・性別・年齢推定

Joint Person Identity, Gender and Age Estimation from Hand Images using Deep Multi-Task Representation Learning ( http://arxiv.org/abs/2303.15263v2 )

ライセンス: Link先を確認
Nathanael L. Baisa(参考訳) 本稿では,手画像が性的虐待などの重大犯罪の場合にのみ利用可能な情報であることから,犯罪捜査を目的として,手画像から個人のアイデンティティ,性別,年齢を共同で推定するマルチタスク表現学習フレームワークを提案する。 重大犯罪の犯人の手画像から身元,性別,年齢を共同推定するために,最新のディープラーニングアーキテクチャを調査し,その性能を比較した。 データの不均衡を克服し、年齢予測を単純化するために、年齢推定のための年齢グループを作成する。 公開可能な1kハンドデータセット上で,畳み込みベースと変圧器ベースの両方のディープラーニングアーキテクチャの評価と比較を行う。 本研究は, 刑事捜査における手画像から, 同一性だけでなく, 被疑者の性別や年齢など他の属性を効率的に推定することが可能であることを示す。

In this paper, we propose a multi-task representation learning framework to jointly estimate the identity, gender and age of individuals from their hand images for the purpose of criminal investigations since the hand images are often the only available information in cases of serious crime such as sexual abuse. We investigate different up-to-date deep learning architectures and compare their performance for joint estimation of identity, gender and age from hand images of perpetrators of serious crime. To overcome the data imbalance and simplify the age prediction, we create age groups for the age estimation. We make extensive evaluations and comparisons of both convolution-based and transformer-based deep learning architectures on a publicly available 11k hands dataset. Our experimental analysis shows that it is possible to efficiently estimate not only identity but also other attributes such as gender and age of suspects jointly from hand images for criminal investigations, which is crucial in assisting international police forces in the court to identify and convict abusers.
翻訳日:2023-04-05 17:33:23 公開日:2023-04-04
# SEM-POS: 文法的にも意味的にも正しいビデオキャプション

SEM-POS: Grammatically and Semantically Correct Video Captioning ( http://arxiv.org/abs/2303.14829v2 )

ライセンス: Link先を確認
Asmar Nadeem, Adrian Hilton, Robert Dawes, Graham Thomas, Armin Mustafa(参考訳) ビデオキャプションにおいて、文法的かつ意味的に正しいキャプションを生成することは難しい課題である。 既存の方法から生成されたキャプションは、文法構造と一致しない単語単位か、入力されたビデオからのキー情報を見落としている。 これらの問題に対処するために,視覚空間的特徴を持つ音声(POS)の異なる部分から特徴を符号化して融合するGlobal-Local Fusion Block (GLFB)を導入した,新しいグローバルローカルフュージョンネットワークを導入する。 POSブロック - Det + Subject, Aux Verb, Verb, Det + Object の監視には 'determinant + subject' と 'auxiliary verb' と 'verb' と 'determinant + object' という,異なるPOSコンポーネントの新たな組み合わせを使用します。 POSブロックと共に新しいグローバルローカル融合ネットワークは、視覚特徴を言語記述と整合させ、文法的かつ意味論的に正しいキャプションを生成する。 ベンチマークMSVDおよびMSRVTTデータセットの大規模定性的・定量的実験により,提案手法が既存の手法に比べて文法的・意味論的に正しい字幕を生成することを示す。 posブロックとglfb上のアブレーションは、提案手法に対する貢献の影響を示している。

Generating grammatically and semantically correct captions in video captioning is a challenging task. The captions generated from the existing methods are either word-by-word that do not align with grammatical structure or miss key information from the input videos. To address these issues, we introduce a novel global-local fusion network, with a Global-Local Fusion Block (GLFB) that encodes and fuses features from different parts of speech (POS) components with visual-spatial features. We use novel combinations of different POS components - 'determinant + subject', 'auxiliary verb', 'verb', and 'determinant + object' for supervision of the POS blocks - Det + Subject, Aux Verb, Verb, and Det + Object respectively. The novel global-local fusion network together with POS blocks helps align the visual features with language description to generate grammatically and semantically correct captions. Extensive qualitative and quantitative experiments on benchmark MSVD and MSRVTT datasets demonstrate that the proposed approach generates more grammatically and semantically correct captions compared to the existing methods, achieving the new state-of-the-art. Ablations on the POS blocks and the GLFB demonstrate the impact of the contributions on the proposed method.
翻訳日:2023-04-05 17:32:50 公開日:2023-04-04
# Chat-REC: インタラクティブで説明可能なLLM-Augmented Recommenderシステムを目指して

Chat-REC: Towards Interactive and Explainable LLMs-Augmented Recommender System ( http://arxiv.org/abs/2303.14524v2 )

ライセンス: Link先を確認
Yunfan Gao, Tao Sheng, Youlin Xiang, Yun Xiong, Haofen Wang, Jiawei Zhang(参考訳) 大規模言語モデル(llm)は、様々なアプリケーションタスクに適用される重要な可能性を実証している。 しかし、従来のレコメンデータシステムは、対話性や説明可能性の低下といった大きな課題に直面し続けており、現実のシステムへの広範な展開を妨げている。 これらの制約に対処するために,ユーザプロファイルと過去のインタラクションをプロンプトに変換することで,LLMを革新的に拡張するChat-Rec(ChatGPT Augmented Recommender System)という新しいパラダイムを提案する。 Chat-Recは、ユーザの好みを学習し、コンテキスト内学習を通じてユーザと製品間のつながりを確立するのに効果的であることが示されている。 さらに、Chat-Recフレームワーク内では、ユーザの好みはドメイン横断のレコメンデーションのために異なる製品に転送でき、LSMへの情報インジェクションのプロンプトベースのインジェクションは、新しいアイテムでコールドスタートシナリオを処理することもできる。 実験では、chat-recはトップk推薦の結果を効果的に改善し、ゼロショット評価の予測タスクをより良くする。 Chat-Recはレコメンダシステムを改善するための新しいアプローチを提供し、レコメンダシステム研究にAIGC(AI生成コンテンツ)を実装するための新しい実践シナリオを提供する。

Large language models (LLMs) have demonstrated their significant potential to be applied for addressing various application tasks. However, traditional recommender systems continue to face great challenges such as poor interactivity and explainability, which actually also hinder their broad deployment in real-world systems. To address these limitations, this paper proposes a novel paradigm called Chat-Rec (ChatGPT Augmented Recommender System) that innovatively augments LLMs for building conversational recommender systems by converting user profiles and historical interactions into prompts. Chat-Rec is demonstrated to be effective in learning user preferences and establishing connections between users and products through in-context learning, which also makes the recommendation process more interactive and explainable. What's more, within the Chat-Rec framework, user's preferences can transfer to different products for cross-domain recommendations, and prompt-based injection of information into LLMs can also handle the cold-start scenarios with new items. In our experiments, Chat-Rec effectively improve the results of top-k recommendations and performs better in zero-shot rating prediction task. Chat-Rec offers a novel approach to improving recommender systems and presents new practical scenarios for the implementation of AIGC (AI generated content) in recommender system studies.
翻訳日:2023-04-05 17:32:07 公開日:2023-04-04
# CF-Font:Few-shot Font生成のためのコンテンツ融合

CF-Font: Content Fusion for Few-shot Font Generation ( http://arxiv.org/abs/2303.14017v2 )

ライセンス: Link先を確認
Chi Wang, Min Zhou, Tiezheng Ge, Yuning Jiang, Hujun Bao, Weiwei Xu(参考訳) コンテンツとスタイルの切り離しは、少数ショットフォント生成を実現する効果的な方法である。 ソースドメイン内のフォントイメージのスタイルを、ターゲットドメイン内のいくつかの参照イメージで定義されたスタイルに転送することができる。 しかし、代表フォントで抽出されたコンテンツ機能は最適ではないかもしれない。 そこで本研究では,基本フォントのコンテンツ特徴によって定義された線形空間にコンテンツ特徴を投影するコンテンツ融合モジュール(cfm)を提案する。 また,isr(lightweightly style-vectorfinement)戦略により,参照画像のスタイル表現ベクトルを最適化する手法を提案する。 さらに、文字画像の1次元投影を確率分布として扱い、2つの分布間の距離を再構成損失(すなわち投影文字損失、pcl)として利用する。 L2またはL1再構成損失と比較して、分布距離は文字のグローバルな形状により多くの注意を払う。 我々は,6.5k文字の300フォントのデータセットを用いて評価を行った。 実験結果から,本手法が既存の最先端フォント生成手法を大差で上回ることを確認した。 ソースコードはhttps://github.com/wangchi95/CF-Font.orgにある。

Content and style disentanglement is an effective way to achieve few-shot font generation. It allows to transfer the style of the font image in a source domain to the style defined with a few reference images in a target domain. However, the content feature extracted using a representative font might not be optimal. In light of this, we propose a content fusion module (CFM) to project the content feature into a linear space defined by the content features of basis fonts, which can take the variation of content features caused by different fonts into consideration. Our method also allows to optimize the style representation vector of reference images through a lightweight iterative style-vector refinement (ISR) strategy. Moreover, we treat the 1D projection of a character image as a probability distribution and leverage the distance between two distributions as the reconstruction loss (namely projected character loss, PCL). Compared to L2 or L1 reconstruction loss, the distribution distance pays more attention to the global shape of characters. We have evaluated our method on a dataset of 300 fonts with 6.5k characters each. Experimental results verify that our method outperforms existing state-of-the-art few-shot font generation methods by a large margin. The source code can be found at https://github.com/wangchi95/CF-Font.
翻訳日:2023-04-05 17:31:41 公開日:2023-04-04
# 児童の人物像の図面をアニメーション化する方法

A Method for Animating Children's Drawings of the Human Figure ( http://arxiv.org/abs/2303.12741v2 )

ライセンス: Link先を確認
Harrison Jesse Smith, Qingyuan Zheng, Yifei Li, Somya Jain, Jessica K. Hodgins(参考訳) 子供の絵には素晴らしい創造性、創造性、多様性があります。 本研究では,人間の図形を自動で表現し,これらの図形に固有の差異に頑健であり,誰でも利用できるほどシンプルで簡単なシステムを提案する。 私たちは、世界中の何百万人もの人々が使っている無料公開webサイトであるanimated drawings demoを構築、公開することで、このアプローチの価値と幅広い魅力を示しています。 本稿では,微調整に必要なトレーニングデータ量を検討する実験と,新しいツイスト視点再ターゲティング手法の魅力を示す知覚実験について述べる。 最後に、Amateur Drawings Datasetを紹介します。Amateur Drawings Datasetは、公開デモを通じて収集され、178,000以上のアマチュア図面と、対応するユーザ受け入れ文字境界ボックス、セグメンテーションマスク、共同位置アノテーションを含む。

Children's drawings have a wonderful inventiveness, creativity, and variety to them. We present a system that automatically animates children's drawings of the human figure, is robust to the variance inherent in these depictions, and is simple and straightforward enough for anyone to use. We demonstrate the value and broad appeal of our approach by building and releasing the Animated Drawings Demo, a freely available public website that has been used by millions of people around the world. We present a set of experiments exploring the amount of training data needed for fine-tuning, as well as a perceptual study demonstrating the appeal of a novel twisted perspective retargeting technique. Finally, we introduce the Amateur Drawings Dataset, a first-of-its-kind annotated dataset, collected via the public demo, containing over 178,000 amateur drawings and corresponding user-accepted character bounding boxes, segmentation masks, and joint location annotations.
翻訳日:2023-04-05 17:31:26 公開日:2023-04-04
# AfroDigits: アフリカの言語のためのコミュニティ駆動のスポークディジデータセット

AfroDigits: A Community-Driven Spoken Digit Dataset for African Languages ( http://arxiv.org/abs/2303.12582v2 )

ライセンス: Link先を確認
Chris Chinenye Emezue, Sanchit Gandhi, Lewis Tunstall, Abubakar Abid, Josh Meyer, Quentin Lhoest, Pete Allen, Patrick Von Platen, Douwe Kiela, Yacine Jernite, Julien Chaumond, Merve Noyan, Omar Sanseviero(参考訳) 音声技術の進歩は目覚ましいものだったが、アフリカ語のコーポラが乏しいため、アフリカ語への統合は限られている。 この問題に対処するために、アフリカ言語のための最小限のコミュニティ主導の音声桁データセットであるAfroDigitsを紹介します。 AfroDigitsの実践的応用の実証として、Wav2Vec2.0-LargeとXLS-Rモデルを用いて、6つのアフリカの言語(Igbo(ibo)、Yoruba(yor)、Rundi(run)、Oshiwambo(kua)、Shona(sna)、Oromo(gax))でオーディオ桁分類実験を行う。 実験結果から,アフリカ発声コーパスの微調整における混合効果が示唆された。 afrodigitsは、アフリカ語で最初に公開された音声デジットデータセットであり、特に、電話番号の認識や道路番号といった、afro中心の音声アプリケーションへの道を開くものだと考えています。 データセットとプラットフォームは、https://huggingface.co/datasets/chrisjay/crowd-speech-africaとhttps://huggingface.co/spaces/chrisjay/afro-speechで公開しています。

The advancement of speech technologies has been remarkable, yet its integration with African languages remains limited due to the scarcity of African speech corpora. To address this issue, we present AfroDigits, a minimalist, community-driven dataset of spoken digits for African languages, currently covering 38 African languages. As a demonstration of the practical applications of AfroDigits, we conduct audio digit classification experiments on six African languages [Igbo (ibo), Yoruba (yor), Rundi (run), Oshiwambo (kua), Shona (sna), and Oromo (gax)] using the Wav2Vec2.0-Large and XLS-R models. Our experiments reveal a useful insight on the effect of mixing African speech corpora during finetuning. AfroDigits is the first published audio digit dataset for African languages and we believe it will, among other things, pave the way for Afro-centric speech applications such as the recognition of telephone numbers, and street numbers. We release the dataset and platform publicly at https://huggingface.co/datasets/chrisjay/crowd-speech-africa and https://huggingface.co/spaces/chrisjay/afro-speech respectively.
翻訳日:2023-04-05 17:31:09 公開日:2023-04-04
# SPARTAN:グループ活動認識のための自己監督型時空間変換器アプローチ

SPARTAN: Self-supervised Spatiotemporal Transformers Approach to Group Activity Recognition ( http://arxiv.org/abs/2303.12149v3 )

ライセンス: Link先を確認
Naga VS Raviteja Chappa, Pha Nguyen, Alexander H Nelson, Han-Seok Seo, Xin Li, Page Daniel Dobbs, Khoa Luu(参考訳) 本稿では, グループアクティビティ認識(GAR)に対する非ラベル付きビデオデータを用いたSPARTAN(Self-supervised Spatio-temporal Transformers)アプローチを提案する。 ビデオでは,空間的パッチサイズやフレームレートの異なる局所的・グローバルな時空間ビューを作成している。 提案した自己監督的目的は、時空間領域の変動と一致するように、同じビデオを表すこれらのコントラストビューの特徴を一致させることを目的としている。 我々の知る限り、提案するメカニズムは、ビデオトランスフォーマーのエンコーダを用いて、GARの弱教師付き設定を緩和する最初の研究の1つである。 さらに, 変圧器モデルの利点を生かして, 時空間次元に沿った長期関係モデリングを支援する。 提案手法は, nba と volleyball データセットを含む2つのグループアクティビティ認識ベンチマークにおいて, mca と mpca の指標で有意なマージンで最先端結果を上回り, 良好に機能する。

In this paper, we propose a new, simple, and effective Self-supervised Spatio-temporal Transformers (SPARTAN) approach to Group Activity Recognition (GAR) using unlabeled video data. Given a video, we create local and global Spatio-temporal views with varying spatial patch sizes and frame rates. The proposed self-supervised objective aims to match the features of these contrasting views representing the same video to be consistent with the variations in spatiotemporal domains. To the best of our knowledge, the proposed mechanism is one of the first works to alleviate the weakly supervised setting of GAR using the encoders in video transformers. Furthermore, using the advantage of transformer models, our proposed approach supports long-term relationship modeling along spatio-temporal dimensions. The proposed SPARTAN approach performs well on two group activity recognition benchmarks, including NBA and Volleyball datasets, by surpassing the state-of-the-art results by a significant margin in terms of MCA and MPCA metrics.
翻訳日:2023-04-05 17:30:42 公開日:2023-04-04
# コンピュータビジョンによるハニカムブロックの切断位置の決定

Determination of cutting positions of honeycomb blocks using computer vision ( http://arxiv.org/abs/2304.00001v2 )

ライセンス: Link先を確認
Alexander Razumovsky, Yakov Pikalov, Mikhail Saramud(参考訳) 本稿は,ハニカムブロックを切断する工程を自動化し,必要な面の点と切断角度を具体的に求める手法について述べる。 カット面の許容位置はセル面の長さの0.4であり、切断面はセル壁に対して垂直でなければならない。 アルゴリズム自体は、ハニカム構造の決定と切断点の探索という2つの主要な段階から構成されている。 ハニカムブロック(細胞プロファイルの変形と細胞の端のデント)に重大な欠陥がない場合、構造決定アルゴリズムは重大な不正確さを伴わずに機能する。 カットポイント探索アルゴリズムの結果は満足できると考えられる。

The article discusses a method for automating the process of cutting a honeycomb block, and specifically obtaining points and cutting angles for the required faces. The following requirements are taken into account in the calculations: the allowable location of the cut plane is 0.4 of the length of the cell face, the cut plane must be perpendicular to the cell wall. The algorithm itself consists of two main stages: determining the honeycomb structure and searching for cut points. In the absence of significant defects in honeycomb blocks (deformation of the cell profile and a dent on the edges of the cells), the structure determination algorithm works without significant inaccuracies. The results of the cut point search algorithm can be considered satisfactory.
翻訳日:2023-04-05 17:23:27 公開日:2023-04-04
# oBERTa: 初期化, 蒸留, プルーニング体制の改善によるスパーストランスファー学習の改善

oBERTa: Improving Sparse Transfer Learning via improved initialization, distillation, and pruning regimes ( http://arxiv.org/abs/2303.17612v2 )

ライセンス: Link先を確認
Daniel Campos, Alexandre Marques, Mark Kurtz, and ChengXiang Zhai(参考訳) 本稿では,自然言語処理(NLP)の実践者が,モデル圧縮の専門知識のない3.8倍から24.3倍の高速なモデルを得ることができる,使い易い言語モデルであるoBERTa言語モデルについて紹介する。 具体的には、oBERTaはプルーニング、知識蒸留、量子化に関する既存の作業を拡張し、凍結埋め込みを活用して蒸留とモデル初期化を改善し、幅広い転送タスクにおいて高い精度を提供する。 oBERTaの生成において、高度に最適化されたRoBERTaと、事前学習や微調整を行う場合のPruningにおけるBERTの違いについて検討する。 微調整時に圧縮しにくくなる。 7つの代表的NLPタスクに対するoBERTaの使用について検討し、改良された圧縮手法により、それぞれ8倍と2倍の精度で、BERTbaseの性能に適合し、SQUAD V1.1質問回答データセット上でのPrune OFA Largeの性能を超えることが判明した。 使用と実験を促進するために、幅広い使用のためのコード、トレーニング体制、および関連するモデルをリリースします。

In this paper, we introduce the range of oBERTa language models, an easy-to-use set of language models which allows Natural Language Processing (NLP) practitioners to obtain between 3.8 and 24.3 times faster models without expertise in model compression. Specifically, oBERTa extends existing work on pruning, knowledge distillation, and quantization and leverages frozen embeddings improves distillation and model initialization to deliver higher accuracy on a broad range of transfer tasks. In generating oBERTa, we explore how the highly optimized RoBERTa differs from the BERT for pruning during pre-training and finetuning. We find it less amenable to compression during fine-tuning. We explore the use of oBERTa on seven representative NLP tasks and find that the improved compression techniques allow a pruned oBERTa model to match the performance of BERTbase and exceed the performance of Prune OFA Large on the SQUAD V1.1 Question Answering dataset, despite being 8x and 2x, respectively faster in inference. We release our code, training regimes, and associated model for broad usage to encourage usage and experimentation
翻訳日:2023-04-05 17:23:01 公開日:2023-04-04
# 無視自由ランチ : 注釈副産物を用いた画像分類器の学習

Neglected Free Lunch; Learning Image Classifiers Using Annotation Byproducts ( http://arxiv.org/abs/2303.17595v2 )

ライセンス: Link先を確認
Dongyoon Han, Junsuk Choe, Seonghyeok Chun, John Joon Young Chung, Minsuk Chang, Sangdoo Yun, Jean Y. Song, Seong Joon Oh(参考訳) 画像分類器の教師付き学習は、画像と対応するラベル(x,y)のペアを通して人間の知識をパラメトリックモデルに蒸留する。 このシンプルで広く使われている人間の知識の表現は、画像選択後のマウスのトレースやクリックの時系列などのアノテーション手順からの豊富な補助情報を無視していると論じる。 我々の洞察では、このようなアノテーション副産物Zは、モデルが前景の手がかりに集中するように弱め、素早い相関を減らし、ショートカット学習を阻害するおよそ人間の注意を与える。 これを検証するために、ImageNet-ABとCOCO-ABを作成します。 これらはImageNetとCOCOトレーニングセットで、サンプル単位のアノテーション副産物が豊富で、それぞれのオリジナルのアノテーションタスクを複製して収集される。 アノテーション副産物を用いたトレーニングモデルの新たなパラダイムを,アノテーション副産物を用いた学習(luab)と呼んでいる。 y とともに z をレグレッシブする単純なマルチタスクロスにより,学習モデルの一般化性とロバスト性が向上することを示す。 オリジナルの教師付き学習と比較すると、LUABは追加のアノテーションコストを必要としない。 ImageNet-ABとCOCO-ABはhttps://github.com/naver-ai/NeglectedFreeLunchにある。

Supervised learning of image classifiers distills human knowledge into a parametric model through pairs of images and corresponding labels (X,Y). We argue that this simple and widely used representation of human knowledge neglects rich auxiliary information from the annotation procedure, such as the time-series of mouse traces and clicks left after image selection. Our insight is that such annotation byproducts Z provide approximate human attention that weakly guides the model to focus on the foreground cues, reducing spurious correlations and discouraging shortcut learning. To verify this, we create ImageNet-AB and COCO-AB. They are ImageNet and COCO training sets enriched with sample-wise annotation byproducts, collected by replicating the respective original annotation tasks. We refer to the new paradigm of training models with annotation byproducts as learning using annotation byproducts (LUAB). We show that a simple multitask loss for regressing Z together with Y already improves the generalisability and robustness of the learned models. Compared to the original supervised learning, LUAB does not require extra annotation costs. ImageNet-AB and COCO-AB are at https://github.com/naver-ai/NeglectedFreeLunch.
翻訳日:2023-04-05 17:22:38 公開日:2023-04-04
# 潜在位置モデルにおけるナダラヤ・ワトソン推定器

The Graphical Nadaraya-Watson Estimator on Latent Position Models ( http://arxiv.org/abs/2303.17229v2 )

ライセンス: Link先を確認
M. Gjorgjevski(参考訳) ラベル付きノードのサブセットを持つグラフが与えられた場合、ラベル付きノードがラベル付きの隣人の観測平均を予測する平均化推定器の品質に興味があります。 我々は, この文脈において, 濃度特性, 分散限界, リスク境界を厳格に研究する。 推定器自体は非常に単純であるが、グラフニューラルネットワークのようなより洗練された手法により、グラフ上の学習の理論的理解に寄与すると考えている。

Given a graph with a subset of labeled nodes, we are interested in the quality of the averaging estimator which for an unlabeled node predicts the average of the observations of its labeled neighbors. We rigorously study concentration properties, variance bounds and risk bounds in this context. While the estimator itself is very simple we believe that our results will contribute towards the theoretical understanding of learning on graphs through more sophisticated methods such as Graph Neural Networks.
翻訳日:2023-04-05 17:22:18 公開日:2023-04-04
# 情報量による変動量子ランドスケープの解析

Analyzing variational quantum landscapes with information content ( http://arxiv.org/abs/2303.16893v2 )

ライセンス: Link先を確認
Adri\'an P\'erez-Salinas, Hao Wang, Xavier Bonet-Monroig(参考訳) 変分量子アルゴリズムにおける量子回路のパラメータは、その最適化硬度に関する関連する情報を含む風景を誘導する。 本研究は,パラメータ空間内の点間の変動の尺度である情報内容のレンズを用いて,そのような景観を考察する。 我々の主要な貢献は、情報内容と勾配の平均的ノルムを結びつけ、その推定器に堅牢な解析的境界を提供する。 この結果は、いかなる(古典的または量子的な)変動風景にも当てはまる。 本研究では,バレン高原問題の場合の勾配のスケーリングを数値的に検討し,解析的アンダースタチングを検証する。 このような場合、勾配のスケーリング前要素を見積もることができます。 我々の研究は、短期量子コンピュータに適したデータ駆動方式で変動量子アルゴリズムを解析する新しい方法を提供する。

The parameters of the quantum circuit in a variational quantum algorithm induce a landscape that contains the relevant information regarding its optimization hardness. In this work we investigate such landscapes through the lens of information content, a measure of the variability between points in parameter space. Our major contribution connects the information content to the average norm of the gradient, for which we provide robust analytical bounds on its estimators. This result holds for any (classical or quantum) variational landscape. We validate the analytical understating by numerically studying the scaling of the gradient in an instance of the barren plateau problem. In such instance we are able to estimate the scaling pre-factors in the gradient. Our work provides a new way to analyze variational quantum algorithms in a data-driven fashion well-suited for near-term quantum computers.
翻訳日:2023-04-05 17:22:12 公開日:2023-04-04
# モジュールベース正規化によるノイズデータ観測時のガウスグラフィカルモデルの改善

Module-based regularization improves Gaussian graphical models when observing noisy data ( http://arxiv.org/abs/2303.16796v2 )

ライセンス: Link先を確認
Magnus Neuman, Joaqu\'in Calatayud, Viktor Tasselius, Martin Rosvall(参考訳) 研究者はしばしばガウス図形モデルを用いて多変量相関データで関係を表現する。 推論されたネットワークのモジュラ構造をよく研究していることを認識し、正規化強度のクロスバリデーションに組み込んでアンダーフィッティングとオーバーフィッティングのバランスをとることを提案する。 合成および実データを用いることで,正規化強度をクロスバリデーションする場合のガウス対類似性を用いた標準的なアプローチであるグラフィカルラスソに比べて,ノイズデータにおけるモジュラー構造の復元と推定が容易になることを示す。

Researchers often represent relations in multi-variate correlational data using Gaussian graphical models, which require regularization to sparsify the models. Acknowledging that they often study the modular structure of the inferred network, we suggest integrating it in the cross-validation of the regularization strength to balance under- and overfitting. Using synthetic and real data, we show that this approach allows us to better recover and infer modular structure in noisy data compared with the graphical lasso, a standard approach using the Gaussian log-likelihood when cross-validating the regularization strength.
翻訳日:2023-04-05 17:22:01 公開日:2023-04-04
# 産業異常検出のためのハードノミナル例認識テンプレート相互マッチング

Hard Nominal Example-aware Template Mutual Matching for Industrial Anomaly Detection ( http://arxiv.org/abs/2303.16191v3 )

ライセンス: Link先を確認
Zixuan Chen, Xiaohua Xie, Lingxiao Yang, Jianhuang Lai(参考訳) 異常検出器は、クエリー画像の未知の欠陥を検出し、ローカライズするために工業生産で広く使われている。 これらの検出器は名目上の画像で訓練され、ほとんどの正常なサンプルから異常を区別することに成功した。 しかし、ハード・ノミナルな例は散在しており、ほとんどの正常さとはかけ離れており、しばしば既存の異常検出器によって異常と誤認される。 この問題に対処するために、単純で効率的な方法を提案する: \textbf{H}ard Nominal \textbf{E}xample-aware \textbf{T}emplate \textbf{M}utual \textbf{M}atching (HETMM)。 具体的には、‘textit{HETMM} は、厳密なプロトタイプベースの決定境界を構築することを目的としている。 さらに、\textit{hetmm} はクエリとテンプレートセットの間の2方向の異常を相互に探索するので、論理的な異常を捉えることができる。 これは、しばしば論理的な異常を検出するのに失敗するほとんどの異常検出器に対する大きな利点である。 さらに、速度精度の要求を満たすために、元のテンプレートセットを合理化するために、さらに \textbf{P}ixel-level \textbf{T}emplate \textbf{S}election (PTS)を提案する。 \textit{PTS} はクラスタセンターとハードノミナルな例を選択して小さな集合を形成し、元の決定境界を維持する。 5つの実世界のデータセットに関する包括的実験は、我々の手法が、リアルタイム推論速度の下で既存の進歩よりも性能が劣ることを示している。 さらに、新しいサンプルを挿入することで、 \textit{hetmm} をホットアップデートすることができる。

Anomaly detectors are widely used in industrial production to detect and localize unknown defects in query images. These detectors are trained on nominal images and have shown success in distinguishing anomalies from most normal samples. However, hard-nominal examples are scattered and far apart from most normalities, they are often mistaken for anomalies by existing anomaly detectors. To address this problem, we propose a simple yet efficient method: \textbf{H}ard Nominal \textbf{E}xample-aware \textbf{T}emplate \textbf{M}utual \textbf{M}atching (HETMM). Specifically, \textit{HETMM} aims to construct a robust prototype-based decision boundary, which can precisely distinguish between hard-nominal examples and anomalies, yielding fewer false-positive and missed-detection rates. Moreover, \textit{HETMM} mutually explores the anomalies in two directions between queries and the template set, and thus it is capable to capture the logical anomalies. This is a significant advantage over most anomaly detectors that frequently fail to detect logical anomalies. Additionally, to meet the speed-accuracy demands, we further propose \textbf{P}ixel-level \textbf{T}emplate \textbf{S}election (PTS) to streamline the original template set. \textit{PTS} selects cluster centres and hard-nominal examples to form a tiny set, maintaining the original decision boundaries. Comprehensive experiments on five real-world datasets demonstrate that our methods yield outperformance than existing advances under the real-time inference speed. Furthermore, \textit{HETMM} can be hot-updated by inserting novel samples, which may promptly address some incremental learning issues.
翻訳日:2023-04-05 17:21:49 公開日:2023-04-04
# MoViT:医用画像解析用暗視変換器

MoViT: Memorizing Vision Transformers for Medical Image Analysis ( http://arxiv.org/abs/2303.15553v2 )

ライセンス: Link先を確認
Yiqing Shen, Pengfei Guo, Jingpu Wu, Qianqi Huang, Jinyuan Zhou, Shanshan Jiang, Mathias Unberath(参考訳) トランスフォーマーからの長距離依存と畳み込みニューラルネットワーク(cnns)からの画像コンテンツの局所表現の相乗効果は、その相補的な利点により、高度なアーキテクチャと様々な医用画像解析タスクのパフォーマンス向上につながった。 しかし、cnnと比較すると、トランスフォーマーは多くのパラメータと帰納バイアスの欠如のため、かなり多くのトレーニングデータを必要とする。 ますます大規模なデータセットの必要性は、特に医用画像の文脈において問題であり続けており、アノテーションの取り組みとデータ保護の両方がデータ可用性を制限している。 本研究は,新たな‘evidence’と従来記憶されていた‘`experience'とを関連付ける人間の意思決定プロセスにヒントを得て,大規模なデータセットの必要性を軽減し,トランスフォーマーベースのアーキテクチャをトレーニングおよびデプロイするための記憶型視覚変換器(MoViT)を提案する。 MoViTは、トレーニング段階の履歴注意スナップショットをキャッシュするために、外部メモリ構造を利用する。 オーバーフィッティングを防止するため,メモリ更新方式である注意時間移動平均法を取り入れ,記憶された外部記憶を履歴移動平均で更新する。 推論高速化のために、我々は外部メモリをより小さな代表サブセットに蒸留するプロトタイプ型注意学習法を設計する。 本手法は, 医用画像解析タスクに応用されたMoViTが, 特に少量の注釈データしか利用できない場合において, 様々なデータレギュラーにおいてバニラトランスフォーマーモデルより優れていることを示すため, パブリックヒストロジー画像データセットと社内MRIデータセットを用いて評価を行った。 さらに重要なのは、トレーニングデータのわずか3.0%で、MoViTの競合パフォーマンスに到達することだ。

The synergy of long-range dependencies from transformers and local representations of image content from convolutional neural networks (CNNs) has led to advanced architectures and increased performance for various medical image analysis tasks due to their complementary benefits. However, compared with CNNs, transformers require considerably more training data, due to a larger number of parameters and an absence of inductive bias. The need for increasingly large datasets continues to be problematic, particularly in the context of medical imaging, where both annotation efforts and data protection result in limited data availability. In this work, inspired by the human decision-making process of correlating new ``evidence'' with previously memorized ``experience'', we propose a Memorizing Vision Transformer (MoViT) to alleviate the need for large-scale datasets to successfully train and deploy transformer-based architectures. MoViT leverages an external memory structure to cache history attention snapshots during the training stage. To prevent overfitting, we incorporate an innovative memory update scheme, attention temporal moving average, to update the stored external memories with the historical moving average. For inference speedup, we design a prototypical attention learning method to distill the external memory into smaller representative subsets. We evaluate our method on a public histology image dataset and an in-house MRI dataset, demonstrating that MoViT applied to varied medical image analysis tasks, can outperform vanilla transformer models across varied data regimes, especially in cases where only a small amount of annotated data is available. More importantly, MoViT can reach a competitive performance of ViT with only 3.0% of the training data.
翻訳日:2023-04-05 17:21:11 公開日:2023-04-04
# フランクウルフ法による離散化誤差の低減

Reducing Discretization Error in the Frank-Wolfe Method ( http://arxiv.org/abs/2304.01432v1 )

ライセンス: Link先を確認
Zhaoyue Chen, Yifan Sun(参考訳) Frank-Wolfeアルゴリズムは、構造的に制約された機械学習アプリケーションで一般的な方法である。 しかし、この方法の1つの大きな制限は、解に漸近的に近づいたとしても、不安定なジグザグングステップの方向のために加速し難い収束速度である。 これは離散化の成果物であり、つまり、漸近的に小さなステップサイズでの軌道であるFrank-Wolfe \emph{flow} は zig-zag ではなく、離散化誤差を減らせばより安定な方法が生成され、より良い収束性を持つ。 最適化された高階離散化スキームを直接適用するマルチステップのFrank-Wolfe法と、離散化誤差を低減し、一般凸集合上の局所収束速度が$O(1/k)$から$O(1/k^{3/2})$まで加速するLMO拡張スキームを提案する。

The Frank-Wolfe algorithm is a popular method in structurally constrained machine learning applications, due to its fast per-iteration complexity. However, one major limitation of the method is a slow rate of convergence that is difficult to accelerate due to erratic, zig-zagging step directions, even asymptotically close to the solution. We view this as an artifact of discretization; that is to say, the Frank-Wolfe \emph{flow}, which is its trajectory at asymptotically small step sizes, does not zig-zag, and reducing discretization error will go hand-in-hand in producing a more stabilized method, with better convergence properties. We propose two improvements: a multistep Frank-Wolfe method that directly applies optimized higher-order discretization schemes; and an LMO-averaging scheme with reduced discretization error, and whose local convergence rate over general convex sets accelerates from a rate of $O(1/k)$ to up to $O(1/k^{3/2})$.
翻訳日:2023-04-05 16:01:25 公開日:2023-04-04
# 分割注意:文脈分離スロットによる教師なし多目的発見

Divided Attention: Unsupervised Multi-Object Discovery with Contextually Separated Slots ( http://arxiv.org/abs/2304.01430v1 )

ライセンス: Link先を確認
Dong Lao, Zhengyang Hu, Francesco Locatello, Yanchao Yang, Stefano Soatto(参考訳) 本研究では,視覚領域を独立した移動領域に分割し,基礎的な真実や監督を伴わずに訓練する手法を提案する。 スロットアテンションに基づく逆条件エンコーダ-デコーダアーキテクチャで構成され、イメージ自体を再構築せずに光学フローをデコードするためのコンテキストとしてイメージを使用するように変更された。 結果として得られるマルチモーダル表現では、1つのモダリティ(フロー)がエンコーダに別々の潜在コード(スロット)を生成させ、もう1つのモダリティ(イメージ)はデコーダにスロットから最初の(フロー)を生成するように条件づける。 この設計により、シーンの照明特性や反射特性などにより、画像中の複雑なニュアンス変動を符号化する必要がなくなる。 再構成誤差の最小化に基づく慣習的自動符号化は,フロー全体が単一スロットに符号化されるのを妨げないため,コンテキスト情報分離に基づく対向的基準の変更を行う。 その結果、min-max最適化により、オブジェクトの分離と異なるアテンションスロットへの割り当てが促進され、Divided Attention(DivA)につながる。 DivAは、最新の教師なしマルチオブジェクト動作セグメンテーション手法よりも優れており、実行時の速度は104FPSまで向上し、教師付き手法から12%以下のパフォーマンスギャップを減らしている。 DivAは、トレーニングやテスト時に異なるオブジェクトの数と異なるイメージサイズを処理でき、オブジェクトラベルの置換に不変であり、明示的な正規化を必要としない。

We introduce a method to segment the visual field into independently moving regions, trained with no ground truth or supervision. It consists of an adversarial conditional encoder-decoder architecture based on Slot Attention, modified to use the image as context to decode optical flow without attempting to reconstruct the image itself. In the resulting multi-modal representation, one modality (flow) feeds the encoder to produce separate latent codes (slots), whereas the other modality (image) conditions the decoder to generate the first (flow) from the slots. This design frees the representation from having to encode complex nuisance variability in the image due to, for instance, illumination and reflectance properties of the scene. Since customary autoencoding based on minimizing the reconstruction error does not preclude the entire flow from being encoded into a single slot, we modify the loss to an adversarial criterion based on Contextual Information Separation. The resulting min-max optimization fosters the separation of objects and their assignment to different attention slots, leading to Divided Attention, or DivA. DivA outperforms recent unsupervised multi-object motion segmentation methods while tripling run-time speed up to 104FPS and reducing the performance gap from supervised methods to 12% or less. DivA can handle different numbers of objects and different image sizes at training and test time, is invariant to permutation of object labels, and does not require explicit regularization.
翻訳日:2023-04-05 16:01:00 公開日:2023-04-04
# 構造的欠如を伴うデータからの学習

Learning from data with structured missingness ( http://arxiv.org/abs/2304.01429v1 )

ライセンス: Link先を確認
Robin Mitra, Sarah F. McGough, Tapabrata Chakraborti, Chris Holmes, Ryan Copping, Niels Hagenbuch, Stefanie Biedermann, Jack Noonan, Brieuc Lehmann, Aditi Shenvi, Xuan Vinh Doan, David Leslie, Ginestra Bianconi, Ruben Sanchez-Garcia, Alisha Davies, Maxine Mackintosh, Eleni-Rosalina Andrinopoulou, Anahid Basiri, Chris Harbron, Ben D. MacArthur(参考訳) データ不足は、多くの機械学習タスクにおいて避けられない複雑さである。 データが“ランダムに欠落している”場合には、その問題に対処するさまざまなツールやテクニックが存在する。 しかし、機械学習の研究がより野心的になり、さらに大きな異種データの量から学ぼうとすると、不足する値が明示的にも暗黙的にも関連や構造を示すという問題が発生する。 このような‘構造的欠如’は、まだ体系的に対処されていないさまざまな課題を引き起こし、大規模な機械学習に根本的な障害をもたらします。 本稿では,現在の文献を概説し,構造化された欠如のあるデータから学ぶ上での課題について概説する。

Missing data are an unavoidable complication in many machine learning tasks. When data are `missing at random' there exist a range of tools and techniques to deal with the issue. However, as machine learning studies become more ambitious, and seek to learn from ever-larger volumes of heterogeneous data, an increasingly encountered problem arises in which missing values exhibit an association or structure, either explicitly or implicitly. Such `structured missingness' raises a range of challenges that have not yet been systematically addressed, and presents a fundamental hindrance to machine learning at scale. Here, we outline the current literature and propose a set of grand challenges in learning from data with structured missingness.
翻訳日:2023-04-05 16:00:31 公開日:2023-04-04
# 共有空域における長距離社会ロボットナビゲーションのための学習木探索

Learned Tree Search for Long-Horizon Social Robot Navigation in Shared Airspace ( http://arxiv.org/abs/2304.01428v1 )

ライセンス: Link先を確認
Ingrid Navarro, Jay Patrikar, Joao P. A. Dantas, Rohan Baijal, Ian Higgins, Sebastian Scherer and Jean Oh(参考訳) 共有空間における完全自律飛行の需要は急速に高まり、混み合ったダイナミックな空間で安全にシームレスにナビゲートできる信頼できるエージェントを開発する必要がある。 本研究では,ソーシャルドメインにおける移動ロボットの安全なナビゲーションのためのアルゴリズムであるSocial Robot Tree Search (SoRTS)を提案する。 SoRTSは、既存の社会的に認識された軌道予測ポリシーをMonte Carlo Tree Searchプランナーで強化し、モバイルロボットの下流ナビゲーションを改善することを目指している。 本手法の性能を評価するために,一般航空におけるソーシャルナビゲーションのユースケースを選定する。 この評価を支援するために,本研究では,高忠実度空中シミュレータであるx-planerosについても紹介する。 FAA認定パイロット26名の評価に基づくユーザスタディにより,SoRTSが有能な人間パイロットと相容れない性能を示し,ベースラインアルゴリズムを著しく上回る結果を得た。 さらに,複雑性が増大するシナリオにおいて,これらの結果を自己再生実験で補完する。

The fast-growing demand for fully autonomous aerial operations in shared spaces necessitates developing trustworthy agents that can safely and seamlessly navigate in crowded, dynamic spaces. In this work, we propose Social Robot Tree Search (SoRTS), an algorithm for the safe navigation of mobile robots in social domains. SoRTS aims to augment existing socially-aware trajectory prediction policies with a Monte Carlo Tree Search planner for improved downstream navigation of mobile robots. To evaluate the performance of our method, we choose the use case of social navigation for general aviation. To aid this evaluation, within this work, we also introduce X-PlaneROS, a high-fidelity aerial simulator, to enable more research in full-scale aerial autonomy. By conducting a user study based on the assessments of 26 FAA certified pilots, we show that SoRTS performs comparably to a competent human pilot, significantly outperforming our baseline algorithm. We further complement these results with self-play experiments in scenarios with increasing complexity.
翻訳日:2023-04-05 16:00:20 公開日:2023-04-04
# コンフォーマル化非条件量子回帰

Conformalized Unconditional Quantile Regression ( http://arxiv.org/abs/2304.01426v1 )

ライセンス: Link先を確認
Ahmed M. Alaa, Zeshan Hussain and David Sontag(参考訳) 本研究では,共形予測 (CP) と非条件量子回帰 (QR) を組み合わせた予測推論手法を開発した。 より広く知られている条件QRとは異なり、無条件QRは、結果の限界分布の定量値に対する共変量分布の変化の影響を明示的に捉えている。 この特性を生かして,局所的な頻繁なカバレッジ保証を伴う適応的予測間隔を定式化する。 トレーニングデータを使用してRIFに機械学習モデルを適用することで動作し、新しいインスタンスの周りにローカライズされた‘hypothetical’の共変量分布に関して、任意のテスト共変量に対してCPプロシージャを適用する。 実験により,本手法はヘテロシドステキシーに適応し,テストインスタンスに関連する透過的カバレッジ保証を提供し,効率面で既存の手法と競合して実行することが示された。

We develop a predictive inference procedure that combines conformal prediction (CP) with unconditional quantile regression (QR) -- a commonly used tool in econometrics that involves regressing the recentered influence function (RIF) of the quantile functional over input covariates. Unlike the more widely-known conditional QR, unconditional QR explicitly captures the impact of changes in covariate distribution on the quantiles of the marginal distribution of outcomes. Leveraging this property, our procedure issues adaptive predictive intervals with localized frequentist coverage guarantees. It operates by fitting a machine learning model for the RIFs using training data, and then applying the CP procedure for any test covariate with respect to a ``hypothetical'' covariate distribution localized around the new instance. Experiments show that our procedure is adaptive to heteroscedasticity, provides transparent coverage guarantees that are relevant to the test instance at hand, and performs competitively with existing methods in terms of efficiency.
翻訳日:2023-04-05 16:00:03 公開日:2023-04-04
# マイクロ波コム駆動高インピーダンス超伝導回路における散逸により保護されるGKP量子ビット

A GKP qubit protected by dissipation in a high-impedance superconducting circuit driven by a microwave frequency comb ( http://arxiv.org/abs/2304.01425v1 )

ライセンス: Link先を確認
Lev-Arcady Sellem, Alain Sarlette, Zaki Leghtas, Mazyar Mirrahimi, Pierre Rouchon and Philippe Campagne-Ibarcq(参考訳) 本稿では,GKP量子ビットの生成,保護,制御を行う新しい手法を提案する。 マイクロ波周波数コムを用いてジョセフソン回路をパラメトリック変調し、高いインピーダンス回路モードの散逸ダイナミクスを強制し、有限エネルギーGKP符号を自律的に安定化させる。 符号化されたGKP量子ビットは超伝導回路ではなく準粒子中毒を呈する支配的なデコヒーレンスチャネルに対して堅牢に保護されている。 特に、散逸工学に利用される補助的モードからのノイズは論理レベルでは伝播しない。 最先端の実験装置では、符号化された量子ビット寿命は、破壊点を超えて2桁まで拡大し、製造・制御エレクトロニクスの進歩により大幅に改善できると見積もっている。 クビットの初期化、クリフォードゲートによる読み出し、制御は、コード安定化を維持しながら行うことができ、フォールトトレラントな量子コンピューティングアーキテクチャにおけるGKP量子ビットの組み立てへの道を開くことができる。

We propose a novel approach to generate, protect and control GKP qubits. It employs a microwave frequency comb parametrically modulating a Josephson circuit to enforce a dissipative dynamics of a high impedance circuit mode, autonomously stabilizing the finite-energy GKP code. The encoded GKP qubit is robustly protected against all dominant decoherence channels plaguing superconducting circuits but quasi-particle poisoning. In particular, noise from ancillary modes leveraged for dissipation engineering does not propagate at the logical level. In a state-of-the-art experimental setup, we estimate that the encoded qubit lifetime could extend two orders of magnitude beyond the break-even point, with substantial margin for improvement through progress in fabrication and control electronics. Qubit initialization, readout and control via Clifford gates can be performed while maintaining the code stabilization, paving the way toward the assembly of GKP qubits in a fault-tolerant quantum computing architecture.
翻訳日:2023-04-05 15:59:46 公開日:2023-04-04
# セミグラフを用いた極性に基づくサーカズム検出

Polarity based Sarcasm Detection using Semigraph ( http://arxiv.org/abs/2304.01424v1 )

ライセンス: Link先を確認
Swapnil Mane and Vaibhav Khatavkar(参考訳) Sarcasmは、様々なオンラインプラットフォームでよく見られる高度な言語表現である。 感情分析に影響を与える自然言語処理タスクでは、皮肉の検出が難しい。 本稿では,セミグラフ構築法とサーカズム検出法を含むセミグラフの創発的手法について述べる。 テキスト文書のパターン関連性には、このセミグラフのバリエーションが示唆される。 提案手法は, セミグラフを用いて, 文書のサーカストと非サーカストの極性スコアを求める。 sarcastic polarity scoreは、文書がsarcasticになる可能性を表す。 極性スコアリングモデルに基づいてSarcasmを検出する。 提案モデルの性能は,既存のサルカズム検出への先行技術アプローチを強化する。 Amazonの製品レビューでは、それぞれ0.87、0.79、0.83の精度、リコール、f測定を達成した。

Sarcasm is an advanced linguistic expression often found on various online platforms. Sarcasm detection is challenging in natural language processing tasks that affect sentiment analysis. This article presents the inventive method of the semigraph, including semigraph construction and sarcasm detection processes. A variation of the semigraph is suggested in the pattern-relatedness of the text document. The proposed method is to obtain the sarcastic and non-sarcastic polarity scores of a document using a semigraph. The sarcastic polarity score represents the possibility that a document will become sarcastic. Sarcasm is detected based on the polarity scoring model. The performance of the proposed model enhances the existing prior art approach to sarcasm detection. In the Amazon product review, the model achieved the accuracy, recall, and f-measure of 0.87, 0.79, and 0.83, respectively.
翻訳日:2023-04-05 15:59:30 公開日:2023-04-04
# Twitterの事象不確実性に基づく意味的文脈ベクトル関連

Thematic context vector association based on event uncertainty for Twitter ( http://arxiv.org/abs/2304.01423v1 )

ライセンス: Link先を確認
Vaibhav Khatavkar, Swapnil Mane and Parag Kulkarni(参考訳) キーワード抽出はテキストマイニングにおいて重要なプロセスである。 twitterのデータ内の各コンテキストイベントのキーワードの抽出は、大きな課題だ。 難しい問題は、主に使われている言語の非公式性にある。 誤字、頭字語、曖昧な言葉の使用は非公式性を引き起こす。 現在のシステムにおける非公式言語によるキーワードの抽出はパターンベースかイベントベースである。 本稿では,データアソシエーションを用いて,テーマイベントを用いて文脈キーワードを抽出する。 イベントの主題的文脈は、提案システムにおける不確実性原理を用いて同定される。 主題的文脈は、事象を確実か不確実かを示すテーマ的文脈ベクトルと呼ばれるベクトルの助けを借りて重ねられる。 このシステムはtwitterのcovid-19データセットでテストされ、効果的であることが証明される。 このシステムは、テストデータセットからイベント固有のテーマコンテキストベクトルを抽出してランク付けする。 抽出された意味論的文脈ベクトルは、TFおよびTF-IDFという技術手法の状態よりもシルエット係数を0.5%改善する文脈的テーマ的ベクトルのクラスタリングに使用される。 テーマコンテキストベクトルは、Cyberbullying、sarcasm Detection、figurative language detectionなど、他のアプリケーションで使用することができる。

Keyword extraction is a crucial process in text mining. The extraction of keywords with respective contextual events in Twitter data is a big challenge. The challenging issues are mainly because of the informality in the language used. The use of misspelled words, acronyms, and ambiguous terms causes informality. The extraction of keywords with informal language in current systems is pattern based or event based. In this paper, contextual keywords are extracted using thematic events with the help of data association. The thematic context for events is identified using the uncertainty principle in the proposed system. The thematic contexts are weighed with the help of vectors called thematic context vectors which signifies the event as certain or uncertain. The system is tested on the Twitter COVID-19 dataset and proves to be effective. The system extracts event-specific thematic context vectors from the test dataset and ranks them. The extracted thematic context vectors are used for the clustering of contextual thematic vectors which improves the silhouette coefficient by 0.5% than state of art methods namely TF and TF-IDF. The thematic context vector can be used in other applications like Cyberbullying, sarcasm detection, figurative language detection, etc.
翻訳日:2023-04-05 15:59:20 公開日:2023-04-04
# キラル皮膚効果

Chiral Skin Effect ( http://arxiv.org/abs/2304.01422v1 )

ライセンス: Link先を確認
Xinran Ma, Kui Cao, Xiaoran Wang, Zheng Wei, Supeng Kou(参考訳) 近年、非エルミート効果と位相絶縁体との相互作用は非エルミート物理学の研究のホットスポットとなり、フロンティアとなっている。 興味深い現象は、トポロジカル保護エッジ状態に対する非エルミート皮膚効果の特殊なタイプであるハイブリッドスキントポロジカル効果である。 現在、位相的に保護されたエッジ状態は特定の角で局所化され、バルク状態は依然として拡張されている。 しかし, ハイブリッドスキン・トポロジー効果のメカニズムはいまだに疑問視されている。 本稿では,このオープンな問題を完全に解決する。 キーポイントは、散逸したキラルモードに対する別のタイプの非エルミート皮膚効果の発見である - キラル皮膚効果、すなわち、キラルモード+散逸$\rightarrow $\キラル皮膚効果。 キラルスキン効果により, 2次元トポロジカル絶縁体の散逸エッジ上のトポロジカルエッジ状態は, ゲイン/ロス境界付近に局在し, ゲイン領域と損失領域を分離する。 エッジ散逸を伴う非エルミート2次元ハルダンモデルの一例として,キラル皮膚効果の詳細な物性を示す。 キラル皮膚効果に関連する別の興味深い現象は非局所的な非エルミート皮膚効果であり、これは両面の位相的縁状態が同じゲイン/ロス境界にのみ局在する原因となる。 この進歩は、非エルミート物理学と位相量子状態の両方の研究に役立つ。

Recently, the interplay between non-Hermitian effect and topological insulators becomes a hot spot and frontier of research in non-Hermitian physics. An interesting phenomenon is hybrid skin-topological effect that is a special type of non-Hermitian skin effect for topological protected edge states. Now, topological protected edge states become localized at certain corners, while the bulk states are still extended. However, the mechanism of hybrid skin-topological effect is still an open question. In this paper, this open question is completely solved. The key point is the discovery of an alternative type of non-Hermitian skin effect for dissipative chiral modes -- chiral skin effect, i.e., Chiral modes + Dissipation $\rightarrow $\ Chiral skin effect. According to chiral skin effect, topological edge states on the dissipative edges of a 2D topological insulator become localized around the gain/loss boundaries, which separate the regions of gain and those of loss. By considering non-Hermitian two dimensional Haldane model with edge dissipation as an example, we show the detailed physical properties of chiral skin effect. An additional interesting phenomenon that is relevant chiral skin effect is non-local non-Hermitian skin effect, which causes the topological edge state of both sides to be localized only on the same gain/loss boundary. This progress will helpful for the research on both non-Hermitian physics and topological quantum states.
翻訳日:2023-04-05 15:59:03 公開日:2023-04-04
# 次世代AIの可能性に関する科学者の視点

Scientists' Perspectives on the Potential for Generative AI in their Fields ( http://arxiv.org/abs/2304.01420v1 )

ライセンス: Link先を確認
Meredith Ringel Morris(参考訳) テキストやその他のメディアを含む大規模言語モデルやマルチモーダルモデルを含むジェネレーティブAIモデルは、エンターテイメント、教育、市民生活、芸術、そして様々な職業を含む現代の生活の多くの側面を変革しようとしている。 生成型aiは、様々な科学分野における発見の方法とペースに副次的な影響を与える可能性がある。 我々は、さまざまな分野(物理、生命、社会科学を含む)の20人の科学者にインタビューし、AIが科学的な発見を加速させる方法(研究)だけでなく、将来の学者の教育や科学的な発見のコミュニケーションなど、その職業の他の側面を含む、ジェネレーティブなAI技術がそれぞれの分野の実践にどのように価値をもたらすかについての洞察を得た。 ジェネレーティブAIが科学者の現在のプラクティスを強化する機会を特定することに加えて、参加者にAIに関する懸念を反映するよう求めた。 これらの発見は、科学教育、調査、コミュニケーションのためのモデルとインターフェースの責任ある開発を導くのに役立つ。

Generative AI models, including large language models and multimodal models that include text and other media, are on the cusp of transforming many aspects of modern life, including entertainment, education, civic life, the arts, and a range of professions. There is potential for Generative AI to have a substantive impact on the methods and pace of discovery for a range of scientific disciplines. We interviewed twenty scientists from a range of fields (including the physical, life, and social sciences) to gain insight into whether or how Generative AI technologies might add value to the practice of their respective disciplines, including not only ways in which AI might accelerate scientific discovery (i.e., research), but also other aspects of their profession, including the education of future scholars and the communication of scientific findings. In addition to identifying opportunities for Generative AI to augment scientists' current practices, we also asked participants to reflect on concerns about AI. These findings can help guide the responsible development of models and interfaces for scientific education, inquiry, and communication.
翻訳日:2023-04-05 15:58:37 公開日:2023-04-04
# 高精度リコール曲線における領域クラスタリング検証

Clustering Validation with The Area Under Precision-Recall Curves ( http://arxiv.org/abs/2304.01450v1 )

ライセンス: Link先を確認
Pablo Andretta Jaskowiak and Ivan Gesteira Costa(参考訳) 混乱行列と派生メトリクスは、機械学習におけるモデルパフォーマンスを評価するための包括的なフレームワークを提供する。 これらはよく知られ、教師付き学習領域、特に分類において広く使われている。 驚くべきことに、このようなフレームワークはクラスタリングバリデーションのコンテキストで十分に検討されていない。 実際、最近になってこのようなギャップが、実際のアプリケーションシナリオでクラスタリング検証を可能にする内部/関係クラスタリング検証インデックス(cvi)であるroc curve for clustering(aucc)の領域の導入によって埋められている。 本研究では,クラスタリング検証のコンテキストにおける精度-リコール曲線(および関連するメトリクス)について検討する。 我々はこれらがCVIとして適切であるだけでなく、クラスタ不均衡の存在においても好ましいことを示す。 実データとシミュレーションデータを用いて,提案および最先端cvisの総合評価を行う。 我々の観察は、教師付き学習モデルの評価のために確立された既存のガイドラインと一致しているため、教師付き学習と教師付き学習の統一検証フレームワークに一致している。

Confusion matrices and derived metrics provide a comprehensive framework for the evaluation of model performance in machine learning. These are well-known and extensively employed in the supervised learning domain, particularly classification. Surprisingly, such a framework has not been fully explored in the context of clustering validation. Indeed, just recently such a gap has been bridged with the introduction of the Area Under the ROC Curve for Clustering (AUCC), an internal/relative Clustering Validation Index (CVI) that allows for clustering validation in real application scenarios. In this work we explore the Area Under Precision-Recall Curve (and related metrics) in the context of clustering validation. We show that these are not only appropriate as CVIs, but should also be preferred in the presence of cluster imbalance. We perform a comprehensive evaluation of proposed and state-of-art CVIs on real and simulated data sets. Our observations corroborate towards an unified validation framework for supervised and unsupervised learning, given that they are consistent with existing guidelines established for the evaluation of supervised learning models.
翻訳日:2023-04-05 15:51:57 公開日:2023-04-04
# マルチエージェント強化学習におけるオフポリティ行動予測

Off-Policy Action Anticipation in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2304.01447v1 )

ライセンス: Link先を確認
Ariyan Bighashdel, Daan de Geus, Pavol Jancura, Gijs Dubbelman(参考訳) MARL(Multi-Agent Reinforcement Learning)は、エージェントが他のエージェントの学習ステップを予測し、相互の協力を改善するための推論パラダイムである。 marlは勾配に基づく最適化を用いるため、学習予測にはhog法(higher-order gradients)を用いる必要がある。 既存のHOGメソッドはポリシーパラメータの予測に基づいており、エージェントは他のエージェントのポリシーパラメータの変化を予測している。 しかし、これらの既存のHOG法は、微分可能なゲームや小さな状態空間を持つゲームにのみ適用されている。 本研究では,大規模状態空間を持つ非微分可能ゲームの場合,既存の hog 手法がうまく動作せず,ポリシーパラメータの予測や複数のサンプリング段階に関連する固有の制限により非効率であることを示す。 これらの問題を克服するために, エージェントが他のエージェントの行動の変化を予測し, オフ・ポリティィ・アクション・予測(OffPA2)を提案し, オフ・ポリティィ・アクション・予測(OffPA2)を提案する。 提案したOFPA2を理論的に解析し,大規模状態空間を持つ非微分可能ゲームに適用可能な複数のHOG手法を開発する。 我々は多数の実験を行い,提案手法が既存の手法よりも効率と性能に優れていることを示す。

Learning anticipation in Multi-Agent Reinforcement Learning (MARL) is a reasoning paradigm where agents anticipate the learning steps of other agents to improve cooperation among themselves. As MARL uses gradient-based optimization, learning anticipation requires using Higher-Order Gradients (HOG), with so-called HOG methods. Existing HOG methods are based on policy parameter anticipation, i.e., agents anticipate the changes in policy parameters of other agents. Currently, however, these existing HOG methods have only been applied to differentiable games or games with small state spaces. In this work, we demonstrate that in the case of non-differentiable games with large state spaces, existing HOG methods do not perform well and are inefficient due to their inherent limitations related to policy parameter anticipation and multiple sampling stages. To overcome these problems, we propose Off-Policy Action Anticipation (OffPA2), a novel framework that approaches learning anticipation through action anticipation, i.e., agents anticipate the changes in actions of other agents, via off-policy sampling. We theoretically analyze our proposed OffPA2 and employ it to develop multiple HOG methods that are applicable to non-differentiable games with large state spaces. We conduct a large set of experiments and illustrate that our proposed HOG methods outperform the existing ones regarding efficiency and performance.
翻訳日:2023-04-05 15:51:41 公開日:2023-04-04
# 仮想アバターストリーム:メタバース体験へのコストダウンアプローチ

Virtual Avatar Stream: a cost-down approach to the Metaverse experience ( http://arxiv.org/abs/2304.01443v1 )

ライセンス: Link先を確認
Joseph Chang(参考訳) MetaverseのVRヘッドセットは、急速に普及しているコンセプトだが、現在、多くのユーザーへのアクセスが制限されている。 このプロジェクトの目的は、Web技術を活用した没入型メタバース体験へのアクセス可能なエントリポイントを提供することである。 開発したプラットフォームでは、Webブラウザ、マイク、ウェブカメラのみを使用してレンダリングされたアバターを利用できるようになる。 GoogleからWebGLとMediaPipeのフェイストラッキングAIモデルを採用することで、ユーザはリアルタイムの3Dフェイスメッシュを生成できる。 接続を確立するためにクライアントからクライアントへのストリーミングクラスタを使用し、クライアントはWebRTCを通じてSRTPプロトコルと直接データストリーミングを交渉する。 さらにプロジェクトは、サーバレス、分散、自動スケーリング、高レジリエント、セキュアなアーキテクチャを通じて、バックエンドの課題に対処する。 このプラットフォームは、ユーザがほぼ没入的なメタバースを体験できるスケーラブルでハードウェアフリーなソリューションを提供する。 このプロジェクトは、より広いオーディエンスがアクセス可能なより包括的なメタバースへの重要なステップを提供する。

The Metaverse through VR headsets is a rapidly growing concept, but the high cost of entry currently limits access for many users. This project aims to provide an accessible entry point to the immersive Metaverse experience by leveraging web technologies. The platform developed allows users to engage with rendered avatars using only a web browser, microphone, and webcam. By employing the WebGL and MediaPipe face tracking AI model from Google, the application generates real-time 3D face meshes for users. It uses a client-to-client streaming cluster to establish a connection, and clients negotiate SRTP protocol through WebRTC for direct data streaming. Additionally, the project addresses backend challenges through an architecture that is serverless, distributive, auto-scaling, highly resilient, and secure. The platform offers a scalable, hardware-free solution for users to experience a near-immersive Metaverse, with the potential for future integration with game server clusters. This project provides an important step toward a more inclusive Metaverse accessible to a wider audience.
翻訳日:2023-04-05 15:51:17 公開日:2023-04-04
# 回路量子力学系における量子熱ダイオードと発光

Quantum heat diode versus light emission in circuit quantum electrodynamical system ( http://arxiv.org/abs/2304.01442v1 )

ライセンス: Link先を確認
Yu-qiang Liu, Yi-jia Yang and Chang-shui Yu(参考訳) 量子力学系における熱伝達の精密制御は、特に量子熱力学デバイスの設計において重要である。 実験技術の進歩により、回路量子電気力学 (circuit qed) は、制御可能な光物質相互作用と柔軟な結合強度により、有望なシステムとなっている。 本稿では,回路QEDシステムの2光子ラービモデルを用いて熱ダイオードを設計する。 熱ダイオードは共振結合で実現できるだけでなく、特にデチューン量子-光子超強結合において優れた性能が得られることがわかった。 また,非相互熱輸送と類似した挙動を示すフォトニック検出率とその非相互性についても検討した。 これにより、量子光学的視点から熱ダイオードの挙動を理解することができ、熱力学デバイスの研究に関する新たな洞察を与えることができる。

Precisely controlling heat transfer in a quantum mechanical system is particularly significant for designing quantum thermodynamical devices. With the technology of experiment advances, circuit quantum electrodynamics (circuit QED) has become a promising system due to controllable light matter interactions as well as flexible coupling strengths. In this paper, we design a thermal diode in terms of the two-photon Rabi model of the circuit QED system. We find that the thermal diode can not only be realized in the resonant coupling but also achieve better performance, especially for the detuned qubit-photon ultrastrong coupling. We also study the photonic detection rates and their nonreciprocity, which indicates similar behaviors with the nonreciprocal heat transport. This provides the potential to understand thermal diode behavior from the quantum optical perspective and could shed new insight into the relevant research on thermodynamical devices.
翻訳日:2023-04-05 15:51:00 公開日:2023-04-04
# NetFlick: ディープラーニングによるビデオ圧縮に対する敵対的フリック攻撃

NetFlick: Adversarial Flickering Attacks on Deep Learning Based Video Compression ( http://arxiv.org/abs/2304.01441v1 )

ライセンス: Link先を確認
Jung-Woo Chang, Nojan Sheybani, Shehzeen Samarah Hussain, Mojan Javaheripi, Seira Hidano, Farinaz Koushanfar(参考訳) ビデオ圧縮は、すべての基盤となる帯域幅の制約を満たしながら、視覚データの効率的な転送において、IoTデバイスにおいて重要な役割を果たす。 ディープラーニングベースのビデオ圧縮手法は、従来のアルゴリズムを急速に置き換え、最先端の結果をエッジデバイスに提供する。 しかし,近年開発された対人攻撃は,映像圧縮の速度・歪み関係を破壊できることを示す。 本研究では,映像圧縮フレームワークを対象とした実世界のLED攻撃について述べる。 netflickと呼ばれる物理的に実現可能な攻撃は、フリックの時間的摂動を注入することで、連続するフレーム間の時空間的相関を低下させることができる。 さらに,コンテンツに関する事前の知識を必要とせずに,受信映像の性能を低下させることができるユニバーサル摂動を提案する。 実験により、NetFlickはデジタルおよび物理セットの両方でビデオ圧縮フレームワークの性能を低下させ、下流の動画分類ネットワークを攻撃するためにさらに拡張できることが示されている。

Video compression plays a significant role in IoT devices for the efficient transport of visual data while satisfying all underlying bandwidth constraints. Deep learning-based video compression methods are rapidly replacing traditional algorithms and providing state-of-the-art results on edge devices. However, recently developed adversarial attacks demonstrate that digitally crafted perturbations can break the Rate-Distortion relationship of video compression. In this work, we present a real-world LED attack to target video compression frameworks. Our physically realizable attack, dubbed NetFlick, can degrade the spatio-temporal correlation between successive frames by injecting flickering temporal perturbations. In addition, we propose universal perturbations that can downgrade performance of incoming video without prior knowledge of the contents. Experimental results demonstrate that NetFlick can successfully deteriorate the performance of video compression frameworks in both digital- and physical-settings and can be further extended to attack downstream video classification networks.
翻訳日:2023-04-05 15:50:47 公開日:2023-04-04
# 産業制御システムにおけるディープマルチモーダルサイバーアタック検出

A Deep Multi-Modal Cyber-Attack Detection in Industrial Control Systems ( http://arxiv.org/abs/2304.01440v1 )

ライセンス: Link先を確認
Sepideh Bahadoripour, Ethan MacDonald, Hadis Karimipour(参考訳) 近年、産業制御システム(ICS)に対するサイバー攻撃の増加は、破滅的な影響の恐れから、セキュリティ上の懸念を高めている。 ICSの複雑な性質を考えると、サイバー攻撃を検出することは極めて困難であり、複数のデータモダリティを利用する高度な方法が必要である。 本研究は、ICSのネットワークとセンサのモダリティデータを、ICSの深層多モードサイバー攻撃検出モデルで処理する。 安全水処理 (swat) システムを用いた結果, 提案手法は, サイバー攻撃検出モデルと組み合わせたモデルにおいて, 両モダリティを併用することにより, 0.99 精度, 0.98 リコール, 0.98 f-measure を達成することにより, 既存の単一モダリティモデルや最近の文献に勝ることがわかった。

The growing number of cyber-attacks against Industrial Control Systems (ICS) in recent years has elevated security concerns due to the potential catastrophic impact. Considering the complex nature of ICS, detecting a cyber-attack in them is extremely challenging and requires advanced methods that can harness multiple data modalities. This research utilizes network and sensor modality data from ICS processed with a deep multi-modal cyber-attack detection model for ICS. Results using the Secure Water Treatment (SWaT) system show that the proposed model can outperform existing single modality models and recent works in the literature by achieving 0.99 precision, 0.98 recall, and 0.98 f-measure, which shows the effectiveness of using both modalities in a combined model for detecting cyber-attacks.
翻訳日:2023-04-05 15:50:31 公開日:2023-04-04
# 単眼RGB映像からの個人化高精細頭部アバターの学習

Learning Personalized High Quality Volumetric Head Avatars from Monocular RGB Videos ( http://arxiv.org/abs/2304.01436v1 )

ライセンス: Link先を確認
Ziqian Bai, Feitong Tan, Zeng Huang, Kripasindhu Sarkar, Danhang Tang, Di Qiu, Abhimitra Meka, Ruofei Du, Mingsong Dou, Sergio Orts-Escolano, Rohit Pandey, Ping Tan, Thabo Beeler, Sean Fanello, Yinda Zhang(参考訳) 本研究では,野生で撮影されたモノクロRGBビデオから高品質な3次元頭部アバターを学習する方法を提案する。 学習したアバターはパラメトリック顔モデルによって駆動され、ユーザ制御された表情と頭部ポーズを達成する。 我々のハイブリッドパイプラインは、3DMMの幾何学的先行と動的追跡とニューラルラディアンス場を組み合わせることで、きめ細かい制御とフォトリアリズムを実現する。 オーバースムーシングを低減し,モデル外表現合成を改善するために,3dmm幾何に固定された局所特徴の予測を提案する。 これらの学習特徴は、3DMM変形によって駆動され、3D空間に補間され、指定されたクエリポイントにおける体積放射率が得られる。 さらに、UV空間における畳み込みニューラルネットワークの利用は、空間的コンテキストを取り入れ、代表的局所特徴を生成する上で重要であることを示す。 大規模な実験により、より正確な表現依存の詳細、トレーニング外表現への優れた一般化、そして他の最先端の手法と比較して定量的に優れたレンダリングで高品質なアバターを再構築できることが示されている。

We propose a method to learn a high-quality implicit 3D head avatar from a monocular RGB video captured in the wild. The learnt avatar is driven by a parametric face model to achieve user-controlled facial expressions and head poses. Our hybrid pipeline combines the geometry prior and dynamic tracking of a 3DMM with a neural radiance field to achieve fine-grained control and photorealism. To reduce over-smoothing and improve out-of-model expressions synthesis, we propose to predict local features anchored on the 3DMM geometry. These learnt features are driven by 3DMM deformation and interpolated in 3D space to yield the volumetric radiance at a designated query point. We further show that using a Convolutional Neural Network in the UV space is critical in incorporating spatial context and producing representative local features. Extensive experiments show that we are able to reconstruct high-quality avatars, with more accurate expression-dependent details, good generalization to out-of-training expressions, and quantitatively superior renderings compared to other state-of-the-art approaches.
翻訳日:2023-04-05 15:50:15 公開日:2023-04-04
# 深層補強学習による灌水効率の最適化

Optimizing Irrigation Efficiency using Deep Reinforcement Learning in the Field ( http://arxiv.org/abs/2304.01435v1 )

ライセンス: Link先を確認
Xianzhong Ding, Wan Du(参考訳) 農業用水は淡水消費に大きく寄与している。 しかし、現在現場で使われている灌水システムは効率が良くない。 主に土壌水分センサと栽培者の経験に依存しているが、将来の土壌水分損失を考慮しない。 土壌テクスチャ,気候条件,植物特性など,多くの要因に影響されるため,土壌水分損失の予測は困難である。 本稿では, ドライカと呼ばれる灌水効率向上のためのソリューションを提案する。 DRLICは、深い強化学習(DRL)を使用して、その性能を最適化する洗練された灌水システムである。 このシステムは、DRLコントロールエージェントと呼ばれるニューラルネットワークを使用し、現在の土壌水分の測定と将来の土壌水分損失の両方を考慮した最適制御ポリシーを学習する。 我々は,制御エージェントが過去の経験から学習できる灌水報酬機能を導入する。 しかし、DRLコントロールエージェントの出力が安全でない場合もあり、水が多すぎるか少なすぎる場合もあります。 植物の健康を損なうのを避けるため,土壌水分予測器を用いて各行動の性能を推定する安全機構を実装した。 予測結果が安全でないと判断された場合、比較的保守的な動作を行う。 提案手法の現実的応用を実証するために, スプリンクラー, センサノード, 制御ノード, 無線ネットワークを備えた灌水システムを開発した。 6本のアーモンド木からなるテストベッドに展開することでDRLICの性能を評価する。 15日間のフィールド内実験で,ドリックの水消費量を広く利用されている灌水法と比較した。 以上の結果から, ドリックは最大9.52%の貯水率を達成し, 従来の灌水法を上回った。

Agricultural irrigation is a significant contributor to freshwater consumption. However, the current irrigation systems used in the field are not efficient. They rely mainly on soil moisture sensors and the experience of growers, but do not account for future soil moisture loss. Predicting soil moisture loss is challenging because it is influenced by numerous factors, including soil texture, weather conditions, and plant characteristics. This paper proposes a solution to improve irrigation efficiency, which is called DRLIC. DRLIC is a sophisticated irrigation system that uses deep reinforcement learning (DRL) to optimize its performance. The system employs a neural network, known as the DRL control agent, which learns an optimal control policy that considers both the current soil moisture measurement and the future soil moisture loss. We introduce an irrigation reward function that enables our control agent to learn from previous experiences. However, there may be instances where the output of our DRL control agent is unsafe, such as irrigating too much or too little water. To avoid damaging the health of the plants, we implement a safety mechanism that employs a soil moisture predictor to estimate the performance of each action. If the predicted outcome is deemed unsafe, we perform a relatively-conservative action instead. To demonstrate the real-world application of our approach, we developed an irrigation system that comprises sprinklers, sensing and control nodes, and a wireless network. We evaluate the performance of DRLIC by deploying it in a testbed consisting of six almond trees. During a 15-day in-field experiment, we compared the water consumption of DRLIC with a widely-used irrigation scheme. Our results indicate that DRLIC outperformed the traditional irrigation method by achieving a water savings of up to 9.52%.
翻訳日:2023-04-05 15:49:54 公開日:2023-04-04
# VNE:固有値分布の操作による深部表現の改善手法

VNE: An Effective Method for Improving Deep Representation by Manipulating Eigenvalue Distribution ( http://arxiv.org/abs/2304.01434v1 )

ライセンス: Link先を確認
Jaeill Kim, Suhyun Kang, Duhun Hwang, Jungwook Shin, Wonjong Rhee(参考訳) 深層学習の導入以降,非相関,白化,異方性,ランク,等方性,相互情報といった表現特性の広い範囲が研究され,表現の質の向上が図られている。 しかし、そのような特性を操作することは、実装の有効性と一般的な適用性の観点からは困難である。 これらの制限に対処するため、我々は表現のフォン・ノイマンエントロピー~(vne)を正則化する。 まず, vne の数学的定式化が表現自己相関行列の固有値を効果的に操作する上で優れていることを示す。 そこで本研究では,ドメイン一般化,メタラーニング,自己教師型学習,生成モデルを用いて,最先端のアルゴリズムや一般的なベンチマークアルゴリズムの改善に適用可能であることを示す。 さらに, ランク, 不等角性, 表現の等方性に関する理論的関係を形式的に確立する。 最後に、VNEの次元制御とシャノンエントロピーとの関係について論じる。 コードはhttps://github.com/jaeill/cvpr23-vne。

Since the introduction of deep learning, a wide scope of representation properties, such as decorrelation, whitening, disentanglement, rank, isotropy, and mutual information, have been studied to improve the quality of representation. However, manipulating such properties can be challenging in terms of implementational effectiveness and general applicability. To address these limitations, we propose to regularize von Neumann entropy~(VNE) of representation. First, we demonstrate that the mathematical formulation of VNE is superior in effectively manipulating the eigenvalues of the representation autocorrelation matrix. Then, we demonstrate that it is widely applicable in improving state-of-the-art algorithms or popular benchmark algorithms by investigating domain-generalization, meta-learning, self-supervised learning, and generative models. In addition, we formally establish theoretical connections with rank, disentanglement, and isotropy of representation. Finally, we provide discussions on the dimension control of VNE and the relationship with Shannon entropy. Code is available at: https://github.com/jaeill/CVPR23-VNE.
翻訳日:2023-04-05 15:49:28 公開日:2023-04-04
# TPU v4: 組み込みのためのハードウェアサポートを備えた、光学的に再構成可能な機械学習用スーパーコンピュータ

TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings ( http://arxiv.org/abs/2304.01433v1 )

ライセンス: Link先を確認
Norman P. Jouppi, George Kurian, Sheng Li, Peter Ma, Rahul Nagarajan, Lifeng Nai, Nishant Patil, Suvinay Subramanian, Andy Swing, Brian Towles, Cliff Young, Xiang Zhou, Zongwei Zhou, and David Patterson(参考訳) 機械学習(ML)モデルの革新に応えて、プロダクションワークロードは根本的に、そして急速に変化した。 TPU v4は、Googleドメイン特化アーキテクチャ(DSA)の第5位であり、MLモデルのための第3のスーパーコンピュータである。 光回路スイッチ(OCSe)は、その相互接続トポロジを動的に再構成し、スケール、可用性、利用、モジュール性、デプロイメント、セキュリティ、パワー、パフォーマンスを向上させる。 InfinibandやOCSやその基盤となる光学部品よりもはるかに安価で低消費電力で高速であり、システムコストの5%、システムパワーの3%である。 各TPU v4にはSparseCoresが含まれており、5x-7xの埋め込みに依存しながらダイエリアとパワーの5%しか使用していないモデルを高速化するデータフロープロセッサである。 TPU v4は2020年からデプロイされ、TPU v3より2.1倍、パフォーマンス/Wattは2.7倍向上した。 TPU v4のスーパーコンピュータは4096チップで4倍大きく、全体として約10倍速くなり、OCSの柔軟性も大きな言語モデルに役立つ。 同様のサイズのシステムでは、graphcore ipu bowより約4.3x-4.5倍高速で1.2x-1.7倍高速で、nvidia a100より1.3x-1.9倍少ない。 エネルギー最適化されたGoogle Cloudの倉庫スケールコンピュータ内のTPU v4はエネルギーを約3倍削減し、典型的なオンプレミスデータセンターにおける現在のDSAの約20倍のCO2eを生成する。

In response to innovations in machine learning (ML) models, production workloads changed radically and rapidly. TPU v4 is the fifth Google domain specific architecture (DSA) and its third supercomputer for such ML models. Optical circuit switches (OCSes) dynamically reconfigure its interconnect topology to improve scale, availability, utilization, modularity, deployment, security, power, and performance; users can pick a twisted 3D torus topology if desired. Much cheaper, lower power, and faster than Infiniband, OCSes and underlying optical components are <5% of system cost and <3% of system power. Each TPU v4 includes SparseCores, dataflow processors that accelerate models that rely on embeddings by 5x-7x yet use only 5% of die area and power. Deployed since 2020, TPU v4 outperforms TPU v3 by 2.1x and improves performance/Watt by 2.7x. The TPU v4 supercomputer is 4x larger at 4096 chips and thus ~10x faster overall, which along with OCS flexibility helps large language models. For similar sized systems, it is ~4.3x-4.5x faster than the Graphcore IPU Bow and is 1.2x-1.7x faster and uses 1.3x-1.9x less power than the Nvidia A100. TPU v4s inside the energy-optimized warehouse scale computers of Google Cloud use ~3x less energy and produce ~20x less CO2e than contemporary DSAs in a typical on-premise data center.
翻訳日:2023-04-05 15:49:10 公開日:2023-04-04
# 自己指導型学習におけるパッチベースのバックドアアタックの回避

Defending Against Patch-based Backdoor Attacks on Self-Supervised Learning ( http://arxiv.org/abs/2304.01482v1 )

ライセンス: Link先を確認
Ajinkya Tejankar, Maziar Sanjabi, Qifan Wang, Sinong Wang, Hamed Firooz, Hamed Pirsiavash and Liang Tan(参考訳) 近年,ssl (self-supervised learning) はパッチベースのデータ中毒バックドア攻撃に対して脆弱であることが判明した。 被害者がsslモデルをトレーニングすると、最終的なモデルは、敵が悪用できるバックドアを持つようになる。 この研究は、このような攻撃から自己監督学習を守ることを目的としている。 3段階の防衛パイプラインを使用して、毒データに基づいてモデルをトレーニングします。 第2のステップでは,提案する防御アルゴリズム(patchsearch)がトレーニングモデルを使用して,有毒サンプルのトレーニングデータを検索し,トレーニングセットから削除する。 3番目のステップでは、最終モデルはクリーンアップトレーニングセットでトレーニングされます。 その結果,patchsearchは効果的な防御手段であることがわかった。 例えば、トリガーを含む画像のモデルの精度を38.2%から63.7%に改善し、これはクリーンモデルの精度に非常に近い64.6%である。 さらに、patchsearchは、追加のクリーンで信頼できるデータを使用するものを含め、ベースラインや最先端の防御アプローチよりも優れています。 私たちのコードはhttps://github.com/UCDvision/PatchSearchで利用可能です。

Recently, self-supervised learning (SSL) was shown to be vulnerable to patch-based data poisoning backdoor attacks. It was shown that an adversary can poison a small part of the unlabeled data so that when a victim trains an SSL model on it, the final model will have a backdoor that the adversary can exploit. This work aims to defend self-supervised learning against such attacks. We use a three-step defense pipeline, where we first train a model on the poisoned data. In the second step, our proposed defense algorithm (PatchSearch) uses the trained model to search the training data for poisoned samples and removes them from the training set. In the third step, a final model is trained on the cleaned-up training set. Our results show that PatchSearch is an effective defense. As an example, it improves a model's accuracy on images containing the trigger from 38.2% to 63.7% which is very close to the clean model's accuracy, 64.6%. Moreover, we show that PatchSearch outperforms baselines and state-of-the-art defense approaches including those using additional clean, trusted data. Our code is available at https://github.com/UCDvision/PatchSearch
翻訳日:2023-04-05 15:44:56 公開日:2023-04-04
# ベクトル接地問題

The Vector Grounding Problem ( http://arxiv.org/abs/2304.01481v1 )

ライセンス: Link先を確認
Dimitri Coelho Mollo, Rapha\"el Milli\`ere(参考訳) 複雑な言語タスクにおける大規模言語モデル(llm)の顕著な性能は、その能力の性質に関する活発な議論を引き起こした。 人間とは異なり、これらのモデルは現実世界と直接対話することなく、テキストデータから言語を学習する。 それでも、幅広いトピックに関する一見意味のあるテキストを生成することができる。 この印象的な成果は、古典的象徴的aiシステムの内部表現と出力が固有の意味を持つかどうかを問う古典的「記号的接地問題」への関心を再び高めた。 これらのシステムとは異なり、現代のLLMは記号ではなくベクトルを演算する人工ニューラルネットワークである。 しかし、そのような系に類似した問題が発生し、ベクトル接地問題を解く。 本論文には2つの主な目的がある。 まず, 生体・人工系において内的表現を基盤として, 文献で議論される5つの異なる概念, 参照, 感覚運動, 関係性, コミュニケーション的, 認識的接地を識別する。 残念ながら、これらの接地概念はしばしば混同される。 両者の違いを明確にし,ベクトル接地問題の中心にある基準接地は参照接地であると主張する。 第二に、哲学・認知科学における表現的内容の理論に基づいて、特定のLLM(特に人間からのフィードバックからの強化学習(RLHF))は、本質的な意味の根底をなす世界との因果的歴史的関係にあるため、ベクトル接地問題を克服するために必要な特徴を持っていることを提唱する。 また、おそらく予期せぬことに、マルチモーダリティと実施は、人工システムにおける参照接地に必要な条件や十分な条件ではないと論じる。

The remarkable performance of large language models (LLMs) on complex linguistic tasks has sparked a lively debate on the nature of their capabilities. Unlike humans, these models learn language exclusively from textual data, without direct interaction with the real world. Nevertheless, they can generate seemingly meaningful text about a wide range of topics. This impressive accomplishment has rekindled interest in the classical 'Symbol Grounding Problem,' which questioned whether the internal representations and outputs of classical symbolic AI systems could possess intrinsic meaning. Unlike these systems, modern LLMs are artificial neural networks that compute over vectors rather than symbols. However, an analogous problem arises for such systems, which we dub the Vector Grounding Problem. This paper has two primary objectives. First, we differentiate various ways in which internal representations can be grounded in biological or artificial systems, identifying five distinct notions discussed in the literature: referential, sensorimotor, relational, communicative, and epistemic grounding. Unfortunately, these notions of grounding are often conflated. We clarify the differences between them, and argue that referential grounding is the one that lies at the heart of the Vector Grounding Problem. Second, drawing on theories of representational content in philosophy and cognitive science, we propose that certain LLMs, particularly those fine-tuned with Reinforcement Learning from Human Feedback (RLHF), possess the necessary features to overcome the Vector Grounding Problem, as they stand in the requisite causal-historical relations to the world that underpin intrinsic meaning. We also argue that, perhaps unexpectedly, multimodality and embodiment are neither necessary nor sufficient conditions for referential grounding in artificial systems.
翻訳日:2023-04-05 15:44:39 公開日:2023-04-04
# FineRecon:詳細な3D再構成のための奥行き認識フィードフォワードネットワーク

FineRecon: Depth-aware Feed-forward Network for Detailed 3D Reconstruction ( http://arxiv.org/abs/2304.01480v1 )

ライセンス: Link先を確認
Noah Stier, Anurag Ranjan, Alex Colburn, Yajie Yan, Liang Yang, Fangchang Ma, Baptiste Angles(参考訳) 提案画像からの3次元再構成に関する最近の研究は、深層ニューラルネットワークを用いてシーンレベルの3次元幾何を反復最適化せずに直接推定できることを実証し、顕著な将来性と高い効率性を示した。 しかし、通常3次元切断符号付き距離関数(tsdf)として表される再構成ジオメトリは、微細な幾何学的詳細を持たずに粗いことが多い。 この問題に対処するため,我々は推論に基づく3次元再構成の忠実性を改善するための3つの効果的な解を提案する。 まず,従来の研究で見られたTSDF補間の落とし穴を回避し,トレーニング中により正確な学習信号を提供するためのTSDF監視戦略を提案する。 次に,多視点深度推定を用いた深度誘導戦略を導入し,シーン表現の強化とより正確な表面の復元を行う。 最後に,ネットワークの最終層に対して,粗いボクセル機能に加えて,高分解能画像特徴に対する出力tsdf予測を条件とし,より鮮明な細部再構成を実現する新しいアーキテクチャを開発した。 提案手法はスムーズかつ高精度な再構成を行い,多深度および3次元再構成計測値に有意な改善が認められた。

Recent works on 3D reconstruction from posed images have demonstrated that direct inference of scene-level 3D geometry without iterative optimization is feasible using a deep neural network, showing remarkable promise and high efficiency. However, the reconstructed geometries, typically represented as a 3D truncated signed distance function (TSDF), are often coarse without fine geometric details. To address this problem, we propose three effective solutions for improving the fidelity of inference-based 3D reconstructions. We first present a resolution-agnostic TSDF supervision strategy to provide the network with a more accurate learning signal during training, avoiding the pitfalls of TSDF interpolation seen in previous work. We then introduce a depth guidance strategy using multi-view depth estimates to enhance the scene representation and recover more accurate surfaces. Finally, we develop a novel architecture for the final layers of the network, conditioning the output TSDF prediction on high-resolution image features in addition to coarse voxel features, enabling sharper reconstruction of fine details. Our method produces smooth and highly accurate reconstructions, showing significant improvements across multiple depth and 3D reconstruction metrics.
翻訳日:2023-04-05 15:44:10 公開日:2023-04-04
# 画像ベースプロンプトを用いた無監督脳腫瘍切除

Unsupervised Brain Tumor Segmentation with Image-based Prompts ( http://arxiv.org/abs/2304.01472v1 )

ライセンス: Link先を確認
Xinru Zhang, Ni Ou, Chenghao Liu, Zhizheng Zhuo, Yaou Liu, and Chuyang Ye(参考訳) 深層学習(DL)に基づく自動脳腫瘍セグメンテーションは有望な性能を達成した。 しかし、一般的には、モデルトレーニングのための注釈付き画像に依存しており、臨床環境では必ずしも実現できない。 したがって、専門家の注記を伴わない無監督のdlベース脳腫瘍分画法の開発が望まれる。 自然言語処理におけるプロンプト学習(PL)の成功により,脳腫瘍の表示を可能にする画像ベースのプロンプトを設計し,教師なし脳腫瘍セグメンテーションへのアプローチを提案し,このアプローチをPLベースの脳腫瘍セグメンテーション(PL-BTS)と呼ぶ。 具体的には、大量の注釈付きデータで脳腫瘍セグメンテーションのモデルを直接訓練する代わりに、疑問に答えられるモデル、すなわち腫瘍様のハイパー/ハイポインテンシティに関連する入力画像のボクセルをトレーニングする。 このようなモデルは、手作りのデザインの腫瘍を伴わずに、画像上に腫瘍様高/ハイポ強度を人工的に生成することで訓練することができる。 手作りのデザインは、あらゆる種類の実際の腫瘍を表現できないほど単純すぎるため、訓練されたモデルは、実際に異常の質問に答えるよりも、単純化された手作りのタスクに過剰に適合する可能性がある。 この問題に対処するため,我々は,オーバーフィッティングを監視するために手作りの異なるタスクを生成するバリデーションタスクを提案する。 また,脳腫瘍の未診断画像を利用したPL-BTS+を提案する。 競合する教師なし手法と比較して,提案手法はパブリックデータセットと社内データセットの両方において顕著な改善を達成しており,他の脳病変セグメンテーションタスクへの拡張の可能性も示している。

Automated brain tumor segmentation based on deep learning (DL) has achieved promising performance. However, it generally relies on annotated images for model training, which is not always feasible in clinical settings. Therefore, the development of unsupervised DL-based brain tumor segmentation approaches without expert annotations is desired. Motivated by the success of prompt learning (PL) in natural language processing, we propose an approach to unsupervised brain tumor segmentation by designing image-based prompts that allow indication of brain tumors, and this approach is dubbed as PL-based Brain Tumor Segmentation (PL-BTS). Specifically, instead of directly training a model for brain tumor segmentation with a large amount of annotated data, we seek to train a model that can answer the question: is a voxel in the input image associated with tumor-like hyper-/hypo-intensity? Such a model can be trained by artificially generating tumor-like hyper-/hypo-intensity on images without tumors with hand-crafted designs. Since the hand-crafted designs may be too simplistic to represent all kinds of real tumors, the trained model may overfit the simplistic hand-crafted task rather than actually answer the question of abnormality. To address this problem, we propose the use of a validation task, where we generate a different hand-crafted task to monitor overfitting. In addition, we propose PL-BTS+ that further improves PL-BTS by exploiting unannotated images with brain tumors. Compared with competing unsupervised methods, the proposed method has achieved marked improvements on both public and in-house datasets, and we have also demonstrated its possible extension to other brain lesion segmentation tasks.
翻訳日:2023-04-05 15:43:48 公開日:2023-04-04
# 分極と周波数超エンタングルメントに基づくエンタングルメント蒸留

Entanglement distillation based on polarization and frequency hyperentanglement ( http://arxiv.org/abs/2304.01470v1 )

ライセンス: Link先を確認
Dan Xu, Changjia Chen, Brian T. Kirby, and Li Qian(参考訳) エンタングルメント蒸留は量子情報処理に多くの応用があり、量子通信、暗号、計算、シミュレーションの質と効率を向上させる重要なツールである。 本研究では, 1対の分極周波数ハイパーエンタングルド光子のみを用いたエンタングルメント蒸留法を提案し, 2対のエンタングルド論理量子ビット, 1対の分極エンタングルド量子ビット, 1対の周波数エンタングルド量子ビットを含むものと等価に評価した。 2つの量子ビット間で必要なcnot演算を行うため、偏波依存周波数変換器の使用を検討する。 分極と空間モード/エネルギー時間自由度に依存する従来のエンタングルメント蒸留法と比較して、周波数符号化量子ビットの利用は、チャネルが線形であるときにビットフリップ誤差に免疫する利点がある。 蒸留後、周波数自由度を犠牲にして偏光絡み合いの忠実度を著しく改善することができる。 シミュレーションにより,高忠実度,高収率,高蒸留率が得られることを示した。 我々の蒸留方式は,既存の通信ファイバネットワークと互換性のある現在の技術で簡単に実装でき,効率的な量子通信を実現するための有望なアプローチである。

Entanglement distillation has many applications in quantum information processing and is an important tool for improving the quality and efficiency of quantum communication, cryptography, computing, and simulation. We propose an entanglement distillation scheme using only one pair of polarization-frequency hyperentangled photons, which can be equivalently viewed as containing two pairs of entangled logical qubits: a pair of polarization-entangled qubits and a pair of frequency-entangled qubits. To perform the required CNOT operation between the two qubits we consider the use of a polarization-dependent frequency converter. Compared to past methods of entanglement distillation that relied on polarization and spatial-mode/energy-time degree of freedom, the utilization of frequency-encoded qubits offers an advantage in that it is immune to bit-flip errors when the channel is linear. After distillation, the fidelity of polarization entanglement can be significantly improved by sacrificing the frequency degree of freedom. Through simulation, we show that high fidelity gains, large yield, and high distillation rate can be achieved. Our distillation scheme is simple to implement with current technologies, compatible with existing telecommunication fiber networks, and is a promising approach for achieving efficient quantum communication.
翻訳日:2023-04-05 15:43:19 公開日:2023-04-04
# DLRover: オートジョブリソースレコメンデーションを備えたElastic Deep Training Extension

DLRover: An Elastic Deep Training Extension with Auto Job Resource Recommendation ( http://arxiv.org/abs/2304.01468v1 )

ライセンス: Link先を確認
Qinlong Wang, Bo Sang, Haitao Zhang, Mingjie Tang, Ke Zhang(参考訳) クラウドでのリソース共有はリソース利用を改善し、全体的なコストを削減することができるため、クラウドは依然として分散ディープラーニング(DL)トレーニングジョブの一般的なプラットフォームです。 しかし、そのような共有はまた、高優先度のジョブが割り込み、低優先度のジョブに影響を及ぼすような、DLトレーニングのジョブに複数の課題をもたらす。 一方、既存の分散dlトレーニングシステムでは、ジョブのリソース(例えば、各ノードに割り当てられたcpuやメモリなど)を、ジョブ提出前に手動で設定する必要があるため、実行時にジョブのリソースを調整することはできない。 ジョブのリソース構成は、このジョブのパフォーマンス(トレーニングスループット、リソース利用率、完了率など)に深く影響します。 しかし、多くの場合、ユーザーは最適なリソース設定を提供していないため、ジョブのパフォーマンスが低下する。 分散dlフレームワークは、dlジョブの初期リソースを自動設定し、ジョブのリソースを動的に調整し、より良いパフォーマンスを得ることができる。 弾力性のある機能により、\system~は、パフォーマンス上の問題が検出されたり、障害や退行のためにジョブが失敗する場合に、ジョブのリソースを効果的に調整できる。 評価結果は、手動で調整されたリソース構成よりも優れた性能を示す。 さらに、‘company’のKubernetesクラスタでは、‘system~reduces the medium of job completion time by 31\%と、ジョブ完了率6\%、CPU使用率15\%、メモリ使用率20\%を手動構成と比較して改善する。

The cloud is still a popular platform for distributed deep learning (DL) training jobs since resource sharing in the cloud can improve resource utilization and reduce overall costs. However, such sharing also brings multiple challenges for DL training jobs, e.g., high-priority jobs could impact, even interrupt, low-priority jobs. Meanwhile, most existing distributed DL training systems require users to configure the resources (i.e., the number of nodes and resources like CPU and memory allocated to each node) of jobs manually before job submission and can not adjust the job's resources during the runtime. The resource configuration of a job deeply affect this job's performance (e.g., training throughput, resource utilization, and completion rate). However, this usually leads to poor performance of jobs since users fail to provide optimal resource configuration in most cases. \system~is a distributed DL framework can auto-configure a DL job's initial resources and dynamically tune the job's resources to win the better performance. With elastic capability, \system~can effectively adjusts the resources of a job when there are performance issues detected or a job fails because of faults or eviction. Evaluations results show \system~can outperform manual well-tuned resource configurations. Furthermore, in the production Kubernetes cluster of \company, \system~reduces the medium of job completion time by 31\%, and improves the job completion rate by 6\%, CPU utilization by 15\%, and memory utilization by 20\% compared with manual configuration.
翻訳日:2023-04-05 15:42:35 公開日:2023-04-04
# 3次元半監督物体検出のための階層的スーパービジョンとシャッフルデータ拡張

Hierarchical Supervision and Shuffle Data Augmentation for 3D Semi-Supervised Object Detection ( http://arxiv.org/abs/2304.01464v1 )

ライセンス: Link先を確認
Chuandong Liu, Chenqiang Gao, Fangcen Liu, Pengcheng Li, Deyu Meng, Xinbo Gao(参考訳) 最先端の3Dオブジェクト検出器は通常、高品質な3Dアノテーションを備えた大規模データセットで訓練される。 しかし、こうした3dアノテーションは、しばしば高価で時間がかかり、実際のアプリケーションでは実用的ではないかもしれない。 自然な治療法は、限られた量のラベル付きサンプルと豊富なラベル付きサンプルを活用することで、半教師付き学習(SSL)を採用することである。 現在の擬似ラベリングに基づくSSLオブジェクト検出手法は、主に教師が学習するフレームワークを採用しており、学生ネットワークトレーニングを指導する際、必然的に混乱する監視信号を生成するための単一の固定しきい値戦略を採用している。 さらに、典型的な教師/学生フレームワークにおけるポイントクラウドのデータ増大は弱く、基本的なダウンサンプリングとフリップ・アンド・シフト(すなわち回転とスケーリング)しか含んでおらず、特徴情報の効果的な学習を妨げる。 そこで本稿では,教師教育の枠組みである階層的監督とシャッフルデータ拡張(hssda)の新たなアプローチを導入することで,これらの課題に対処した。 教師ネットワークは、動的二重閾値戦略を設計することにより、学生ネットワークをより合理的に管理する。 さらに、shuffleデータ拡張戦略は、学生ネットワークの特徴表現能力を強化するために設計されている。 大規模な実験により、HSSDAはさまざまなデータセットで最新の最先端の手法より一貫して優れていることが示されている。 コードはhttps://github.com/azhuantou/hsdaでリリースされる。

State-of-the-art 3D object detectors are usually trained on large-scale datasets with high-quality 3D annotations. However, such 3D annotations are often expensive and time-consuming, which may not be practical for real applications. A natural remedy is to adopt semi-supervised learning (SSL) by leveraging a limited amount of labeled samples and abundant unlabeled samples. Current pseudolabeling-based SSL object detection methods mainly adopt a teacher-student framework, with a single fixed threshold strategy to generate supervision signals, which inevitably brings confused supervision when guiding the student network training. Besides, the data augmentation of the point cloud in the typical teacher-student framework is too weak, and only contains basic down sampling and flip-and-shift (i.e., rotate and scaling), which hinders the effective learning of feature information. Hence, we address these issues by introducing a novel approach of Hierarchical Supervision and Shuffle Data Augmentation (HSSDA), which is a simple yet effective teacher-student framework. The teacher network generates more reasonable supervision for the student network by designing a dynamic dual-threshold strategy. Besides, the shuffle data augmentation strategy is designed to strengthen the feature representation ability of the student network. Extensive experiments show that HSSDA consistently outperforms the recent state-of-the-art methods on different datasets. The code will be released at https://github.com/azhuantou/HSSDA.
翻訳日:2023-04-05 15:42:07 公開日:2023-04-04
# 3チャンネルモータ画像分類のための時空間特徴フュージョン

Time-space-frequency feature Fusion for 3-channel motor imagery classification ( http://arxiv.org/abs/2304.01461v1 )

ライセンス: Link先を確認
Zhengqing Miao and Meirong Zhao(参考訳) 低チャネルのEEGデバイスは、ポータブルおよびエンターテイメントアプリケーションに不可欠である。 しかし,脳波の低空間分解能は低チャネル運動画像の復号に困難をもたらす。 本研究では,時系列や時間周波数変調に基づく単一モード特徴抽出ネットワークの限界を効果的に補償する新しいネットワークアーキテクチャTSFF-Netを提案する。 tsff-netは、時間周波数表現、時間周波数特徴抽出、時間空間特徴抽出、特徴融合と分類の4つの主成分からなる。 時間周波数表現と特徴抽出は生の脳波信号を時間周波数スペクトログラムに変換し、関連する特徴を抽出する。 時間空間ネットワークは時系列EEG試験を入力として処理し、時間空間の特徴を抽出する。 特徴融合は、再生ケルネルヒルベルト空間における時間周波数と時間空間の特徴の分布を制限するためにMDD損失を使用し、その後、重み付け融合法を用いて効率的な時間空間周波数特徴を得る。 さらに、時間周波数スペクトログラムに基づく3チャンネルモータ画像の復号化についての研究は少ない。 本研究では、時間周波数スペクトログラムに基づく浅層軽量デコードアーキテクチャ(TSFF-img)を提案し、低チャネルモータ画像の分類性能と2つの公開データセットを用いた他の手法との比較を行った。 実験の結果,TSFF-Netは脳波デコーディングにおける単一モード特徴抽出ネットワークの欠点を補うだけでなく,他の最先端手法よりも優れていた。 全体として、TSFF-Netは低チャネルの運動画像の復号化に大きな利点をもたらし、低チャネルのEEG復号化をアルゴリズム的に強化するための貴重な洞察を提供する。

Low-channel EEG devices are crucial for portable and entertainment applications. However, the low spatial resolution of EEG presents challenges in decoding low-channel motor imagery. This study introduces TSFF-Net, a novel network architecture that integrates time-space-frequency features, effectively compensating for the limitations of single-mode feature extraction networks based on time-series or time-frequency modalities. TSFF-Net comprises four main components: time-frequency representation, time-frequency feature extraction, time-space feature extraction, and feature fusion and classification. Time-frequency representation and feature extraction transform raw EEG signals into time-frequency spectrograms and extract relevant features. The time-space network processes time-series EEG trials as input and extracts temporal-spatial features. Feature fusion employs MMD loss to constrain the distribution of time-frequency and time-space features in the Reproducing Kernel Hilbert Space, subsequently combining these features using a weighted fusion approach to obtain effective time-space-frequency features. Moreover, few studies have explored the decoding of three-channel motor imagery based on time-frequency spectrograms. This study proposes a shallow, lightweight decoding architecture (TSFF-img) based on time-frequency spectrograms and compares its classification performance in low-channel motor imagery with other methods using two publicly available datasets. Experimental results demonstrate that TSFF-Net not only compensates for the shortcomings of single-mode feature extraction networks in EEG decoding, but also outperforms other state-of-the-art methods. Overall, TSFF-Net offers considerable advantages in decoding low-channel motor imagery and provides valuable insights for algorithmically enhancing low-channel EEG decoding.
翻訳日:2023-04-05 15:41:45 公開日:2023-04-04
# 不均衡学習のための視覚言語モデルの検討

Exploring Vision-Language Models for Imbalanced Learning ( http://arxiv.org/abs/2304.01457v1 )

ライセンス: Link先を確認
Yidong Wang, Zhuohao Yu, Jindong Wang, Qiang Heng, Hao Chen, Wei Ye, Rui Xie, Xing Xie, Shikun Zhang(参考訳) 対照的な言語画像事前学習を用いた視覚言語モデル(vlms)では,ゼロショット分類性能が期待できる。 しかし、不均衡データセットにおけるそれらの性能は比較的貧弱であり、トレーニングデータセット内のクラスの分布が歪められ、少数クラスの予測性能が低下する。 例えば、CLIPはiNaturalist18データセットで5%の精度しか達成していない。 本稿では,多数のクラスが原因で発生するOOM(out of memory)問題を回避するために,VLMに軽量デコーダを追加することを提案する。 次に,Focal Loss, Balanced SoftMax, Distribution Alignmentなどの不均衡アルゴリズムを即時チューニング,微調整,組み込んだVLMの改良について検討する。 実験により、デコーダや不均衡な手法を用いる場合、VLMの性能をさらに向上できることが示されている。 具体的には,画像Net-LT,iNaturalist18,Places-LTでは,平均精度6.58%,69.82%,6.17%でゼロショット分類に優れていた。 さらに,事前トレーニングデータサイズ,バックボーン,トレーニングコストの影響についても分析した。 本研究では,大容量データによって事前学習されたVLMに直面する不均衡学習アルゴリズムの重要性を明らかにする。 コードをhttps://github.com/Im Balance-VLM/Im Balance-VLMでリリースします。

Vision-Language models (VLMs) that use contrastive language-image pre-training have shown promising zero-shot classification performance. However, their performance on imbalanced dataset is relatively poor, where the distribution of classes in the training dataset is skewed, leading to poor performance in predicting minority classes. For instance, CLIP achieved only 5% accuracy on the iNaturalist18 dataset. We propose to add a lightweight decoder to VLMs to avoid OOM (out of memory) problem caused by large number of classes and capture nuanced features for tail classes. Then, we explore improvements of VLMs using prompt tuning, fine-tuning, and incorporating imbalanced algorithms such as Focal Loss, Balanced SoftMax and Distribution Alignment. Experiments demonstrate that the performance of VLMs can be further boosted when used with decoder and imbalanced methods. Specifically, our improved VLMs significantly outperforms zero-shot classification by an average accuracy of 6.58%, 69.82%, and 6.17%, on ImageNet-LT, iNaturalist18, and Places-LT, respectively. We further analyze the influence of pre-training data size, backbones, and training cost. Our study highlights the significance of imbalanced learning algorithms in face of VLMs pre-trained by huge data. We release our code at https://github.com/Imbalance-VLM/Imbalance-VLM.
翻訳日:2023-04-05 15:40:57 公開日:2023-04-04
# エッジ装置用アテンションマップ誘導変圧器プルーニング

Attention Map Guided Transformer Pruning for Edge Device ( http://arxiv.org/abs/2304.01452v1 )

ライセンス: Link先を確認
Junzhu Mao, Yazhou Yao, Zeren Sun, Xingguo Huang, Fumin Shen and Heng-Tao Shen(参考訳) 長距離依存をモデル化する重要な能力のため、視覚トランスフォーマー(ViT)は、全体的かつ隠蔽された人物再識別(Re-ID)タスクにおいて有望な成功を収めた。 しかし、膨大な計算コストやメモリフットプリントといったトランスフォーマー固有の問題は、リソース制限エッジデバイスへのViTベースの人物Re-IDモデルのデプロイを阻止する未解決の問題である。 我々のゴールは、特に閉塞のあるタスクにおいて、人物のRe-IDに匹敵する精度を犠牲にすることなく、推論の複雑さとモデルサイズの両方を削減することである。 そこで本研究では,ハードウェアフレンドリーな方法でアテンションマップの誘導により,冗長なトークンとヘッドの両方を除去する,新しいアテンションマップ誘導型トランスフォーマープルーニング手法を提案する。 まず、キー次元のエントロピーを計算し、地図全体について集計し、それに対応するエントロピーの高い地図の頭部パラメータをモデルサイズ低減のために除去する。 次に、キートークンの類似性と1次勾配をクエリ次元に沿って組み合わせ、トークンの重要度を推定し、冗長なキーと値トークンを除去し、推論の複雑さをさらに軽減する。 Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。 例えば、vit-base上で提案するプルーニング戦略は、それぞれrank-1 に降格する \textup{\textbf{0.2\%}} と map に改善される \textup{\textbf{0.4\%}} によって保存される \textup{\textbf{29.4\%}} を満足する。

Due to its significant capability of modeling long-range dependencies, vision transformer (ViT) has achieved promising success in both holistic and occluded person re-identification (Re-ID) tasks. However, the inherent problems of transformers such as the huge computational cost and memory footprint are still two unsolved issues that will block the deployment of ViT based person Re-ID models on resource-limited edge devices. Our goal is to reduce both the inference complexity and model size without sacrificing the comparable accuracy on person Re-ID, especially for tasks with occlusion. To this end, we propose a novel attention map guided (AMG) transformer pruning method, which removes both redundant tokens and heads with the guidance of the attention map in a hardware-friendly way. We first calculate the entropy in the key dimension and sum it up for the whole map, and the corresponding head parameters of maps with high entropy will be removed for model size reduction. Then we combine the similarity and first-order gradients of key tokens along the query dimension for token importance estimation and remove redundant key and value tokens to further reduce the inference complexity. Comprehensive experiments on Occluded DukeMTMC and Market-1501 demonstrate the effectiveness of our proposals. For example, our proposed pruning strategy on ViT-Base enjoys \textup{\textbf{29.4\%}} \textup{\textbf{FLOPs}} savings with \textup{\textbf{0.2\%}} drop on Rank-1 and \textup{\textbf{0.4\%}} improvement on mAP, respectively.
翻訳日:2023-04-05 15:40:34 公開日:2023-04-04
# 回折型光ニューラルネットワークの物理認識ラフネス最適化

Physics-aware Roughness Optimization for Diffractive Optical Neural Networks ( http://arxiv.org/abs/2304.01500v1 )

ライセンス: Link先を確認
Shanglin Zhou, Yingjie Li, Minhan Lou, Weilu Gao, Zhijie Shi, Cunxi Yu, Caiwen Ding(参考訳) cmos以外の次世代デバイス/サーキット技術として、ディフューティブ光ニューラルネットワーク(donn)は、超高速計算速度(光速)と低エネルギー消費により、従来のディープニューラルネットワークよりも有望なアドバンテージを示している。 しかし、拡散層内の画素間相互作用のため、DONN数値モデリングと物理光学デバイス配置の間には、重大な予測精度損失というミスマッチがある。 本研究では,数値モデリングと実用展開の性能差を低減できる物理量認識型光ニューラルネットワークトレーニングフレームワークを提案する。 具体的には, 学習過程における粗さモデリングの正則化を提案し, 物理認識スパーシフィケーション法を統合し, 位相マスクにスパーシティを導入し, 隣接画素間の位相変化を緩和する。 さらに,位相マスクの粗さを低減し,DONNの性能を維持するために,2ドル周期最適化法を開発した。 実験の結果、最先端技術と比較して、我々の物理認識最適化は、それぞれmnist、fmnist、kmnist、emnistの精度の損失だけを減少させることで、35.7\%$、34.2\%$、28.1\%$、および27.3\%$の粗さを低減できることがわかった。

As a representative next-generation device/circuit technology beyond CMOS, diffractive optical neural networks (DONNs) have shown promising advantages over conventional deep neural networks due to extreme fast computation speed (light speed) and low energy consumption. However, there is a mismatch, i.e., significant prediction accuracy loss, between the DONN numerical modelling and physical optical device deployment, because of the interpixel interaction within the diffractive layers. In this work, we propose a physics-aware diffractive optical neural network training framework to reduce the performance difference between numerical modeling and practical deployment. Specifically, we propose the roughness modeling regularization in the training process and integrate the physics-aware sparsification method to introduce sparsity to the phase masks to reduce sharp phase changes between adjacent pixels in diffractive layers. We further develop $2\pi$ periodic optimization to reduce the roughness of the phase masks to preserve the performance of DONN. Experiment results demonstrate that, compared to state-of-the-arts, our physics-aware optimization can provide $35.7\%$, $34.2\%$, $28.1\%$, and $27.3\%$ reduction in roughness with only accuracy loss on MNIST, FMNIST, KMNIST, and EMNIST, respectively.
翻訳日:2023-04-05 15:34:00 公開日:2023-04-04
# DCANet:イメージブラインドに注意を向けたデュアル畳み込みニューラルネットワーク

DCANet: Dual Convolutional Neural Network with Attention for Image Blind Denoising ( http://arxiv.org/abs/2304.01498v1 )

ライセンス: Link先を確認
Wencong Wu, Guannan Lv, Yingying Duan, Peng Liang, Yungang Zhang, Yuelong Xia(参考訳) 画像のノイズ除去は多くのコンピュータビジョンタスクにおいて重要な前処理手順である。 現在、ディープニューラルネットワークに基づく多くの認知モデルは、既知の分布(すなわち加法的なガウスホワイトノイズ)でノイズを取り除くのによく機能する。 しかし、実際のノイズを除去することは依然として非常に難しい課題であり、現実のノイズは単に一つの種類の分布に従わず、空間的に異なる可能性がある。 本稿では,dcanet(dcanet)と呼ばれる画像ブラインドデノージングに注意を向けた,新しい二重畳み込みニューラルネットワーク(cnn)を提案する。 我々の知る限り、提案したDCANetは、デュアルCNNとアテンション機構を統合した最初の作品である。 dcanetは、ノイズ推定ネットワークと、空間的およびチャネル的注意モジュール(scam)と、二重構造を有するcnnとからなる。 ノイズ推定ネットワークを用いて画像内の空間分布と雑音レベルを推定する。 SCAMの入力として雑音画像とその推定ノイズを合成し、2つの異なる分岐を含む2つのCNNを相補的特徴を学習して復号化画像を得るように設計されている。 実験により,提案したDCANetは,合成ノイズと実雑音の両方を効果的に抑制できることを確認した。 DCANetのコードはhttps://github.com/WenCongWu/DCANetで公開されている。

Noise removal of images is an essential preprocessing procedure for many computer vision tasks. Currently, many denoising models based on deep neural networks can perform well in removing the noise with known distributions (i.e. the additive Gaussian white noise). However eliminating real noise is still a very challenging task, since real-world noise often does not simply follow one single type of distribution, and the noise may spatially vary. In this paper, we present a new dual convolutional neural network (CNN) with attention for image blind denoising, named as the DCANet. To the best of our knowledge, the proposed DCANet is the first work that integrates both the dual CNN and attention mechanism for image denoising. The DCANet is composed of a noise estimation network, a spatial and channel attention module (SCAM), and a CNN with a dual structure. The noise estimation network is utilized to estimate the spatial distribution and the noise level in an image. The noisy image and its estimated noise are combined as the input of the SCAM, and a dual CNN contains two different branches is designed to learn the complementary features to obtain the denoised image. The experimental results have verified that the proposed DCANet can suppress both synthetic and real noise effectively. The code of DCANet is available at https://github.com/WenCongWu/DCANet.
翻訳日:2023-04-05 15:33:34 公開日:2023-04-04
# 低リソース地震探査のための伝搬構造を持つ一貫したコントラスト伝達フレームワーク

A Unified Contrastive Transfer Framework with Propagation Structure for Boosting Low-Resource Rumor Detection ( http://arxiv.org/abs/2304.01492v1 )

ライセンス: Link先を確認
Hongzhan Lin, Jing Ma, Ruichao Yang, Zhiwei Yang, Mingfei Cheng(参考訳) 事実は、ニュースや人気の話題とともに広まる巨大な噂によって著しく妨げられている。 モデルトレーニングのために同じドメインから集めた十分なコーパスがあるため、既存の噂検出アルゴリズムは昨日のニュースで有望なパフォーマンスを示している。 しかし、訓練データや事前の専門家知識が欠如しているため、予期せぬ出来事、特に異なる言語(低資源体制)で伝播した出来事に関する噂を見つけるのが苦手である。 本稿では,噂データから得られた特徴を低リソースデータに適応させることにより,噂を検出するための一貫したコントラスト転送フレームワークを提案する。 より具体的には、まずソーシャルメディアで流布された噂を無向トポロジーとして表現し、その後、統一的なコントラストパラダイムを介して多スケールグラフ畳み込みネットワークを訓練する。 我々のモデルは、言語アライメントと新しいドメイン適応型コントラスト学習機構を通じて、ドメインおよび/または言語問題の障壁を明示的に破る。 ターゲットイベントの小さな集合からの表現学習を強化するために,これらの事象の分布の均一性と噂表現信号が密接な相関関係があることを明らかにする。 本研究では,対象イベントを識別して表現を統一できる3つのデータ拡張戦略を備えた目標指向のコントラスト学習機構を設計する。 実世界のマイクロブログプラットフォームから収集した4つの低リソースデータセットによる大規模な実験により、我々のフレームワークは最先端の手法よりもはるかに優れた性能を示し、早期に噂を検出する能力を示している。

The truth is significantly hampered by massive rumors that spread along with breaking news or popular topics. Since there is sufficient corpus gathered from the same domain for model training, existing rumor detection algorithms show promising performance on yesterday's news. However, due to a lack of training data and prior expert knowledge, they are poor at spotting rumors concerning unforeseen events, especially those propagated in different languages (i.e., low-resource regimes). In this paper, we propose a unified contrastive transfer framework to detect rumors by adapting the features learned from well-resourced rumor data to that of the low-resourced. More specifically, we first represent rumor circulated on social media as an undirected topology, and then train a Multi-scale Graph Convolutional Network via a unified contrastive paradigm. Our model explicitly breaks the barriers of the domain and/or language issues, via language alignment and a novel domain-adaptive contrastive learning mechanism. To enhance the representation learning from a small set of target events, we reveal that rumor-indicative signal is closely correlated with the uniformity of the distribution of these events. We design a target-wise contrastive training mechanism with three data augmentation strategies, capable of unifying the representations by distinguishing target events. Extensive experiments conducted on four low-resource datasets collected from real-world microblog platforms demonstrate that our framework achieves much better performance than state-of-the-art methods and exhibits a superior capacity for detecting rumors at early stages.
翻訳日:2023-04-05 15:33:09 公開日:2023-04-04
# 自動識別システムデータに基づくトラックアソシエーションのための多モデルLSTMアーキテクチャ

Multi model LSTM architecture for Track Association based on Automatic Identification System Data ( http://arxiv.org/abs/2304.01491v1 )

ライセンス: Link先を確認
Md Asif Bin Syed, Imtiaz Ahmed(参考訳) 何十年もの間、トラック・アソシエーションは海洋監視において困難な問題であり、時間をかけて船の観測を識別し、関連付けることを含んできた。 しかし、自動識別システム(ais)は、船舶の動的および地理空間情報の大規模なデータベースを提供することで、この問題に取り組む新たな機会を提供している。 このような大規模なデータベースが利用可能になったことで、研究者は、トラックアソシエーションの課題に効果的に取り組むためにデータの可用性を高める高度なモデルやアルゴリズムを開発できるようになった。 さらに、ディープラーニングの出現により、トラックアソシエーションはデータ集約的な問題としてアプローチできるようになった。 本研究では,トラックアソシエーションのためのLong Short-Term Memory(LSTM)に基づくマルチモデルフレームワークを提案する。 LSTMは、時系列的に収集された多変量時間データを処理できるリカレントニューラルネットワークアーキテクチャであり、過去の観測から現在の血管の位置を予測することができる。 これらの予測に基づいて、測地線距離に基づく類似度計量を用いて、未分類の観測を真の軌跡(容器)に関連付ける。 提案手法を精度,リコール,F1スコアなどの標準的な性能指標を用いて評価し,提案手法の精度を概観する。

For decades, track association has been a challenging problem in marine surveillance, which involves the identification and association of vessel observations over time. However, the Automatic Identification System (AIS) has provided a new opportunity for researchers to tackle this problem by offering a large database of dynamic and geo-spatial information of marine vessels. With the availability of such large databases, researchers can now develop sophisticated models and algorithms that leverage the increased availability of data to address the track association challenge effectively. Furthermore, with the advent of deep learning, track association can now be approached as a data-intensive problem. In this study, we propose a Long Short-Term Memory (LSTM) based multi-model framework for track association. LSTM is a recurrent neural network architecture that is capable of processing multivariate temporal data collected over time in a sequential manner, enabling it to predict current vessel locations from historical observations. Based on these predictions, a geodesic distance based similarity metric is then utilized to associate the unclassified observations to their true tracks (vessels). We evaluate the performance of our approach using standard performance metrics, such as precision, recall, and F1 score, which provide a comprehensive summary of the accuracy of the proposed framework.
翻訳日:2023-04-05 15:32:41 公開日:2023-04-04
# 自然言語による視覚の微調整の改善

Improved Visual Fine-tuning with Natural Language Supervision ( http://arxiv.org/abs/2304.01489v1 )

ライセンス: Link先を確認
Junyang Wang, Yuanhong Xu, Juhua Hu, Ming Yan, Jitao Sang, Qi Qian(参考訳) 事前学習モデルの微調整は、大規模な事前学習データからの意味情報を活用でき、限られたトレーニング例で下流タスクの過度な適合問題を軽減できる。 バックボーンにおける破滅的忘れの問題は広く研究されているが、対応する事前学習タスクとデータによる事前学習モデルに存在する潜在的なバイアスは、あまり注目されていない。 本研究では,本研究で得られた分類器が,事前学習モデルにより誘導されるものに近くなることを示した。 分類器のバイアスを効果的に低減するため、学習した視覚分類器を正則化するための固定テキスト分類器から得られる参照分布を導入する。 提案手法であるtext supervised fine-tuning (tes) は,resnet や vit,bert や clip などのテキストエンコーダを11のダウンストリームタスクで評価した。 異なるシナリオに対する明確なマージンによる一貫した改善は、提案の有効性を確認します。

Fine-tuning a pre-trained model can leverage the semantic information from large-scale pre-training data and mitigate the over-fitting problem on downstream tasks with limited training examples. While the problem of catastrophic forgetting in backbone has been extensively studied, the potential bias existing in a pre-trained model due to the corresponding pre-training task and data, attracts less attention. In this work, we investigate this problem by demonstrating that the obtained classifier after fine-tuning will be close to that induced by the pre-trained model. To reduce the bias in the classifier effectively, we introduce a reference distribution obtained from a fixed text classifier, which can help regularize the learned vision classifier. The proposed method, Text Supervised fine-tuning (TeS), is evaluated with diverse pre-trained vision models including ResNet and ViT, and text encoders including BERT and CLIP, on 11 downstream tasks. The consistent improvement with a clear margin over distinct scenarios confirms the effectiveness of our proposal.
翻訳日:2023-04-05 15:32:21 公開日:2023-04-04
# 災害対応のための多視点3次元再構成のエンドツーエンドレイテンシ最適化

End-to-End Latency Optimization of Multi-view 3D Reconstruction for Disaster Response ( http://arxiv.org/abs/2304.01488v1 )

ライセンス: Link先を確認
Xiaojie Zhang, Mingjun Li, Andrew Hilton, Amitangshu Pal, Soumyabrata Dey, Saptarshi Debroy(参考訳) 災害時の迅速な対応を計画するために、ファーストレスポンサは、災害現場の3d再構築のような複雑なビデオ分析アプリケーションのために、安価なモバイルエッジデバイス(ドローン、ロボット、タブレットなど)で‘bring your own device’(byod)モデルを採用することが多い。 より単純なビデオアプリケーションとは異なり、広範に使われているMulti-view Stereo (MVS)ベースの3D再構成アプリケーション(例えばopenMVG/openMVS)は、特に計算に制約のあるモバイルエッジデバイス上で実行するのに非常に時間がかかる。 さらに、このような本質的にシーケンシャルなアルゴリズムのリコンストラクションの遅延を減らすことは困難であり、アプリケーションに依存しない戦略は、リコンストラクション(すなわち、アプリケーション結果)の品質を劇的に低下させ、それらを役に立たないものにすることができる。 本稿では,遅延を最適化したmvsアルゴリズムパイプラインの設計を目標とし,このパイプラインを協調したモバイルエッジ環境上で動作させることで,エンドツーエンドのレイテンシと再構築品質を最善にバランスさせることを目的としている。 全体的な最適化のアプローチは2つある。 a) パイプラインを高周波・低周波再構成コンポーネントに分割してデータレベル並列性を導入するアプリケーション最適化 b) システムの最適化は、レイテンシと品質のバランスをとるために、利用可能なリソースとオンライン品質制御を併用して、タスクレベルの並列処理をパイプラインに組み込む。 公開データセットを用いたハードウェアテストベッドの評価では,リコンストラクション品質が約4~7%低下し,レイテンシが最大54%低減した。

In order to plan rapid response during disasters, first responder agencies often adopt `bring your own device' (BYOD) model with inexpensive mobile edge devices (e.g., drones, robots, tablets) for complex video analytics applications, e.g., 3D reconstruction of a disaster scene. Unlike simpler video applications, widely used Multi-view Stereo (MVS) based 3D reconstruction applications (e.g., openMVG/openMVS) are exceedingly time consuming, especially when run on such computationally constrained mobile edge devices. Additionally, reducing the reconstruction latency of such inherently sequential algorithms is challenging as unintelligent, application-agnostic strategies can drastically degrade the reconstruction (i.e., application outcome) quality making them useless. In this paper, we aim to design a latency optimized MVS algorithm pipeline, with the objective to best balance the end-to-end latency and reconstruction quality by running the pipeline on a collaborative mobile edge environment. The overall optimization approach is two-pronged where: (a) application optimizations introduce data-level parallelism by splitting the pipeline into high frequency and low frequency reconstruction components and (b) system optimizations incorporate task-level parallelism to the pipelines by running them opportunistically on available resources with online quality control in order to balance both latency and quality. Our evaluation on a hardware testbed using publicly available datasets shows upto ~54% reduction in latency with negligible loss (~4-7%) in reconstruction quality.
翻訳日:2023-04-05 15:32:02 公開日:2023-04-04
# chatgptにせよchatgptにせよ、あるいはchatgptにせよ、それは問題です!

To ChatGPT, or not to ChatGPT: That is the question! ( http://arxiv.org/abs/2304.01487v1 )

ライセンス: Link先を確認
Alessandro Pegoraro, Kavita Kumari, Hossein Fereidooni, Ahmad-Reza Sadeghi(参考訳) ChatGPTは世界的なセンセーションになっている。 chatgptや他の大規模言語モデル(llm)が出現するにつれて、偽ニュースの拡散、盗作、世論の操作、不正行為、詐欺など、さまざまな方法でそれらを誤用する懸念が高まる。 したがって、人間の生成したAIを区別することがますます重要になる。 研究者は、基本的なバイナリ分類器からより複雑なディープラーニングモデルまで、さまざまな検出手法を提案している。 いくつかの検出技術は統計特性や構文パターンに依存し、他の検出手法では意味情報や文脈情報を取り入れて精度を向上させる。 本研究の主な目的は、ChatGPT検出における最新の技術に関する包括的かつ現代的な評価を提供することである。 さらに、ChatGPT生成コンテンツの検出を特に主張しないAI生成テキスト検出ツールを評価し、ChatGPT生成コンテンツの検出のパフォーマンスを評価する。 評価のために、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問、人気のあるソーシャルネットワークプラットフォームからのユーザ生成レスポンスを検証した。 このデータセットは、ChatGPT生成コンテンツを検出する様々なテクニックのパフォーマンスを評価するリファレンスとして機能する。 評価の結果,既存の手法ではchatgpt生成コンテンツを効果的に検出できないことがわかった。

ChatGPT has become a global sensation. As ChatGPT and other Large Language Models (LLMs) emerge, concerns of misusing them in various ways increase, such as disseminating fake news, plagiarism, manipulating public opinion, cheating, and fraud. Hence, distinguishing AI-generated from human-generated becomes increasingly essential. Researchers have proposed various detection methodologies, ranging from basic binary classifiers to more complex deep-learning models. Some detection techniques rely on statistical characteristics or syntactic patterns, while others incorporate semantic or contextual information to improve accuracy. The primary objective of this study is to provide a comprehensive and contemporary assessment of the most recent techniques in ChatGPT detection. Additionally, we evaluated other AI-generated text detection tools that do not specifically claim to detect ChatGPT-generated content to assess their performance in detecting ChatGPT-generated content. For our evaluation, we have curated a benchmark dataset consisting of prompts from ChatGPT and humans, including diverse questions from medical, open Q&A, and finance domains and user-generated responses from popular social networking platforms. The dataset serves as a reference to assess the performance of various techniques in detecting ChatGPT-generated content. Our evaluation results demonstrate that none of the existing methods can effectively detect ChatGPT-generated content.
翻訳日:2023-04-05 15:31:33 公開日:2023-04-04
# 動的分解能スケーリングを有する代数離散量子調和振動子

Algebraic discrete quantum harmonic oscillator with dynamic resolution scaling ( http://arxiv.org/abs/2304.01486v1 )

ライセンス: Link先を確認
Michael May and Hong Qin(参考訳) 離散量子調和振動子(DQHO)の代数モデルは、エネルギーラグ演算子に加えてラグ演算子を分解できるように振動子代数を修正し、有限自由度量子シミュレーションにおける分解能の動的スケーリングを可能にする。 代数的 DQHO は、埋め込み su(2) 代数によって決定される Kravchuk 関数のエネルギー固有状態を持ち、それぞれの既約表現は、その分解によってラベル付けされた別の数値 QHO を定義し、QHO の構造保存離散化を与える。

An algebraic model for the discrete quantum harmonic oscillator (DQHO) is developed by modifying the oscillator algebra to allow for resolution ladder operators in addition to energy ladder operators, enabling dynamic scaling of the resolution in finite degree-of-freedom quantum simulations. The algebraic DQHO has equally-spaced, Kravchuk function energy eigenstates determined by an embedded su(2) algebra, each irreducible representation of which defines a distinct numerical QHO labeled by its resolution and furnishes a structure-preserving discretization of the QHO.
翻訳日:2023-04-05 15:31:09 公開日:2023-04-04
# ラベル進化を満たしたマッピングデジェネレーション: 単一点監督による赤外小目標検出

Mapping Degeneration Meets Label Evolution: Learning Infrared Small Target Detection with Single Point Supervision ( http://arxiv.org/abs/2304.01484v1 )

ライセンス: Link先を確認
Xinyi Ying, Li Liu, Yingqian Wang, Ruojing Li, Nuo Chen, Zaiping Lin, Weidong Sheng, Shilin Zhou(参考訳) コンボリューションニューラルネット(cnn)を訓練して赤外線の小さなターゲットを完全に教師ありの方法で検出することは近年、大きな研究関心を集めている。 この問題に対処するため,本論文では,赤外小目標検出をポイントレベルの監視で実現するための最初の試みを行う。 興味深いことに、ポイントラベルによって監督されるトレーニングフェーズの間、CNNはまずターゲット近傍のピクセル群を分割し、徐々に収束して基底点ラベルを予測することを学習する。 この「マッピング・デジェネレーション(mapping degeneration)」現象に触発され,CNNの中間的予測を生かして,一点監視(leSPS)を用いたラベル進化というラベル進化フレームワークを提案する。 このようにして、ネットワーク予測は最終的に更新された擬似ラベルを近似することができ、CNNをエンドツーエンドで訓練するための画素レベルのターゲットマスクを得ることができる。 本手法の有効性を検証するため,洞察力のある可視化実験を行った。 実験結果から, LESPSを装着したCNNは, 対象マスクを対応する点ラベルからよく回収でき, また, 画素レベルのコンバウンド(IoU)とオブジェクトレベルの検出確率(Pd)で, 完全に監督された性能の70%以上を達成できることがわかった。 コードはhttps://github.com/XinyiYing/LESPSで入手できる。

Training a convolutional neural network (CNN) to detect infrared small targets in a fully supervised manner has gained remarkable research interests in recent years, but is highly labor expensive since a large number of per-pixel annotations are required. To handle this problem, in this paper, we make the first attempt to achieve infrared small target detection with point-level supervision. Interestingly, during the training phase supervised by point labels, we discover that CNNs first learn to segment a cluster of pixels near the targets, and then gradually converge to predict groundtruth point labels. Motivated by this "mapping degeneration" phenomenon, we propose a label evolution framework named label evolution with single point supervision (LESPS) to progressively expand the point label by leveraging the intermediate predictions of CNNs. In this way, the network predictions can finally approximate the updated pseudo labels, and a pixel-level target mask can be obtained to train CNNs in an end-to-end manner. We conduct extensive experiments with insightful visualizations to validate the effectiveness of our method. Experimental results show that CNNs equipped with LESPS can well recover the target masks from corresponding point labels, {and can achieve over 70% and 95% of their fully supervised performance in terms of pixel-level intersection over union (IoU) and object-level probability of detection (Pd), respectively. Code is available at https://github.com/XinyiYing/LESPS.
翻訳日:2023-04-05 15:30:56 公開日:2023-04-04
# リトレーニングのない変圧器モデルにおけるブロックワイズ圧縮

Blockwise Compression of Transformer-based Models without Retraining ( http://arxiv.org/abs/2304.01483v1 )

ライセンス: Link先を確認
Gaochen Dong, Wei Chen(参考訳) GPT-3、ChatGPT、GPT-4に代表されるトランスフォーマーベースのモデルは、近年、関心の高まり、研究熱意、ビジネス需要を惹きつけている。 しかし、その膨大な計算リソースと巨大なメモリフットプリントは避けられない課題である。 そこで本研究では,再トレーニングを行わない変圧器のブロックワイズ圧縮の枠組みであるbctを提案する。 BCTは、埋め込み、行列乗算、GELU、ソフトマックス、層正規化、および全ての中間結果を含む変換器全体のよりきめ細かい圧縮を実現する。 実例として,BCTを用いて効率的なモデルを圧縮し,汎用言語理解評価(GLUE)データセット上で評価する。 その結果,ほとんどのタスクにおいてBCTは0.90%未満の精度低下を達成できることがわかった。

Transformer-based models, represented by GPT-3, ChatGPT, and GPT-4, have recently attracted increasing interest, research enthusiasm, and business demand. However, their massive computation resources and huge memory footprint are inevitable challenges. To tackle this issue, we propose BCT, a framework of blockwise compression for transformers without retraining, to lower deployment thresholds. BCT achieves more fine-grained compression of the whole transformer, including embedding, matrix multiplication, GELU, Softmax, layer normalization, and all the intermediate results. As a case, we compress an efficient model with BCT and evaluate it on several General Language Understanding Evaluation (GLUE) datasets. The results show that BCT can achieve a less than 0.90% accuracy drop in most tasks.
翻訳日:2023-04-05 15:30:28 公開日:2023-04-04
# エンタングルメントエンハンスドデュアルコーム分光法

Entanglement-enhanced dual-comb spectroscopy ( http://arxiv.org/abs/2304.01516v1 )

ライセンス: Link先を確認
Haowei Shi, Zaijun Chen, Scott E. Fraser, Mengjie Yu, Zheshen Zhang and Quntao Zhuang(参考訳) dual-comb interferometryは、2つのレーザー周波数コムの干渉を利用して、分光応用において前例のない能力を提供する。 過去10年間で、最先端のシステムは、真空変動によるショットノイズによって、単位取得時間当たりの信号対雑音比が根本的に制限される地点に達した。 この問題に対処するために,量子資源を活用し,信号対雑音比性能を著しく向上させる,エンタングルメントエンハンスド二重コム分光プロトコルを提案する。 実システムの性能を解析するために,実用的な雑音を考慮した双対コム分光の量子モデルを開発した。 このモデルに基づき, ヘテロダイン検出におけるショットノイズを抑制するために, 各コーム線にサイドバンド絡み合いを有する量子コームを提案する。 以上の結果から,uwからmwのパワー範囲において大きな量子効果を示し,生体・化学センシングへの応用において特に魅力的な技術である。 さらに、量子コムは非線形光学を用いて設計することができ、短期実験を約束する。

Dual-comb interferometry harnesses the interference of two laser frequency comb to provide unprecedented capability in spectroscopy applications. In the past decade, the state-of-the-art systems have reached a point where the signal-to-noise ratio per unit acquisition time is fundamentally limited by shot noise from vacuum fluctuations. To address the issue, we propose an entanglement-enhanced dual comb spectroscopy protocol that leverages quantum resources to significantly improve the signal-to-noise ratio performance. To analyze the performance of real systems, we develop a quantum model of dual-comb spectroscopy that takes practical noises into consideration. Based on this model, we propose quantum combs with side-band entanglement around each comb lines to suppress the shot noise in heterodyne detection. Our results show significant quantum advantages in the uW to mW power range, making this technique particularly attractive for biological and chemical sensing applications. Furthermore, the quantum comb can be engineered using nonlinear optics and promises near-term experimentation.
翻訳日:2023-04-05 15:25:04 公開日:2023-04-04
# マスキング生成モデルを用いたテキスト対画像生成のためのテキスト条件付サンプリングフレームワーク

Text-Conditioned Sampling Framework for Text-to-Image Generation with Masked Generative Models ( http://arxiv.org/abs/2304.01515v1 )

ライセンス: Link先を確認
Jaewoong Lee, Sangwon Jang, Jaehyeong Jo, Jaehong Yoon, Yunji Kim, Jin-Hwa Kim, Jung-Woo Ha, Sung Ju Hwang(参考訳) トークンベースのマスク生成モデルは並列復号による高速な推論時間で人気を集めている。 最近のトークンベースのアプローチは拡散ベースのモデルとの競合性能を達成するが、その生成性能は、複数のトークンを同時にサンプリングすることで、それらの間の依存性を考慮せずに最適化されている。 本稿では,この問題を実証的に検討し,テキスト情報を用いた局所的監視による最適なトークン選択を行うための,学習可能なサンプリングモデルであるText-Conditioned Token Selection (TCTS)を提案する。 TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。 画像品質をさらに向上するため,各トークン群に対して,自己アテンションマップに従って分割した凝集的サンプリング戦略である周波数適応サンプリング(fas)を導入する。 tctsとfasの併用効果を様々な生成タスクで検証し,画像・テキストのアライメントや画像品質のベースラインを大きく上回っていることを示す。 テキスト条件付サンプリングフレームワークは、元の生成モデルを変更することなく、元の推論時間を50%以上削減する。

Token-based masked generative models are gaining popularity for their fast inference time with parallel decoding. While recent token-based approaches achieve competitive performance to diffusion-based models, their generation performance is still suboptimal as they sample multiple tokens simultaneously without considering the dependence among them. We empirically investigate this problem and propose a learnable sampling model, Text-Conditioned Token Selection (TCTS), to select optimal tokens via localized supervision with text information. TCTS improves not only the image quality but also the semantic alignment of the generated images with the given texts. To further improve the image quality, we introduce a cohesive sampling strategy, Frequency Adaptive Sampling (FAS), to each group of tokens divided according to the self-attention maps. We validate the efficacy of TCTS combined with FAS with various generative tasks, demonstrating that it significantly outperforms the baselines in image-text alignment and image quality. Our text-conditioned sampling framework further reduces the original inference time by more than 50% without modifying the original generative model.
翻訳日:2023-04-05 15:24:49 公開日:2023-04-04
# 変分ベイを用いた3次元レジストレーションにおけるロバスト外乱除去

Robust Outlier Rejection for 3D Registration with Variational Bayes ( http://arxiv.org/abs/2304.01514v1 )

ライセンス: Link先を確認
Haobo Jiang, Zheng Dang, Zhen Wei, Jin Xie, Jian Yang, Mathieu Salzmann(参考訳) ロバストな3d登録のための学習ベースの外れ値(ミスマッチ対応)拒絶は、一般的に外れ値の除去を外れ値/外れ値の分類問題として定式化する。 この成功の核心は、識別的インリアー/アウトリアーの特徴表現を学ぶことである。 本稿では,ロバストなアライメントを実現するための,新しい変分的非局所ネットワークベースアウトリアー拒絶フレームワークを開発した。 変分ベイズ推論を用いて非局所特徴学習を再構成することで、ベイズ駆動の長距離依存性をモデル化し、不可解/外れ値区別のための識別幾何学的コンテキスト情報を集約することができる。 具体的には、ベイジアン駆動のコンテキスト依存を実現するために、我々の非ローカルネットワークの各クエリ/キー/バリューコンポーネントは、以前の特徴分布と後方特徴分布を予測する。 inlier/outlierラベルが埋め込まれ、後部特徴分布はラベルに依存して識別される。 したがって、トレーニングステップにおいて、事前を識別後段に近づけることで、テスト時にこの前段階からサンプリングした特徴を高品質な長距離依存関係をモデル化することができる。 特に、効果的な後部特徴指導を実現するために、局所的でないモデルの上に特定の確率的グラフィカルモデルを設計し、モデルトレーニングの最適化目的として変動的低境界を導出する。 最後に, 投票に基づく不整合探索手法を提案し, 変換推定のための高品質な仮説的不整合をクラスタ化する。 3DMatch, 3DLoMatch, KITTIデータセットの大規模な実験により, 本手法の有効性が検証された。

Learning-based outlier (mismatched correspondence) rejection for robust 3D registration generally formulates the outlier removal as an inlier/outlier classification problem. The core for this to be successful is to learn the discriminative inlier/outlier feature representations. In this paper, we develop a novel variational non-local network-based outlier rejection framework for robust alignment. By reformulating the non-local feature learning with variational Bayesian inference, the Bayesian-driven long-range dependencies can be modeled to aggregate discriminative geometric context information for inlier/outlier distinction. Specifically, to achieve such Bayesian-driven contextual dependencies, each query/key/value component in our non-local network predicts a prior feature distribution and a posterior one. Embedded with the inlier/outlier label, the posterior feature distribution is label-dependent and discriminative. Thus, pushing the prior to be close to the discriminative posterior in the training step enables the features sampled from this prior at test time to model high-quality long-range dependencies. Notably, to achieve effective posterior feature guidance, a specific probabilistic graphical model is designed over our non-local model, which lets us derive a variational low bound as our optimization objective for model training. Finally, we propose a voting-based inlier searching strategy to cluster the high-quality hypothetical inliers for transformation estimation. Extensive experiments on 3DMatch, 3DLoMatch, and KITTI datasets verify the effectiveness of our method.
翻訳日:2023-04-05 15:24:32 公開日:2023-04-04
# グローバル時系列予測におけるコンセプトドリフトの扱い

Handling Concept Drift in Global Time Series Forecasting ( http://arxiv.org/abs/2304.01512v1 )

ライセンス: Link先を確認
Ziyi Liu, Rakshitha Godahewa, Kasun Bandara, Christoph Bergmeir(参考訳) 機械学習(ML)ベースの時系列予測モデルは、予測を生成する際にデータに一定の定常度を必要とすることが多い。 しかし、多くの現実の状況では、データ分布は定常的ではなく、時間とともに変化し、ml文献では概念ドリフトとして知られる予測モデルの精度を低下させる可能性がある。 予測における概念ドリフトの扱いは、今日では多くのML手法において不可欠であるが、先行研究は分類領域における概念ドリフトを扱う方法のみを提案する。 このギャップを埋めるため、最近予測領域で人気を得たグローバル予測モデル(gfm)において、特に概念ドリフトハンドリング手法について検討する。 本稿では, 連続適応重み付けの概念に基づいて, 誤差寄与度重み付け(ECW)と勾配降下度重み付け(GDW)の2つの新しい概念ドリフトハンドリング手法を提案する。 これらの手法は、最新のシリーズと全シリーズで個別に訓練された2つの予測モデルを使用し、最終的に2つのモデルが提供する予測の重み付け平均を最終予測と見なす。 基礎学習者としてlightgbmを用いた3つのシミュレーションデータセットの評価において,提案手法は4つの評価指標にまたがる統計ベンチマークとlightgbmベースラインのセットよりも有意に精度が向上した。

Machine learning (ML) based time series forecasting models often require and assume certain degrees of stationarity in the data when producing forecasts. However, in many real-world situations, the data distributions are not stationary and they can change over time while reducing the accuracy of the forecasting models, which in the ML literature is known as concept drift. Handling concept drift in forecasting is essential for many ML methods in use nowadays, however, the prior work only proposes methods to handle concept drift in the classification domain. To fill this gap, we explore concept drift handling methods in particular for Global Forecasting Models (GFM) which recently have gained popularity in the forecasting domain. We propose two new concept drift handling methods, namely: Error Contribution Weighting (ECW) and Gradient Descent Weighting (GDW), based on a continuous adaptive weighting concept. These methods use two forecasting models which are separately trained with the most recent series and all series, and finally, the weighted average of the forecasts provided by the two models are considered as the final forecasts. Using LightGBM as the underlying base learner, in our evaluation on three simulated datasets, the proposed models achieve significantly higher accuracy than a set of statistical benchmarks and LightGBM baselines across four evaluation metrics.
翻訳日:2023-04-05 15:24:09 公開日:2023-04-04
# EPVT:皮膚病変認識における領域一般化のための環境対応プロンプトビジョントランス

EPVT: Environment-aware Prompt Vision Transformer for Domain Generalization in Skin Lesion Recognition ( http://arxiv.org/abs/2304.01508v1 )

ライセンス: Link先を確認
Siyuan Yan, Chi Liu, Zhen Yu, Lie Ju, Dwarikanath Mahapatrainst, Victoria Mar, Monika Janda, Peter Soyer, Zongyuan Ge(参考訳) 深層学習を用いた皮膚病変認識は目覚ましい進歩を遂げており、現実のシナリオにこれらのシステムをデプロイする必要性が高まっている。 しかし、近年の研究では、皮膚病変認識のための深層ニューラルネットワークが、疾患に関係のない画像アーティファクト(ダークコーナー、濃密な毛髪など)に過度に依存し、目に見えない環境での一般化を損なう可能性があることが判明している。 この問題に対処するために,視覚変換器にプロンプトを埋め込み,多様な領域から知識を協調的に学習するEPVTと呼ばれる新しい領域一般化手法を提案する。 具体的には、EPVTはドメインの専門家として機能する一連のドメインプロンプトを活用して、ドメイン固有の知識をキャプチャします。 知識共有と異なるプロンプトの相互作用を容易にするため,ドメインプロンプトと共有プロンプト間の低ランク乗算更新を可能にするドメインプロンプト生成手法を提案する。 ドメインのミックスアップ戦略は、各ドメインの共起アーティファクトを減らすためにさらに考案され、より柔軟な決定マージンを可能にし、誤って割り当てられたドメインラベルの問題を軽減する。 4つの分布外データセットと6つのバイアス付きISICデータセットの実験は、様々な環境における皮膚病変認識におけるEVVTのより優れた一般化能力を示す。 コードとデータセットはhttps://github.com/SiyuanYan1/EPVT.comで公開されます。

Skin lesion recognition using deep learning has made remarkable progress, and there is an increasing need for deploying these systems in real-world scenarios. However, recent research has revealed that deep neural networks for skin lesion recognition may overly depend on disease-irrelevant image artifacts (i.e. dark corners, dense hairs), leading to poor generalization in unseen environments. To address this issue, we propose a novel domain generalization method called EPVT, which involves embedding prompts into the vision transformer to collaboratively learn knowledge from diverse domains. Concretely, EPVT leverages a set of domain prompts, each of which plays as a domain expert, to capture domain-specific knowledge; and a shared prompt for general knowledge over the entire dataset. To facilitate knowledge sharing and the interaction of different prompts, we introduce a domain prompt generator that enables low-rank multiplicative updates between domain prompts and the shared prompt. A domain mixup strategy is additionally devised to reduce the co-occurring artifacts in each domain, which allows for more flexible decision margins and mitigates the issue of incorrectly assigned domain labels. Experiments on four out-of-distribution datasets and six different biased ISIC datasets demonstrate the superior generalization ability of EPVT in skin lesion recognition across various environments. Our code and dataset will be released at https://github.com/SiyuanYan1/EPVT.
翻訳日:2023-04-05 15:23:45 公開日:2023-04-04
# RARE:ロバストなマスク付きグラフオートエンコーダ

RARE: Robust Masked Graph Autoencoder ( http://arxiv.org/abs/2304.01507v1 )

ライセンス: Link先を確認
Wenxuan Tu, Qing Liao, Sihang Zhou, Xin Peng, Chuan Ma, Zhe Liu, Xinwang Liu, Zhiping Cai(参考訳) Masked graph autoencoder (MGAE) は、その単純さと有効性から、有望な自己教師付きグラフ事前学習(SGP)パラダイムとして登場した。 しかし,既存の研究は,計算機ビジョン(CV)や自然言語処理(NLP)領域で行われているように,生データ空間におけるマスク-テーマ-再構成操作を行ない,グラフデータの非ユークリッド特性を無視する。 その結果、高度に不安定な局所接続構造は、マスク付きデータの推測の不確実性を著しく増大させ、悪用された自己超越信号の信頼性を低下させ、下流評価における劣等な表現をもたらす。 そこで本研究では,高次潜時特徴空間におけるノードサンプルのマスキングと再構成により,マスキングデータの推測の確実性と自己スーパービジョン機構の信頼性を向上させるための新しいsgp法であるロバストマスクグラフオートエンコーダ(rare)を提案する。 理論的および実証的分析により,潜在機能と生データ空間の両方においてマスク・テイン・リコンストラクタを併用することで,安定性と性能の向上が期待できることがわかった。 そこで本研究では,生データの観点からは観測が難しい高次サンプル相関の誘導の下で,マスクノードの潜時特徴を予測するマスク付き潜時特徴補完スキームを精巧に設計する。 具体的には、まず潜時特徴予測器を用いて、可視的特徴から潜時特徴を予測する。 次に,マスキングサンプルの生データをモーメントグラフエンコーダで符号化し,結果表現を用いて潜在特徴マッチングによる予測結果を改善する。 17のデータセットに対する大規模な実験は、3つの下流タスクにわたる最先端(SOTA)競合に対するRAREの有効性と堅牢性を示している。

Masked graph autoencoder (MGAE) has emerged as a promising self-supervised graph pre-training (SGP) paradigm due to its simplicity and effectiveness. However, existing efforts perform the mask-then-reconstruct operation in the raw data space as is done in computer vision (CV) and natural language processing (NLP) areas, while neglecting the important non-Euclidean property of graph data. As a result, the highly unstable local connection structures largely increase the uncertainty in inferring masked data and decrease the reliability of the exploited self-supervision signals, leading to inferior representations for downstream evaluations. To address this issue, we propose a novel SGP method termed Robust mAsked gRaph autoEncoder (RARE) to improve the certainty in inferring masked data and the reliability of the self-supervision mechanism by further masking and reconstructing node samples in the high-order latent feature space. Through both theoretical and empirical analyses, we have discovered that performing a joint mask-then-reconstruct strategy in both latent feature and raw data spaces could yield improved stability and performance. To this end, we elaborately design a masked latent feature completion scheme, which predicts latent features of masked nodes under the guidance of high-order sample correlations that are hard to be observed from the raw data perspective. Specifically, we first adopt a latent feature predictor to predict the masked latent features from the visible ones. Next, we encode the raw data of masked samples with a momentum graph encoder and subsequently employ the resulting representations to improve predicted results through latent feature matching. Extensive experiments on seventeen datasets have demonstrated the effectiveness and robustness of RARE against state-of-the-art (SOTA) competitors across three downstream tasks.
翻訳日:2023-04-05 15:23:17 公開日:2023-04-04
# OneShotSTL: オンライン時系列異常検出と予測のためのワンショット季節トレンド分解

OneShotSTL: One-Shot Seasonal-Trend Decomposition For Online Time Series Anomaly Detection And Forecasting ( http://arxiv.org/abs/2304.01506v1 )

ライセンス: Link先を確認
Xiao He, Ye Li, Jian Tan, Bin Wu, Feifei Li(参考訳) 季節分解は、時系列異常検出や予測を含む様々な下流タスクをサポートする時系列分析の最も基本的な概念の1つである。 しかし、既存の分解法はo(w)の時間複雑性を持つバッチ処理に依存しており、wは時間ウィンドウ内のデータポイントの数である。 そのため、処理遅延の少ないリアルタイム分析を常に効率的にサポートすることはできない。 この課題に対処するために,O(1)の更新時間複雑性を伴って時系列をオンラインで分解可能な,効率的かつ正確なアルゴリズムであるOneShotSTLを提案する。 OneShotSTLはバッチメソッドよりも1000ドル以上高速で、最高のメソッドに匹敵する精度である。 ダウンストリーム時系列の異常検出と予測タスクのための実世界のベンチマークデータセットに関する広範な実験は、oneshotstlが最先端のメソッドよりも10倍から1000倍以上高速であることを示している。

Seasonal-trend decomposition is one of the most fundamental concepts in time series analysis that supports various downstream tasks, including time series anomaly detection and forecasting. However, existing decomposition methods rely on batch processing with a time complexity of O(W), where W is the number of data points within a time window. Therefore, they cannot always efficiently support real-time analysis that demands low processing delay. To address this challenge, we propose OneShotSTL, an efficient and accurate algorithm that can decompose time series online with an update time complexity of O(1). OneShotSTL is more than $1,000$ times faster than the batch methods, with accuracy comparable to the best counterparts. Extensive experiments on real-world benchmark datasets for downstream time series anomaly detection and forecasting tasks demonstrate that OneShotSTL is from 10 to over 1,000 times faster than the state-of-the-art methods, while still providing comparable or even better accuracy.
翻訳日:2023-04-05 15:22:46 公開日:2023-04-04
# GPT-4 to GPT-3.5: 'Hold My Scalpel' -- OpenAI の GPT のプラスティック手術インサービストレーニングにおける能力について

GPT-4 to GPT-3.5: 'Hold My Scalpel' -- A Look at the Competency of OpenAI's GPT on the Plastic Surgery In-Service Training Exam ( http://arxiv.org/abs/2304.01503v1 )

ライセンス: Link先を確認
Jonathan D. Freedman and Ian A. Nappier(参考訳) PITE(Plastic Surgery In-Service Training Exam)は,OpenAIのGPTを評価する上で有用な指標である。 GPT-4テクニカルペーパーに示されている多くの模擬テストや実践的な質問とは異なり、ここで評価された多重選択質問はPSITE質問である。 これらの質問は、プラスティック外科医が実際に遭遇することの多い現実的な臨床的ヴィグネットを提供し、ボード認定プラスティック外科医になるために必要な筆記板の通過と高い相関がある。 2022年と2021年の試験では, GPT-4 は GPT-3.5 よりも劇的な改善が見られ, スコアは 8 ~ 88 %, 3 ~ 99 % に向上した。 2023 PSITEの最終結果は2023年4月11日に発表される予定です。 評価パイプラインは、OpenAI経由でGPT-4 APIにアクセスできさえすれば、試験がリリースされる瞬間に備えています。 マルチモーダル入力では、2023年に超人的な性能を達成することができる。

The Plastic Surgery In-Service Training Exam (PSITE) is an important indicator of resident proficiency and serves as a useful benchmark for evaluating OpenAI's GPT. Unlike many of the simulated tests or practice questions shown in the GPT-4 Technical Paper, the multiple-choice questions evaluated here are authentic PSITE questions. These questions offer realistic clinical vignettes that a plastic surgeon commonly encounters in practice and scores highly correlate with passing the written boards required to become a Board Certified Plastic Surgeon. Our evaluation shows dramatic improvement of GPT-4 (without vision) over GPT-3.5 with both the 2022 and 2021 exams respectively increasing the score from 8th to 88th percentile and 3rd to 99th percentile. The final results of the 2023 PSITE are set to be released on April 11, 2023, and this is an exciting moment to continue our research with a fresh exam. Our evaluation pipeline is ready for the moment that the exam is released so long as we have access via OpenAI to the GPT-4 API. With multimodal input, we may achieve superhuman performance on the 2023.
翻訳日:2023-04-05 15:22:29 公開日:2023-04-04
# SLPerf: 分散学習のベンチマークのための統一フレームワーク

SLPerf: a Unified Framework for Benchmarking Split Learning ( http://arxiv.org/abs/2304.01502v1 )

ライセンス: Link先を確認
Tianchen Zhou, Zhanyi Hu, Bingzhe Wu, Cen Chen(参考訳) データプライバシの懸念により、サイロに分散したデータの集中的なトレーニングが実現不可能となり、協調学習フレームワークの必要性が高まった。 これに対処するために、フェデレーション学習(fl)とスプリット学習(sl)という、2つの著名なフレームワークが登場した。 FLは様々なベンチマークフレームワークや研究ライブラリを確立しているが、SLは現在、ラベル共有、モデル集約、カット層選択の点で多様性があるにもかかわらず、統一ライブラリを欠いている。 この標準化の欠如はSLパラダイムの比較を困難にしている。 そこで本研究では,SLのための統一的な研究フレームワークであるSLPerfを提案し,IIDおよび非IIDデータ設定下で広く使用されている4つのデータセットについて広範な実験を行った。 我々のコントリビューションには、最近提案されたSLパラダイムの包括的調査、さまざまな状況におけるSLパラダイムの詳細なベンチマーク比較、SLパラダイムを改善するためのリッチエンジニアリングのテイクアウトメッセージと研究の洞察が含まれている。 SLPerfはSLアルゴリズムの開発と公正な性能比較を容易にする。

Data privacy concerns has made centralized training of data, which is scattered across silos, infeasible, leading to the need for collaborative learning frameworks. To address that, two prominent frameworks emerged, i.e., federated learning (FL) and split learning (SL). While FL has established various benchmark frameworks and research libraries, SL currently lacks a unified library despite its diversity in terms of label sharing, model aggregation, and cut layer choice. This lack of standardization makes comparing SL paradigms difficult. To address this, we propose SLPerf, a unified research framework and open research library for SL, and conduct extensive experiments on four widely-used datasets under both IID and Non-IID data settings. Our contributions include a comprehensive survey of recently proposed SL paradigms, a detailed benchmark comparison of different SL paradigms in different situations, and rich engineering take-away messages and research insights for improving SL paradigms. SLPerf can facilitate SL algorithm development and fair performance comparisons.
翻訳日:2023-04-05 15:22:04 公開日:2023-04-04
# シャント分解法による離散時間量子ウォークの回路実装

Circuit Implementation of Discrete-Time Quantum Walks via the Shunt Decomposition Method ( http://arxiv.org/abs/2304.01501v1 )

ライセンス: Link先を確認
Allan Wing-Bocanegra and Salvador E. Venegas-Andraca(参考訳) 量子ウォークを理論的に実行する進化演算子を構築するためにいくつかのモデルが提案されているが、結果として生じる進化演算子を量子回路にマッピングして量子コンピュータで実行する場合、マッピングプロセスが実際に複雑である場合が多い。 それでも、グラフの隣接行列が置換行列の和に分解できるとき、ブロック対角行列表現を持つ量子ウォークのシフト作用素を常に構築することができる。 本稿では,ブロック対角演算子の量子回路形式へのマッピング過程を解析し,この手法を用いて,文献に見られる最も一般的なトポロジーである直線,巡回グラフ,ハイパーキューブ,完備グラフ上で量子ウォークを生成する量子回路を得る。 得られた回路は、ibm quantum composer platform と qiskit aer simulator を通じて、falcon r5.11l と falcon r4t の量子プロセッサ上で実行され、各トポロジーに対して3つのステップを実行する。 得られた分布は, 統計的距離$\ell_1$ を用いて解析的分布と比較した。 実験では,マルチコントロールゲートの少ない量子回路の場合,より正確な結果を提供するFalcon r4T型の量子プロセッサとして,短い$\ell_1$の距離を得た。

Several models have been proposed to build evolution operators to perform quantum walks in a theoretical way, although when wanting to map the resulting evolution operators into quantum circuits to run them in quantum computers, it is often the case that the mapping process is in fact complicated. Nevertheless, when the adjacency matrix of a graph can be decomposed into a sum of permutation matrices, we can always build a shift operator for a quantum walk that has a block diagonal matrix representation. In this paper, we analyze the mapping process of block diagonal operators into quantum circuit form, and apply this method to obtain quantum circuits that generate quantum walks on the most common topologies found in the literature: the straight line, the cyclic graph, the hypercube and the complete graph. The obtained circuits are then executed on quantum processors of the type Falcon r5.11L and Falcon r4T (two of each type) through IBM Quantum Composer platform and on the Qiskit Aer simulator, performing three steps for each topology. The resulting distributions were compared against analytical distributions, using the statistical distance $\ell_1$ as a performance metric. Regarding experimental executions, we obtained short $\ell_1$ distances in the cases of quantum circuits with a low amount of multi-control gates, being the quantum processors of the type Falcon r4T the ones that provided more accurate results.
翻訳日:2023-04-05 15:21:45 公開日:2023-04-04
# 計算可能性論理webにおける動的プログラミングの実装

Implementing Dynamic Programming in Computability Logic Web ( http://arxiv.org/abs/2304.01539v1 )

ライセンス: Link先を確認
Keehang Kwon(参考訳) 本稿では,アルゴリズムとその対応するアルゴリズム言語であるCoLwebについて述べる。 CoLweb [1] の利点は、アルゴリズム設計を非常に多用途にすることである。 つまり、分散コンピューティングと分散コンピューティングの両方のアルゴリズム設計に対する、ハイレベルで証明可能な分散スタイルのアプローチを私たちに強制するのです。 このアプローチはアルゴリズム設計を単純化する。 さらに、再帰的論理関数型アルゴリズム、命令型アルゴリズム、オブジェクト指向命令型アルゴリズム、ニューラルネット、相互作用ネット、証明型コードなど他のアプローチを統合する。 応用として,Horn節の定義を視覚的ユニバーサリー量子化(BUQ)と並列ユニバーサリー量子化(PUQ)の2種類に洗練する。 buqの定義は、knowledgebaseが$not$ expandであり、その証明手順が後方連鎖に基づいているprologのような伝統的な定義に対応する。 一方、puq定義では、knowledgebaseは$expanding$であり、その証明手順は前方連鎖と自動メモ化につながる。

We present a novel definition of an algorithm and its corresponding algorithm language called CoLweb. The merit of CoLweb [1] is that it makes algorithm design so versatile. That is, it forces us to a high-level, proof-carrying, distributed-style approach to algorithm design for both non-distributed computing and distributed one. We argue that this approach simplifies algorithm design. In addition, it unifies other approaches including recursive logical/functional algorithms, imperative algorithms, object-oriented imperative algorithms, neural-nets, interaction nets, proof-carrying code, etc. As an application, we refine Horn clause definitions into two kinds: blind-univerally-quantified (BUQ) ones and parallel-universally-quantified (PUQ) ones. BUQ definitions corresponds to the traditional ones such as those in Prolog where knowledgebase is $not$ expanding and its proof procedure is based on the backward chaining. On the other hand, in PUQ definitions, knowledgebase is $expanding$ and its proof procedure leads to forward chaining and {\it automatic memoization}.
翻訳日:2023-04-05 15:14:39 公開日:2023-04-04
# PartMix: Visible-Infrared Person Re-identificationのためのパート発見学習のための正規化戦略

PartMix: Regularization Strategy to Learn Part Discovery for Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2304.01537v1 )

ライセンス: Link先を確認
Minsu Kim, Seungryong Kim, JungIn Park, Seongheon Park, Kwanghoon Sohn(参考訳) 混合ベース技術を用いた現代的なデータ拡張は、様々なコンピュータビジョンアプリケーションにおけるトレーニングデータへの過剰適合からモデルを定式化することができるが、部品ベースの可視赤外人物再同定(vi-reid)モデル用に調整された適切なデータ拡張技術は未検討のままである。 本稿では,パート型VI-ReIDモデルの性能向上のために,部分記述子をモダリティに混合することにより,拡張サンプルを合成するPartMixと呼ばれる新しいデータ拡張手法を提案する。 特に,正および負のサンプルを同一および異なる同一性内で合成し,対照的な学習を通じてバックボーンモデルを規則化する。 また,不信頼な正と負のサンプルの悪影響を弱めるために,エントロピーに基づく鉱業戦略を提案する。 既存のパートベースのVI-ReIDモデルに組み込まれると、PartMixは一貫してパフォーマンスを向上する。 我々は既存のVI-ReID法に対するPartMixの有効性を示す実験を行い、アブレーション研究を行った。

Modern data augmentation using a mixture-based technique can regularize the models from overfitting to the training data in various computer vision applications, but a proper data augmentation technique tailored for the part-based Visible-Infrared person Re-IDentification (VI-ReID) models remains unexplored. In this paper, we present a novel data augmentation technique, dubbed PartMix, that synthesizes the augmented samples by mixing the part descriptors across the modalities to improve the performance of part-based VI-ReID models. Especially, we synthesize the positive and negative samples within the same and across different identities and regularize the backbone model through contrastive learning. In addition, we also present an entropy-based mining strategy to weaken the adverse impact of unreliable positive and negative samples. When incorporated into existing part-based VI-ReID model, PartMix consistently boosts the performance. We conduct experiments to demonstrate the effectiveness of our PartMix over the existing VI-ReID methods and provide ablation studies.
翻訳日:2023-04-05 15:14:21 公開日:2023-04-04
# 人工磁場中における量子ラビ六角形環

Quantum Rabi hexagonal ring in an artificial magnetic field ( http://arxiv.org/abs/2304.01535v1 )

ライセンス: Link先を確認
Lin-Jun Li, Li-Lu Feng, Jia-Hao Dai, Yu-Yu Zhang(参考訳) 解析解から導かれる量子ラビ六角形環において,エキゾチックな量子位相を示す。 リングに印加された人工磁場は偶数および奇数部分環における効果磁束を誘導する。 強ラジアン相と反強ラジアン相の他に2つのキラルな量子相が生じる。 磁気系の類似性により、2つのキラル相は2つのサブリングにおけるxy$平面の磁化配向によって区別される。 このようなキラルな位相では、サブリング中の光子は、サブリングの誘導磁束の符号に依存する六角形環の電流と比較することによって、同一または反対方向に流れる。 興味深いことに、2つのキラル相における励起エネルギーの臨界指数は、サブリングサイズの依存臨界指数を示すサブリング三角形と同じである。 我々の解析は、三角形または六角形構造の部分環を持つ格子サイズに容易に拡張することができ、新しい超ラジアント相転移の普遍性クラスを予測できる。 このシステムの実装は、将来の光-物質相互作用の量子多体シミュレーションにおけるエキサイティングな展望である。

We present exotic quantum phases in a quantum Rabi hexagonal ring, which is derived by an analytical solution. We find that an artificial magnetic field applied in the ring induces an effect magnetic flux in the even and odd subring. It gives rise to two chiral quantum phases besides a ferro-superradiant and an antiferro-superradiant phases. With analogy to the magnetic system, two chiral phases are distinguished by the magnetization orientation in the $xy$ plane in two subrings, which correspond to skyrmion structures with different vorticity. In such chiral phases, photons in the subrings triangle flow in the same or opposite directions by comparing to the current in the hexagonal ring, which depend on the signs of the induced magnetic flux in the subrings. Interestingly, the critical exponents of the excitation energy in two chiral phases are the same as that of the subring triangle, exhibiting subring-size dependent critical exponents. Our analysis can be straightforwardly extended to a larger lattice size with subrings of a triangular or hexagonal structure, predicting a novel universality class of superradiant phase transitions. An implementation of the system considered is an exciting prospect in quantum many-body simulations of light-matter interactions in future.
翻訳日:2023-04-05 15:14:02 公開日:2023-04-04
# FedBEVT:道路交通システムにおける鳥の視線知覚変換器

FedBEVT: Federated Learning Bird's Eye View Perception Transformer in Road Traffic Systems ( http://arxiv.org/abs/2304.01534v1 )

ライセンス: Link先を確認
Rui Song, Runsheng Xu, Andreas Festag, Jiaqi Ma, Alois Knoll(参考訳) 自律運転の分野では、鳥の視線(BEV)の認識がますます重要になっている。 マルチビューカメラデータを使用して、道路環境の知覚を直接BEVの視点に投影するトランスフォーマーモデルを学ぶ。 しかし、トランスモデルのトレーニングには大量のデータを必要とすることが多く、道路交通のカメラデータはしばしば非公開であるため、通常は共有されない。 フェデレーション学習は、データを交換することなく、クライアントが協調してモデルをトレーニングできるソリューションを提供する。 本稿では,BEV知覚のためのフェデレートトランスフォーマー学習手法であるFedBEVTを提案する。 FedBEVTにおける2つの共通データ不均一性問題に対処する。 (i)多様なセンサポーズ及び (ii)知覚系におけるセンサ数の変化 実世界のシナリオにおける性能を高めるために,FedCaPと適応型マルチカメラマスキングを併用したフェデレート学習を提案する。 本手法を実世界環境で評価するために,4つの典型的なフェデレーション・ユースケースからなるデータセットを作成する。 その結果,FedBEVTは4つのユースケースすべてにおいてベースラインアプローチよりも優れており,自動運転におけるBEV知覚の向上に対するアプローチの可能性を示している。 すべてのコードとデータを公開します。

Bird's eye view (BEV) perception is becoming increasingly important in the field of autonomous driving. It uses multi-view camera data to learn a transformer model that directly projects the perception of the road environment onto the BEV perspective. However, training a transformer model often requires a large amount of data, and as camera data for road traffic is often private, it is typically not shared. Federated learning offers a solution that enables clients to collaborate and train models without exchanging data. In this paper, we propose FedBEVT, a federated transformer learning approach for BEV perception. We address two common data heterogeneity issues in FedBEVT: (i) diverse sensor poses and (ii) varying sensor numbers in perception systems. We present federated learning with camera-attentive personalization~(FedCaP) and adaptive multi-camera masking~(AMCM) to enhance the performance in real-world scenarios. To evaluate our method in real-world settings, we create a dataset consisting of four typical federated use cases. Our findings suggest that FedBEVT outperforms the baseline approaches in all four use cases, demonstrating the potential of our approach for improving BEV perception in autonomous driving. We will make all codes and data publicly available.
翻訳日:2023-04-05 15:13:42 公開日:2023-04-04
# iterativepfn: 真の反復的ポイントクラウドフィルタリング

IterativePFN: True Iterative Point Cloud Filtering ( http://arxiv.org/abs/2304.01529v1 )

ライセンス: Link先を確認
Dasith de Silva Edirimuni, Xuequan Lu, Zhiwen Shao, Gang Li, Antonio Robles-Kelly and Ying He(参考訳) 点雲の品質は、捕獲プロセス中に生じるノイズによってしばしば制限される。 その結果、基本的な3Dビジョンタスクはノイズの除去であり、ポイントクラウドフィルタリング(point cloud filtering)またはデノイング(denoising)と呼ばれる。 最先端の学習に基づく手法は、ニューラルネットワークを訓練し、フィルタされた変位を推測し、ノイズ点を基礎となるクリーンサーフェスに直接シフトさせる。 高い雑音条件下では、フィルタリング処理を繰り返す。 しかし、この反復フィルタリングはテスト時にのみ行われ、清潔な表面に点が早く収束することを確実にする効果が低い。 一つのネットワーク内において、真の反復フィルタリングプロセスを内部でモデル化する複数のイテレーションモジュールからなるIterativePFN(iterative point cloud filtering network)を提案する。 学習中の中間フィルタリング結果の関係を捉えるために,適応的基底的真理目標を用いた新しい損失関数を用いて反復的pfnネットワークを訓練する。 これにより、フィルタされた結果はより早くクリーンな表面に収束する。 我々の手法は最先端の手法よりも優れた性能が得られる。 ソースコードはhttps://github.com/ddsediri/iterativepfn。

The quality of point clouds is often limited by noise introduced during their capture process. Consequently, a fundamental 3D vision task is the removal of noise, known as point cloud filtering or denoising. State-of-the-art learning based methods focus on training neural networks to infer filtered displacements and directly shift noisy points onto the underlying clean surfaces. In high noise conditions, they iterate the filtering process. However, this iterative filtering is only done at test time and is less effective at ensuring points converge quickly onto the clean surfaces. We propose IterativePFN (iterative point cloud filtering network), which consists of multiple IterationModules that model the true iterative filtering process internally, within a single network. We train our IterativePFN network using a novel loss function that utilizes an adaptive ground truth target at each iteration to capture the relationship between intermediate filtering results during training. This ensures that the filtered results converge faster to the clean surfaces. Our method is able to obtain better performance compared to state-of-the-art methods. The source code can be found at: https://github.com/ddsediri/IterativePFN.
翻訳日:2023-04-05 15:13:21 公開日:2023-04-04
# 広告主によるオンライン学習:差分包摂分析

Online Learning with Adversaries: A Differential Inclusion Analysis ( http://arxiv.org/abs/2304.01525v1 )

ライセンス: Link先を確認
Swetha Ganesh, Alexandre Reiffers-Masson, Gugan Thoppe(参考訳) 測定モデル $y = ax,$ ここで $x$ とすると、$y$ は確率変数であり、$a$ は事前の既知の背の高い行列である。 それぞれのインスタンスにおいて、$y$の座標の1つのサンプルが利用可能であり、目標はこれらのサンプルから$\mu := \mathbb{e}[x]$を推定することである。 しかし、Y$の座標の小さいが未知の部分集合は無限の力を持つ敵によって制御される。 そのような対向的な設定のために、ほぼ確実に$\mu$に収束する最初の非同期オンラインアルゴリズムを提案する。 この結果は,新たな差分包摂法に基づく2時間スケール解析を用いて証明する。 証明の2つの重要なハイライトは (a)新しいリアプノフ関数を用いて、$\mu$が我々のアルゴリズムの制限力学のユニークなグローバルな誘引子であることを示し、 (b)マルティンゲールと停止時間理論を用いて、我々のアルゴリズムの反復がほぼ確実に有界であることを示す。

We consider the measurement model $Y = AX,$ where $X$ and, hence, $Y$ are random variables and $A$ is an a priori known tall matrix. At each time instance, a sample of one of $Y$'s coordinates is available, and the goal is to estimate $\mu := \mathbb{E}[X]$ via these samples. However, the challenge is that a small but unknown subset of $Y$'s coordinates are controlled by adversaries with infinite power: they can return any real number each time they are queried for a sample. For such an adversarial setting, we propose the first asynchronous online algorithm that converges to $\mu$ almost surely. We prove this result using a novel differential inclusion based two-timescale analysis. Two key highlights of our proof include: (a) the use of a novel Lyapunov function for showing that $\mu$ is the unique global attractor for our algorithm's limiting dynamics, and (b) the use of martingale and stopping time theory to show that our algorithm's iterates are almost surely bounded.
翻訳日:2023-04-05 15:13:02 公開日:2023-04-04
# FisHook - MobileNetV2 を用いた海洋仕様分類の最適化アプローチ

FisHook -- An Optimized Approach to Marine Specie Classification using MobileNetV2 ( http://arxiv.org/abs/2304.01524v1 )

ライセンス: Link先を確認
Kohav Dey, Krishna Bajaj, K S Ramalakshmi, Samuel Thomas, Sriram Radhakrishna(参考訳) 海洋生態系は地球の健康に不可欠であるが、気候変動、汚染、過剰漁などの人間の活動は海洋生物にとって常に脅威となっている。 これらの種の正確な分類とモニタリングは、それらの分布、人口動態、そしてそれらに対する人間の活動の影響を理解するのに役立つ。 しかし、海洋生物の分類は、その多様性と複雑な水中環境のために困難である。 コンピュータ性能とGPUベースのコンピューティングの進歩により、ディープラーニングアルゴリズムは海洋生物の効率的な分類が可能となり、海洋生態系の監視と管理が容易になった。 本稿では,データセットの作成と海洋生物画像の拡張に関する具体的なガイドラインを強調し,平均検証精度を99.83%向上させるため,MobileNetV2モデルの最適化を提案する。 このトランスファー学習アルゴリズムは,漁業におけるオンサイト分類のためのモバイルアプリケーションにうまく展開することができる。

Marine ecosystems are vital for the planet's health, but human activities such as climate change, pollution, and overfishing pose a constant threat to marine species. Accurate classification and monitoring of these species can aid in understanding their distribution, population dynamics, and the impact of human activities on them. However, classifying marine species can be challenging due to their vast diversity and the complex underwater environment. With advancements in computer performance and GPU-based computing, deep-learning algorithms can now efficiently classify marine species, making it easier to monitor and manage marine ecosystems. In this paper, we propose an optimization to the MobileNetV2 model to achieve a 99.83% average validation accuracy by highlighting specific guidelines for creating a dataset and augmenting marine species images. This transfer learning algorithm can be deployed successfully on a mobile application for on-site classification at fisheries.
翻訳日:2023-04-05 15:12:44 公開日:2023-04-04
# 非エルミタンワイル半金属の輸送特性

Transport properties of a non-Hermitian Weyl semimetal ( http://arxiv.org/abs/2304.01521v1 )

ライセンス: Link先を確認
Soumi Dey, Ayan Banerjee, Debashree Chowdhury, Awadhesh Narayan(参考訳) 近年、非エルミート(nh)位相半金属はその非慣習的性質のためにかなりの注目を集めている。 本研究では,2次元チャーン絶縁体の積層により形成される3次元散逸性ワイル半金属の輸送特性について検討する。 ホール伝導が量子化されるエルミート系とは異なり、非ハーミティティーの存在下では、量子化ホール伝導は通常の性質から逸脱し始める。 このようなNHトポロジカルシステムにおけるホールコンダクタンスの非定量的性質は、例外点(EP)の存在と密接に関連していることを示す。 開境界条件の場合、位相的自明な状態から非自明な位相的状態への遷移は周期境界スペクトルの運動量の異なる値で起こる。 この差は、非ブロックケースと一般化ブリルアンゾーン(GBZ)を考慮することで解決される。 最後に、GBZ上で評価されたホールコンダクタンスを示し、それを非ブロッホ理論の中でワイルノード間の分離に接続する。

In recent years, non-Hermitian (NH) topological semimetals have garnered significant attention due to their unconventional properties. In this work, we explore the transport properties of a three-dimensional dissipative Weyl semi-metal formed as a result of the stacking of two-dimensional Chern insulators. We find that unlike Hermitian systems where the Hall conductance is quantized, in presence of non-Hermiticity, the quantized Hall conductance starts to deviate from its usual nature. We show that the non-quantized nature of the Hall conductance in such NH topological systems is intimately connected to the presence of exceptional points (EPs). We find that in the case of open boundary conditions, the transition from a topologically trivial regime to a non-trivial topological regime takes place at a different value of the momentum than that of the periodic boundary spectra. This discrepancy is solved by considering the non-Bloch case and the generalized Brillouin zone (GBZ). Finally, we present the Hall conductance evaluated over the GBZ and connect it to the separation between the Weyl nodes, within the non-Bloch theory.
翻訳日:2023-04-05 15:12:30 公開日:2023-04-04
# ハイブリッド2次元シーン生成によるLiDARに基づく3次元物体検出

LiDAR-Based 3D Object Detection via Hybrid 2D Semantic Scene Generation ( http://arxiv.org/abs/2304.01519v1 )

ライセンス: Link先を確認
Haitao Yang, Zaiwei Zhang, Xiangru Huang, Min Bai, Chen Song, Bo Sun, Li Erran Li, Qixing Huang(参考訳) Bird's-Eye View (BEV) は、LiDARベースの物体検出器で3Dバックボーンと検出器ヘッドによって共有される一般的な中間シーン表現である。 しかし、検出器ヘッドにおける提案生成を改善するため、BEV機能のさらなる監視を組み込むための研究はほとんど行われていないが、強力な3D層の数と効率的な2Dネットワーク操作のバランスは保たれている。 本稿では,BEV特徴学習のための高密度監視信号として機能する2次元環境のセマンティクスと幾何学の両方を符号化した新しいシーン表現を提案する。 鍵となる考え方は、補助的ネットワークを使用して、それらの相補的特性を利用して、明示的および暗黙的な意味的確率の組み合わせを予測することである。 広範な実験により、我々のシンプルで効果的な設計は、最先端の3dオブジェクト検出器に容易に統合でき、ベースラインモデルで一貫して改善できることが示された。

Bird's-Eye View (BEV) features are popular intermediate scene representations shared by the 3D backbone and the detector head in LiDAR-based object detectors. However, little research has been done to investigate how to incorporate additional supervision on the BEV features to improve proposal generation in the detector head, while still balancing the number of powerful 3D layers and efficient 2D network operations. This paper proposes a novel scene representation that encodes both the semantics and geometry of the 3D environment in 2D, which serves as a dense supervision signal for better BEV feature learning. The key idea is to use auxiliary networks to predict a combination of explicit and implicit semantic probabilities by exploiting their complementary properties. Extensive experiments show that our simple yet effective design can be easily integrated into most state-of-the-art 3D object detectors and consistently improves upon baseline models.
翻訳日:2023-04-05 15:12:13 公開日:2023-04-04
# 不確実性推定のためのマルチモーダルニューラルプロセス

Multimodal Neural Processes for Uncertainty Estimation ( http://arxiv.org/abs/2304.01518v1 )

ライセンス: Link先を確認
Myong Chol Jung, He Zhao, Joanna Dipnall, Belinda Gabbe, Lan Du(参考訳) ニューラルプロセス(nps)は、パラメトリック深層ニューラルネットワークの表現力と、非パラメトリックガウス過程の信頼性の高い不確実性推定をもたらす。 近年のNPsは回帰と分類の両方で成功したが、NPsをマルチモーダルデータに適用する方法は慎重に研究されていない。 本稿では,マルチモーダル・ニューラル・プロセスを用いたマルチモーダル不確実性推定のためのNPファミリーの新しいモデルを提案する。 包括的かつ原理的な方法で、分類誤差によって更新される動的コンテキストメモリ、マルチモーダル表現を集約するマルチモーダルベイズ集約機構、キャリブレーション予測のための新しい注意機構を開発する。 広汎な実験的評価において,本手法は,ノイズサンプルに対して頑健であり,領域外検出に信頼性のある,最先端のマルチモーダル不確実性推定性能を実現する。

Neural processes (NPs) have brought the representation power of parametric deep neural networks and the reliable uncertainty estimation of non-parametric Gaussian processes together. Although recent development of NPs has shown success in both regression and classification, how to adapt NPs to multimodal data has not be carefully studied. For the first time, we propose a new model of NP family for multimodal uncertainty estimation, namely Multimodal Neural Processes. In a holistic and principled way, we develop a dynamic context memory updated by the classification error, a multimodal Bayesian aggregation mechanism to aggregate multimodal representations, and a new attention mechanism for calibrated predictions. In extensive empirical evaluation, our method achieves the state-of-the-art multimodal uncertainty estimation performance, showing its appealing ability of being robust against noisy samples and reliable in out-of-domain detection.
翻訳日:2023-04-05 15:11:56 公開日:2023-04-04
# 浅いReLU$^k$ニューラルネットワークによる近似の最適速度と非パラメトリック回帰への応用

Optimal rates of approximation by shallow ReLU$^k$ neural networks and applications to nonparametric regression ( http://arxiv.org/abs/2304.01561v1 )

ライセンス: Link先を確認
Yunfei Yang, Ding-Xuan Zhou(参考訳) 浅層relu$^k$ニューラルネットワークに対応する変動空間の近似容量について検討した。 十分滑らかな函数は有限変分ノルムを持つこれらの空間に含まれることが示されている。 滑らかさの低い関数に対しては、変動ノルムの観点から近似率が確立される。 これらの結果を用いて、浅いReLU^k$ニューラルネットワークのニューロン数の観点から最適な近似率を証明できる。 また,これらの結果は深層ニューラルネットワークと畳み込みニューラルネットワーク(cnns)の近似境界を導出するために利用できることを示した。 応用例として、浅層ニューラルネットワーク、過パラメータニューラルネットワーク、cnnの3つのreluニューラルネットワークモデルを用いて、非パラメトリック回帰の収束率について検討する。 特に,深層ニューラルネットワークの最近の結果を補完するh\"older関数を学習する上で,浅いニューラルネットワークが最小の最適速度を達成可能であることを示す。 また、過パラメータ(深層または浅層)ニューラルネットワークが非パラメトリック回帰に対してほぼ最適速度を達成することも証明されている。

We study the approximation capacity of some variation spaces corresponding to shallow ReLU$^k$ neural networks. It is shown that sufficiently smooth functions are contained in these spaces with finite variation norms. For functions with less smoothness, the approximation rates in terms of the variation norm are established. Using these results, we are able to prove the optimal approximation rates in terms of the number of neurons for shallow ReLU$^k$ neural networks. It is also shown how these results can be used to derive approximation bounds for deep neural networks and convolutional neural networks (CNNs). As applications, we study convergence rates for nonparametric regression using three ReLU neural network models: shallow neural network, over-parameterized neural network, and CNN. In particular, we show that shallow neural networks can achieve the minimax optimal rates for learning H\"older functions, which complements recent results for deep neural networks. It is also proven that over-parameterized (deep or shallow) neural networks can achieve nearly optimal rates for nonparametric regression.
翻訳日:2023-04-05 15:06:35 公開日:2023-04-04
# G2PTL: 配送アドレスの事前学習モデルとそのロジスティックスシステムへの応用

G2PTL: A Pre-trained Model for Delivery Address and its Applications in Logistics System ( http://arxiv.org/abs/2304.01559v1 )

ライセンス: Link先を確認
Lixia Wu, Jianlin Liu, Junhong Lou, Haoyuan Hu, Jianbin Zheng, Haomin Wen, Chao Song, Shu He(参考訳) 物流システムのデータ基盤としてのテキストベースの配送アドレスには、豊富な重要な位置情報が含まれている。 配信アドレスを効果的にエンコードする方法は、ロジスティクスシステムにおけるダウンストリームタスクのパフォーマンスを高めるためのコアタスクである。 自然言語処理(NLP)用に設計された事前学習モデル(PTM)が,意味情報をテキストでエンコードするための主要なツールとして登場した。 有望ではあるが、これらのNLPベースのPTMは、カイニオのようなロジスティックシステムにおけるデリバリ関連タスクのパフォーマンスを大幅に低下させる、配信アドレスの地理的知識を符号化するに足りていない。 そこで本研究では,物流分野における配送アドレスのための地理グラフ事前学習モデルであるg2ptlというドメイン固有事前学習モデルを提案する。 G2PTLは、テキスト事前学習のセマンティック学習能力と、グラフモデリングの地理的関連性符号化能力を組み合わせる。 具体的には,実世界の物流配信データを用いて,豊富な地理的知識と配送情報を含む大規模異種配送アドレスグラフを構築した。 そして、G2PTLは、異種グラフからサンプリングされたサブグラフで事前訓練される。 実世界のデータセット上での物流システムにおける4つの下流タスクによるG2PTLの有効性を示す総合的な実験を行った。 g2ptlはcainiaoのロジスティクスシステムで運用されており、デリバリ関連のタスクのパフォーマンスが大幅に向上している。

Text-based delivery addresses, as the data foundation for logistics systems, contain abundant and crucial location information. How to effectively encode the delivery address is a core task to boost the performance of downstream tasks in the logistics system. Pre-trained Models (PTMs) designed for Natural Language Process (NLP) have emerged as the dominant tools for encoding semantic information in text. Though promising, those NLP-based PTMs fall short of encoding geographic knowledge in the delivery address, which considerably trims down the performance of delivery-related tasks in logistic systems such as Cainiao. To tackle the above problem, we propose a domain-specific pre-trained model, named G2PTL, a Geography-Graph Pre-trained model for delivery address in Logistics field. G2PTL combines the semantic learning capabilities of text pre-training with the geographical-relationship encoding abilities of graph modeling. Specifically, we first utilize real-world logistics delivery data to construct a large-scale heterogeneous graph of delivery addresses, which contains abundant geographic knowledge and delivery information. Then, G2PTL is pre-trained with subgraphs sampled from the heterogeneous graph. Comprehensive experiments are conducted to demonstrate the effectiveness of G2PTL through four downstream tasks in logistics systems on real-world datasets. G2PTL has been deployed in production in Cainiao's logistics system, which significantly improves the performance of delivery-related tasks.
翻訳日:2023-04-05 15:06:16 公開日:2023-04-04
# エッジAIデバイスを用いたリアルタイムドライバモニタリングシステム

Real-time Driver Monitoring Systems on Edge AI Device ( http://arxiv.org/abs/2304.01555v1 )

ライセンス: Link先を確認
Jyothi Hariharan, Rahul Rama Varior, Sunil Karunakaran(参考訳) 運転者の不注意による交通事故の増加に伴い、自動運転監視システム(DMS)の受容度が高まっている。 本稿では,ハードウェアアクセラレータベースのエッジデバイス上で動作するリアルタイムdmsシステムを提案する。 システムは、ドライバーの映像を記録する赤外線カメラと、データを処理するエッジデバイスで構成される。 ハードウェアアクセラレーションを最大限に活用してエッジデバイス上で動作するディープラーニングモデルをうまく移植するために,モデル手術を行った。 最終DMSシステムはTI-TDA4VMエッジデバイス上で毎秒63フレームを達成する。

As road accident cases are increasing due to the inattention of the driver, automated driver monitoring systems (DMS) have gained an increase in acceptance. In this report, we present a real-time DMS system that runs on a hardware-accelerator-based edge device. The system consists of an InfraRed camera to record the driver footage and an edge device to process the data. To successfully port the deep learning models to run on the edge device taking full advantage of the hardware accelerators, model surgery was performed. The final DMS system achieves 63 frames per second (FPS) on the TI-TDA4VM edge device.
翻訳日:2023-04-05 15:05:52 公開日:2023-04-04
# emph{mensa}:3次元点雲上の教師なしマルチターゲット領域適応のためのミックスアップアンサンブル平均

\emph{MEnsA}: Mix-up Ensemble Average for Unsupervised Multi Target Domain Adaptation on 3D Point Clouds ( http://arxiv.org/abs/2304.01554v1 )

ライセンス: Link先を確認
Ashish Sinha, Jonghyun Choi(参考訳) unsupervised domain adaptation(uda)は、ラベルなしのターゲットドメインとラベル付きソースドメインの間の分散シフトの問題に対処する。 単一対象領域適応(STDA)は2次元と3次元の両方の視覚文献でよく研究されているが、多目的領域適応(MTDA)は、様々な地理的・気候条件に対する自律運転システムのような広範囲の現実世界の応用にもかかわらず、ほとんど調査されていない。 我々は,すべてのドメインの特徴表現を混合して,アンサンブル平均によるドメイン適応性能の向上を図ることで,3DポイントクラウドデータのためのMTDAベースラインを構築し,それを「emph{{\bf M}ixup {\bf Ens}emble {\bf A}verage} または {\bf{MEnsA}} と呼ぶ。 混合表現では、ドメイン分類器を用いて、ソースドメインの特徴表現を、共有潜在空間における対象ドメインの特徴表現と区別する。 挑戦的なPointDA-10データセットに関する広範な実証的検証では、これまでの教師なしSTDAおよびMTDAメソッドよりも、大きなマージン(すべてのドメインシフト平均で最大17.10\%と4.76\%)で、我々の単純なメソッドの明確な利点を示す。 コードはhttps://github.com/sinashish/mensa_mtda}{here}\footnote{\url{https://github.com/sinashish/mensa_mtda}} で公開されている。

Unsupervised domain adaptation (UDA) addresses the problem of distribution shift between the unlabeled target domain and labelled source domain. While the single target domain adaptation (STDA) is well studied in both 2D and 3D vision literature, multi-target domain adaptation (MTDA) is barely explored for 3D data despite its wide real-world applications such as autonomous driving systems for various geographical and climatic conditions. We establish an MTDA baseline for 3D point cloud data by proposing to mix the feature representations from all domains together to achieve better domain adaptation performance by an ensemble average, which we call \emph{{\bf M}ixup {\bf Ens}emble {\bf A}verage} or {\bf \emph{MEnsA}}. With the mixed representation, we use a domain classifier to improve at distinguishing the feature representations of source domain from those of target domains in a shared latent space. In extensive empirical validations on the challenging PointDA-10 dataset, we showcase a clear benefit of our simple method over previous unsupervised STDA and MTDA methods by large margins (up to $17.10\%$ and $4.76\%$ on averaged over all domain shifts). We make the code publicly available \href{https://github.com/sinAshish/MEnsA_mtda}{here}\footnote{\url{https://github.com/sinAshish/MEnsA_mtda}}.
翻訳日:2023-04-05 15:05:42 公開日:2023-04-04
# 太陽大気の加熱と動力学

Heating and dynamics of the Solar atmosphere ( http://arxiv.org/abs/2304.01553v1 )

ライセンス: Link先を確認
Vishal Upendran(参考訳) 太陽大気は5500Kの光球から100万度のケルビンコロナまで、異常な温度変化を示す。 コロナ自体は、地球近傍の宇宙天気を調節し、影響する自由流の太陽風として星間媒質に膨張する。 太陽風の異なる構造、その形成高さ、太陽大気の加熱の正確な源域は、天体物理学において、密接な結合と未解決の問題である。 観測は、太陽コロナの冷涼で強度の低い構造であるコロナホール(CHs)と太陽風の構造との間の相関関係を示唆している。 観測からは、パワーロー分布した衝撃イベントによるコロナの局所プラズマ加熱も示唆されている。 本論文では、近紫外線からx線までの太陽大気の狭帯域測光・分光・ディスク集積放射と、その場の太陽風観測を用いて理解する。 (i)。 太陽風源の領域です (ii) 太陽コロナ加熱のメカニズムとその基礎 (iii) 背景のQuiet Sun (QS)領域とのCHの力学の分化は、太陽風の顕著な兆候を示さない。 我々は機械学習と数値モデリングツールを利用して、解釈可能なAIを用いて太陽風予測コードを開発し、インパルスイベントの特性を推論し、CHとQS領域の熱力学の違いを理解する。 最終的に,太陽大気における太陽風の発生と加熱の統一シナリオを提示し,この論文からの推測の意義について考察する。

The solar atmosphere shows anomalous variation in temperature, starting from the 5500 K photosphere to the million-degree Kelvin corona. The corona itself expands into the interstellar medium as the free streaming solar wind, which modulates and impacts the near-Earth space weather. The precise source regions of different structures in the solar wind, their formation height, and the heating of the solar atmosphere are inextricably linked and unsolved problems in astrophysics. Observations suggest correlations between Coronal holes (CHs), which are cool, intensity deficit structures in the solar corona, with structures in the solar wind. Observations also suggest the local plasma heating in the corona through power-law distributed impulsive events. In this thesis, we use narrowband photometric, spectroscopic, and disc-integrated emission of the solar atmosphere ranging from Near Ultraviolet to X-rays along with in-situ solar wind measurements to understand (i). the source regions of the solar wind, (ii). the underlying mechanism of solar coronal heating, and (iii). the differentiation in dynamics of CHs with the background Quiet Sun (QS) regions, which do not show any significant signature of the solar wind. We leverage machine learning and numerical modeling tools to develop solar wind forecasting codes using interpretable AI, inversion codes to infer the properties of impulsive events and to understand the differences in the thermodynamics of CHs and QS regions. We finally present a unified scenario of solar wind emergence and heating in the solar atmosphere and discuss the implications of inferences from this thesis.
翻訳日:2023-04-05 15:05:14 公開日:2023-04-04
# 幾何適応型プリコンディショナーによるメタラーニング

Meta-Learning with a Geometry-Adaptive Preconditioner ( http://arxiv.org/abs/2304.01552v1 )

ライセンス: Link先を確認
Suhyun Kang, Duhun Hwang, Moonjung Eo, Taesup Kim, Wonjong Rhee(参考訳) モデル非依存メタ学習(maml)は、最も成功したメタ学習アルゴリズムの1つである。 外ループプロセスは共有初期化を学習し、内ループプロセスはタスク固有の重みを最適化する二段階最適化構造を持つ。 MAMLはインナーループの標準勾配降下に依存するが、最近の研究ではメタ学習プレコンディショナーによるインナーループの勾配降下の制御が有用であることが示されている。 しかし、既存のプリコンディショナーはタスク固有のパス依存の方法で同時に適応することはできない。 さらに、それらはリーマン計量条件を満たさず、事前条件付き勾配で最も急降下学習を可能にする。 本研究では,MAMLの制約を克服できる幾何適応型事前条件勾配降下(GAP)を提案する。GAPはタスク固有のパラメータに依存する事前条件を効率的にメタ学習することができ,その事前条件はリーマン計量であることを示す。 この2つの特性により、幾何適応型プレコンディショナーはインナーループ最適化の改善に有効である。 実験結果から,GAPは最先端のMAMLファミリーとプレコンディショニング・グラデーション・マML(PGD-MAML)ファミリーを多種多様なショット学習タスクで上回ることがわかった。 コードは以下の通り。 https://github.com/Suhyun777/CVPR23-GAP。

Model-agnostic meta-learning (MAML) is one of the most successful meta-learning algorithms. It has a bi-level optimization structure where the outer-loop process learns a shared initialization and the inner-loop process optimizes task-specific weights. Although MAML relies on the standard gradient descent in the inner-loop, recent studies have shown that controlling the inner-loop's gradient descent with a meta-learned preconditioner can be beneficial. Existing preconditioners, however, cannot simultaneously adapt in a task-specific and path-dependent way. Additionally, they do not satisfy the Riemannian metric condition, which can enable the steepest descent learning with preconditioned gradient. In this study, we propose Geometry-Adaptive Preconditioned gradient descent (GAP) that can overcome the limitations in MAML; GAP can efficiently meta-learn a preconditioner that is dependent on task-specific parameters, and its preconditioner can be shown to be a Riemannian metric. Thanks to the two properties, the geometry-adaptive preconditioner is effective for improving the inner-loop optimization. Experiment results show that GAP outperforms the state-of-the-art MAML family and preconditioned gradient descent-MAML (PGD-MAML) family in a variety of few-shot learning tasks. Code is available at: https://github.com/Suhyun777/CVPR23-GAP.
翻訳日:2023-04-05 15:04:49 公開日:2023-04-04
# 平均フィールドゲーム安定化のためのポリシー更新の規則化

Regularization of the policy updates for stabilizing Mean Field Games ( http://arxiv.org/abs/2304.01547v1 )

ライセンス: Link先を確認
Talal Algumaei, Ruben Solozabal, Reda Alami, Hakim Hacid, Merouane Debbah, Martin Takac(参考訳) 本研究は,複数エージェントが同一環境下で相互作用する非協調的マルチエージェント強化学習(MARL)について検討する。 多くのエージェントが導入する非定常性によってエージェント数をスケールアップする場合、課題が発生する。 この問題に対処するため、平均場ゲームズ(MFG)は対称性と均一性の仮定を非常に人口の多い近似ゲームに頼っている。 近年,MFGを多数の状態を持つゲームに拡張するために,深層強化学習が用いられている。 現在の方法は、q値の平均化や平均場分布の更新のような平滑化技術に依存している。 本研究は,平均場ポリシーの近位更新に基づく学習を安定化するための異なるアプローチを示す。 我々は,提案アルゴリズムを MF-PPO (textit{Mean Field Proximal Policy Optimization) と命名し,OpenSpiel フレームワークにおける提案手法の有効性を実証的に示す。

This work studies non-cooperative Multi-Agent Reinforcement Learning (MARL) where multiple agents interact in the same environment and whose goal is to maximize the individual returns. Challenges arise when scaling up the number of agents due to the resultant non-stationarity that the many agents introduce. In order to address this issue, Mean Field Games (MFG) rely on the symmetry and homogeneity assumptions to approximate games with very large populations. Recently, deep Reinforcement Learning has been used to scale MFG to games with larger number of states. Current methods rely on smoothing techniques such as averaging the q-values or the updates on the mean-field distribution. This work presents a different approach to stabilize the learning based on proximal updates on the mean-field policy. We name our algorithm \textit{Mean Field Proximal Policy Optimization (MF-PPO)}, and we empirically show the effectiveness of our method in the OpenSpiel framework.
翻訳日:2023-04-05 15:04:25 公開日:2023-04-04
# 地域風がCNNに基づく風速予測に与える影響:時空間相関解析からの考察

How Regional Wind Characteristics Affect CNN-based wind predictions: Insights from Spatiotemporal Correlation Analysis ( http://arxiv.org/abs/2304.01545v1 )

ライセンス: Link先を確認
Heesoo Shin, Mario R\"uttgers, Sangseung Lee(参考訳) 本研究では, 人工ニューラルネットワークを用いた風速予測モデルの精度に及ぼす時空間データ次元の影響について検討した。 過去の研究では、空間データを組み込むことで風速予測モデルの精度を高めることが示されているが、ニューラルネットワークに基づく予測モデルにおける空間スケールの違いによる改善の程度を調査する研究は少ない。 さらに、これらのモデルに対する入力データの最適時間長に関する限られた研究がある。 このギャップに対処するために,3次元畳み込みニューラルネットワーク(3D-CNN)を用いた風速予測において,様々な時空間次元のデータを入力として利用し,その予測性能を評価する。 その結果, 周辺地域の空間データを3D-CNNトレーニングに用いることで, 単点情報のみを使用するよりも予測性能が向上することが示唆された。 さらに、マルチタイムデータはシングルタイムデータよりも予測性能に好意的な影響を及ぼした。 この原因を明らかにするために, トレーニングデータの空間的および時間的サイズが予測性能に与える影響を相関解析を用いて分析した。 その結果, 自己相関係数 (ACC) が低下すると, 時間とともに類似性が低下し, 予測性能が低下した。 さらに、accの空間標準偏差は予測性能にも影響を及ぼす。 Pearson correlation coefficient (PCC) 解析を行い, 空間が予測性能に及ぼす影響について検討した。 そこで,PCC解析により,局所的な幾何風と季節風の条件が予測モデルの予測能力に影響を及ぼすことを示した。

This study investigates the impact of spatiotemporal data dimensions on the precision of a wind forecasting model developed using an artificial neural network. Although previous studies have shown that incorporating spatial data can enhance the accuracy of wind forecasting models, few investigations have explored the extent of the improvement owing to different spatial scales in neural network-based predictive models. Additionally, there are limited studies on the optimal temporal length of the input data for these models. To address this gap, this study employs data with various spatiotemporal dimensions as inputs when forecasting wind using 3D-Convolutional Neural Networks (3D-CNN) and assesses their predictive performance. The results indicate that using spatial data of the surrounding area for 3D-CNN training can achieve better predictive performance than using only single-point information. Additionally, multi-time data had a more positive effect on the predictive performance than single-time data. To determine the reasons for this, correlation analyses were used to determine the impact of the spatial and temporal sizes of the training data on the prediction performance. The study found that as the autocorrelation coefficient (ACC) decreased, meaning that there was less similarity over time, the prediction performance decreased. Furthermore, the spatial standard deviation of the ACC also affects the prediction performance. A Pearson correlation coefficient (PCC) analysis was conducted to examine the effect of space on the prediction performance. Through the PCC analysis, we show that local geometric and seasonal wind conditions can influence the forecast capability of a predictive model.
翻訳日:2023-04-05 15:04:08 公開日:2023-04-04
# 医療における説明可能な人工知能の概観

A Brief Review of Explainable Artificial Intelligence in Healthcare ( http://arxiv.org/abs/2304.01543v1 )

ライセンス: Link先を確認
Zahra Sadeghi, Roohallah Alizadehsani, Mehmet Akif Cifci, Samina Kausar, Rizwan Rehman, Priyakshi Mahanta, Pranjal Kumar Bora, Ammar Almasri, Rami S. Alkhawaldeh, Sadiq Hussain, Bilal Alatas, Afshin Shoeibi, Hossein Moosaei, Milan Hladik, Saeid Nahavandi, Panos M. Pardalos(参考訳) XAIは、エンドユーザーがAIモデルの出力と予測を解釈するのを助けるAIアプリケーションを構築する技術と方法を指す。 医療ドメインなどの高リスク意思決定状況におけるブラックボックスaiアプリケーションは、誤った予測が深刻な結果をもたらす可能性があるため、透明性と説明可能性の要求を増加させている。 モデル説明可能性と解釈可能性は、医療実践におけるAIモデルのデプロイを成功させる上で不可欠である。 aiアプリケーションの基盤となる推論は、信頼を得るためには、臨床医に透明性を持たなければならない。 本稿では,医療領域におけるxaiの側面と課題を体系的にレビューする。 本研究の主な目的は、医療における様々なXAI手法、課題、および関連する機械学習モデルを検討することである。 提案手法は,特徴指向手法,グローバル手法,概念モデル,代理モデル,局所画素ベース手法,人間中心手法の6つのカテゴリに分類される。 最も重要なことは、医療問題におけるXAIの役割を探求し、安全クリティカルなアプリケーションにおけるその必要性を明らかにすることである。 本研究は,医療分野におけるXAI関連応用の総合的な理解を確立することを目的としている。 研究ギャップを埋めるための今後の研究を促進するために,異なる視点からのXAIモデルの重要性と限界について検討した。

XAI refers to the techniques and methods for building AI applications which assist end users to interpret output and predictions of AI models. Black box AI applications in high-stakes decision-making situations, such as medical domain have increased the demand for transparency and explainability since wrong predictions may have severe consequences. Model explainability and interpretability are vital successful deployment of AI models in healthcare practices. AI applications' underlying reasoning needs to be transparent to clinicians in order to gain their trust. This paper presents a systematic review of XAI aspects and challenges in the healthcare domain. The primary goals of this study are to review various XAI methods, their challenges, and related machine learning models in healthcare. The methods are discussed under six categories: Features-oriented methods, global methods, concept models, surrogate models, local pixel-based methods, and human-centric methods. Most importantly, the paper explores XAI role in healthcare problems to clarify its necessity in safety-critical applications. The paper intends to establish a comprehensive understanding of XAI-related applications in the healthcare field by reviewing the related experimental results. To facilitate future research for filling research gaps, the importance of XAI models from different viewpoints and their limitations are investigated.
翻訳日:2023-04-05 15:03:44 公開日:2023-04-04
# 圧縮によるプライバシ増幅:分散平均推定における最適プライバシ-精度-コミュニケーショントレードオフの実現

Privacy Amplification via Compression: Achieving the Optimal Privacy-Accuracy-Communication Trade-off in Distributed Mean Estimation ( http://arxiv.org/abs/2304.01541v1 )

ライセンス: Link先を確認
Wei-Ning Chen, Dan Song, Ayfer Ozgur, Peter Kairouz(参考訳) プライバシーとコミュニケーションの制約は、連合学習(fl)と分析(fa)における2つの大きなボトルネックである。 共同通信と$(\varepsilon, \delta)$-differential privacy (dp)制約下での平均および周波数推定(flおよびfaのカノニカルモデル)の最適精度について検討した。 我々は、$(\varepsilon, \delta)$-DPの下で最適なエラーを達成するために、各クライアントが$\Theta\left(n \min\left(\varepsilon, \varepsilon^2\right)\right)$ bits for FL and $\Theta\left(\log\left(n\min\left(\varepsilon, \varepsilon^2\right) \right)\right)$ bits for FA to the server。 圧縮がなければ、各クライアントは平均および周波数推定問題に対してそれぞれ$O(d)$ビットと$\log d$ビット(ここで$d$はFLのトレーニング可能なパラメータの数やFAのドメインサイズに対応する)を必要とします。 提案アルゴリズムでは,各クライアントがサンプルに関する部分的な情報のみを通信する場合,各クライアントが提供した部分をランダムに選択することで,プライバシを増幅できることを示す。

Privacy and communication constraints are two major bottlenecks in federated learning (FL) and analytics (FA). We study the optimal accuracy of mean and frequency estimation (canonical models for FL and FA respectively) under joint communication and $(\varepsilon, \delta)$-differential privacy (DP) constraints. We show that in order to achieve the optimal error under $(\varepsilon, \delta)$-DP, it is sufficient for each client to send $\Theta\left( n \min\left(\varepsilon, \varepsilon^2\right)\right)$ bits for FL and $\Theta\left(\log\left( n\min\left(\varepsilon, \varepsilon^2\right) \right)\right)$ bits for FA to the server, where $n$ is the number of participating clients. Without compression, each client needs $O(d)$ bits and $\log d$ bits for the mean and frequency estimation problems respectively (where $d$ corresponds to the number of trainable parameters in FL or the domain size in FA), which means that we can get significant savings in the regime $ n \min\left(\varepsilon, \varepsilon^2\right) = o(d)$, which is often the relevant regime in practice. Our algorithms leverage compression for privacy amplification: when each client communicates only partial information about its sample, we show that privacy can be amplified by randomly selecting the part contributed by each client.
翻訳日:2023-04-05 15:03:26 公開日:2023-04-04
# 有向多重グラフ上の単位結合離散時間量子ウォーク

Unitary Coined Discrete-Time Quantum Walks on Directed Multigraphs ( http://arxiv.org/abs/2304.01582v1 )

ライセンス: Link先を確認
Allan Wing-Bocanegra and Salvador E. Venegas-Andraca(参考訳) Unitary Coined Discrete-Time Quantum Walks (UC-DTQW) は量子計算の普遍的なモデルであり、汎用量子コンピュータが行う計算はUC-DTQWフレームワークを使って行うことができる。 この10年で、量子ウォークベースのアルゴリズムを開発し、古典的なアルゴリズムを上回り、この分野で大きな進歩を遂げました。 しかし、現在の量子コンピュータは計算の量子回路モデルに基づいて動作し、あるモデルから別のモデルへの一般的なマッピングはいまだに未解決の問題である。 本研究では,シフト演算子とコイン演算子の2つのユニタリ演算子によって構成される,uc-dtqwのユニタリ進化演算子の行列解析を行う。 我々は,UC-DTQW が成立するグラフに付随する隣接行列のユニタリ行列形式としてシステムのシフト演算子を導出し,後者を前と後者に変換する方程式の集合を与える。 しかし、この写像は、元のグラフの1つの辺または弧を複数の弧に分割することで、元のグラフの構造を有向多重グラフに修正する。 したがって、任意のユニタリ作用素が量子回路表現を持つという事実は、変換方程式に対応する随伴行列が自動的に量子回路に関連付けられ、二成分系に作用する任意の量子回路は常に多重グラフに関連付けられることを意味する。 最後に、コイン演算子の定義を、各コインが量子ウォークを行う多重グラフの異なる頂点に作用するように、コインの重ね合わせに拡張し、これを回路形式でどのように実装できるかを説明する。

Unitary Coined Discrete-Time Quantum Walks (UC-DTQW) constitute a universal model of quantum computation, meaning that any computation done by a general purpose quantum computer can either be done using the UC-DTQW framework. In the last decade,s great progress has been done in this field by developing quantum walk-based algorithms that can outperform classical ones. However, current quantum computers work based on the quantum circuit model of computation, and the general mapping from one model to the other is still an open problem. In this work we provide a matrix analysis of the unitary evolution operator of UC-DTQW, which is composed at the time of two unitary operators: the shift and coin operators. We conceive the shift operator of the system as the unitary matrix form of the adjacency matrix associated to the graph on which the UC-DTQW takes place, and provide a set of equations to transform the latter into the former and vice-versa. However, this mapping modifies the structure of the original graph into a directed multigraph, by splitting single edges or arcs of the original graph into multiple arcs. Thus, the fact that any unitary operator has a quantum circuit representation means that any adjacency matrix that complies with the transformation equations will be automatically associated to a quantum circuit, and any quantum circuit acting on a bipartite system will be always associated to a multigraph. Finally, we extend the definition of the coin operator to a superposition of coins in such a way that each coin acts on different vertices of the multigraph on which the quantum walk takes place, and provide a description of how this can be implemented in circuit form.
翻訳日:2023-04-05 14:56:08 公開日:2023-04-04
# 生体認証における非目標近傍衝突攻撃

Untargeted Near-collision Attacks in Biometric Recognition ( http://arxiv.org/abs/2304.01580v1 )

ライセンス: Link先を確認
Axel Durbet and Paul-Marie Grollemund and Kevin Thiry-Atighehchi(参考訳) 生体認証システムは、識別または検証の2つの異なるモードで動作する。 第1のモードでは、システムは、マッチするすべてのユーザの登録テンプレートを検索することで、個人を認識する。 第2のモードでは、新しいテンプレートと登録されたテンプレートを比較して、要求されたアイデンティティを検証する。 認識しきい値調整による偽の一致率と偽の一致率の両方が認識精度を規定し、システムのセキュリティを規定している。 バイオメトリック変換方式は通常、暗号方式でよりよく扱われるバイナリテンプレートを生成する。 これらの変換スキームの要件の1つは、その可逆性である。 この研究では、バイナリテンプレートのセキュリティ強度を定量化するために確率論的モデリングに頼る。 テンプレートサイズ,データベースサイズ,しきい値が近距離衝突の確率に及ぼす影響を調査し,生体計測システムに対する2つの攻撃を強調する。 汎用攻撃によるパラメータの選択について検討する。

A biometric recognition system can operate in two distinct modes, identification or verification. In the first mode, the system recognizes an individual by searching the enrolled templates of all the users for a match. In the second mode, the system validates a claimed identity by comparing the fresh template with the enrolled template for this identity. Both the experimentally determined false match rate and false non-match rate through recognition threshold adjustment define the recognition accuracy, and hence the security of the system. The biometric transformation schemes usually produce binary templates that are better handled by cryptographic schemes. One of the requirements for these transformation schemes is their irreversibility. In this work, we rely on probabilistic modelling to quantify the security strength of binary templates. We investigate the influence of template size, database size and threshold on the probability of having a near-collision, and we highlight two attacks on biometric systems. We discuss the choice of parameters through the generic presented attacks.
翻訳日:2023-04-05 14:55:37 公開日:2023-04-04
# mesaha-net : ctスキャンにおける肺結節の最大強度投影を用いたマルチエンコーダ型自己適応型ハードアテンションネットワーク

MESAHA-Net: Multi-Encoders based Self-Adaptive Hard Attention Network with Maximum Intensity Projections for Lung Nodule Segmentation in CT Scan ( http://arxiv.org/abs/2304.01576v1 )

ライセンス: Link先を確認
Muhammad Usman, Azka Rehman, Abdullah Shahid, Siddique Latif, Shi Sub Byon, Sung Hyun Kim, Tariq Mahmood Khan, and Yeong Gil Shin(参考訳) 肺結節の正確な分節は早期肺癌の診断に不可欠であり、患者の生存率を大幅に向上させる可能性がある。 CT画像は肺結節解析の早期診断に広く用いられている。 しかし, 肺結節の多様性, 大きさの多様性, 周辺環境の複雑さは, 頑健な結節分画法を開発する上で困難である。 本研究では,マルチエンコーダをベースとした自己適応型ハードアテンションネットワーク(MESAHA-Net)をCTスキャンの高精度な肺結節分割のための効率的なエンドツーエンドフレームワークとして提案する。 MESAHA-Netは3つの符号化パス、アテンションブロック、デコーダブロックから構成されており、CTスライスパッチ、前方および後方最大強度投影(MIP)画像、およびノードを含む関心領域(ROI)マスクの3種類の入力の統合を容易にする。 新しい適応的ハードアテンション機構を用いて、mesaha-netは肺結節のスライスバイスライス2次元セグメンテーションを反復的に実施し、各スライスの結節領域に着目して肺結節の3次元ボリュームセグメンテーションを生成する。 LIDC-IDRIデータセットは肺結節セグメンテーションのための最大公用データセットである。 以上の結果より, 本手法は肺結節型に対して極めて堅牢であり, セグメンテーション精度と計算複雑性の点で従来の最先端技術よりも優れており, リアルタイムな臨床応用に適していることが示唆された。

Accurate lung nodule segmentation is crucial for early-stage lung cancer diagnosis, as it can substantially enhance patient survival rates. Computed tomography (CT) images are widely employed for early diagnosis in lung nodule analysis. However, the heterogeneity of lung nodules, size diversity, and the complexity of the surrounding environment pose challenges for developing robust nodule segmentation methods. In this study, we propose an efficient end-to-end framework, the multi-encoder-based self-adaptive hard attention network (MESAHA-Net), for precise lung nodule segmentation in CT scans. MESAHA-Net comprises three encoding paths, an attention block, and a decoder block, facilitating the integration of three types of inputs: CT slice patches, forward and backward maximum intensity projection (MIP) images, and region of interest (ROI) masks encompassing the nodule. By employing a novel adaptive hard attention mechanism, MESAHA-Net iteratively performs slice-by-slice 2D segmentation of lung nodules, focusing on the nodule region in each slice to generate 3D volumetric segmentation of lung nodules. The proposed framework has been comprehensively evaluated on the LIDC-IDRI dataset, the largest publicly available dataset for lung nodule segmentation. The results demonstrate that our approach is highly robust for various lung nodule types, outperforming previous state-of-the-art techniques in terms of segmentation accuracy and computational complexity, rendering it suitable for real-time clinical implementation.
翻訳日:2023-04-05 14:55:23 公開日:2023-04-04
# グラフニューラルネットワークにおけるプールの表現力

The expressive power of pooling in Graph Neural Networks ( http://arxiv.org/abs/2304.01575v1 )

ライセンス: Link先を確認
Filippo Maria Bianchi, Veronica Lachi(参考訳) グラフニューラルネットワーク(GNN)では、階層的なプーリング演算子は、グラフ構造とその頂点特徴の局所的な要約を作成することにより、入力データの粗い表現を生成する。 gnnにおけるメッセージパッシング(mp)層の表現力の研究にかなりの注意が払われているが、プール演算子がgnnの表現力にどう影響するかの研究はまだ欠けている。 加えて、効果的なプーリング演算子の設計の最近の進歩にもかかわらず、それらを比較するための原則的な基準は存在しない。 本研究は,MP層の表現力を完全に維持するプーリング演算子に十分な条件を提供することで,このギャップを埋めることを目的としている。 これらの条件は、既存のプーリング演算子の中から選択したり、新しいものを設計するための普遍的で理論的な基準として機能する。 理論的な知見に基づき,いくつかの既存のプール演算子を検証し,表現性の仮定を満たさないものを同定した。 最後に,グラフアイソモーフィズムテストを実施する能力の観点から,プール層を備えたGNNの表現力を実証的に測定する実験装置を導入した。

In Graph Neural Networks (GNNs), hierarchical pooling operators generate a coarser representation of the input data by creating local summaries of the graph structure and its vertex features. Considerable attention has been devoted to studying the expressive power of message-passing (MP) layers in GNNs, while a study on how pooling operators affect the expressivity of a GNN is still lacking. Additionally, despite the recent advances in the design of effective pooling operators, there is not a principled criterion to compare them. Our work aims to fill this gap by providing sufficient conditions for a pooling operator to fully preserve the expressive power of the MP layers before it. These conditions serve as a universal and theoretically-grounded criterion for choosing among existing pooling operators or designing new ones. Based on our theoretical findings, we reviewed several existing pooling operators and identified those that fail to satisfy the expressiveness assumptions. Finally, we introduced an experimental setup to empirically measure the expressive power of a GNN equipped with pooling layers, in terms of its capability to perform a graph isomorphism test.
翻訳日:2023-04-05 14:54:51 公開日:2023-04-04
# 熱分解としての量子ウォークとフラーレングラフへの応用

Quantum walks as thermalizations, with application to fullerene graphs ( http://arxiv.org/abs/2304.01572v1 )

ライセンス: Link先を確認
Shyam Dhamapurkar, Oscar Dahlsten(参考訳) 量子ウォークは、古典的ランダムウォークが古典的熱化のモデルとなるように、熱化のモデルを構成することができるかを検討する。 グラフ上の量子ウォークでは、ウォーカーはユニタリ時間発展を通じてノードの位置の重ね合わせを移動する。 量子ウォークは、一様進化量子系の熱化に関する文献で研究されている種類の平衡として解釈できることを示す。 この接続は、観測可能性の平衡に関する最近の結果が量子ウォークのノード位置統計解析に応用できることを示している。 これをフラーレンと呼ばれるグラフの族に例証する。 short et al. のバウンドは、ある期待値が時間平均値に近いことを暗示しており、ノードの位置確率に厳密に適用される。 それでも、ノード位置統計は標準的な意味では熱化しない。 特に、フラーレングラフ上の量子ウォークは、サブシステムがギブス状態に等しくなるという仮説に対する反例となる。 また、量子ウォークを用いてETH関係の普遍性を探索する方法を示す。 c60では、ノードの位置プロジェクタでは関係は持たないが、平均的な位置は持たない。 その結果、量子系の自己熱化の研究と量子ウォークによる量子計算の間に具体的な橋渡しができる。

We consider whether quantum walks can constitute models of thermalization, analogously to how classical random walks can be models for classical thermalization. In a quantum walk over a graph, a walker moves in a superposition of node positions via a unitary time evolution. We show a quantum walk can be interpreted as an equilibration of a kind investigated in the literature on thermalization in unitarily evolving quantum systems. This connection implies that recent results concerning the equilibration of observables can be applied to analyse the node position statistics of quantum walks. We illustrate this in the case of a family of graphs known as fullerenes. We find that a bound from Short et al., implying that certain expectation values will at most times be close to their time-averaged value, applies tightly to the node position probabilities. Nevertheless, the node position statistics do not thermalize in the standard sense. In particular, quantum walks over fullerene Graphs constitute a counter-example to the hypothesis that subsystems equilibrate to the Gibbs state. We also show how quantum walks can be used to probe the universality of the ETH relation. We find that in C60 the relation does not hold for node position projectors, but it does hold for the average position. The results create a concrete bridge between the study of self-thermalization of quantum systems and that of quantum computation via quantum walks.
翻訳日:2023-04-05 14:54:33 公開日:2023-04-04
# 時空間およびセマンティックゼロ膨張都市異常予測

Spatiotemporal and Semantic Zero-inflated Urban Anomaly Prediction ( http://arxiv.org/abs/2304.01569v1 )

ライセンス: Link先を確認
Yao Lu, Pengyuan Zhou, Yong Liao and Haiyong Xie(参考訳) 交通事故予測や犯罪予測のような都市異常予測は、スマートシティのセキュリティとメンテナンスにとって極めて重要である。 既存の手法は通常、深層学習を用いて空間的および時間的次元の依存性を捉える。 しかし、例えば、低頻度で発生する都市異常(実際のデータセットの性能が低下する可能性がある)や、空間的、時間的、セマンティック次元にまたがる異常パターンの相互依存性、および相互依存性など、多くの重要な課題は未解決のままである。 さらに、複数の種類の異常を予測するための統一的なアプローチを探索する。 本稿では,3次元におけるパターンと影響要因の相互依存性を共同で把握するSTSを提案する。 さらに、ゼロ膨張問題を解くために、カスタマイズされた損失関数を備えたマルチタスク予測モジュールを使用する。 本モデルの有効性を検証するため, 都市における2つの異常予測タスク, 犯罪予測, 交通事故リスク予測に適用した。 実世界の4つのデータセットを用いた2つのアプリケーションシナリオの実験では、平均絶対誤差の最先端法とゼロ膨張データセットの根平均二乗誤差の37.88%と18.10%、非ゼロデータセットの60.32%と37.28%という2つのstsの優位性が実証されている。

Urban anomaly predictions, such as traffic accident prediction and crime prediction, are of vital importance to smart city security and maintenance. Existing methods typically use deep learning to capture the intra-dependencies in spatial and temporal dimensions. However, numerous key challenges remain unsolved, for instance, sparse zero-inflated data due to urban anomalies occurring with low frequency (which can lead to poor performance on real-world datasets), and both intra- and inter-dependencies of abnormal patterns across spatial, temporal, and semantic dimensions. Moreover, a unified approach to predict multiple kinds of anomaly is left to explore. In this paper, we propose STS to jointly capture the intra- and inter-dependencies between the patterns and the influential factors in three dimensions. Further, we use a multi-task prediction module with a customized loss function to solve the zero-inflated issue. To verify the effectiveness of the model, we apply it to two urban anomaly prediction tasks, crime prediction and traffic accident risk prediction, respectively. Experiments on two application scenarios with four real-world datasets demonstrate the superiority of STS, which outperforms state-of-the-art methods in the mean absolute error and the root mean square error by 37.88% and 18.10% on zero-inflated datasets, and, 60.32% and 37.28% on non-zero datasets, respectively.
翻訳日:2023-04-05 14:54:13 公開日:2023-04-04
# 超軽量バイナリニューラルネットワークを用いた不整脈分類

Arrhythmia Classifier Based on Ultra-Lightweight Binary Neural Network ( http://arxiv.org/abs/2304.01568v1 )

ライセンス: Link先を確認
Ninghao Pu, Zhongxing Wu, Ao Wang, Hanshi Sun, Zijin Liu and Hao Liu(参考訳) 心電図による不整脈のモニタリングは、人間の健康に重大な影響を及ぼす。 ディープラーニングの発展に伴い、ディープラーニングに基づく多くのECG分類アルゴリズムが出現している。 しかし、既存のアルゴリズムは複雑なモデルに対して高い精度で処理し、高いストレージ使用量と消費電力をもたらす。 これにより、限られたリソースを持つウェアラブル人工知能(AIoT)デバイスの実装の難しさも必然的に増大する。 本研究では,ECG信号に基づく5クラス,17クラスの不整脈分類が可能な,普遍的に適用可能な超軽量バイナリニューラルネットワーク(BNN)を提案する。 我々のBNNは5クラスと17クラスでそれぞれ96.90%(完全精度97.09%)と97.50%(完全精度98.00%)の精度を達成し、最先端のストレージ使用(3.76KBと4.45KB)を実現した。 他の二項化処理と比較して,本手法は最小の記憶空間を達成しつつ,2つの多重分類モードをサポートすることに優れている。 さらに,本モデルは17クラス分類において最適精度を達成し,エレガントに単純なネットワークアーキテクチャを有する。 私たちが使用するアルゴリズムは、ハードウェア実装に特化しています。 我々の研究は、医療産業、特にウェアラブル医療機器における軽量なディープラーニングモデルの可能性を示している。 https://github.com/xpww/ECG_BNN_Net

Reasonably and effectively monitoring arrhythmias through ECG signals has significant implications for human health. With the development of deep learning, numerous ECG classification algorithms based on deep learning have emerged. However, most existing algorithms trade off high accuracy for complex models, resulting in high storage usage and power consumption. This also inevitably increases the difficulty of implementation on wearable Artificial Intelligence-of-Things (AIoT) devices with limited resources. In this study, we proposed a universally applicable ultra-lightweight binary neural network(BNN) that is capable of 5-class and 17-class arrhythmia classification based on ECG signals. Our BNN achieves 96.90% (full precision 97.09%) and 97.50% (full precision 98.00%) accuracy for 5-class and 17-class classification, respectively, with state-of-the-art storage usage (3.76 KB and 4.45 KB). Compared to other binarization works, our approach excels in supporting two multi-classification modes while achieving the smallest known storage space. Moreover, our model achieves optimal accuracy in 17-class classification and boasts an elegantly simple network architecture. The algorithm we use is optimized specifically for hardware implementation. Our research showcases the potential of lightweight deep learning models in the healthcare industry, specifically in wearable medical devices, which hold great promise for improving patient outcomes and quality of life. Code is available on: https://github.com/xpww/ECG_BNN_Net
翻訳日:2023-04-05 14:53:43 公開日:2023-04-04
# rgbとサーマルビデオによる人間の行動認識のためのリアルタイムアルゴリズム

A real-time algorithm for human action recognition in RGB and thermal video ( http://arxiv.org/abs/2304.01567v1 )

ライセンス: Link先を確認
Hannes Fassold, Karlheinz Gutjahr, Anna Weber, Roland Perko(参考訳) 映像中の人間の動きや動作をリアルタイムで監視することは重要な課題である。 本稿では,rgbおよびサーマルカメラの人間行動認識のための深層学習に基づくアルゴリズムを提案する。 人間の検出と追跡が可能で、nvidia gpuを搭載したノートブック上で4つの基本的なアクション(立位、歩行、ランニング、嘘)をリアルタイムで認識することができる。 そのため、オブジェクト検出(Scaled YoloV4)、光学フロー(RAFT)、ポーズ推定(EvoSkeleton)のための技術コンポーネントの状態を組み合わせる。 トンネルビデオの定性的実験は、提案アルゴリズムがRGBと熱ビデオの両方で頑健に動作することを示している。

Monitoring the movement and actions of humans in video in real-time is an important task. We present a deep learning based algorithm for human action recognition for both RGB and thermal cameras. It is able to detect and track humans and recognize four basic actions (standing, walking, running, lying) in real-time on a notebook with a NVIDIA GPU. For this, it combines state of the art components for object detection (Scaled YoloV4), optical flow (RAFT) and pose estimation (EvoSkeleton). Qualitative experiments on a set of tunnel videos show that the proposed algorithm works robustly for both RGB and thermal video.
翻訳日:2023-04-05 14:53:21 公開日:2023-04-04
# グラフ拡散モデルに関する調査:分子・タンパク質・材料科学における生成AI

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material ( http://arxiv.org/abs/2304.01565v1 )

ライセンス: Link先を確認
Mengchun Zhang, Maryam Qamar, Taegoo Kang, Yuna Jung, Chenshuang Zhang, Sung-Ho Bae, Chaoning Zhang(参考訳) 拡散モデルが様々な分野における新たなsota生成モデリング手法となり、総合的な調査を提供する複数の調査が行なわれている。 近年,拡散モデルに関する記事が指数関数的に増えているため,特定の分野における拡散モデルの調査の必要性が高まっている。 本研究では,グラフ拡散モデルに関する調査を行うことを約束する。 グラフにおける拡散モデルの進展を網羅することに注力するが、まずグラフに他の生成的モデリング手法がどのように使われているかを簡単に要約する。 その後,様々な形態の拡散モデルのメカニズムを導入することにより,グラフ拡散モデルに関する議論が促進される。 グラフ拡散モデルの応用は、主に科学におけるAIGC(AI- generated content)のカテゴリに該当し、主に、グラフ拡散モデルが分子やタンパク質の生成にどのように利用されるかに焦点を当てるが、材料設計を含む他のケースもカバーしている。 さらに,グラフ領域における拡散モデルの評価問題と既存課題についても論じる。

Diffusion models have become a new SOTA generative modeling method in various fields, for which there are multiple survey works that provide an overall survey. With the number of articles on diffusion models increasing exponentially in the past few years, there is an increasing need for surveys of diffusion models on specific fields. In this work, we are committed to conducting a survey on the graph diffusion models. Even though our focus is to cover the progress of diffusion models in graphs, we first briefly summarize how other generative modeling methods are used for graphs. After that, we introduce the mechanism of diffusion models in various forms, which facilitates the discussion on the graph diffusion models. The applications of graph diffusion models mainly fall into the category of AI-generated content (AIGC) in science, for which we mainly focus on how graph diffusion models are utilized for generating molecules and proteins but also cover other cases, including materials design. Moreover, we discuss the issue of evaluating diffusion models in the graph domain and the existing challenges.
翻訳日:2023-04-05 14:53:08 公開日:2023-04-04
# 属性整合型知識グラフ表現学習によるマルチモーダルエンティティアライメント

Attribute-Consistent Knowledge Graph Representation Learning for Multi-Modal Entity Alignment ( http://arxiv.org/abs/2304.01563v1 )

ライセンス: Link先を確認
Qian Li, Shu Guo, Yangyifei Luo, Cheng Ji, Lihong Wang, Jiawei Sheng, Jianxin Li(参考訳) マルチモーダルエンティティアライメント(mmea)は、マルチモーダルナレッジグラフ(mmkgs)間の全ての等価エンティティペアを見つけることを目的としている。 リッチ属性と隣接エンティティはアライメントタスクに有用であるが、既存の研究は、アライメントエンティティがエンティティ表現を学ぶ際に特定のモダリティに関する属性の数が異なるという文脈的ギャップの問題を無視している。 本稿では,一貫したアライメント知識を組み込むことでコンテキストギャップを補うための,MMEA(ACK-MMEA)のための属性一貫性のある知識グラフ表現学習フレームワークを提案する。 属性一貫性を持つKG(ACKG)は、まずマルチモーダル属性の統一化によって構成され、各エンティティが各モーダルに1つの一様特徴を持つように演算子を生成する。 ACKGはランダムなドロップアウトを持つ関係対応グラフニューラルネットワークに入力され、集約された関係表現と堅牢な実体表現を得る。 エンティティアライメントを容易にするACK-MMEAを評価するために,属性評価とエンティティアライメント評価の両方のための共同アライメント損失を特別に設計する。 2つのベンチマークデータセットで広範な実験を行った結果,本手法は競合他社と比較して優れた性能を達成できた。

The multi-modal entity alignment (MMEA) aims to find all equivalent entity pairs between multi-modal knowledge graphs (MMKGs). Rich attributes and neighboring entities are valuable for the alignment task, but existing works ignore contextual gap problems that the aligned entities have different numbers of attributes on specific modality when learning entity representations. In this paper, we propose a novel attribute-consistent knowledge graph representation learning framework for MMEA (ACK-MMEA) to compensate the contextual gaps through incorporating consistent alignment knowledge. Attribute-consistent KGs (ACKGs) are first constructed via multi-modal attribute uniformization with merge and generate operators so that each entity has one and only one uniform feature in each modality. The ACKGs are then fed into a relation-aware graph neural network with random dropouts, to obtain aggregated relation representations and robust entity representations. In order to evaluate the ACK-MMEA facilitated for entity alignment, we specially design a joint alignment loss for both entity and attribute evaluation. Extensive experiments conducted on two benchmark datasets show that our approach achieves excellent performance compared to its competitors.
翻訳日:2023-04-05 14:52:52 公開日:2023-04-04
# EDeR: イベント間の依存関係関係を探索するデータセット

EDeR: A Dataset for Exploring Dependency Relations Between Events ( http://arxiv.org/abs/2304.01612v1 )

ライセンス: Link先を確認
Ruiqi Li, Patrik Haslum, Leyang Cui(参考訳) 関係抽出は自然言語処理(NLP)と情報検索(IR)研究において中心的な課題である。 これまでにnlpやir研究で研究されていない重要な関係は、あるイベントが別のイベントの引数(必須またはオプション)であることだと論じている。 我々は、この依存関係関係を提供する人間アノテーション付きイベント依存性関係データセット(EDeR)を紹介します。 アノテーションは、ontonnotesデータセットのドキュメントサンプル上で実行される。このアノテーションは、このデータセットの既存の直交的なアノテーションと統合する追加の利点がある。 本研究では,二項引数/非引数分類において82.61の精度を達成するイベント依存関係を予測するためのベースラインアプローチについて検討する。 この関係を認識することで、より正確なイベント抽出(セマンティックな役割ラベリング)が可能になり、協調参照解決など、これに依存する下流タスクを改善することができることを示す。 さらに,3方向の分類を必須引数,任意引数,非議論に予測することは,より困難な課題であることを示す。

Relation extraction is a central task in natural language processing (NLP) and information retrieval (IR) research. We argue that an important type of relation not explored in NLP or IR research to date is that of an event being an argument - required or optional - of another event. We introduce the human-annotated Event Dependency Relation dataset (EDeR) which provides this dependency relation. The annotation is done on a sample of documents from the OntoNotes dataset, which has the added benefit that it integrates with existing, orthogonal, annotations of this dataset. We investigate baseline approaches for predicting the event dependency relation, the best of which achieves an accuracy of 82.61 for binary argument/non-argument classification. We show that recognizing this relation leads to more accurate event extraction (semantic role labelling) and can improve downstream tasks that depend on this, such as co-reference resolution. Furthermore, we demonstrate that predicting the three-way classification into the required argument, optional argument or non-argument is a more challenging task.
翻訳日:2023-04-05 14:47:36 公開日:2023-04-04
# q2atransformer: answer querying decoderによる医療vqaの改善

Q2ATransformer: Improving Medical VQA via an Answer Querying Decoder ( http://arxiv.org/abs/2304.01611v1 )

ライセンス: Link先を確認
Yunyi Liu, Zhanyu Wang, Dong Xu, and Luping Zhou(参考訳) 医用視覚質問応答システム(VQA)は,医用画像による診療関連情報の理解を支援する役割を担っている。 医療画像に対する質問には、クローズドエンド(Yes/No questionなど)とオープンエンドの2つのカテゴリが含まれる。 回答を得るためには、既存の医療用VQA法の大部分は分類手法に依存しており、いくつかの研究は世代アプローチや両者の混合を試みている。 分類アプローチは比較的単純だが、長いオープンエンドの質問ではうまく機能しない。 このギャップを埋めるために,本論文では,医療用VQA(Q2A Transformer)のためのトランスフォーマーベースのフレームワークを提案する。 具体的には,各応答クラスの存在を与えられた画像問合せペアに問合せするために,学習可能な解組の組を持つ追加のトランスフォーマデコーダを導入する。 Transformerの注意を通じて、候補回答の埋め込みは、画像検索ペアの融合した特徴と相互作用して決定を行う。 このように、分類に基づくアプローチであるにもかかわらず、本手法は、生成に基づくアプローチのような予測のための回答情報と対話するメカニズムを提供する。 一方,分類により,回答の探索空間を小さくすることで課題の難易度を軽減できる。 本手法は,2つの医用VQAベンチマークにおいて,新しい最先端性能を実現する。 特に、オープンエンドの質問では、VQA-RADが79.19%、PathVQAが54.85%、それぞれ16.09%、絶対的な改善が41.45%である。

Medical Visual Question Answering (VQA) systems play a supporting role to understand clinic-relevant information carried by medical images. The questions to a medical image include two categories: close-end (such as Yes/No question) and open-end. To obtain answers, the majority of the existing medical VQA methods relies on classification approaches, while a few works attempt to use generation approaches or a mixture of the two. The classification approaches are relatively simple but perform poorly on long open-end questions. To bridge this gap, in this paper, we propose a new Transformer based framework for medical VQA (named as Q2ATransformer), which integrates the advantages of both the classification and the generation approaches and provides a unified treatment for the close-end and open-end questions. Specifically, we introduce an additional Transformer decoder with a set of learnable candidate answer embeddings to query the existence of each answer class to a given image-question pair. Through the Transformer attention, the candidate answer embeddings interact with the fused features of the image-question pair to make the decision. In this way, despite being a classification-based approach, our method provides a mechanism to interact with the answer information for prediction like the generation-based approaches. On the other hand, by classification, we mitigate the task difficulty by reducing the search space of answers. Our method achieves new state-of-the-art performance on two medical VQA benchmarks. Especially, for the open-end questions, we achieve 79.19% on VQA-RAD and 54.85% on PathVQA, with 16.09% and 41.45% absolute improvements, respectively.
翻訳日:2023-04-05 14:47:17 公開日:2023-04-04
# Locate Then Generate: シーンテキストVQAのためのバウンディングボックスによる視覚と言語をブリッジする

Locate Then Generate: Bridging Vision and Language with Bounding Box for Scene-Text VQA ( http://arxiv.org/abs/2304.01603v1 )

ライセンス: Link先を確認
Yongxin Zhu, Zhen Liu, Yukang Liang, Xin Li, Hao Liu, Changcun Bao, Linli Xu(参考訳) 本稿では,STVQA(Scene Text Visual Question Answering)のための新しいマルチモーダルフレームワークを提案する。 独立して存在することができるテキストや視覚オブジェクトとは別に、シーンテキストは自然にテキストと視覚のモダリティを結合し、画像内の視覚オブジェクトであると同時に言語意味を伝達する。 本稿では,シーンテキストにおける言語意味論と視覚意味論を2つの異なる特徴として捉えた従来のstvqaモデルとは異なり,これら2つの意味論を結合するブリッジとして空間境界ボックスと明示的に統合する"locate then generation"(ltg)のパラダイムを提案する。 具体的には、当初、LTGは、応答語を含む領域を領域提案ネットワークと言語洗練ネットワークとからなる応答位置モジュール(ALM)で特定し、どちらもシーンテキストバウンディングボックスを介して1対1のマッピングで変換することができる。 次に、ALMによって選択された回答語が与えられた場合、LTGは事前訓練された言語モデルに基づいて、回答生成モジュール(AGM)を備えた読み出し可能な回答シーケンスを生成する。 視覚的および言語的意味論の明示的なアライメントの利点として、シーンテキストベースの事前訓練タスクがなくても、LTGはテキストVQAデータセットとST-VQAデータセットの絶対精度を、非事前訓練ベースラインと比較して+6.06%、+6.92%向上させることができる。 さらに,従来の手法では不十分であった空間境界ボックス接続により,LTGが視覚とテキストのモダリティを効果的に統一することを示した。

In this paper, we propose a novel multi-modal framework for Scene Text Visual Question Answering (STVQA), which requires models to read scene text in images for question answering. Apart from text or visual objects, which could exist independently, scene text naturally links text and visual modalities together by conveying linguistic semantics while being a visual object in an image simultaneously. Different to conventional STVQA models which take the linguistic semantics and visual semantics in scene text as two separate features, in this paper, we propose a paradigm of "Locate Then Generate" (LTG), which explicitly unifies this two semantics with the spatial bounding box as a bridge connecting them. Specifically, at first, LTG locates the region in an image that may contain the answer words with an answer location module (ALM) consisting of a region proposal network and a language refinement network, both of which can transform to each other with one-to-one mapping via the scene text bounding box. Next, given the answer words selected by ALM, LTG generates a readable answer sequence with an answer generation module (AGM) based on a pre-trained language model. As a benefit of the explicit alignment of the visual and linguistic semantics, even without any scene text based pre-training tasks, LTG can boost the absolute accuracy by +6.06% and +6.92% on the TextVQA dataset and the ST-VQA dataset respectively, compared with a non-pre-training baseline. We further demonstrate that LTG effectively unifies visual and text modalities through the spatial bounding box connection, which is underappreciated in previous methods.
翻訳日:2023-04-05 14:46:48 公開日:2023-04-04
# 画像登録のための類似度指標のプリミティブ同時最適化

Primitive Simultaneous Optimization of Similarity Metrics for Image Registration ( http://arxiv.org/abs/2304.01601v1 )

ライセンス: Link先を確認
Diana Waldmannstetter, Florian Kofler, Benedikt Wiestler, Julian Schwarting, Ivan Ezhov, Marie Metz, Daniel Rueckert, Jan S. Kirschke, Marie Piraud, Bjoern H. Menze(参考訳) 類似度メトリクスの同時最適化はセマンティックセグメンテーションの分野で標準的な手順であるにもかかわらず、驚くべきことに、画像登録には当てはまらない。 文献における予期せぬギャップを解消するため,本論文では,画像登録のメリットを生かした登録メトリクスの同時最適化について,複雑なマルチモーダル3次元設定で検討する。 グリオーマの術前・術後および術中mri(pre-to intra-operative magnetic resonance imaging: mri)を含む2つの課題データセットを評価した。 提案手法を応用して,専門神経放射線学者のランドマークアノテーションに基づくTRE(Target Registration Error)による登録精度の向上を示す。

Even though simultaneous optimization of similarity metrics represents a standard procedure in the field of semantic segmentation, surprisingly, this does not hold true for image registration. To close this unexpected gap in the literature, we investigate in a complex multi-modal 3D setting whether simultaneous optimization of registration metrics, here implemented by means of primitive summation, can benefit image registration. We evaluate two challenging datasets containing collections of pre- to post-operative and pre- to intra-operative Magnetic Resonance Imaging (MRI) of glioma. Employing the proposed optimization we demonstrate improved registration accuracy in terms of Target Registration Error (TRE) on expert neuroradiologists' landmark annotations.
翻訳日:2023-04-05 14:46:15 公開日:2023-04-04
# MM-BSN: Blind-Spot Networkに基づくマルチマスクを用いた実世界の自己監督画像デノーミング

MM-BSN: Self-Supervised Image Denoising for Real-World with Multi-Mask based on Blind-Spot Network ( http://arxiv.org/abs/2304.01598v1 )

ライセンス: Link先を確認
Dan Zhang, Fangfang Zhou, Yuwen Jiang and Zhengming Fu(参考訳) ディープラーニングの最近の進歩は、画像のデノイジング技術を新しいレベルに押し上げている。 自己監督型画像復調では、ブラインドスポットネットワーク(BSN)が最も一般的な手法の1つである。 しかし、既存のBSNアルゴリズムのほとんどはドットベースの中央マスクを使用しており、大規模な空間相関ノイズを持つ画像では非効率であると認識されている。 本稿では,大雑音の定義を提案し,異なる形状の複数の畳み込みカーネルを用いてマルチマスク戦略を提案し,さらにノイズ空間相関を破る。 さらに,マルチマスク戦略とBSN(MM-BSN)を併用した自己監督型画像復調手法を提案する。 提案するmm-bsnは,マルチマスキングと情報伝達によって破壊されるテクスチャ構造を回復しつつ,マルチマスキング層から抽出した特徴を効率的に融合させることができる。 提案するmm-bsnは,他のbsn法では効率的に処理できない大雑音デノージングの問題を解決するために使用できる。 公開実世界のデータセットに対する大規模な実験により、提案されたMM-BSNは、ラベル付けの努力や事前の知識なしに、SRGB画像の自己監督的および非ペア画像復調法における最先端のパフォーマンスを達成できることを示した。 コードはhttps://github.com/dannie125/MM-BSNにある。

Recent advances in deep learning have been pushing image denoising techniques to a new level. In self-supervised image denoising, blind-spot network (BSN) is one of the most common methods. However, most of the existing BSN algorithms use a dot-based central mask, which is recognized as inefficient for images with large-scale spatially correlated noise. In this paper, we give the definition of large-noise and propose a multi-mask strategy using multiple convolutional kernels masked in different shapes to further break the noise spatial correlation. Furthermore, we propose a novel self-supervised image denoising method that combines the multi-mask strategy with BSN (MM-BSN). We show that different masks can cause significant performance differences, and the proposed MM-BSN can efficiently fuse the features extracted by multi-masked layers, while recovering the texture structures destroyed by multi-masking and information transmission. Our MM-BSN can be used to address the problem of large-noise denoising, which cannot be efficiently handled by other BSN methods. Extensive experiments on public real-world datasets demonstrate that the proposed MM-BSN achieves state-of-the-art performance among self-supervised and even unpaired image denoising methods for sRGB images denoising, without any labelling effort or prior knowledge. Code can be found in https://github.com/dannie125/MM-BSN.
翻訳日:2023-04-05 14:46:00 公開日:2023-04-04
# 言語モデルにおけるファクチュアル知識の教師なし改善

Unsupervised Improvement of Factual Knowledge in Language Models ( http://arxiv.org/abs/2304.01597v1 )

ライセンス: Link先を確認
Nafis Sadeq, Byungkyu Kang, Prarit Lamba, Julian McAuley(参考訳) マスケッド言語モデリング(MLM)は、大規模言語モデルの事前訓練において重要な役割を果たしている。 しかし、MLMの目的はしばしば、事実知識の学習に最適な高周波単語によって支配される。 本研究では,知識集約型タスクにおける言語モデルの性能向上を図るために,MLM事前学習に影響を与えるアプローチを提案する。 我々は、言語モデルに対して、完全に教師のない方法で情報的単語を優先順位付けするように強制する。 実験により, 提案手法は, ファクトリコール, 質問応答, 感情分析, 自然言語推論などのタスクにおいて, 学習済み言語モデルの性能を大幅に向上させることができることを示した。

Masked language modeling (MLM) plays a key role in pretraining large language models. But the MLM objective is often dominated by high-frequency words that are sub-optimal for learning factual knowledge. In this work, we propose an approach for influencing MLM pretraining in a way that can improve language model performance on a variety of knowledge-intensive tasks. We force the language model to prioritize informative words in a fully unsupervised way. Experiments demonstrate that the proposed approach can significantly improve the performance of pretrained language models on tasks such as factual recall, question answering, sentiment analysis, and natural language inference in a closed-book setting.
翻訳日:2023-04-05 14:45:35 公開日:2023-04-04
# 世界的現象としての大覚醒

The Great Awokening as a Global Phenomenon ( http://arxiv.org/abs/2304.01596v1 )

ライセンス: Link先を確認
David Rozado(参考訳) 以前の研究では、2010年以降、米国と英国のメディアコンテンツにおける偏見(人種差別、性差別、ホモフォビア、イスラム恐怖症、反ユダヤ主義など)を非難するために使われる単語の急増が確認されている。 これらの制度的傾向と、社会における偏見の深刻さに対する認識の増大に関するアメリカの世論の関連する変化を「大覚醒」と呼ぶ者もいる。 ここでは,先行分析をグローバルメディア環境に拡張する。 そこで我々は、西欧、大陸ヨーロッパ、ラテンアメリカ、サブサハラアフリカ、ペルシャ湾地域、アジアなど6つの異なる地域を代表する36カ国から124のニュース・メディアで9800万以上のニュース・意見記事において、偏見・否定的用語と社会正義関連用語(多様性・包含・平等等)の頻度を定量化する。 いわゆるwokeness terminologyのニュースメディアにおける注目の高まりは、2010年初頭に先駆的な国で始まった世界的な現象である。 しかし、異なる世界地域は異なる種類の偏見を強調しており、その強度は様々である。 驚いたことに、アメリカのメディアは偏見と社会的正義をコンテンツにロードする用語を埋め込んだ先駆者ではなかったようだ。 また、ロシア、中国、イランの国営メディアは、西側の敵をモック、不安定化、批判するために、ウェイクネスという用語を地政学的プロパガンダの武器として活用しているかもしれない。 世界中のメディアで、覚醒用語が出現した時間的同期性は、この現象を引き起こす根本原因について重要な疑問を提起する。

Previous research has identified a post-2010 sharp increase of words used to denounce prejudice (i.e. racism, sexism, homophobia, Islamophobia, anti-Semitism, etc) in US and UK news media content. Some have referred to these institutional trends and related shifts in US public opinion about increasing perceptions of prejudice severity in society as the Great Awokening. Here, we extend previous analysis to the global media environment. Thus, we quantify the prevalence of prejudice-denouncing terms and social justice associated terminology (diversity, inclusion, equality, etc) in over 98 million news and opinion articles across 124 popular news media outlets from 36 countries representing 6 different world regions: English-speaking West, continental Europe, Latin America, sub-Saharan Africa, Persian Gulf region and Asia. We find that increasing prominence in news media of so-called wokeness terminology is a global phenomenon starting early post-2010 in pioneering countries yet mostly worldwide ubiquitous post-2015. Still, different world regions emphasize distinct types of prejudice with varying degrees of intensity. Surprisingly, the United States news media does not appear to have been the pioneer in embedding prejudice and social justice loaded terminology in their content. We also note that state-controlled news media from Russia, China and Iran might be leveraging wokeness terminology as a geopolitical propaganda weapon to mock, destabilize or criticize Western adversaries. The large degree of temporal synchronicity with which wokeness terminology emerged in news media worldwide raises important questions about the root causes driving this phenomenon.
翻訳日:2023-04-05 14:45:24 公開日:2023-04-04
# 分散データ検出のためのpacに基づく形式的検証

PAC-Based Formal Verification for Out-of-Distribution Data Detection ( http://arxiv.org/abs/2304.01592v1 )

ライセンス: Link先を確認
Mohit Prashant and Arvind Easwaran(参考訳) 学習コンポーネントを使用する自動運転車のようなサイバー物理システム(cps)は、実行時に発生するノイズや分散(ood)インスタンスに敏感であることが多い。 そのため、安全クリティカルタスクは、CPSを既知の状態に復元したり、実行を中断して安全性が損なわれないようにするために、OOD検出サブシステムに依存する。 しかし、特に高次元非構造データにおいて、インスタンスのOOD側面を特徴付けることは困難であるため、OOD検出器の性能を保証することは困難である。 OODデータと学習コンポーネントに知られているデータをトレーニングプロセスを通じて区別するために、システムに変分オートエンコーダ(VAE)を組み込んで、潜在空間に分類または異常検出技術を適用する。 その根拠は、符号化プロセスによるデータドメインサイズの削減であり、処理要求の低減を通じてリアルタイムシステムに恩恵を与え、非構造化データの特徴解析を容易にし、より説明可能な技術を実装することができる。 本研究は,VAE内の符号化プロセスを用いて画像特徴を定量化し,それらに適合性制約を適用したOOD検出に基づくほぼ正しい(PAC)保証を示す。 これは、ユーザ定義の信頼性で不慣れなインスタンスに検出エラーをバインドするために使用される。 本研究は, 潜在確率分布をサンプリングし, 遭遇した制約違反に対する誤差を評価することにより, これらの境界を実証的に確立することを目的とする。 保証は、オープンソースの運転シミュレータであるCARLAから生成されたデータを使って検証される。

Cyber-physical systems (CPS) like autonomous vehicles, that utilize learning components, are often sensitive to noise and out-of-distribution (OOD) instances encountered during runtime. As such, safety critical tasks depend upon OOD detection subsystems in order to restore the CPS to a known state or interrupt execution to prevent safety from being compromised. However, it is difficult to guarantee the performance of OOD detectors as it is difficult to characterize the OOD aspect of an instance, especially in high-dimensional unstructured data. To distinguish between OOD data and data known to the learning component through the training process, an emerging technique is to incorporate variational autoencoders (VAE) within systems and apply classification or anomaly detection techniques on their latent spaces. The rationale for doing so is the reduction of the data domain size through the encoding process, which benefits real-time systems through decreased processing requirements, facilitates feature analysis for unstructured data and allows more explainable techniques to be implemented. This study places probably approximately correct (PAC) based guarantees on OOD detection using the encoding process within VAEs to quantify image features and apply conformal constraints over them. This is used to bound the detection error on unfamiliar instances with user-defined confidence. The approach used in this study is to empirically establish these bounds by sampling the latent probability distribution and evaluating the error with respect to the constraint violations that are encountered. The guarantee is then verified using data generated from CARLA, an open-source driving simulator.
翻訳日:2023-04-05 14:44:46 公開日:2023-04-04
# マルチチャネル時系列人物とソフトバイオメトリック同定

Multi-Channel Time-Series Person and Soft-Biometric Identification ( http://arxiv.org/abs/2304.01585v1 )

ライセンス: Link先を確認
Nilah Ravi Nair, Fernando Moya Rueda, Christopher Reining and Gernot A. Fink(参考訳) マルチチャネル時系列データセットは、ヒューマンアクティビティ認識(HAR)の文脈で人気がある。 人間の動きのオンボディデバイス(obd)記録は、その信頼性だけでなく、産業的な環境でのアイデンティティ保護へのアプローチとして、harアプリケーションとして好まれることが多い。 対照的に、歩行活動は、循環運動が独特で収集可能であるため、生体計測である。 加えて、歩行周期は、年齢や身長などの人間のグループのソフトバイオメトリック情報を含むことが証明されている。 一般的な人間の動きはバイオメトリックとは考えられていないが、アイデンティティ情報を含んでいるかもしれない。 本研究は, 深層建築を用いて異なる活動を行うヒトのOBD記録から, 個人とソフトバイオメトリックスを同定する。 さらに,ソフトバイオメトリック同定における属性表現の利用を提案する。 本研究では, マルチチャネル時系列HARの4つのデータセットについて評価し, 人体の性能とソフトバイオメトリックス同定, 実行活動との関係について検討した。 人物識別は歩行活動に限らない。 行動が識別性能に与える影響は、トレーニングとデータセットに特有であることが判明した。 ソフトバイオメトリクスに基づく属性表現は有望な結果を示し、より大きなデータセットの必要性を強調する。

Multi-channel time-series datasets are popular in the context of human activity recognition (HAR). On-body device (OBD) recordings of human movements are often preferred for HAR applications not only for their reliability but as an approach for identity protection, e.g., in industrial settings. Contradictory, the gait activity is a biometric, as the cyclic movement is distinctive and collectable. In addition, the gait cycle has proven to contain soft-biometric information of human groups, such as age and height. Though general human movements have not been considered a biometric, they might contain identity information. This work investigates person and soft-biometrics identification from OBD recordings of humans performing different activities using deep architectures. Furthermore, we propose the use of attribute representation for soft-biometric identification. We evaluate the method on four datasets of multi-channel time-series HAR, measuring the performance of a person and soft-biometrics identification and its relation concerning performed activities. We find that person identification is not limited to gait activity. The impact of activities on the identification performance was found to be training and dataset specific. Soft-biometric based attribute representation shows promising results and emphasis the necessity of larger datasets.
翻訳日:2023-04-05 14:44:20 公開日:2023-04-04
# HALO: 自律システムのハザード・アウェア・ランディング最適化

HALO: Hazard-Aware Landing Optimization for Autonomous Systems ( http://arxiv.org/abs/2304.01583v1 )

ライセンス: Link先を確認
Christopher R. Hayner, Samuel C. Buckner, Daniel Broyles, Evelyn Madewell, Karen Leung and Behcet Acikmese(参考訳) 火星科学研究所のキュリオシティ探査機が火星に着陸するなど、安全上重要なミッションを遂行する自律型航空車両では、潜在的に危険な着陸地点を自動で特定し、推論する任務が最重要である。 本稿では,不確実な環境に着地した場合に発生するハザード検出,最適着陸軌道生成,緊急計画問題に対処する認識計画手法を提案する。 具体的には,Hazard-Aware Landing Site Selection (HALSS) とAdaptive Deferred-Decision Trajectory Optimization (Adaptive-DDTO) の2つの新しいアルゴリズムを開発し,それぞれに認識課題と計画課題に対処する。 halssフレームワークはクラウド情報を処理して、実行可能な安全な着陸ゾーンを識別し、adaptive-ddtoは、新しい知覚情報を受け取ると適応的に再計画するマルチターゲット・コンティンジェンシー・プランナーである。 シミュレーションした火星環境を用いて,本手法の有効性を実証し,非適応DDTO手法に比べて燃料効率が良く着地を成功させることを示す。

With autonomous aerial vehicles enacting safety-critical missions, such as the Mars Science Laboratory Curiosity rover's landing on Mars, the tasks of automatically identifying and reasoning about potentially hazardous landing sites is paramount. This paper presents a coupled perception-planning solution which addresses the hazard detection, optimal landing trajectory generation, and contingency planning challenges encountered when landing in uncertain environments. Specifically, we develop and combine two novel algorithms, Hazard-Aware Landing Site Selection (HALSS) and Adaptive Deferred-Decision Trajectory Optimization (Adaptive-DDTO), to address the perception and planning challenges, respectively. The HALSS framework processes point cloud information to identify feasible safe landing zones, while Adaptive-DDTO is a multi-target contingency planner that adaptively replans as new perception information is received. We demonstrate the efficacy of our approach using a simulated Martian environment and show that our coupled perception-planning method achieves greater landing success whilst being more fuel efficient compared to a nonadaptive DDTO approach.
翻訳日:2023-04-05 14:44:04 公開日:2023-04-04
# 効率的かつ説明可能な長文分類のための多次元パーセプトロン

Multidimensional Perceptron for Efficient and Explainable Long Text Classification ( http://arxiv.org/abs/2304.01638v1 )

ライセンス: Link先を確認
Yexiang Wang, Yating Zhang, Xiaozhong Liu and Changlong Sun(参考訳) トランスフォーマーと事前学習モデルの必然的なコストと複雑さのため、長いテキスト分類では効率性が懸念される。 一方、医療や法的なロングテキストマイニングといった高度にセンシティブなドメインでは、潜在的なモデルの不信感は過小評価され、過小評価され、過小評価される可能性がある。 既存の方法は、通常、長いテキストを分割し、各ピースを事前訓練されたモデルでエンコードし、注意またはRNNを使用して、分類のための長いテキスト表現を得る。 本研究では,上述のフレームワークにおける注意/rnnを置き換えるための,単純かつ効果的な多次元パーセプトロン(swipe)モデルを提案する。 従来の取り組みとは異なり、SWIPEは教師なしのトレーニングでテキスト全体のラベルを効果的に学習し、セグメントのラベルを認識し、教師なしの方法で長文ラベルへの貢献を見積もる。 一般的な分類器として、SWIPEは異なるエンコーダを支持でき、分類精度とモデル効率の点でSOTAモデルより優れている。 SWIPEは長文分類結果の透明化に優れた解釈性を実現する。

Because of the inevitable cost and complexity of transformer and pre-trained models, efficiency concerns are raised for long text classification. Meanwhile, in the highly sensitive domains, e.g., healthcare and legal long-text mining, potential model distrust, yet underrated and underexplored, may hatch vital apprehension. Existing methods generally segment the long text, encode each piece with the pre-trained model, and use attention or RNNs to obtain long text representation for classification. In this work, we propose a simple but effective model, Segment-aWare multIdimensional PErceptron (SWIPE), to replace attention/RNNs in the above framework. Unlike prior efforts, SWIPE can effectively learn the label of the entire text with supervised training, while perceive the labels of the segments and estimate their contributions to the long-text labeling in an unsupervised manner. As a general classifier, SWIPE can endorse different encoders, and it outperforms SOTA models in terms of classification accuracy and model efficiency. It is noteworthy that SWIPE achieves superior interpretability to transparentize long text classification results.
翻訳日:2023-04-05 14:37:07 公開日:2023-04-04
# ラベル付き注意蒸留による車線分節化

Label-guided Attention Distillation for Lane Segmentation ( http://arxiv.org/abs/2304.01636v1 )

ライセンス: Link先を確認
Zhikang Liu, Lanyun Zhu(参考訳) 現代のセグメンテーション手法は通常、深い完全畳み込みネットワーク(fcns)に基づいている。 しかし, 層間畳み込みと受容界の増大は, シーン中のレーンマーカーなどの長距離コンテキストを捉えるのに適していない。 本稿では,セグメンテーションネットワークを訓練する際にラベル構造を利用する蒸留法を考案し,この問題に対処する。 直感的には、地平線アノテーション自体が内部構造を示す。 教師ネットワーク全体,すなわち,レーンラベルマップを入力として利用する教師ネットワークをトレーニングし,それを出力として再現しようとする。 そして、教師ネットワークの注意マップを学生セグメンテーションネットワークの管理者として採用する。 教師ネットワークはラベル構造情報を組み込んでおり、畳み込み層が視覚的に注意を払うべき場所をはっきりと把握している。 提案法は Label-Guided Attention Distillation (LGAD) と名付けられた。 学生ネットワークは、単独で学ぶよりもLGADでかなり良く学習されている。 教師ネットワークはトレーニング後に非推奨になるため,提案手法は推論時間を増加させない。 LGADは任意のレーンセグメンテーションネットワークに容易に組み込むことができる。

Contemporary segmentation methods are usually based on deep fully convolutional networks (FCNs). However, the layer-by-layer convolutions with a growing receptive field is not good at capturing long-range contexts such as lane markers in the scene. In this paper, we address this issue by designing a distillation method that exploits label structure when training segmentation network. The intuition is that the ground-truth lane annotations themselves exhibit internal structure. We broadcast the structure hints throughout a teacher network, i.e., we train a teacher network that consumes a lane label map as input and attempts to replicate it as output. Then, the attention maps of the teacher network are adopted as supervisors of the student segmentation network. The teacher network, with label structure information embedded, knows distinctly where the convolution layers should pay visual attention into. The proposed method is named as Label-guided Attention Distillation (LGAD). It turns out that the student network learns significantly better with LGAD than when learning alone. As the teacher network is deprecated after training, our method do not increase the inference time. Note that LGAD can be easily incorporated in any lane segmentation network.
翻訳日:2023-04-05 14:36:47 公開日:2023-04-04
# GC-EI-MSスペクトルによる小分子のデノボ同定

De-novo Identification of Small Molecules from Their GC-EI-MS Spectra ( http://arxiv.org/abs/2304.01634v1 )

ライセンス: Link先を確認
Adam H\'ajek and Michal Star\'y and Filip Jozefov and Helge Hecht and Elliott Price and Ale\v{s} K\v{r}enek(参考訳) 実験によって得られた未知化合物の質量スペクトルの同定は、信頼性のあるスペクトルデータベースが十分な密度の化学空間をカバーしていないため、特に困難である。 したがって、その質量スペクトルから直接分子構造を導出する機械学習に基づく 'emph{de-novo} 法が近年注目されている。 本報告では,GC-EI-MS スペクトルの特定の利用法であるノベル法について述べる。これは,これまで公表された手法が依存していたMS/MS 実験の第1段階の付加情報が欠如していることから,特に困難である。 強みや欠点やアプローチを分析し、今後の方向性について話し合う。

Identification of experimentally acquired mass spectra of unknown compounds presents a~particular challenge because reliable spectral databases do not cover the potential chemical space with sufficient density. Therefore machine learning based \emph{de-novo} methods, which derive molecular structure directly from its mass spectrum gained attention recently. We present a~novel method in this family, addressing a~specific usecase of GC-EI-MS spectra, which is particularly hard due to lack of additional information from the first stage of MS/MS experiments, on which the previously published methods rely. We analyze strengths and drawbacks or our approach and discuss future directions.
翻訳日:2023-04-05 14:36:31 公開日:2023-04-04
# 多孔質結晶材料の等価ネットワーク

Equivariant Networks for Porous Crystalline Materials ( http://arxiv.org/abs/2304.01628v1 )

ライセンス: Link先を確認
Marko Petkovi\'c, Pablo Romero-Marimon, Vlado Menkovski and Sofia Calero(参考訳) 多孔質結晶材料の特性を効率的に予測することは、第1原理モデルを用いたシミュレーションが計算コストが高いため、新しい材料を開発するための高スループットスクリーニングプロセスを加速する大きな可能性を秘めている。 深層学習法を効果的に活用し,これらの材料をモデル化するためには,その空間群によって定義される結晶に存在する対称性を利用する必要がある。 既存の結晶特性予測法は、制限的すぎる対称性の制約を持つか、単位セル間で対称性を組み込むのみである。 さらに、これらのモデルは結晶の多孔質構造を明示的にモデル化していない。 本稿では,結晶の単位セルの対称性をその構造に組み込んだモデルを開発し,その多孔質構造を明示的にモデル化する。 モルデナイトゼオライトの異なる組成に対するCO$_2$の吸着熱を予測し,本モデルの評価を行った。 本手法は, 既存の結晶特性予測法よりも優れた性能を示し, 細孔の内包によりより効率的なモデルが得られることを確認した。

Efficiently predicting properties of porous crystalline materials has great potential to accelerate the high throughput screening process for developing new materials, as simulations carried out using first principles model are often computationally expensive. To effectively make use of Deep Learning methods to model these materials, we need to utilize the symmetries present in the crystals, which are defined by their space group. Existing methods for crystal property prediction either have symmetry constraints that are too restrictive or only incorporate symmetries between unit cells. In addition, these models do not explicitly model the porous structure of the crystal. In this paper, we develop a model which incorporates the symmetries of the unit cell of a crystal in its architecture and explicitly models the porous structure. We evaluate our model by predicting the heat of adsorption of CO$_2$ for different configurations of the mordenite zeolite. Our results confirm that our method performs better than existing methods for crystal property prediction and that the inclusion of pores results in a more efficient model.
翻訳日:2023-04-05 14:36:21 公開日:2023-04-04
# 文脈対応変換器を用いた実世界画像の自己監督画像デノーミング

Self-Supervised Image Denoising for Real-World Images with Context-aware Transformer ( http://arxiv.org/abs/2304.01627v1 )

ライセンス: Link先を確認
Dan Zhang, Fangfang Zhou(参考訳) 近年、ディープラーニングの開発により、画像のノイズ化が新たなレベルへと押し上げられている。 その中でも,事前の知識を必要とせず,自己監督的な談話が普及している。 既存の自己教師型手法のほとんどは畳み込みニューラルネットワーク(CNN)に基づいており、受容野の局所性によって制限され、色の変化やテクスチャの喪失を引き起こす。 本稿では,CADT(Context-aware Denoise Transformer)ユニットとSNE(セカンダリノイズエクストラクタ)ブロックで構築された実世界のデノナイズのための新しいデノナイズ変換器を提案する。 cadtはデュアルブランチ構造として設計されており、グローバルブランチはウィンドウベースのトランスフォーマエンコーダを使用してグローバル情報を抽出する。 基本成分としてCADTを組み込んで階層ネットワークを構築し,残差学習を通じて雑音分布情報を直接学習し,第1段階の認知出力を得る。 次に,2次大域雑音抽出のための低演算量SNEを設計する。 最後に、デノーズ変圧器出力からブラインドスポットを収集して再構成し、最終的なデノーズ画像を形成する。 実世界のSIDDベンチマークにおける大規模な実験は、PSNR/SSIMの50.62/0.990を達成している。 公共のsRGB,Raw-RGB,グレースケールのデータセットの視覚的比較により,提案したDenoise Transformerは,特にぼやけたテクスチャや低照度画像において,基礎となる未知の雑音に関する付加的な知識を使わずに,競合性能を有することが示された。

In recent years, the development of deep learning has been pushing image denoising to a new level. Among them, self-supervised denoising is increasingly popular because it does not require any prior knowledge. Most of the existing self-supervised methods are based on convolutional neural networks (CNN), which are restricted by the locality of the receptive field and would cause color shifts or textures loss. In this paper, we propose a novel Denoise Transformer for real-world image denoising, which is mainly constructed with Context-aware Denoise Transformer (CADT) units and Secondary Noise Extractor (SNE) block. CADT is designed as a dual-branch structure, where the global branch uses a window-based Transformer encoder to extract the global information, while the local branch focuses on the extraction of local features with small receptive field. By incorporating CADT as basic components, we build a hierarchical network to directly learn the noise distribution information through residual learning and obtain the first stage denoised output. Then, we design SNE in low computation for secondary global noise extraction. Finally the blind spots are collected from the Denoise Transformer output and reconstructed, forming the final denoised image. Extensive experiments on the real-world SIDD benchmark achieve 50.62/0.990 for PSNR/SSIM, which is competitive with the current state-of-the-art method and only 0.17/0.001 lower. Visual comparisons on public sRGB, Raw-RGB and greyscale datasets prove that our proposed Denoise Transformer has a competitive performance, especially on blurred textures and low-light images, without using additional knowledge, e.g., noise level or noise type, regarding the underlying unknown noise.
翻訳日:2023-04-05 14:36:04 公開日:2023-04-04
# 類似事例マッチングのための解釈可能性フレームワーク

An interpretability framework for Similar case matching ( http://arxiv.org/abs/2304.01622v1 )

ライセンス: Link先を確認
Nankai Lin, Haonan Liu, Jiajun Fang, Dong Zhou, Aimin Yang(参考訳) 類似事例マッチング(SCM)は2つの事例が類似しているかどうかを判定する。 このタスクは、法律システムにおいて不可欠な役割を持ち、法律専門家が関連する事件を迅速に発見し、より効率的に対処するのを助ける。 既存の研究はモデルの性能向上に重点を置いているが、その解釈性に重点を置いていない。 そこで本稿では,司法特徴文識別モジュール,ケースマッチングモジュール,特徴文アライメントモジュール,コンフリクト曖昧性モジュールの4つのモジュールからなる,解釈可能なscmのためのパイプラインフレームワークを提案する。 既存のSCM法と異なり,本手法では,本文が必須情報を含む場合に特徴文を識別し,抽出した特徴文結果に基づいて類似事例マッチングを行い,その類似性を示すために2つの事例に特徴文を整列させる。 SCMの結果は特徴文アライメントの結果と矛盾する可能性がある。 実験の結果,フレームワークの有効性が示され,本研究は解釈可能なscmの新しいベンチマークを提供する。

Similar Case Matching (SCM) is designed to determine whether two cases are similar. The task has an essential role in the legal system, helping legal professionals to find relevant cases quickly and thus deal with them more efficiently. Existing research has focused on improving the model's performance but not on its interpretability. Therefore, this paper proposes a pipeline framework for interpretable SCM, which consists of four modules: a judicial feature sentence identification module, a case matching module, a feature sentence alignment module, and a conflict disambiguation module. Unlike existing SCM methods, our framework will identify feature sentences in a case that contain essential information, perform similar case matching based on the extracted feature sentence results, and align the feature sentences in the two cases to provide evidence for the similarity of the cases. SCM results may conflict with feature sentence alignment results, and our framework further disambiguates against this inconsistency. The experimental results show the effectiveness of our framework, and our work provides a new benchmark for interpretable SCM.
翻訳日:2023-04-05 14:35:29 公開日:2023-04-04
# SimCSum: 言語間科学ジャーナリズムのための単純化と言語間要約の連成学習

SimCSum: Joint Learning of Simplification and Cross-lingual Summarization for Cross-lingual Science Journalism ( http://arxiv.org/abs/2304.01621v1 )

ライセンス: Link先を確認
Mehwish Fatima, Tim Kolber, Katja Markert and Michael Strube(参考訳) 言語間科学ジャーナリズムは、専門家でない聴衆のために、ソース言語とは異なる科学記事の一般的な科学物語を生成する。 したがって、クロスリンガルのポピュラーな要約は、入力ドキュメントの突出した内容を含む必要があり、その内容は、対象とするオーディエンスのために、一貫性があり、理解可能で、ローカル言語でなければならない。 我々は,2つの高レベルNLPタスク,単純化と言語間要約による言語間要約生成のこれらの側面を改善した。 前者のタスクは言語の複雑さを減少させ、後者は言語間抽象要約に焦点を当てている。 1つの共有エンコーダと2つの並列デコーダからなるSimCSumは、単純化と言語間要約を併用して学習する。 我々は,SimCSumの性能を,複数の評価指標と人的評価指標とで比較し,実証的に検討した。 全体として、SimCSumは2つの非合成言語間科学データセットに対する最先端技術に対する統計的に有意な改善を示している。 さらに,生成した要約文の言語特性と誤り解析について詳細に検討する。

Cross-lingual science journalism generates popular science stories of scientific articles different from the source language for a non-expert audience. Hence, a cross-lingual popular summary must contain the salient content of the input document, and the content should be coherent, comprehensible, and in a local language for the targeted audience. We improve these aspects of cross-lingual summary generation by joint training of two high-level NLP tasks, simplification and cross-lingual summarization. The former task reduces linguistic complexity, and the latter focuses on cross-lingual abstractive summarization. We propose a novel multi-task architecture - SimCSum consisting of one shared encoder and two parallel decoders jointly learning simplification and cross-lingual summarization. We empirically investigate the performance of SimCSum by comparing it with several strong baselines over several evaluation metrics and by human evaluation. Overall, SimCSum demonstrates statistically significant improvements over the state-of-the-art on two non-synthetic cross-lingual scientific datasets. Furthermore, we conduct an in-depth investigation into the linguistic properties of generated summaries and an error analysis.
翻訳日:2023-04-05 14:35:12 公開日:2023-04-04
# スキップ接続を用いた2重畳み込みニューラルネットワークを用いた画像ブラインドデノイジング

Image Blind Denoising Using Dual Convolutional Neural Network with Skip Connection ( http://arxiv.org/abs/2304.01620v1 )

ライセンス: Link先を確認
Wencong Wu, Shicheng Liao, Guannan Lv, Peng Liang, Yungang Zhang(参考訳) 近年、深層畳み込みニューラルネットワークは画像デノイングの分野で魅力的な性能を示している。 しかし、より深いネットワークアーキテクチャには多数のモデルパラメータが伴うことが多く、訓練コストが高く、推論時間が長くなるため、現実的な記述タスクでの応用が制限される。 そこで,本論文では,提案手法を用いた2重畳み込みブラインドデノジングネットワークとスキップ接続(dcbdnet)を提案し,デノジング効果とネットワーク複雑性のバランスを良好に両立させる。 提案するDCBDNetは、雑音推定ネットワークと二重畳み込みニューラルネットワーク(CNN)から構成される。 ノイズ推定ネットワークを用いてノイズレベルマップを推定し,提案したモデルの柔軟性を向上させる。 二重cnnは2つの枝を含む:u字型サブネットワークは上枝用に設計され、下枝は拡張畳み込み層から構成されている。 レイヤ間のスキップ接続は、上下のブランチの両方で利用される。 提案したDCBDNetは、いくつかの合成および実世界の画像復号化ベンチマークデータセットで評価された。 実験の結果,提案したDCBDNetはガウス雑音,空間変動雑音,実雑音を効果的に除去できることがわかった。 単純なモデル構造により,提案するdcbdnetは,複雑なアーキテクチャを含む最先端の画像デノイジングモデルと比較して,依然として競争力のあるデノイジング性能を得ることができる。 すなわち、特徴付け性能とモデルの複雑さとの良好なトレードオフが達成される。 コードはhttps://github.com/WenCongWu/DCBDNetで入手できる。

In recent years, deep convolutional neural networks have shown fascinating performance in the field of image denoising. However, deeper network architectures are often accompanied with large numbers of model parameters, leading to high training cost and long inference time, which limits their application in practical denoising tasks. In this paper, we propose a novel dual convolutional blind denoising network with skip connection (DCBDNet), which is able to achieve a desirable balance between the denoising effect and network complexity. The proposed DCBDNet consists of a noise estimation network and a dual convolutional neural network (CNN). The noise estimation network is used to estimate the noise level map, which improves the flexibility of the proposed model. The dual CNN contains two branches: a u-shaped sub-network is designed for the upper branch, and the lower branch is composed of the dilated convolution layers. Skip connections between layers are utilized in both the upper and lower branches. The proposed DCBDNet was evaluated on several synthetic and real-world image denoising benchmark datasets. Experimental results have demonstrated that the proposed DCBDNet can effectively remove gaussian noise in a wide range of levels, spatially variant noise and real noise. With a simple model structure, our proposed DCBDNet still can obtain competitive denoising performance compared to the state-of-the-art image denoising models containing complex architectures. Namely, a favorable trade-off between denoising performance and model complexity is achieved. Codes are available at https://github.com/WenCongWu/DCBDNet.
翻訳日:2023-04-05 14:34:54 公開日:2023-04-04
# 超ロバスト非断熱ホロノミック量子ゲート

Accelerated Super-robust Nonadiabatic Holonomic Quantum Gates ( http://arxiv.org/abs/2304.01619v1 )

ライセンス: Link先を確認
P. Shen, Y. Liang, T. Chen, and Z.-Y. Xue(参考訳) ロンバダ型3レベルシステムに基づく非線形ホロノミック量子計算(NHQC)は、その一般的なエネルギー準位構造と幾何学的位相の固有ロバスト性のために、実験に広く適用可能である。 しかし、従来の NHQC スキームでは、計算部分空間の状態は常に非計算部分空間に漏れており、予想されるよりも堅牢性が低い。 この問題に対処するため,超ロバストな非線形ホロノミック量子計算 (SR-NHQC) 法を提案し,その有効性を実験的に実証した。 SR-NHQCはより堅牢な性能を持つが、過度に長いゲートタイムはデコヒーレンスを損なうため、実用上は非常に好ましくない。 本稿では,SR-NHQCの実装方法として,ゲート時間が長すぎるという問題を解決する手法を提案する。 3分割ハミルトニアンを用いて任意の1量子ゲートを実装し、ゲート時間が回転角に依存すると、回転角が小さくなるほど、ゲート時間が短くなる。 数値シミュレーションにより,提案方式のデコヒーレンス性能は従来の方式に比べて大幅に向上し,特に小角回転ゲートにおいて,本方式のロバスト性も向上していることが示された。 さらに, 超伝導回路に基づく物理実現理論を詳細に述べる。 したがって,本プロトコルは将来的なフォールトトレラント量子計算の代替として有望である。

The nonadiabatic holonomic quantum computation (NHQC) based on the $\Lambda$-type three-level system has wide applicability in experiments because of its popular energy level structure and inherent robustness of geometric phase. However, in the traditional NHQC scheme, the state of the calculation subspace has always leaked to the non-computation subspace, resulting in less robustness than anticipated. To address this problem, by imposing the super-robust condition, a super-robust nonadiabatic holonomic quantum computation (SR-NHQC) scheme was proposed with an experimental demonstration of its effectiveness. While SR-NHQC has better robust performance, its excessively long gate time leads to poor decoherence, making it quite unfavorable in practical applications. Here, we propose another scheme to implement SR-NHQC, solving the problem of the gate time being too long in the previous scheme. We implement arbitrary single-qubit gates via a three-segment Hamiltonian, where the gate time depends on the rotation angle, and the smaller the rotation angle, the shorter the gate time. Our numerical simulations show that the decoherence performance of our scheme is greatly improved compared to previous schemes, and the robustness of our scheme is also better, particularly for small-angle rotation gates. Moreover, we provide a detailed physical realization theoretical scheme based on superconducting circuits. Therefore, our protocol provides a more promising alternative for future fault-tolerant quantum computation.
翻訳日:2023-04-05 14:34:31 公開日:2023-04-04
# マレーシアにおけるロヒンギャ難民の安全とプライバシーに関する調査

Investigating Concerns of Security and Privacy Among Rohingya Refugees in Malaysia ( http://arxiv.org/abs/2304.01617v1 )

ライセンス: Link先を確認
Theodoros Georgiou, Lynne Baillie, Ryan Shah(参考訳) 難民コミュニティのセキュリティとプライバシは、グローバルな移住の増加という文脈で懸念が強まっている。 ロヒンギャ難民(英語: Rohingya refugees)は、ミャンマーの少数民族で、紛争が勃発した後、多くの難民が近隣諸国に避難し、バングラデシュなどの難民キャンプに避難することを余儀なくされた。 しかし、マレーシアに移住した者もおり、この地域に居住する者は都市難民として居住している。 しかし、マレーシアのロヒンギャは法的に認められておらず、医療や教育などの公共資源へのアクセスが制限されている。 これは、他の難民グループとは異なり、セキュリティとプライバシの課題に直面していることを意味しており、それらはしばしば、認識の欠如、社会的孤立、重要なリソースへのアクセスの欠如によって複雑化している。 本稿では,ロヒンギャ難民の安全とプライバシがもたらす意味を論じるとともに,これらの要件にかかわるソリューションの設計と実装において,人間中心のアプローチの必要性が高まったことを明らかにする。 全体として、rohingyaのセキュリティとプライバシに関する議論と調査結果は、より広いhciコミュニティの研究者、実践者、政策立案者に貴重なリソースを提供します。

The security and privacy of refugee communities have emerged as pressing concerns in the context of increasing global migration. The Rohingya refugees are a stateless Muslim minority group in Myanmar who were forced to flee their homes after conflict broke out, with many fleeing to neighbouring countries and ending up in refugee camps, such as in Bangladesh. However, others migrated to Malaysia and those who arrive there live within the community as urban refugees. However, the Rohingya in Malaysia are not legally recognized and have limited and restricted access to public resources such as healthcare and education. This means they face security and privacy challenges, different to other refugee groups, which are often compounded by this lack of recognition, social isolation and lack of access to vital resources. This paper discusses the implications of security and privacy of the Rohingya refugees, focusing on available and accessible technological assistance, uncovering the heightened need for a human-centered approach to design and implementation of solutions that factor in these requirements. Overall, the discussions and findings presented in this paper on the security and privacy of the Rohingya provides a valuable resource for researchers, practitioners and policymakers in the wider HCI community.
翻訳日:2023-04-05 14:34:01 公開日:2023-04-04
# ニューラル理解:コンパイルニューラルネットワークを用いた言語モデル

Neural Comprehension: Language Models with Compiled Neural Networks ( http://arxiv.org/abs/2304.01665v1 )

ライセンス: Link先を確認
Yixuan Weng, Minjun Zhu, Fei Xia, Bin Li, Shizhu He, Kang Liu, Jun Zhao(参考訳) 言語モデルは自然言語処理タスクで印象的な結果を得ているが、シンボリック操作や算術演算を行う能力は限られており、データから規則を暗黙的に学習している。 我々は、重み付けを特別に設計したコンパイルニューラルネットワーク(CoNN)を言語モデルのアーキテクチャに組み込んで、勾配によって訓練された言語モデルが完全なルール理解能力を得ることを可能にする方法について検討する。 コンパイルされたニューラルネットワークの導入は、複合タスクにおける言語モデルのパフォーマンス向上に有望な方向性を提供する。特に、トレーニングデータのパターン認識以上の抽象ルールをより深く理解する必要がある領域において。 ニューラル理解 (neural comprehension) と呼ぶこの手法は, 言語モデルが記号的操作における絶対的正確性を達成するのに役立ち, 規則推論, 記号的推論, 算術的推論の能力を高める。 私たちのコードは以下で公開されている。 \url{https://github.com/WENGSYX/Neural-Comprehension}。

Language models have achieved impressive results in natural language processing tasks, but their ability to perform symbolic operations and arithmetic operations, remains limited, which attribute to their learn the rules implicitly from data. We explore how to incorporate compiled neural networks (CoNNs) which weight is specially designed, into the architecture of language models to enable the language model trained by gradient to obtain fully rule comprehension ability. The incorporation of compiled neural networks offers a promising direction for improving the performance of language models on compound tasks, particularly in areas that require a deeper comprehension of abstract rules beyond recognizing patterns in training data. Our method, which call "Neural Comprehension", helps language models achieve absolute accuracy in symbolic operations, thereby enhancing their ability for rule reasoning, symbolic reasoning, and arithmetic reasoning. Our code is publicly available at: \url{https://github.com/WENGSYX/Neural-Comprehension}.
翻訳日:2023-04-05 14:28:48 公開日:2023-04-04
# 非一貫性オントロジーを用いた不整合耐性推論への埋め込みに基づくアプローチ

An Embedding-based Approach to Inconsistency-tolerant Reasoning with Inconsistent Ontologies ( http://arxiv.org/abs/2304.01664v1 )

ライセンス: Link先を確認
Keyu Wang, Site Li, Jiaye Li, Guilin Qi and Qiu Ji(参考訳) 不整合処理は知識管理において重要な問題である。 特にオントロジー工学では、論理的な矛盾はオントロジー構築中に起こりうる。 矛盾するオントロジーで推論する自然な方法は、オントロジーの最大一貫した部分集合を利用することである。 しかしながら、最大整合性部分集合の選択に関する以前の研究は公理の意味論をほとんど考慮していないため、不合理な推論につながる可能性がある。 本稿では,公理の埋め込みに基づく記述論理における矛盾したオントロジーを推論する新しい手法を提案する。 まず, 公理を分散意味ベクトルに変換し, 公理間の意味接続を計算する手法を提案する。 次に,最大一貫性部分集合を選択する組込みベース手法を定義し,非一貫性許容推論関係を定義する。 いくつかの論理的性質を考慮した推論関係の有理性を示す。 最後に,いくつかのオントロジーについて実験を行い,推論関係の推論力を評価する。 実験結果から, 組込み法は, 最大一貫した部分集合に基づく既存不整合耐性推論法より優れることが示された。

Inconsistency handling is an important issue in knowledge management. Especially in ontology engineering, logical inconsistencies may occur during ontology construction. A natural way to reason with an inconsistent ontology is to utilize the maximal consistent subsets of the ontology. However, previous studies on selecting maximum consistent subsets have rarely considered the semantics of the axioms, which may result in irrational inference. In this paper, we propose a novel approach to reasoning with inconsistent ontologies in description logics based on the embeddings of axioms. We first give a method for turning axioms into distributed semantic vectors to compute the semantic connections between the axioms. We then define an embedding-based method for selecting the maximum consistent subsets and use it to define an inconsistency-tolerant inference relation. We show the rationality of our inference relation by considering some logical properties. Finally, we conduct experiments on several ontologies to evaluate the reasoning power of our inference relation. The experimental results show that our embedding-based method can outperform existing inconsistency-tolerant reasoning methods based on maximal consistent subsets.
翻訳日:2023-04-05 14:28:30 公開日:2023-04-04
# クラス増分学習における安定性-弾塑性ジレンマについて

On the Stability-Plasticity Dilemma of Class-Incremental Learning ( http://arxiv.org/abs/2304.01663v1 )

ライセンス: Link先を確認
Dongwan Kim and Bohyung Han(参考訳) クラスインクリメンタルラーニングの主な目標は、安定性と可塑性のバランスを取ることであり、モデルが以前見られたクラスから学んだ知識を保持するのに十分な安定性と、新しいクラスから概念を学ぶのに十分なプラスチックであることである。 これまでの研究はクラスインクリメンタルベンチマークで強い性能を示したが、その成功はモデルが安定であるか、プラスティックであるか、どちらが混在しているかは定かではない。 本稿では,近年のクラス増分学習アルゴリズムが,安定性と塑性のトレードオフにいかに効果的かを明らかにすることを目的とする。 本研究では,特徴表現の安定性と可塑性を測定する解析ツールを構築し,大規模クラスインクリメンタルベンチマークにおいて,様々なアルゴリズムで訓練されたモデルを調べる。 驚くべきことに、クラス増分学習アルゴリズムの大部分は、初期クラスで訓練されたモデルの特徴抽出器が最終的なインクリメンタルモデルよりも効果的である程度に、可塑性よりも安定性を強く優先している。 我々の観察は、特徴表現分析の重要性を強調する2つの単純なアルゴリズムを刺激するだけでなく、一般に、クラス・インクリメンタルな学習アプローチは、より優れた特徴表現学習に努力すべきであることを示唆している。

A primary goal of class-incremental learning is to strike a balance between stability and plasticity, where models should be both stable enough to retain knowledge learned from previously seen classes, and plastic enough to learn concepts from new classes. While previous works demonstrate strong performance on class-incremental benchmarks, it is not clear whether their success comes from the models being stable, plastic, or a mixture of both. This paper aims to shed light on how effectively recent class-incremental learning algorithms address the stability-plasticity trade-off. We establish analytical tools that measure the stability and plasticity of feature representations, and employ such tools to investigate models trained with various algorithms on large-scale class-incremental benchmarks. Surprisingly, we find that the majority of class-incremental learning algorithms heavily favor stability over plasticity, to the extent that the feature extractor of a model trained on the initial set of classes is no less effective than that of the final incremental model. Our observations not only inspire two simple algorithms that highlight the importance of feature representation analysis, but also suggest that class-incremental learning approaches, in general, should strive for better feature representation learning.
翻訳日:2023-04-05 14:28:11 公開日:2023-04-04
# 識別ファインタニングによるクロスドメイン画像のキャプション

Cross-Domain Image Captioning with Discriminative Finetuning ( http://arxiv.org/abs/2304.01662v1 )

ライセンス: Link先を確認
Roberto Dess\`i, Michele Bevilacqua, Eleonora Gualdoni, Nathanael Carraz Rakotonirina, Francesca Franzon, Marco Baroni(参考訳) ニューラルキャプションは通常、特定のコミュニケーション目標に最適化することなく、人間が生成した参照を模倣するように訓練され、あいまいなキャプションの生成のような問題を引き起こす。 本稿では,自己教師付き判別コミュニケーション目的のニューラルネットワークキャプションを高精度に調整することで,画像内容についてより有益で視覚的な記述言語を回復できることを示す。 対象画像が与えられた場合、システムは、テキスト条件付き画像検索者が候補の中からそのような画像を識別できるようにする記述を生成する必要がある。 我々はClipCapキャプタを実験し、BLIPで主要な結果を再現した。 地味な人間の記述と類似する点において、識別的微調整ラグから出現したキャプションは、非微細化モデルによって生成されたキャプションよりわずかに遅れ、後者は同じキャプションデータセットでトレーニングされ、テストされる。 しかし、ドメイン外データセットのキャプションを生成するためにモデルがさらにチューニングされる場合、識別的に細分化されたキャプタは、同じキャプタによって生成されたものよりも人間の参照に類似した記述を生成する。 さらに,概念的キャプションデータセットにおいて,画像識別タスクを行う人間の注釈者に対して,バニラクリップキャップキャプションや地中キャプションよりも識別的微調整キャプションの方が有用であることを示す。

Neural captioners are typically trained to mimic human-generated references without optimizing for any specific communication goal, leading to problems such as the generation of vague captions. In this paper, we show that fine-tuning an out-of-the-box neural captioner with a self-supervised discriminative communication objective helps to recover a plain, visually descriptive language that is more informative about image contents. Given a target image, the system must learn to produce a description that enables an out-of-the-box text-conditioned image retriever to identify such image among a set of candidates. We experiment with the popular ClipCap captioner, also replicating the main results with BLIP. In terms of similarity to ground-truth human descriptions, the captions emerging from discriminative finetuning lag slightly behind those generated by the non-finetuned model, when the latter is trained and tested on the same caption dataset. However, when the model is used without further tuning to generate captions for out-of-domain datasets, our discriminatively-finetuned captioner generates descriptions that resemble human references more than those produced by the same captioner without finetuning. We further show that, on the Conceptual Captions dataset, discriminatively finetuned captions are more helpful than either vanilla ClipCap captions or ground-truth captions for human annotators tasked with an image discrimination task.
翻訳日:2023-04-05 14:27:47 公開日:2023-04-04
# スウェーデン流域における高密度水流強度予測のための完全畳み込みネットワーク

Fully Convolutional Networks for Dense Water Flow Intensity Prediction in Swedish Catchment Areas ( http://arxiv.org/abs/2304.01658v1 )

ライセンス: Link先を確認
Aleksis Pirinen, Olof Mogren and M{\aa}rten V\"asterdal(参考訳) 気候変動の激化は、豪雨や干ばつなど、より極端な気象現象を引き起こす。 変化する気候における新しい状況に適応し、堅牢な正確な流れ流予測モデルは、特に洪水に伴うリスクや被害の軽減に関して、気候適応に関する決定のための重要な情報源となるだろう。 本研究では,過去の降雨量と気温変化の時間的情報に加えて,地理空間データ(標高・土壌図,衛星画像など)から得られた流域の物理特性に基づいて,内陸海域における水流強度を予測する機械学習に基づくアプローチを提案する。 我々は,完全畳み込みニューラルネットワークモデルが時空間入力を受け取り,後日の空間入力の座標ごとに水流強度を予測できる1日頭配置を目標とした。 我々の知識を最大限に活用するために、我々は、密集した水流強度予測のタスクに最初に取り組み、初期の研究は、一度にスパースセットの場所における流れの強度を予測することを検討してきた。 広範なモデル評価とアブレーションが行われ、様々な設計の選択を実証的に正当化します。 コードと前処理されたデータはhttps://github.com/aleksispi/fcn-water-flowで公開されている。

Intensifying climate change will lead to more extreme weather events, including heavy rainfall and drought. Accurate stream flow prediction models which are adaptable and robust to new circumstances in a changing climate will be an important source of information for decisions on climate adaptation efforts, especially regarding mitigation of the risks of and damages associated with flooding. In this work we propose a machine learning-based approach for predicting water flow intensities in inland watercourses based on the physical characteristics of the catchment areas, obtained from geospatial data (including elevation and soil maps, as well as satellite imagery), in addition to temporal information about past rainfall quantities and temperature variations. We target the one-day-ahead regime, where a fully convolutional neural network model receives spatio-temporal inputs and predicts the water flow intensity in every coordinate of the spatial input for the subsequent day. To the best of our knowledge, we are the first to tackle the task of dense water flow intensity prediction; earlier works have considered predicting flow intensities at a sparse set of locations at a time. An extensive set of model evaluations and ablations are performed, which empirically justify our various design choices. Code and preprocessed data have been made publicly available at https://github.com/aleksispi/fcn-water-flow.
翻訳日:2023-04-05 14:27:18 公開日:2023-04-04
# 量子カオスシステムにおける状態とプロセスの異なる量子フィッシャー情報

Quantum Fisher Information for Different States and Processes in Quantum Chaotic Systems ( http://arxiv.org/abs/2304.01657v1 )

ライセンス: Link先を確認
Fernando Iniguez and Mark Srednicki(参考訳) 多体量子システムに適用される特定のプロセスに関連する量子フィッシャー情報(QFI)は、例えば、固有状態熱化仮説(ETH)に従うシステムにおいて、システムの量子状態の性質の診断として提案されている。 エネルギー固有状態と熱密度行列の両方のQFIをETHに従う系において計算し、急激な(クエンチ)、遅い(断熱)、熱浴に接触する(熱浴に接触する)ハミルトニアンの変化を含む。 局所的なユニタリ変換の結果と比較した。

The quantum Fisher information (QFI) associated with a particular process applied to a many-body quantum system has been suggested as a diagnostic for the nature of the system's quantum state, e.g., a thermal density matrix vs. a pure state in a system that obeys the eigenstate thermalization hypothesis (ETH). We compute the QFI for both an energy eigenstate and a thermal density matrix for a variety of processes in a system obeying ETH, including a change in the hamiltonian that is either sudden (a quench), slow (adiabatic), or followed by contact with a heat bath. We compare our results with earlier results for a local unitary transformation.
翻訳日:2023-04-05 14:26:43 公開日:2023-04-04
# デジタルトランスフォーメーションと公共NLPシステムの社会経済展望:批判的レビュー

Socio-economic landscape of digital transformation & public NLP systems: A critical review ( http://arxiv.org/abs/2304.01651v1 )

ライセンス: Link先を確認
Satyam Mohla, Anupam Guha(参考訳) デジタルトランスフォーメーションの現在の波はデジタル化の改革を加速させ、AIとNLPシステムの驚異的な発展をもたらし、そのうちのいくつかはパブリックドメインに入った。 これらのシステムは社会に自明な影響を与えないという認識もあるが、これらのシステムの種類や運用方法に関して、批判的なAIには多くの文献がある。 本稿では,「公」の影響を受けたり影響を受けたりしたNLPシステムの幅広い分類法を構築し,これらのシステムの社会技術的性質について,様々な機器および規範レンズを用いて具体的な分析を行う。 本論文は、これらのシステムの30の事例を、公共利用事例に基づいて、金融、顧客サービス、政策作成、教育、医療、法律、セキュリティの7つの家族に分類する。 次に、これらのアプリケーション、まずはそれらがベースとしている事前と仮定、次にそれらのメカニズム、データ収集の可能なメソッド、使用されるモデルとエラー関数などを分析します。 本稿は,これらのシステム群が一般的に用いられている社会経済的・政治的文脈と,そのシステムに対する潜在的影響,およびそれらのシステムの機能クリープについて検討する。 それらを使用するコミュニティに対する、これらのシステムの長期的な下流への影響について解説している。 私たちの奥行き分析は、現在のnlp、特に批判的なaiに関する談話に欠けているものについての洞察を提供するだけでなく、現在の分析フレームワークへの追加を提案し、将来の研究方向性を推奨し、この社会技術的システムにおいて社会を探求することの重要性を強調する。

The current wave of digital transformation has spurred digitisation reforms and has led to prodigious development of AI & NLP systems, with several of them entering the public domain. There is a perception that these systems have a non trivial impact on society but there is a dearth of literature in critical AI on what are the kinds of these systems and how do they operate. This paper constructs a broad taxonomy of NLP systems which impact or are impacted by the ``public'' and provides a concrete analyses via various instrumental and normative lenses on the socio-technical nature of these systems. This paper categorises thirty examples of these systems into seven families, namely; finance, customer service, policy making, education, healthcare, law, and security, based on their public use cases. It then critically analyses these applications, first the priors and assumptions they are based on, then their mechanisms, possible methods of data collection, the models and error functions used, etc. This paper further delves into exploring the socio-economic and political contexts in which these families of systems are generally used and their potential impact on the same, and the function creep of these systems. It provides commentary on the potential long-term downstream impact of these systems on communities which use them. Aside from providing a birds eye view of what exists our in depth analysis provides insights on what is lacking in the current discourse on NLP in particular and critical AI in general, proposes additions to the current framework of analysis, provides recommendations future research direction, and highlights the need to importance of exploring the social in this socio-technical system.
翻訳日:2023-04-05 14:26:24 公開日:2023-04-04
# XRがメンタルヘルスに与える影響:我々は火で遊ぶのか?

Impact of XR on Mental Health: Are we Playing with Fire? ( http://arxiv.org/abs/2304.01648v1 )

ライセンス: Link先を確認
Benjamin Kenwright(参考訳) 拡張現実(XR)技術は、精神疾患の治療とサポートに革命をもたらす素晴らしい可能性があり、この分野に全く新しい次元をもたらす。 没入型バーチャルおよび拡張現実体験を利用することで、個人は治療と自己探索のための安全で制御された空間を提供する全く新しい世界と現実に入ることができる。 穏やかな自然環境に足を踏み入れたり、社会的相互作用を実践したり、コントロールされた環境で過去のトラウマに直面するなど、拡張現実は無限の可能性を秘めています。 これらの仮想現実に関わり、個人は自分自身とその感情をより深く理解し、対処戦略を学び、エンゲージメントと効果的な方法で重要な生活スキルを実践することができる。 メンタルヘルスのための拡張現実の不思議は、本当に素晴らしいものであり、世界中の個人の幸福を改善する強力なツールを提供する。 しかし、私たちが覚えておくべきことは、すべてに欠点があり、XRは変わらないことです。 XRは革命的だが、人間の脳は非常に複雑で、壊れやすく、ユニークな(指紋のように2人が同じ脳解剖を持っていない)ため、様々な状況、結果、経験、結果をもたらす。 本稿では、没入型インタラクティブなデジタル体験が私たちの心と行動をどのように形作るかについての洞察と情報を提供する。 これまでの研究によると、XR体験は注意と視覚空間スキルの責任を負う脳の領域を変える可能性がある。

Extended reality (XR) technology has the incredible potential to revolutionize mental health treatment and support, bringing a whole new dimension to the field. Through the use of immersive virtual and augmented reality experiences, individuals can enter entirely new worlds and realities that provide a safe and controlled space for therapy and self-exploration. Whether it's stepping into a calming natural environment, practicing social interactions or confronting past traumas in a controlled environment, extended reality offers endless possibilities. Engaging these virtual realities, individuals can gain a deeper understanding of themselves and their emotions, learn coping strategies, and practice important life skills in a way that is both engaging and effective. The wonders of extended reality for mental health are truly awe-inspiring and offer a powerful tool for improving the well-being of individuals around the world. However, we should remember, everything has its disadvantages, and XR is no different. While XR is a revolution, the human brain is very complex, fragile and unique (like with fingerprints, no two people have the same brain anatomy), leading to varying conditions, results, experiences and consequences. This article presents insights and information on how immersive interactive digital experiences can shape our minds and behaviors. Research to date suggests that XR experiences can change regions of the brain responsible for attention and visuospatial skills.
翻訳日:2023-04-05 14:25:47 公開日:2023-04-04
# SC-ML:視覚障害者に対する自己指導型対数学習

SC-ML: Self-supervised Counterfactual Metric Learning for Debiased Visual Question Answering ( http://arxiv.org/abs/2304.01647v1 )

ライセンス: Link先を確認
Xinyao Shu and Shiyang Yan and Xu Yang and Ziheng Wu and Zhongfeng Chen and Zhenyu Lu(参考訳) 視覚的質問応答(VQA)は、エージェントが視覚的キューに従って質問に答えなければならない重要なマルチモーダルタスクである。 残念なことに、言語バイアスはVQAの一般的な問題であり、視覚的内容を無視しながら質問に関連付けることでのみ回答を生成するモデルを指して、バイアスのある結果をもたらす。 本稿では,自己教師付き対実測度学習(SC-ML)手法を用いて,画像特徴に着目した言語バイアス問題に取り組む。 SC-MLは、質問関連視覚特徴を適応的に選択し、質問関連視覚特徴の負の影響を低減できる。 さらに、質問に無関係な視覚機能は、ロバスト性をさらに高めるために、事実上のトレーニングスキームにシームレスに組み込むことができる。 VQA-CPデータセットを用いて,提案手法の有効性を検証した。 私たちのコードは公開されます。

Visual question answering (VQA) is a critical multimodal task in which an agent must answer questions according to the visual cue. Unfortunately, language bias is a common problem in VQA, which refers to the model generating answers only by associating with the questions while ignoring the visual content, resulting in biased results. We tackle the language bias problem by proposing a self-supervised counterfactual metric learning (SC-ML) method to focus the image features better. SC-ML can adaptively select the question-relevant visual features to answer the question, reducing the negative influence of question-irrelevant visual features on inferring answers. In addition, question-irrelevant visual features can be seamlessly incorporated into counterfactual training schemes to further boost robustness. Extensive experiments have proved the effectiveness of our method with improved results on the VQA-CP dataset. Our code will be made publicly available.
翻訳日:2023-04-05 14:25:24 公開日:2023-04-04
# インタラクティブな品質多様性によるデザイン空間の制御可能な探索

Controllable Exploration of a Design Space via Interactive Quality Diversity ( http://arxiv.org/abs/2304.01642v1 )

ライセンス: Link先を確認
Konstantinos Sfikas and Antonios Liapis and Georgios N. Yannakakis(参考訳) 本稿では,品質多様性(qd)探索に基づくユーザ駆動進化アルゴリズムを提案する。 デザインセッションの間、ユーザは提示された代替品の中から反復的に選択し、その選択が今後の結果に影響を与える。 インタラクティブ進化の2つの主要な懸念に対処することを目指している。 (a)認知負荷を軽減するために、ユーザはいくつかの代替案を提示しなければならない。 b) 提示された代替案は多様であるが, ユーザの疲労を軽減するため, 以前のユーザ選択と類似している。 これらの問題に対処するため,行動空間の小さな領域(ウィンドウ)から提案した代替品をサンプリングするMAP-Elitesアルゴリズムのバリエーションを実装した。 ユーザが選択した後、ウィンドウは選択した個人の行動特性に集中し、進化はこのウィンドウ内から親を選択して子孫を生成し、新しい選択肢をサンプリングする。 基本的に、ユーザの選択が行動空間の特定の領域への探索を案内する局所的なQDの適応システムを定義する。 このシステムは、制約付き最適化タスクであるアーキテクチャレイアウトの生成でテストされ、2階層的なアプローチでQDを活用する。 その結果,map-elitesほどグローバル探索は発音できないが,制御可能な人工ユーザを用いた実験により,ユーザの嗜好に対する適切な解決策が得られた。

This paper introduces a user-driven evolutionary algorithm based on Quality Diversity (QD) search. During a design session, the user iteratively selects among presented alternatives and their selections affect the upcoming results. We aim to address two major concerns of interactive evolution: (a) the user must be presented with few alternatives, to reduce cognitive load; (b) presented alternatives should be diverse but similar to the previous user selection, to reduce user fatigue. To address these concerns, we implement a variation of the MAP-Elites algorithm where the presented alternatives are sampled from a small region (window) of the behavioral space. After a user selection, the window is centered on the selected individual's behavior characterization, evolution selects parents from within this window to produce offspring, and new alternatives are sampled. Essentially we define an adaptive system of local QD, where the user's selections guide the search towards specific regions of the behavioral space. The system is tested on the generation of architectural layouts, a constrained optimization task, leveraging QD through a two-archive approach. Results show that while global exploration is not as pronounced as in MAP-Elites, the system finds more appropriate solutions to the user's taste, based on experiments with controllable artificial users.
翻訳日:2023-04-05 14:25:06 公開日:2023-04-04
# 逆非香水カルマンフィルタ

Inverse Unscented Kalman Filter ( http://arxiv.org/abs/2304.01698v1 )

ライセンス: Link先を確認
Himali Singh, Kumar Vijay Mishra, Arpan Chattopadhyay(参考訳) 認知および対敵システムの設計の急速な進歩は、逆ベイズフィルタの開発を動機づけた。 この設定では、認知的「敵」はカルマンフィルタ(KF)のような確率的枠組みを通じて関心の対象を追跡する。 ターゲットまたは ‘defender' は別の逆確率フィルタを用いて、敵が計算したディフェンダーの前方フィルタの推定値を推測する。 線形系の場合、逆カルマンフィルタ(I-KF)はこれらの反逆応用に有効であることが最近示されている。 本稿では,従来の研究とは対照的に,非線形系力学に着目し,線形化誤差を低減したディフェンダーの状態を推定する逆KF(I-UKF)を定式化する。 次に、このフレームワークを未知のシステムモデルに一般化し、カーネルヒルベルト空間に基づくukf (rkhs-ukf) を再現し、システムのダイナミクスを学習し、その観測に基づいて状態を推定する。 平均二乗感覚におけるI-UKFとRKHS-UKFの確率安定性を保証するための理論的解析により,前方フィルタが安定であれば,逆フィルタも穏やかなシステムレベル条件下で安定であることを示す。 複数の異なる応用に対する数値実験により,再帰的 cram\'{e}r-rao 下界をベンチマークとして,提案フィルタの状態推定性能を示す。

Rapid advances in designing cognitive and counter-adversarial systems have motivated the development of inverse Bayesian filters. In this setting, a cognitive `adversary' tracks its target of interest via a stochastic framework such as a Kalman filter (KF). The target or `defender' then employs another inverse stochastic filter to infer the forward filter estimates of the defender computed by the adversary. For linear systems, inverse Kalman filter (I-KF) has been recently shown to be effective in these counter-adversarial applications. In the paper, contrary to prior works, we focus on non-linear system dynamics and formulate the inverse unscented KF (I-UKF) to estimate the defender's state with reduced linearization errors. We then generalize this framework to an unknown system model by proposing reproducing kernel Hilbert space-based UKF (RKHS-UKF) to learn the system dynamics and estimate the state based on its observations. Our theoretical analyses to guarantee the stochastic stability of I-UKF and RKHS-UKF in the mean-squared sense shows that, provided the forward filters are stable, the inverse filters are also stable under mild system-level conditions. Our numerical experiments for several different applications demonstrate the state estimation performance of the proposed filters using recursive Cram\'{e}r-Rao lower bound as a benchmark.
翻訳日:2023-04-05 14:18:27 公開日:2023-04-04
# LUXE実験における荷電粒子軌道再構成のための量子アルゴリズム

Quantum algorithms for charged particle track reconstruction in the LUXE experiment ( http://arxiv.org/abs/2304.01690v1 )

ライセンス: Link先を確認
Arianna Crippa, Lena Funcke, Tobias Hartung, Beate Heinemann, Karl Jansen, Annabel Kropf, Stefan K\"uhn, Federico Meloni, David Spataro, Cenk T\"uys\"uz, Yee Chinn Yap(参考訳) luxe実験はハンブルクにおける新しい計画実験であり、強磁場フロンティアで量子電磁力学を研究する。 LUXEは、この前例のない状態における陽電子生成速度を、シリコン追跡検出器などを用いて測定する。 感度検出器層を横断する多くの期待されたポジトロンは、古典的なコンピュータに計算コストがかかるという非常に困難な組合せ問題をもたらす。 本稿では,軌道再構成におけるパターン認識におけるゲート型量子コンピュータの可能性について検討する。 量子デバイスの古典的シミュレーションにおいて,2次非拘束二乗最適化と量子グラフニューラルネットワークに基づくアプローチを,古典的トラック再構成アルゴリズムと比較した。 また、量子ハードウェアを用いて原理実証研究を行う。

The LUXE experiment is a new experiment in planning in Hamburg, which will study Quantum Electrodynamics at the strong-field frontier. LUXE intends to measure the positron production rate in this unprecedented regime by using, among others, a silicon tracking detector. The large number of expected positrons traversing the sensitive detector layers results in an extremely challenging combinatorial problem, which can become computationally expensive for classical computers. This paper investigates the potential future use of gate-based quantum computers for pattern recognition in track reconstruction. Approaches based on a quadratic unconstrained binary optimisation and a quantum graph neural network are investigated in classical simulations of quantum devices and compared with a classical track reconstruction algorithm. In addition, a proof-of-principle study is performed using quantum hardware.
翻訳日:2023-04-05 14:18:03 公開日:2023-04-04
# HyperCUT: 教師なし順序付けによる単一ブルーリ画像からの映像シーケンス

HyperCUT: Video Sequence from a Single Blurry Image using Unsupervised Ordering ( http://arxiv.org/abs/2304.01686v1 )

ライセンス: Link先を確認
Bang-Dang Pham, Phong Tran, Anh Tran, Cuong Pham, Rang Nguyen, Minh Hoai(参考訳) 本研究では,画像入力に対応するシャープな画像列を復元することを目的とした,映像から映像へのデブラリングのためのモデル学習の課題について検討する。 画像から映像へのモデルのトレーニングを妨害する重要な問題は、前後の両方のシーケンスが妥当な解であるため、フレーム順序の曖昧さである。 本稿では,高品質な画像と映像のデブロアリングモデルのトレーニングを可能にする,効果的なセルフ教師付き注文方式を提案する。 順序不変損失に依存する従来の方法とは異なり、各ビデオシーケンスに対して明示的な順序を割り当て、順序曖昧性の問題を回避する。 具体的には、各映像列を潜伏高次元空間内のベクトルに写像し、各映像列に対してそのベクトルとその逆列が超平面の異なる側面にあるような超平面が存在するようにする。 ベクトルの側面は対応する列の順序を定義するのに使用される。 最後に、顔、手、通りなど、さまざまな人気領域をカバーする画像とビデオの劣化問題に対するリアルタイムデータセットを提案する。 広範な実験結果から本手法の有効性を確認した。 コードとデータはhttps://github.com/vinairesearch/hypercut.gitで入手できる。

We consider the challenging task of training models for image-to-video deblurring, which aims to recover a sequence of sharp images corresponding to a given blurry image input. A critical issue disturbing the training of an image-to-video model is the ambiguity of the frame ordering since both the forward and backward sequences are plausible solutions. This paper proposes an effective self-supervised ordering scheme that allows training high-quality image-to-video deblurring models. Unlike previous methods that rely on order-invariant losses, we assign an explicit order for each video sequence, thus avoiding the order-ambiguity issue. Specifically, we map each video sequence to a vector in a latent high-dimensional space so that there exists a hyperplane such that for every video sequence, the vectors extracted from it and its reversed sequence are on different sides of the hyperplane. The side of the vectors will be used to define the order of the corresponding sequence. Last but not least, we propose a real-image dataset for the image-to-video deblurring problem that covers a variety of popular domains, including face, hand, and street. Extensive experimental results confirm the effectiveness of our method. Code and data are available at https://github.com/VinAIResearch/HyperCUT.git
翻訳日:2023-04-05 14:17:50 公開日:2023-04-04
# ニューラルネットワークを用いた散乱媒体による光吸収の高分解能トモグラフィー再構成

High-resolution tomographic reconstruction of optical absorbance through scattering media using neural fields ( http://arxiv.org/abs/2304.01682v1 )

ライセンス: Link先を確認
Wuwei Ren, Siyuan Shen, Linlin Li, Shengyu Gao, Yuehan Wang, Liangtao Gu, Shiying Li, Xingjun Zhu, Jiahua Jiang, Jingyi Yu(参考訳) 光散乱は、生体組織や霧のような濁った媒体に深く収まる物体を撮像するのに大きな障害となる。 拡散光トモグラフィ(dut)は、光吸収率を容積的に回収することで散乱に取り組み、医用イメージング、リモートセンシング、自律運転において重要である。 従来のDOT再構成パラダイムでは、拡散光伝搬をモデル化するための事前に決定された解像度で、オブジェクトの体積をボクセルに分解する必要がある。 ニューラルネットワーク(NF)をベースとした新しいDOT方式であるNeuDOTを提案し,音量内での光吸収を連続的に符号化し,モデル精度と高分解能のギャップを埋める。 総合的な実験により、NeuDOTはサブミリメートルの側方分解能を達成し、14mmの深さで複雑な3Dオブジェクトを分解し、最先端の手法よりも優れていることが示された。 NeuDOTは非侵襲的で高分解能で計算効率のよいトモグラフィー法であり、光散乱を含むNFのさらなる応用を解き放つ。

Light scattering imposes a major obstacle for imaging objects seated deeply in turbid media, such as biological tissues and foggy air. Diffuse optical tomography (DOT) tackles scattering by volumetrically recovering the optical absorbance and has shown significance in medical imaging, remote sensing and autonomous driving. A conventional DOT reconstruction paradigm necessitates discretizing the object volume into voxels at a pre-determined resolution for modelling diffuse light propagation and the resulting spatial resolution of the reconstruction is generally limited. We propose NeuDOT, a novel DOT scheme based on neural fields (NF) to continuously encode the optical absorbance within the volume and subsequently bridge the gap between model accuracy and high resolution. Comprehensive experiments demonstrate that NeuDOT achieves submillimetre lateral resolution and resolves complex 3D objects at 14 mm-depth, outperforming the state-of-the-art methods. NeuDOT is a non-invasive, high-resolution and computationally efficient tomographic method, and unlocks further applications of NF involving light scattering.
翻訳日:2023-04-05 14:17:30 公開日:2023-04-04
# BERTはRuCoLAを食べられるか? 解説へのトポロジカルデータ分析

Can BERT eat RuCoLA? Topological Data Analysis to Explain ( http://arxiv.org/abs/2304.01680v1 )

ライセンス: Link先を確認
Irina Proskurina, Irina Piontkovskaya, Ekaterina Artemova(参考訳) 本稿では,アクセプタビリティ分類のためのトランスフォーマー言語モデル (LM) について検討する。 我々は,NLPにおけるトポロジカルデータ解析(TDA)のベストプラクティスを用いて,注意行列から注目グラフを構築し,それらからトポロジ的特徴を導出し,それらを線形分類器に供給する。 2つの新しい特徴、和音とマッチング数を導入し、tdaベースの分類器が微調整ベースラインよりも優れていることを示す。 我々は、英語とロシア語の2つのデータセット、CoLAとRuCoLAで実験を行った。 さらに,微調整中のLMの注意モードの変化を検知し,予測信頼度を定義し,個々の頭部を微粒な文法現象と関連付けることを目的としたブラックボックス検査手法を提案する。 本研究は, 受容性分類タスクにおける単言語lmsの挙動の理解, 注意ヘッドの機能的役割に関する知見の提供, およびlms分析におけるtdaベースのアプローチの利点を浮き彫りにする。 コードと実験結果を公開して、さらなる取組みを進めます。

This paper investigates how Transformer language models (LMs) fine-tuned for acceptability classification capture linguistic features. Our approach uses the best practices of topological data analysis (TDA) in NLP: we construct directed attention graphs from attention matrices, derive topological features from them, and feed them to linear classifiers. We introduce two novel features, chordality, and the matching number, and show that TDA-based classifiers outperform fine-tuning baselines. We experiment with two datasets, CoLA and RuCoLA in English and Russian, typologically different languages. On top of that, we propose several black-box introspection techniques aimed at detecting changes in the attention mode of the LMs during fine-tuning, defining the LM's prediction confidences, and associating individual heads with fine-grained grammar phenomena. Our results contribute to understanding the behavior of monolingual LMs in the acceptability classification task, provide insights into the functional roles of attention heads, and highlight the advantages of TDA-based approaches for analyzing LMs. We release the code and the experimental results for further uptake.
翻訳日:2023-04-05 14:17:08 公開日:2023-04-04
# 内部オブザーバの物理化に向けて--外部オブザーバと内部オブザーバの役割を探る

Towards Physics of Internal Observers: Exploring the Roles of External and Internal Observers ( http://arxiv.org/abs/2304.01677v1 )

ライセンス: Link先を確認
Marcin Nowakowski(参考訳) 量子力学と相対性理論の両方において、オブザーバの概念は重要な役割を果たす。 しかし、これらの理論におけるオブザーバーの定義については合意がない。 アインシュタインの思考実験に続いて、「光子の中に座ったり、光子になったりするのはどう見えるか? そして、光子の内部のこのよりグローバルな視点を、どのような観測者が表現できるのか? これらの問題に対処するために、量子論と相対性理論におけるそれらの関係に注目して、内部および外部観察者の概念を紹介する。 内部オブザーバは、内部オブザーバブルスーパー代数と関連付けられ、外部相互作用を結合する。 抽象代数トポロジーの進歩から着想を得て,内部観測者の数学的表現を提案する。 また,情報理論の観点から観察者の一貫性を確保するための原則を概説する。 観測者の導入階層の分析により、絡み合いは時空因果関係の原始的であることが明らかになる。 外部観測者は、量子力学における符号なし原理と結びついた相対論的因果関係に従わなければならないが、内部観測者は本質的に非局所であり、因果関係かもしれない。 しかし、一貫性は自己整合原理の定式化によって維持される。 この論文の目標の1つは、観測可能な局所外部代数から内部観測者の表現を構築することである。 さらに, 量子情報理論, 代数的量子場理論, ループ量子重力の分野において, 内部及び外部観測者の概念がどのように適用できるかを示す。 内部観測者の概念は、量子重力のさらなる発展にも基礎があるようである。

In both quantum mechanics and relativity theory, the concept of the observer plays a critical role. However, there is no consensus on the definition of observer in these theories. Following Einstein's thought experiments, one could ask: What would it look like to sit inside a photon or to be a photon? And what type of observer could represent this more global perspective of the photon's interior? To address these questions, we introduce the concepts of internal and external observers with a focus on their relationship in quantum theory and relativity theory. The internal observer, associated with the internal observables super-algebra, glues the external interactions. Drawing inspiration from the advancements in abstract algebraic topology, we propose mathematical representation of the internal observer. We also outline principles for ensuring the consistency of observers in terms of information theory. It becomes evident, through the analysis of the introduced hierarchy of observers, that entanglement is a primitive of space-time causal relationships. While external observers must abide by the relativistic causality linked with the no-signaling principle in quantum mechanics, the internal observer is inherently non-local and may be acausal. However, its consistency is maintained through the formulation of the self-consistency principle. One of the goals of this paper is to construct the representation of the internal observer from the local external algebra of observables, which can be associated with external observers. Additionally, we demonstrate how the concepts of internal and external observers can be applied in the fields of quantum information theory, algebraic quantum field theory, and loop quantum gravity. The concept of internal observer seems to be also fundamental for further development of quantum gravity.
翻訳日:2023-04-05 14:16:48 公開日:2023-04-04
# motion-r3:representation-based representativeness rankingによる高速かつ正確なモーションアノテーション

Motion-R3: Fast and Accurate Motion Annotation via Representation-based Representativeness Ranking ( http://arxiv.org/abs/2304.01672v1 )

ライセンス: Link先を確認
Jubo Yu, Tianxiang Ren, Shihui Guo, Fengyi Fang, Kai Wang, Zijiao Zeng, Yazhan Zhang, Andreas Aristidou, Yipeng Qin(参考訳) 本稿では,データ中心の哲学に従い,与えられたデータセットにおける動きデータの固有表現性に基づく新しい動きアノテーション手法を提案する。 具体的には,学習した動き表現空間において,与えられたデータセット内のすべての動きデータをその代表性に応じてランク付けする表現ベース代表度ランキングr3法を提案する。 さらに,より有意義な方法で運動表現空間を学習するための,新しい2レベル運動連続学習法を提案する。 高効率のおかげで、この手法は要求の頻繁な変更に特に反応し、モーションアノテーションモデルのアジャイル開発を可能にします。 HDM05データセットの最先端手法に対する実験結果から,本手法の優位性が確認された。

In this paper, we follow a data-centric philosophy and propose a novel motion annotation method based on the inherent representativeness of motion data in a given dataset. Specifically, we propose a Representation-based Representativeness Ranking R3 method that ranks all motion data in a given dataset according to their representativeness in a learned motion representation space. We further propose a novel dual-level motion constrastive learning method to learn the motion representation space in a more informative way. Thanks to its high efficiency, our method is particularly responsive to frequent requirements change and enables agile development of motion annotation models. Experimental results on the HDM05 dataset against state-of-the-art methods demonstrate the superiority of our method.
翻訳日:2023-04-05 14:16:21 公開日:2023-04-04
# 分子雲の密度予測のための非定常拡散確率モデル

Denoising Diffusion Probabilistic Models to Predict the Density of Molecular Clouds ( http://arxiv.org/abs/2304.01670v1 )

ライセンス: Link先を確認
Duo Xu, Jonathan C. Tan, Chia-Jung Hsu, Ye Zhu(参考訳) 本稿では,予測質量表面密度マップから巨大分子雲(GMC)の体積または数密度を推定する手法として,DDPM(Denoising Diffusion Probabilistic Model)を提案する。 我々は,大域磁場強度の異なる磁気流体力学シミュレーションと大規模ダイナミクス,すなわち非衝突・衝突GMCを採用する。 質量表面密度マップとそれに対応する質量重み付き数密度マップの両方の拡散モデルを異なる角度から訓練し,シミュレーションを行った。 拡散モデルの性能を,従来の経験的2成分および3成分のパワーローフィッティング法と,従来型ニューラルネットワーク機械学習手法(casi-2d)と比較した。 その結果,拡散モデルは,他の手法と比較して,数密度予測の精度が桁違いに向上することがわかった。 本研究では,タウルスと赤外線暗黒雲(IRDC) G28.37+0.07 と G35.39-0.33 に拡散法を適用して平均体積密度の地図を作成する。

We introduce the state-of-the-art deep learning Denoising Diffusion Probabilistic Model (DDPM) as a method to infer the volume or number density of giant molecular clouds (GMCs) from projected mass surface density maps. We adopt magnetohydrodynamic simulations with different global magnetic field strengths and large-scale dynamics, i.e., noncolliding and colliding GMCs. We train a diffusion model on both mass surface density maps and their corresponding mass-weighted number density maps from different viewing angles for all the simulations. We compare the diffusion model performance with a more traditional empirical two-component and three-component power-law fitting method and with a more traditional neural network machine learning approach (CASI-2D). We conclude that the diffusion model achieves an order of magnitude improvement on the accuracy of predicting number density compared to that by other methods. We apply the diffusion method to some example astronomical column density maps of Taurus and the Infrared Dark Clouds (IRDCs) G28.37+0.07 and G35.39-0.33 to produce maps of their mean volume densities.
翻訳日:2023-04-05 14:16:10 公開日:2023-04-04
# 深層ニューラルネットワークに対するモデル反転攻撃の再考

Re-thinking Model Inversion Attacks Against Deep Neural Networks ( http://arxiv.org/abs/2304.01669v1 )

ライセンス: Link先を確認
Ngoc-Bao Nguyen, Keshigeyan Chandrasegaran, Milad Abdollahzadeh, Ngai-Man Cheung(参考訳) model inversion (mi)攻撃は、モデルへのアクセスを乱用してプライベートトレーニングデータを推論し、再構築することを目的としている。 MI攻撃は機密情報の漏洩(例えば顔認識システムの訓練に使用されるプライベート・フェイス・イメージ)を懸念している。 近年,miによる攻撃性能向上のためのアルゴリズムが提案されている。 本研究では、MIを再検討し、全てのSOTAMIアルゴリズムに関する2つの基本的な問題について検討し、これらの問題に対する解決策を提案し、SOTAMIの攻撃性能を大幅に向上させる。 特に、私たちの貢献は2倍です。 1) sota miアルゴリズムの最適化目標を分析し,miを達成するのに最適でないと主張するとともに,攻撃性能を著しく向上させる最適化目標を提案する。 2)「mi過剰フィッティング」を分析し,復元画像がトレーニングデータのセマンティクスを学習することを防止し,この問題を克服するための新しい「モデル拡張」アイデアを提案する。 提案手法は単純で,SOTA MI攻撃の精度を大幅に向上させる。 例えば、標準celebaベンチマークでは、我々のソリューションは精度を11.8%向上させ、90%以上の攻撃精度を初めて達成しました。 その結果,深層学習モデルからセンシティブな情報を漏洩するリスクが明らかとなった。 我々はプライバシーに関する重大な配慮を要請する。 私たちのコード、デモ、モデルはhttps://ngoc-nguyen-0.github.io/re-thinking_model_inversion_ attacks/で利用可能です。

Model inversion (MI) attacks aim to infer and reconstruct private training data by abusing access to a model. MI attacks have raised concerns about the leaking of sensitive information (e.g. private face images used in training a face recognition system). Recently, several algorithms for MI have been proposed to improve the attack performance. In this work, we revisit MI, study two fundamental issues pertaining to all state-of-the-art (SOTA) MI algorithms, and propose solutions to these issues which lead to a significant boost in attack performance for all SOTA MI. In particular, our contributions are two-fold: 1) We analyze the optimization objective of SOTA MI algorithms, argue that the objective is sub-optimal for achieving MI, and propose an improved optimization objective that boosts attack performance significantly. 2) We analyze "MI overfitting", show that it would prevent reconstructed images from learning semantics of training data, and propose a novel "model augmentation" idea to overcome this issue. Our proposed solutions are simple and improve all SOTA MI attack accuracy significantly. E.g., in the standard CelebA benchmark, our solutions improve accuracy by 11.8% and achieve for the first time over 90% attack accuracy. Our findings demonstrate that there is a clear risk of leaking sensitive information from deep learning models. We urge serious consideration to be given to the privacy implications. Our code, demo, and models are available at https://ngoc-nguyen-0.github.io/re-thinking_model_inversion_attacks/
翻訳日:2023-04-05 14:15:52 公開日:2023-04-04
# 文脈的セマンティックシフト検出に関する調査

A Survey on Contextualised Semantic Shift Detection ( http://arxiv.org/abs/2304.01666v1 )

ライセンス: Link先を確認
Stefano Montanelli and Francesco Periti(参考訳) セマンティックシフト検出(セマンティックシフト検出、Semantic Shift Detection、SSD)は、ターゲット語の意味における時間的変化を識別し、解釈し、評価するタスクである。 伝統的に、SSDは言語学者や社会科学者によってマニュアルや時間のかかる活動を通じて対処されてきた。 近年,自然言語処理と単語埋め込みに基づく計算手法が注目され,SSDを可能な限り自動化している。 特に、過去3年間で、単語の複数の使用/意味を処理し、関連するセマンティックシフトをより正確にキャプチャできる、単語コンテキスト化された埋め込みモデルに基づいて、大きな進歩がなされてきた。 本稿では,ssdの文脈的埋め込み(すなわちcss検出)に基づくアプローチを調査し,意味表現,時間認識,学習様相次元を特徴とする分類フレームワークを提案する。 フレームワークが活用されます 一 シフトアセスメントの措置を見直しること 二 性能のアプローチを比較すること、及び 三 スケーラビリティ、解釈可能性及び堅牢性の観点から、現在の問題について議論すること。 css検出に関するオープンチャレンジと今後の研究方向性が最終的に概説される。

Semantic Shift Detection (SSD) is the task of identifying, interpreting, and assessing the possible change over time in the meanings of a target word. Traditionally, SSD has been addressed by linguists and social scientists through manual and time-consuming activities. In the recent years, computational approaches based on Natural Language Processing and word embeddings gained increasing attention to automate SSD as much as possible. In particular, over the past three years, significant advancements have been made almost exclusively based on word contextualised embedding models, which can handle the multiple usages/meanings of the words and better capture the related semantic shifts. In this paper, we survey the approaches based on contextualised embeddings for SSD (i.e., CSSDetection) and we propose a classification framework characterised by meaning representation, time-awareness, and learning modality dimensions. The framework is exploited i) to review the measures for shift assessment, ii) to compare the approaches on performance, and iii) to discuss the current issues in terms of scalability, interpretability, and robustness. Open challenges and future research directions about CSSDetection are finally outlined.
翻訳日:2023-04-05 14:15:28 公開日:2023-04-04
# 教師のいないプライバシ保全連系蒸留における選択的知識共有

Selective Knowledge Sharing for Privacy-Preserving Federated Distillation without A Good Teacher ( http://arxiv.org/abs/2304.01731v1 )

ライセンス: Link先を確認
Jiawei Shao, Fangzhao Wu, Jun Zhang(参考訳) フェデレーション学習は、ローカルデータを公開せずに、プライバシー保護による協調学習を約束する一方で、ホワイトボックス攻撃に弱いままであり、異種クライアントへの適応に苦慮している。 fd(federated distillation)は、教師モデルから生徒モデルへ知識を移す効果的な技術であり、プライバシー保証を強化し、モデルの不均一性に対処するためのパラダイムである。 それでも、ローカルなデータ分布の変化と、よく訓練された教師モデルの欠如によって生じる課題は、モデル性能を著しく低下させる誤解を招きあい、曖昧な知識共有につながる。 この問題に対処するため,本稿では,fdのための選択的知識共有機構を提案する。 クライアント側セレクタとサーバ側セレクタを含み、それぞれローカルとアンサンブルの予測から知識を正確かつ正確に識別する。 理論的洞察に裏付けられた実証研究は、このアプローチがfdフレームワークの一般化能力を高め、ベースラインメソッドを一貫して上回っていることを証明している。 本研究では,プライバシー保護型協調学習における効果的な知識伝達の方向性を示す。

While federated learning is promising for privacy-preserving collaborative learning without revealing local data, it remains vulnerable to white-box attacks and struggles to adapt to heterogeneous clients. Federated distillation (FD), built upon knowledge distillation--an effective technique for transferring knowledge from a teacher model to student models--emerges as an alternative paradigm, which provides enhanced privacy guarantees and addresses model heterogeneity. Nevertheless, challenges arise due to variations in local data distributions and the absence of a well-trained teacher model, which leads to misleading and ambiguous knowledge sharing that significantly degrades model performance. To address these issues, this paper proposes a selective knowledge sharing mechanism for FD, termed Selective-FD. It includes client-side selectors and a server-side selector to accurately and precisely identify knowledge from local and ensemble predictions, respectively. Empirical studies, backed by theoretical insights, demonstrate that our approach enhances the generalization capabilities of the FD framework and consistently outperforms baseline methods. This study presents a promising direction for effective knowledge transfer in privacy-preserving collaborative learning.
翻訳日:2023-04-05 14:09:16 公開日:2023-04-04
# XAI法における依存的特徴の寄与を特徴づける

Characterizing the contribution of dependent features in XAI methods ( http://arxiv.org/abs/2304.01717v1 )

ライセンス: Link先を確認
Ahmed Salih, Ilaria Boscolo Galazzo, Zahra Raisi-Estabragh, Steffen E. Petersen, Gloria Menegaz, Petia Radeva(参考訳) 説明可能な人工知能(XAI)は、機械学習モデルがどのように機能し、特定の結果に達するかを理解するためのツールを提供する。 モデルの解釈性を高め、モデルの信頼性と透明性を高めるのに役立つ。 この文脈では、多くのXAI手法がSHAPとLIMEが最も人気である。 しかし、提案手法では、機械学習モデルで使用される予測器は独立であり、必ずしも真ではないと仮定する。 このような仮定は、情報的予測者のリストのようなXAI結果の堅牢性に影を落としている。 本稿では,任意のxai機能ランキング手法の結果を修正し,予測者間の依存性を考慮できる簡易かつ有用なプロキシを提案する。 提案手法は, モデル非依存であるだけでなく, モデル内の各予測器の影響をコリニア性の存在下で簡単に計算できるという利点がある。

Explainable Artificial Intelligence (XAI) provides tools to help understanding how the machine learning models work and reach a specific outcome. It helps to increase the interpretability of models and makes the models more trustworthy and transparent. In this context, many XAI methods were proposed being SHAP and LIME the most popular. However, the proposed methods assume that used predictors in the machine learning models are independent which in general is not necessarily true. Such assumption casts shadows on the robustness of the XAI outcomes such as the list of informative predictors. Here, we propose a simple, yet useful proxy that modifies the outcome of any XAI feature ranking method allowing to account for the dependency among the predictors. The proposed approach has the advantage of being model-agnostic as well as simple to calculate the impact of each predictor in the model in presence of collinearity.
翻訳日:2023-04-05 14:08:55 公開日:2023-04-04
# ダイナミックビュー合成のための動的単眼映像の分離

Decoupling Dynamic Monocular Videos for Dynamic View Synthesis ( http://arxiv.org/abs/2304.01716v1 )

ライセンス: Link先を確認
Meng You and Junhui Hou(参考訳) 動的単眼映像からのダイナミックビュー合成の課題、すなわち、移動カメラが捉えた動的シーンの単眼映像を与えられた自由視点のための新しいビューの合成は、主に限られた2dフレームを用いてシーンの動的オブジェクトを正確にモデル化することであり、それぞれ異なるタイムスタンプと視点を持つ。 既存の方法は、通常、ネットワークを監視するための追加の方法によって、前処理された2Dの光学的流れと深度マップを必要とするため、2D情報を3Dに持ち上げる際に、前処理された監督の正確さと曖昧さに悩まされる。 本稿では,この課題を教師なしの方法で解決する。 具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。 前者は移動物体の3次元幾何学的表面を時間とともに整合させ、後者は外見を異なる視点で整合させるように規則化させる。 このような細粒度な動きの定式化は,ネットワークの学習難易度を軽減できるため,既存の手法よりも高品質な新たなビューだけでなく,より正確なシーンフローや奥行きを生成できる。 私たちはそのコードを公開します。

The challenge of dynamic view synthesis from dynamic monocular videos, i.e., synthesizing novel views for free viewpoints given a monocular video of a dynamic scene captured by a moving camera, mainly lies in accurately modeling the dynamic objects of a scene using limited 2D frames, each with a varying timestamp and viewpoint. Existing methods usually require pre-processed 2D optical flow and depth maps by additional methods to supervise the network, making them suffer from the inaccuracy of the pre-processed supervision and the ambiguity when lifting the 2D information to 3D. In this paper, we tackle this challenge in an unsupervised fashion. Specifically, we decouple the motion of the dynamic objects into object motion and camera motion, respectively regularized by proposed unsupervised surface consistency and patch-based multi-view constraints. The former enforces the 3D geometric surfaces of moving objects to be consistent over time, while the latter regularizes their appearances to be consistent across different viewpoints. Such a fine-grained motion formulation can alleviate the learning difficulty for the network, thus enabling it to produce not only novel views with higher quality but also more accurate scene flows and depth than existing methods requiring extra supervision. We will make the code publicly available.
翻訳日:2023-04-05 14:08:42 公開日:2023-04-04
# Open-Vocabulary Video Instance Segmentationに向けて

Towards Open-Vocabulary Video Instance Segmentation ( http://arxiv.org/abs/2304.01715v1 )

ライセンス: Link先を確認
Haochen Wang, Shuai Wang, Cilin Yan, Xiaolong Jiang, XU Tang, Yao Hu, Weidi Xie, Efstratios Gavves(参考訳) ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトをクローズドなトレーニングカテゴリから分類し、分類することを目的としている。 この制限に対処するため、以下の3つの貢献をする。 まず,オープン・ボキャブラリ・ビデオ・インスタンス・セグメンテーション(Open-Vocabulary Video Instance Segmentation)の課題を紹介する。 次に,open-vocabulary visのベンチマークを行うために,1,212のカテゴリから十分な注釈付きオブジェクトを含む大語彙ビデオインスタンスセグメンテーションデータセット(lv-vis)を収集し,既存のデータセットのカテゴリサイズを1桁以上上回った。 第3に,高速なメモリ駆動型視覚言語変換器MindVLTを提案する。 LV-VISと既存の4つのVISデータセットに関する大規模な実験は、MindVLTの新たなカテゴリにおける強力なゼロショット一般化能力を示している。 将来の取り組みを促進するために、データセットとコードをリリースします。

Video Instance Segmentation(VIS) aims at segmenting and categorizing objects in videos from a closed set of training categories, lacking the generalization ability to handle novel categories in real-world videos. To address this limitation, we make the following three contributions. First, we introduce the novel task of Open-Vocabulary Video Instance Segmentation, which aims to simultaneously segment, track, and classify objects in videos from open-set categories, including novel categories unseen during training. Second, to benchmark Open-Vocabulary VIS, we collect a Large-Vocabulary Video Instance Segmentation dataset(LV-VIS), that contains well-annotated objects from 1,212 diverse categories, significantly surpassing the category size of existing datasets by more than one order of magnitude. Third, we propose an efficient Memory-Induced Vision-Language Transformer, MindVLT, to first achieve Open-Vocabulary VIS in an end-to-end manner with near real-time inference speed. Extensive experiments on LV-VIS and four existing VIS datasets demonstrate the strong zero-shot generalization ability of MindVLT on novel categories. We will release the dataset and code to facilitate future endeavors.
翻訳日:2023-04-05 14:08:20 公開日:2023-04-04
# TwitterにおけるRumour Detectionと分析

Rumour Detection and Analysis on Twitter ( http://arxiv.org/abs/2304.01712v1 )

ライセンス: Link先を確認
Yaohou Fan(参考訳) 近年、人々はニュースを読んだり情報を得たりするためにソーシャルメディアに依存するようになり、一部のソーシャルメディアユーザーは不当な情報を投稿して注目を集めている。 そのような情報は噂として知られる。 現在、ニューコロナウイルスのパンデミックにより、多くの噂が広まっているため、検出が注目されている。 本稿では,自然言語処理システム (NLP) を用いて, 噂の予測を行う。 最高のモデルは、探索的なデータ分析を行うために、COVID-19のツイートに適用されます。 本研究の貢献は,(1)最先端自然言語処理モデルを用いた噂と事実を,言語構造と伝播経路の2次元で比較することである。 2) 語彙的使用とそれらが示唆する感情の観点から, 事実とどのように異なるのかを考察した。 本研究は, 言語構造が, 噂と事実を区別する上で, 伝播経路よりも優れた特徴であることを示す。 さらに、噂のツイートには政治やネガティブな感情に関連する語彙が多く含まれている。

In recent years people have become increasingly reliant on social media to read news and get information, and some social media users post unsubstantiated information to gain attention. Such information is known as rumours. Nowadays, rumour detection is receiving a growing amount of attention because of the pandemic of the New Coronavirus, which has led to a large number of rumours being spread. In this paper, a Natural Language Processing (NLP) system is built to predict rumours. The best model is applied to the COVID-19 tweets to conduct exploratory data analysis. The contribution of this study is twofold: (1) to compare rumours and facts using state-of-the-art natural language processing models in two dimensions: language structure and propagation route. (2) An analysis of how rumours differ from facts in terms of their lexical use and the emotions they imply. This study shows that linguistic structure is a better feature to distinguish rumours from facts compared to the propagation path. In addition, rumour tweets contain more vocabulary related to politics and negative emotions.
翻訳日:2023-04-05 14:07:55 公開日:2023-04-04
# クイック・アンド・ダーティ」学習分析インジケータデザインのためのフレキシブルユーザインタフェースを目指して

Towards a Flexible User Interface for 'Quick and Dirty' Learning Analytics Indicator Design ( http://arxiv.org/abs/2304.01711v1 )

ライセンス: Link先を確認
Shoeb Joarder and Mohamed Amine Chatti and Seyedemarzie Mirhashemi and Qurat Ul Ain(参考訳) 人中心学習分析(HCLA)の研究は、異なる利害関係者によるLAツールの共同設計プロセスの成功例を提供している。 しかし、LA指標の低コストな設計を可能にする「クイック・アンド・ダーティ」手法が必要である。 近年,様々な学習分析利害関係者がインジケータを体系的に設計するための指標仕様カード(isc)が提案されている。 本稿では,ICCに基づくインジケータ設計プロセスのユーザエクスペリエンス,柔軟性,信頼性の向上を目的とした。 そこで本研究では,LAインジケータの低コスト設計を可能にする,直感的で理論的に健全なICCユーザインタフェースの開発について述べる。 さらに,課題駆動型アプローチとデータ駆動型アプローチという,指標の柔軟な設計を支援する2つの手法を提案する。

Research on Human-Centered Learning Analytics (HCLA) has provided demonstrations of a successful co-design process for LA tools with different stakeholders. However, there is a need for 'quick and dirty' methods to allow the low-cost design of LA indicators. Recently, Indicator Specification Cards (ISC) have been proposed to help different learning analytics stakeholders co-design indicators in a systematic manner. In this paper, we aim at improving the user experience, flexibility, and reliability of the ISC-based indicator design process. To this end, we present the development details of an intuitive and theoretically-sound ISC user interface that allows the low-cost design of LA indicators. Further, we propose two approaches to support the flexible design of indicators, namely a task-driven approach and a data-driven approach.
翻訳日:2023-04-05 14:07:42 公開日:2023-04-04
# 高次元線形ガウスの学習と集中:不変部分空間によるアプローチ

Learning and Concentration for High Dimensional Linear Gaussians: an Invariant Subspace Approach ( http://arxiv.org/abs/2304.01708v1 )

ライセンス: Link先を確認
Muhammad Abdullah Naeem(参考訳) 本研究では,安定線形系の2つの時間実現と等方性ガウス雑音との相関に関する非漸近境界について検討する。 その結果, 準軌道からのサンプリングと<emph{talagrands'}不等式を用いて, 定常状態(閉ループ系が線形フィードバックポリシーの下で安定しているときと力学系が混合する) を中心として, 経験平均の報酬が高確率で集中することを示した。 As opposed to common belief of larger the spectral radius stronger the correlation between samples, \emph{large discrepancy between algebraic and geometric multiplicity of system eigenvalues leads to large invariant subspaces related to system-transition matrix}; once the system enters the large invariant subspace it will travel away from origin for a while before coming close to a unit ball centered at origin where an isotropic Gaussian noise can with high probability allow it to escape the current invariant subspace it resides in, leading to \emph{bottlenecks} between different invariant subspaces that span $\mathbb{R}^{n}$, to be precise : system initiated in a large invariant subspace will be stuck there for a long-time: log-linear in dimension of the invariant subspace and inversely to log of inverse of magnitude of the eigenvalue. 単一軌跡によるシステム遷移行列の通常の最小二乗推定の問題において、大きな不変部分空間に関連する遷移行列のスペクトルが爆発的であり、小さな不変部分空間が安定した固有値に対応する場合、この現象はさらに明らかである。 本解析は,連続高次元状態空間におけるランダム力学系の学習と集中の複雑さについて,最初に解釈可能かつ幾何学的な説明を与える。

In this work, we study non-asymptotic bounds on correlation between two time realizations of stable linear systems with isotropic Gaussian noise. Consequently, via sampling from a sub-trajectory and using \emph{Talagrands'} inequality, we show that empirical averages of reward concentrate around steady state (dynamical system mixes to when closed loop system is stable under linear feedback policy ) reward , with high-probability. As opposed to common belief of larger the spectral radius stronger the correlation between samples, \emph{large discrepancy between algebraic and geometric multiplicity of system eigenvalues leads to large invariant subspaces related to system-transition matrix}; once the system enters the large invariant subspace it will travel away from origin for a while before coming close to a unit ball centered at origin where an isotropic Gaussian noise can with high probability allow it to escape the current invariant subspace it resides in, leading to \emph{bottlenecks} between different invariant subspaces that span $\mathbb{R}^{n}$, to be precise : system initiated in a large invariant subspace will be stuck there for a long-time: log-linear in dimension of the invariant subspace and inversely to log of inverse of magnitude of the eigenvalue. In the problem of Ordinary Least Squares estimate of system transition matrix via a single trajectory, this phenomenon is even more evident if spectrum of transition matrix associated to large invariant subspace is explosive and small invariant subspaces correspond to stable eigenvalues. Our analysis provide first interpretable and geometric explanation into intricacies of learning and concentration for random dynamical systems on continuous, high dimensional state space; exposing us to surprises in high dimensions
翻訳日:2023-04-05 14:07:27 公開日:2023-04-04
# ジェネレイティブブレンドによる交叉モーダル腫瘍の分節化と自己訓練

Cross-modal tumor segmentation using generative blending augmentation and self training ( http://arxiv.org/abs/2304.01705v1 )

ライセンス: Link先を確認
Guillaume Sall\'e, Pierre-Henri Conze, Julien Bert, Nicolas Boussion, Dimitris Visvikis, Vincent Jaouen(参考訳) 医療画像のためのディープラーニングは、データの不足とドメインシフトによって制限されるため、デプロイ条件を正確に表現しない偏りのあるトレーニングセットに繋がる。 MICCAI CrossMoDA 2022 Challenge on vestibular schwannoma (VS) segmentationのコンテキストである、他のモダライトからのラベル付き画像を用いて、未ラベル領域を分割することが目的である。 本稿では,従来の画像から画像への翻訳とセグメント化を反復的自己学習とgba(generative blending augmentation)と呼ばれる専用データ拡張技術を組み合わせたvsセグメント化手法を提案する。 GBAは1ショットの2D SinGAN生成モデルに基づいており、下流のセグメンテーションモデルにおいてターゲット腫瘍の外観を現実的に多様化させ、テスト時の一般化能力を向上させる。 私たちのソリューションは、CrossModa 2022チャレンジの検証とテストフェーズにおいて、VSセグメンテーションタスクで第1位でした。

Deep learning for medical imaging is limited by data scarcity and domain shift, which lead to biased training sets that do not accurately represent deployment conditions. A related practical problem is cross-modal segmentation where the objective is to segment unlabelled domains using previously labelled images from other modalites, which is the context of the MICCAI CrossMoDA 2022 challenge on vestibular schwannoma (VS) segmentation. In this context, we propose a VS segmentation method that leverages conventional image-to-image translation and segmentation using iterative self training combined to a dedicated data augmentation technique called Generative Blending Augmentation (GBA). GBA is based on a one-shot 2D SinGAN generative model that allows to realistically diversify target tumor appearances in a downstream segmentation model, improving its generalization power at test time. Our solution ranked first on the VS segmentation task during the validation and test phase of the CrossModa 2022 challenge.
翻訳日:2023-04-05 14:07:06 公開日:2023-04-04
# 量子基底状態シフトの効率的な並列化

Efficient parallelization of quantum basis state shift ( http://arxiv.org/abs/2304.01704v1 )

ライセンス: Link先を確認
Ljubomir Budinski, Ossi Niemim\"aki, Roberto Zamora-Zamora, Valtteri Lahtinen(参考訳) 基底状態シフトは多くの量子アルゴリズム、特に量子ウォークの中心である。 効率的な実装は、計算アプリケーションのための量子スピードアップを達成する上で重要である。 異なる方向のシフトを並列に組み込むことにより、状態シフトアルゴリズムを最適化する。 これにより、現在知られている方法と比較して量子回路の深さが大幅に減少し、ゲート数対状態の対数スケーリングがもたらされる。 我々は1次元と周期的なシフトに焦点をあてるが、より複雑なケースに拡張できる点に注意する。

Basis state shift is central to many quantum algorithms, most notably the quantum walk. Efficient implementations are of major importance for achieving the quantum speedup for computational applications. We optimize the state shift algorithm by incorporating the shift in different directions in parallel. This provides a significant reduction in the depth of the quantum circuit in comparison to the currently known methods, giving a logarithmic scaling in the number of gates versus states. We focus on the one-dimensional and periodic shift, but note that the method can be extended to more complex cases.
翻訳日:2023-04-05 14:06:45 公開日:2023-04-04
# 矯正学習のための最適輸送

Optimal Transport for Correctional Learning ( http://arxiv.org/abs/2304.01701v1 )

ライセンス: Link先を確認
Rebecka Winqvist, In\^es Lourenco, Francesco Quinzan, Cristian R. Rojas, Bo Wahlberg(参考訳) 本論文の貢献は, 最適輸送を用いた補正学習の一般化であり, 一つの質量分布を他へ最適に輸送する方法である。 補正学習は教師・学生のアプローチによってパラメータ推定プロセスの精度を高めるために開発されたフレームワークである。 このフレームワークでは、教師と呼ばれる専門家エージェントが、学生として知られる学習エージェントが使用するデータを変更して、その推定プロセスを改善する。 教師の目標は、一定の介入予算に基づいて、生徒の推定誤差が最小となるようにデータを変更することである。 補正学習の既存の定式化と比較して,我々の新しい最適輸送アプローチにはいくつかの利点がある。 より複雑な特徴を推定できるだけでなく、教師のための複数の介入方針も考慮できる。 本稿では,2つの理論的事例と,逆強化学習環境におけるロボットの性能向上に教師の役割が果たす人間-ロボットインタラクションアプリケーションについて評価する。

The contribution of this paper is a generalized formulation of correctional learning using optimal transport, which is about how to optimally transport one mass distribution to another. Correctional learning is a framework developed to enhance the accuracy of parameter estimation processes by means of a teacher-student approach. In this framework, an expert agent, referred to as the teacher, modifies the data used by a learning agent, known as the student, to improve its estimation process. The objective of the teacher is to alter the data such that the student's estimation error is minimized, subject to a fixed intervention budget. Compared to existing formulations of correctional learning, our novel optimal transport approach provides several benefits. It allows for the estimation of more complex characteristics as well as the consideration of multiple intervention policies for the teacher. We evaluate our approach on two theoretical examples, and on a human-robot interaction application in which the teacher's role is to improve the robots performance in an inverse reinforcement learning setting.
翻訳日:2023-04-05 14:06:38 公開日:2023-04-04
# 非ラベルデータをベイズニューラルネットワークに組み込む

Incorporating Unlabelled Data into Bayesian Neural Networks ( http://arxiv.org/abs/2304.01762v1 )

ライセンス: Link先を確認
Mrinank Sharma, Tom Rainforth, Yee Whye Teh, Vincent Fortuin(参考訳) 非ラベルデータを用いてベイズニューラルネットワーク(bnns)の事前分布をより良く学習するための対比フレームワークを開発した。 本稿では,自己教師付き学習のラベル効率とベイズ手法の原理的不確実性評価を提供する実用的BNNアルゴリズムを提案する。 最後に, 半教師付き・低予算の能動学習問題におけるデータ効率学習の利点を示す。

We develop a contrastive framework for learning better prior distributions for Bayesian Neural Networks (BNNs) using unlabelled data. With this framework, we propose a practical BNN algorithm that offers the label-efficiency of self-supervised learning and the principled uncertainty estimates of Bayesian methods. Finally, we demonstrate the advantages of our approach for data-efficient learning in semi-supervised and low-budget active learning problems.
翻訳日:2023-04-05 13:59:44 公開日:2023-04-04
# 量子速度限界における平面量子コンピューティングプラットフォームの比較

Comparing planar quantum computing platforms at the quantum speed limit ( http://arxiv.org/abs/2304.01756v1 )

ライセンス: Link先を確認
Daniel Basilewitsch, Clemens Dlaska, Wolfgang Lechner(参考訳) 量子回路の実験的実現可能性に強く影響する重要な側面は、ゲート時間と典型的なエラータイムスケールの比率である。 誤差時間スケールを大幅に超える回路深度を持つアルゴリズムは、欠陥量子状態となり、誤り訂正は避けられない。 我々は、中性原子と超伝導量子ビットにおける現実的な2ビットおよび多ビットゲート実装のための理論最小ゲート時間、すなわち量子速度制限(QSL)の比較を示す。 最適制御理論により個々のゲートに対するqslを求めることに続いて、量子フーリエ変換の回路qslと量子近似最適化アルゴリズムを量子化する。 特に,これらの量子アルゴリズムを,標準ゲートモデルとパリティマッピングの両方において回路実行時間およびゲート数の観点から解析する。 中性原子と超伝導量子ビットプラットフォームは、システムサイズに関して同等の重み付け回路qslを示す。

An important aspect that strongly impacts the experimental feasibility of quantum circuits is the ratio of gate times and typical error time scales. Algorithms with circuit depths that significantly exceed the error time scales will result in faulty quantum states and error correction is inevitable. We present a comparison of the theoretical minimal gate time, i.e., the quantum speed limit (QSL), for realistic two- and multi-qubit gate implementations in neutral atoms and superconducting qubits. Subsequent to finding the QSLs for individual gates by means of optimal control theory we use them to quantify the circuit QSL of the quantum Fourier transform and the quantum approximate optimization algorithm. In particular, we analyze these quantum algorithms in terms of circuit run times and gate counts both in the standard gate model and the parity mapping. We find that neutral atom and superconducting qubit platforms show comparable weighted circuit QSLs with respect to the system size.
翻訳日:2023-04-05 13:59:35 公開日:2023-04-04
# 視覚言語モデルのためのブラックボックスの少数ショット適応

Black Box Few-Shot Adaptation for Vision-Language models ( http://arxiv.org/abs/2304.01752v1 )

ライセンス: Link先を確認
Yassine Ouali, Adrian Bulat, Brais Martinez, Georgios Tzimiropoulos(参考訳) ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。 ソフト・プロンプト・ラーニング(Soft prompt learning)は、新しいドメインによって誘導される分布シフトによって生じるモダリティギャップを埋めることを目的とした、数発の下流適応の選択方法である。 パラメータ効率は高いが、プロンプト学習ではモデル重みへのアクセスが必要であり、数十億のパラメータを持つ大規模モデルでは計算上不可能である。 これらの欠点に対処するため、本研究では、V-L小ショット適応のためのブラックボックス法について述べる。 (a)事前計算された画像とテキストの特徴で動作し、従ってモデルの重みにアクセスせずに機能する。 (b)訓練時の方が桁違いに速い。 (c)監督訓練と教師なし研修の両方が実施可能であり、 (d) ユニモーダルモデルから計算された画像やテキストの特徴を調整するためにも使用できる。 そこで本研究では,対象領域におけるV-L再構成のための単純な線形アプローチであるLFAを提案する。 lfaは閉形式解から最小二乗問題に初期化され、再ランクの損失を最小限にすることで反復的に更新される。 その単純さにもかかわらず、我々のアプローチは、11の画像と2つのビデオデータセットに関する広範な実験で示されているように、ソフト・プロンプト学習手法を超えることができる。

Vision-Language (V-L) models trained with contrastive learning to align the visual and language modalities have been shown to be strong few-shot learners. Soft prompt learning is the method of choice for few-shot downstream adaption aiming to bridge the modality gap caused by the distribution shift induced by the new domain. While parameter-efficient, prompt learning still requires access to the model weights and can be computationally infeasible for large models with billions of parameters. To address these shortcomings, in this work, we describe a black-box method for V-L few-shot adaptation that (a) operates on pre-computed image and text features and hence works without access to the model's weights, (b) it is orders of magnitude faster at training time, (c) it is amenable to both supervised and unsupervised training, and (d) it can be even used to align image and text features computed from uni-modal models. To achieve this, we propose Linear Feature Alignment (LFA), a simple linear approach for V-L re-alignment in the target domain. LFA is initialized from a closed-form solution to a least-squares problem and then it is iteratively updated by minimizing a re-ranking loss. Despite its simplicity, our approach can even surpass soft-prompt learning methods as shown by extensive experiments on 11 image and 2 video datasets.
翻訳日:2023-04-05 13:59:21 公開日:2023-04-04
# ノイズ量子コンピュータのテンソルネットワークシミュレーション

Tensor-Network Simulations of Noisy Quantum Computers ( http://arxiv.org/abs/2304.01751v1 )

ライセンス: Link先を確認
Marcel Niedermeier, Jose L. Lado and Christian Flindt(参考訳) 量子コンピュータは急速に発展する技術であり、様々な計算タスクで古典的コンピュータを上回らせるという究極の目標を掲げている。 数種類の量子コンピュータがすでに100量子ビット以上で動作している。 しかし、それらの性能は環境との相互作用によって妨げられ、脆弱な量子情報が破壊され、古典的なデバイスに対する大幅なスピードアップを防ぐ。 これらの理由から、ノイズの多い量子プロセッサ上での量子アルゴリズムの実行を探究し、近い将来の量子計算を実現する限界と展望をより深く理解することが現在重要である。 この目的のために, 行列積状態をテンソルネットワークの特殊クラスとして, 雑音量子コンピュータ上での3つの量子アルゴリズムの実行をシミュレートする。 行列積状態は、説明できる絡み合いの量を制限する最大結合次元によって特徴づけられ、量子コンピュータにおける絡み合いの一般的な損失を模倣することができる。 我々は、量子フーリエ変換、グローバーのアルゴリズム、量子カウントアルゴリズムの忠実度を結合次元の関数として解析し、これらのアルゴリズムの実行中に生成される絡み合いをマッピングする。 これら3つのアルゴリズムは, 絡み合いが適度に失われても高い忠実度で実行可能である。 また,各アルゴリズムに固有な量子ビット数に対する忠実度依存性も明らかにした。 提案手法は,雑音の多い量子コンピュータをシミュレーションする一般的な手法であり,幅広いアルゴリズムに適用できる。

Quantum computers are a rapidly developing technology with the ultimate goal of outperforming their classical counterparts in a wide range of computational tasks. Several types of quantum computers already operate with more than a hundred qubits. However, their performance is hampered by interactions with their environments, which destroy the fragile quantum information and thereby prevent a significant speed-up over classical devices. For these reasons, it is now important to explore the execution of quantum algorithms on noisy quantum processors to better understand the limitations and prospects of realizing near-term quantum computations. To this end, we here simulate the execution of three quantum algorithms on noisy quantum computers using matrix product states as a special class of tensor networks. Matrix product states are characterized by their maximum bond dimension, which limits the amount of entanglement they can describe, and which thereby can mimic the generic loss of entanglement in a quantum computer. We analyze the fidelity of the quantum Fourier transform, Grover's algorithm, and the quantum counting algorithm as a function of the bond dimension, and we map out the entanglement that is generated during the execution of these algorithms. For all three algorithms, we find that they can be executed with high fidelity even at a moderate loss of entanglement. We also identify the dependence of the fidelity on the number of qubits, which is specific to each algorithm. Our approach provides a general method for simulating noisy quantum computers, and it can be applied to a wide range of algorithms.
翻訳日:2023-04-05 13:58:54 公開日:2023-04-04
# 2レベル開量子系における完全正性、正性、長期漸近挙動

Complete positivity, positivity and long-time asymptotic behavior in a two-level open quantum system ( http://arxiv.org/abs/2304.01748v1 )

ライセンス: Link先を確認
G. Th\'eret and D. Sugny(参考訳) 時間局所量子マスター方程式により動的に制御される2レベル開量子系において、完全正の正、正、非マルコフ性の概念を研究する。 動的マップの完全正の正と正の正の値を確保するために,時間依存緩和率に関する必要十分条件を確立する。 オープンシステムの非マルコフ的行動とそれらの関係について論じる。 また,動力学の長期漸近的挙動を速度関数として解析した。 システムの平衡状態にどの条件がかかるかを示す。 この一般的な研究を例に挙げる。

We study the concepts of complete positivity, positivity and non-Markovianity in a two-level open quantum system whose dynamics are governed by a time-local quantum master equation. We establish necessary and sufficient conditions on the time-dependent relaxation rates to ensure complete positivity and positivity of the dynamical map. We discuss their relations with the non-Markovian behavior of the open system. We also analyze the long-time asymptotic behavior of the dynamics as a function of the rates. We show under which conditions on the rates the system tends to the equilibrium state. Different examples illustrate this general study.
翻訳日:2023-04-05 13:58:32 公開日:2023-04-04
# クラッタロバストSAR目標認識のためのコントラスト特徴アライメントによる学習不変表現

Learning Invariant Representation via Contrastive Feature Alignment for Clutter Robust SAR Target Recognition ( http://arxiv.org/abs/2304.01747v1 )

ライセンス: Link先を確認
Bowen Peng, Jianyue Xie, Bo Peng, Li Liu(参考訳) ディープニューラルネットワーク(DNN)は、合成開口レーダー自動目標認識(SAR ATR)を専門知識に基づく特徴設計から解放し、従来のソリューションよりも優れていることを示した。 背景相関の強い形状における地上車両ベンチマークの特異な欠如が示されており、DNNは乱雑な環境に過度に適合し、不慣れな環境に非破壊的である。 しかし、固定バックグラウンドモデルトレーニングと様々なバックグラウンドアプリケーションとのギャップは、まだ未定である。 コントラスト学習にインスパイアされたこの手紙は、頑健な認識のための不変表現を学習することを目的としたContrastive Feature Alignment (CFA)と呼ばれるソリューションを提案する。 提案手法は,可変表現学習においてチャネル重み付き平均二乗誤差(cwmse)損失を持つ新しい推論枝と混合クラッタ変分生成戦略に寄与する。 特に、生成戦略は、特徴空間における乱れに敏感な偏差を引き付けるように微妙に設計されている。 CWMSEの損失は、この偏差をよく対比し、元の画像と対応するクラッタの変種によって活性化される深い特徴を整列するようにさらに考案されている。 提案したCFAは、分類とCWMSE損失を併用してモデルをトレーニングし、不変対象表現の漸進的学習を可能にする。 MSTARデータセットと6つのDNNモデルに対する大規模な評価により,提案手法の有効性が証明された。 その結果、CFA学習モデルでは、データセットに含まれない未知の環境のターゲットを認識でき、信号対クラッタ比の変動に頑健であることがわかった。

The deep neural networks (DNNs) have freed the synthetic aperture radar automatic target recognition (SAR ATR) from expertise-based feature designing and demonstrated superiority over conventional solutions. There has been shown the unique deficiency of ground vehicle benchmarks in shapes of strong background correlation results in DNNs overfitting the clutter and being non-robust to unfamiliar surroundings. However, the gap between fixed background model training and varying background application remains underexplored. Inspired by contrastive learning, this letter proposes a solution called Contrastive Feature Alignment (CFA) aiming to learn invariant representation for robust recognition. The proposed method contributes a mixed clutter variants generation strategy and a new inference branch equipped with channel-weighted mean square error (CWMSE) loss for invariant representation learning. In specific, the generation strategy is delicately designed to better attract clutter-sensitive deviation in feature space. The CWMSE loss is further devised to better contrast this deviation and align the deep features activated by the original images and corresponding clutter variants. The proposed CFA combines both classification and CWMSE losses to train the model jointly, which allows for the progressive learning of invariant target representation. Extensive evaluations on the MSTAR dataset and six DNN models prove the effectiveness of our proposal. The results demonstrated that the CFA-trained models are capable of recognizing targets among unfamiliar surroundings that are not included in the dataset, and are robust to varying signal-to-clutter ratios.
翻訳日:2023-04-05 13:58:22 公開日:2023-04-04
# chatgptは高度に流れる文法的誤り訂正システムか? 総合評価

Is ChatGPT a Highly Fluent Grammatical Error Correction System? A Comprehensive Evaluation ( http://arxiv.org/abs/2304.01746v1 )

ライセンス: Link先を確認
Tao Fang, Shu Yang, Kaixin Lan, Derek F. Wong, Jinpeng Hu, Lidia S. Chao, Yue Zhang(参考訳) 高度なGPT-3.5アーキテクチャに基づく大規模言語モデルChatGPTは、様々な自然言語処理(NLP)タスクにおいて顕著な可能性を示している。 しかし、現在、文法的誤り訂正(GEC)の分野での可能性を探る総合的な研究が数多く行われている。 GECにおけるその能力を示すために、ChatGPTのコンテキスト内学習を用いてゼロショットチェーン・オブ・シント(CoT)と少数ショットCoT設定を設計する。 本評価では,ChatGPTを3つの言語で5つの公式テストセット,および英語で3つの文書レベルGCCテストセットで評価する。 実験結果と人間による評価の結果から,chatgptは誤り検出能力に優れ,誤りを自由に修正でき,修正文が極めて流動的になることがわかった。 さらに、非英語および低リソース設定のパフォーマンスは、多言語GECタスクの可能性を強調している。 しかし、文書レベルでの様々な種類のエラーのさらなる分析により、ChatGPTは、合意、コア参照、文間の緊張エラー、および相互文境界誤差を効果的に補正できないことが示されている。

ChatGPT, a large-scale language model based on the advanced GPT-3.5 architecture, has shown remarkable potential in various Natural Language Processing (NLP) tasks. However, there is currently a dearth of comprehensive study exploring its potential in the area of Grammatical Error Correction (GEC). To showcase its capabilities in GEC, we design zero-shot chain-of-thought (CoT) and few-shot CoT settings using in-context learning for ChatGPT. Our evaluation involves assessing ChatGPT's performance on five official test sets in three different languages, along with three document-level GEC test sets in English. Our experimental results and human evaluations demonstrate that ChatGPT has excellent error detection capabilities and can freely correct errors to make the corrected sentences very fluent, possibly due to its over-correction tendencies and not adhering to the principle of minimal edits. Additionally, its performance in non-English and low-resource settings highlights its potential in multilingual GEC tasks. However, further analysis of various types of errors at the document-level has shown that ChatGPT cannot effectively correct agreement, coreference, tense errors across sentences, and cross-sentence boundary errors.
翻訳日:2023-04-05 13:57:53 公開日:2023-04-04
# 対温度の対貯水池を用いた光子数スクイーズ状態の光学的調製

Optomechanical preparation of photon number-squeezed states with a pair reservoirs of opposite temperature ( http://arxiv.org/abs/2304.01745v1 )

ライセンス: Link先を確認
Baiqiang Zhu, Keye Zhang and Weiping Zhang(参考訳) 光子数列状態は、基本的な量子研究や量子力学の幅広い応用において重要な価値を持つ。 その準備機構のほとんどは、量子力学の精密な制御を必要とし、散逸に対する耐性が低い。 このような抑制のないメカニズムを提示する。 一般的な場合と異なり、正温度貯水池と負温度貯水池によって誘導される散散散の自己バランスを利用して、急激な光子数統計分布を持つ定常状態を生成する。 また,空洞オプトメカニカルシステムを用いた機構の実装方法について述べる。 種々の典型的な光学系の現実的パラメータを用いて, 合成光子数圧縮状態の品質を推定した。

Photon number-squeezed states have significant value in fundamental quantum research and also wide applications in quantum metrology. Most of their preparation mechanisms require precise control of quantum dynamics and are less tolerant of dissipations. We present a mechanism without these restraints. Different from the common case, we utilize self-balancing between dissipations induced by a positive-temperature reservoir and a negative-temperature reservoir to generate steady states with a steep photon number statistical distribution. We also show how to implement the mechanism with cavity optomechanical systems. The quality of the prepared photon number squeezed states is estimated with the realistic parameters of various typical optomechanical systems.
翻訳日:2023-04-05 13:57:32 公開日:2023-04-04
# 任意項状態(3レベル)の直観的可視化法

An Intuitive Visualisation Method for Arbitrary Qutrit (Three-Level) States ( http://arxiv.org/abs/2304.01741v1 )

ライセンス: Link先を確認
Max Z. Festenstein(参考訳) 本稿では,3レベル状態を完全に記述するために必要な8自由度をすべて包含するクトリッツの可視化手法を提案する。 このフレームワークを使用して、典型的な3段階のプロセスのセットをモデル化し、記述し、表示する。

We present a visualisation method for qutrits that encompasses all eight degrees of freedom necessary to fully describe a three level state whilst remaining intuitive to interpret. Using this framework, a set of typical three level processes are modelled, described and displayed.
翻訳日:2023-04-05 13:57:21 公開日:2023-04-04
# 実効力学の適応学習:複雑なシステムに対する適応的リアルタイムオンラインモデリング

Adaptive learning of effective dynamics: Adaptive real-time, online modeling for complex systems ( http://arxiv.org/abs/2304.01732v1 )

ライセンス: Link先を確認
Ivica Ki\v{c}i\'c and Pantelis R. Vlachas and Georgios Arampatzis and Michail Chatzimanolakis and Leonidas Guibas and Petros Koumoutsakos(参考訳) 予測シミュレーションは、天気予報から材料設計まで幅広い応用に不可欠である。 これらのシミュレーションの妥当性は、効果的なシステムダイナミクスを捉える能力にかかっている。 大規模並列シミュレーションは、時空間的スケールを全て解き、しばしば実験を妨げるコストでシステムダイナミクスを予測する。 一方、還元順序モデルは高速であるが、システムダイナミクスの線形化や、採用されているヒューリスティック閉包によって制限されることが多い。 本稿では,大規模シミュレーションを橋渡しし,大規模システムの実効力学(AdaLED)を適応的に抽出し,予測する,新しい体系的枠組みを提案する。 AdaLEDはオートエンコーダを使用して、システムダイナミクスの低次表現と確率的リカレントニューラルネットワーク(RNN)のアンサンブルを潜時ステップとして識別する。 このフレームワークは、計算ソルバとサーロゲートを交互に組み合わせ、学習されたダイナミクスを加速し、未学習のダイナミクスレジームを元のソルバに残す。 AdaLEDはオンライントレーニングを通じて、サロゲートを新しいダイナミクスに継続的に適応させる。 サロゲートの予測精度と不確実性を監視して、サロゲートと計算解器の遷移を決定する。 AdaLEDの有効性は、Van der Pol発振器、2D反応拡散方程式、2D Navier-Stokes流がレイノルズ数(400から1200まで)のシリンダーを通り過ぎ、効果的な力学をオンラインで学習し、目に見えない力学系を検出し、ネットスピードアップを提供する3つの異なるシステムで実証されている。 私たちの知る限りでは、adaledはsurrogateモデルと計算ソルバを結合し、効果的なダイナミクスのオンライン適応学習を実現する最初のフレームワークです。 これは多くの高価なシミュレーションを必要とするアプリケーションのための強力なツールである。

Predictive simulations are essential for applications ranging from weather forecasting to material design. The veracity of these simulations hinges on their capacity to capture the effective system dynamics. Massively parallel simulations predict the systems dynamics by resolving all spatiotemporal scales, often at a cost that prevents experimentation. On the other hand, reduced order models are fast but often limited by the linearization of the system dynamics and the adopted heuristic closures. We propose a novel systematic framework that bridges large scale simulations and reduced order models to extract and forecast adaptively the effective dynamics (AdaLED) of multiscale systems. AdaLED employs an autoencoder to identify reduced-order representations of the system dynamics and an ensemble of probabilistic recurrent neural networks (RNNs) as the latent time-stepper. The framework alternates between the computational solver and the surrogate, accelerating learned dynamics while leaving yet-to-be-learned dynamics regimes to the original solver. AdaLED continuously adapts the surrogate to the new dynamics through online training. The transitions between the surrogate and the computational solver are determined by monitoring the prediction accuracy and uncertainty of the surrogate. The effectiveness of AdaLED is demonstrated on three different systems - a Van der Pol oscillator, a 2D reaction-diffusion equation, and a 2D Navier-Stokes flow past a cylinder for varying Reynolds numbers (400 up to 1200), showcasing its ability to learn effective dynamics online, detect unseen dynamics regimes, and provide net speed-ups. To the best of our knowledge, AdaLED is the first framework that couples a surrogate model with a computational solver to achieve online adaptive learning of effective dynamics. It constitutes a potent tool for applications requiring many expensive simulations.
翻訳日:2023-04-05 13:57:15 公開日:2023-04-04
# ワンウェイ関数によるタンパ耐性公開鍵を用いた量子公開鍵暗号

Quantum Public-Key Encryption with Tamper-Resilient Public Keys from One-Way Functions ( http://arxiv.org/abs/2304.01800v1 )

ライセンス: Link先を確認
Fuyuki Kitagawa, Tomoyuki Morimae, Ryo Nishimaki, Takashi Yamakawa(参考訳) 量子公開鍵暗号を一方向関数から構築する。 私たちの構成では、公開鍵は量子ですが、暗号文は古典的です。 ワンウェイ関数(または擬似ランダム関数のような弱いプリミティブ)からの量子公開鍵暗号も近年の著作(森前-山川, eprint:2022/1336, Coladangelo, eprint:2023/282, Grilo-Sattath-Vu, eprint:2023/345, Barooti-Malavolta-Walter, eprint:2023/306]で提案されている。 しかし、それらには大きな欠点がある: 量子公開鍵が送信者(暗号化アルゴリズムを実行する)に送信され、相手に邪魔されることなく、セキュアな量子チャネルのような不満足な物理設定の仮定を必要とする場合にのみ、安全である。 たとえ認証されていない量子チャネルのみを仮定しても、暗号化されたメッセージの秘密を保証します。 したがって、暗号化は敵対的に改ざんされた量子公開鍵で行われる。 従来の公開鍵暗号の目的を達成する最初の量子公開鍵暗号であり,安全でない通信路上でセキュアな通信を確立することを目的としている。

We construct quantum public-key encryption from one-way functions. In our construction, public keys are quantum, but ciphertexts are classical. Quantum public-key encryption from one-way functions (or weaker primitives such as pseudorandom function-like states) are also proposed in some recent works [Morimae-Yamakawa, eprint:2022/1336; Coladangelo, eprint:2023/282; Grilo-Sattath-Vu, eprint:2023/345; Barooti-Malavolta-Walter, eprint:2023/306]. However, they have a huge drawback: they are secure only when quantum public keys can be transmitted to the sender (who runs the encryption algorithm) without being tampered with by the adversary, which seems to require unsatisfactory physical setup assumptions such as secure quantum channels. Our construction is free from such a drawback: it guarantees the secrecy of the encrypted messages even if we assume only unauthenticated quantum channels. Thus, the encryption is done with adversarially tampered quantum public keys. Our construction based only on one-way functions is the first quantum public-key encryption that achieves the goal of classical public-key encryption, namely, to establish secure communication over insecure channels.
翻訳日:2023-04-05 13:50:41 公開日:2023-04-04
# 格子場理論シミュレーションのための局所性制約付き自己回帰的クム条件正規化流

Locality-constrained autoregressive cum conditional normalizing flow for lattice field theory simulations ( http://arxiv.org/abs/2304.01798v1 )

ライセンス: Link先を確認
Dinesh P. R.(参考訳) 流れに基づくサンプリング手法の正規化は、従来の格子量子場理論のシミュレーションに関連する計算上の課題に取り組むことに成功している。 さらに、基礎となるニューラルネットワークにおける作用積分のゲージと変換不変性が組み込まれ、これらのモデルにおける効率的なトレーニングと推論につながった。 本稿では, 局所自己回帰的条件正規化フロー (l-ACNF) と呼ばれる自己回帰過程において, 一定時間部分格子をサンプリングする条件正規化フローの入力領域への簡易化をもたらす作用積分の局所性を統合する。 l-acnfモデルの自己相関時間は、2次元格子上の$\phi^{4}$理論をサンプリングする際に、全格子上の等価な正規化フローモデルよりも桁違いに変化する。

Normalizing flow-based sampling methods have been successful in tackling computational challenges traditionally associated with simulating lattice quantum field theories. Further works have incorporated gauge and translational invariance of the action integral in the underlying neural networks, which have led to efficient training and inference in those models. In this paper, we incorporate locality of the action integral which leads to simplifications to the input domain of conditional normalizing flows that sample constant time sub-lattices in an autoregressive process, dubbed local-Autoregressive Conditional Normalizing Flow (l-ACNF). We find that the autocorrelation times of l-ACNF models outperform an equivalent normalizing flow model on the full lattice by orders of magnitude when sampling $\phi^{4}$ theory on a 2 dimensional lattice.
翻訳日:2023-04-05 13:50:13 公開日:2023-04-04
# 心筋虚血がQRS特性に及ぼす影響 : シミュレーションによる検討

Influence of Myocardial Infraction on QRS Properties: A Simulation Study ( http://arxiv.org/abs/2304.01796v1 )

ライセンス: Link先を確認
Lei Li, Julia Camps, Zhinuo (Jenny) Wang, Abhirup Banerjee, Blanca Rodriguez, Vicente Grau(参考訳) 心筋梗塞後の心の構造的変化と電気的変化の相互作用は不整脈の開始と維持に重要な役割を果たしている。 傷痕、境界領域、正常心筋の解剖学的および電気生理学的性質は心電図形態を変化させ、臨床で日常的に分析される。 しかし, 各種MI特性がQRSに与える影響は直感的に予測できないため, 本研究では, 前方計算したQRSに対して, 位置, サイズ, 経時的範囲, および導電性レベルのスカーリング領域, 境界領域の影響を系統的に検討した。 Additionally, we have compared the contributions of different QRS score criteria for quantifying post-MI pathophysiology.The propagation of electrical activity in the ventricles is simulated via a Eikonal model on a unified coordinate system.The analysis has been performed on 49 subjects, and the results imply that the QRS is capable of identifying MI, suggesting the feasibility of inversely reconstructing infarct regions from QRS.There exist sensitivity variations of different QRS criteria for identifying 17 MI scenarios, which is informative for solving the inverse problem.

The interplay between structural and electrical changes in the heart after myocardial infarction (MI) plays a key role in the initiation and maintenance of arrhythmia. The anatomical and electrophysiological properties of scar, border zone, and normal myocardium modify the electrocardiographic morphology, which is routinely analysed in clinical settings. However, the influence of various MI properties on the QRS is not intuitively predictable.In this work, we have systematically investigated the effects of 17 post-MI scenarios, varying the location, size, transmural extent, and conductive level of scarring and border zone area, on the forward-calculated QRS. Additionally, we have compared the contributions of different QRS score criteria for quantifying post-MI pathophysiology.The propagation of electrical activity in the ventricles is simulated via a Eikonal model on a unified coordinate system.The analysis has been performed on 49 subjects, and the results imply that the QRS is capable of identifying MI, suggesting the feasibility of inversely reconstructing infarct regions from QRS.There exist sensitivity variations of different QRS criteria for identifying 17 MI scenarios, which is informative for solving the inverse problem.
翻訳日:2023-04-05 13:49:57 公開日:2023-04-04
# オンライン計量アルゴリズムの混合予測

Mixing predictions for online metric algorithms ( http://arxiv.org/abs/2304.01781v1 )

ライセンス: Link先を確認
Antonios Antoniadis and Christian Coester and Marek Eli\'a\v{s} and Adam Polak and Bertrand Simon(参考訳) オンラインアルゴリズムの学習における主要なテクニックは、複数のアルゴリズムや予測器を組み合わせることである。 各予測器の性能は時間とともに変化するため、ベンチマークとして最適な予測器ではなく、異なるタイミングで異なる予測器に従う動的組み合わせを使用することが望ましい。 我々は、予測を組み合わせるアルゴリズムを設計し、様々なオンライン問題、すなわちメートル法タスクシステムに対してそのような動的組み合わせと競合する。 最高の(後から見て)$\ell$予測器の制約のない組み合わせに対して、我々は$o(\ell^2)$の競合比を取得し、これが最善であることを示す。 しかし、異なる予測子間のスイッチ数がわずかに制限されたベンチマークでは、$(1+\epsilon)$-competitiveアルゴリズムが得られる。 さらに,我々のアルゴリズムは,バンディットのような方法で予測器にアクセスするように適応することができ,同時に1つの予測器のみを問い合わせることができる。 k$-server問題の定式化をカバーする新しい構造的洞察が、私たちの下限の1つに予期せぬ意味を持つ。

A major technique in learning-augmented online algorithms is combining multiple algorithms or predictors. Since the performance of each predictor may vary over time, it is desirable to use not the single best predictor as a benchmark, but rather a dynamic combination which follows different predictors at different times. We design algorithms that combine predictions and are competitive against such dynamic combinations for a wide class of online problems, namely, metrical task systems. Against the best (in hindsight) unconstrained combination of $\ell$ predictors, we obtain a competitive ratio of $O(\ell^2)$, and show that this is best possible. However, for a benchmark with slightly constrained number of switches between different predictors, we can get a $(1+\epsilon)$-competitive algorithm. Moreover, our algorithms can be adapted to access predictors in a bandit-like fashion, querying only one predictor at a time. An unexpected implication of one of our lower bounds is a new structural insight about covering formulations for the $k$-server problem.
翻訳日:2023-04-05 13:48:59 公開日:2023-04-04
# ユーザ中心の対話型トピックモデリングシステム

A User-Centered, Interactive, Human-in-the-Loop Topic Modelling System ( http://arxiv.org/abs/2304.01774v1 )

ライセンス: Link先を確認
Zheng Fang, Lama Alqazlan, Du Liu, Yulan He, and Rob Procter(参考訳) ヒューマン・イン・ザ・ループのトピック・モデリングは、ユーザの知識をモデリングプロセスに取り入れ、反復的にモデルを洗練することができる。 近年の研究では、ユーザフィードバックの価値が実証されているが、変更追跡の難しさ、異なるモデルの比較、実際の使用例に基づく評価の欠如など、考慮すべき課題が残っている。 そこで我々は,ユーザフレンドリーなインタフェースを備えた対話型対話型話題モデリングシステムを開発し,各ステップの比較と記録を可能にするとともに,利用者が真実に忠実なフィードバックを提供するための新しい話題語提案機能を開発した。 提案システムは,従来のトピックモデルができること,すなわちコーパス全体からトピックを学習するだけでなく,コーパスの特定の側面に関するトピックを学習するターゲットトピックモデリングもサポートする。 本稿では,本システムの概要と,トピックモデリングのより現実的な応用において,システムの価値を評価するために設計された一連のユーザスタディの結果について述べる。

Human-in-the-loop topic modelling incorporates users' knowledge into the modelling process, enabling them to refine the model iteratively. Recent research has demonstrated the value of user feedback, but there are still issues to consider, such as the difficulty in tracking changes, comparing different models and the lack of evaluation based on real-world examples of use. We developed a novel, interactive human-in-the-loop topic modeling system with a user-friendly interface that enables users compare and record every step they take, and a novel topic words suggestion feature to help users provide feedback that is faithful to the ground truth. Our system also supports not only what traditional topic models can do, i.e., learning the topics from the whole corpus, but also targeted topic modelling, i.e., learning topics for specific aspects of the corpus. In this article, we provide an overview of the system and present the results of a series of user studies designed to assess the value of the system in progressively more realistic applications of topic modelling.
翻訳日:2023-04-05 13:48:41 公開日:2023-04-04
# スピンモデルのための微分可能プログラミングフレームワーク

A differentiable programming framework for spin models ( http://arxiv.org/abs/2304.01772v1 )

ライセンス: Link先を確認
Tiago de Souza Farias, Vitor Vaz Schultz, Jos\'e Carlos Merino Mombach, Jonas Maziero(参考訳) スピンシステムは、幅広い物理システムをモデリングするための強力なツールである。 本稿では,微分可能プログラミングを用いたスピン系モデリングのための新しいフレームワークを提案する。 この手法により,スピン系を効率的にシミュレートし,複雑なシステムを大規模にモデル化することができる。 具体的には、Isingモデル、Pottsモデル、Cellular Pottsモデルという3つの異なるスピンシステムに適用することで、本手法の有効性を実証する。 シミュレーションでは,グラフィカルプロセッシングユニットやテンソルプロセッシングユニットなど,さまざまなハードウェアアーキテクチャで効率的にコードを実行できるため,従来のシミュレーション手法と比較して,我々のフレームワークは大幅に高速化されている。

Spin systems are a powerful tool for modeling a wide range of physical systems. In this paper, we propose a novel framework for modeling spin systems using differentiable programming. Our approach enables us to efficiently simulate spin systems, making it possible to model complex systems at scale. Specifically, we demonstrate the effectiveness of our technique by applying it to three different spin systems: the Ising model, the Potts model, and the Cellular Potts model. Our simulations show that our framework offers significant speedup compared to traditional simulation methods, thanks to its ability to execute code efficiently across different hardware architectures, including Graphical Processing Units and Tensor Processing Units.
翻訳日:2023-04-05 13:48:24 公開日:2023-04-04
# 自然言語推論問題における知識獲得のための言語モデルの利用

Using Language Models For Knowledge Acquisition in Natural Language Reasoning Problems ( http://arxiv.org/abs/2304.01771v1 )

ライセンス: Link先を確認
Fangzhen Lin and Ziyi Shou and Chengcai Chen(参考訳) 非自明な推論を必要とする自然言語問題に対して、大規模な言語モデル(llm)を使用するには、少なくとも2つの方法がある。 ひとつは、それを直接解決するように頼むことです。 もう1つは、問題テキストから事実を抽出し、定理証明器を使って解決することである。 本稿では,一連の論理語パズルに対してChatGPTとGPT4を用いた2つの手法を比較し,後者が正しいアプローチであることを示す。

For a natural language problem that requires some non-trivial reasoning to solve, there are at least two ways to do it using a large language model (LLM). One is to ask it to solve it directly. The other is to use it to extract the facts from the problem text and then use a theorem prover to solve it. In this note, we compare the two methods using ChatGPT and GPT4 on a series of logic word puzzles, and conclude that the latter is the right approach.
翻訳日:2023-04-05 13:48:13 公開日:2023-04-04
# 辞書学習における交互最小化アルゴリズムの収束

Convergence of alternating minimisation algorithms for dictionary learning ( http://arxiv.org/abs/2304.01768v1 )

ライセンス: Link先を確認
Simon Ruetz and Karin Schnass(参考訳) 本稿では,辞書学習のための2つの交互最小化アルゴリズム - 最適方向法 (mod) とオンライン辞書学習 (odl) - が収束するのに十分な条件を導出する。 1/\log(k)$以上で生成辞書との距離内にあるよく整備された初期化が与えられた場合、または、初期化の各要素が1つの生成要素のみを指し示すように特別な構造を持つ場合、どちらのアルゴリズムも生成辞書への幾何収束率で収束する。 これはスパース係数の支持に一様でない分布を持つデータモデルに対しても行われる。 これにより辞書要素の出現頻度が大きく変化し、実データをより密接にモデル化することができる。

In this paper we derive sufficient conditions for the convergence of two popular alternating minimisation algorithms for dictionary learning - the Method of Optimal Directions (MOD) and Online Dictionary Learning (ODL), which can also be thought of as approximative K-SVD. We show that given a well-behaved initialisation that is either within distance at most $1/\log(K)$ to the generating dictionary or has a special structure ensuring that each element of the initialisation only points to one generating element, both algorithms will converge with geometric convergence rate to the generating dictionary. This is done even for data models with non-uniform distributions on the supports of the sparse coefficients. These allow the appearance frequency of the dictionary elements to vary heavily and thus model real data more closely.
翻訳日:2023-04-05 13:48:04 公開日:2023-04-04
# 垂直的フェデレーション学習に関する調査--階層的視点から

A Survey on Vertical Federated Learning: From a Layered Perspective ( http://arxiv.org/abs/2304.01829v1 )

ライセンス: Link先を確認
Liu Yang, Di Chai, Junxue Zhang, Yilun Jin, Leye Wang, Hao Liu, Han Tian, Qian Xu, Kai Chen(参考訳) VFL(Vertical Federated Learning)は、データを垂直に分割し、パーティ間で分散するシナリオにおいて、有望なフェデレーション学習のカテゴリである。 VFLは、モデルのキャパシティを改善するために、異なるパーティの機能を使用してサンプルの記述を強化する。 水平連合学習と比較して、多くの場合、vflは企業の商業協力シナリオに適用される。 したがって、VFLには膨大なビジネス価値がある。 ここ数年、VFLは学界と産業の両方でますます注目を集めてきた。 本稿では,層構造の観点からVFLの現状を体系的に検討する。 ハードウェア層から垂直フェデレーションシステム層まで、研究者はvflのさまざまな側面に貢献している。 さらに、vflの適用は金融や医療など、幅広い分野をカバーしている。 各層において、既存の研究を分類し、VFLのさらなる研究・開発における利便性の課題を探求する。 特に,新しいMOSP木分類法を設計し,VFLのコアコンポーネント,すなわちセキュアな垂直フェデレーション機械学習アルゴリズムを解析する。 我々の分類学は、機械学習モデル(M)、保護オブジェクト(O)、セキュリティモデル(S)、プライバシ保護プロトコル(P)の4つの側面を考慮し、包括的な調査を提供する。

Vertical federated learning (VFL) is a promising category of federated learning for the scenario where data is vertically partitioned and distributed among parties. VFL enriches the description of samples using features from different parties to improve model capacity. Compared with horizontal federated learning, in most cases, VFL is applied in the commercial cooperation scenario of companies. Therefore, VFL contains tremendous business values. In the past few years, VFL has attracted more and more attention in both academia and industry. In this paper, we systematically investigate the current work of VFL from a layered perspective. From the hardware layer to the vertical federated system layer, researchers contribute to various aspects of VFL. Moreover, the application of VFL has covered a wide range of areas, e.g., finance, healthcare, etc. At each layer, we categorize the existing work and explore the challenges for the convenience of further research and development of VFL. Especially, we design a novel MOSP tree taxonomy to analyze the core component of VFL, i.e., secure vertical federated machine learning algorithm. Our taxonomy considers four dimensions, i.e., machine learning model (M), protection object (O), security model (S), and privacy-preserving protocol (P), and provides a comprehensive investigation.
翻訳日:2023-04-05 13:41:29 公開日:2023-04-04
# 安定でロバストな線形パラメータ変動状態空間モデルの学習

Learning Stable and Robust Linear Parameter-Varying State-Space Models ( http://arxiv.org/abs/2304.01828v1 )

ライセンス: Link先を確認
Chris Verhoek and Ruigang Wang and Roland T\'oth(参考訳) 本稿では,安定な線形パラメータ変化状態空間(LPV-SS)モデルの2つの直接パラメータ化を提案する。 モデルパラメトリゼーションは、トレーニング中のすべてのパラメータ値に対して、許容されるモデルは収縮感覚で安定であるか、リプシッツ定数をユーザー定義値$\gamma$で境界付けるかの優先順位を保証する。 さらに、パラメトリゼーションは直接的であるため、制約のない最適化を使ってモデルを訓練することができる。 訓練されたモデルがLPV-SSクラスであるという事実は、さらなる凸解析やコントローラ設計に有用である。 LPV識別問題において,本手法の有効性を実証した。

This paper presents two direct parameterizations of stable and robust linear parameter-varying state-space (LPV-SS) models. The model parametrizations guarantee a priori that for all parameter values during training, the allowed models are stable in the contraction sense or have their Lipschitz constant bounded by a user-defined value $\gamma$. Furthermore, since the parametrizations are direct, the models can be trained using unconstrained optimization. The fact that the trained models are of the LPV-SS class makes them useful for, e.g., further convex analysis or controller design. The effectiveness of the approach is demonstrated on an LPV identification problem.
翻訳日:2023-04-05 13:41:11 公開日:2023-04-04
# CGDTest: ニューラルネットワークをテストするための制約付きグラディエントDescentアルゴリズム

CGDTest: A Constrained Gradient Descent Algorithm for Testing Neural Networks ( http://arxiv.org/abs/2304.01826v1 )

ライセンス: Link先を確認
Vineel Nagisetty, Laura Graves, Guanting Pan, Piyush Jha, Vijay Ganesh(参考訳) 本稿では,新しいDeep Neural Network (DNN) テストアルゴリズムである Constrained Gradient Descent (CGD) を提案する。 我々のCGDアルゴリズムは、ユーザが望む入力の種類を特徴付ける論理的特性も指定できるグラデーション・ディフレクション(GD)法である。 この機能により、cgdtestは他のdnnテストツールと異なり、$\ell_p$ ボールベースの逆ロバスト性だけでなく、偽装やフロー逆制約のようなリッチなプロパティや、nlpドメインの逆ロバスト性を含む、dnnをテストするための論理的制約を指定することができる。 視覚領域とNLP領域における広範な実験を通してCGDTestの有用性とパワーを実証し、これらの多様な領域における32の最先端手法と比較した。 以上の結果から,CGDTestはボールベース対向ロバストネスにおいて最先端の試験ツールよりも優れており,他の対向ロバストネスでは極めて優れており,次のツールではPAR2スコアが1500%以上改善されている。 我々のCGD法は,表現性(多種多様な特性を表現するためのリッチな制約言語と共用ツールサポート),スケーラビリティ(最大1億1800万のパラメータを持つ非常に大きな実世界のモデルに適用できる),一般性(モデルアーキテクチャの多元性をテストするために使用できる)において,比較した競合する手法よりも優れていることを示す。

In this paper, we propose a new Deep Neural Network (DNN) testing algorithm called the Constrained Gradient Descent (CGD) method, and an implementation we call CGDTest aimed at exposing security and robustness issues such as adversarial robustness and bias in DNNs. Our CGD algorithm is a gradient-descent (GD) method, with the twist that the user can also specify logical properties that characterize the kinds of inputs that the user may want. This functionality sets CGDTest apart from other similar DNN testing tools since it allows users to specify logical constraints to test DNNs not only for $\ell_p$ ball-based adversarial robustness but, more importantly, includes richer properties such as disguised and flow adversarial constraints, as well as adversarial robustness in the NLP domain. We showcase the utility and power of CGDTest via extensive experimentation in the context of vision and NLP domains, comparing against 32 state-of-the-art methods over these diverse domains. Our results indicate that CGDTest outperforms state-of-the-art testing tools for $\ell_p$ ball-based adversarial robustness, and is significantly superior in testing for other adversarial robustness, with improvements in PAR2 scores of over 1500% in some cases over the next best tool. Our evaluation shows that our CGD method outperforms competing methods we compared against in terms of expressibility (i.e., a rich constraint language and concomitant tool support to express a wide variety of properties), scalability (i.e., can be applied to very large real-world models with up to 138 million parameters), and generality (i.e., can be used to test a plethora of model architectures).
翻訳日:2023-04-05 13:41:00 公開日:2023-04-04
# データ認識ニューラルアーキテクチャ探索

Data Aware Neural Architecture Search ( http://arxiv.org/abs/2304.01821v1 )

ライセンス: Link先を確認
Emil Njor, Jan Madsen, Xenofon Fafoutis(参考訳) Neural Architecture Search(NAS)は、ニューラルネットワーク(NN)アーキテクチャを自動生成する一般的なツールである。 初期のNAS作業では、これらのツールは通常、精度などの単一のメトリクスに対してNNアーキテクチャを最適化する。 しかし、リソース制約のある機械学習の場合、NNアーキテクチャを評価するのに1つのメトリクスだけでは不十分である。 例えば、高い精度を達成するnnモデルは、与えられたシステムのフラッシュメモリ内に収まらない場合、役に立たない。 そのため、リソース制約付きシステムのためのnasに関する最近の研究は、複数のメトリクスを最適化するための様々なアプローチを調査している。 本稿では,これらの手法を用いて,資源制約付きシステムのNAS最適化により,入力データの粒度も考慮できる可能性が示唆された。 我々はこのようなシステムに「データ認識NAS(Data Aware NAS)」と命名し、従来のNASと比較することによってその利点を実証する。

Neural Architecture Search (NAS) is a popular tool for automatically generating Neural Network (NN) architectures. In early NAS works, these tools typically optimized NN architectures for a single metric, such as accuracy. However, in the case of resource constrained Machine Learning, one single metric is not enough to evaluate a NN architecture. For example, a NN model achieving a high accuracy is not useful if it does not fit inside the flash memory of a given system. Therefore, recent works on NAS for resource constrained systems have investigated various approaches to optimize for multiple metrics. In this paper, we propose that, on top of these approaches, it could be beneficial for NAS optimization of resource constrained systems to also consider input data granularity. We name such a system "Data Aware NAS", and we provide experimental evidence of its benefits by comparing it to traditional NAS.
翻訳日:2023-04-05 13:40:23 公開日:2023-04-04
# テキスト・画像生成のための検証と再現性評価に向けて

Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation ( http://arxiv.org/abs/2304.01816v1 )

ライセンス: Link先を確認
Mayu Otani, Riku Togashi, Yu Sawai, Ryosuke Ishigami, Yuta Nakashima, Esa Rahtu, Janne Heikkil\"a, Shin'ichi Satoh(参考訳) この高い認知過程は、テキストと画像の深い理解を必要とするため、人間の評価は、テキストから画像への生成モデルの性能を検証する上で重要である。 しかし,最近の研究37の研究では,自動測定(fidなど)にのみ依存する作品や,信頼性や再現性に乏しい記述の少ない評価結果が多数報告されている。 本稿では,検証可能かつ再現可能な今後の作業における人間評価を容易にするための標準化された人間評価プロトコルを提案する。 パイロットデータ収集において, テキスト対画像生成結果の性能評価において, 現在の自動計測は人間の知覚と相容れないことを実験的に示す。 さらに,人間評価実験を確実かつ決定的に設計するための洞察を提供する。 最後に、簡単で高速な実装を容易にするために、いくつかのリソースをコミュニティに公開しています。

Human evaluation is critical for validating the performance of text-to-image generative models, as this highly cognitive process requires deep comprehension of text and images. However, our survey of 37 recent papers reveals that many works rely solely on automatic measures (e.g., FID) or perform poorly described human evaluations that are not reliable or repeatable. This paper proposes a standardized and well-defined human evaluation protocol to facilitate verifiable and reproducible human evaluation in future works. In our pilot data collection, we experimentally show that the current automatic measures are incompatible with human perception in evaluating the performance of the text-to-image generation results. Furthermore, we provide insights for designing human evaluation experiments reliably and conclusively. Finally, we make several resources publicly available to the community to facilitate easy and fast implementations.
翻訳日:2023-04-05 13:40:11 公開日:2023-04-04
# CoreDiff:低線量CTにおける文脈誤差変調一般化拡散モデル

CoreDiff: Contextual Error-Modulated Generalized Diffusion Model for Low-Dose CT Denoising and Generalization ( http://arxiv.org/abs/2304.01814v1 )

ライセンス: Link先を確認
Qi Gao, Zilong Li, Junping Zhang, Yi Zhang, Hongming Shan(参考訳) 低線量CT画像は光子飢餓と電子ノイズによりノイズやアーティファクトに悩まされる。 近年, 拡散モデルを用いて, 従来の深層学習モデルで発生する過度な滑らかさとトレーニング不安定性に対処しようとする研究がある。 しかし, 拡散モデルでは, 多数のサンプリングステップが伴うため, 長い推定時間に苦しむ。 直近では、冷拡散モデルは古典拡散モデルを一般化し、より柔軟性を持つ。 コールド拡散にインスパイアされた本論文では,CoreDiffと呼ばれる低用量CT(LDCT)のための新しいCOntextual eRror-modulated gEneralized Diffusionモデルを提案する。 第一に、CoreDiffはLDCT画像を用いてランダムなガウスノイズを除去し、新しい平均保存劣化演算子を用いてCT劣化の物理過程を模倣し、情報的LDCT画像がサンプリングプロセスの出発点となることによりサンプリングステップを大幅に削減する。 第2に, サンプリング過程における不完全な復元操作によるエラー蓄積問題を軽減するために, コンテキスト情報を利用してサンプリング過程を構造的歪みから制約し, 次のステップで入力とのアライメントを改善するための時間ステップ埋め込み特徴を変調する, 新たなコンテキスト誤り修正復元ネットワーク (clear-net) を提案する。 第三に、できるだけ少ないリソースで、新しい、目に見えない線量レベルに迅速に一般化するために、我々は、NDCTでペアリングされた単一のLDCT画像のみを使用して、CoreDiffをより速く、より良く一般化するためのワンショット学習フレームワークを考案した。 2つのデータセットの広範な実験結果から,我々のcorediffは,臨床的に許容される推論時間とともに,推論性能と一般化性能において競合する手法を上回っていることが判明した。

Low-dose computed tomography (CT) images suffer from noise and artifacts due to photon starvation and electronic noise. Recently, some works have attempted to use diffusion models to address the over-smoothness and training instability encountered by previous deep-learning-based denoising models. However, diffusion models suffer from long inference times due to the large number of sampling steps involved. Very recently, cold diffusion model generalizes classical diffusion models and has greater flexibility. Inspired by the cold diffusion, this paper presents a novel COntextual eRror-modulated gEneralized Diffusion model for low-dose CT (LDCT) denoising, termed CoreDiff. First, CoreDiff utilizes LDCT images to displace the random Gaussian noise and employs a novel mean-preserving degradation operator to mimic the physical process of CT degradation, significantly reducing sampling steps thanks to the informative LDCT images as the starting point of the sampling process. Second, to alleviate the error accumulation problem caused by the imperfect restoration operator in the sampling process, we propose a novel ContextuaL Error-modulAted Restoration Network (CLEAR-Net), which can leverage contextual information to constrain the sampling process from structural distortion and modulate time step embedding features for better alignment with the input at the next time step. Third, to rapidly generalize to a new, unseen dose level with as few resources as possible, we devise a one-shot learning framework to make CoreDiff generalize faster and better using only a single LDCT image (un)paired with NDCT. Extensive experimental results on two datasets demonstrate that our CoreDiff outperforms competing methods in denoising and generalization performance, with a clinically acceptable inference time.
翻訳日:2023-04-05 13:39:58 公開日:2023-04-04
# HarsanyiNet: 単一のフォワードプロパゲーションにおける正確なシェープ値の計算

HarsanyiNet: Computing Accurate Shapley Values in a Single Forward Propagation ( http://arxiv.org/abs/2304.01811v1 )

ライセンス: Link先を確認
Lu Chen, Siyu Lou, Keyan Zhang, Jin Huang, Quanshi Zhang(参考訳) シェープの価値は信頼に値する帰属指標として広く見なされている。 しかしながら、ディープニューラルネットワーク(DNN)の入力変数の属性を説明するためにShapley値を使用する場合、現実のアプリケーションで比較的正確なShapley値を近似するためには、通常非常に高い計算コストが必要となる。 そこで本研究では,入力変数の正確なShapley値を単一の前方伝播で同時に計算する,新しいネットワークアーキテクチャであるHarsanyiNetを提案する。 HarsanyiNetは、Shapley値がネットワークによって符号化されたHarsanyi相互作用の再分配として再構成可能であるという理論的基礎に基づいて設計されている。

The Shapley value is widely regarded as a trustworthy attribution metric. However, when people use Shapley values to explain the attribution of input variables of a deep neural network (DNN), it usually requires a very high computational cost to approximate relatively accurate Shapley values in real-world applications. Therefore, we propose a novel network architecture, the HarsanyiNet, which makes inferences on the input sample and simultaneously computes the exact Shapley values of the input variables in a single forward propagation. The HarsanyiNet is designed on the theoretical foundation that the Shapley value can be reformulated as the redistribution of Harsanyi interactions encoded by the network.
翻訳日:2023-04-05 13:39:23 公開日:2023-04-04
# 変圧器を用いた軽量単一ノイズ像の探索と真公正トレーニング

Exploration of Lightweight Single Image Denoising with Transformers and Truly Fair Training ( http://arxiv.org/abs/2304.01805v1 )

ライセンス: Link先を確認
Haram Choi, Cheolwoong Na, Jinseop Kim, Jihoon Yang(参考訳) マルチメディアコンテンツは、デジタルデバイスの本質的な欠陥からのノイズをしばしば含んでいるため、画像のデノナイズは高レベルの視覚認識タスクにとって重要なステップである。 いくつかの研究で高度なトランスフォーマーを用いたデノベーション分野が開発されているが、これらのネットワークは現実世界の応用には多すぎる。 さらに、トランスフォーマーを用いた軽量デノシング(LWDN)の研究も不足している。 これに対応するために、この研究はLWDNの7つの比較ベースライントランスフォーマーを提供し、将来の研究の基盤となる。 また,ランダムに切り取られたパッチの部分は,トレーニング中のノイズ除去性能に大きく影響することを示した。 これまでの研究ではこの点を見落としていましたが、私たちはベースライントランスフォーマーを真に公平にトレーニングすることを目指しています。 さらに,LWDN変換器を構成する上で重要な考慮事項を決定するために,各種成分の実験的分析を行う。 コードはhttps://github.com/rami0205/LWDNで入手できる。

As multimedia content often contains noise from intrinsic defects of digital devices, image denoising is an important step for high-level vision recognition tasks. Although several studies have developed the denoising field employing advanced Transformers, these networks are too momory-intensive for real-world applications. Additionally, there is a lack of research on lightweight denosing (LWDN) with Transformers. To handle this, this work provides seven comparative baseline Transformers for LWDN, serving as a foundation for future research. We also demonstrate the parts of randomly cropped patches significantly affect the denoising performances during training. While previous studies have overlooked this aspect, we aim to train our baseline Transformers in a truly fair manner. Furthermore, we conduct empirical analyses of various components to determine the key considerations for constructing LWDN Transformers. Codes are available at https://github.com/rami0205/LWDN.
翻訳日:2023-04-05 13:39:11 公開日:2023-04-04
# 部分アノテーション付きマルチラベル分類におけるモデル記述間のギャップを埋める

Bridging the Gap between Model Explanations in Partially Annotated Multi-label Classification ( http://arxiv.org/abs/2304.01804v1 )

ライセンス: Link先を確認
Youngwook Kim, Jae Myung Kim, Jieun Jeong, Cordelia Schmid, Zeynep Akata, Jungwoo Lee(参考訳) マルチラベル分類データセットでラベルを収集するのにコストがかかるため、部分的に注釈付きマルチラベル分類はコンピュータビジョンの新たな分野となっている。 このタスクに対するベースラインのアプローチは、観測されていないラベルを負のラベルとして仮定することであるが、この仮定は偽の負の形でラベルノイズを誘導する。 偽陰性ラベルによる負の影響を理解するために,これらのラベルがモデルの説明にどのように影響するかを検討する。 完全ラベルと部分ラベルで訓練された2つのモデルの説明は、類似の領域を強調するが、異なるスケーリングでは、後者は帰属スコアが低い傾向にある。 これらの結果に基づき,部分ラベルで学習したモデルの属性スコアを向上し,その説明をフルラベルで学習したモデルと類似させることを提案する。 概念的に単純なアプローチであっても、マルチラベル分類性能は1つの正のラベル設定と大規模部分のラベル設定では3つの異なるデータセットにおいて大きなマージンで改善される。 コードはhttps://github.com/youngwk/BridgeGapExplanationPAMCで公開されている。

Due to the expensive costs of collecting labels in multi-label classification datasets, partially annotated multi-label classification has become an emerging field in computer vision. One baseline approach to this task is to assume unobserved labels as negative labels, but this assumption induces label noise as a form of false negative. To understand the negative impact caused by false negative labels, we study how these labels affect the model's explanation. We observe that the explanation of two models, trained with full and partial labels each, highlights similar regions but with different scaling, where the latter tends to have lower attribution scores. Based on these findings, we propose to boost the attribution scores of the model trained with partial labels to make its explanation resemble that of the model trained with full labels. Even with the conceptually simple approach, the multi-label classification performance improves by a large margin in three different datasets on a single positive label setting and one on a large-scale partial label setting. Code is available at https://github.com/youngwk/BridgeGapExplanationPAMC.
翻訳日:2023-04-05 13:38:54 公開日:2023-04-04
# 等尺解析のための最適四分法則の機械学習による発見

Machine Learning Discovery of Optimal Quadrature Rules for Isogeometric Analysis ( http://arxiv.org/abs/2304.01802v1 )

ライセンス: Link先を確認
Tomas Teijeiro, Jamie M. Taylor, Ali Hashemian, David Pardo(参考訳) 等尺解析(IGA)における剛性および質量行列構築のための最適二次規則を求めるための機械学習手法を提案する。 まず、一様および非一様結び目列にまたがる任意の次数の1次元スプライン空間を考察し、生成した最適規則をテンソル積センスを用いた高次元空間上の積分に利用する。 二次ルール探索は最適化問題として提案され、勾配descentに基づく機械学習戦略によって解決される。 しかし、最適化空間は非常に非凸であるため、探索の成功は二次点の数とパラメータの初期化に大きく依存する。 そこで我々は,スプリニング空間上の最適解から,より少ない結び目数でパラメータを初期化する動的プログラミング戦略を用いる。 この方法では,50 個の一様元と多項式次数 8 までの iga 離散化を用いた場合,スプライン空間の最適二次則を見いだし,この場合のアプローチの一般性を示した。 非一様分割に対しては、妥当な数のテストケースにおいて最適な規則を見つける。 また、ラプラス作用素の固有値問題と自由形曲面ビームの固有周波数解析という2つの実践的ケーススタディにおいて、生成した最適規則を評価する。 特に,提案手法は,従来のガウス積分に対して最大44%の1D,68%の2D,82%の3D空間の保存を行う。

We propose the use of machine learning techniques to find optimal quadrature rules for the construction of stiffness and mass matrices in isogeometric analysis (IGA). We initially consider 1D spline spaces of arbitrary degree spanned over uniform and non-uniform knot sequences, and then the generated optimal rules are used for integration over higher-dimensional spaces using tensor product sense. The quadrature rule search is posed as an optimization problem and solved by a machine learning strategy based on gradient-descent. However, since the optimization space is highly non-convex, the success of the search strongly depends on the number of quadrature points and the parameter initialization. Thus, we use a dynamic programming strategy that initializes the parameters from the optimal solution over the spline space with a lower number of knots. With this method, we found optimal quadrature rules for spline spaces when using IGA discretizations with up to 50 uniform elements and polynomial degrees up to 8, showing the generality of the approach in this scenario. For non-uniform partitions, the method also finds an optimal rule in a reasonable number of test cases. We also assess the generated optimal rules in two practical case studies, namely, the eigenvalue problem of the Laplace operator and the eigenfrequency analysis of freeform curved beams, where the latter problem shows the applicability of the method to curved geometries. In particular, the proposed method results in savings with respect to traditional Gaussian integration of up to 44% in 1D, 68% in 2D, and 82% in 3D spaces.
翻訳日:2023-04-05 13:38:34 公開日:2023-04-04
# Deep-BIAS: 説明可能なAIによる構造バイアスの検出

Deep-BIAS: Detecting Structural Bias using Explainable AI ( http://arxiv.org/abs/2304.01869v1 )

ライセンス: Link先を確認
Bas van Stein and Diederick Vermetten and Fabio Caraffini and Anna V. Kononova(参考訳) ヒューリスティック最適化アルゴリズムの性能評価は, 様々な条件下での性能評価に不可欠である。 近年,探索アルゴリズムにおける構造バイアス(SB)を検出する行動ベンチマークとしてBIASツールボックスが導入された。 ツールボックスは、既存のアルゴリズムのバイアスを識別したり、新しく開発されたアルゴリズムのバイアスをテストするために使用することができる。 本稿では,Deep-BIASと呼ばれるBIASツールボックスの,斬新で説明可能な深層学習拡張について紹介する。 元のツールボックスが39の統計的テストとランダムフォレストモデルを使用してSBの存在とタイプを予測する場合、Deep-BIAS法はトレーニングされたディープラーニングモデルを使用して、生のパフォーマンス分布に基づいてSBの強度とタイプを即座に検出する。 様々な構造に偏ったシナリオによる一連の実験を通して、Deep-BIASの有効性を実証する。 また,ツールボックスを336個の最先端最適化アルゴリズム上で使用した結果,特に対象空間の中心に様々な構造バイアスが存在することや,離散化の挙動を示すことが明らかとなった。 Deep-BIAS法は、バイアスの検出とSBの型分類においてBIASツールボックスを上回っている。 また、XAI技術を用いて説明を導き出すこともできる。

Evaluating the performance of heuristic optimisation algorithms is essential to determine how well they perform under various conditions. Recently, the BIAS toolbox was introduced as a behaviour benchmark to detect structural bias (SB) in search algorithms. The toolbox can be used to identify biases in existing algorithms, as well as to test for bias in newly developed algorithms. In this article, we introduce a novel and explainable deep-learning expansion of the BIAS toolbox, called Deep-BIAS. Where the original toolbox uses 39 statistical tests and a Random Forest model to predict the existence and type of SB, the Deep-BIAS method uses a trained deep-learning model to immediately detect the strength and type of SB based on the raw performance distributions. Through a series of experiments with a variety of structurally biased scenarios, we demonstrate the effectiveness of Deep-BIAS. We also present the results of using the toolbox on 336 state-of-the-art optimisation algorithms, which showed the presence of various types of structural bias, particularly towards the centre of the objective space or exhibiting discretisation behaviour. The Deep-BIAS method outperforms the BIAS toolbox both in detecting bias and for classifying the type of SB. Furthermore, explanations can be derived using XAI techniques.
翻訳日:2023-04-05 13:33:04 公開日:2023-04-04
# SportsPose -- ダイナミックな3Dスポーツポーズデータセット

SportsPose -- A Dynamic 3D sports pose dataset ( http://arxiv.org/abs/2304.01865v1 )

ライセンス: Link先を確認
Christian Keilstrup Ingwersen and Christian Mikkelstrup and Janus N{\o}rtoft Jensen and Morten Rieger Hannemose and Anders Bjorholm Dahl(参考訳) スポーツ分析,コーチング,外傷予防には,正確な3次元ポーズ推定が不可欠である。 しかし,既存の単眼ポーズ推定用データセットは,スポーツ運動の難易度や動的性質を適切に捉えていない。 そこで本研究では,高ダイナミックなスポーツ運動からなる大規模3次元ポーズデータセットであるSportsPoseを紹介する。 24の異なる被験者から176,000以上の3Dポーズが5つの異なるスポーツ活動を行い、SportsPoseはスポーツ運動の複雑でダイナミックな性質を反映した多種多様な3Dポーズを提供する。 他のマーカーレスデータセットとは対照的に、我々はSportsPoseの精度を市販のマーカーベースシステムと比較し、すべての評価シーケンスの平均誤差を34.5mmとした。 これは、一般的に使用される3DPWデータセットで報告されるエラーに匹敵する。 さらに,手首と足首の関節の動きを身体と関連づけた新しい測定基準である局所運動についても紹介する。 これにより,sportsposeはヒト3.6mおよび3dpwのデータセットよりも運動量が多いことを示し,運動がよりダイナミックであることを示す。 コードを添付したデータセットは、当社のwebサイトからダウンロード可能です。 SportsPoseは,スポーツのパフォーマンス分析や外傷予防のための,より効果的なモデルの開発と評価を可能にすることを願っている。 リアルで多様なデータセットによって、SportsPoseはスポーツにおけるポーズ推定の最先端化に有用なリソースを提供する。

Accurate 3D human pose estimation is essential for sports analytics, coaching, and injury prevention. However, existing datasets for monocular pose estimation do not adequately capture the challenging and dynamic nature of sports movements. In response, we introduce SportsPose, a large-scale 3D human pose dataset consisting of highly dynamic sports movements. With more than 176,000 3D poses from 24 different subjects performing 5 different sports activities, SportsPose provides a diverse and comprehensive set of 3D poses that reflect the complex and dynamic nature of sports movements. Contrary to other markerless datasets we have quantitatively evaluated the precision of SportsPose by comparing our poses with a commercial marker-based system and achieve a mean error of 34.5 mm across all evaluation sequences. This is comparable to the error reported on the commonly used 3DPW dataset. We further introduce a new metric, local movement, which describes the movement of the wrist and ankle joints in relation to the body. With this, we show that SportsPose contains more movement than the Human3.6M and 3DPW datasets in these extremum joints, indicating that our movements are more dynamic. The dataset with accompanying code can be downloaded from our website. We hope that SportsPose will allow researchers and practitioners to develop and evaluate more effective models for the analysis of sports performance and injury prevention. With its realistic and diverse dataset, SportsPose provides a valuable resource for advancing the state-of-the-art in pose estimation in sports.
翻訳日:2023-04-05 13:32:41 公開日:2023-04-04
# 非監督型保存医療画像強調のための実践的枠組み

A Practical Framework for Unsupervised Structure Preservation Medical Image Enhancement ( http://arxiv.org/abs/2304.01864v1 )

ライセンス: Link先を確認
Quan Huu Cap, Atsushi Fukuda, Hitoshi Iyatomi(参考訳) 医療画像は医療診断支援に極めて有用である。 しかし、実際には、低品質(LQ)の医用画像、例えば、ぼんやりした、ぼんやりした画像は、不均一な照明を持つか、データ取得時に焦点が合っていないものが多い。 これにより、医療疾患のスクリーニングと診断が困難になる。 GAN(Generative Adversarial Network)に基づく画像強調手法が提案され,有望な結果が得られた。 しかし、視覚的に喜ばしい結果を生み出すが、特に構造的入力の独創性を維持する能力を失うという意味では、これらの方法には品質-原性トレードオフがある。 さらに,我々の知る限り,2つの接地トラスデータが利用できないため,教師なし環境での医用画像強調手法の構造保存を評価する客観的な指標は存在しない。 本研究では,(1)SSIMとラプラシアンピラミッドをベースとした,ラプラシアン構造類似度指数測定(LaSSIM)と呼ばれる医用画像強調タスクの構造保存の非参照客観的評価と,(2)LQ画像からの創発性と品質の向上を支援するために,ラプラシアン医用画像強調法(LaMEGAN)と呼ばれる新規の非教師用医用画像強調手法を提案する。 LaSSIMメトリックはクリーンな参照画像を必要としないため、異なるデータセットの強いぼやけなど、画像劣化下での画像構造変化を捉える上で、SSIMよりも優れていることが示されている。 実験の結果,LMEGANは画質とオリジナル性とのバランスが良好であり,構造保存性能は良好であり,高画質の視覚結果が得られることがわかった。 コードはhttps://github.com/aillisinc/uspmieで入手できる。

Medical images are extremely valuable for supporting medical diagnoses. However, in practice, low-quality (LQ) medical images, such as images that are hazy/blurry, have uneven illumination, or are out of focus, among others, are often obtained during data acquisition. This leads to difficulties in the screening and diagnosis of medical diseases. Several generative adversarial networks (GAN)-based image enhancement methods have been proposed and have shown promising results. However, there is a quality-originality trade-off among these methods in the sense that they produce visually pleasing results but lose the ability to preserve originality, especially the structural inputs. Moreover, to our knowledge, there is no objective metric in evaluating the structure preservation of medical image enhancement methods in unsupervised settings due to the unavailability of paired ground-truth data. In this study, we propose a framework for practical unsupervised medical image enhancement that includes (1) a non-reference objective evaluation of structure preservation for medical image enhancement tasks called Laplacian structural similarity index measure (LaSSIM), which is based on SSIM and the Laplacian pyramid, and (2) a novel unsupervised GAN-based method called Laplacian medical image enhancement (LaMEGAN) to support the improvement of both originality and quality from LQ images. The LaSSIM metric does not require clean reference images and has been shown to be superior to SSIM in capturing image structural changes under image degradations, such as strong blurring on different datasets. The experiments demonstrated that our LaMEGAN achieves a satisfactory balance between quality and originality, with robust structure preservation performance while generating compelling visual results with very high image quality scores. The code will be made available at https://github.com/AillisInc/USPMIE.
翻訳日:2023-04-05 13:32:18 公開日:2023-04-04
# ChatGPT/GPT-4研究の概要と大規模言語モデルの将来への展望

Summary of ChatGPT/GPT-4 Research and Perspective Towards the Future of Large Language Models ( http://arxiv.org/abs/2304.01852v1 )

ライセンス: Link先を確認
Yiheng Liu, Tianle Han, Siyuan Ma, Jiayue Zhang, Yuanyuan Yang, Jiaming Tian, Hao He, Antong Li, Mengshen He, Zhengliang Liu, Zihao Wu, Dajiang Zhu, Xiang Li, Ning Qiang, Dingang Shen, Tianming Liu, Bao Ge(参考訳) 本稿では,GPTシリーズにおけるChatGPTとGPT-4,最先端の大規模言語モデル (LLM) の総合的な調査と,多分野にわたる将来的な応用について述べる。 実際、世界中の知識を捉える大規模な事前学習や、人間のフィードバックからの微調整と強化学習(RLHF)といった重要な革新は、LLMの適応性と性能を高める上で重要な役割を担っている。 各種アプリケーション領域におけるトレンド分析,ワードクラウド表現,分布解析を含む,arXivに関する194の関連論文の詳細な分析を行った。 この発見は、直接の自然言語処理アプリケーションを中心にしたchatgpt/gpt-4研究に有意かつ増大する関心を示し、教育や歴史から数学、医学、物理学まで幅広い分野においてかなりの可能性を示している。 本研究は,ChatGPTの能力,潜在的含意,倫理的懸念,今後の発展への方向性について考察する。

This paper presents a comprehensive survey of ChatGPT and GPT-4, state-of-the-art large language models (LLM) from the GPT series, and their prospective applications across diverse domains. Indeed, key innovations such as large-scale pre-training that captures knowledge across the entire world wide web, instruction fine-tuning and Reinforcement Learning from Human Feedback (RLHF) have played significant roles in enhancing LLMs' adaptability and performance. We performed an in-depth analysis of 194 relevant papers on arXiv, encompassing trend analysis, word cloud representation, and distribution analysis across various application domains. The findings reveal a significant and increasing interest in ChatGPT/GPT-4 research, predominantly centered on direct natural language processing applications, while also demonstrating considerable potential in areas ranging from education and history to mathematics, medicine, and physics. This study endeavors to furnish insights into ChatGPT's capabilities, potential implications, ethical concerns, and offer direction for future advancements in this field.
翻訳日:2023-04-05 13:31:41 公開日:2023-04-04
# Grid-SD2E:認知学習システムにおける一般的なグリッドフィードバック

Grid-SD2E: A General Grid-Feedback in a System for Cognitive Learning ( http://arxiv.org/abs/2304.01844v1 )

ライセンス: Link先を確認
Jingyi Feng and Chenming Zhang(参考訳) 脳が生成した神経信号を通じて外界とどのように相互作用するかを補完することは、その動作メカニズムを決定し、脳疾患を治療し、知性を理解するために重要である。 多くの理論モデルが提案されているが、これまでのところ統合と開発は困難である。 本研究では,より汎用的でロバストなグリッドモジュールを作成し,ベイジアン推論(space-division and exploration-exploitation with grid-feedback, grid-sd2e)を用いた対話型・自己情報型認知システムを構築した。 ここでは、グリッドモジュールを外界とシステム間の相互作用媒体として、システム内の自己強化媒体として使用することができる。 空間分割探索探索(SD2E)は、その空間分割(SD)モジュールを介してグリッドの0/1信号を受信する。 本稿では,他の研究者による実験と神経復号に関する経験から得られた理論モデルについても述べる。 本稿では,神経科学と認知科学の両分野における既存の理論に基づくシステムの合理性を分析し,人と人と外の世界との間の相互作用を説明するための特別な,一般的なルールを提案する。 さらに、このモデルに基づいて、最小の計算単位が抽出され、これは脳内の1つのニューロンと類似している。

Comprehending how the brain interacts with the external world through generated neural signals is crucial for determining its working mechanism, treating brain diseases, and understanding intelligence. Although many theoretical models have been proposed, they have thus far been difficult to integrate and develop. In this study, we were inspired in part by grid cells in creating a more general and robust grid module and constructing an interactive and self-reinforcing cognitive system together with Bayesian reasoning, an approach called space-division and exploration-exploitation with grid-feedback (Grid-SD2E). Here, a grid module can be used as an interaction medium between the outside world and a system, as well as a self-reinforcement medium within the system. The space-division and exploration-exploitation (SD2E) receives the 0/1 signals of a grid through its space-division (SD) module. The system described in this paper is also a theoretical model derived from experiments conducted by other researchers and our experience on neural decoding. Herein, we analyse the rationality of the system based on the existing theories in both neuroscience and cognitive science, and attempt to propose special and general rules to explain the different interactions between people and between people and the external world. What's more, based on this model, the smallest computing unit is extracted, which is analogous to a single neuron in the brain.
翻訳日:2023-04-05 13:31:21 公開日:2023-04-04
# 手書き処理タスクにおける合成事前訓練の評価

Evaluating Synthetic Pre-Training for Handwriting Processing Tasks ( http://arxiv.org/abs/2304.01842v1 )

ライセンス: Link先を確認
Vittorio Pippi, Silvia Cascianelli, Lorenzo Baraldi, Rita Cucchiara(参考訳) 本稿では,4つのベンチマークダウンストリーム手書き解析タスクにおける性能向上のために,合成単語画像に対する大量の事前学習について検討する。 この目的のために,複数の手書きフォントで描画された単語画像の大規模な合成データセットを構築し,完全な監視信号を提供する。 私たちは、完全に教師付き目的を持った単純な畳み込みニューラルネットワーク(convnet)をトレーニングするためにそれを使用します。 事前訓練されたConvNetから得られた画像のベクトル表現は、手書きスタイルのエンコーディングとみなすことができる。 著者検索, 著者識別, 著者検証, 著者分類の表現を利用して, 我々の事前学習戦略は, 上記のタスクをタスク固有の状態-the-Artアプローチに関して競合的な結果で実現できるように, 著者のスタイルの豊かな表現を抽出することができることを実証する。

In this work, we explore massive pre-training on synthetic word images for enhancing the performance on four benchmark downstream handwriting analysis tasks. To this end, we build a large synthetic dataset of word images rendered in several handwriting fonts, which offers a complete supervision signal. We use it to train a simple convolutional neural network (ConvNet) with a fully supervised objective. The vector representations of the images obtained from the pre-trained ConvNet can then be considered as encodings of the handwriting style. We exploit such representations for Writer Retrieval, Writer Identification, Writer Verification, and Writer Classification and demonstrate that our pre-training strategy allows extracting rich representations of the writers' style that enable the aforementioned tasks with competitive results with respect to task-specific State-of-the-Art approaches.
翻訳日:2023-04-05 13:30:58 公開日:2023-04-04
# bugnist -- 分類と検出のための新しい大規模ボリューム型3d画像データセット

BugNIST -- A New Large Scale Volumetric 3D Image Dataset for Classification and Detection ( http://arxiv.org/abs/2304.01838v1 )

ライセンス: Link先を確認
Anders Bjorholm Dahl, Patrick M{\o}ller Jensen, Carsten Gundlach, Rebecca Engberg, Hans Martin Kjer, Vedrana Andersen Dahl(参考訳) 3次元ボリューム画像解析研究の進歩はデータセットの欠如によって制限され、ボリューム画像の分析方法の進歩は医療データに基づいている。 しかし、医療データはマイクロCTなどの他のボリューム画像の特徴に必ずしも似ていない。 医用データ以外の3次元ボリューム画像解析の研究を促進するため,我々はBugNISTデータセットを作成し,自由に利用できるようにした。 BugNISTは、昆虫や幼虫など12種類の虫のマイクロCTスキャンの広範なデータセットである。 BugNISTには9437巻があり、9087は個々のバグ、350はバグと他の材料が混在している。 bugnistの目標は分類と検出方法をベンチマークすることであり、検出モデルは個々のバグのスキャンで訓練され、バグ混合でテストされるように、検出チャレンジを設計した。 この課題を解くことができるモデルは、文脈、すなわち周囲の物質とは独立である。 これは、micro-ctでよく見られるように、コンテキストが未知である場合や変化する場合、大きな利点です。 我々の初期ベースライン分析では、現在最先端のディープラーニング手法が個々のバグを非常によく分類しているが、検出の難しさは大きい。 これにより、BugNISTは、これまで関連データ(分類、検出、および願わくばそれ以上)を見逃していた画像分析領域の研究を可能にする。

Progress in 3D volumetric image analysis research is limited by the lack of datasets and most advances in analysis methods for volumetric images are based on medical data. However, medical data do not necessarily resemble the characteristics of other volumetric images such as micro-CT. To promote research in 3D volumetric image analysis beyond medical data, we have created the BugNIST dataset and made it freely available. BugNIST is an extensive dataset of micro-CT scans of 12 types of bugs, such as insects and larvae. BugNIST contains 9437 volumes where 9087 are of individual bugs and 350 are mixtures of bugs and other material. The goal of BugNIST is to benchmark classification and detection methods, and we have designed the detection challenge such that detection models are trained on scans of individual bugs and tested on bug mixtures. Models capable of solving this task will be independent of the context, i.e., the surrounding material. This is a great advantage if the context is unknown or changing, as is often the case in micro-CT. Our initial baseline analysis shows that current state-of-the-art deep learning methods classify individual bugs very well, but has great difficulty with the detection challenge. Hereby, BugNIST enables research in image analysis areas that until now have missed relevant data - both classification, detection, and hopefully more.
翻訳日:2023-04-05 13:30:42 公開日:2023-04-04
# パリティ時対称性をもつ駆動散逸二次フェルミオン系における量子クエンチ

Quantum quenches in driven-dissipative quadratic fermionic systems with parity-time symmetry ( http://arxiv.org/abs/2304.01836v1 )

ライセンス: Link先を確認
Elias Starchl and Lukas M. Sieberer(参考訳) マルコフ駆動と散逸を受ける非相互作用フェルミオン量子多体系のクエンチダイナミクスを、パリティタイム(pt)対称性を持つ二次リウビリアンによって記述される。 最近の研究で、これらの系は、クエンチ後の孤立可積分量子多体系の定常状態を記述する一般化ギブズアンサンブル(PTGGE)と類似してPT対称一般化ギブズアンサンブル(PTGGE)と呼ばれる最大エントロピーアンサンブルに局所的に緩和することが示されている。 本稿では,Su-Schrieffer-Heeger(SSH)モデルの駆動散逸版と北エフ連鎖をパラダイムモデルシステムとして用いて,従来の結果と相関し,大幅に拡張する。 特に, PT対称相における準粒子対寄与のPTGGE予測に対して, 相関関係の光円錐拡散と線形成長および飽和を示すことにより, 有限散逸時の散逸性準粒子像の有効性を検証した。 Further, we introduce the concept of directional pumping phases, which is related to the non-Hermitian topology of the Liouvillian and based upon qualitatively different dynamics of the dual string order parameter and the subsystem fermion parity in the SSH model and the Kitaev chain, respectively: Depending on the postquench parameters, there can be pumping of string order and fermion parity through both ends of a subsystem corresponding to a finite segment of the one-dimensional lattice, through only one end, or there can be no pumping at all. 本研究では, 動的ポンピング相間の遷移が, PTGGEのソフトモードによって決定される方向ポンピング速度の動的臨界挙動の新しい, 独立なタイプをもたらすことを示す。

We study the quench dynamics of noninteracting fermionic quantum many-body systems that are subjected to Markovian drive and dissipation and are described by a quadratic Liouvillian which has parity-time (PT) symmetry. In recent work, we have shown that such systems relax locally to a maximum entropy ensemble that we have dubbed the PT-symmetric generalized Gibbs ensemble (PTGGE), in analogy to the generalized Gibbs ensemble that describes the steady state of isolated integrable quantum many-body systems after a quench. Here, using driven-dissipative versions of the Su-Schrieffer-Heeger (SSH) model and the Kitaev chain as paradigmatic model systems, we corroborate and substantially expand upon our previous results. In particular, we confirm the validity of a dissipative quasiparticle picture at finite dissipation by demonstrating light cone spreading of correlations and the linear growth and saturation to the PTGGE prediction of the quasiparticle-pair contribution to the subsystem entropy in the PT-symmetric phase. Further, we introduce the concept of directional pumping phases, which is related to the non-Hermitian topology of the Liouvillian and based upon qualitatively different dynamics of the dual string order parameter and the subsystem fermion parity in the SSH model and the Kitaev chain, respectively: Depending on the postquench parameters, there can be pumping of string order and fermion parity through both ends of a subsystem corresponding to a finite segment of the one-dimensional lattice, through only one end, or there can be no pumping at all. We show that transitions between dynamical pumping phases give rise to a new and independent type of dynamical critical behavior of the rates of directional pumping, which are determined by the soft modes of the PTGGE.
翻訳日:2023-04-05 13:30:19 公開日:2023-04-04
# 反復微分によるニューラルフィールド畳み込み

Neural Field Convolutions by Repeated Differentiation ( http://arxiv.org/abs/2304.01834v1 )

ライセンス: Link先を確認
Ntumba Elie Nsampi, Adarsh Djeacoumar, Hans-Peter Seidel, Tobias Ritschel, Thomas Leimk\"uhler(参考訳) ニューラルフィールドは、ビジュアルコンピューティングのための汎用的な連続表現へと進化している。 しかし、多くの魅力的な特性にもかかわらず、信号処理には適さない。 本研究では,ニューラルネットワークなどの一般連続信号を用いた一般連続畳み込みを行う手法を提案する。 分割多項式核は、繰り返し微分された後にディラックデルタのスパース集合に還元され、畳み込みアイデンティティを活用し、繰り返し積分場を訓練し、大規模畳み込みを効率的に行う。 我々は,様々なデータモダリティと空間変動するカーネルに対する我々のアプローチを実証する。

Neural fields are evolving towards a general-purpose continuous representation for visual computing. Yet, despite their numerous appealing properties, they are hardly amenable to signal processing. As a remedy, we present a method to perform general continuous convolutions with general continuous signals such as neural fields. Observing that piecewise polynomial kernels reduce to a sparse set of Dirac deltas after repeated differentiation, we leverage convolution identities and train a repeated integral field to efficiently execute large-scale convolutions. We demonstrate our approach on a variety of data modalities and spatially-varying kernels.
翻訳日:2023-04-05 13:29:47 公開日:2023-04-04
# 視覚モデルと言語モデルのためのクラス名学習

Learning to Name Classes for Vision and Language Models ( http://arxiv.org/abs/2304.01830v1 )

ライセンス: Link先を確認
Sarah Parisot, Yongxin Yang, Steven McDonagh(参考訳) 大規模な視覚と言語モデルは、クラス固有のテキストクエリを画像コンテンツにマッピングすることで、印象的なゼロショット認識性能を達成することができる。 しかし、残る2つの異なる課題は、クエリを定義する手作りのクラス名の選択に対する高い感度、新しい小さなデータセットへの適応の難しさである。 これらの問題に対処するために,我々は利用可能なデータを活用して,視覚コンテンツの機能として最適な単語埋め込みを学ぶことを提案する。 凍結したモデルに新しい単語の埋め込みを学習することで、新しいクラスのゼロショット機能を保持し、新しいデータセットにモデルを適応しやすくし、潜在的に誤った、非記述的、曖昧なクラス名を調整することができる。 我々のソリューションは画像分類やオブジェクト検出パイプラインに容易に統合でき、複数のシナリオにおいて大きなパフォーマンス向上をもたらし、モデルのバイアスやラベル付けエラーに対する洞察を提供する。

Large scale vision and language models can achieve impressive zero-shot recognition performance by mapping class specific text queries to image content. Two distinct challenges that remain however, are high sensitivity to the choice of handcrafted class names that define queries, and the difficulty of adaptation to new, smaller datasets. Towards addressing these problems, we propose to leverage available data to learn, for each class, an optimal word embedding as a function of the visual content. By learning new word embeddings on an otherwise frozen model, we are able to retain zero-shot capabilities for new classes, easily adapt models to new datasets, and adjust potentially erroneous, non-descriptive or ambiguous class names. We show that our solution can easily be integrated in image classification and object detection pipelines, yields significant performance gains in multiple scenarios and provides insights into model biases and labelling errors.
翻訳日:2023-04-05 13:29:39 公開日:2023-04-04
# クラスインクリメンタル学習のためのクロスクラス機能拡張

Cross-Class Feature Augmentation for Class Incremental Learning ( http://arxiv.org/abs/2304.01899v1 )

ライセンス: Link先を確認
Taehoon Kim, Jaeyoo Park, Bohyung Han(参考訳) 本稿では,敵対的攻撃を動機とした機能強化手法を取り入れた新しいクラスインクリメンタル学習手法を提案する。 我々は,学習した学習例を補完するために,知識蒸留の教師としての役割を担うのではなく,過去に学んだ分類器を用いている。 提案手法は,事前学習した分類器に対する逆攻撃を通じて,他のクラスでの例を用いて任意の対象クラスの特徴を増強するため,クラスインクリメンタルラーニングにおける従来の知識を活用するというユニークな視点を持つ。 クロスクラス機能拡張を許すことにより、古いタスクの各クラスは、特徴空間にサンプルを都合よく投入し、特に格納された例の数が少ない場合には、前タスクのサンプル不足に起因する決定境界の崩壊を緩和する。 このアイデアは、アーキテクチャを変更することなく、既存のクラスインクリメンタル学習アルゴリズムに簡単に組み込むことができる。 各種シナリオにおいて,特にメモリ予算が極めて限られている環境下では,本手法が既存の段階的学習手法よりはるかに優れていることを示す。

We propose a novel class incremental learning approach by incorporating a feature augmentation technique motivated by adversarial attacks. We employ a classifier learned in the past to complement training examples rather than simply play a role as a teacher for knowledge distillation towards subsequent models. The proposed approach has a unique perspective to utilize the previous knowledge in class incremental learning since it augments features of arbitrary target classes using examples in other classes via adversarial attacks on a previously learned classifier. By allowing the cross-class feature augmentations, each class in the old tasks conveniently populates samples in the feature space, which alleviates the collapse of the decision boundaries caused by sample deficiency for the previous tasks, especially when the number of stored exemplars is small. This idea can be easily incorporated into existing class incremental learning algorithms without any architecture modification. Extensive experiments on the standard benchmarks show that our method consistently outperforms existing class incremental learning methods by significant margins in various scenarios, especially under an environment with an extremely limited memory budget.
翻訳日:2023-04-05 13:22:33 公開日:2023-04-04
# InfluencerRank: Graph Convolutional Attentive Recurrent Neural Networksによる効果的なインフルエンサー発見

InfluencerRank: Discovering Effective Influencers via Graph Convolutional Attentive Recurrent Neural Networks ( http://arxiv.org/abs/2304.01897v1 )

ライセンス: Link先を確認
Seungbae Kim, Jyun-Yu Jiang, Jinyoung Han, Wei Wang(参考訳) インフルエンサーがソーシャルメディアマーケティングにおいてかなりの役割を果たすと、企業はインフルエンサーマーケティングの予算を増やすことになる。 効果的なインフルエンサーの採用は、ソーシャルインフルエンサーマーケティングにおいて極めて重要であるが、数億のソーシャルメディアユーザーの中で適切なインフルエンサーを見つけることは困難である。 本稿では,その投稿行動と時間的社会的関係に基づいて,インフルエンサーをその効果によってランク付けするインフルエンサーRankを提案する。 投稿行動や社会的関係を表現するために、グラフ畳み込みニューラルネットワークは、異なる歴史的期間に異質なネットワークを持つモデルインフルエンサーに適用される。 InfluencerRankはネットワーク構造を組み込みノードの特徴で学習することにより、各期間のインフルエンサーに対する情報表現を導出することができる。 注意的リカレントニューラルネットワークは、時間とともにインフルエンサー表現のダイナミクスの知識を捉え、最終的に他のインフルエンサーと非常に効果的なインフルエンサーを区別する。 Instagramのデータセットは18,397人のインフルエンサーで構成され、12ヶ月以内に2,952,075件の投稿が公開された。 InfluencerRankが既存のベースライン法より優れていることを示す実験結果が得られた。 詳細な分析により,提案する機能やモデルコンポーネントがすべて有効であることがわかった。

As influencers play considerable roles in social media marketing, companies increase the budget for influencer marketing. Hiring effective influencers is crucial in social influencer marketing, but it is challenging to find the right influencers among hundreds of millions of social media users. In this paper, we propose InfluencerRank that ranks influencers by their effectiveness based on their posting behaviors and social relations over time. To represent the posting behaviors and social relations, the graph convolutional neural networks are applied to model influencers with heterogeneous networks during different historical periods. By learning the network structure with the embedded node features, InfluencerRank can derive informative representations for influencers at each period. An attentive recurrent neural network finally distinguishes highly effective influencers from other influencers by capturing the knowledge of the dynamics of influencer representations over time. Extensive experiments have been conducted on an Instagram dataset that consists of 18,397 influencers with their 2,952,075 posts published within 12 months. The experimental results demonstrate that InfluencerRank outperforms existing baseline methods. An in-depth analysis further reveals that all of our proposed features and model components are beneficial to discover effective influencers.
翻訳日:2023-04-05 13:22:14 公開日:2023-04-04
# 自動走行のための道路利用者軌道予測モデルのロバスト性ベンチマーク

Robustness Benchmark of Road User Trajectory Prediction Models for Automated Driving ( http://arxiv.org/abs/2304.01895v1 )

ライセンス: Link先を確認
Manuel Mu\~noz S\'anchez, Emilia Silvas, Jos Elfring, Ren\'e van de Molengraft(参考訳) 安全な自動運転を実現するためには,道路利用者の正確な軌道予測が必要である。 これを実現するために、機械学習モデルが頻繁に使用され、以前は目に見えない入力で提示された場合、不規則な振る舞いを示すことができる。 本研究では,2つの環境意識モデル (MotionCNNとMultiPath++) と2つの共通ベースライン (Constant VelocityとLSTM) を,車両内のモデル展開中に観測される機能的不整合をシミュレートする様々な摂動に対する堅牢性についてベンチマークする。 結果は、これらの摂動の存在下では著しい性能低下を示し、一般的に用いられる軌道予測評価指標では誤差が+1444.8\%まで増加した。 同様の摂動を持つモデルのトレーニングは、パフォーマンスの劣化を効果的に低減し、エラーは+87.5\%まで増加する。 我々は、効果的な緩和戦略であるにもかかわらず、訓練中の摂動によるデータの増強は予期せぬ摂動に対する堅牢性を保証するものではないと主張している。 さらに、入力を劣化させると、より正確な予測が起こり、モデルがデータの異なる要素間の真の関係を学習できないことを示唆する。

Accurate and robust trajectory predictions of road users are needed to enable safe automated driving. To do this, machine learning models are often used, which can show erratic behavior when presented with previously unseen inputs. In this work, two environment-aware models (MotionCNN and MultiPath++) and two common baselines (Constant Velocity and an LSTM) are benchmarked for robustness against various perturbations that simulate functional insufficiencies observed during model deployment in a vehicle: unavailability of road information, late detections, and noise. Results show significant performance degradation under the presence of these perturbations, with errors increasing up to +1444.8\% in commonly used trajectory prediction evaluation metrics. Training the models with similar perturbations effectively reduces performance degradation, with error increases of up to +87.5\%. We argue that despite being an effective mitigation strategy, data augmentation through perturbations during training does not guarantee robustness towards unforeseen perturbations, since identification of all possible on-road complications is unfeasible. Furthermore, degrading the inputs sometimes leads to more accurate predictions, suggesting that the models are unable to learn the true relationships between the different elements in the data.
翻訳日:2023-04-05 13:21:51 公開日:2023-04-04
# San-BERT: BERTと変種を用いたサンスクリット文書の抽出要約

San-BERT: Extractive Summarization for Sanskrit Documents using BERT and it's variants ( http://arxiv.org/abs/2304.01894v1 )

ライセンス: Link先を確認
Kartik Bhatnagar, Sampath Lonka, Jammi Kunal and Mahabala Rao M G(参考訳) 本研究では,Devanagari Sanskrit テキストコーパスを用いた,サンスクリット語の言語モデルである Bidirectional Encoder Representations from Transformers (BERT) とその変種 A Lite BERT (ALBERT) と Robustly Optimized BERT (RoBERTa) を開発した。 そして、これらのモデルから与えられたテキストの特徴を抽出する。 我々は,sanskrit文書の抽出要約を生成するために,特徴量に対する次元縮小とクラスタリング手法を適用した。 抽出テキスト要約技術とともに,サンスクリット・デヴァナガリテキストコーパスを公開し,公開している。

In this work, we develop language models for the Sanskrit language, namely Bidirectional Encoder Representations from Transformers (BERT) and its variants: A Lite BERT (ALBERT), and Robustly Optimized BERT (RoBERTa) using Devanagari Sanskrit text corpus. Then we extracted the features for the given text from these models. We applied the dimensional reduction and clustering techniques on the features to generate an extractive summary for a given Sanskrit document. Along with the extractive text summarization techniques, we have also created and released a Sanskrit Devanagari text corpus publicly.
翻訳日:2023-04-05 13:21:24 公開日:2023-04-04
# Trace and Pace: Guided Trajectory Diffusionによる制御可能な歩行者アニメーション

Trace and Pace: Controllable Pedestrian Animation via Guided Trajectory Diffusion ( http://arxiv.org/abs/2304.01893v1 )

ライセンス: Link先を確認
Davis Rempe, Zhengyi Luo, Xue Bin Peng, Ye Yuan, Kris Kitani, Karsten Kreis, Sanja Fidler, Or Litany(参考訳) 本研究では,現実的な歩行者軌跡生成手法と,ユーザ定義目標を達成するために制御可能なフルボディアニメーションを提案する。 トラジェクトリの試験時間制御性を実現するための誘導拡散モデリングの最近の進歩は、通常ルールベースシステムにのみ関連付けられている。 提案手法により,利用者は周囲の環境条件を考慮しつつ,対象のウェイポイント,速度,特定社会グループを通じて軌道を制約できる。 この軌道拡散モデルは、新しい物理ベースのヒューマノイドコントローラと統合され、様々な地形のシミュレーション環境で大きな群衆を配置できる閉ループの全身歩行者アニメーションシステムを形成する。 さらに、アニメーションコントローラのRLトレーニング中に得られた値関数を利用して、衝突回避や不均一な地形の走行といった特定のシナリオに適した軌道を導出する。 ビデオの結果は、https://nv-tlabs.github.io/trace-paceのプロジェクトページで確認できる。

We introduce a method for generating realistic pedestrian trajectories and full-body animations that can be controlled to meet user-defined goals. We draw on recent advances in guided diffusion modeling to achieve test-time controllability of trajectories, which is normally only associated with rule-based systems. Our guided diffusion model allows users to constrain trajectories through target waypoints, speed, and specified social groups while accounting for the surrounding environment context. This trajectory diffusion model is integrated with a novel physics-based humanoid controller to form a closed-loop, full-body pedestrian animation system capable of placing large crowds in a simulated environment with varying terrains. We further propose utilizing the value function learned during RL training of the animation controller to guide diffusion to produce trajectories better suited for particular scenarios such as collision avoidance and traversing uneven terrain. Video results are available on the project page at https://nv-tlabs.github.io/trace-pace .
翻訳日:2023-04-05 13:21:09 公開日:2023-04-04
# ヘイトスピーチ検出課題におけるショット選択のための社会文化的知識

Sociocultural knowledge is needed for selection of shots in hate speech detection tasks ( http://arxiv.org/abs/2304.01890v1 )

ライセンス: Link先を確認
Antonis Maronikolakis, Abdullatif K\"oksal, Hinrich Sch\"utze(参考訳) 我々は,ブラジル,ドイツ,インド,ケニアの国々において,モデルの学習と解釈を支援するために,スラリーとヘイトスピーチのターゲットであるヘイトレクシコンを紹介する。 モデル予測の解釈に我々の語彙をどのように利用できるかを示し、極端な音声を分類するために開発されたモデルは予測を行う際にターゲット語に大きく依存することを示した。 さらに,HATELEXICONを用いた低リソース環境下での撮影選択を支援する手法を提案する。 数ショットの学習では、ショットの選択はモデルの性能において最重要となる。 本研究では,HASOCデータをトレーニング用として用い,Multilingual HateCheck (MHC) をベンチマークとして,ドイツ語とヒンディー語のいくつかの設定をシミュレートする。 我々は,我々のレキシコンに基づくショットの選択が,ランダムにサンプリングされたショットで訓練されたモデルよりも,MHCで優れた性能を示すことを示す。 したがって、いくつかのトレーニング例しか与えられていない場合、我々のレキシコンを使用して、より多くの社会文化的情報を含むショットを選択すると、より少ないパフォーマンスが得られます。

We introduce HATELEXICON, a lexicon of slurs and targets of hate speech for the countries of Brazil, Germany, India and Kenya, to aid training and interpretability of models. We demonstrate how our lexicon can be used to interpret model predictions, showing that models developed to classify extreme speech rely heavily on target words when making predictions. Further, we propose a method to aid shot selection for training in low-resource settings via HATELEXICON. In few-shot learning, the selection of shots is of paramount importance to model performance. In our work, we simulate a few-shot setting for German and Hindi, using HASOC data for training and the Multilingual HateCheck (MHC) as a benchmark. We show that selecting shots based on our lexicon leads to models performing better on MHC than models trained on shots sampled randomly. Thus, when given only a few training examples, using our lexicon to select shots containing more sociocultural information leads to better few-shot performance.
翻訳日:2023-04-05 13:20:55 公開日:2023-04-04
# 量子回線ネットワーク上で共有秘密鍵を確立する:プロトコルとセキュリティ

Establishing shared secret keys on quantum line networks: protocol and security ( http://arxiv.org/abs/2304.01881v1 )

ライセンス: Link先を確認
Mina Doosti, Lucas Hanouz, Anne Marin, Elham Kashefi, and Marc Kaplan(参考訳) 単一回線の量子通信におけるマルチユーザ鍵のセキュリティについて述べる。 より正確には、量子ビットの生成と測定を行の両端で行う量子通信アーキテクチャを考える一方、中間項は単一量子ビットユニタリ変換に制限される。 このネットワークトポロジは、従来、量子アシスト型秘密共有プロトコルの実装や、鍵となる確立、セキュアなコンピューティングのために導入されてきた。 このアーキテクチャには多くの利点がある。 中間ノードは単純なハードウェアのみを使用しており、実装が容易である。 さらに、ネットワーク内の任意のペア間のキー設定は、中間ノードを経由するキールーティングを必要としない。 これは、非隣接ノードが鍵をルーティングするために中間鍵を必要とする量子鍵分散(qkd)ネットワークとは対照的であり、それによって、これらの鍵を中間当事者に明らかにし、ルーティングプロセスを確保するために予め確立された鍵を消費する。 私たちの主な結果は、量子線ネットワークにおけるキー確立のセキュリティを示すことです。 本稿では,抽象暗号の枠組みを用いてセキュリティを示す。 これにより、セキュリティはすぐに構成可能になり、キーが暗号化やその他のタスクに使用できることを示す。

We show the security of multi-user key establishment on a single line of quantum communication. More precisely, we consider a quantum communication architecture where the qubit generation and measurement happen at the two ends of the line, whilst intermediate parties are limited to single-qubit unitary transforms. This network topology has been previously introduced to implement quantum-assisted secret-sharing protocols for classical data, as well as the key establishment, and secure computing. This architecture has numerous advantages. The intermediate nodes are only using simplified hardware, which makes them easier to implement. Moreover, key establishment between arbitrary pairs of parties in the network does not require key routing through intermediate nodes. This is in contrast with quantum key distribution (QKD) networks for which non-adjacent nodes need intermediate ones to route keys, thereby revealing these keys to intermediate parties and consuming previously established ones to secure the routing process. Our main result is to show the security of key establishment on quantum line networks. We show the security using the framework of abstract cryptography. This immediately makes the security composable, showing that the keys can be used for encryption or other tasks.
翻訳日:2023-04-05 13:20:35 公開日:2023-04-04
# 限定重み付きニューラルネットワークによる近似の理論的結果の測定

Measure theoretic results for approximation by neural networks with limited weights ( http://arxiv.org/abs/2304.01880v1 )

ライセンス: Link先を確認
Vugar Ismailov and Ekrem Savas(参考訳) 本論文では,開区間から有限個の方向としきい値で重みが変化する単一層ニューラルネットワークの近似特性について検討する。 連続関数の空間におけるそのようなネットワークの密度について、必要かつ同時に十分な測度論的条件を求める。 さらに、特定の活性化関数と固定数のニューロンを持つニューラルネットワークに対して、密度結果を示す。

In this paper, we study approximation properties of single hidden layer neural networks with weights varying on finitely many directions and thresholds from an open interval. We obtain a necessary and at the same time sufficient measure theoretic condition for density of such networks in the space of continuous functions. Further, we prove a density result for neural networks with a specifically constructed activation function and a fixed number of neurons.
翻訳日:2023-04-05 13:20:17 公開日:2023-04-04
# ニューラルネットワークのインクリメンタル検証

Incremental Verification of Neural Networks ( http://arxiv.org/abs/2304.01874v1 )

ライセンス: Link先を確認
Shubham Ugare, Debangshu Banerjee, Sasa Misailovic, Gagandeep Singh(参考訳) ディープニューラルネットワーク(DNN)の完全検証は、DNNが望ましい信頼に値する特性(例えば、堅牢性、公正性)を無限の入力セットで満足するかどうかを正確に決定することができる。 個々のDNN上での長年にわたる完全検証のスケーラビリティ向上には大きな進歩があるが、その推論速度や精度を改善するためにデプロイされたDNNが更新されたとき、本質的に非効率である。 その非効率性は、高価な検証器を更新されたDNNでゼロから実行する必要があるためである。 効率を向上させるために,新しい理論,データ構造,アルゴリズムの設計に基づくインクリメンタルかつ完全なdnn検証のための新しい汎用フレームワークを提案する。 我々の貢献はIVANというツールに実装され、MNISTとCIFAR10の分類に挑戦する上での全体的な幾何平均スピードアップ2.4倍、最先端のベースライン上でのACAS-XU分類器の幾何平均スピードアップ3.8倍となる。

Complete verification of deep neural networks (DNNs) can exactly determine whether the DNN satisfies a desired trustworthy property (e.g., robustness, fairness) on an infinite set of inputs or not. Despite the tremendous progress to improve the scalability of complete verifiers over the years on individual DNNs, they are inherently inefficient when a deployed DNN is updated to improve its inference speed or accuracy. The inefficiency is because the expensive verifier needs to be run from scratch on the updated DNN. To improve efficiency, we propose a new, general framework for incremental and complete DNN verification based on the design of novel theory, data structure, and algorithms. Our contributions implemented in a tool named IVAN yield an overall geometric mean speedup of 2.4x for verifying challenging MNIST and CIFAR10 classifiers and a geometric mean speedup of 3.8x for the ACAS-XU classifiers over the state-of-the-art baselines.
翻訳日:2023-04-05 13:20:12 公開日:2023-04-04
# 物質波輸送のための正規ハミルトン停止ラチェット

A regular Hamiltonian halting ratchet for matter wave transport ( http://arxiv.org/abs/2304.01873v1 )

ライセンス: Link先を確認
N. Dupont, L. Gabardos, F. Arrouas, N. Ombredane, J. Billy, B. Peaudecerf, D. Gu\'ery-Odelin(参考訳) 変動周期ポテンシャルの位相空間における周期的に安定な可積分軌道を利用するハミルトンラチェットの設計について報告し, 粒子の線形非拡散輸送に繋がる。 ボース=アインシュタイン凝縮体を変調された1次元光学格子に利用し、この新しい空間ラチェット輸送の最初の観測を行う。 半古典的な状態では、量子輸送はフロケ状態の混合による有効プランク定数に強く依存する。 また, 輸送周期性を高めるためにフローケット状態への効率的な初期状態生成のための量子最適制御の興味を示す。

We report on the design of a Hamiltonian ratchet exploiting periodically at rest integrable trajectories in the phase space of a modulated periodic potential, leading to the linear non-diffusive transport of particles. Using Bose-Einstein condensates in a modulated one-dimensional optical lattice, we make the first observations of this new spatial ratchet transport. In the semiclassical regime, the quantum transport strongly depends on the effective Planck constant due to Floquet state mixing. We also demonstrate the interest of quantum optimal control for efficient initial state preparation into the transporting Floquet states to enhance the transport periodicity.
翻訳日:2023-04-05 13:19:51 公開日:2023-04-04
# LLM-Adapters:大規模言語モデルのパラメータ効率の良い微調整のためのアダプタファミリー

LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models ( http://arxiv.org/abs/2304.01933v1 )

ライセンス: Link先を確認
Zhiqiang Hu, Yihuai Lan, Lei Wang, Wanyu Xu, Ee-Peng Lim, Roy Ka-Wei Lee, Lidong Bing, Soujanya Poria(参考訳) GPT-3やChatGPTのような大規模言語モデル(LLM)の成功は、タスク固有のデータ(例えばChatDoctor)や命令データ(例えばAlpaca)を使って、細調整されたオープンアクセス LLM によって作成される多くのコスト効率の良い代替品の開発につながった。 様々な微調整手法の中で、アダプタベースのパラメータ効率細調整(PEFT)は間違いなく最も魅力的なトピックの1つである。 LLMのPEFT手法のさらなる研究を可能にするために,様々なアダプタをLCMに統合し,異なるタスクに対してこれらのアダプタベースのPEFT方式を実行できるLLM-Adaptersを提案する。 このフレームワークには、LLaMA、BLOOM、OPT、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、LoRAといった広く使われているアダプタが含まれている。 このフレームワークは研究に親しみやすく、効率的で、モジュール化され、拡張可能であり、新しいアダプタの統合と、より大規模なLCMによる評価を可能にする。 さらに,LLMs-Adaptersにおけるアダプタの有効性を評価するために,6つの数学推論データセットを用いて実験を行った。 以上の結果から,小型のLLM (7B) におけるアダプタベースPEFTの使用は,訓練可能なパラメータがほとんどなく,単純な算数推論データセット上でのゼロショット推論において,強力なLLM (175B) よりも優れた性能が得られることが示された。 全体として、下流タスクで大規模LLMを微調整するための有望なフレームワークを提供する。 提案するLLM-Adaptersは、アダプタベースのPEFT研究を進め、研究パイプラインの展開を促進し、現実のシステムに実用的な応用を可能にする。

The success of large language models (LLMs), like GPT-3 and ChatGPT, has led to the development of numerous cost-effective and accessible alternatives that are created by fine-tuning open-access LLMs with task-specific data (e.g., ChatDoctor) or instruction data (e.g., Alpaca). Among the various fine-tuning methods, adapter-based parameter-efficient fine-tuning (PEFT) is undoubtedly one of the most attractive topics, as it only requires fine-tuning a few external parameters instead of the entire LLMs while achieving comparable or even better performance. To enable further research on PEFT methods of LLMs, this paper presents LLM-Adapters, an easy-to-use framework that integrates various adapters into LLMs and can execute these adapter-based PEFT methods of LLMs for different tasks. The framework includes state-of-the-art open-access LLMs such as LLaMA, BLOOM, OPT, and GPT-J, as well as widely used adapters such as Series adapter, Parallel adapter, and LoRA. The framework is designed to be research-friendly, efficient, modular, and extendable, allowing the integration of new adapters and the evaluation of them with new and larger-scale LLMs. Furthermore, to evaluate the effectiveness of adapters in LLMs-Adapters, we conduct experiments on six math reasoning datasets. The results demonstrate that using adapter-based PEFT in smaller-scale LLMs (7B) with few extra trainable parameters yields comparable, and in some cases superior, performance to that of powerful LLMs (175B) in zero-shot inference on simple math reasoning datasets. Overall, we provide a promising framework for fine-tuning large LLMs on downstream tasks. We believe the proposed LLMs-Adapters will advance adapter-based PEFT research, facilitate the deployment of research pipelines, and enable practical applications to real-world systems.
翻訳日:2023-04-05 13:15:34 公開日:2023-04-04
# 知識グラフを用いた高速ベクトル類似度探索

High-Throughput Vector Similarity Search in Knowledge Graphs ( http://arxiv.org/abs/2304.01926v1 )

ライセンス: Link先を確認
Jason Mohoney, Anil Pacaci, Shihabur Rahman Chowdhury, Ali Mousavi, Ihab F. Ilyas, Umar Farooq Minhas, Jeffrey Pound, Theodoros Rekatsinas(参考訳) オンラインレコメンデーションと検索のユースケースを提供するために、ベクターにデータをエンコードするための機械学習の採用が増えている。 その結果、最近のデータ管理システムでは、オンラインベクトル類似検索によるクエリ処理の強化が提案されている。 本研究では,知識グラフ(KG)の文脈におけるベクトル類似性探索について検討する。 KGクエリと過去のKGクエリ処理のエンティティを検索するタスクによって、クエリの一部がベクトル類似性検索に対応し、クエリの一部が基礎となるデータベクトルに関連する関係属性を述語するハイブリッドベクトル類似性検索(略してハイブリッドクエリ)に焦点を当てる。 例えば、過去のKGクエリが楽曲エンティティに対して与えられた場合、ベクトル表現が過去のKGクエリのエンティティのベクトル表現に近い新しい曲エンティティのための新しいクエリを構築したい。 しかし、KGのエンティティは、アーティストに関連する曲、ジャンル、リリース日といった非ベクター属性も持っている。 したがって、提案されたエンティティは、ベクトルベースの類似性述語以外の非ベクトル属性に対するクエリ述語も満たさなければならない。 これらのタスクはKGの中心ですが、私たちのコントリビューションは一般的にハイブリッドクエリに適用できます。 オンラインクエリを最適化する以前の作業とは対照的に、過去のハイブリッドクエリワークロードの効率的なバッチ処理の実現に重点を置いています。 本稿では,ハイブリッドクエリの高スループットバッチ処理のためのシステムhqiを提案する。 本稿では,与えられたワークロードに対してベクトルインデックスレイアウトを調整するためのワークロード対応ベクトルデータパーティショニングスキームを導入し,ベクトル類似性計算のオーバーヘッドを削減するマルチクエリ最適化手法について述べる。 産業負荷に対する我々の手法を評価し,HQIが既存のハイブリッドクエリ処理手法と比較して,関連するKGクエリのスループットを31倍に向上することを示す。

There is an increasing adoption of machine learning for encoding data into vectors to serve online recommendation and search use cases. As a result, recent data management systems propose augmenting query processing with online vector similarity search. In this work, we explore vector similarity search in the context of Knowledge Graphs (KGs). Motivated by the tasks of finding related KG queries and entities for past KG query workloads, we focus on hybrid vector similarity search (hybrid queries for short) where part of the query corresponds to vector similarity search and part of the query corresponds to predicates over relational attributes associated with the underlying data vectors. For example, given past KG queries for a song entity, we want to construct new queries for new song entities whose vector representations are close to the vector representation of the entity in the past KG query. But entities in a KG also have non-vector attributes such as a song associated with an artist, a genre, and a release date. Therefore, suggested entities must also satisfy query predicates over non-vector attributes beyond a vector-based similarity predicate. While these tasks are central to KGs, our contributions are generally applicable to hybrid queries. In contrast to prior works that optimize online queries, we focus on enabling efficient batch processing of past hybrid query workloads. We present our system, HQI, for high-throughput batch processing of hybrid queries. We introduce a workload-aware vector data partitioning scheme to tailor the vector index layout to the given workload and describe a multi-query optimization technique to reduce the overhead of vector similarity computations. We evaluate our methods on industrial workloads and demonstrate that HQI yields a 31x improvement in throughput for finding related KG queries compared to existing hybrid query processing approaches.
翻訳日:2023-04-05 13:14:56 公開日:2023-04-04
# スラヴ語における文脈内学習のための資源と少数学習者

Resources and Few-shot Learners for In-context Learning in Slavic Languages ( http://arxiv.org/abs/2304.01922v1 )

ライセンス: Link先を確認
Michal \v{S}tef\'anik and Marek Kadl\v{c}\'ik and Piotr Gramacki and Petr Sojka(参考訳) 正確でコンパクトなインコンテキスト学習者作成の急速な進歩にもかかわらず、最近の研究は英語でのタスクのインコンテキスト学習(icl)に焦点を当てている。 しかし、英語以外の言語のユーザと対話する能力は、非英語話者への言語技術の適用範囲を広げる大きな可能性を秘めている。 本研究は,チェコ語,ポーランド語,ロシア語などのスラヴ語の選択において,ICLの訓練と評価に必要なインフラを収集する。 さまざまなデータセットをリンクして,一連の変換と,純粋にターゲット言語で記述された新たなテンプレートを通じて,統一的なインストラクタ形式にキャストします。 新たに作成したデータセットを用いて,最新のin-context学習者のセットを評価し,その結果を教師付きベースラインと比較する。 最後に、収集したリソースに基づいてトレーニングし、そのパフォーマンスを以前の作業と比較する、一連のコンテキスト内学習モデルをトレーニング、評価、公開します。 英語で調整されたICLモデルは、非英語の文脈からタスクを学習できるが、多言語命令の微調整は一貫してICL能力を改善する。 また、大規模マルチタスクトレーニングは、ターゲット言語におけるシングルタスクトレーニングによってより優れており、コンテキスト内学習者をアプリケーションの言語に特化できる可能性を見出している。

Despite the rapid recent progress in creating accurate and compact in-context learners, most recent work focuses on in-context learning (ICL) for tasks in English. However, the ability to interact with users of languages outside English presents a great potential for broadening the applicability of language technologies to non-English speakers. In this work, we collect the infrastructure necessary for training and evaluation of ICL in a selection of Slavic languages: Czech, Polish, and Russian. We link a diverse set of datasets and cast these into a unified instructional format through a set of transformations and newly-crafted templates written purely in target languages. Using the newly-curated dataset, we evaluate a set of the most recent in-context learners and compare their results to the supervised baselines. Finally, we train, evaluate and publish a set of in-context learning models that we train on the collected resources and compare their performance to previous work. We find that ICL models tuned in English are also able to learn some tasks from non-English contexts, but multilingual instruction fine-tuning consistently improves the ICL ability. We also find that the massive multitask training can be outperformed by single-task training in the target language, uncovering the potential for specializing in-context learners to the language(s) of their application.
翻訳日:2023-04-05 13:14:28 公開日:2023-04-04
# パラメータ効率の良いFew-Shotファインチューニングのための強ベースライン

Strong Baselines for Parameter Efficient Few-Shot Fine-tuning ( http://arxiv.org/abs/2304.01917v1 )

ライセンス: Link先を確認
Samyadeep Basu, Daniela Massiceti, Shell Xu Hu, Soheil Feizi(参考訳) FSC (Few-shot Classification) は、一組のベースクラスの事前訓練(メタトレーニング)フェーズの後に、クラス毎にいくつかの例しか与えない新しいクラスを学習する。 近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。 しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。 これは、トランスフォーマーのパラメータのほんの一部だけを微調整するパラメータ効率の良い微調整(peft)メソッドの設計を動機付けた。 これらの手法は有望であるが、実験条件の不整合は、特徴抽出器アーキテクチャ、事前学習初期化、微調整アルゴリズムなど、他の実験要素との利点を解消することが困難である。 本稿では,画像分類のためのPEFTを大規模かつ実験的に一貫した実験分析により検討する。 MD (Meta-Dataset) やORBIT (ORBIT) を含む大規模数点撮影ベンチマークで1.8k以上の制御実験を行い, 数点撮影分類のための微調整VTの有効性に光を当てたPEFTに関する新たな知見を明らかにした。 コントロールされた実証研究を通して 主な発見が2つあります (i)LayerNormパラメータ(LN-Tuneと呼ぶ)のみの微調整は、自己監督目的と教師対象の両方で事前訓練されたViT間で非常に強力なベースラインである。 (ii) 自己管理型ViTでは、各アテンションマトリックス(AttnScaleと呼ぶ)のスケーリングパラメータセットをドメイン残留アダプタ(DRA)モジュールとともに学習するだけで、最先端のパフォーマンス($\sim\! md で 9$\times$ よりパラメータ効率が高い)。 広範な実証実験により,FSCのためのPEFT法の設計の見直しが求められた。

Few-shot classification (FSC) entails learning novel classes given only a few examples per class after a pre-training (or meta-training) phase on a set of base classes. Recent works have shown that simply fine-tuning a pre-trained Vision Transformer (ViT) on new test classes is a strong approach for FSC. Fine-tuning ViTs, however, is expensive in time, compute and storage. This has motivated the design of parameter efficient fine-tuning (PEFT) methods which fine-tune only a fraction of the Transformer's parameters. While these methods have shown promise, inconsistencies in experimental conditions make it difficult to disentangle their advantage from other experimental factors including the feature extractor architecture, pre-trained initialization and fine-tuning algorithm, amongst others. In our paper, we conduct a large-scale, experimentally consistent, empirical analysis to study PEFTs for few-shot image classification. Through a battery of over 1.8k controlled experiments on large-scale few-shot benchmarks including Meta-Dataset (MD) and ORBIT, we uncover novel insights on PEFTs that cast light on their efficacy in fine-tuning ViTs for few-shot classification. Through our controlled empirical study, we have two main findings: (i) Fine-tuning just the LayerNorm parameters (which we call LN-Tune) during few-shot adaptation is an extremely strong baseline across ViTs pre-trained with both self-supervised and supervised objectives, (ii) For self-supervised ViTs, we find that simply learning a set of scaling parameters for each attention matrix (which we call AttnScale) along with a domain-residual adapter (DRA) module leads to state-of-the-art performance (while being $\sim\!$ 9$\times$ more parameter-efficient) on MD. Our extensive empirical findings set strong baselines and call for rethinking the current design of PEFT methods for FSC.
翻訳日:2023-04-05 13:14:07 公開日:2023-04-04
# Calibrated Chaos: ニューラルネットワークトレーニングの実行時間間のばらつきは無害で必然的

Calibrated Chaos: Variance Between Runs of Neural Network Training is Harmless and Inevitable ( http://arxiv.org/abs/2304.01910v1 )

ライセンス: Link先を確認
Keller Jordan(参考訳) 典型的なニューラルネットワークトレーニングは、繰り返し実行間のテストセットのパフォーマンスにかなりのばらつきがあり、ハイパーパラメータ比較とトレーニング再現性を妨げる。 この変異を理解するために, 以下の結果を示す。 1) CIFAR-10 と ImageNet の標準トレーニングは,テストセットに有意なばらつきがあるにもかかわらず,これらのテストセットをサンプリングしたテスト分布において,その性能にはほとんどばらつきがないことを示す。 2) テストセットの精度分布の構造をよく近似した, 簡易な統計的仮定を提案する。 (3) テストセットの分散は次の2つの意味で不可避である。 まず,データ順序や拡張といったランダム性の特定の源からではなく,初期条件に対するトレーニングプロセスの高感度化が原因であることを示す。 第二に、訓練されたネットワークのアンサンブルが十分に校正されているという観察から、分散は避けられないことを証明する。 (4)分散シフト,微調整,データ拡張,学習率の予備研究を,ラン間の分散のレンズを通して実施する。

Typical neural network trainings have substantial variance in test-set performance between repeated runs, impeding hyperparameter comparison and training reproducibility. We present the following results towards understanding this variation. (1) Despite having significant variance on their test-sets, we demonstrate that standard CIFAR-10 and ImageNet trainings have very little variance in their performance on the test-distributions from which those test-sets are sampled, suggesting that variance is less of a practical issue than previously thought. (2) We present a simplifying statistical assumption which closely approximates the structure of the test-set accuracy distribution. (3) We argue that test-set variance is inevitable in the following two senses. First, we show that variance is largely caused by high sensitivity of the training process to initial conditions, rather than by specific sources of randomness like the data order and augmentations. Second, we prove that variance is unavoidable given the observation that ensembles of trained networks are well-calibrated. (4) We conduct preliminary studies of distribution-shift, fine-tuning, data augmentation and learning rate through the lens of variance between runs.
翻訳日:2023-04-05 13:13:26 公開日:2023-04-04
# ディープフェイク検出のためのディープラーニングアプローチの活用:レビュー

Leveraging Deep Learning Approaches for Deepfake Detection: A Review ( http://arxiv.org/abs/2304.01908v1 )

ライセンス: Link先を確認
Aniruddha Tiwari, Rushit Dave, Mounika Vanamala(参考訳) 機械学習とディープラーニングの分野における顕著な進歩は、しばしばディープフェイクと呼ばれる、非常に現実的なフェイクメディアの躍進につながっている。 deepfake(ディープフェイク)は、洗練されたaiが生成するメディアであり、現実のメディアと区別するのが非常に難しい。 これまでのところ、このメディアはさまざまなソーシャルメディアプラットフォームにアップロードできるため、世界への広告が簡単になり、効果的な対策が求められている。 したがって、ディープフェイクに対する楽観的なカウンターステップの1つはディープフェイク検出である。 この脅威に対処するため、過去の研究者は畳み込みニューラルネットワークのようなML/DL技術に基づいてディープフェイクを検出するモデルを開発した。 本稿では,データセットの一般化可能性に対処するため,データセットの種類によって高い精度でコスト効率のモデルを実現するため,様々な方法論を検討することを目的とする。

Conspicuous progression in the field of machine learning and deep learning have led the jump of highly realistic fake media, these media oftentimes referred as deepfakes. Deepfakes are fabricated media which are generated by sophisticated AI that are at times very difficult to set apart from the real media. So far, this media can be uploaded to the various social media platforms, hence advertising it to the world got easy, calling for an efficacious countermeasure. Thus, one of the optimistic counter steps against deepfake would be deepfake detection. To undertake this threat, researchers in the past have created models to detect deepfakes based on ML/DL techniques like Convolutional Neural Networks. This paper aims to explore different methodologies with an intention to achieve a cost-effective model with a higher accuracy with different types of the datasets, which is to address the generalizability of the dataset.
翻訳日:2023-04-05 13:12:53 公開日:2023-04-04
# Torch-Choice: Pythonによる大規模選択モデリングのためのPyTorchパッケージ

Torch-Choice: A PyTorch Package for Large-Scale Choice Modelling with Python ( http://arxiv.org/abs/2304.01906v1 )

ライセンス: Link先を確認
Tianyu Du, Ayush Kanodia and Susan Athey(参考訳) $\texttt{torch-choice}$は、PythonとPyTorchを使った柔軟で高速な選択モデリングのためのオープンソースライブラリである。 データベースを柔軟かつメモリ効率良く管理するための$\texttt{torch-choice}$データ構造を提供する。 この記事では、$\texttt{ChoiceDataset}$のさまざまなフォーマットと機能を持つデータベースから$\textt{ChoiceDataset}$を構築することを実証する。 このパッケージは、多項ロジットとネストロジットモデルという2つの広く使われているモデルを実装し、モデル推定中に正規化をサポートする。 このパッケージには、推定にGPUを利用するオプションが含まれており、計算効率が良く、大量のデータセットにスケールできる。 モデルは R-style formula strings または Python dictionary を使って初期化することができる。 結論として, r における $\textt{torch-choice}$ と $\texttt{mlogit}$ の計算効率を比較して, (1) 観測数の増加, (2) 共変数数の増加, (3) 項目集合の拡大について考察した。 最後に、大規模データセット上で$\texttt{torch-choice}$のスケーラビリティを示す。

The $\texttt{torch-choice}$ is an open-source library for flexible, fast choice modeling with Python and PyTorch. $\texttt{torch-choice}$ provides a $\texttt{ChoiceDataset}$ data structure to manage databases flexibly and memory-efficiently. The paper demonstrates constructing a $\texttt{ChoiceDataset}$ from databases of various formats and functionalities of $\texttt{ChoiceDataset}$. The package implements two widely used models, namely the multinomial logit and nested logit models, and supports regularization during model estimation. The package incorporates the option to take advantage of GPUs for estimation, allowing it to scale to massive datasets while being computationally efficient. Models can be initialized using either R-style formula strings or Python dictionaries. We conclude with a comparison of the computational efficiencies of $\texttt{torch-choice}$ and $\texttt{mlogit}$ in R as (1) the number of observations increases, (2) the number of covariates increases, and (3) the expansion of item sets. Finally, we demonstrate the scalability of $\texttt{torch-choice}$ on large-scale datasets.
翻訳日:2023-04-05 13:12:28 公開日:2023-04-04
# ReFINER: 中間表現に対するフィードバックの推論

REFINER: Reasoning Feedback on Intermediate Representations ( http://arxiv.org/abs/2304.01904v1 )

ライセンス: Link先を確認
Debjit Paul, Mete Ismayilzada, Maxime Peyrard, Beatriz Borges, Antoine Bosselut, Robert West, and Boi Faltings(参考訳) 言語モデル(LM)は、最近、中間推論を明示的に生成することで推論タスクに顕著な性能を示した。 しかし、これらの中間推論ステップは、初期文脈からの不適切な推論であり、誤った最終予測をもたらす可能性がある。 本稿では,lmsを微調整し,中間的推論ステップを明示的に生成するフレームワークであるrefinerについて紹介する。 具体的には、批判者はLMが中間引数を反復的に改善するために使用する推論に関する構造化されたフィードバックを提供する。 3つの多様な推論タスクにおけるREFINERの実証評価は、同等のスケールのベースラインLMよりも大幅に改善されている。 さらに, GPT3.5を推理器として使用する場合, 推理器を微調整することなく推理を著しく改善する。 最後に、当社の批判モデルは、高価なループ内データなしでトレーニングされますが、推論時に人間に置き換えることができます。

Language models (LMs) have recently shown remarkable performance on reasoning tasks by explicitly generating intermediate inferences, e.g., chain-of-thought prompting. However, these intermediate inference steps may be inappropriate deductions from the initial context and lead to incorrect final predictions. Here we introduce REFINER, a framework for finetuning LMs to explicitly generate intermediate reasoning steps while interacting with a critic model that provides automated feedback on the reasoning. Specifically, the critic provides structured feedback that the reasoning LM uses to iteratively improve its intermediate arguments. Empirical evaluations of REFINER on three diverse reasoning tasks show significant improvements over baseline LMs of comparable scale. Furthermore, when using GPT3.5 as the reasoner, the trained critic significantly improves reasoning without finetuning the reasoner. Finally, our critic model is trained without expensive human-in-the-loop data but can be substituted with humans at inference time.
翻訳日:2023-04-05 13:11:46 公開日:2023-04-04
# PODIA-3D: Pose-Preserved Text-to- Image Diffusion を用いた大面積領域ギャップにおける3次元生成モデルのドメイン適応

PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain Gap Using Pose-Preserved Text-to-Image Diffusion ( http://arxiv.org/abs/2304.01900v1 )

ライセンス: Link先を確認
Gwanghyun Kim, Ji Ha Jang, Se Young Chun(参考訳) 近年、3次元生成モデルにおいて重要な進歩がなされているが、これらのモデルを多様なドメインにまたがるトレーニングは困難であり、膨大なトレーニングデータとポーズ分布に関する知識を必要とする。 テキストガイドによるドメイン適応手法により、ジェネレータはテキストプロンプトを使用してターゲットドメインに適応できるため、多数のデータを組み立てる必要がなくなる。 近年,DATID-3Dはテキスト誘導領域におけるサンプルの印象的な品質を示し,テキスト間拡散を利用してテキストの多様性を保っている。 しかし、3Dジェネレータをソースドメインから大きなドメインギャップを持つドメインに適応させることは、現在のテキスト・画像拡散モデルの問題により、依然として難しい。 1)拡散に基づく翻訳における形状的トレードオフ 2)偏りを生じさせ, 3) 対象ドメインのインスタンスバイアスは, 3次元形状が劣り, テキスト画像の対応が低く, 生成サンプルのドメイン内多様性が低かった。 これらの問題に対処するために、ポーズ保存されたテキストから画像への拡散に基づくドメイン適応を用いたPODIA-3Dという新しいパイプラインを提案する。 ポーズ保存されたテキストと画像の拡散モデルを構築し、極めて高レベルなノイズを重要なドメイン変更に利用できるようにする。 また, 生成試料の詳細を改善するために, 汎用的なサンプリング戦略を提案する。 さらに,インスタンスバイアスを克服するために,ドメイン内多様性を向上させるテキストガイドデバイアス手法を導入する。 その結果,本手法は重要な領域間隙に3次元ジェネレータを適応させることに成功した。 質的結果とユーザスタディにより,提案手法は,テキスト画像対応,リアリズム,レンダリング画像の多様性,生成したサンプルにおける3次元形状の深さ感覚といった観点で,既存の3次元テキスト誘導ドメイン適応手法よりも優れていることが示された。

Recently, significant advancements have been made in 3D generative models, however training these models across diverse domains is challenging and requires an huge amount of training data and knowledge of pose distribution. Text-guided domain adaptation methods have allowed the generator to be adapted to the target domains using text prompts, thereby obviating the need for assembling numerous data. Recently, DATID-3D presents impressive quality of samples in text-guided domain, preserving diversity in text by leveraging text-to-image diffusion. However, adapting 3D generators to domains with significant domain gaps from the source domain still remains challenging due to issues in current text-to-image diffusion models as following: 1) shape-pose trade-off in diffusion-based translation, 2) pose bias, and 3) instance bias in the target domain, resulting in inferior 3D shapes, low text-image correspondence, and low intra-domain diversity in the generated samples. To address these issues, we propose a novel pipeline called PODIA-3D, which uses pose-preserved text-to-image diffusion-based domain adaptation for 3D generative models. We construct a pose-preserved text-to-image diffusion model that allows the use of extremely high-level noise for significant domain changes. We also propose specialized-to-general sampling strategies to improve the details of the generated samples. Moreover, to overcome the instance bias, we introduce a text-guided debiasing method that improves intra-domain diversity. Consequently, our method successfully adapts 3D generators across significant domain gaps. Our qualitative results and user study demonstrates that our approach outperforms existing 3D text-guided domain adaptation methods in terms of text-image correspondence, realism, diversity of rendered images, and sense of depth of 3D shapes in the generated samples
翻訳日:2023-04-05 13:11:31 公開日:2023-04-04
# MEGClass: ミューチュアルエンハンシングテキスト粒度による極弱スーパービジョンによるテキスト分類

MEGClass: Text Classification with Extremely Weak Supervision via Mutually-Enhancing Text Granularities ( http://arxiv.org/abs/2304.01969v1 )

ライセンス: Link先を確認
Priyanka Kargupta, Tanay Komarlu, Susik Yoon, Xuan Wang, Jiawei Han(参考訳) テキスト分類は一般的に、動的に出現するドメインで取得するのにコストがかかる、監督を行うために、かなりの量の人称データを必要とする。 ある種の手法は、クラス名の表層テキストのみを頼りにしてこの問題に対処し、極めて弱い監督役を務める。 しかし、既存のメソッドは複数のトピックを議論するシングルクラスドキュメントを考慮しない。 トピックの多様性とあいまいな文は、ドキュメントの基盤となる表現にノイズをもたらし、その結果、予測されるクラスの正確さをもたらす可能性がある。 さらに、現在の研究はテキストの粒度(文書、文、言葉)を独立に重視しており、これらは3つ全てから共同で抽出できる粗い文脈や細かな文脈の程度を制限し、分類のための重要なサブテキストを識別する。 この問題に対処するために,Mutually-Enhancing Text Granularitiesを活用するために,非常に弱い教師付きテキスト分類法であるMEGClassを提案する。 具体的には、文書の初期クラス分布を推定するために、文レベルの信頼度重み付きラベルアンサンブルを実行するキーワードに基づいて、クラス指向の文とクラス表現を構築する。 これはクラス重み付けされたコントラスト損失を持つマルチヘッドアテンションネットワークのターゲット分布として機能する。 このネットワークは文脈化された文表現と重みを学習し、元の文書と文レベルのトピックの多様性を反映した文書表現を形成する。 この異質性を保持することで、megclassはクラス表現を強化するための反復的なフィードバックとして、最もクラスを示すドキュメントを選択できる。 最後に、これらのトップドキュメントを使用して、事前学習されたテキスト分類器を微調整する。 6つのベンチマークデータセットに関する広範な実験で示されたように、MEGClassは他の弱い、非常に弱い教師付き手法よりも優れている。

Text classification typically requires a substantial amount of human-annotated data to serve as supervision, which is costly to obtain in dynamic emerging domains. Certain methods seek to address this problem by solely relying on the surface text of class names to serve as extremely weak supervision. However, existing methods fail to account for single-class documents discussing multiple topics. Both topic diversity and vague sentences may introduce noise into the document's underlying representation and consequently the precision of the predicted class. Furthermore, current work focuses on text granularities (documents, sentences, or words) independently, which limits the degree of coarse- or fine-grained context that we can jointly extract from all three to identify significant subtext for classification. In order to address this problem, we propose MEGClass, an extremely weakly-supervised text classification method to exploit Mutually-Enhancing Text Granularities. Specifically, MEGClass constructs class-oriented sentence and class representations based on keywords for performing a sentence-level confidence-weighted label ensemble in order to estimate a document's initial class distribution. This serves as the target distribution for a multi-head attention network with a class-weighted contrastive loss. This network learns contextualized sentence representations and weights to form document representations that reflect its original document and sentence-level topic diversity. Retaining this heterogeneity allows MEGClass to select the most class-indicative documents to serve as iterative feedback for enhancing the class representations. Finally, these top documents are used to fine-tune a pre-trained text classifier. As demonstrated through extensive experiments on six benchmark datasets, MEGClass outperforms other weakly and extremely weakly supervised methods.
翻訳日:2023-04-05 13:04:35 公開日:2023-04-04
# 高速限定光音響トモグラフィーのためのモデル補正学習原始双対モデル

Model-corrected learned primal-dual models for fast limited-view photoacoustic tomography ( http://arxiv.org/abs/2304.01963v1 )

ライセンス: Link先を確認
Andreas Hauptmann and Jenni Poimala(参考訳) 学習された反復的再構成は、モデル摂動に対する経験的堅牢性で断層撮影を加速する大きな約束を持っている。 それでも、光音響トモグラフィーの採用は、計算コストのかかるフォワードモデルを繰り返し評価する必要性から妨げられている。 高速近似モデルを用いることで計算可能性を得ることができるが、モデル誤差を補う必要が生じる。 本研究では,モデル補正を基礎的枠組みに組み込むことにより,学習画像再構成におけるモデル補正の方法論的・理論的基礎を前進させる。 ここで、モデル補正は、未ロールのエンドツーエンド学習反復再構築アプローチ内の画像空間における学習更新演算子と組み合わせて、データ空間で共同で学習される。 提案する定式化により,不動点収束とトレーニングのメモリ要件の低減を両立した,初等二次深部平衡モデルの拡張が可能となる。 提案するモデルに対する理論的および経験的洞察を,現実的な2次元有限視点設定で数値検証により提供する。 光音響トモグラフィーにおけるリアルタイム能動的かつスケーラブルな反復的再構成のための方法論的基盤を提供する。

Learned iterative reconstructions hold great promise to accelerate tomographic imaging with empirical robustness to model perturbations. Nevertheless, an adoption for photoacoustic tomography is hindered by the need to repeatedly evaluate the computational expensive forward model. Computational feasibility can be obtained by the use of fast approximate models, but a need to compensate model errors arises. In this work we advance the methodological and theoretical basis for model corrections in learned image reconstructions by embedding the model correction in a learned primal-dual framework. Here, the model correction is jointly learned in data space coupled with a learned updating operator in image space within an unrolled end-to-end learned iterative reconstruction approach. The proposed formulation allows an extension to a primal-dual deep equilibrium model providing fixed-point convergence as well as reduced memory requirements for training. We provide theoretical and empirical insights into the proposed models with numerical validation in a realistic 2D limited-view setting. The model-corrected learned primal-dual methods show excellent reconstruction quality with fast inference times and thus providing a methodological basis for real-time capable and scalable iterative reconstructions in photoacoustic tomography.
翻訳日:2023-04-05 13:04:07 公開日:2023-04-04
# 赤外線画像を用いたエチレン漏れ検出のベンチマーク

Ethylene Leak Detection Based on Infrared Imaging: A Benchmark ( http://arxiv.org/abs/2304.01962v1 )

ライセンス: Link先を確認
Xuanchao Ma and Yuchen Liu(参考訳) エチレン漏れ検出は, 石油化学工業におけるエチレン漏れが生産安全や環境汚染と密接に関係していることから, ターゲット検出分野において最も重要な研究方向の一つとなっている。 赤外線条件下では, エチレン濃度, 背景など, エチレンのテクスチャ特性に影響を与える要因が多数存在する。 赤外線エチレンリーク検出研究で用いられる検出基準は,現在の画像に基づく目標検出手法の性能評価には適さない実世界の生産条件を完全に反映できないことがわかった。 そこで我々は, 54275画像を含む濃度と背景の異なるエチレン漏れの新しい赤外線画像データセットを作成する。 提案したデータセットベンチマークを用いて、7つの高度な画像ベースターゲット検出アルゴリズムを評価する。 実験結果は既存のアルゴリズムの性能と限界を示し、データセットベンチマークは優れた汎用性と有効性を示している。

Ethylene leakage detection has become one of the most important research directions in the field of target detection due to the fact that ethylene leakage in the petrochemical industry is closely related to production safety and environmental pollution. Under infrared conditions, there are many factors that affect the texture characteristics of ethylene, such as ethylene concentration, background, and so on. We find that the detection criteria used in infrared imaging ethylene leakage detection research cannot fully reflect real-world production conditions, which is not conducive to evaluate the performance of current image-based target detection methods. Therefore, we create a new infrared image dataset of ethylene leakage with different concentrations and backgrounds, including 54275 images. We use the proposed dataset benchmark to evaluate seven advanced image-based target detection algorithms. Experimental results demonstrate the performance and limitations of existing algorithms, and the dataset benchmark has good versatility and effectiveness.
翻訳日:2023-04-05 13:03:47 公開日:2023-04-04
# AToMiC: マルチメディアコンテンツ作成をサポートする画像/テキスト検索テストコレクション

AToMiC: An Image/Text Retrieval Test Collection to Support Multimedia Content Creation ( http://arxiv.org/abs/2304.01961v1 )

ライセンス: Link先を確認
Jheng-Hong Yang, Carlos Lassance, Rafael Sampaio de Rezende, Krishna Srinivasan, Miriam Redi, St\'ephane Clinchant, Jimmy Lin(参考訳) 本稿では,画像/テキストクロスモーダル検索の研究を進めるために設計されたatomic(authoring tools for multimedia content)データセットを提案する。 視覚言語による事前学習型トランスフォーマーは、検索効率を大幅に向上させたが、既存の研究は、単純な画像テキスト関係と検索タスクの未特定ユーザモデルのみを特徴とする画像キャプチャデータセットに依存している。 これらの単純化された設定とマルチメディアコンテンツ作成のための実世界のアプリケーションとのギャップに対処するために,検索テストコレクションを構築するための新しいアプローチを提案する。 我々は、階層構造とテキスト、スタイル、画像の種類、およびwikipediaに埋め込まれた大規模な画像文書関連を利用する。 現実的なユーザモデルに基づいて2つのタスクを定式化し,ベースラインモデルを用いた検索実験を通じてデータセットを検証する。 AToMiCはスケーラブルで多様な再現可能なマルチメディア検索研究のためのテストベッドを提供する。 最後に、データセットは、2023 Text Retrieval Conference (TREC)で専用トラックの基礎を提供し、https://github.com/TREC-AToMiC/AToMiCで公開されている。

This paper presents the AToMiC (Authoring Tools for Multimedia Content) dataset, designed to advance research in image/text cross-modal retrieval. While vision-language pretrained transformers have led to significant improvements in retrieval effectiveness, existing research has relied on image-caption datasets that feature only simplistic image-text relationships and underspecified user models of retrieval tasks. To address the gap between these oversimplified settings and real-world applications for multimedia content creation, we introduce a new approach for building retrieval test collections. We leverage hierarchical structures and diverse domains of texts, styles, and types of images, as well as large-scale image-document associations embedded in Wikipedia. We formulate two tasks based on a realistic user model and validate our dataset through retrieval experiments using baseline models. AToMiC offers a testbed for scalable, diverse, and reproducible multimedia retrieval research. Finally, the dataset provides the basis for a dedicated track at the 2023 Text Retrieval Conference (TREC), and is publicly available at https://github.com/TREC-AToMiC/AToMiC.
翻訳日:2023-04-05 13:03:33 公開日:2023-04-04
# 領域一般化のためのランダム化逆流摂動

Randomized Adversarial Style Perturbations for Domain Generalization ( http://arxiv.org/abs/2304.01959v1 )

ライセンス: Link先を確認
Taehoon Kim, Bohyung Han(参考訳) 本稿では,各領域の特性をスタイルに対応する特徴統計量で捉えた,ランダム化逆型摂動 (rasp) と呼ばれる新しい領域一般化手法を提案する。 提案アルゴリズムは, ランダムに選択されたクラスに対して, 対角方向の特徴のスタイルを乱し, 予期せぬ対象領域で観測される予期せぬスタイルに誤解されないよう学習する。 RASPはドメインシフトを扱うのに効果的だが、訓練手順への素直な統合は、表現の摂動に制限がないため、ソースドメインから知識を学ぶ能力を低下させる可能性がある。 この課題は正規化された特徴混在(NFM)によって緩和され、トレーニング中に混在した表現に対して堅牢性を確保しながら、元の特徴の学習を容易にする。 提案アルゴリズムは,様々なベンチマークによる広範な実験により評価され,特に大規模ベンチマークにおいて,領域一般化性能が向上することを示す。

We propose a novel domain generalization technique, referred to as Randomized Adversarial Style Perturbation (RASP), which is motivated by the observation that the characteristics of each domain are captured by the feature statistics corresponding to style. The proposed algorithm perturbs the style of a feature in an adversarial direction towards a randomly selected class, and makes the model learn against being misled by the unexpected styles observed in unseen target domains. While RASP is effective to handle domain shifts, its naive integration into the training procedure might degrade the capability of learning knowledge from source domains because it has no restriction on the perturbations of representations. This challenge is alleviated by Normalized Feature Mixup (NFM), which facilitates the learning of the original features while achieving robustness to perturbed representations via their mixup during training. We evaluate the proposed algorithm via extensive experiments on various benchmarks and show that our approach improves domain generalization performance, especially in large-scale benchmarks.
翻訳日:2023-04-05 13:03:13 公開日:2023-04-04
# 通勤作用素モデルにおけるほぼ同期相関

Almost synchronous correlations in the commuting operator model ( http://arxiv.org/abs/2304.01940v1 )

ライセンス: Link先を確認
Junqiao Lin(参考訳) 我々は, ほぼ同期関係が, 可換作用素モデルにおける同期相関の集合の平均に近似できることを証明した。 これは、有限次元の量子相関にのみ適用される vidick [jmp, 2022] の結果を一般化する。 共役として、量子テンソル符号がji等からテストされていることを示す。 [IEEE 2022]は一般通勤運転者モデルにおいても音質特性に従う。 この証明の核心では, 可換作用素モデルにおける任意の2つの相関関係を, 本論文で紹介する可換作用素戦略のクラスであるtracial embedded strategyを用いて近似できることを実証する。 これにより、有限次元の場合(例えば小さなフォーベニウスノルム)から可換作用素モデルまで、いくつかの数学的ツールを拡張できる。 このタイプの戦略は、無限次元設定における非局所ゲームに関するさらなる理解に役立つと信じている。

We prove that any approximately synchronous correlation can be approximated to the average of a collection of synchronous correlations in the commuting operator model. This generalizes the result from Vidick [JMP, 2022], which only applies to finite-dimensional quantum correlations. As a corollary, we show that the quantum tensor code test from Ji et al. [IEEE 2022] follows the soundness property even under the general commuting operator model. At the heart of our proof, we demonstrate that any two-party correlation in the commuting operator model can be approximated using a tracial embedded strategy, a class of commuting operator strategy we introduce in this paper. This allows us to extend several mathematical tools from the finite-dimensional case (such as the little Forbenius norm) to the commuting operator model. We believe this class of strategy can be helpful for further understanding on non-local games in the infinite-dimensional setting.
翻訳日:2023-04-05 13:01:50 公開日:2023-04-04
# DWA:画像超解像用微分ウェーブレット増幅器

DWA: Differential Wavelet Amplifier for Image Super-Resolution ( http://arxiv.org/abs/2304.01994v1 )

ライセンス: Link先を確認
Brian Moser, Stanislav Frolov, Federico Raue, Sebastian Palacio, Andreas Dengel(参考訳) 本稿では,ウェーブレットベースイメージスーパーレゾリューション(sr)のためのドロップインモジュールであるディファレンシャルウェーブレット増幅器(dwa)を紹介する。 DWAは、最近あまり注目されていないアプローチ、すなわち離散ウェーブレット変換(DWT)を活性化する。 DWTは、SRの効率的な画像表現を可能にし、入力の空間面積を4倍に削減し、モデルサイズ全体と計算コストを、持続可能なMLのための魅力的なアプローチとしてフレーミングする。 提案するdwaモデルは,2つの畳み込みフィルタの差を利用して,ウェーブレット領域の特徴抽出を洗練し,局所コントラストを強調し,入力信号の共通ノイズを抑制することにより,ウェーブレットに基づくsrモデルを改善する。 既存のSRモデル、例えばDWSRやMWCNNに組み込むことで、その効果を示し、古典的SRタスクの明確な改善を示す。 さらに、DWAはDWSRとMWCNNの直接的な画像空間の入力を可能にし、従来のDWTを省略するため、DWT表現をチャネルワイズで削減する。

This work introduces Differential Wavelet Amplifier (DWA), a drop-in module for wavelet-based image Super-Resolution (SR). DWA invigorates an approach recently receiving less attention, namely Discrete Wavelet Transformation (DWT). DWT enables an efficient image representation for SR and reduces the spatial area of its input by a factor of 4, the overall model size, and computation cost, framing it as an attractive approach for sustainable ML. Our proposed DWA model improves wavelet-based SR models by leveraging the difference between two convolutional filters to refine relevant feature extraction in the wavelet domain, emphasizing local contrasts and suppressing common noise in the input signals. We show its effectiveness by integrating it into existing SR models, e.g., DWSR and MWCNN, and demonstrate a clear improvement in classical SR tasks. Moreover, DWA enables a direct application of DWSR and MWCNN to input image space, reducing the DWT representation channel-wise since it omits traditional DWT.
翻訳日:2023-04-05 12:55:30 公開日:2023-04-04
# 大腸組織分類のためのクロスモーダル・マイノショット画像生成

Cross-modulated Few-shot Image Generation for Colorectal Tissue Classification ( http://arxiv.org/abs/2304.01992v1 )

ライセンス: Link先を確認
Amandeep Kumar, Ankan kumar Bhunia, Sanath Narayan, Hisham Cholakkal, Rao Muhammad Anwer, Jorma Laaksonen and Fahad Shahbaz Khan(参考訳) 本研究では,まれな癌組織に対する病理組織学的トレーニングデータの不足に対処する,数発の大腸組織画像生成法を提案する。 XM-GANと名づけられた少数ショット生成法は,1塩基と1対の参照組織像を入力とし,高品質で多様な画像を生成する。 xm-gan内の新しい制御可能な核融合ブロックは、基準画像と類似性に基づいて参照画像の局所領域を密に集約し、局所的に一貫した特徴をもたらす。 私たちの知る限りでは,大腸組織画像におけるマイトショット生成を初めて調査した。 大腸組織画像の創出は, 広範囲な質的, 定量的, 主観的評価(病理医)を用いて行った。 特に専門医による評価では、xm-ganが生成した組織画像と実際の画像とを55%しか区別できない。 さらに,これらの生成画像をデータ拡張として利用して,数発の組織画像分類課題に対処し,バニラ数発の分類器よりも平均精度が4.4%向上した。 コード: \url{https://github.com/VIROBO-15/XM-GAN}

In this work, we propose a few-shot colorectal tissue image generation method for addressing the scarcity of histopathological training data for rare cancer tissues. Our few-shot generation method, named XM-GAN, takes one base and a pair of reference tissue images as input and generates high-quality yet diverse images. Within our XM-GAN, a novel controllable fusion block densely aggregates local regions of reference images based on their similarity to those in the base image, resulting in locally consistent features. To the best of our knowledge, we are the first to investigate few-shot generation in colorectal tissue images. We evaluate our few-shot colorectral tissue image generation by performing extensive qualitative, quantitative and subject specialist (pathologist) based evaluations. Specifically, in specialist-based evaluation, pathologists could differentiate between our XM-GAN generated tissue images and real images only 55% time. Moreover, we utilize these generated images as data augmentation to address the few-shot tissue image classification task, achieving a gain of 4.4% in terms of mean accuracy over the vanilla few-shot classifier. Code: \url{https://github.com/VIROBO-15/XM-GAN}
翻訳日:2023-04-05 12:55:11 公開日:2023-04-04
# 機械学習によるECG分類によるサイドチャネル支援推論リーク

Side Channel-Assisted Inference Leakage from Machine Learning-based ECG Classification ( http://arxiv.org/abs/2304.01990v1 )

ライセンス: Link先を確認
Jialin Liu, Ning Miao, Chongzhou Fang, Houman Homayoun, Han Wang(参考訳) 心電図(ECG)は、心臓によって生じる心活動を測定し、異常な心拍や心臓発作を検出する。 しかし、異常の発生は心拍の連続的なモニタリングを必要とする。 機械学習技術を利用してタスクを自動化し、監視に必要な作業を削減する。 近年、多くの企業がECGモニタリングと不規則な心拍警告を備えた製品を発表している。 全ての分類アルゴリズムの中で、時系列アルゴリズムの動的時間ワープ(DTW)は、ECG分類タスクを実行するために広く採用されている。 進歩はあるものの、DTWベースのECG分類では、患者の診断結果を漏洩する新たな攻撃ベクトルももたらしている。 本稿では,ECG 入力サンプルのラベルをサイドチャネル攻撃である Flush+Reload によって盗むことができることを示す。 特に,心電図分類におけるDTWの脆弱性,すなわち乱れ経路選択と予測結果との相関を最初に同定する。 次に、Flush+Reloadを利用して、既知のECGデータによるワープパス選択を監視し、次いで、ワープパス選択と入力ECGサンプルのラベルの関係を構築するための予測器を構築する。 実験の結果,fash+reloadに基づく推論リークは,dtwの2つのサンプルのラベルを識別するために,84.0\%の攻撃成功率を達成できることがわかった。

The Electrocardiogram (ECG) measures the electrical cardiac activity generated by the heart to detect abnormal heartbeat and heart attack. However, the irregular occurrence of the abnormalities demands continuous monitoring of heartbeats. Machine learning techniques are leveraged to automate the task to reduce labor work needed during monitoring. In recent years, many companies have launched products with ECG monitoring and irregular heartbeat alert. Among all classification algorithms, the time series-based algorithm dynamic time warping (DTW) is widely adopted to undertake the ECG classification task. Though progress has been achieved, the DTW-based ECG classification also brings a new attacking vector of leaking the patients' diagnosis results. This paper shows that the ECG input samples' labels can be stolen via a side-channel attack, Flush+Reload. In particular, we first identify the vulnerability of DTW for ECG classification, i.e., the correlation between warping path choice and prediction results. Then we implement an attack that leverages Flush+Reload to monitor the warping path selection with known ECG data and then build a predictor for constructing the relation between warping path selection and labels of input ECG samples. Based on experiments, we find that the Flush+Reload-based inference leakage can achieve an 84.0\% attacking success rate to identify the labels of the two samples in DTW.
翻訳日:2023-04-05 12:54:50 公開日:2023-04-04
# SM/VIO:モデルベースと視覚慣性オドメトリー間のロバスト水中状態推定スイッチ

SM/VIO: Robust Underwater State Estimation Switching Between Model-based and Visual Inertial Odometry ( http://arxiv.org/abs/2304.01988v1 )

ライセンス: Link先を確認
Bharat Joshi, Hunter Damron, Sharmin Rahman, Ioannis Rekleitis(参考訳) 本稿では,水中操作における視覚慣性状態推定のロバスト性問題に対処する。 難易度の高い環境で動作する水中ロボットは、常に自分のポーズを知る必要がある。 すべての視覚ベースのローカライゼーションスキームは、視認性が悪いこと、色損失、特徴の欠如により失敗する傾向がある。 提案手法は,視覚・慣性眼振(VIO)障害時のポーズ推定を維持するために,ロボットのキネマティクスモデルと主受容型センサーを用いた。 さらに、成功したVIOの軌跡とモデル駆動オドメトリーの軌跡は、常に一貫したポーズを維持するコヒーレントな集合に統合される。 ヘルスモニタリングは、2つの推定器間のタイムリーな切り替えを保証するVIOプロセスを追跡する。 最後に、ループ閉鎖は全体の軌道上に実装される。 結果として得られるフレームワークは、モデルベースと視覚慣性オドメトリー(SM/VIO)間の堅牢な推定器スイッチングである。 Aqua2車両の多数の配備による実験結果から、サンゴ礁と難破船に対する我々のアプローチの堅牢性が確認された。

This paper addresses the robustness problem of visual-inertial state estimation for underwater operations. Underwater robots operating in a challenging environment are required to know their pose at all times. All vision-based localization schemes are prone to failure due to poor visibility conditions, color loss, and lack of features. The proposed approach utilizes a model of the robot's kinematics together with proprioceptive sensors to maintain the pose estimate during visual-inertial odometry (VIO) failures. Furthermore, the trajectories from successful VIO and the ones from the model-driven odometry are integrated in a coherent set that maintains a consistent pose at all times. Health-monitoring tracks the VIO process ensuring timely switches between the two estimators. Finally, loop closure is implemented on the overall trajectory. The resulting framework is a robust estimator switching between model-based and visual-inertial odometry (SM/VIO). Experimental results from numerous deployments of the Aqua2 vehicle demonstrate the robustness of our approach over coral reefs and a shipwreck.
翻訳日:2023-04-05 12:54:28 公開日:2023-04-04
# USTC FLICAR:大型自律航空作業ロボットのためのLiDAR-Iertial-Cameraのマルチセンサーフュージョンデータセット

USTC FLICAR: A Multisensor Fusion Dataset of LiDAR-Inertial-Camera for Heavy-duty Autonomous Aerial Work Robots ( http://arxiv.org/abs/2304.01986v1 )

ライセンス: Link先を確認
Ziming Wang, Yujiang Liu, Yifan Duan, Xingchen Li, Xinran Zhang, Jianmin Ji, Erbao Dong and Yanyong Zhang(参考訳) 本稿では,重度自律型航空作業ロボットのための作業空間の同時局所化とマッピング,高精度な3次元再構築を目的としたUSTC FLICARデータセットを提案する。 近年、多くの公共データセットが自動運転車や無人航空機(UAV)の発展に重要な役割を果たしている。 しかし、これら2つのプラットフォームは空中作業ロボットとは異なる。UAVはペイロード容量に制限され、車両は2次元移動に制限されている。 このギャップを埋めるために、我々は3dライダー4台、ステレオカメラ2台、単眼カメラ2台、慣性測定ユニット(imus)、およびgss/insシステムなど、さまざまなよく調整された同期センサーを備えたバケットトラックに基づくgiraffeマッピングロボットを開発した。 レーザートラッカーを用いてミリレベルの地上真実位置を記録する。 私たちはまた、比較のためにデータを集めるために、地上双子のokapiマッピングロボットも作っています。 提案したデータセットは、典型的な自律走行センシングスイートを空中シーンに拡張する。 そのため、データセットはフライングカーを表すためにflicarと命名される。 このデータセットは、空飛ぶ車のシナリオ、特にVTOL(垂直離着陸)空飛ぶ車の離陸と着陸を表現できると考えています。 データセットは、https://ustc-flicar.github.io.comでダウンロードできる。

In this paper, we present the USTC FLICAR Dataset, which is dedicated to the development of simultaneous localization and mapping and precise 3D reconstruction of the workspace for heavy-duty autonomous aerial work robots. In recent years, numerous public datasets have played significant roles in the advancement of autonomous cars and unmanned aerial vehicles (UAVs). However, these two platforms differ from aerial work robots: UAVs are limited in their payload capacity, while cars are restricted to two-dimensional movements. To fill this gap, we create the Giraffe mapping robot based on a bucket truck, which is equipped with a variety of well-calibrated and synchronized sensors: four 3D LiDARs, two stereo cameras, two monocular cameras, Inertial Measurement Units (IMUs), and a GNSS/INS system. A laser tracker is used to record the millimeter-level ground truth positions. We also make its ground twin, the Okapi mapping robot, to gather data for comparison. The proposed dataset extends the typical autonomous driving sensing suite to aerial scenes. Therefore, the dataset is named FLICAR to denote flying cars. We believe this dataset can also represent the flying car scenarios, specifically the takeoff and landing of VTOL (Vertical Takeoff and Landing) flying cars. The dataset is available for download at: https://ustc-flicar.github.io.
翻訳日:2023-04-05 12:54:12 公開日:2023-04-04
# マルチベクトル検索におけるトークン検索の役割再考

Rethinking the Role of Token Retrieval in Multi-Vector Retrieval ( http://arxiv.org/abs/2304.01982v1 )

ライセンス: Link先を確認
Jinhyuk Lee, Zhuyun Dai, Sai Meher Karthik Duddu, Tao Lei, Iftekhar Naim, Ming-Wei Chang, Vincent Y. Zhao(参考訳) ColBERT (Khattab and Zaharia, 2020) のようなマルチベクトル検索モデルは、クエリとドキュメント間のトークンレベルの相互作用を可能にし、多くの情報検索ベンチマークで最先端の技術を実現できる。 しかし、その非線形スコアリング機能は数百万のドキュメントにスケールできないため、トークン検索による初期候補の検索、トークンベクトルへのアクセス、初期候補文書のスコアリングといった3段階のプロセスが必要になる。 非線形スコアリング関数は、各候補文書の全てのトークンベクトルに適用され、推論処理が複雑で遅くなる。 本稿では,トークン検索の役割を再考することにより,マルチベクトル検索の簡略化を目指す。 提案するXTR, ConteXtualized Token Retrieverは, 単純かつ斬新で客観的な関数を導入し, まず最も重要な文書トークンを検索する。 トークン検索の改善により、XTRは文書中のすべてのトークンではなく、検索したトークンを使って候補をランク付けできるようになり、ColBERTより2~3桁安い新しく設計されたスコアリングステージが実現された。 有名なBEIRベンチマークでは、XTRは蒸留なしで2.8nDCG@10で最先端を推し進めている。 詳細な分析により、XTRはColBERTと比較してトークン検索ステージのリコールがはるかに優れていることを示すため、トークン検索ステージを再検討する決定が確定する。

Multi-vector retrieval models such as ColBERT [Khattab and Zaharia, 2020] allow token-level interactions between queries and documents, and hence achieve state of the art on many information retrieval benchmarks. However, their non-linear scoring function cannot be scaled to millions of documents, necessitating a three-stage process for inference: retrieving initial candidates via token retrieval, accessing all token vectors, and scoring the initial candidate documents. The non-linear scoring function is applied over all token vectors of each candidate document, making the inference process complicated and slow. In this paper, we aim to simplify the multi-vector retrieval by rethinking the role of token retrieval. We present XTR, ConteXtualized Token Retriever, which introduces a simple, yet novel, objective function that encourages the model to retrieve the most important document tokens first. The improvement to token retrieval allows XTR to rank candidates only using the retrieved tokens rather than all tokens in the document, and enables a newly designed scoring stage that is two-to-three orders of magnitude cheaper than that of ColBERT. On the popular BEIR benchmark, XTR advances the state-of-the-art by 2.8 nDCG@10 without any distillation. Detailed analysis confirms our decision to revisit the token retrieval stage, as XTR demonstrates much better recall of the token retrieval stage compared to ColBERT.
翻訳日:2023-04-05 12:53:49 公開日:2023-04-04
# 超低温原子を用いたトポロジカルエッジモードの実空間検出と操作

Real-space detection and manipulation of topological edge modes with ultracold atoms ( http://arxiv.org/abs/2304.01980v1 )

ライセンス: Link先を確認
Christoph Braun, Rapha\"el Saint-Jalm, Alexander Hesse, Johannes Arceri, Immanuel Bloch, Monika Aidelsburger(参考訳) 従来のトポロジカル絶縁体は、非自明なバルクトポロジカルな性質の結果として、エキゾチックな隙間のないエッジまたは表面状態を示す。 周期駆動システムでは、バルク境界対応は根本的に変更され、従来のバルク位相不変量に関する知識は不十分である。 超低温原子はフロケプロトコルのクリーンな実現のための優れた設定を提供するが、現実空間のエッジモードの観測はいまだに解明されていない。 本稿では,プログラム可能な光学ポテンシャルで生成するポテンシャルステップを用いて位相インタフェースを作成することにより,光学格子におけるキラルエッジモードを実現するための実験プロトコルを示す。 周期的に駆動されるハニカム格子で実現される3つの異なるフロッケトポロジカルレジームにおいて,これらのエッジモードで粒子を効率的に生成する方法を示す。 ポテンシャルステップの高さと鋭さを制御するため,界面におけるエッジモードの出現方法と,ポテンシャルステップの鋭さが変化するにつれて粒子群速度が変化する方法を検討した。

Conventional topological insulators exhibit exotic gapless edge or surface states, as a result of non-trivial bulk topological properties. In periodically-driven systems the bulk-boundary correspondence is fundamentally modified and knowledge about conventional bulk topological invariants is insufficient. While ultracold atoms provide excellent settings for clean realizations of Floquet protocols, the observation of real-space edge modes has so far remained elusive. Here we demonstrate an experimental protocol for realizing chiral edge modes in optical lattices, by creating a topological interface using a potential step that is generated with a programmable optical potential. We show how to efficiently prepare particles in these edge modes in three distinct Floquet topological regimes that are realized in a periodically-driven honeycomb lattice. Controlling the height and sharpness of the potential step, we study how edge modes emerge at the interface and how the group velocity of the particles is modified as the sharpness of the potential step is varied.
翻訳日:2023-04-05 12:53:25 公開日:2023-04-04
# インフォームドダウンサンプルの静的解析

A Static Analysis of Informed Down-Samples ( http://arxiv.org/abs/2304.01978v1 )

ライセンス: Link先を確認
Ryan Boldi, Alexander Lalejini, Thomas Helmuth, Lee Spector(参考訳) 本稿では,レキシケース選択と組み合わせたダウンサンプリング戦略によって生じる集団レベルのテストカバレッジの損失について分析する。 本研究は,第1世代の遺伝的プログラミング・ランの個体群と,全合成個体群について記録した。 本研究は,ダウンサンプリングがランダムダウンサンプリングと比較して集団レベルのテストカバレッジを良好に維持する仮説を検証した。 さらに,どちらのダウンサンプリングも,ダウンサンプリングを伴わない標準レキシケース選択よりもテストカバレッジの損失が大きいことを示した。 しかし、人口に関するさらなる情報を考えると、インフォームドダウンサンプリングはテストカバレッジの損失をさらに減らすことができることがわかった。 また,本研究における静的集団分析を広く採用することを推奨する。

We present an analysis of the loss of population-level test coverage induced by different down-sampling strategies when combined with lexicase selection. We study recorded populations from the first generation of genetic programming runs, as well as entirely synthetic populations. Our findings verify the hypothesis that informed down-sampling better maintains population-level test coverage when compared to random down-sampling. Additionally, we show that both forms of down-sampling cause greater test coverage loss than standard lexicase selection with no down-sampling. However, given more information about the population, we found that informed down-sampling can further reduce its test coverage loss. We also recommend wider adoption of the static population analyses we present in this work.
翻訳日:2023-04-05 12:53:08 公開日:2023-04-04
# 対話の文脈化による医療履歴の整理

Dialogue-Contextualized Re-ranking for Medical History-Taking ( http://arxiv.org/abs/2304.01974v1 )

ライセンス: Link先を確認
Jian Zhu, Ilya Valmianski, Anitha Kannan(参考訳) AI駆動型医療履歴取得は、症状チェック、自動化された患者摂取、トリアージ、その他のAIバーチャルケアアプリケーションにおいて重要なコンポーネントである。 履歴取得は非常に多様であるため、機械学習モデルはトレーニングに大量のデータを必要とする。 この課題を克服するために、間接データや専門知識を用いて既存のシステムを開発する。 これにより、モデルが推論時に観察するデータとは異なる種類のデータでトレーニングされるため、トレーニングと参照のギャップが生まれる。 本研究では,対話文脈モデルを用いて,第1段階の質問候補を再ランク付けすることで,トレーニングと推論のギャップを埋める2段階の再ランク付け手法を提案する。 そこで本研究では,対話とすべての質問を同時にエンコードし,既存のニューラルベースラインと比較する新しいモデルglobal re-rankerを提案する。 我々はTransformerとS4ベースの言語モデルのバックボーンをテストする。 専門家システムと比較して,提案したトランスフォーマーバックボーンを用いたグローバルリランカにより最高の性能が得られ,正規化割引累積ゲイン(nDCG)が30%高く,平均平均精度(mAP)が77%高い結果が得られた。

AI-driven medical history-taking is an important component in symptom checking, automated patient intake, triage, and other AI virtual care applications. As history-taking is extremely varied, machine learning models require a significant amount of data to train. To overcome this challenge, existing systems are developed using indirect data or expert knowledge. This leads to a training-inference gap as models are trained on different kinds of data than what they observe at inference time. In this work, we present a two-stage re-ranking approach that helps close the training-inference gap by re-ranking the first-stage question candidates using a dialogue-contextualized model. For this, we propose a new model, global re-ranker, which cross-encodes the dialogue with all questions simultaneously, and compare it with several existing neural baselines. We test both transformer and S4-based language model backbones. We find that relative to the expert system, the best performance is achieved by our proposed global re-ranker with a transformer backbone, resulting in a 30% higher normalized discount cumulative gain (nDCG) and a 77% higher mean average precision (mAP).
翻訳日:2023-04-05 12:52:57 公開日:2023-04-04
# erm++: ドメインの一般化のためのベースラインの改善

ERM++: An Improved Baseline for Domain Generalization ( http://arxiv.org/abs/2304.01973v1 )

ライセンス: Link先を確認
Piotr Teterwak, Kuniaki Saito, Theodoros Tsiligkaridis, Kate Saenko, Bryan A. Plummer(参考訳) マルチソースドメイン一般化(DG)は、訓練されていないデータの新しい分布に一般化する分類器の能力を測定する。 いくつかのマルチソースDG手法が提案されているが、ドメインラベルを用いてトレーニング中にさらに複雑になる。 近年の研究では、経験的リスク最小化(ERM)トレーニングが、ソースドメインにおける経験的リスクを最小限に抑えるだけで、既存のDGメソッドよりも優れていることが示されている。 トレーニングデータのより良い利用、モデルパラメータの選択、重み空間の正規化など、EMMの性能を改善するためのいくつかの重要な候補手法を同定する。 提案手法はERM++と呼ばれ,従来のERMに比べて5つのマルチソースデータセット上でのDGの性能が5%以上向上し,計算コストが低いにもかかわらず最先端の手法に勝っていることを示す。 さらに、挑戦的なDGベンチマークであるWILDS-FMOWデータセット上で、ERM++の有効性を示す。 ERM++が将来のDG研究の強力なベースラインになることを願っています。 コードはhttps://github.com/piotr-teterwak/erm_plusplusでリリースされる。

Multi-source Domain Generalization (DG) measures a classifier's ability to generalize to new distributions of data it was not trained on, given several training domains. While several multi-source DG methods have been proposed, they incur additional complexity during training by using domain labels. Recent work has shown that a well-tuned Empirical Risk Minimization (ERM) training procedure, that is simply minimizing the empirical risk on the source domains, can outperform most existing DG methods. We identify several key candidate techniques to further improve ERM performance, such as better utilization of training data, model parameter selection, and weight-space regularization. We call the resulting method ERM++, and show it significantly improves the performance of DG on five multi-source datasets by over 5% compared to standard ERM, and beats state-of-the-art despite being less computationally expensive. Additionally, we demonstrate the efficacy of ERM++ on the WILDS-FMOW dataset, a challenging DG benchmark. We hope that ERM++ becomes a strong baseline for future DG research. Code is released at https://github.com/piotr-teterwak/erm_plusplus.
翻訳日:2023-04-05 12:52:37 公開日:2023-04-04
# npc:ビデオからのニューラルポイント文字

NPC: Neural Point Characters from Video ( http://arxiv.org/abs/2304.02013v1 )

ライセンス: Link先を確認
Shih-Yang Su, Timur Bagautdinov, Helge Rhodin(参考訳) 高忠実な人間の3dモデルは、通常、テンプレートベースの表面モデルと神経表現を組み合わせることで、ビデオから直接学習することができる。 しかしテンプレート表面を得るには、高価なマルチビューキャプチャシステム、レーザースキャン、厳密に制御された条件が必要となる。 以前の方法はテンプレートの使用を避けるが、観測から標準空間への高コストあるいは不適切なマッピングに依存していた。 本稿では,新規なポーズに対して一般化可能でありながら,明示的な表面モデルを必要としないアニマタブル文字を再構成するためのハイブリッドポイントベース表現を提案する。 与えられたビデオに対して,近似正準幾何を表す3次元点の明示的な集合を自動生成し,ポーズ依存点変換を生成する調音変形モデルを学ぶ。 これらのポイントは、高周波神経特徴の足場と、観測と標準空間を効率的にマッピングするためのアンカーの両方として機能する。 確立されたベンチマークで、我々の表現は、標準または観測空間で運用される前の作業の制限を克服することを示した。 さらに,人間や動物の文字の学習モデルも自動抽出する手法により,より汎用性に拘わらず,厳密な表面テンプレートを用いた手法の性能に適合する。 プロジェクトウェブサイト: https://lemonatsu.github.io/npc/

High-fidelity human 3D models can now be learned directly from videos, typically by combining a template-based surface model with neural representations. However, obtaining a template surface requires expensive multi-view capture systems, laser scans, or strictly controlled conditions. Previous methods avoid using a template but rely on a costly or ill-posed mapping from observation to canonical space. We propose a hybrid point-based representation for reconstructing animatable characters that does not require an explicit surface model, while being generalizable to novel poses. For a given video, our method automatically produces an explicit set of 3D points representing approximate canonical geometry, and learns an articulated deformation model that produces pose-dependent point transformations. The points serve both as a scaffold for high-frequency neural features and an anchor for efficiently mapping between observation and canonical space. We demonstrate on established benchmarks that our representation overcomes limitations of prior work operating in either canonical or in observation space. Moreover, our automatic point extraction approach enables learning models of human and animal characters alike, matching the performance of the methods using rigged surface templates despite being more general. Project website: https://lemonatsu.github.io/npc/
翻訳日:2023-04-05 12:46:26 公開日:2023-04-04
# EGC:単一エネルギーモデルによる画像生成と分類

EGC: Image Generation and Classification via a Single Energy-Based Model ( http://arxiv.org/abs/2304.02012v1 )

ライセンス: Link先を確認
Qiushan Guo, Chuofan Ma, Yi Jiang, Zehuan Yuan, Yizhou Yu, Ping Luo(参考訳) 同じネットワークパラメータ集合を用いた画像分類と画像生成の学習は難しい問題である。 最近の高度なアプローチは、1つのタスクでよく機能し、もう1つのタスクでは性能が悪い。 この研究は、エネルギーベースの分類器とジェネレータ、すなわちEMCを導入し、単一のニューラルネットワークを使用して両方のタスクで優れたパフォーマンスを実現する。 イメージが与えられたラベルを出力する従来の分類器(例えば条件付き分布 $p(y|\mathbf{x})$)とは異なり、egcの前方パスはジョイント分布 $p(\mathbf{x},y)$ を出力する分類器であり、ラベル $y$ をマージンアウトすることで後方パスにおける画像生成器を可能にする。 これはフォワードパスにおいてノイズ画像が与えられた場合のエネルギーと分類確率を推定し、後方パスで推定されたスコア関数を用いて除算する。 EGCは、ImageNet-1k、CelebA-HQ、LSUN Churchの最先端のアプローチと比較して、競争力のある生成結果を得ると同時に、CIFAR-10に対する敵攻撃に対して優れた分類精度と堅牢性を達成する。 この研究は、ネットワークパラメータの単一セットを使用して両方のタスクを同時に実行しようとする最初の試みである。 EGCは差別学習と生成学習のギャップを埋めると考えている。

Learning image classification and image generation using the same set of network parameters is a challenging problem. Recent advanced approaches perform well in one task often exhibit poor performance in the other. This work introduces an energy-based classifier and generator, namely EGC, which can achieve superior performance in both tasks using a single neural network. Unlike a conventional classifier that outputs a label given an image (i.e., a conditional distribution $p(y|\mathbf{x})$), the forward pass in EGC is a classifier that outputs a joint distribution $p(\mathbf{x},y)$, enabling an image generator in its backward pass by marginalizing out the label $y$. This is done by estimating the energy and classification probability given a noisy image in the forward pass, while denoising it using the score function estimated in the backward pass. EGC achieves competitive generation results compared with state-of-the-art approaches on ImageNet-1k, CelebA-HQ and LSUN Church, while achieving superior classification accuracy and robustness against adversarial attacks on CIFAR-10. This work represents the first successful attempt to simultaneously excel in both tasks using a single set of network parameters. We believe that EGC bridges the gap between discriminative and generative learning.
翻訳日:2023-04-05 12:46:06 公開日:2023-04-04
# faket:neural style transferでcryo-electrontomogramをシミュレートする

FakET: Simulating Cryo-Electron Tomograms with Neural Style Transfer ( http://arxiv.org/abs/2304.02011v1 )

ライセンス: Link先を確認
Pavol Harar, Lukas Herrmann, Philipp Grohs, David Haselbach(参考訳) 粒子の局在と分類は、計算顕微鏡における2つの基本的な問題である。 近年,これらの課題に対してディープラーニングに基づくアプローチが導入され,大きな成功を収めている。 これらの教師付き学習法の重要な欠点は、透過電子顕微鏡の物理をシミュレートする複雑な数値フォワードモデルとともに、粒子モデルから生成される大規模なトレーニングデータセットの必要性である。 このようなフォワードモデルのコンピュータ実装は計算上極めて必要であり、適用範囲を制限している。 本稿では, 付加雑音とニューラルスタイル伝達法に基づいて, 電子顕微鏡のフォワード演算子を簡易にシミュレーションする手法を提案する。 提案手法は,既存の最先端アーキテクチャの1つを用いて,その性能をベンチマークと同等に評価する。 従来の手法とは対照的に,従来の透過型電子顕微鏡検出器のサイズに対して33倍のメモリを消費しながら,750倍の速度でデータ生成プロセスを加速する手法である。 GPUアクセラレーションと並列処理を利用する。 トレーニングデータセットを適応するためのスタンドアローンの方法や、データ拡張テクニックとして使用することができる。 ソースコードはhttps://gitlab.com/deepet/faket.comで入手できる。

Particle localization and -classification constitute two of the most fundamental problems in computational microscopy. In recent years, deep learning based approaches have been introduced for these tasks with great success. A key shortcoming of these supervised learning methods is their need for large training data sets, typically generated from particle models in conjunction with complex numerical forward models simulating the physics of transmission electron microscopes. Computer implementations of such forward models are computationally extremely demanding and limit the scope of their applicability. In this paper we propose a simple method for simulating the forward operator of an electron microscope based on additive noise and Neural Style Transfer techniques. We evaluate the method on localization and classification tasks using one of the established state-of-the-art architectures showing performance on par with the benchmark. In contrast to previous approaches, our method accelerates the data generation process by a factor of 750 while using 33 times less memory and scales well to typical transmission electron microscope detector sizes. It utilizes GPU acceleration and parallel processing. It can be used as a stand-alone method to adapt a training data set or as a data augmentation technique. The source code is available at https://gitlab.com/deepet/faket.
翻訳日:2023-04-05 12:45:40 公開日:2023-04-04
# ディエンス予測タスクのためのマルチレベルコントラスト学習

Multi-Level Contrastive Learning for Dense Prediction Task ( http://arxiv.org/abs/2304.02010v1 )

ライセンス: Link先を確認
Qiushan Guo, Yizhou Yu, Yi Jiang, Jiannan Wu, Zehuan Yuan, Ping Luo(参考訳) 本研究では,高密度予測タスクのための領域レベルの特徴表現を効率的に学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。 本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。 絶対位置とスケール情報を明示的にエンコードするために,マルチスケール画像をモンタージュ方式で組み立て,多目的シナリオを模倣する新しいプリテキストタスクを提案する。 既存の画像レベルの自己監督手法とは異なり、モンタージュ画像の各サブリージョンをシングルトンとみなすマルチレベルのコントラスト損失を構成する。 本手法により,ニューラルネットワークは,事前学習期間を教師付き事前学習と同等に抑えつつ,翻訳とスケール一貫性のための局所的意味表現を学習できる。 大規模な実験により、MCLは様々なデータセットにおいて、最新の最先端の手法よりも一貫して優れていることが示された。 特に、42.5 AP$^\mathrm{bb}$と38.3 AP$^\mathrm{mk}$を1倍のスケジュール調整でCOCO上で取得し、Mask R-CNNとR50-FPNのバックボーンを100エポックで事前訓練する。 MoCoと比較して、本手法は性能を4.0 AP$^\mathrm{bb}$と3.1 AP$^\mathrm{mk}$で上回る。 さらに、プレテキストタスクと下流タスクのアライメントについても検討する。 プレテキストタスクを教師付き事前学習に拡張し、自己教師型学習と同じようなパフォーマンスを実現する。 この結果から,プレテキストタスクとダウンストリームタスクのアライメントの重要性が示され,自己教師付き設定以上の適用可能性を示す。

In this work, we present Multi-Level Contrastive Learning for Dense Prediction Task (MCL), an efficient self-supervised method for learning region-level feature representation for dense prediction tasks. Our method is motivated by the three key factors in detection: localization, scale consistency and recognition. To explicitly encode absolute position and scale information, we propose a novel pretext task that assembles multi-scale images in a montage manner to mimic multi-object scenarios. Unlike the existing image-level self-supervised methods, our method constructs a multi-level contrastive loss that considers each sub-region of the montage image as a singleton. Our method enables the neural network to learn regional semantic representations for translation and scale consistency while reducing pre-training epochs to the same as supervised pre-training. Extensive experiments demonstrate that MCL consistently outperforms the recent state-of-the-art methods on various datasets with significant margins. In particular, MCL obtains 42.5 AP$^\mathrm{bb}$ and 38.3 AP$^\mathrm{mk}$ on COCO with the 1x schedule fintuning, when using Mask R-CNN with R50-FPN backbone pre-trained with 100 epochs. In comparison to MoCo, our method surpasses their performance by 4.0 AP$^\mathrm{bb}$ and 3.1 AP$^\mathrm{mk}$. Furthermore, we explore the alignment between pretext task and downstream tasks. We extend our pretext task to supervised pre-training, which achieves a similar performance to self-supervised learning. This result demonstrates the importance of the alignment between pretext task and downstream tasks, indicating the potential for wider applicability of our method beyond self-supervised settings.
翻訳日:2023-04-05 12:45:23 公開日:2023-04-04
# OrienterNet:ニューラルマッチングによる2次元公開マップの視覚的ローカライゼーション

OrienterNet: Visual Localization in 2D Public Maps with Neural Matching ( http://arxiv.org/abs/2304.02009v1 )

ライセンス: Link先を確認
Paul-Edouard Sarlin, Daniel DeTone, Tsun-Yi Yang, Armen Avetisyan, Julian Straub, Tomasz Malisiewicz, Samuel Rota Bulo, Richard Newcombe, Peter Kontschieder, Vasileios Balntas(参考訳) 人間は2dマップを使って3d環境に身を寄せることができる。 視覚的なローカライズのためのアルゴリズムは、時間とともに構築、保存、保守にコストがかかる複雑な3dポイントクラウドに依存することが多い。 OrienterNetは、人間が使用するのと同じ2Dセマンティックマップを使用して、イメージをサブメーター精度でローカライズできる最初のディープニューラルネットワークです。 OrienterNetは、ニューラルネットワークのBird-Eye ViewとOpenStreetMapのオープンでグローバルに利用可能なマップをマッチングすることで、クエリイメージの位置と向きを推定する。 OrienterNetはカメラのポーズによってのみ監視されるが、エンド・ツー・エンドの方法で広範囲のマップ要素とセマンティックマッチングを実行することを学ぶ。 これを実現するために,車,自転車,歩行者の多様な視点から12都市にまたがって撮影された画像の,クラウドソースによる大規模データセットを紹介する。 OrienterNetは、新しいデータセットに一般化し、ロボティクスとARシナリオの両方で、最先端の技術をプッシュする。 コードとトレーニングされたモデルは公開されます。

Humans can orient themselves in their 3D environments using simple 2D maps. Differently, algorithms for visual localization mostly rely on complex 3D point clouds that are expensive to build, store, and maintain over time. We bridge this gap by introducing OrienterNet, the first deep neural network that can localize an image with sub-meter accuracy using the same 2D semantic maps that humans use. OrienterNet estimates the location and orientation of a query image by matching a neural Bird's-Eye View with open and globally available maps from OpenStreetMap, enabling anyone to localize anywhere such maps are available. OrienterNet is supervised only by camera poses but learns to perform semantic matching with a wide range of map elements in an end-to-end manner. To enable this, we introduce a large crowd-sourced dataset of images captured across 12 cities from the diverse viewpoints of cars, bikes, and pedestrians. OrienterNet generalizes to new datasets and pushes the state of the art in both robotics and AR scenarios. The code and trained model will be released publicly.
翻訳日:2023-04-05 12:44:51 公開日:2023-04-04
# GlueStick:ポイントとラインを貼り合わせてロバストな画像マッチング

GlueStick: Robust Image Matching by Sticking Points and Lines Together ( http://arxiv.org/abs/2304.02008v1 )

ライセンス: Link先を確認
R\'emi Pautrat, Iago Su\'arez, Yifan Yu, Marc Pollefeys, Viktor Larsson(参考訳) ラインセグメントは、ポイントを補完する強力な特徴である。 構造的な手がかりを提供し、劇的な視点と照明の変化に頑健であり、テクスチャのない地域でも見られる。 しかし、それらの記述とマッチングは、部分的な閉塞、テクスチャの欠如、反復性のために、ポイントよりも難しい。 本稿では,点,線,それらの記述子を単一のワイヤフレーム構造に統合する新しいマッチングパラダイムを提案する。 本稿では,異なる画像から2つのワイヤフレームを取り,ノード間の接続情報を活用するディープマッチンググラフニューラルネットワーク(gnn)であるgluestickを提案する。 ジョイントマッチングによってもたらされる効率の向上に加えて、これら2つの機能の相補的な性質を1つのアーキテクチャで活用することで、パフォーマンスが大幅に向上することを示す。 我々のマッチング戦略は、さまざまなデータセットやタスクのラインセグメントやポイントを独立にマッチングする最先端のアプローチよりも優れています。 コードはhttps://github.com/cvg/GlueStick.comで入手できる。

Line segments are powerful features complementary to points. They offer structural cues, robust to drastic viewpoint and illumination changes, and can be present even in texture-less areas. However, describing and matching them is more challenging compared to points due to partial occlusions, lack of texture, or repetitiveness. This paper introduces a new matching paradigm, where points, lines, and their descriptors are unified into a single wireframe structure. We propose GlueStick, a deep matching Graph Neural Network (GNN) that takes two wireframes from different images and leverages the connectivity information between nodes to better glue them together. In addition to the increased efficiency brought by the joint matching, we also demonstrate a large boost of performance when leveraging the complementary nature of these two features in a single architecture. We show that our matching strategy outperforms the state-of-the-art approaches independently matching line segments and points for a wide variety of datasets and tasks. The code is available at https://github.com/cvg/GlueStick.
翻訳日:2023-04-05 12:44:31 公開日:2023-04-04
# リスクアウェア分散マルチエージェント強化学習

Risk-Aware Distributed Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2304.02005v1 )

ライセンス: Link先を確認
Abdullah Al Maruf, Luyao Niu, Bhaskar Ramasubramanian, Andrew Clark, Radha Poovendran(参考訳) 自律的なサイバー・サイバー物理システムは未知の環境で意思決定、学習、制御を行う必要がある。 このような意思決定は、モデリングエラー、コストの変化、確率分布のテールにおける事象の影響など、複数の要因に敏感である。 マルチエージェント強化学習(MARL)は, 平均コストを最小化し, 環境との繰り返し相互作用を通じて行動を学ぶための枠組みを提供するが, 上記の課題を克服するには不十分である。 本稿では,リスク認識行動の学習により,未知環境における意思決定問題を解決するための分散MARL手法を提案する。 条件付き値-リスク(CVaR)を用いて最小化されるコスト関数を特徴付けるとともに、ベルマン演算子を定義し、与えられた状態-作用対に関連する値関数を特徴付ける。 この作用素が縮約性を満たすことを証明し、最適な値関数に収束することを示す。 次に, cvar qd-learningアルゴリズムと呼ばれる分散marlアルゴリズムを提案し, 個々のエージェントの価値関数がコンセンサスに達することを示す。 CVaR QD-Learningアルゴリズムの実装で生じるいくつかの課題を特定し,その解決法を提案する。 CVaR QD-Learningアルゴリズムをシミュレーションにより評価し,コンセンサスにおける値関数に対するリスクパラメータの効果を示す。

Autonomous cyber and cyber-physical systems need to perform decision-making, learning, and control in unknown environments. Such decision-making can be sensitive to multiple factors, including modeling errors, changes in costs, and impacts of events in the tails of probability distributions. Although multi-agent reinforcement learning (MARL) provides a framework for learning behaviors through repeated interactions with the environment by minimizing an average cost, it will not be adequate to overcome the above challenges. In this paper, we develop a distributed MARL approach to solve decision-making problems in unknown environments by learning risk-aware actions. We use the conditional value-at-risk (CVaR) to characterize the cost function that is being minimized, and define a Bellman operator to characterize the value function associated to a given state-action pair. We prove that this operator satisfies a contraction property, and that it converges to the optimal value function. We then propose a distributed MARL algorithm called the CVaR QD-Learning algorithm, and establish that value functions of individual agents reaches consensus. We identify several challenges that arise in the implementation of the CVaR QD-Learning algorithm, and present solutions to overcome these. We evaluate the CVaR QD-Learning algorithm through simulations, and demonstrate the effect of a risk parameter on value functions at consensus.
翻訳日:2023-04-05 12:44:13 公開日:2023-04-04
# MonoHuman:モノクロビデオからのアニメーション可能な人間の神経場

MonoHuman: Animatable Human Neural Field from Monocular Video ( http://arxiv.org/abs/2304.02001v1 )

ライセンス: Link先を確認
Zhengming Yu, Wei Cheng, Xian Liu, Wayne Wu, Kwan-Yee Lin(参考訳) バーチャルリアリティやデジタルエンターテイメントなど、さまざまなアプリケーションにおいて、自由視点制御による仮想アバターのアニメーションが不可欠である。 これまでの研究では、神経放射野(NeRF)の表現力を利用して、単眼ビデオから人体を再構築しようと試みてきた。 近年の研究では、変形ネットワークをNeRFに移植し、人間の運動をアニメーションするための人間の神経野のダイナミクスをさらにモデル化することを提案する。 しかし、このようなパイプラインはポーズに依存しない表現に依存するか、フレームに依存しない最適化のために動きの一貫性に欠ける。 本稿では,ビュー一貫性と高忠実度アバターを任意のポーズ下で頑健に描画する新しいフレームワークMonoHumanを提案する。 鍵となる洞察は、双方向の制約で変形場をモデル化し、オフザペグのキーフレーム情報を明示的に利用して、コヒーレントな結果に対する特徴相関を推論することである。 具体的には, 骨格運動重量の共有と非剛性運動の分離に後方および前方の変形対応を分離することにより, ポーズに依存しない一般化可能な変形場を生成する共用双方向変形モジュールを提案する。 次に、キーフレームの対応性をクエリしてレンダリングネットワークを誘導するフォワード対応検索モジュールを考案する。 したがって、レンダリングされた結果は、挑戦的な新しいポーズ設定の下でも、高い忠実度と複数ビューで一致している。 大規模実験により提案したMonoHumanの最先端手法に対する優位性を実証した。

Animating virtual avatars with free-view control is crucial for various applications like virtual reality and digital entertainment. Previous studies have attempted to utilize the representation power of the neural radiance field (NeRF) to reconstruct the human body from monocular videos. Recent works propose to graft a deformation network into the NeRF to further model the dynamics of the human neural field for animating vivid human motions. However, such pipelines either rely on pose-dependent representations or fall short of motion coherency due to frame-independent optimization, making it difficult to generalize to unseen pose sequences realistically. In this paper, we propose a novel framework MonoHuman, which robustly renders view-consistent and high-fidelity avatars under arbitrary novel poses. Our key insight is to model the deformation field with bi-directional constraints and explicitly leverage the off-the-peg keyframe information to reason the feature correlations for coherent results. Specifically, we first propose a Shared Bidirectional Deformation module, which creates a pose-independent generalizable deformation field by disentangling backward and forward deformation correspondences into shared skeletal motion weight and separate non-rigid motions. Then, we devise a Forward Correspondence Search module, which queries the correspondence feature of keyframes to guide the rendering network. The rendered results are thus multi-view consistent with high fidelity, even under challenging novel pose settings. Extensive experiments demonstrate the superiority of our proposed MonoHuman over state-of-the-art methods.
翻訳日:2023-04-05 12:43:49 公開日:2023-04-04
# GANを用いた画像合成評価の再検討

Revisiting the Evaluation of Image Synthesis with GANs ( http://arxiv.org/abs/2304.01999v1 )

ライセンス: Link先を確認
Mengping Yang, Ceyuan Yang, Yichi Zhang, Qingyan Bai, Yujun Shen, Bo Dai(参考訳) ソリューション間の信頼性の高い比較を約束する良い計量は、明確に定義されたタスクに不可欠である。 サンプルごとの接地構造を持つほとんどの視覚タスクとは異なり、画像合成ターゲットは \emph{unseen} データを生成するため、通常、実際のサンプルと生成されたサンプルの別のセットの間の分布距離で評価される。 本研究は,一般のジェネレーショナル・アドバーサリアン・ネットワーク (gans) を生成モデルの代表として用いることで,合成性能の評価に関する実証的研究を提供する。 特に,特徴空間におけるデータポイントの表現方法,選択したサンプルを用いた公平距離の計算方法,各集合から使用するインスタンス数について,詳細な分析を行う。 複数のデータセットと設定に関する実験から,(1)CNNベースのアーキテクチャとViTベースのアーキテクチャの両方を含むモデル群が信頼性が高く堅牢な特徴抽出器として機能し,(2)CKA(Centered Kernel Alignment)は,複数の抽出器と階層層を1つのモデルで比較し,(3)CKAは十分なサンプル効率を示し,既存のメトリクス(\textit{e.}, FID)を補完する。 これらの知見は,最新の生成モデルを一貫した信頼性のある方法で再評価する,新しい計測システムの設計に有効である。

A good metric, which promises a reliable comparison between solutions, is essential to a well-defined task. Unlike most vision tasks that have per-sample ground-truth, image synthesis targets generating \emph{unseen} data and hence is usually evaluated with a distributional distance between one set of real samples and another set of generated samples. This work provides an empirical study on the evaluation of synthesis performance by taking the popular generative adversarial networks (GANs) as a representative of generative models. In particular, we make in-depth analyses on how to represent a data point in the feature space, how to calculate a fair distance using selected samples, and how many instances to use from each set. Experiments on multiple datasets and settings suggest that (1) a group of models including both CNN-based and ViT-based architectures serve as reliable and robust feature extractors, (2) Centered Kernel Alignment (CKA) enables better comparison across various extractors and hierarchical layers in one model, and (3) CKA shows satisfactory sample efficiency and complements existing metrics (\textit{e.g.}, FID) in characterizing the similarity between two internal data correlations. These findings help us design a new measurement system, based on which we re-evaluate the state-of-the-art generative models in a consistent and reliable way.
翻訳日:2023-04-05 12:43:23 公開日:2023-04-04
# 自己回帰型ニューラルテンソルネット:量子多体シミュレーションのためのブリッジングニューラルネットワークとテンソルネットワーク

Autoregressive Neural TensorNet: Bridging Neural Networks and Tensor Networks for Quantum Many-Body Simulation ( http://arxiv.org/abs/2304.01996v1 )

ライセンス: Link先を確認
Zhuo Chen, Laker Newhouse, Eddie Chen, Di Luo, Marin Solja\v{c}i\'c(参考訳) 量子多体物理シミュレーションは基礎科学の理解に大きな影響を与え、量子材料設計や量子技術にも応用できる。 しかし、粒子数に関してヒルベルト空間が指数関数的に大きくなるため、直接シミュレーションは難解である。 テンソルネットワークとニューラルネットワークで量子状態を表現することは、近似シミュレーションのための最先端の2つの方法であるが、それぞれに表現性と最適化の点で独自の制限がある。 これらの課題に対処するため、テンソルネットワークと自己回帰ニューラルネットワークを橋渡しする新しいアーキテクチャであるAutoregressive Neural TensorNet(ANTN)を開発した。 自己回帰型ニューラルテンソルネットは、完全サンプリングにより正規化波動関数をパラメータ化し、テンソルネットワークと自己回帰型ニューラルネットワークの表現性を一般化し、自己回帰型ニューラルネットワークから様々な対称性を継承する。 我々は,システムサイズと結合パラメータの異なる2次元$j_1$-$j_2$ハイゼンベルクモデルに対して,テンソルネットワークと自己回帰ニューラルネットワークの両方よりも優れるアプローチを示す。 我々の研究は、科学シミュレーションと機械学習の応用の両方に新しい機会を開く。

Quantum many-body physics simulation has important impacts on understanding fundamental science and has applications to quantum materials design and quantum technology. However, due to the exponentially growing size of the Hilbert space with respect to the particle number, a direct simulation is intractable. While representing quantum states with tensor networks and neural networks are the two state-of-the-art methods for approximate simulations, each has its own limitations in terms of expressivity and optimization. To address these challenges, we develop a novel architecture, Autoregressive Neural TensorNet (ANTN), which bridges tensor networks and autoregressive neural networks. We show that Autoregressive Neural TensorNet parameterizes normalized wavefunctions with exact sampling, generalizes the expressivity of tensor networks and autoregressive neural networks, and inherits a variety of symmetries from autoregressive neural networks. We demonstrate our approach on the 2D $J_1$-$J_2$ Heisenberg model with different systems sizes and coupling parameters, outperforming both tensor networks and autoregressive neural networks. Our work opens up new opportunities for both scientific simulations and machine learning applications.
翻訳日:2023-04-05 12:42:51 公開日:2023-04-04
# MagicPony:野生の3D動物を学習する

MagicPony: Learning Articulated 3D Animals in the Wild ( http://arxiv.org/abs/2211.12497v3 )

ライセンス: Link先を確認
Shangzhe Wu, Ruining Li, Tomas Jakab, Christian Rupprecht, Andrea Vedaldi(参考訳) 馬のような関節動物の3次元形状,調音,視点,テクスチャ,照明を入力として予測する問題を考える。 変形のトポロジに関する仮定を最小限に抑えながら、対象カテゴリのワンビュー画像からこの予測器を純粋に学習するMagicPonyという新しい手法を提案する。 その中核は、明瞭な形状と外観を暗黙的に表現し、神経磁場とメッシュの強さを組み合わせたものである。 モデルが物体の形状やポーズを理解するのを助けるために,既製の自己監督型視覚変換器で捉えた知識を3Dモデルに融合させる。 視点推定における局所視能を克服するために,追加の訓練コストを伴わない新しい視点サンプリング方式を提案する。 MagicPonyは、この挑戦的なタスクの先行作業より優れており、実際のイメージでしか訓練されていないにもかかわらず、アートの再構築における優れた一般化を実証している。

We consider the problem of predicting the 3D shape, articulation, viewpoint, texture, and lighting of an articulated animal like a horse given a single test image as input. We present a new method, dubbed MagicPony, that learns this predictor purely from in-the-wild single-view images of the object category, with minimal assumptions about the topology of deformation. At its core is an implicit-explicit representation of articulated shape and appearance, combining the strengths of neural fields and meshes. In order to help the model understand an object's shape and pose, we distil the knowledge captured by an off-the-shelf self-supervised vision transformer and fuse it into the 3D model. To overcome local optima in viewpoint estimation, we further introduce a new viewpoint sampling scheme that comes at no additional training cost. MagicPony outperforms prior work on this challenging task and demonstrates excellent generalisation in reconstructing art, despite the fact that it is only trained on real images.
翻訳日:2023-04-05 10:49:42 公開日:2023-04-04
# CLONeR:Occupancy Grid-Aided Neural Representationのためのカメラライダーフュージョン

CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural Representations ( http://arxiv.org/abs/2209.01194v4 )

ライセンス: Link先を確認
Alexandra Carlson, Manikandasriram Srinivasan Ramanagopal, Nathan Tseng, Matthew Johnson-Roberson, Ram Vasudevan, Katherine A. Skinner(参考訳) ニューラルラジアンス場(NeRF)の最近の進歩は、最先端の斬新なビュー合成を実現し、シーン特性の高密度な推定を容易にする。 しかし、NeRFは、フィールドロボティクスの応用に典型的なように、カメラから遠ざかるシーンコンテンツで、非常に狭い視野で撮影される、大きくて無界なシーンでは失敗することが多い。 特に、nerf方式のアルゴリズムは、(1)ポーズの多様性が乏しいビューが不足している場合、(2)シーンが飽和と影を含んでいる場合、(3)微細な構造を持つ大きなアンバウンドシーンを微細にサンプリングする場合には計算集約的になる。 本稿では,スパーク入力センサビューから観測される大規模な屋外走行シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。 これは、NeRFフレームワーク内の占有と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。 さらに,NeRFモデルと平行に3D Occupancy Grid Maps (OGM) を構築するための新しい手法を提案し,この占有網を利用して距離空間におけるボリュームレンダリングのための線に沿った点のサンプリングを改善する。 提案手法は,KITTIデータセットから得られたシーンの定量的および定性的な実験を通じて,スパース入力データを用いたトレーニングにおいて,新しいビュー合成および深度予測タスクにおいて,最先端のNeRFモデルよりも優れた性能を示すことを示す。

Recent advances in neural radiance fields (NeRFs) achieve state-of-the-art novel view synthesis and facilitate dense estimation of scene properties. However, NeRFs often fail for large, unbounded scenes that are captured under very sparse views with the scene content concentrated far away from the camera, as is typical for field robotics applications. In particular, NeRF-style algorithms perform poorly: (1) when there are insufficient views with little pose diversity, (2) when scenes contain saturation and shadows, and (3) when finely sampling large unbounded scenes with fine structures becomes computationally intensive. This paper proposes CLONeR, which significantly improves upon NeRF by allowing it to model large outdoor driving scenes that are observed from sparse input sensor views. This is achieved by decoupling occupancy and color learning within the NeRF framework into separate Multi-Layer Perceptrons (MLPs) trained using LiDAR and camera data, respectively. In addition, this paper proposes a novel method to build differentiable 3D Occupancy Grid Maps (OGM) alongside the NeRF model, and leverage this occupancy grid for improved sampling of points along a ray for volumetric rendering in metric space. Through extensive quantitative and qualitative experiments on scenes from the KITTI dataset, this paper demonstrates that the proposed method outperforms state-of-the-art NeRF models on both novel view synthesis and dense depth prediction tasks when trained on sparse input data.
翻訳日:2023-04-05 10:49:24 公開日:2023-04-04
# menli: 自然言語推論によるロバストな評価指標

MENLI: Robust Evaluation Metrics from Natural Language Inference ( http://arxiv.org/abs/2208.07316v3 )

ライセンス: Link先を確認
Yanran Chen and Steffen Eger(参考訳) 最近提案されたBERTベースのテキスト生成評価指標は、標準的なベンチマークでよく機能するが、情報正当性などの敵攻撃に弱い。 これは、それらが意味的類似性のモデルであるという事実に由来する(一部)。 対照的に、我々は自然言語推論(NLI)に基づく評価指標を開発し、より適切なモデリングを行う。 我々は、嗜好ベースの敵攻撃フレームワークを設計し、我々のNLIベースのメトリクスが最近のBERTベースのメトリクスよりも攻撃に対してより堅牢であることを示す。 標準ベンチマークでは、NLIベースのメトリクスは既存の要約の指標よりも優れていますが、SOTA MTの指標よりは劣ります。 しかし、既存のメトリクスとNLIのメトリクスを組み合わせると、標準ベンチマーク(+5%から30%)で測定された高い逆の堅牢性(15%から30%)と高品質のメトリクスの両方が得られます。

Recently proposed BERT-based evaluation metrics for text generation perform well on standard benchmarks but are vulnerable to adversarial attacks, e.g., relating to information correctness. We argue that this stems (in part) from the fact that they are models of semantic similarity. In contrast, we develop evaluation metrics based on Natural Language Inference (NLI), which we deem a more appropriate modeling. We design a preference-based adversarial attack framework and show that our NLI based metrics are much more robust to the attacks than the recent BERT-based metrics. On standard benchmarks, our NLI based metrics outperform existing summarization metrics, but perform below SOTA MT metrics. However, when combining existing metrics with our NLI metrics, we obtain both higher adversarial robustness (15%-30%) and higher quality metrics as measured on standard benchmarks (+5% to 30%).
翻訳日:2023-04-05 10:48:52 公開日:2023-04-04
# 映画物語の合成:ストーリー理解のためのビデオ言語データセット

Synopses of Movie Narratives: a Video-Language Dataset for Story Understanding ( http://arxiv.org/abs/2203.05711v3 )

ライセンス: Link先を確認
Yidan Sun, Qin Chao, Yangfeng Ji and Boyang Li(参考訳) 最近のaiの進歩にもかかわらず、ストーリー理解はオープンで未調査の問題だ。 我々は、人気映画やテレビシリーズの5,193本のビデオ要約を含むビデオ言語ストーリーデータセットSYMON(Synopses of Movie Narratives)を収集、前処理、公開する。 SYMONは、人間のクリエイターが作った人間のオーディエンスのための自然主義的なストーリーテリングビデオを撮影する。 原型的で自然主義的なストーリーデータセットとして、SYMONは多モーダルなストーリーイベント、豊富な精神状態の記述、視覚とテキストのモダリティの間に大きな意味的ギャップを特徴としている。 我々は,映像要約ビデオにおけるビデオテキスト検索とゼロショットアライメントのベンチマークを構築し,ストーリー理解におけるドメイン内データの重要性を示す。 SYMONでは、マルチモーダルなストーリー理解の進展の基礎を築きたいと考えています。

Despite recent advances of AI, story understanding remains an open and under-investigated problem. We collect, preprocess, and publicly release a video-language story dataset, Synopses of Movie Narratives (SYMON), containing 5,193 video summaries of popular movies and TV series. SYMON captures naturalistic story-telling videos for human audience made by human creators. As a prototypical and naturalistic story dataset, SYMON features high coverage of multimodal story events, abundant mental-state descriptions, and large semantic gaps between the visual and the textual modalities. We establish benchmarks on video-text retrieval and zero-shot alignment on movie summary videos, which showcase the importance of in-domain data in story understanding. With SYMON, we hope to lay the groundwork for progress in multimodal story understanding.
翻訳日:2023-04-05 10:48:18 公開日:2023-04-04
# 適応型ジョイント分布学習

Adaptive joint distribution learning ( http://arxiv.org/abs/2110.04829v3 )

ライセンス: Link先を確認
Damir Filipovic and Michael Multerer and Paul Schneider(参考訳) 我々は、テンソル積再現核ヒルベルト空間 (rkhs) に合同確率分布を埋め込むための新しい枠組みを開発した。 我々のフレームワークはRKHSモデリングの本質的な制約を緩和し,最大数百万のデータポイントのサンプルサイズから推定するRandon-Nikodym誘導体の低次元,正規化,正のモデルに対応している。 よく定義された正規化および正条件分布は、我々のアプローチにとって自然な副産物である。 この埋め込みは計算が速く、予測から分類までの学習問題に対応している。 理論的結果は良好な数値結果によって補われている。

We develop a new framework for embedding joint probability distributions in tensor product reproducing kernel Hilbert spaces (RKHS). Our framework accommodates a low-dimensional, normalized and positive model of a Radon-Nikodym derivative, which we estimate from sample sizes of up to several million data points, alleviating the inherent limitations of RKHS modeling. Well-defined normalized and positive conditional distributions are natural by-products to our approach. The embedding is fast to compute and accommodates learning problems ranging from prediction to classification. Our theoretical findings are supplemented by favorable numerical results.
翻訳日:2023-04-05 10:48:04 公開日:2023-04-04
# 地図の強い絡み合いを解き明かす

Degradable Strongly Entanglement Breaking Maps ( http://arxiv.org/abs/2304.00309v2 )

ライセンス: Link先を確認
Repana Devendra, Gunjan sapra and K. Sumesh(参考訳) 本稿では,分離可能なヒルベルト空間上の分解可能な強絡み破れ写像の構造定理と各種特性について述べる。 有限次元の場合、単位分解可能なエンタングルメント破断写像は、ちょうど行列代数上のユニタリエンタングルメント破断写像の凸集合の $c^*$-extreme point であることが証明される。 その結果, 単位分解性正部分変換 (PPT-) マップの構造が得られた。

In this paper, we provide a structure theorem and various characterizations of degradable strongly entanglement breaking maps on separable Hilbert spaces. In the finite dimensional case, we prove that unital degradable entanglement breaking maps are precisely the $C^*$-extreme points of the convex set of unital entanglement breaking maps on matrix algebras. Consequently, we get a structure for unital degradable positive partial transpose (PPT-) maps.
翻訳日:2023-04-05 10:40:20 公開日:2023-04-04
# DOAD: 1段階アクション検出ネットワークを分離

DOAD: Decoupled One Stage Action Detection Network ( http://arxiv.org/abs/2304.00254v2 )

ライセンス: Link先を確認
Shuning Chang, Pichao Wang, Fan Wang, Jiashi Feng, Mike Zheng Show(参考訳) 人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。 既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。 しかし、これらの二段階法は一般に効率が低い。 直接検出と行動認識が 普通に苦しむのを観察します (i) 検出及び行動認識のための文脈表現の所望の性質の違いによる劣等学習 (ii)訓練データ不足による最適化難易度 本稿では,上記の課題を軽減し,時空間的行動検出の効率を向上させるため,分離された一段階ネットワークであるdoadを提案する。 これを実現するために,検出と動作認識を2つのブランチに分離する。 具体的には、アクター検出のための検出表現と、アクション認識のための別のブランチに焦点を当てる。 アクションブランチでは、人とコンテキスト間の相互関係をモデル化するトランスフォーマーベースモジュール(TransPC)を設計する。 自己注意においてよく使われるベクトルベースのドット製品とは異なり、これは新しい行列ベースのキーとアダマールが人文情報をモデル化するための値の上に構築されている。 個人間の関係を利用するだけでなく、コンテキストや相対的な位置情報も考慮する。 AVAとUCF101-24データセットの結果から,本手法は2段階の最先端手法と競合し,高い効率性を示した。

Localizing people and recognizing their actions from videos is a challenging task towards high-level video understanding. Existing methods are mostly two-stage based, with one stage for person bounding box generation and the other stage for action recognition. However, such two-stage methods are generally with low efficiency. We observe that directly unifying detection and action recognition normally suffers from (i) inferior learning due to different desired properties of context representation for detection and action recognition; (ii) optimization difficulty with insufficient training data. In this work, we present a decoupled one-stage network dubbed DOAD, to mitigate above issues and improve the efficiency for spatio-temporal action detection. To achieve it, we decouple detection and action recognition into two branches. Specifically, one branch focuses on detection representation for actor detection, and the other one for action recognition. For the action branch, we design a transformer-based module (TransPC) to model pairwise relationships between people and context. Different from commonly used vector-based dot product in self-attention, it is built upon a novel matrix-based key and value for Hadamard attention to model person-context information. It not only exploits relationships between person pairs but also takes into account context and relative position information. The results on AVA and UCF101-24 datasets show that our method is competitive with two-stage state-of-the-art methods with significant efficiency improvement.
翻訳日:2023-04-05 10:40:14 公開日:2023-04-04
# Recover Triggered States: 強化学習におけるバックドア攻撃に対する保護モデル

Recover Triggered States: Protect Model Against Backdoor Attack in Reinforcement Learning ( http://arxiv.org/abs/2304.00252v2 )

ライセンス: Link先を確認
Hao Chen, Chen Gong, Yizhe Wang, Xinwen Hou(参考訳) バックドア攻撃は、悪意のあるユーザーが環境を操作したり、トレーニングデータを破損させたりすることで、トレーニングされたエージェントにバックドアを挿入することができる。 このような攻撃はRLシステムの信頼性を損なうものであり、様々な分野で破滅的な結果をもたらす可能性がある。 対照的に、比較的限られた研究は、RLのバックドア攻撃に対する効果的な防御について研究している。 本稿では,バックドア攻撃から被害者エージェントを効果的に保護する新しい手法であるリカバリトリガードステイト(RTS)手法を提案する。 RTSは、ダイナミクスモデルを近似するために代理ネットワークを構築する。 開発者はトリガの状態からクリーンな状態に環境を回復できるため、攻撃者がトリガーを提示することでエージェント内に隠されたバックドアを活性化するのを防ぐことができる。 シュロゲートをトレーニングして状態を予測した場合、エージェントアクション情報を組み込んで、エージェントが予測した状態に対するアクションと実際の状態に対するアクションとの相違を低減する。 RTSは、単一エージェント環境でバックドア攻撃を防御する最初のアプローチである。 以上の結果から,RTSの累積報酬はバックドア攻撃で1.41%減少した。

A backdoor attack allows a malicious user to manipulate the environment or corrupt the training data, thus inserting a backdoor into the trained agent. Such attacks compromise the RL system's reliability, leading to potentially catastrophic results in various key fields. In contrast, relatively limited research has investigated effective defenses against backdoor attacks in RL. This paper proposes the Recovery Triggered States (RTS) method, a novel approach that effectively protects the victim agents from backdoor attacks. RTS involves building a surrogate network to approximate the dynamics model. Developers can then recover the environment from the triggered state to a clean state, thereby preventing attackers from activating backdoors hidden in the agent by presenting the trigger. When training the surrogate to predict states, we incorporate agent action information to reduce the discrepancy between the actions taken by the agent on predicted states and the actions taken on real states. RTS is the first approach to defend against backdoor attacks in a single-agent setting. Our results show that using RTS, the cumulative reward only decreased by 1.41% under the backdoor attack.
翻訳日:2023-04-05 10:39:51 公開日:2023-04-04
# 非対称行列の固有ベクトルの推論

Inference on eigenvectors of non-symmetric matrices ( http://arxiv.org/abs/2303.18233v2 )

ライセンス: Link先を確認
Jerome R. Simons(参考訳) 本稿では、固有ベクトルの漸近推論手順を確立するために、タイラー(1981)の対称性条件は必要ないことを主張する。 フルベクターおよび個別係数仮説に対するウォルドとt-テストの分布理論をそれぞれ確立する。 テスト統計は非対称行列の固有射影に由来する。 基底行列からスペクトルデータへの写像として射影を表現することで、解析摂動理論を通じて微分を見つける。 これらの結果は、太陽の分析摂動理論(1991年)が多変量統計学において有用なツールであり、独立した関心を持つことを示す。 応用として、有向グラフによって誘導される隣接行列から推定されるボナシック中心性に対する信頼集合を定義する。

This paper argues that the symmetrisability condition in Tyler (1981) is not necessary to establish asymptotic inference procedures for eigenvectors. We establish distribution theory for a Wald and t-test for full-vector and individual coefficient hypotheses, respectively. Our test statistics originate from eigenprojections of non-symmetric matrices. Representing projections as a mapping from the underlying matrix to its spectral data, we find derivatives through analytic perturbation theory. These results demonstrate how the analytic perturbation theory of Sun (1991) is a useful tool in multivariate statistics and are of independent interest. As an application, we define confidence sets for Bonacich centralities estimated from adjacency matrices induced by directed graphs.
翻訳日:2023-04-05 10:39:32 公開日:2023-04-04
# 非線形運動認識とオクルージョンローバスト転がりシャッタ補正に向けて

Towards Nonlinear-Motion-Aware and Occlusion-Robust Rolling Shutter Correction ( http://arxiv.org/abs/2303.18125v2 )

ライセンス: Link先を確認
Delin Qu, Yizhen Lao, Zhigang Wang, Dong Wang, Bin Zhao and Xuelong Li(参考訳) 本稿では, 極端な閉塞を伴う複雑な非線形・動的シーンにおけるシャッター補正の問題に対処する。 既存の手法には2つの大きな欠点がある。 第一に、一様速度仮定による精度の補正場推定の課題に直面し、複雑な動きの下で画像補正誤差が顕著になる。 第2に、ダイナミックシーンにおける劇的な閉塞は、複数のフレームの調整と集約が本質的に困難であるため、現在のソリューションが画質向上を妨げている。 これらの課題に対処するために,画素の曲線軌道を解析的にモデル化し,各画素の高次補正場を正確に推定する2次回転シャッター(qrs)運動ソルバを提案する。 さらに,動的シーンにおける高品質なオクルージョンフレームを再構築するために,マルチフレームコンテキスト,すなわちRSA^2-Netを効果的にアライグし集約する3次元ビデオアーキテクチャを提案する。 提案手法を広範囲のカメラと映像シーケンスで評価し,その優位性を実証した。 具体的には,PSNRがCarla-RS,Fastec-RS,BS-RSCでそれぞれ+4.98,+0.77,+4.33を越えている。

This paper addresses the problem of rolling shutter correction in complex nonlinear and dynamic scenes with extreme occlusion. Existing methods suffer from two main drawbacks. Firstly, they face challenges in estimating the accurate correction field due to the uniform velocity assumption, leading to significant image correction errors under complex motion. Secondly, the drastic occlusion in dynamic scenes prevents current solutions from achieving better image quality because of the inherent difficulties in aligning and aggregating multiple frames. To tackle these challenges, we model the curvilinear trajectory of pixels analytically and propose a geometry-based Quadratic Rolling Shutter (QRS) motion solver, which precisely estimates the high-order correction field of individual pixel. Besides, to reconstruct high-quality occlusion frames in dynamic scenes, we present a 3D video architecture that effectively Aligns and Aggregates multi-frame context, namely, RSA^2-Net. We evaluate our method across a broad range of cameras and video sequences, demonstrating its significant superiority. Specifically, our method surpasses the state-of-the-arts by +4.98, +0.77, and +4.33 of PSNR on Carla-RS, Fastec-RS, and BS-RSC datasets, respectively.
翻訳日:2023-04-05 10:39:22 公開日:2023-04-04
# 弱教師付きビデオ異常検出のための長短時間同時学習

Long-Short Temporal Co-Teaching for Weakly Supervised Video Anomaly Detection ( http://arxiv.org/abs/2303.18044v2 )

ライセンス: Link先を確認
Shengyang Sun, Xiaojin Gong(参考訳) 弱教師付きビデオ異常検出(WS-VAD)は,ビデオレベルのアノテーションのみでVADモデルを学習することを目的とした課題である。 本稿では,WS-VAD問題に対処するLong-Short Temporal Co-Teaching (LSTC)法を提案する。 短期ビデオクリップと長期ビデオクリップから学ぶために、2つのチューブレットベースの時空間トランスフォーマーネットワークを構築する。 各ネットワークは、複数のインスタンス学習(MIL)ベースのランキング損失と、クリップレベルの擬似ラベルが利用できる場合のクロスエントロピー損失に関してトレーニングされる。 2つのネットワークをトレーニングするために、共同学習戦略が採用されている。 すなわち、各ネットワークから生成されたクリップレベルの擬似ラベルを使用して、次のトレーニングラウンドで他方を監督し、2つのネットワークを交互かつ反復的に学習する。 提案手法は,持続時間の異なる異常や微妙な異常に対処できる。 3つの公開データセットに対する大規模な実験により、我々の手法は最先端のWS-VAD法より優れていることが示された。

Weakly supervised video anomaly detection (WS-VAD) is a challenging problem that aims to learn VAD models only with video-level annotations. In this work, we propose a Long-Short Temporal Co-teaching (LSTC) method to address the WS-VAD problem. It constructs two tubelet-based spatio-temporal transformer networks to learn from short- and long-term video clips respectively. Each network is trained with respect to a multiple instance learning (MIL)-based ranking loss, together with a cross-entropy loss when clip-level pseudo labels are available. A co-teaching strategy is adopted to train the two networks. That is, clip-level pseudo labels generated from each network are used to supervise the other one at the next training round, and the two networks are learned alternatively and iteratively. Our proposed method is able to better deal with the anomalies with varying durations as well as subtle anomalies. Extensive experiments on three public datasets demonstrate that our method outperforms state-of-the-art WS-VAD methods.
翻訳日:2023-04-05 10:38:59 公開日:2023-04-04
# AIはガンマ線天体物理学者を職から外せるか?

Can AI Put Gamma-Ray Astrophysicists Out of a Job? ( http://arxiv.org/abs/2303.17853v2 )

ライセンス: Link先を確認
Samuel T. Spencer, Vikas Joshi, Alison M.W. Mitchell(参考訳) 4月1日を記念する生成モデルをテーマとしたarXivの提出書のリターとして, パルサー風星雲を非存在画像型大気チェレンコフ望遠鏡(IACT)アレイで検出する論文を作成するために, 最先端の変圧器モデルの能力を評価する。 我々は、そのようなモデルが言語情報のみに基づいて天文観測やソースを解釈する能力を評価し、ピアレビュー中に不正に生成された科学論文を識別できる可能性を評価する(信頼できる生成モデルウォーターマーキングはこれらのツールにはまだデプロイされていない)。 天文学者としての我々の仕事は、当面安全であると結論づける。 この点から、ChatGPTとStable Diffusionに与えられたプロンプトはオレンジで示され、ChatGPTが生成したテキストは黒で示され、(人間)著者による分析は青で示される。

In what will likely be a litany of generative-model-themed arXiv submissions celebrating April the 1st, we evaluate the capacity of state-of-the-art transformer models to create a paper detailing the detection of a Pulsar Wind Nebula with a non-existent Imaging Atmospheric Cherenkov Telescope (IACT) Array. We do this to evaluate the ability of such models to interpret astronomical observations and sources based on language information alone, and to assess potential means by which fraudulently generated scientific papers could be identified during peer review (given that reliable generative model watermarking has yet to be deployed for these tools). We conclude that our jobs as astronomers are safe for the time being. From this point on, prompts given to ChatGPT and Stable Diffusion are shown in orange, text generated by ChatGPT is shown in black, whereas analysis by the (human) authors is in blue.
翻訳日:2023-04-05 10:38:43 公開日:2023-04-04
# Einstein-Podolsky-Rosenステアリングによるスケーラブル量子ネットワーク決定

Scalable Quantum Network Determination with Einstein-Podolsky-Rosen Steering ( http://arxiv.org/abs/2303.17771v2 )

ライセンス: Link先を確認
Wei-Ting Kao, Chien-Ying Huang, Tung-Ju Tsai, Shih-Hsuan Chen, Sheng-Yan Sun, Yu-Cheng Li, Teh-Lu Liao, Chih-Sung Chuu, He Lu, Che-Ming Li(参考訳) 絡み合った終端ノードの量子ネットワークは、非並列量子インターネットアプリケーションに対する古典的相関よりも強い。 しかし、実用的な量子ネットワークはノイズが存在し、最悪の場合、既存の古典的なデータに終端ノードが記述される。 このような信頼できないネットワークでは、量子ネットワークの忠実度と真のマルチノードの絡み合いが重要な問題となっている。 ここでは、理論上、実験的に、ネットワークノードが恒星トポロジーに絡まろうとするとき、真に$N$-node Einstein-Podolsky-Rosen ステアリングをノイズ耐性の高いネットワークで検出するには、わずか$N+1$の設定が必要であることを示す。 この小さな実験で、ステアリング検出は信頼できない測定装置の存在下で量子ネットワークの忠実度と真のマルチノードの絡み合いを決定する。 実験では, 自発的パラメトリック・ダウンコンバージョン・エンタングルメント源を用いて, 真の3光子および4光子量子ネットワークの真のマルチ光子ステアリングによる決定と, 広く使用されているエンタングルメント証人の偽陽性を示す。 本研究は,実際の絡み合い量子ネットワークのセットアップを精度良く評価するのに役立つ。

Quantum networks of entangled end nodes serve stronger than the classical correlation for unparalleled quantum internet applications. However, practical quantum networking exists noise, at worst, causing end nodes to be described in pre-existing classical data. In such untrusted networks, determining the quantum network fidelity and genuine multi-node entanglement becomes crucial problems. Here, we theoretically and experimentally show that when the network nodes aim to be entangled in a star topology, detecting truly $N$-node Einstein-Podolsky-Rosen steering in networks with high noise tolerance requires only $N+1$ measurement settings. With this small experimental effort, steering detection determines the quantum network fidelity and genuine multi-node entanglement in the presence of untrusted measurement devices. Experimentally, using spontaneous parametric down-conversion entanglement sources, we demonstrate the determinations of genuine 3-photon and 4-photon quantum networks via genuine multi-photon steering and the false positives of the widely used entanglement witnesses. Our results help accurately evaluate setting up realistic entanglement-backbone quantum networks.
翻訳日:2023-04-05 10:38:25 公開日:2023-04-04
# 光路変調を用いた表面音波の定量的光学画像化法

Quantitative optical imaging method for surface acoustic wave using optical path modulation ( http://arxiv.org/abs/2212.07369v5 )

ライセンス: Link先を確認
Ryusuke Hisatomi, Kotaro Taga, Ryo Sasaki, Yoichi Shiota, Takahiro Moriyama, Teruo Ono(参考訳) レイリー型表面音響波(SAW)は、その表面局在化、高電気制御性、低伝搬損失により、古典的および量子情報キャリアとして様々な分野で用いられている。 SAWと他の物理系、例えば磁化、電子電荷、電子スピンとの結合とハイブリダイゼーションは、最近のフォノニクスやスピントロニクスの焦点である。 表面波振幅の精密測定は結合強度を議論するためにしばしば必要となる。 しかし、そのような測定技術はごくわずかであり、概してかなり複雑な分析を必要とする。 そこで我々は,SAWを定量的に特徴付ける簡単な測定手法を開発し,実証する。 この技術は、光路変調により、コヒーレント駆動SAWによる表面の揺動を光学的に検出する。 また、ショットノイズ制限状態で測定システムが動作した場合、光路変調信号から光スポットの表面傾斜及び変位を導出することができる。 我々の実証技術は,SAW関連研究にとって重要なツールとなる。

Rayleigh-type surface acoustic wave (SAW) is used in various fields as classical and quantum information carriers because of its surface localization, high electrical controllability, and low propagation loss. Coupling and hybridization between the SAW and other physical systems such as magnetization, electron charge, and electron spin are the recent focuses in phononics and spintronics. Precise measurement of surface wave amplitude is often necessary to discuss the coupling strengths. However, there are only a few such measurement techniques and they generally require a rather complex analysis. Here we develop and demonstrate a straightforward measurement technique that can quantitatively characterize the SAW. The technique optically detects the surface waving due to the coherently driven SAW by the optical path modulation. Furthermore, when the measurement system operates in the shot-noise-limited regime, the surface slope and displacement at the optical spot can be deduced from the optical path modulation signal. Our demonstrated technique will be an important tool for SAW-related research.
翻訳日:2023-04-05 10:37:45 公開日:2023-04-04
# Baize: セルフチャットデータに基づくパラメータ効率チューニングを備えたオープンソースのチャットモデル

Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data ( http://arxiv.org/abs/2304.01196v2 )

ライセンス: Link先を確認
Canwen Xu and Daya Guo and Nan Duan and Julian McAuley(参考訳) ChatGPTのようなチャットモデルは印象的な機能を示しており、多くのドメインで急速に採用されている。 しかし、これらのモデルは制限付きAPIを通じてのみアクセス可能であり、この分野における新たな研究と進歩の障壁となる。 そこで本研究では,chatgptを利用して対話を行うことで,高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。 その後,オープンソースの大規模言語モデルであるLLaMAを強化するためにパラメータ効率のチューニングを用いる。 得られたモデルBaizeは、潜在的なリスクを最小限に抑えるガードレールとのマルチターン対話において、優れたパフォーマンスを示す。 Baize モデルとデータは https://github.com/project-baize/baize でのみ研究目的にリリースされる。 オンラインデモもhttps://huggingface.co/spaces/project-baize/baize-lora-7bで公開されている。

Chat models, such as ChatGPT, have shown impressive capabilities and have been rapidly adopted across numerous domains. However, these models are only accessible through a restricted API, creating barriers for new research and progress in the field. We propose a pipeline that can automatically generate a high-quality multi-turn chat corpus by leveraging ChatGPT to engage in a conversation with itself. Subsequently, we employ parameter-efficient tuning to enhance LLaMA, an open-source large language model. The resulting model, named Baize, demonstrates good performance in multi-turn dialogues with guardrails that minimize potential risks. The Baize models and data are released for research purposes only at https://github.com/project-baize/baize. An online demo is also available at https://huggingface.co/spaces/project-baize/baize-lora-7B.
翻訳日:2023-04-05 10:30:30 公開日:2023-04-04
# AutoLabel: オープンセットビデオドメイン適応のためのCLIPベースのフレームワーク

AutoLabel: CLIP-based framework for Open-set Video Domain Adaptation ( http://arxiv.org/abs/2304.01110v2 )

ライセンス: Link先を確認
Giacomo Zara, Subhankar Roy, Paolo Rota, Elisa Ricci(参考訳) open-set unsupervised video domain adaptation (ouvda) は、ラベル付きソースドメインから、ターゲットに存在するがソースに存在しない"ターゲット-プライベート"カテゴリを含むラベル付きターゲットドメインへのアクション認識モデルを適用するタスクを扱う。 本研究は、事前学習された言語と視覚モデル(CLIP)の使用を提案することにより、特定のオープンセット分類器や重み付けされた対人学習を訓練する以前の作業から逸脱する。 CLIPは、リッチな表現とゼロショット認識機能のために、OUVDAに適している。 しかし、CLIPのゼロショットプロトコルでターゲットプライベートなインスタンスを拒否するには、ターゲットプライベートなラベル名に関するオラクルの知識が必要である。 本稿では,ラベル名の知識の欠如を回避するために,オブジェクト中心の合成候補クラス名を自動的に発見・生成するAutoLabelを提案する。 その単純さにもかかわらず、AutoLabelを装備したCLIPは、ターゲットプライベートなインスタンスを十分に拒否できるため、2つのドメインの共有クラス間のアライメントがより容易になる。 コードは利用可能です。

Open-set Unsupervised Video Domain Adaptation (OUVDA) deals with the task of adapting an action recognition model from a labelled source domain to an unlabelled target domain that contains "target-private" categories, which are present in the target but absent in the source. In this work we deviate from the prior work of training a specialized open-set classifier or weighted adversarial learning by proposing to use pre-trained Language and Vision Models (CLIP). The CLIP is well suited for OUVDA due to its rich representation and the zero-shot recognition capabilities. However, rejecting target-private instances with the CLIP's zero-shot protocol requires oracle knowledge about the target-private label names. To circumvent the impossibility of the knowledge of label names, we propose AutoLabel that automatically discovers and generates object-centric compositional candidate target-private class names. Despite its simplicity, we show that CLIP when equipped with AutoLabel can satisfactorily reject the target-private instances, thereby facilitating better alignment between the shared classes of the two domains. The code is available.
翻訳日:2023-04-05 10:30:18 公開日:2023-04-04
# 深層学習に基づく拡散テンソル心磁気共鳴再構成 : 比較検討

Deep Learning-based Diffusion Tensor Cardiac Magnetic Resonance Reconstruction: A Comparison Study ( http://arxiv.org/abs/2304.00996v2 )

ライセンス: Link先を確認
Jiahao Huang, Pedro F. Ferreira, Lichao Wang, Yinzhe Wu, Angelica I. Aviles-Rivero, Carola-Bibiane Schonlieb, Andrew D. Scott, Zohya Khalique, Maria Dwornik, Ramyah Rajakulasingam, Ranil De Silva, Dudley J. Pennell, Sonia Nielles-Vallespin, Guang Yang(参考訳) in vivo 心拡散テンソルイメージング(in vivo 心拡散テンソルイメージング、cDTI)は、生体内の心筋組織の微細構造を評価し、心機能に関する洞察を与え、革新的な治療戦略の開発を可能にする、有望な磁気共鳴イメージング(MRI)技術である。 しかし,CDTIの日常的な臨床実践への統合は,低信号対雑音比や長期走査時間といった,買収に関わる技術的障害のために困難である。 本稿では,cDTI再構成のための3種類のディープラーニングベースMRI再構成モデルについて検討・実装する。 これらのモデルの性能を再構成品質評価と拡散テンソルパラメータ評価に基づいて評価する。 以上の結果から, 本研究で検討したモデルは, 2$ および 4$ の加速度因子 (af) で臨床応用が可能であり, d5c5 モデルは再構成に優れた忠実性を示し, swinmr モデルはより高い知覚スコアを与えることが示唆された。 AF $\times 2$またはほとんどのDTパラメータはAF $\times 4$であり、ほとんどの拡散テンソルパラメータマップの品質は視覚的に許容される。 SwinMR は AF $\times 2$ と AF $\times 4$ で再構築するための最適なアプローチとして推奨されている。 しかし,本研究で論じるモデルは,高次AFにおける臨床応用には適していないと考えられた。 AF $\times 8$では、議論された全てのモデルのパフォーマンスが制限されており、拡散テンソルパラメータの半分しか参照と統計的に異なるレベルに復元されない。 拡散テンソルパラメータマップの中には間違った情報や誤解を招くものさえある。

In vivo cardiac diffusion tensor imaging (cDTI) is a promising Magnetic Resonance Imaging (MRI) technique for evaluating the micro-structure of myocardial tissue in the living heart, providing insights into cardiac function and enabling the development of innovative therapeutic strategies. However, the integration of cDTI into routine clinical practice is challenging due to the technical obstacles involved in the acquisition, such as low signal-to-noise ratio and long scanning times. In this paper, we investigate and implement three different types of deep learning-based MRI reconstruction models for cDTI reconstruction. We evaluate the performance of these models based on reconstruction quality assessment and diffusion tensor parameter assessment. Our results indicate that the models we discussed in this study can be applied for clinical use at an acceleration factor (AF) of $\times 2$ and $\times 4$, with the D5C5 model showing superior fidelity for reconstruction and the SwinMR model providing higher perceptual scores. There is no statistical difference with the reference for all diffusion tensor parameters at AF $\times 2$ or most DT parameters at AF $\times 4$, and the quality of most diffusion tensor parameter maps are visually acceptable. SwinMR is recommended as the optimal approach for reconstruction at AF $\times 2$ and AF $\times 4$. However, we believed the models discussed in this studies are not prepared for clinical use at a higher AF. At AF $\times 8$, the performance of all models discussed remains limited, with only half of the diffusion tensor parameters being recovered to a level with no statistical difference from the reference. Some diffusion tensor parameter maps even provide wrong and misleading information.
翻訳日:2023-04-05 10:29:56 公開日:2023-04-04
# ソフトディッションによるノイズ画像分割

Noisy Image Segmentation With Soft-Dice ( http://arxiv.org/abs/2304.00801v2 )

ライセンス: Link先を確認
Marcus Nordstr\"om, Henrik Hult, Atsuto Maki, Fredrik L\"ofman(参考訳) 本稿では,対象ラベルにノイズが存在する状況において,医用画像セグメンテーションにおいて最も一般的な損失関数であるソフトダイス損失について検討する。 特に最適解の集合が特徴づけられ、これらの解の体積バイアスの鋭い境界が提供される。 さらに, 最適ソフトディスに収束するソフトセグメンテーションのシーケンスは, しきい値化を用いてハードセグメンテーションに変換した場合, 最適ディスに収束することを示した。 これは、ソフトディースの計量を最大化するためのプロキシとしてしばしば使用されるため、重要な結果である。 最後に、理論結果の確認実験を行う。

This paper presents a study on the soft-Dice loss, one of the most popular loss functions in medical image segmentation, for situations where noise is present in target labels. In particular, the set of optimal solutions are characterized and sharp bounds on the volume bias of these solutions are provided. It is further shown that a sequence of soft segmentations converging to optimal soft-Dice also converges to optimal Dice when converted to hard segmentations using thresholding. This is an important result because soft-Dice is often used as a proxy for maximizing the Dice metric. Finally, experiments confirming the theoretical results are provided.
翻訳日:2023-04-05 10:29:27 公開日:2023-04-04
# nemf:neural microflakeフィールドを用いた逆ボリュームレンダリング

NeMF: Inverse Volume Rendering with Neural Microflake Field ( http://arxiv.org/abs/2304.00782v2 )

ライセンス: Link先を確認
Youjia Zhang, Teng Xu, Junqing Yu, Yuteng Ye, Junle Wang, Yanqing Jing, Jingyi Yu, Wei Yang(参考訳) 未知の照明下で撮影された画像から物体の外観の物理的特性を復元することは、写真リアルなレンダリングには不可欠である。 近年のアプローチでは、暗黙的なシーン表現が出現し、印象的な結果が得られたが、彼らは表面ベース表現を全会一致で採用しているため、非常に複雑な幾何学や半透明な物体などのシーンをうまく扱えない。 本稿では, マイクロフレークの体積を用いて, 空間が無限小のフレークと光の反射や散乱で満たされていると仮定したシーンを, マイクロフレークの体積分布に応じて表現することにより, 逆ボリュームレンダリングを行う。 我々はさらに、マイクロフレークボリュームを暗黙的にエンコードする座標ネットワークを採用し、原理的にエンド・ツー・エンドでネットワークをトレーニングするための微分可能なマイクロフレークボリュームレンダを開発し、我々のNeMFは、高度に複雑な幾何学や散乱物体の外観特性を効果的に回復し、高品質なリライティング、素材編集を可能にし、特に表面ベースアプローチでは不可能な散乱などのボリュームレンダリング効果をシミュレートする。

Recovering the physical attributes of an object's appearance from its images captured under an unknown illumination is challenging yet essential for photo-realistic rendering. Recent approaches adopt the emerging implicit scene representations and have shown impressive results.However, they unanimously adopt a surface-based representation,and hence can not well handle scenes with very complex geometry, translucent object and etc. In this paper, we propose to conduct inverse volume rendering, in contrast to surface-based, by representing a scene using microflake volume, which assumes the space is filled with infinite small flakes and light reflects or scatters at each spatial location according to microflake distributions. We further adopt the coordinate networks to implicitly encode the microflake volume, and develop a differentiable microflake volume renderer to train the network in an end-to-end way in principle.Our NeMF enables effective recovery of appearance attributes for highly complex geometry and scattering object, enables high-quality relighting, material editing, and especially simulates volume rendering effects, such as scattering, which is infeasible for surface-based approaches.
翻訳日:2023-04-05 10:29:17 公開日:2023-04-04
# 孤立島からパンジー:人間行動理解のための意味空間の統合

From Isolated Islands to Pangea: Unifying Semantic Space for Human Action Understanding ( http://arxiv.org/abs/2304.00553v2 )

ライセンス: Link先を確認
Yong-Lu Li, Xiaoqian Wu, Xinpeng Liu, Yiming Dou, Yikun Ji, Junyi Zhang, Yixing Li, Jingru Tan, Xudong Lu, Cewu Lu(参考訳) 行動理解は問題であり、注目を集める。 アクション物理空間から意味空間への写像として形成することができる。 通常、研究者はクラスを定義し、ベンチマークのエンベロープを押すために、慣用的な選択に従ってアクションデータセットを構築した。 したがって、データセットは、セマンティクスギャップやさまざまなクラス粒度、例えばデータセットaでハウスワークを行い、データセットbでウォッシュプレートを行うなど、"分離された島"のように相互に非互換である。 この目的のために,動詞分類階層を与えられたpoincare行動意味空間を設計し,大規模行動をカバーする。 以前のデータセットのクラスをセマンティック空間に合わせることで、(画像/ビデオ/スケルトン/MoCap)データセットを統一されたラベルシステムで統一されたデータベースにまとめます。 そこで本研究では,物理空間と意味空間の双方向マッピングモデルを提案する。 広範な実験において,本システムは特に転校学習において有意な優越性を示す。 コードとデータは公開される予定だ。

Action understanding matters and attracts attention. It can be formed as the mapping from the action physical space to the semantic space. Typically, researchers built action datasets according to idiosyncratic choices to define classes and push the envelope of benchmarks respectively. Thus, datasets are incompatible with each other like "Isolated Islands" due to semantic gaps and various class granularities, e.g., do housework in dataset A and wash plate in dataset B. We argue that a more principled semantic space is an urgent need to concentrate the community efforts and enable us to use all datasets together to pursue generalizable action learning. To this end, we design a Poincare action semantic space given verb taxonomy hierarchy and covering massive actions. By aligning the classes of previous datasets to our semantic space, we gather (image/video/skeleton/MoCap) datasets into a unified database in a unified label system, i.e., bridging "isolated islands" into a "Pangea". Accordingly, we propose a bidirectional mapping model between physical and semantic space to fully use Pangea. In extensive experiments, our system shows significant superiority, especially in transfer learning. Code and data will be made publicly available.
翻訳日:2023-04-05 10:28:54 公開日:2023-04-04
# 量子音響学のための窒化アルミニウム表面弾性波共振器

Thin film aluminum nitride surface acoustic wave resonators for quantum acoustodynamics ( http://arxiv.org/abs/2304.00511v2 )

ライセンス: Link先を確認
Wenbing Jiang, Junfeng Chen, Xiaoyu Liu, Zhengqi Niu, Kuang Liu, Wei Peng, Zhen Wang, Zhi-Rong Lin(参考訳) マクロな表面音響波(SAW)の量子励起は、定常および飛行する量子状態の制御、伝達のために調整されている。 しかし、これらのハイブリッド量子システムの寿命は、量子情報処理における応用を拡張するための重要な障害である。 ここでは, 窒化アルミニウム薄膜をオンチップに統合したフォノンと, 以前のバルク圧電基板上の超伝導量子ビットのポテンシャルを示す。 内部品質Qiが5e4である高品位薄膜GHz-SAW共振器を1フォノンレベルで報告した。 SAW共振器の内部損失は, 試料配置, 電力, 温度のパラメータを調整し, 系統的に検討した。 その結果, 圧電膜上のSAWはジョセフソン接合量子回路の標準構成と容易に統合可能であり, 高コヒーレンスな量子音響力学アーキテクチャのための優れた音響プラットフォームを提供することがわかった。

The quantum excitations of macroscopic surface acoustic waves (SAWs) have been tailored to control, communicate and transduce stationary and flying quantum states. However, the limited lifetime of this hybrid quantum systems remains critical obstacles to extend their applications in quantum information processing. Here we present the potentials of thin film aluminum nitride to on-chip integrate phonons with superconducting qubits over previous bulk piezoelectric substrates. We have reported high-quality thin film GHz-SAW resonators with the highest internal quality factor Qi of 5 e4 at the single-phonon level. The internal loss of SAW resonators are systematically investigated with tuning the parameters of sample layout, power and temperature. Our results manifest that SAWs on piezoelectric films are readily integrable with standard fabrication of Josephson junction quantum circuits, and offer excellent acoustic platforms for the high-coherence quantum acoustodynamics architectures.
翻訳日:2023-04-05 10:28:34 公開日:2023-04-04
# UniDexGrasp++:幾何認識カリキュラムと反復的ジェネリスト-スペシャリスト学習によるデクサラスグラフピングポリシー学習の改善

UniDexGrasp++: Improving Dexterous Grasping Policy Learning via Geometry-aware Curriculum and Iterative Generalist-Specialist Learning ( http://arxiv.org/abs/2304.00464v2 )

ライセンス: Link先を確認
Weikang Wan, Haoran Geng, Yun Liu, Zikang Shan, Yaodong Yang, Li Yi, He Wang(参考訳) 現実的な雲の観測や、テーブルトップ設定(UniDexGrasp++)下でのプロプリセプティブ情報を把握し、デキスタスオブジェクトの普遍的なポリシーを学習するための新しいオブジェクト指向手法を提案する。 数千のオブジェクトインスタンスにまたがって視覚ベースのポリシーを学習する課題を解決するために,タスクの幾何学的特徴を活用し,一般化性を大幅に向上する幾何学的学習(GeoCurriculum)と幾何学的認識的反復的一般性学習(GiGSL)を提案する。 提案手法を用いた最終方針では,列車セットの85.4%,試験セットの78.2%で数千件のオブジェクトインスタンスを普遍的に把握し,現状のUniDexGraspを11.7%,テストセットを11.3%上回った。

We propose a novel, object-agnostic method for learning a universal policy for dexterous object grasping from realistic point cloud observations and proprioceptive information under a table-top setting, namely UniDexGrasp++. To address the challenge of learning the vision-based policy across thousands of object instances, we propose Geometry-aware Curriculum Learning (GeoCurriculum) and Geometry-aware iterative Generalist-Specialist Learning (GiGSL) which leverage the geometry feature of the task and significantly improve the generalizability. With our proposed techniques, our final policy shows universal dexterous grasping on thousands of object instances with 85.4% and 78.2% success rate on the train set and test set which outperforms the state-of-the-art baseline UniDexGrasp by 11.7% and 11.3%, respectively.
翻訳日:2023-04-05 10:28:19 公開日:2023-04-04
# 幾何学的制約はスパース観測確率力学の推論を改善する

Geometric constraints improve inference of sparsely observed stochastic dynamics ( http://arxiv.org/abs/2304.00423v2 )

ライセンス: Link先を確認
Dimitra Maoutsa(参考訳) 複数のスケールで進化する自由度系の力学はしばしば確率微分方程式によってモデル化される。 通常、これらの方程式の構造形式は未知であり、系の力学の現示は時間の離散点における観測のみである。 広く使われているにもかかわらず、これらのシステムを時間内スパース観測から正確に推測することは依然として困難である。 従来の推定手法では、観測の時間的構造に注目したり、システムの不変密度の幾何学を無視したり、保存的な駆動力に制限された不変密度の幾何学的近似を用いる。 これらの制約に対処するために、我々はこれらの2つの視点を調和させる新しいアプローチを導入する。 本研究では,不変系の密度分布を考慮したデータ駆動制御を用いた経路拡張方式を提案する。 拡張経路上の非パラメトリック推論は、低サンプリングレートで観測されるシステムの根底にある決定力の効率的な同定を可能にする。

The dynamics of systems of many degrees of freedom evolving on multiple scales are often modeled in terms of stochastic differential equations. Usually the structural form of these equations is unknown and the only manifestation of the system's dynamics are observations at discrete points in time. Despite their widespread use, accurately inferring these systems from sparse-in-time observations remains challenging. Conventional inference methods either focus on the temporal structure of observations, neglecting the geometry of the system's invariant density, or use geometric approximations of the invariant density, which are limited to conservative driving forces. To address these limitations, here, we introduce a novel approach that reconciles these two perspectives. We propose a path augmentation scheme that employs data-driven control to account for the geometry of the invariant system's density. Non-parametric inference on the augmented paths, enables efficient identification of the underlying deterministic forces of systems observed at low sampling rates.
翻訳日:2023-04-05 10:28:01 公開日:2023-04-04
# パラメトリックPDEのためのマルチレベルCNN

Multilevel CNNs for Parametric PDEs ( http://arxiv.org/abs/2304.00388v2 )

ライセンス: Link先を確認
Cosmas Hei{\ss}, Ingo G\"uhring and Martin Eigel(参考訳) 偏微分方程式(pdes)のための多レベル解法とニューラルネットワークに基づく深層学習の概念を結合し,高次元パラメトリックpdesの効率的な数値解法を提案する。 詳細な理論解析により,提案手法は,最微細メッシュの分解能に対数的にのみ依存する重み数で任意の精度でマルチグリッドvサイクルを近似できることを示した。 その結果、(確率的な)パラメータ次元に依存しないニューラルネットワークによるパラメトリックPDEの解に対する近似境界を導出することができる。 提案手法の性能は,不確実性定量化における共通ベンチマーク問題である高次元パラメトリック線形楕円型pdesで示される。 最先端のディープラーニングベースの解法よりも大幅に改善されている。 特に難しい例として,100パラメータ次元の高次元非アフィンガウシアン場とランダムクッキー問題を用いたランダム導電率について検討した。 提案手法のマルチレベル構造により,より微細なレベルにおいてトレーニングサンプルの量を削減できるため,トレーニングデータの生成時間とトレーニング時間を大幅に短縮することができる。

We combine concepts from multilevel solvers for partial differential equations (PDEs) with neural network based deep learning and propose a new methodology for the efficient numerical solution of high-dimensional parametric PDEs. An in-depth theoretical analysis shows that the proposed architecture is able to approximate multigrid V-cycles to arbitrary precision with the number of weights only depending logarithmically on the resolution of the finest mesh. As a consequence, approximation bounds for the solution of parametric PDEs by neural networks that are independent on the (stochastic) parameter dimension can be derived. The performance of the proposed method is illustrated on high-dimensional parametric linear elliptic PDEs that are common benchmark problems in uncertainty quantification. We find substantial improvements over state-of-the-art deep learning-based solvers. As particularly challenging examples, random conductivity with high-dimensional non-affine Gaussian fields in 100 parameter dimensions and a random cookie problem are examined. Due to the multilevel structure of our method, the amount of training samples can be reduced on finer levels, hence significantly lowering the generation time for training data and the training time of our method.
翻訳日:2023-04-05 10:27:46 公開日:2023-04-04