このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230819となっている論文です。

PDF登録状況(公開日: 20230819)

TitleAuthorsAbstract論文公表日・翻訳日
# ディープコードモデルのためのコード差分誘導逆例生成

Code Difference Guided Adversarial Example Generation for Deep Code Models ( http://arxiv.org/abs/2301.02412v2 )

ライセンス: Link先を確認
Zhao Tian, Junjie Chen, Zhi Jin(参考訳) 逆の例は、深層コードモデルのロバスト性をテストし、強化するために重要である。 ソースコードは離散的であり、複雑な文法や意味論の制約に厳密に従わなければならないため、他の領域での逆例生成技術はほとんど適用できない。 さらに、深層コードモデルに特化した逆例生成手法は、膨大な成分探索空間のため、まだ不十分な有効性に苦しんでいる。 本研究では,深層コードモデルをテストするための新しい逆例生成手法(coda)を提案する。 その鍵となる考え方は、対象の入力(例えば、モデル入力としての与えられたコードスニペット)と参照入力(すなわち、小さなコード差があるが、ターゲット入力と予測結果が異なる入力)の間のコード差を利用して、敵の例の生成を導くことである。 構造の違いと識別子の違いの両方を元のセマンティクスを保存するために考慮している。 したがって、成分探索空間を2種類のコード差によって構成されるものとして大きく削減することができ、対応する等価構造変換および識別子リネーム変換を設計・誘導することにより、テストプロセスを改善することができる。 15の深部コードモデルに対する実験により,codaの有効性と効率,生成したサンプルの自然性,および逆微調整後のモデルのロバスト性向上能力が実証された。 例えば、CODAは、平均して最先端技術(CARROTとALERT)よりも88.05%と72.51%の欠点を明らかにしている。

Adversarial examples are important to test and enhance the robustness of deep code models. As source code is discrete and has to strictly stick to complex grammar and semantics constraints, the adversarial example generation techniques in other domains are hardly applicable. Moreover, the adversarial example generation techniques specific to deep code models still suffer from unsatisfactory effectiveness due to the enormous ingredient search space. In this work, we propose a novel adversarial example generation technique (i.e., CODA) for testing deep code models. Its key idea is to use code differences between the target input (i.e., a given code snippet as the model input) and reference inputs (i.e., the inputs that have small code differences but different prediction results with the target input) to guide the generation of adversarial examples. It considers both structure differences and identifier differences to preserve the original semantics. Hence, the ingredient search space can be largely reduced as the one constituted by the two kinds of code differences, and thus the testing process can be improved by designing and guiding corresponding equivalent structure transformations and identifier renaming transformations. Our experiments on 15 deep code models demonstrate the effectiveness and efficiency of CODA, the naturalness of its generated examples, and its capability of enhancing model robustness after adversarial fine-tuning. For example, CODA reveals 88.05% and 72.51% more faults in models than the state-of-the-art techniques (i.e., CARROT and ALERT) on average, respectively.
翻訳日:2023-10-24 13:48:43 公開日:2023-08-19
# コードレビュー中の繰り返しビルド - OpenStackコミュニティに関する実証的研究

Repeated Builds During Code Review: An Empirical Study of the OpenStack Community ( http://arxiv.org/abs/2308.10078v1 )

ライセンス: Link先を確認
Rungroj Maipradit, Dong Wang, Patanamon Thongtanunam, Raula Gaikovina Kula, Yasutaka Kamei, Shane McIntosh(参考訳) コードレビューは、開発者が互いの変更を批判する一般的なプラクティスである。 自動ビルドは低レベルの問題(構文エラーや回帰バグなど)を識別することができるため、ソフトウェア組織がコードレビュープロセスに自動ビルドを組み込むことは珍しくない。 このようなコードレビューデプロイメントシナリオでは、提案された変更セットは、ピアコードレビュアーと自動ビルドボットの両方によって統合するために承認されなければならない。 自動ビルドは変更セットの状態(例えば ``flaky'' や非決定的実行動作による)の信頼性の低いシグナルを生成する可能性があるため、Gerrit のようなコードレビューツールは、開発者は変更セットを更新せずにビルドプロセスを繰り返す '`recheck''' を要求することができる。 制約のない再チェックコマンドは、適切に適用されない場合、時間とリソースを浪費するだろうと推測する。 本稿では,OpenStackコミュニティによる66,932のコードレビューに関する実証的研究を行う。 定量的に分析する (i)ビルド失敗の頻度を再確認すること。 二 再確認の実施が失敗の結果を左右する程度 (iii)再検査による廃棄物発生量 私たちはそれを観察する (i)コードレビューの55%は、ビルド失敗が報告された後に再チェックコマンドを実行します。 (ii)再チェックコマンドを起動することは、ケースの42%で失敗したビルドの結果を変えるだけであり、 (iii)再チェックコマンドを起動すると、レビュー待ち時間が平均2,200%向上し、地球上で最も古い陸生動物と競うために、余剰廃棄物の計算資源が187.4年計算される。

Code review is a popular practice where developers critique each others' changes. Since automated builds can identify low-level issues (e.g., syntactic errors, regression bugs), it is not uncommon for software organizations to incorporate automated builds in the code review process. In such code review deployment scenarios, submitted change sets must be approved for integration by both peer code reviewers and automated build bots. Since automated builds may produce an unreliable signal of the status of a change set (e.g., due to ``flaky'' or non-deterministic execution behaviour), code review tools, such as Gerrit, allow developers to request a ``recheck'', which repeats the build process without updating the change set. We conjecture that an unconstrained recheck command will waste time and resources if it is not applied judiciously. To explore how the recheck command is applied in a practical setting, in this paper, we conduct an empirical study of 66,932 code reviews from the OpenStack community. We quantitatively analyze (i) how often build failures are rechecked; (ii) the extent to which invoking recheck changes build failure outcomes; and (iii) how much waste is generated by invoking recheck. We observe that (i) 55% of code reviews invoke the recheck command after a failing build is reported; (ii) invoking the recheck command only changes the outcome of a failing build in 42% of the cases; and (iii) invoking the recheck command increases review waiting time by an average of 2,200% and equates to 187.4 compute years of waste -- enough compute resources to compete with the oldest land living animal on earth.
翻訳日:2023-10-23 13:30:38 公開日:2023-08-19
# 入力Denoisingによる深層コードモデルのオンザフライ改善

On-the-fly Improving Performance of Deep Code Models via Input Denoising ( http://arxiv.org/abs/2308.09969v1 )

ライセンス: Link先を確認
Zhao Tian, Junjie Chen, Xiangyu Zhang(参考訳) ディープラーニングは、大量のコードスニペットに基づいた深層コードモデルを構築することによって、さまざまなコードベースのタスクに取り組むために広く採用されている。 これらの深層コードモデルは大きな成功を収めているが、最先端モデルでさえ入力に存在するノイズに悩まされ、誤った予測に繋がる。 再トレーニング/微調整によってモデルを強化することは可能だが、これは一度限りのアプローチではなく、大きなオーバーヘッドをもたらす。 特に、これらの技術は(デプロイされた)モデルの性能をオンザフライで改善することはできない。 現在、他の領域(画像処理など)でインプットを記述するための技法はいくつかあるが、コード入力は離散的であり、複雑な構文的制約やセマンティック制約に厳密に従わなければならないため、他の領域でのインプットの特定技術はほとんど適用されない。 本研究では,ディープコードモデルのための最初の入力記述手法(CodeDenoise)を提案する。 その鍵となる考え方は、(おそらく)誤予測された入力にノイズのある識別子をローカライズし、位置した識別子をきれいにすることでそのような入力をデノナイズすることである。 モデルの再トレーニングや再構築は必要ありませんが、パフォーマンスを改善するためにオンザフライで入力をクリーンにするだけです。 18のディープコードモデル(つまり、6つのコードベースデータセットを持つ3つの事前訓練済みモデル)に関する実験は、CodeDenoiseの有効性と効率を実証している。 例えば、CodeDenoiseは、平均して21.91%の誤予測入力を識別し、各入力に使用される平均0.48秒のモデル精度でオリジナルのモデルを2.04%改善し、広く使われている微調整戦略を大幅に上回っている。

Deep learning has been widely adopted to tackle various code-based tasks by building deep code models based on a large amount of code snippets. While these deep code models have achieved great success, even state-of-the-art models suffer from noise present in inputs leading to erroneous predictions. While it is possible to enhance models through retraining/fine-tuning, this is not a once-and-for-all approach and incurs significant overhead. In particular, these techniques cannot on-the-fly improve performance of (deployed) models. There are currently some techniques for input denoising in other domains (such as image processing), but since code input is discrete and must strictly abide by complex syntactic and semantic constraints, input denoising techniques in other fields are almost not applicable. In this work, we propose the first input denoising technique (i.e., CodeDenoise) for deep code models. Its key idea is to localize noisy identifiers in (likely) mispredicted inputs, and denoise such inputs by cleansing the located identifiers. It does not need to retrain or reconstruct the model, but only needs to cleanse inputs on-the-fly to improve performance. Our experiments on 18 deep code models (i.e., three pre-trained models with six code-based datasets) demonstrate the effectiveness and efficiency of CodeDenoise. For example, on average, CodeDenoise successfully denoises 21.91% of mispredicted inputs and improves the original models by 2.04% in terms of the model accuracy across all the subjects in an average of 0.48 second spent on each input, substantially outperforming the widely-used fine-tuning strategy.
翻訳日:2023-10-23 13:29:47 公開日:2023-08-19
# GitHub READMEの簡易化のためのトランスファーラーニングの評価

Evaluating Transfer Learning for Simplifying GitHub READMEs ( http://arxiv.org/abs/2308.09940v1 )

ライセンス: Link先を確認
Haoyu Gao, Christoph Treude and Mansooreh Zahedi(参考訳) ソフトウェアドキュメンテーションは、コード、技術、設計など、ソフトウェア製品に関する詳細な知識をキャプチャする。 開発チームの調整やさまざまなステークホルダーへのアイデアの伝達において重要な役割を担います。 しかし、ジャーゴンと複雑な文構造で書かれた場合、ソフトウェアドキュメンテーションを理解するのは難しい。 本研究では,githubのreadmeファイルを自動的に簡易化するソフトウェア工学領域におけるテキスト簡易化手法の可能性を検討した。 14,588個のエントリからなるgithub readmeファイルのソフトウェア関連ペアを収集し,難文を単純化した文にアレンジし,難解なバージョンを自動的に単純化するトランスフォーマベースのモデルをトレーニングした。 ソフトウェア関連単純化データセットのスパースとノイズを緩和するため,本分野に汎用テキスト単純化知識を適用した。 汎用ドメインの難しいウィキペディア文書ペアはすでに公開されており、まずモデルをWikipediaデータ上でトレーニングし、READMEデータ上で微調整することで、移行学習の可能性を探究した。 bleuの自動スコアと人的評価を用いて,トランスファー学習を伴わないトランスファー学習方式とベースラインモデルのパフォーマンスを比較した。 一般的なトピックコーパスでトレーニングされた最高のチェックポイントを用いた転送学習モデルは、34.68BLEUスコアと統計学的に人間のアノテーションスコアを残りのスキームやベースラインと比較すると、最高のパフォーマンスを達成した。 トランスファー学習は,ソフトウェアreadmeファイルにおけるデータの欠如やドリフトスタイルの問題を回避し,意味の単純化と保存のトレードオフを改善するための有望な方法である。

Software documentation captures detailed knowledge about a software product, e.g., code, technologies, and design. It plays an important role in the coordination of development teams and in conveying ideas to various stakeholders. However, software documentation can be hard to comprehend if it is written with jargon and complicated sentence structure. In this study, we explored the potential of text simplification techniques in the domain of software engineering to automatically simplify GitHub README files. We collected software-related pairs of GitHub README files consisting of 14,588 entries, aligned difficult sentences with their simplified counterparts, and trained a Transformer-based model to automatically simplify difficult versions. To mitigate the sparse and noisy nature of the software-related simplification dataset, we applied general text simplification knowledge to this field. Since many general-domain difficult-to-simple Wikipedia document pairs are already publicly available, we explored the potential of transfer learning by first training the model on the Wikipedia data and then fine-tuning it on the README data. Using automated BLEU scores and human evaluation, we compared the performance of different transfer learning schemes and the baseline models without transfer learning. The transfer learning model using the best checkpoint trained on a general topic corpus achieved the best performance of 34.68 BLEU score and statistically significantly higher human annotation scores compared to the rest of the schemes and baselines. We conclude that using transfer learning is a promising direction to circumvent the lack of data and drift style problem in software README files simplification and achieved a better trade-off between simplification and preservation of meaning.
翻訳日:2023-10-23 13:29:14 公開日:2023-08-19
# コードモデルは何を記憶するか? コードの大規模言語モデルに関する実証的研究

What Do Code Models Memorize? An Empirical Study on Large Language Models of Code ( http://arxiv.org/abs/2308.09932v1 )

ライセンス: Link先を確認
Zhou Yang, Zhipeng Zhao, Chenyu Wang, Jieke Shi, Dongsun Kim, DongGyun Han, David Lo(参考訳) 大規模なデータセット、高度なアーキテクチャ、強力な計算リソースが利用可能になったことで、さまざまなソフトウェアエンジニアリング活動を自動化する効果的なコードモデルが生まれました。 データセットは通常、オープンソースとプライベート両方のリポジトリから数十億行のコードで構成される。 コードモデルは、脆弱性、機密情報、あるいは厳格なライセンスを持つコードを含む可能性のあるソースコードを記憶し、生成し、潜在的なセキュリティとプライバシの問題を引き起こす。 本稿では,コードモデルがどの程度トレーニングデータを記憶しているかという問題について検討する。 我々は、大規模な事前学習されたコードモデルにおける記憶の探索を経験的研究する。 コードモデルから2万のアウトプット(それぞれ512のトークンを持つ)を抽出するだけで,トレーニングデータから40,125以上のコードスニペットを生成することができる。 より理解を深めるため、3つのカテゴリと14のサブカテゴリからなる記憶コンテンツの分類法を構築した。 その結果、コードモデルに送信されたプロンプトが記憶されたコンテンツの分布に影響を与えることがわかった。 記憶の鍵となる要素がいくつかある。 特に、同じアーキテクチャを考えると、より大きなモデルは記憶の問題に苦しむ。 コードモデルは、より長い出力を生成することができると、より記憶力を高める。 また, 学習データにおける出力数と生成した出力との間には正の相関が強く, 記憶を減少させる潜在的な方法は学習データの重複を取り除くことである。 そして、そのアウトプットが記憶を正確に含むかどうかを推測する効果的な指標を特定する。 また、コードモデルの記憶を扱うことについてもいくつか提案します。

The availability of large-scale datasets, advanced architectures, and powerful computational resources have led to effective code models that automate diverse software engineering activities. The datasets usually consist of billions of lines of code from both open-source and private repositories. A code model memorizes and produces source code verbatim, which potentially contains vulnerabilities, sensitive information, or code with strict licenses, leading to potential security and privacy issues. This paper investigates an important problem: to what extent do code models memorize their training data? We conduct an empirical study to explore memorization in large pre-trained code models. Our study highlights that simply extracting 20,000 outputs (each having 512 tokens) from a code model can produce over 40,125 code snippets that are memorized from the training data. To provide a better understanding, we build a taxonomy of memorized contents with 3 categories and 14 subcategories. The results show that the prompts sent to the code models affect the distribution of memorized contents. We identify several key factors of memorization. Specifically, given the same architecture, larger models suffer more from memorization problems. A code model produces more memorization when it is allowed to generate longer outputs. We also find a strong positive correlation between the number of an output's occurrences in the training data and that in the generated outputs, which indicates that a potential way to reduce memorization is to remove duplicates in the training data. We then identify effective metrics that infer whether an output contains memorization accurately. We also make some suggestions regarding dealing with memorization in code models.
翻訳日:2023-10-23 13:28:44 公開日:2023-08-19
# OSSプロジェクトにおけるユーザビリティの課題

Characterizing Usability Issue Discussions in OSS Projects ( http://arxiv.org/abs/2308.09876v1 )

ライセンス: Link先を確認
Arghavan Sanei, Jinghui Cheng(参考訳) ユーザビリティは重要な要素だが、オープンソースソフトウェア(OSS)において最も無視される懸念の1つだ。 理想的なアプローチとは程遠いが、OSSコミュニティがユーザビリティに協力的に対処するために採用する一般的なプラクティスは、イシュートラッキングシステム(ITS)に関する議論である。 しかし,OSSコミュニティのメンバがユーザビリティに関する議論にどの程度関わったか,ユーザビリティに関する議論が頻繁に対象とする側面,ユーザビリティに関する議論に関するコラボレーションの特徴についてはほとんど分かっていない。 この知識は、OSSコミュニティに対して、この重要なトピックに対処し、OSSのユーザビリティを全般的に改善する上で、実践的なレコメンデーションと研究の方向性を提供する上で重要である。 この目標を達成するために、3つのデータサイエンスノートブックプロジェクト(jupyter lab、google colab、cocalc)と2つのコードエディタプロジェクト(vscodeとatom)の5つの人気のあるossアプリケーションで議論されている問題に関する広範な実証研究を行った。 その結果,OSSプロジェクトではユーザビリティの問題が広く議論されているが,その範囲は効率性や美学に限られていた。 さらに、これらの問題は経験豊富なコミュニティメンバーによってより頻繁に投稿され、視覚的なコミュニケーションや参加者の増加など、識別可能な特徴を示す。 この結果から,OSS実践者に対して,ユーザビリティに関する議論にコミュニティをより深く関与させる上で重要な意味を持ち,OSSコンテキストにおけるユーザビリティ問題など,さまざまなコミュニティにおけるニッチなトピックを議論するためのコラボレーション技術やツールに関する今後の研究課題に光を当てることができた。

Usability is a crucial factor but one of the most neglected concerns in open source software (OSS). While far from an ideal approach, a common practice that OSS communities adopt to collaboratively address usability is through discussions on issue tracking systems (ITSs). However, there is little knowledge about the extent to which OSS community members engage in usability issue discussions, the aspects of usability they frequently target, and the characteristics of their collaboration around usability issue discussions. This knowledge is important for providing practical recommendations and research directions to better support OSS communities in addressing this important topic and improve OSS usability in general. To help achieve this goal, we performed an extensive empirical study on issues discussed in five popular OSS applications: three data science notebook projects (Jupyter Lab, Google Colab, and CoCalc) and two code editor projects (VSCode and Atom). Our results indicated that while usability issues are extensively discussed in the OSS projects, their scope tended to be limited to efficiency and aesthetics. Additionally, these issues are more frequently posted by experienced community members and display distinguishable characteristics, such as involving more visual communication and more participants. Our results provide important implications that can inform the OSS practitioners to better engage the community in usability issue discussion and shed light on future research efforts toward collaboration techniques and tools for discussing niche topics in diverse communities, such as the usability issues in the OSS context.
翻訳日:2023-10-23 13:28:20 公開日:2023-08-19
# e.u.'s artificial intelligence act: an ordoliberal assessment

The E.U.'s Artificial Intelligence Act: An Ordoliberal Assessment ( http://arxiv.org/abs/2309.12336v1 )

ライセンス: Link先を確認
Manuel Woersdoerfer(参考訳) 生成的AIの台頭と、大規模言語モデルとチャットボットの社会的・政治的影響に関する最近の議論を踏まえ、この記事では、AI技術の潜在的ネガティブな影響に対処し軽減するための、政府による世界初の主要な試みである、E.U.'s Artificial Intelligence Act(AIA)を調査する。 この論文は、AIAを明確な経済倫理的観点、すなわちオードリベラリズム2.0から批判的に分析し、現在学術文献に欠けている視点である。 特に、AIAのオリベラルな強さと弱さを評価し、AIAを強化するための改革措置を提案する。

In light of the rise of generative AI and recent debates about the socio-political implications of large-language models and chatbots, this article investigates the E.U.'s Artificial Intelligence Act (AIA), the world's first major attempt by a government body to address and mitigate the potentially negative impacts of AI technologies. The article critically analyzes the AIA from a distinct economic ethics perspective, i.e., ordoliberalism 2.0 - a perspective currently lacking in the academic literature. It evaluates, in particular, the AIA's ordoliberal strengths and weaknesses and proposes reform measures that could be taken to strengthen the AIA.
翻訳日:2023-10-23 06:48:06 公開日:2023-08-19
# コンピュータサイエンス教育の再定義: ai ベースの no-code プラットフォームによる自然言語プログラミング

Redefining Computer Science Education: Code-Centric to Natural Language Programming with AI-Based No-Code Platforms ( http://arxiv.org/abs/2308.13539v1 )

ライセンス: Link先を確認
David Y.J. Kim(参考訳) 本稿では,プログラミング分野における人間とコンピュータの進化的関係について述べる。 歴史的に、プログラミングは人間が機械理解に適したコミュニケーションを巧みに作り、コンピュータサイエンス教育の軌跡を形作る対話である。 しかし、AIベースのノーコードプラットフォームの出現は、このダイナミクスに革命をもたらしている。 人間は自然言語で会話し、機械が解釈し行動することを期待している。 この変化はコンピュータサイエンス教育に大きな影響を与える。 教育者として、この新しいダイナミクスをカリキュラムに統合することは必須です。 本稿では,この転換における関連する研究課題をいくつか検討し,教育戦略における調査と適応の継続を求める。

This paper delves into the evolving relationship between humans and computers in the realm of programming. Historically, programming has been a dialogue where humans meticulously crafted communication to suit machine understanding, shaping the trajectory of computer science education. However, the advent of AI-based no-code platforms is revolutionizing this dynamic. Now, humans can converse in their natural language, expecting machines to interpret and act. This shift has profound implications for computer science education. As educators, it's imperative to integrate this new dynamic into curricula. In this paper, we've explored several pertinent research questions in this transformation, which demand continued inquiry and adaptation in our educational strategies.
翻訳日:2023-09-03 21:44:33 公開日:2023-08-19
# OCTAL:LTLモデル検査のためのグラフ表現学習

OCTAL: Graph Representation Learning for LTL Model Checking ( http://arxiv.org/abs/2308.13474v1 )

ライセンス: Link先を確認
Prasita Mukherjee and Haoteng Yin(参考訳) モデルチェックは、複雑なシステムと並行システムの仕様に対する正確性を検証するのに広く適用されます。 純粋なシンボリックアプローチは人気があるものの、大規模システムや/または仕様に制限的にコストがかかるようなクロスプロダクト操作が必要なため、国家空間の爆発的な問題に苦しめられている。 本稿では,線形時相論理(ltl)モデルチェックにおけるグラフ表現学習(grl)を用いて,システムと仕様をそれぞれb{\"u}chiオートマトンとltl式で表現する手法を提案する。 GRLベースの新しいフレームワーク \model は、グラフ構造化システムと仕様の表現を学習するために設計されており、モデルチェック問題を二項分類に還元する。 2つのモデルチェックシナリオに関する実証実験は、 \modelが有望な精度を達成し、標準SOTAモデルチェッカーに対する全体的なスピードアップが最大11ドル、満足度チェッカーだけで311ドルであることを示している。

Model Checking is widely applied in verifying the correctness of complex and concurrent systems against a specification. Pure symbolic approaches while popular, suffer from the state space explosion problem due to cross product operations required that make them prohibitively expensive for large-scale systems and/or specifications. In this paper, we propose to use graph representation learning (GRL) for solving linear temporal logic (LTL) model checking, where the system and the specification are expressed by a B{\"u}chi automaton and an LTL formula, respectively. A novel GRL-based framework \model, is designed to learn the representation of the graph-structured system and specification, which reduces the model checking problem to binary classification. Empirical experiments on two model checking scenarios show that \model achieves promising accuracy, with up to $11\times$ overall speedup against canonical SOTA model checkers and $31\times$ for satisfiability checking alone.
翻訳日:2023-09-03 21:42:44 公開日:2023-08-19
# 画像の複雑さを計測する最小記述長クラスタリング

Minimum Description Length Clustering to Measure Meaningful Image Complexity ( http://arxiv.org/abs/2306.14937v3 )

ライセンス: Link先を確認
Louis Mahon, Thomas Lukasiewicz(参考訳) 既存の画像複雑性指標は、有意義なコンテンツとノイズを区別できない。 これは、意味のある情報を含まないホワイトノイズ画像は、非常に複雑であると判断されることを意味する。 本稿では,パッチの階層的クラスタリングによる画像複雑性指標を提案する。 最小記述長の原理を用いて、クラスタ数を決定し、特定の点を外れ値として指定し、ホワイトノイズを低いスコアに正しく割り当てる。 提案手法は有意義な複雑性を測定するための理論的アイデアと類似性を有する。 我々は,7種類の異なる画像に対して実験を行い,最も正確なスコアを考慮されたすべての画像に割り当てることを示す。 さらに、クラスタ階層の異なるレベルを比較することで、ローカルディテールからグローバル構造まで、さまざまなスケールで複雑さがどのように現れるかが分かる。 次に,本手法の成分の寄与を示すアブレーション研究を行い,ガウス雑音の付加や分解能の低下など,入力が特定の方法で修正された場合でも妥当なスコアを付与し続けていることを示す。

Existing image complexity metrics cannot distinguish meaningful content from noise. This means that white noise images, which contain no meaningful information, are judged as highly complex. We present a new image complexity metric through hierarchical clustering of patches. We use the minimum description length principle to determine the number of clusters and designate certain points as outliers and, hence, correctly assign white noise a low score. The presented method has similarities to theoretical ideas for measuring meaningful complexity. We conduct experiments on seven different sets of images, which show that our method assigns the most accurate scores to all images considered. Additionally, comparing the different levels of the hierarchy of clusters can reveal how complexity manifests at different scales, from local detail to global structure. We then present ablation studies showing the contribution of the components of our method, and that it continues to assign reasonable scores when the inputs are modified in certain ways, including the addition of Gaussian noise and the lowering of the resolution.
翻訳日:2023-08-24 17:46:43 公開日:2023-08-19
# RLに基づく初期化によるエクサクティビティ最適化の高速化-スケジューリングのケーススタディ

Accelerating Exact Combinatorial Optimization via RL-based Initialization -- A Case Study in Scheduling ( http://arxiv.org/abs/2308.11652v1 )

ライセンス: Link先を確認
Jiaqi Yin and Cunxi Yu(参考訳) データフローグラフのスケジューリング(計算グラフとも呼ばれる)はNPハード問題である。 従来の厳密な手法は実行時の複雑さによって制限されるが、強化学習(RL)とヒューリスティックベースのアプローチは決定論とソリューションの品質に苦しむ。 本研究の目的は、スケジューリングを事例研究として、組合せ最適化問題に対処する機械学習(ML)を用いた革新的なアプローチを開発することである。 目標は、ヒューリスティックなメソッドの実行コストを維持しながら、最適性と決定性の保証を提供することである。 具体的には,新しい2段階のRL-to-ILPスケジューリングフレームワークを提案する。 1)RLソルバは粗粒スケジューラとして機能する。 2【解緩和・解法】 3) ILPによる正確な解法。 提案フレームワークは, 正確なスケジューリング手法と比較して, 最大128$\times$スピード改善を実現しながら, 同じスケジューリング性能を示す。 これは実際のEdgeTPUプラットフォーム上で行われ、ImageNet DNN計算グラフを入力として利用した。 さらに、このフレームワークは市販のEdgeTPUコンパイラと比較して、オンチップ推論ランタイムとアクセラレーションが改善されている。

Scheduling on dataflow graphs (also known as computation graphs) is an NP-hard problem. The traditional exact methods are limited by runtime complexity, while reinforcement learning (RL) and heuristic-based approaches struggle with determinism and solution quality. This research aims to develop an innovative approach that employs machine learning (ML) for addressing combinatorial optimization problems, using scheduling as a case study. The goal is to provide guarantees in optimality and determinism while maintaining the runtime cost of heuristic methods. Specifically, we introduce a novel two-phase RL-to-ILP scheduling framework, which includes three steps: 1) RL solver acts as coarse-grain scheduler, 2) solution relaxation and 3) exact solving via ILP. Our framework demonstrates the same scheduling performance compared with using exact scheduling methods while achieving up to 128 $\times$ speed improvements. This was conducted on actual EdgeTPU platforms, utilizing ImageNet DNN computation graphs as input. Additionally, the framework offers improved on-chip inference runtime and acceleration compared to the commercially available EdgeTPU compiler.
翻訳日:2023-08-24 17:26:57 公開日:2023-08-19
# 分布的ロバストなクロスサブジェクト脳波復号

Distributionally Robust Cross Subject EEG Decoding ( http://arxiv.org/abs/2308.11651v1 )

ライセンス: Link先を確認
Tiehang Duan, Zhenyi Wang, Gianfranco Doretto, Fang Li, Cui Tao, Donald Adjeroh(参考訳) 近年,深層学習は脳波デコード作業に有効であることが示されている。 しかし、その性能は2つの重要な要因によって負の影響を受けうる。 1)信号に固有の高いばらつきと異なる種類の腐敗。 2) eegデータセットは通常、取得コスト、アノテーションコスト、必要な労力量を考えると比較的小さい。 この問題を緩和するためのデータ拡張アプローチは、空間領域、時間領域または周波数領域に関する拡張操作をドメイン知識の専門知識に基づいて手作業で実施し、実証的に研究されている。 本研究では,デコードロバスト性を改善するために,データ上で動的に進化する手法を提案する。 このアプローチは、分散的に堅牢な最適化に基づいており、単一のトレーニングデータ分布ではなく、進化したデータ分布のファミリーを最適化することで、堅牢性を実現する。 我々はwassersteingradient flow(wgf)に基づく汎用データ進化フレームワークを考案し,そのフレームワーク内で2つの異なる形態の進化を提供する。 直感的には、進化過程はEEGデコーダがより堅牢で多様な機能を学ぶのに役立つ。 提案されたアプローチが、さらなる改善のために、他のデータ拡張アプローチと容易に統合できることは注目に値する。 提案手法を広範囲に実験し, 劣化した脳波信号を用いた評価実験を行った。 このモデルは、挑戦的なデコーディングシナリオにおいて、競争上のベースラインを大幅に上回る。

Recently, deep learning has shown to be effective for Electroencephalography (EEG) decoding tasks. Yet, its performance can be negatively influenced by two key factors: 1) the high variance and different types of corruption that are inherent in the signal, 2) the EEG datasets are usually relatively small given the acquisition cost, annotation cost and amount of effort needed. Data augmentation approaches for alleviation of this problem have been empirically studied, with augmentation operations on spatial domain, time domain or frequency domain handcrafted based on expertise of domain knowledge. In this work, we propose a principled approach to perform dynamic evolution on the data for improvement of decoding robustness. The approach is based on distributionally robust optimization and achieves robustness by optimizing on a family of evolved data distributions instead of the single training data distribution. We derived a general data evolution framework based on Wasserstein gradient flow (WGF) and provides two different forms of evolution within the framework. Intuitively, the evolution process helps the EEG decoder to learn more robust and diverse features. It is worth mentioning that the proposed approach can be readily integrated with other data augmentation approaches for further improvements. We performed extensive experiments on the proposed approach and tested its performance on different types of corrupted EEG signals. The model significantly outperforms competitive baselines on challenging decoding scenarios.
翻訳日:2023-08-24 17:26:42 公開日:2023-08-19
# フロントガラスによる光波面収差に対するAIに基づく自律走行アルゴリズムの感度解析

Sensitivity analysis of AI-based algorithms for autonomous driving on optical wavefront aberrations induced by the windshield ( http://arxiv.org/abs/2308.11711v1 )

ライセンス: Link先を確認
Dominik Werner Wolf and Markus Ulrich and Nikhil Kapoor(参考訳) 自律運転認識技術は通常、現実世界のストリートデータに基づいてトレーニングされた教師付き機械学習モデルに基づいている。 典型的なトレーニングプロセスでは、単一のカーモデルとフロントガラス構成で画像をキャプチャする。 しかし、これらのトレーニングされたモデルを異なる車種にデプロイすると、ドメインシフトが発生する可能性があるため、ニューラルネットワークのパフォーマンスが損なわれ、動作中のADAS要求に違反する可能性がある。 そこで本研究では,異なる風車構成に対する2つの知覚モデルの感度を評価することにより,ドメインシフトの問題をさらに検討する。 これは、フーリエ光学に基づく脅威モデルを適用することにより、ニューラルネットワークベンチマークメトリクスと光学的メリット関数の依存関係を評価することで実現される。 以上の結果から,ウインドシールドが導入する性能ギャップがあり,既存の光学的測定基準では十分ではない可能性が示唆された。

Autonomous driving perception techniques are typically based on supervised machine learning models that are trained on real-world street data. A typical training process involves capturing images with a single car model and windshield configuration. However, deploying these trained models on different car types can lead to a domain shift, which can potentially hurt the neural networks performance and violate working ADAS requirements. To address this issue, this paper investigates the domain shift problem further by evaluating the sensitivity of two perception models to different windshield configurations. This is done by evaluating the dependencies between neural network benchmark metrics and optical merit functions by applying a Fourier optics based threat model. Our results show that there is a performance gap introduced by windshields and existing optical metrics used for posing requirements might not be sufficient.
翻訳日:2023-08-24 17:07:59 公開日:2023-08-19
# TVMにおける量子化の解析

Analyzing Quantization in TVM ( http://arxiv.org/abs/2308.10905v1 )

ライセンス: Link先を確認
Mingfei Guo(参考訳) ディープラーニングモデルにおける重みテンソルの定量化に関する学術文献では、推論遅延とメモリフットプリントを低減するために多くの論文がある。 TVMは重量を定量化し、低ビットの計算をサポートする。 量子化は一般的に推論時間を改善することが期待されているが、tvmでは8ビット量子化の性能は期待を満たさない。 通常、ディープラーニングモデルに8ビット量子化を適用する場合、完全精度推論時間の約50%を達成することが期待される。 しかし、この場合、量子化されたバージョンは、望まれるパフォーマンス向上を達成できないだけでなく、実際はパフォーマンスが悪くなり、推論時間が非量子化されたバージョンの約2倍遅くなってしまう。 本研究の目的は,TVMにおける8ビット量子化の互換性と最適化の可能性を評価することにある。 計算バウンドとメモリバウンドの2種類のタスクの最適化について検討し,tvmにおける様々な最適化手法の詳細な比較を行った。 性能問題を特定することで,グラフ構築におけるバグに対処することで,量子化の改善に成功した。 さらに,複数の最適化戦略を分析し,最適な量子化結果を得る。 最良の実験は、計算バウンドタスクの推論時間におけるtvmコンパイルベースラインと比較して163.88%改善し、メモリバウンドタスクでは194.98%向上した。

There has been many papers in academic literature on quantizing weight tensors in deep learning models to reduce inference latency and memory footprint. TVM also has the ability to quantize weights and support low-bit computations. Although quantization is typically expected to improve inference time, in TVM, the performance of 8-bit quantization does not meet the expectations. Typically, when applying 8-bit quantization to a deep learning model, it is usually expected to achieve around 50% of the full-precision inference time. However, in this particular case, not only does the quantized version fail to achieve the desired performance boost, but it actually performs worse, resulting in an inference time that is about 2 times as slow as the non-quantized version. In this project, we thoroughly investigate the reasons behind the underperformance and assess the compatibility and optimization opportunities of 8-bit quantization in TVM. We discuss the optimization of two different types of tasks: computation-bound and memory-bound, and provide a detailed comparison of various optimization techniques in TVM. Through the identification of performance issues, we have successfully improved quantization by addressing a bug in graph building. Furthermore, we analyze multiple optimization strategies to achieve the optimal quantization result. The best experiment achieves 163.88% improvement compared with the TVM compiled baseline in inference time for the compute-bound task and 194.98% for the memory-bound task.
翻訳日:2023-08-23 20:19:10 公開日:2023-08-19
# 顧客レビューの分析におけるトピックモデリング技術の力を探る:比較分析

Exploring the Power of Topic Modeling Techniques in Analyzing Customer Reviews: A Comparative Analysis ( http://arxiv.org/abs/2308.11520v1 )

ライセンス: Link先を確認
Anusuya Krishnan(参考訳) オンラインソーシャルネットワークプラットフォームやアプリケーションの指数関数的な成長は、コメントやレビューを含むユーザー生成のテキストコンテンツの急増につながった。 その結果、ユーザーはこうしたコンテンツから貴重な洞察や関連情報を抽出することが困難になることが多い。 この課題に対処するため、オンラインで利用可能な膨大なテキストデータを分析するために、機械学習と自然言語処理アルゴリズムがデプロイされている。 近年,この領域ではトピックモデリング技術が顕著に普及している。 本研究では,顧客レビューに特に適用される5つの頻繁なトピックモデリング手法を包括的に検討し,比較する。 検討中の手法は、潜在意味分析(LSA)、潜在ディリクレ割り当て(LDA)、非負行列分解(NMF)、パチンコ割り当てモデル(PAM)、Top2Vec、BERTopicである。 重要なトピックを検出することのメリットを実際に示すことで、現実のシナリオで有効性を強調することを目指している。 これらのトピックモデリング手法の性能を評価するため、2つのテキストデータセットを慎重に選択する。 この評価は、トピックコヒーレンススコアなどの標準統計評価指標に基づいている。 その結果,BERTopicはより意味のあるトピックを抽出し,良好な結果を得ることができた。

The exponential growth of online social network platforms and applications has led to a staggering volume of user-generated textual content, including comments and reviews. Consequently, users often face difficulties in extracting valuable insights or relevant information from such content. To address this challenge, machine learning and natural language processing algorithms have been deployed to analyze the vast amount of textual data available online. In recent years, topic modeling techniques have gained significant popularity in this domain. In this study, we comprehensively examine and compare five frequently used topic modeling methods specifically applied to customer reviews. The methods under investigation are latent semantic analysis (LSA), latent Dirichlet allocation (LDA), non-negative matrix factorization (NMF), pachinko allocation model (PAM), Top2Vec, and BERTopic. By practically demonstrating their benefits in detecting important topics, we aim to highlight their efficacy in real-world scenarios. To evaluate the performance of these topic modeling methods, we carefully select two textual datasets. The evaluation is based on standard statistical evaluation metrics such as topic coherence score. Our findings reveal that BERTopic consistently yield more meaningful extracted topics and achieve favorable results.
翻訳日:2023-08-23 17:29:40 公開日:2023-08-19
# 多クラステキスト分類の最適化:トランスフォーマーを利用した多様なスタックングアンサンブルフレームワーク

Optimizing Multi-Class Text Classification: A Diverse Stacking Ensemble Framework Utilizing Transformers ( http://arxiv.org/abs/2308.11519v1 )

ライセンス: Link先を確認
Anusuya Krishnan(参考訳) 顧客レビューは、顧客満足度の評価、フィードバックの収集、ビジネス改善の推進に重要な役割を果たす。 これらのレビューを分析することで、賛辞やコメント、提案など、顧客の感情に対する貴重な洞察が得られる。 テキスト分類技術により、企業は顧客レビューを異なるカテゴリに分類し、顧客からのフィードバックをより理解しやすくすることができる。 しかし、過度な適合やバイアスといった課題は、最適な予測を保証するために単一の分類器の有効性を制限する。 そこで本研究では,トランスフォーマーモデルを利用した階層化アンサンブルに基づくマルチテキスト分類手法を提案する。 BERT、ELECTRA、DistilBERTを含む複数の単一変換器をベースレベル分類器とRoBERTaに基づくメタレベル分類器とを組み合わせることにより、最適な予測モデルを生成する。 提案手法は,顧客レビュー分析の正確性とロバスト性を高めることを目的としている。 実世界のカスタマレビューデータセットで実施した実験評価により,従来の単一分類モデルに対する提案手法の有効性と優位性が示された。 トランスフォーマーを用いた積み重ねアンサンブルに基づくマルチテキスト分類手法は、顧客レビューから価値ある洞察を抽出し、顧客満足度を高め、継続的な改善を促進するためのデータ駆動決定を行う企業にとって、有望なソリューションであることが証明されている。

Customer reviews play a crucial role in assessing customer satisfaction, gathering feedback, and driving improvements for businesses. Analyzing these reviews provides valuable insights into customer sentiments, including compliments, comments, and suggestions. Text classification techniques enable businesses to categorize customer reviews into distinct categories, facilitating a better understanding of customer feedback. However, challenges such as overfitting and bias limit the effectiveness of a single classifier in ensuring optimal prediction. This study proposes a novel approach to address these challenges by introducing a stacking ensemble-based multi-text classification method that leverages transformer models. By combining multiple single transformers, including BERT, ELECTRA, and DistilBERT, as base-level classifiers, and a meta-level classifier based on RoBERTa, an optimal predictive model is generated. The proposed stacking ensemble-based multi-text classification method aims to enhance the accuracy and robustness of customer review analysis. Experimental evaluations conducted on a real-world customer review dataset demonstrate the effectiveness and superiority of the proposed approach over traditional single classifier models. The stacking ensemble-based multi-text classification method using transformers proves to be a promising solution for businesses seeking to extract valuable insights from customer reviews and make data-driven decisions to enhance customer satisfaction and drive continuous improvement.
翻訳日:2023-08-23 17:28:55 公開日:2023-08-19
# マルチモーダル解析のための因果交叉性と勾配降下の双対形--憎悪のあるミームを事例として

Causal Intersectionality and Dual Form of Gradient Descent for Multimodal Analysis: a Case Study on Hateful Memes ( http://arxiv.org/abs/2308.11585v1 )

ライセンス: Link先を確認
Yosuke Miyanishi, Minh Le Nguyen(参考訳) 機械学習(ML)の利用が爆発的に増加する中で、特に新興のLarge Language Models(LLM)の文脈において、その内部作業に根ざした意味的意義を理解することが重要である。 因果解析は意味論の定義と定量化に重点を置いているが、勾配に基づくアプローチは説明可能なAI(XAI)の中心であり、ブラックボックスの解釈に取り組む。 これらのアプローチを相補することにより、モデルの内部メカニズムが因果効果を照らす方法の探求は、証拠に基づく意思決定に不可欠なものとなった。 並列的な研究の行は、交叉性 - 個人の複数の集団の組合せ的影響 - が平均的な治療効果(ate)の形で構成できることを明らかにした。 まず, ヘイトフルミーム検出問題をateとして定式化し, 交叉性の原理を援用し, グラデーションに基づく注意帰属スコアの様相的要約を行うことにより, ateに関する3つのトランスフォーマーモデルの異なる挙動を記述できることを示す。 次に,最新のllm llama2は,コンテキスト内学習環境におけるミーム検出の交叉的性質を分離する能力を持ち,その機構特性は2次勾配であるメタグラデーエントによって解明されることを示した。 結論として,本研究は,XAIを取り巻く対話とMLモデルの多面的性質に寄与する。

In the wake of the explosive growth of machine learning (ML) usage, particularly within the context of emerging Large Language Models (LLMs), comprehending the semantic significance rooted in their internal workings is crucial. While causal analyses focus on defining semantics and its quantification, the gradient-based approach is central to explainable AI (XAI), tackling the interpretation of the black box. By synergizing these approaches, the exploration of how a model's internal mechanisms illuminate its causal effect has become integral for evidence-based decision-making. A parallel line of research has revealed that intersectionality - the combinatory impact of multiple demographics of an individual - can be structured in the form of an Averaged Treatment Effect (ATE). Initially, this study illustrates that the hateful memes detection problem can be formulated as an ATE, assisted by the principles of intersectionality, and that a modality-wise summarization of gradient-based attention attribution scores can delineate the distinct behaviors of three Transformerbased models concerning ATE. Subsequently, we show that the latest LLM LLaMA2 has the ability to disentangle the intersectional nature of memes detection in an in-context learning setting, with their mechanistic properties elucidated via meta-gradient, a secondary form of gradient. In conclusion, this research contributes to the ongoing dialogue surrounding XAI and the multifaceted nature of ML models.
翻訳日:2023-08-23 17:20:09 公開日:2023-08-19
# UniDoc: テキストの同時検出、認識、スポッティング、理解のための大規模マルチモーダルモデル

UniDoc: A Universal Large Multimodal Model for Simultaneous Text Detection, Recognition, Spotting and Understanding ( http://arxiv.org/abs/2308.11592v1 )

ライセンス: Link先を確認
Hao Feng, Zijian Wang, Jingqun Tang, Jinghui Lu, Wengang Zhou, Houqiang Li, Can Huang(参考訳) 大規模言語モデル(llm)の時代には、マルチモーダル理解の分野で大きな進歩があった。 しかし、既存の高度なアルゴリズムは、これらの大規模事前学習モデルに固有の膨大な表現能力と豊かな世界知識を効果的に活用することに限定されており、テキストリッチシナリオのコンテキストにおけるタスク間の有益な関係は十分に解明されていない。 本稿では,既存の手法に欠けるテキスト検出と認識機能を備えた,新しいマルチモーダルモデルunidocを提案する。 さらに、UniDocは各タスクのパフォーマンスを向上させるために、タスク間の有益なインタラクションに便乗する。 UniDocを実装するために,提案する大規模インストラクションに基づくマルチモーダルインストラクションチューニングを行う。 定量的および定性的な実験結果は、UniDocが複数の挑戦的なベンチマークで最先端のスコアを設定することを示している。 私たちの知る限りでは、これはテキスト検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルです。

In the era of Large Language Models (LLMs), tremendous strides have been made in the field of multimodal understanding. However, existing advanced algorithms are limited to effectively utilizing the immense representation capabilities and rich world knowledge inherent to these large pre-trained models, and the beneficial connections among tasks within the context of text-rich scenarios have not been sufficiently explored. In this work, we introduce UniDoc, a novel multimodal model equipped with text detection and recognition capabilities, which are deficient in existing approaches. Moreover, UniDoc capitalizes on the beneficial interactions among tasks to enhance the performance of each individual task. To implement UniDoc, we perform unified multimodal instruct tuning on the contributed large-scale instruction following datasets. Quantitative and qualitative experimental results show that UniDoc sets state-of-the-art scores across multiple challenging benchmarks. To the best of our knowledge, this is the first large multimodal model capable of simultaneous text detection, recognition, spotting, and understanding.
翻訳日:2023-08-23 17:08:09 公開日:2023-08-19
# MLOps: レビュー

MLOps: A Review ( http://arxiv.org/abs/2308.10908v1 )

ライセンス: Link先を確認
Samar Wazir, Gautam Siddharth Kashyap, Parag Saxena(参考訳) 近年,機械学習(ML)は急速に進歩している重要な進歩の方法として広く受け入れられている。 機械を教えるために計算手法を用いており、許容できる答えを生み出している。 本研究では,このような問題に対して許容できる回答を提供する機械学習操作(MLOps)手法の重要性について検討した。 簡単に使えるソフトウェアの開発を支援するために、著者らはMLOpsメソッドを研究している。 特定のプロジェクトの最適なツール構造を選択するために、著者らは様々なmlopsメソッドの特徴と操作性を評価する。 MLOpsのアイデアを適用しようとする合計22の論文が評価された。 最後に,人間のエンゲージメントを制限して自己制御できるMLOps手法が不十分であることを認めた。

Recently, Machine Learning (ML) has become a widely accepted method for significant progress that is rapidly evolving. Since it employs computational methods to teach machines and produce acceptable answers. The significance of the Machine Learning Operations (MLOps) methods, which can provide acceptable answers for such problems, is examined in this study. To assist in the creation of software that is simple to use, the authors research MLOps methods. To choose the best tool structure for certain projects, the authors also assess the features and operability of various MLOps methods. A total of 22 papers were assessed that attempted to apply the MLOps idea. Finally, the authors admit the scarcity of fully effective MLOps methods based on which advancements can self-regulate by limiting human engagement.
翻訳日:2023-08-23 14:23:53 公開日:2023-08-19
# アクティブ高周波トレーディングのための深部強化学習

Deep Reinforcement Learning for Active High Frequency Trading ( http://arxiv.org/abs/2101.07107v3 )

ライセンス: Link先を確認
Antonio Briola, Jeremy Turiel, Riccardo Marcaccioli, Alvaro Cauderan, Tomaso Aste(参考訳) 我々は、株式市場におけるアクティブな高周波取引のための、最初のエンドツーエンドのDeep Reinforcement Learning(DRL)ベースのフレームワークを紹介する。 我々はDRLエージェントを訓練し、Pximal Policy Optimizationアルゴリズムを用いてIntel Corporation株の1ユニットを取引する。 訓練は、前月が検証データを構成する高頻度リミット・オーダー・ブックデータの3つの連続した月に対して行われる。 トレーニングデータにおける信号対雑音比を最大化するために,最大価格変化のあるトレーニングサンプルのみを選択することで,後者を構成する。 テストは翌月のデータで実施される。 ハイパーパラメータはシーケンシャルモデルに基づく最適化技術を用いて調整される。 LOBのメタ機能が異なる3つの状態特徴について考察する。 テストデータ上でエージェントのパフォーマンスを分析することで、エージェントは基盤となる環境の動的な表現を作成できると主張している。 彼らは、データに時折存在する正規性を識別し、長期の利益をもたらす取引戦略を作成するためにそれらを利用する。 実際、エージェントは高い確率的かつ非定常な環境にもかかわらず、安定したポジティブなリターンを生み出すことができる取引戦略を学ぶ。

We introduce the first end-to-end Deep Reinforcement Learning (DRL) based framework for active high frequency trading in the stock market. We train DRL agents to trade one unit of Intel Corporation stock by employing the Proximal Policy Optimization algorithm. The training is performed on three contiguous months of high frequency Limit Order Book data, of which the last month constitutes the validation data. In order to maximise the signal to noise ratio in the training data, we compose the latter by only selecting training samples with largest price changes. The test is then carried out on the following month of data. Hyperparameters are tuned using the Sequential Model Based Optimization technique. We consider three different state characterizations, which differ in their LOB-based meta-features. Analysing the agents' performances on test data, we argue that the agents are able to create a dynamic representation of the underlying environment. They identify occasional regularities present in the data and exploit them to create long-term profitable trading strategies. Indeed, agents learn trading strategies able to produce stable positive returns in spite of the highly stochastic and non-stationary environment.
翻訳日:2023-08-23 03:43:33 公開日:2023-08-19
# ニュートンポリゴンを用いた例外点の特性とチューニング

Characterizing and Tuning Exceptional Points Using Newton Polygons ( http://arxiv.org/abs/2107.11649v4 )

ライセンス: Link先を確認
Rimika Jaiswal, Ayan Banerjee, Awadhesh Narayan(参考訳) 例外点と呼ばれる非エルミート退化の研究は、光学、フォトニクス、音響学、量子物理学のクロスロードにおけるエキサイティングなフロンティアとなっている。 本稿では,例外点を特徴付け,チューニングするための一般的な代数的枠組みとしてニュートン多角形法を提案する。 これらの多角形は1676年にアイザック・ニュートンによって初めて記述され、代数幾何学において伝統的に使われ、現代の数学における様々な話題において深いルーツを持つ。 我々は、非エルミート物理学との驚くべき関係を見出した。 ニュートン多角形法は,最近実験的に実現された光学系を用いて,高次例外点の予測を可能にする。 パラダイムモデルであるHatano-Nelsonモデルを用いて、ニュートンポリゴン法を用いて、非エルミート皮膚効果の存在を予測できることを実証する。 フレームワークのさらなる応用として、$PT$-symmetric one-dimensional modelにおける様々な順序の調整可能な例外点の存在を示す。 さらに本手法を,変数数の増加による例外点の研究に拡張し,そのような退化に伴う豊富な異方性挙動を明らかにする。 私たちの研究は、特別な物理学を理解し、チューニングするための分析的なレシピを提供します。

The study of non-Hermitian degeneracies -- called exceptional points -- has become an exciting frontier at the crossroads of optics, photonics, acoustics, and quantum physics. Here, we introduce the Newton polygon method as a general algebraic framework for characterizing and tuning exceptional points. These polygons were first described by Isaac Newton in 1676 and are conventionally used in algebraic geometry, with deep roots in various topics in modern mathematics. We have found their surprising connection to non-Hermitian physics. We propose and illustrate how the Newton polygon method can enable the prediction of higher-order exceptional points, using a recently experimentally realized optical system. Using the paradigmatic Hatano-Nelson model, we demonstrate how our Newton Polygon method can be used to predict the presence of the non-Hermitian skin effect. As further application of our framework, we show the presence of tunable exceptional points of various orders in $PT$-symmetric one-dimensional models. We further extend our method to study exceptional points in higher number of variables and demonstrate that it can reveal rich anisotropic behaviour around such degeneracies. Our work provides an analytic recipe to understand and tune exceptional physics.
翻訳日:2023-08-23 03:36:02 公開日:2023-08-19
# CausalAF:安全臨界運転シナリオ生成のための因果自己回帰流

CausalAF: Causal Autoregressive Flow for Safety-Critical Driving Scenario Generation ( http://arxiv.org/abs/2110.13939v3 )

ライセンス: Link先を確認
Wenhao Ding, Haohong Lin, Bo Li, Ding Zhao(参考訳) 安全クリティカルなシナリオの生成は、収集が極めて難しいが、自律運転システムの堅牢性を評価する効果的な方法を提供する。 しかしながら、シナリオの多様性と生成方法の効率は、安全クリティカルシナリオのレアネスと構造によって強く制限されている。 したがって、観測データからのみ分布を推定する既存の生成モデルは、この問題を解決するには不十分である。 本稿では,因果関係をシナリオ生成に取り入れ,フローベース生成フレームワークCausal Autoregressive Flow (CausalAF)を提案する。 CausalAFは、観測データのみからサンプルを検索する代わりに、新しい因果マスク操作によって生成されたオブジェクト間の因果関係を発見し、追跡することを生成モデルに推奨する。 生成したシナリオがデータから相関を学習するだけでなく、リスク状況を引き起こす原因と効果のメカニズムを学ぶことで、CausalAFは学習効率を大幅に改善する。 3つの異種交通シナリオに関する大規模な実験は、CausalAFが安全クリティカルなシナリオを効果的に生成するために最適化リソースをはるかに少なくする必要があることを示している。 また,生成したシナリオを追加のトレーニングサンプルとして使用することで,自律運転アルゴリズムのロバスト性が実証的に向上することを示す。

Generating safety-critical scenarios, which are crucial yet difficult to collect, provides an effective way to evaluate the robustness of autonomous driving systems. However, the diversity of scenarios and efficiency of generation methods are heavily restricted by the rareness and structure of safety-critical scenarios. Therefore, existing generative models that only estimate distributions from observational data are not satisfying to solve this problem. In this paper, we integrate causality as a prior into the scenario generation and propose a flow-based generative framework, Causal Autoregressive Flow (CausalAF). CausalAF encourages the generative model to uncover and follow the causal relationship among generated objects via novel causal masking operations instead of searching the sample only from observational data. By learning the cause-and-effect mechanism of how the generated scenario causes risk situations rather than just learning correlations from data, CausalAF significantly improves learning efficiency. Extensive experiments on three heterogeneous traffic scenarios illustrate that CausalAF requires much fewer optimization resources to effectively generate safety-critical scenarios. We also show that using generated scenarios as additional training samples empirically improves the robustness of autonomous driving algorithms.
翻訳日:2023-08-23 03:23:56 公開日:2023-08-19
# 漸近的に最適な量子鍵分配プロトコル

Asymptotically Optimal prepare-measure Quantum Key Distribution Protocol ( http://arxiv.org/abs/2110.01973v7 )

ライセンス: Link先を確認
Hao Shu(参考訳) 量子鍵分布(QKD)は、量子情報理論の最も重要な応用である。 約40年の間、実質的なQKDプロトコルが開発されたが、BB84プロトコルとその変種は依然として最も研究されているプロトコルである。 bb84 プロトコルの qubit error rate (qber) のセキュアバウンドが 11$\%$ であるのに対して、6 状態プロトコルによって 12.6$\%$ に拡張できることはよく知られている。 より多くの基礎を雇うことで限界が高まることは驚くにあたらない。 しかし、最適なプロトコルとは何か、どのように分析するか? 本稿では,漸近的に最適なQKDプロトコルを提案する。 そこで本研究では,QKDプロトコルを抽象化し,同一の状態でコーディングされるすべてのプロトコルで最適である2つの特別なケースについて検討する。 我々の分析は、直交量子ビットで符号化された漸近的に最適なQBER境界は、メモリレスC-NOT攻撃とメモリレスC-NOT攻撃の両方に対して約27.28$\%、相互にバイアスのない2つのベースにおける非直交状態による符号化は、メモリレスC-NOT攻撃に対して約22.73$\%、28.69$\%であることを示した。 プロトコルは理想化されているが、その最適性はQKDプロトコルの究極のポテンシャルを示している一方で、漸近的に実現されるかもしれない。 分析には特別な種類の攻撃のみが含まれるが、そのようなプロトコルを調査するためのフレームワークを提供する。

Quantum key distribution (QKD) could be the most significant application of quantum information theory. In nearly four decades, although substantial QKD protocols are developed, the BB84 protocol and its variants are still the most researched ones. It is well-known that the secure bound of qubit error rate (QBER) of BB84 protocol is about 11$\%$ while it can be increased to 12.6$\%$ by six-state protocol. It would not be surprising that employing more basis could increase the bound. However, what is the optimal protocol, and how to analyze it? In this paper, investigations of asymptotically optimal QKD protocols are proposed. Precisely, We present an abstraction of prepare-measure QKD protocols and investigate two special cases which are optimal among all protocols coding by the same states. Our analysis demonstrates that the asymptotically optimal QBER bounds coding by orthogonal qubits are about 27.28$\%$ for both memory C-NOT attacks and memoryless C-NOT attacks while the bounds coding by non-orthogonal states in two mutually unbiased bases are about 22.73$\%$ for memory and 28.69$\%$ for memoryless C-NOT attacks. The protocols are idealized but might be asymptotically realized while their optimality indicates the ultimate potential of QKD protocols. Although the analysis only contains a special kind of attack, it provides a framework for investigating such protocols.
翻訳日:2023-08-23 03:23:35 公開日:2023-08-19
# 測定による量子時計

Quantum clocks driven by measurement ( http://arxiv.org/abs/2109.05390v2 )

ライセンス: Link先を確認
A. A. Gangat and G. J. Milburn(参考訳) 古典物理学では、時計は熱平衡から駆動される開放散逸系であり、必然的に熱雑音を受ける。 エントロピー低減により駆動される量子クロックを計測により記述する。 この機構は、開放型共平面共振器に結合した超伝導トランスモン量子ビットからなる。 キャビティとキュービットはコヒーレントフィールドによって駆動され、キャビティ出力はホモダイン検出によって監視される。 測定自体が条件モーメントの変動周期とともにコヒーレント振動を誘導することを示す。 観測された測定電流からクロック信号を抽出し、分析してノイズ性能を決定する。 このモデルはゼロ温度での時計の基本原理を示しており、良い時計は高いエネルギー散逸率とエントロピー生成を必要とする。

In classical physics, clocks are open dissipative systems driven from thermal equilibrium and necessarily subject to thermal noise. We describe a quantum clock driven by entropy reduction through measurement. The mechanism consists of a superconducting transmon qubit coupled to an open co-planar resonator. The cavity and qubit are driven by coherent fields and the cavity output is monitored with homodyne detection. We show that the measurement itself induces coherent oscillations, with fluctuating period, in the conditional moments. The clock signal can be extracted from the observed measurement currents and analysed to determine the noise performance. The model demonstrates a fundamental principle of clocks at zero temperature: good clocks require high rates of energy dissipation and consequently entropy generation.
翻訳日:2023-08-23 03:22:59 公開日:2023-08-19
# 離散最適化のための量子アルゴリズムにおけるトレードオフと設計ツールキットのエンコード:色付け、ルーティング、スケジューリング、その他の問題

Encoding trade-offs and design toolkits in quantum algorithms for discrete optimization: coloring, routing, scheduling, and other problems ( http://arxiv.org/abs/2203.14432v2 )

ライセンス: Link先を確認
Nicolas PD Sawaya, Albert T Schmitz, Stuart Hadfield(参考訳) 組合せ最適化の問題は、科学と工学においてユビキタスである。 最適化のためのいくつかの量子手法は、厳密解と近似解法の両方を含む様々な設定で最近開発されている。 この研究分野に対して、この写本には3つの異なる目的がある。 まず,符号化非依存な離散量子中間表現(dqir)を用いて,問題と対応するアルゴリズムプリミティブを表現し,離散(整数ベース)最適化問題の合成と解析を行うための直感的手法を提案する。 このコンパクトな表現は、多くの例で示すように、より効率的な問題コンパイル、異なる符号化選択の自動解析、より簡単な解釈可能性、より複雑な実行手順、より豊かなプログラム可能性を可能にする。 第2に、いくつかの量子ビット符号化を比較した数値研究を行い、その結果、特定のハードウェア群と特定の問題やアルゴリズムに対する符号化の選択を導くためのいくつかの予備的傾向を示す。 本研究は,グラフ彩色,巡回セールスパーソン問題,ファクトリー/マシンスケジューリング,金融ポートフォリオのリバランス,整数線形計画に関する問題を含む。 第3に、我々は16レベル量子変数までの低深度グラフ由来部分ミキサー(GDPM)を設計し、コンパクト(バイナリ)エンコーディングが以前理解していたよりもQAOAに適していることを示した。 我々は、このプログラミング抽象化のツールキットと低レベルビルディングブロックが、離散組合せ問題に対する量子アルゴリズムの設計を支援することを期待している。

Challenging combinatorial optimization problems are ubiquitous in science and engineering. Several quantum methods for optimization have recently been developed, in different settings including both exact and approximate solvers. Addressing this field of research, this manuscript has three distinct purposes. First, we present an intuitive method for synthesizing and analyzing discrete (i.e., integer-based) optimization problems, wherein the problem and corresponding algorithmic primitives are expressed using a discrete quantum intermediate representation (DQIR) that is encoding-independent. This compact representation often allows for more efficient problem compilation, automated analyses of different encoding choices, easier interpretability, more complex runtime procedures, and richer programmability, as compared to previous approaches, which we demonstrate with a number of examples. Second, we perform numerical studies comparing several qubit encodings; the results exhibit a number of preliminary trends that help guide the choice of encoding for a particular set of hardware and a particular problem and algorithm. Our study includes problems related to graph coloring, the traveling salesperson problem, factory/machine scheduling, financial portfolio rebalancing, and integer linear programming. Third, we design low-depth graph-derived partial mixers (GDPMs) up to 16-level quantum variables, demonstrating that compact (binary) encodings are more amenable to QAOA than previously understood. We expect this toolkit of programming abstractions and low-level building blocks to aid in designing quantum algorithms for discrete combinatorial problems.
翻訳日:2023-08-23 03:16:01 公開日:2023-08-19
# variabilitytrack:可変速物体移動を用いたマルチオブジェクトトラッキング

VariabilityTrack:Multi-Object Tracking with Variable Speed Object Movement ( http://arxiv.org/abs/2203.06424v2 )

ライセンス: Link先を確認
Run Luo, JinLin Wei, and Qiao Lin(参考訳) マルチオブジェクトトラッキング(MOT)は、ビデオ内のオブジェクトのバウンディングボックスとIDを推定することを目的としている。 ほとんどの方法は追跡・検出・結合パラダイムとして大まかに分類できる。 Although the latter has elicited more attention and demonstrates comparable performance relative than the former, we claim that the tracking-by-detection paradigm is still the optimal solution in terms of tracking accuracy,such as ByteTrack,which achieves 80.3 MOTA, 77.3 IDF1 and 63.1 HOTA on the test set of MOT17 with 30 FPS running speed on a single V100 GPU.However, under complex perspectives such as vehicle and UAV acceleration, the performance of such a tracker using uniform Kalman filter will be greatly affected, resulting in tracking loss.In this paper, we propose a variable speed Kalman filter algorithm based on environmental feedback and improve the matching process, which can greatly improve the tracking effect in complex variable speed scenes while maintaining high tracking accuracy in relatively static scenes. 最終的には、ByteTrackよりも高いMOTAとIDF1がMOT17テストセットで達成される。

Multi-object tracking (MOT) aims at estimating bounding boxes and identities of objects in videos. Most methods can be roughly classified as tracking-by-detection and joint-detection-association paradigms. Although the latter has elicited more attention and demonstrates comparable performance relative than the former, we claim that the tracking-by-detection paradigm is still the optimal solution in terms of tracking accuracy,such as ByteTrack,which achieves 80.3 MOTA, 77.3 IDF1 and 63.1 HOTA on the test set of MOT17 with 30 FPS running speed on a single V100 GPU.However, under complex perspectives such as vehicle and UAV acceleration, the performance of such a tracker using uniform Kalman filter will be greatly affected, resulting in tracking loss.In this paper, we propose a variable speed Kalman filter algorithm based on environmental feedback and improve the matching process, which can greatly improve the tracking effect in complex variable speed scenes while maintaining high tracking accuracy in relatively static scenes. Eventually, higher MOTA and IDF1 results can be achieved on MOT17 test set than ByteTrack
翻訳日:2023-08-23 03:15:28 公開日:2023-08-19
# 自然映像ダイナミクスのタスク非依存修復

Task Agnostic Restoration of Natural Video Dynamics ( http://arxiv.org/abs/2206.03753v2 )

ライセンス: Link先を確認
Muhammad Kashif Ali, Dongjin Kim, Tae Hyun Kim(参考訳) 多くのビデオ復元・翻訳タスクにおいて、映像フレームの時間的接続を無視して、各フレームを独立して処理することにより、画像処理操作を映像領域に「ナ\」拡張する。 この時間的つながりの無視は、しばしば深刻な時間的不整合を引き起こす。 これらの不整合に対処するSOTA(State-Of-The-Art)技術は、暗黙的にシフォンし、一貫したビデオダイナミクスを利用して、しばしば翻訳効果を損なうフレーム処理されたビデオの時間的一貫性を回復する。 そこで本研究では,実験時の生映像を必要とせず,隣接フレームと相対遠フレームの両方の知覚品質を維持しつつ,一致しない映像から一貫した動きダイナミクスを推定・活用し,時間的フリックを緩和する汎用的枠組みを提案する。 提案フレームワークは、多数の画像処理アプリケーションによって処理される2つのベンチマークデータセット、DAVISとvidevo.net上でSOTA結果を生成する。 コードとトレーニングされたモデルは、 \url{https://github.com/MKashifAli/TARONVD}で入手できる。

In many video restoration/translation tasks, image processing operations are na\"ively extended to the video domain by processing each frame independently, disregarding the temporal connection of the video frames. This disregard for the temporal connection often leads to severe temporal inconsistencies. State-Of-The-Art (SOTA) techniques that address these inconsistencies rely on the availability of unprocessed videos to implicitly siphon and utilize consistent video dynamics to restore the temporal consistency of frame-wise processed videos which often jeopardizes the translation effect. We propose a general framework for this task that learns to infer and utilize consistent motion dynamics from inconsistent videos to mitigate the temporal flicker while preserving the perceptual quality for both the temporally neighboring and relatively distant frames without requiring the raw videos at test time. The proposed framework produces SOTA results on two benchmark datasets, DAVIS and videvo.net, processed by numerous image processing applications. The code and the trained models are available at \url{https://github.com/MKashifAli/TARONVD}.
翻訳日:2023-08-23 03:04:29 公開日:2023-08-19
# 機械学習における適応勾配最適化のための制御論的枠組み

A Control Theoretic Framework for Adaptive Gradient Optimizers in Machine Learning ( http://arxiv.org/abs/2206.02034v2 )

ライセンス: Link先を確認
Kushal Chakrabarti and Nikhil Chopra(参考訳) 適応勾配法は、ディープニューラルネットワークの最適化に人気となり、最近の例にはAdaGradやAdamなどがある。 アダムは通常より早く収束するが、例えばAdaBeliefアルゴリズムのようなアダムの変分は、古典的確率勾配法と比較してアダムの弱一般化能力を高めるために提案されている。 本稿では,非凸最適化問題の解法として適応勾配法を提案する。 まず,アダグラード,adam,adabeliefなどの適応オプティマイザのより簡単な収束証明を提示できる状態空間フレームワークで適応勾配法をモデル化した。 次に、古典制御理論からの伝達関数のパラダイムを用いて、AdamSSMという新しい変種を提案する。 我々は、二乗勾配から第二モーメント推定への伝達関数に適切な極対を加える。 我々は提案したAdamSSMアルゴリズムの収束性を証明する。 CNNアーキテクチャを用いた画像分類とLSTMアーキテクチャを用いた言語モデリングのベンチマーク機械学習タスクへの応用により、AdamSSMアルゴリズムは、最近の適応勾配法よりも一般化精度と高速収束のギャップを向上することを示した。

Adaptive gradient methods have become popular in optimizing deep neural networks; recent examples include AdaGrad and Adam. Although Adam usually converges faster, variations of Adam, for instance, the AdaBelief algorithm, have been proposed to enhance Adam's poor generalization ability compared to the classical stochastic gradient method. This paper develops a generic framework for adaptive gradient methods that solve non-convex optimization problems. We first model the adaptive gradient methods in a state-space framework, which allows us to present simpler convergence proofs of adaptive optimizers such as AdaGrad, Adam, and AdaBelief. We then utilize the transfer function paradigm from classical control theory to propose a new variant of Adam, coined AdamSSM. We add an appropriate pole-zero pair in the transfer function from squared gradients to the second moment estimate. We prove the convergence of the proposed AdamSSM algorithm. Applications on benchmark machine learning tasks of image classification using CNN architectures and language modeling using LSTM architecture demonstrate that the AdamSSM algorithm improves the gap between generalization accuracy and faster convergence than the recent adaptive gradient methods.
翻訳日:2023-08-23 03:04:07 公開日:2023-08-19
# RAIN: Black-Boxドメイン適応のための入力とネットワークのRegulArization

RAIN: RegulArization on Input and Network for Black-Box Domain Adaptation ( http://arxiv.org/abs/2208.10531v4 )

ライセンス: Link先を確認
Qucheng Peng, Zhengming Ding, Lingjuan Lyu, Lichao Sun, Chen Chen(参考訳) Source-Freeドメイン適応は、ソースデータを公開せずに、ソーストレーニングされたモデルをターゲットドメインに転送し、データプライバシとセキュリティに関するこれらの懸念を払拭する。 しかし、このパラダイムは、ソースモデルに対する敵対的な攻撃のため、データ漏洩のリスクがある。 したがって、Black-Box設定はソースモデルの出力のみを使用することができるが、ソースモデルの重みが見えないため、ソースドメインの過度な適合に苦しむ。 本稿では,入力レベルとネットワークレベルの両方からのブラックボックス領域適応のためのrain(regularization on input and network)という新しい手法を提案する。 入力レベルでは、interpolation内のタスク関連オブジェクトを強調するphase mixupという新しいデータ拡張手法を設計し、入力レベルの正規化とターゲットモデルのクラス一貫性を高めた。 ネットワークレベルでは,対象のサブネットワークから知識を全対象のネットワークに伝達するサブネットワーク蒸留機構を開発し,多様なターゲット表現を学習することで,ソース領域への過度な適合を緩和する。 提案手法は,複数のクロスドメインベンチマークにおいて,単一および複数ソースのブラックボックス領域適応下で最先端の性能を実現することを示す。

Source-Free domain adaptation transits the source-trained model towards target domain without exposing the source data, trying to dispel these concerns about data privacy and security. However, this paradigm is still at risk of data leakage due to adversarial attacks on the source model. Hence, the Black-Box setting only allows to use the outputs of source model, but still suffers from overfitting on the source domain more severely due to source model's unseen weights. In this paper, we propose a novel approach named RAIN (RegulArization on Input and Network) for Black-Box domain adaptation from both input-level and network-level regularization. For the input-level, we design a new data augmentation technique as Phase MixUp, which highlights task-relevant objects in the interpolations, thus enhancing input-level regularization and class consistency for target models. For network-level, we develop a Subnetwork Distillation mechanism to transfer knowledge from the target subnetwork to the full target network via knowledge distillation, which thus alleviates overfitting on the source domain by learning diverse target representations. Extensive experiments show that our method achieves state-of-the-art performance on several cross-domain benchmarks under both single- and multi-source black-box domain adaptation.
翻訳日:2023-08-23 02:57:25 公開日:2023-08-19
# 深層畳み込みニューラルネットワークによる生体顔認識のモデル化

Modeling biological face recognition with deep convolutional neural networks ( http://arxiv.org/abs/2208.06681v3 )

ライセンス: Link先を確認
Leonard E. van Dyck, Walter R. Gruber(参考訳) 深層畳み込みニューラルネットワーク(dcnn)は、生物物体認識の最先端の計算モデルとなっている。 彼らの顕著な成功は、視覚科学が新たな基盤を突破する助けとなり、最近の研究は、この成果を生物学的顔認識の研究に移し始めている。 この点において、顔選択型生体ニューロンと脳領域と人工ニューロンとモデル層を比較して顔検出を検討することができる。 同様に、顔の識別は、生体内とシリコ多次元の「顔空間」で比較することができる。 本稿では,生物認識のモデル化にDCNNを用いた最初の研究について概説する。 行動的および計算的証拠の幅広いスペクトルに基づいて,DCNNは,腹側視覚路とコアフェースネットワークにおける顔認識の一般的な階層構造によく似た有用なモデルであると結論付けた。 2つの模範的なスポットライトで、これらのモデルのユニークな科学的貢献を強調します。 第一に,dcnnにおける顔検出に関する研究は,視覚経験がなくてもフィードフォワード処理により一次顔選択性が自動的に出現することを示している。 第二に、DCNNにおける顔の識別に関する研究は、アイデンティティ固有の経験と生成メカニズムが、この特定の課題を促進することを示唆している。 この新しいモデリングアプローチは、事前配置(アーキテクチャ)と経験(トレーニングデータ)の密接な制御を可能にするため、生物学的顔認識の基盤に関する長年にわたる議論を知らせるのに適しているかもしれない。

Deep convolutional neural networks (DCNNs) have become the state-of-the-art computational models of biological object recognition. Their remarkable success has helped vision science break new ground and recent efforts have started to transfer this achievement to research on biological face recognition. In this regard, face detection can be investigated by comparing face-selective biological neurons and brain areas to artificial neurons and model layers. Similarly, face identification can be examined by comparing in vivo and in silico multidimensional "face spaces". In this review, we summarize the first studies that use DCNNs to model biological face recognition. On the basis of a broad spectrum of behavioral and computational evidence, we conclude that DCNNs are useful models that closely resemble the general hierarchical organization of face recognition in the ventral visual pathway and the core face network. In two exemplary spotlights, we emphasize the unique scientific contributions of these models. First, studies on face detection in DCNNs indicate that elementary face selectivity emerges automatically through feedforward processing even in the absence of visual experience. Second, studies on face identification in DCNNs suggest that identity-specific experience and generative mechanisms facilitate this particular challenge. Taken together, as this novel modeling approach enables close control of predisposition (i.e., architecture) and experience (i.e., training data), it may be suited to inform long-standing debates on the substrates of biological face recognition.
翻訳日:2023-08-23 02:56:47 公開日:2023-08-19
# 高次元空間における微分可能帰納論理プログラミング

Differentiable Inductive Logic Programming in High-Dimensional Space ( http://arxiv.org/abs/2208.06652v3 )

ライセンス: Link先を確認
Stanis{\l}aw J. Purga{\l}, David M. Cerna, Cezary Kaliszyk(参考訳) シンボリック帰納論理プログラミング(ilp)による大規模論理プログラムの合成には、通常中間の定義が必要である。 しかし、インテンション述語で仮説空間を散らかすとパフォーマンスが低下する。 対照的に、勾配降下はそのような高次元空間内の解を見つける効率的な方法を提供する。 ニューロシンボリック ilp アプローチは、今のところ完全には活用されていない。 我々は,大規模述語による帰納的合成への {\delta}ilpアプローチの拡張を提案し,高次元勾配降下の有効性を生かした。 大規模述語発明は、勾配降下による微分誘導的合成の利点を生かし、既存のニューロシンボリックLPシステムの能力を超えた課題の解を学習できるようにする。 さらに,言語バイアス内の解の正確な構造を規定することなく,これらの結果を得る。

Synthesizing large logic programs through symbolic Inductive Logic Programming (ILP) typically requires intermediate definitions. However, cluttering the hypothesis space with intensional predicates typically degrades performance. In contrast, gradient descent provides an efficient way to find solutions within such high-dimensional spaces. Neuro-symbolic ILP approaches have not fully exploited this so far. We propose extending the {\delta}ILP approach to inductive synthesis with large-scale predicate invention, thus allowing us to exploit the efficacy of high-dimensional gradient descent. We show that large-scale predicate invention benefits differentiable inductive synthesis through gradient descent and allows one to learn solutions for tasks beyond the capabilities of existing neuro-symbolic ILP systems. Furthermore, we achieve these results without specifying the precise structure of the solution within the language bias.
翻訳日:2023-08-23 02:56:22 公開日:2023-08-19
# YATO: もう1つのディープラーニングベースのテキスト分析オープンツールキット

YATO: Yet Another deep learning based Text analysis Open toolkit ( http://arxiv.org/abs/2209.13877v3 )

ライセンス: Link先を確認
Zeqiang Wang, Yile Wang, Jiageng Wu, Zhiyang Teng, Jie Yang(参考訳) 本稿では,ディープラーニングを用いたテキスト解析のためのオープンソースで使いやすいツールキットYATOを紹介する。 既存の高度にエンジニアリングされたツールキットやプラットフォームとは異なり、YATOは軽量で、学際的な分野の研究者に親しみやすい。 階層構造で設計されたYATOは、広く使われている3種類の機能の組み合わせを無償でサポートする。 1) 従来のニューラルネットワーク(CNN,RNNなど) 2)事前訓練言語モデル(BERT、RoBERTa、ELECTRAなど)及び 3) シンプルな構成ファイルによるユーザカスタマイズ型ニューラル機能。 YATOは、柔軟性と使いやすさの利点から、最先端のNLPモデルの高速な再現と改良を促進し、NLP技術の学際的応用を促進する。 コード、サンプル、ドキュメントはhttps://github.com/jiesutd/YATOで公開されている。 デモビデオはhttps://youtu.be/tsjf5bzfqgで公開されている。

We introduce YATO, an open-source, easy-to-use toolkit for text analysis with deep learning. Different from existing heavily engineered toolkits and platforms, YATO is lightweight and user-friendly for researchers from cross-disciplinary areas. Designed in a hierarchical structure, YATO supports free combinations of three types of widely used features including 1) traditional neural networks (CNN, RNN, etc.); 2) pre-trained language models (BERT, RoBERTa, ELECTRA, etc.); and 3) user-customized neural features via a simple configurable file. Benefiting from the advantages of flexibility and ease of use, YATO can facilitate fast reproduction and refinement of state-of-the-art NLP models, and promote the cross-disciplinary applications of NLP techniques. The code, examples, and documentation are publicly available at https://github.com/jiesutd/YATO. A demo video is also available at https://youtu.be/tSjjf5BzfQg.
翻訳日:2023-08-23 02:46:44 公開日:2023-08-19
# Multipoint-BAX:仮想オブジェクトによる効率的な粒子加速器エミタンス調整のための新しいアプローチ

Multipoint-BAX: A New Approach for Efficiently Tuning Particle Accelerator Emittance via Virtual Objectives ( http://arxiv.org/abs/2209.04587v4 )

ライセンス: Link先を確認
Sara A. Miskovich, Willie Neiswanger, William Colocho, Claudio Emma, Jacqueline Garrahan, Timothy Maxwell, Christopher Mayes, Stefano Ermon, Auralee Edelen, Daniel Ratner(参考訳) ビームエミッタランスは高輝度加速器の性能に不可欠であるが、通常四極子スキャンによって行われるエミッタランス計算として最適化は時間に制限されることが多い。 このような計算は$\textit{multi-point query}$のタイプである。 ベイズ最適化のような従来のブラックボックスオプティマイザは、全一連の測定値を取得する必要があるため、そのような目的に対処する際には遅く非効率である。 ベイズアルゴリズムの実行(bax)を用いて個々のビームサイズの計測をクエリしモデル化する。 baxは$\textit{virtual objective}$、すなわちアクセラレータから直接ではなく、学習の早いモデルからエミッタランスの目的を計算することによって、アクセラレータの遅いマルチポイントクエリを回避する。 ここではBAXを用いてLinac Coherent Light Source(LCLS)とAdvanced Accelerator Experimental Tests II(FACET-II)の発光を最小化する。 シミュレーションでは、BAXは既存の手法に比べて20$\times$高速で、ノイズに強い。 ライブLCLSとFACET-IIテストでは、BAXはFACET-IIでのハンドチューニングの発光と、LCLSでの24%の低い発光を達成し、最初の自動発光チューニングを実行した。 提案手法は,多点クエリを最適化するための概念シフトであり,粒子加速器や他の科学機器の類似問題に容易に適応できると考えられる。

Although beam emittance is critical for the performance of high-brightness accelerators, optimization is often time limited as emittance calculations, commonly done via quadrupole scans, are typically slow. Such calculations are a type of $\textit{multi-point query}$, i.e. each query requires multiple secondary measurements. Traditional black-box optimizers such as Bayesian optimization are slow and inefficient when dealing with such objectives as they must acquire the full series of measurements, but return only the emittance, with each query. We propose applying Bayesian Algorithm Execution (BAX) to instead query and model individual beam-size measurements. BAX avoids the slow multi-point query on the accelerator by acquiring points through a $\textit{virtual objective}$, i.e. calculating the emittance objective from a fast learned model rather than directly from the accelerator. Here, we use BAX to minimize emittance at the Linac Coherent Light Source (LCLS) and the Facility for Advanced Accelerator Experimental Tests II (FACET-II). In simulation, BAX is 20$\times$ faster and more robust to noise compared to existing methods. In live LCLS and FACET-II tests, BAX performed the first automated emittance tuning, matching the hand-tuned emittance at FACET-II and achieving a 24% lower emittance at LCLS. Our method represents a conceptual shift for optimizing multi-point queries, and we anticipate that it can be readily adapted to similar problems in particle accelerators and other scientific instruments.
翻訳日:2023-08-23 02:45:16 公開日:2023-08-19
# H4VDM:H.264 ビデオ装置マッチング

H4VDM: H.264 Video Device Matching ( http://arxiv.org/abs/2210.11549v2 )

ライセンス: Link先を確認
Ziyue Xiang, Paolo Bestagini, Stefano Tubaro, Edward J. Delp(参考訳) 与えられた2つのビデオシーケンスが同じデバイス(例えば携帯電話やデジタルカメラ)でキャプチャされるかどうかを判断する手法は、多くの法医学的タスクで利用できる。 本稿では,これを「ビデオデバイスマッチング」と呼ぶ。 オープンセットビデオ法医学のシナリオでは、2つのビデオシーケンスが同一デバイスでキャプチャされたかどうかを特定できる。 本稿では,オープンセットビデオデバイスマッチング手法を提案する。 2つのH.264圧縮ビデオシーケンスが与えられた場合、トレーニング中にこのデバイスに遭遇したことがない場合でも、同一デバイスでキャプチャされたかどうかを判定できる。 提案手法を h.264 と表現します ビデオデバイスマッチング(h4vdm)。 H4VDMはビデオシーケンスから抽出したH.264圧縮情報を用いて意思決定を行う。 カメラセンサーの指紋を変えるアーティファクトに対してより堅牢であり、H.264配列の比較的小さな断片を分析するために使用できる。 提案手法は,提案手法が優れた性能を示した35のデバイスからなる,公開可能なビデオインフォメーションデータセット上でトレーニングおよびテストを行った。

Methods that can determine if two given video sequences are captured by the same device (e.g., mobile telephone or digital camera) can be used in many forensics tasks. In this paper we refer to this as "video device matching". In open-set video forensics scenarios it is easier to determine if two video sequences were captured with the same device than identifying the specific device. In this paper, we propose a technique for open-set video device matching. Given two H.264 compressed video sequences, our method can determine if they are captured by the same device, even if our method has never encountered the device in training. We denote our proposed technique as H.264 Video Device Matching (H4VDM). H4VDM uses H.264 compression information extracted from video sequences to make decisions. It is more robust against artifacts that alter camera sensor fingerprints, and it can be used to analyze relatively small fragments of the H.264 sequence. We trained and tested our method on a publicly available video forensics dataset consisting of 35 devices, where our proposed method demonstrated good performance.
翻訳日:2023-08-23 02:36:27 公開日:2023-08-19
# MPCViT:不均一注意を伴う高精度かつ効率的なMPC対応視覚変換器の探索

MPCViT: Searching for Accurate and Efficient MPC-Friendly Vision Transformer with Heterogeneous Attention ( http://arxiv.org/abs/2211.13955v3 )

ライセンス: Link先を確認
Wenxuan Zeng, Meng Li, Wenjie Xiong, Tong Tong, Wen-jie Lu, Jin Tan, Runsheng Wang, Ru Huang(参考訳) セキュアなマルチパーティ計算(MPC)は、暗号化されたデータに直接計算を可能にし、ディープラーニング推論におけるデータとモデルのプライバシの両方を保護する。 しかし、ビジョントランスフォーマー(ViT)を含む既存のニューラルネットワークアーキテクチャは、MPC用に設計や最適化されておらず、重大な遅延オーバーヘッドを発生させる。 通信の複雑さが高いため,Softmaxは遅延ボトルネックの原因となっているが,モデルの精度を損なうことなく,選択的に置き換えたり線形化したりすることができる。 そこで本稿では,MPCにおける高精度かつ効率的なViT推論を実現するために,MPCViTと呼ばれるMPCフレンドリーなViTを提案する。 ソフトマックス・アテンションおよびその他のアテンション・バリアントの系統的遅延と精度評価に基づいて,不均質なアテンション最適化空間を提案する。 また,高速パレート最適化のためのMPC対応ニューラルネットワーク探索アルゴリズムを開発した。 推論効率をさらに高めるため,GeLUや行列乗算など,Softmaxアテンションと他のネットワークコンポーネントを協調的に最適化するMPCViT+を提案する。 広範な実験により,mpcvitは1.9%,1.3%,3.6%の精度で6.2x,2.9x,1.9xのレイテンシ低減を達成し,それぞれベースラインのvit,mpcformer,the-xと比較した。 MPCViT+はMPCViTよりもパレートが優れている。 評価のためのコードとモデルはhttps://github.com/PKU-SEC-Lab/mpcvitで公開されている。

Secure multi-party computation (MPC) enables computation directly on encrypted data and protects both data and model privacy in deep learning inference. However, existing neural network architectures, including Vision Transformers (ViTs), are not designed or optimized for MPC and incur significant latency overhead. We observe Softmax accounts for the major latency bottleneck due to a high communication complexity, but can be selectively replaced or linearized without compromising the model accuracy. Hence, in this paper, we propose an MPC-friendly ViT, dubbed MPCViT, to enable accurate yet efficient ViT inference in MPC. Based on a systematic latency and accuracy evaluation of the Softmax attention and other attention variants, we propose a heterogeneous attention optimization space. We also develop a simple yet effective MPC-aware neural architecture search algorithm for fast Pareto optimization. To further boost the inference efficiency, we propose MPCViT+, to jointly optimize the Softmax attention and other network components, including GeLU, matrix multiplication, etc. With extensive experiments, we demonstrate that MPCViT achieves 1.9%, 1.3% and 3.6% higher accuracy with 6.2x, 2.9x and 1.9x latency reduction compared with baseline ViT, MPCFormer and THE-X on the Tiny-ImageNet dataset, respectively. MPCViT+ further achieves a better Pareto front compared with MPCViT. The code and models for evaluation are available at https://github.com/PKU-SEC-Lab/mpcvit.
翻訳日:2023-08-23 02:26:34 公開日:2023-08-19
# sagnac構成における量子スイッチの実証

Demonstration of a quantum SWITCH in a Sagnac configuration ( http://arxiv.org/abs/2211.12540v2 )

ライセンス: Link先を確認
Teodor Str\"omberg, Peter Schiansky, Robert W. Peterson, Marco T\'ulio Quintino, Philip Walther(参考訳) 量子SWITCHは、不明確な因果構造を持つプロセスの例であり、量子回路モデル内で因果的に順序付けられた計算を上回る能力に注目されている。 これまで、量子SWITCHの実現は、微小経路長の変動を受けやすい光学干渉計に依存しており、その設計を複雑にし、その性能を制限し、量子SWITCHを複数のパーティに拡張する障害を生じさせている。 このレターでは、新しい相互および普遍的な$\mathrm{SU}(2)$偏光ガジェットによって促進される共通パス幾何を用いて、本質的に安定な量子SWITCHを実証することにより、これらの制限を克服する。 チャネル識別タスクをほぼ一元的成功確率で実行することで、設計を認証する。

The quantum SWITCH is an example of a process with an indefinite causal structure, and has attracted attention for its ability to outperform causally ordered computations within the quantum circuit model. To date, realisations of the quantum SWITCH have relied on optical interferometers susceptible to minute path length fluctuations, complicating their design, limiting their performance and posing an obstacle to extending the quantum SWITCH to multiple parties. In this Letter we overcome these limitations by demonstrating an intrinsically stable quantum SWITCH utilizing a common-path geometry facilitated by a novel reciprocal and universal $\mathrm{SU}(2)$ polarization gadget. We certify our design by successfully performing a channel discrimination task with near unity success probability.
翻訳日:2023-08-23 02:25:38 公開日:2023-08-19
# ユークリッドの宇宙は悪だ: 画像生成のためのハイパーボリックな属性編集

The Euclidean Space is Evil: Hyperbolic Attribute Editing for Few-shot Image Generation ( http://arxiv.org/abs/2211.12347v2 )

ライセンス: Link先を確認
Lingxiao Li, Yi Zhang, Shuhui Wang(参考訳) 少ない画像生成は、少数の画像しか見えない未確認カテゴリのための多様な新しい画像を生成することを目的としているため、難しい課題である。 既存の手法は、生成された画像の品質と多様性の間のトレードオフに悩まされる。 この問題に対処するため,我々は,単純かつ効果的な手法である双曲属性編集~(hae)を提案する。 ユークリッド空間で機能する他の方法とは異なり、HAEは双曲空間で見られるカテゴリのデータを用いて画像の階層をキャプチャする。 十分に訓練されたHAEが与えられた場合、ある画像の潜伏符号を固定半径のポインカーディスクの任意の有意義な方向へ移動させることで、目に見えないカテゴリの画像を生成することができる。 最も重要なことは、双曲空間は、ディスクに異なるラジイを設定することによって生成された画像の意味的多様性を制御することができることである。 広範囲な実験と可視化により、haeは限られたデータで品質と多様性を期待できる画像を生成するだけでなく、高度に制御可能で解釈可能な編集プロセスを実現することができることが示されている。

Few-shot image generation is a challenging task since it aims to generate diverse new images for an unseen category with only a few images. Existing methods suffer from the trade-off between the quality and diversity of generated images. To tackle this problem, we propose Hyperbolic Attribute Editing~(HAE), a simple yet effective method. Unlike other methods that work in Euclidean space, HAE captures the hierarchy among images using data from seen categories in hyperbolic space. Given a well-trained HAE, images of unseen categories can be generated by moving the latent code of a given image toward any meaningful directions in the Poincar\'e disk with a fixing radius. Most importantly, the hyperbolic space allows us to control the semantic diversity of the generated images by setting different radii in the disk. Extensive experiments and visualizations demonstrate that HAE is capable of not only generating images with promising quality and diversity using limited data but achieving a highly controllable and interpretable editing process.
翻訳日:2023-08-23 02:25:25 公開日:2023-08-19
# $k$Nearest隣人のための2段階能動学習アルゴリズム

A Two-Stage Active Learning Algorithm for $k$-Nearest Neighbors ( http://arxiv.org/abs/2211.10773v4 )

ライセンス: Link先を確認
Nick Rittler and Kamalika Chaudhuri(参考訳) k$-nearest neighbor classificationは、分散スケールの変更に対する自動適応のような望ましい特性により、一般的なノンパラメトリックな手法である。 残念なことに、これらの望ましい性質を自然に保持する地元の投票ベースの分類器の訓練のためにアクティブラーニング戦略を設計することは困難であり、したがってk$-nearestの隣人分類のためのアクティブラーニング戦略は文学から顕著に欠落している。 そこで本研究では,$k$-nearest近傍の分類器を学習するための,単純で直感的な能動学習アルゴリズムを提案する。 また,条件付き確率関数 $\mathbb{p}(y=y|x=x)$ が十分に滑らかであり,tsybakov 雑音条件が保持されている場合,能動的に訓練された分類器は,受動的に訓練された $k$-nearest 隣接分類器よりも早い漸近速度でベイズ最適分類器に収束することを示す。

$k$-nearest neighbor classification is a popular non-parametric method because of desirable properties like automatic adaption to distributional scale changes. Unfortunately, it has thus far proved difficult to design active learning strategies for the training of local voting-based classifiers that naturally retain these desirable properties, and hence active learning strategies for $k$-nearest neighbor classification have been conspicuously missing from the literature. In this work, we introduce a simple and intuitive active learning algorithm for the training of $k$-nearest neighbor classifiers, the first in the literature which retains the concept of the $k$-nearest neighbor vote at prediction time. We provide consistency guarantees for a modified $k$-nearest neighbors classifier trained on samples acquired via our scheme, and show that when the conditional probability function $\mathbb{P}(Y=y|X=x)$ is sufficiently smooth and the Tsybakov noise condition holds, our actively trained classifiers converge to the Bayes optimal classifier at a faster asymptotic rate than passively trained $k$-nearest neighbor classifiers.
翻訳日:2023-08-23 02:24:57 公開日:2023-08-19
# DiffusionDet:オブジェクト検出のための拡散モデル

DiffusionDet: Diffusion Model for Object Detection ( http://arxiv.org/abs/2211.09788v2 )

ライセンス: Link先を確認
Shoufa Chen, Peize Sun, Yibing Song, Ping Luo(参考訳) ノイズボックスからオブジェクトボックスへの拡散プロセスとしてオブジェクト検出を定式化する新しいフレームワークであるDiffusionDetを提案する。 トレーニングステージでは、オブジェクトボックスが接地箱からランダムな分布に拡散し、モデルがこのノイズ処理を逆転することを学習する。 推論において、モデルはランダムに生成されたボックスの集合をプログレッシブな方法で出力に洗練する。 本研究は,ボックスの動的数と反復的評価を可能にする柔軟性の魅力的な特性を有する。 標準ベンチマークでの広範な実験により、DiffusionDetは以前の確立された検出器と比較して良好な性能を達成できた。 例えば、DiffusionDetはCOCOからCrowdHumanへのゼロショット転送設定の下で、より多くのボックスとイテレーションステップで評価すると5.3 APと4.8 APのゲインを達成する。 私たちのコードはhttps://github.com/shoufachen/diffusiondetで入手できます。

We propose DiffusionDet, a new framework that formulates object detection as a denoising diffusion process from noisy boxes to object boxes. During the training stage, object boxes diffuse from ground-truth boxes to random distribution, and the model learns to reverse this noising process. In inference, the model refines a set of randomly generated boxes to the output results in a progressive way. Our work possesses an appealing property of flexibility, which enables the dynamic number of boxes and iterative evaluation. The extensive experiments on the standard benchmarks show that DiffusionDet achieves favorable performance compared to previous well-established detectors. For example, DiffusionDet achieves 5.3 AP and 4.8 AP gains when evaluated with more boxes and iteration steps, under a zero-shot transfer setting from COCO to CrowdHuman. Our code is available at https://github.com/ShoufaChen/DiffusionDet.
翻訳日:2023-08-23 02:24:28 公開日:2023-08-19
# P{\O}DA: プロンプト駆動ゼロショットドメイン適応

P{\O}DA: Prompt-driven Zero-shot Domain Adaptation ( http://arxiv.org/abs/2212.03241v3 )

ライセンス: Link先を確認
Mohammad Fahes, Tuan-Hung Vu, Andrei Bursuc, Patrick P\'erez, Raoul de Charette(参考訳) ドメイン適応はコンピュータビジョンにおいて大いに研究されてきたが、それでも列車の時間にターゲット画像にアクセスする必要がある。 本稿では,対象ドメインの自然言語における一般的な記述,すなわちプロンプトを用いて,ソースドメインでトレーニングされたモデルを適応させる,'prompt-driven zero-shot domain adaptation'というタスクを提案する。 まず、訓練済みのコントラッシブ・ビジョン言語モデル(CLIP)を用いて、ソース機能のアフィン変換を最適化し、コンテンツを保存しながら、ターゲットテキストの埋め込みに向けて操る。 そこで我々は,PIN(Prompt-driven Instance Normalization)を提案する。 第2に,これらのプロンプト駆動拡張により,意味セグメンテーションのためのゼロショット領域適応を行うことができることを示す。 実験により,本手法は,下流タスクの複数のデータセット上で,一発の教師なしドメイン適応を超越して,CLIPベースのスタイル転送ベースラインを著しく上回ることを示した。 オブジェクト検出と画像分類でも同様な増加が観察される。 コードはhttps://github.com/astra-vision/podaで入手できる。

Domain adaptation has been vastly investigated in computer vision but still requires access to target images at train time, which might be intractable in some uncommon conditions. In this paper, we propose the task of `Prompt-driven Zero-shot Domain Adaptation', where we adapt a model trained on a source domain using only a general description in natural language of the target domain, i.e., a prompt. First, we leverage a pretrained contrastive vision-language model (CLIP) to optimize affine transformations of source features, steering them towards the target text embedding while preserving their content and semantics. To achieve this, we propose Prompt-driven Instance Normalization (PIN). Second, we show that these prompt-driven augmentations can be used to perform zero-shot domain adaptation for semantic segmentation. Experiments demonstrate that our method significantly outperforms CLIP-based style transfer baselines on several datasets for the downstream task at hand, even surpassing one-shot unsupervised domain adaptation. A similar boost is observed on object detection and image classification. The code is available at https://github.com/astra-vision/PODA .
翻訳日:2023-08-23 02:17:55 公開日:2023-08-19
# NLPの実用化に向けて

Towards Practical Few-shot Federated NLP ( http://arxiv.org/abs/2212.00192v2 )

ライセンス: Link先を確認
Dongqi Cai, Yaozong Wu, Haitao Yuan, Shangguang Wang, Felix Xiaozhu Lin, Mengwei Xu(参考訳) トランスフォーマーベースの事前学習モデルが自然言語処理(NLP)の主要なソリューションとして登場した。 下流タスクのためにトレーニング済みのモデルを微調整するには、しばしばかなりの量のラベル付きプライベートデータを必要とする。 実際には、プライベートデータは異種モバイルデバイスに分散され、アップロードされるのを禁止される。 さらに、よく計算されたラベル付きデータは、しばしば不足しており、さらなる課題が提示される。 これらの課題に対処するために,まず,少ないラベル付きデータの量と歪度を現実的な設定で包含する,フェデレート・マイズショット学習タスクのためのデータジェネレータを導入する。 次に,データ拡張のために,豊富なラベルのないデータを活用する,プロンプトベースのフェデレート学習システムであるAUG-FedPromptを提案する。 実験の結果,AUG-FedPromptはラベル付きデータに制限のあるフルセット微調整と同等に動作可能であることがわかった。 しかし、このような競合性能は大きなシステムコストを伴います。

Transformer-based pre-trained models have emerged as the predominant solution for natural language processing (NLP). Fine-tuning such pre-trained models for downstream tasks often requires a considerable amount of labeled private data. In practice, private data is often distributed across heterogeneous mobile devices and may be prohibited from being uploaded. Moreover, well-curated labeled data is often scarce, presenting an additional challenge. To address these challenges, we first introduce a data generator for federated few-shot learning tasks, which encompasses the quantity and skewness of scarce labeled data in a realistic setting. Subsequently, we propose AUG-FedPrompt, a prompt-based federated learning system that exploits abundant unlabeled data for data augmentation. Our experiments indicate that AUG-FedPrompt can perform on par with full-set fine-tuning with a limited amount of labeled data. However, such competitive performance comes at a significant system cost.
翻訳日:2023-08-23 02:15:55 公開日:2023-08-19
# 人間に適応した潜在表現の学習

Learning Latent Representations to Co-Adapt to Humans ( http://arxiv.org/abs/2212.09586v3 )

ライセンス: Link先を確認
Sagar Parekh, Dylan P. Losey(参考訳) ロボットが家や道路、工場で人間と対話するとき、人間の行動はロボットに反応して変化する。 非定常的な人間はロボット学習者に挑戦している。ロボットが学習した行動は、人間がロボットに適応した後で失敗する可能性がある。 本稿では,ロボット(egoエージェント)が動的人間(すなわち他のエージェント)と協調して,ロボットの低レベル状態,行動,報酬のみを用いて協調的に適応できるアルゴリズム形式を提案する。 最大の課題は、人間がロボットの行動に反応するだけでなく、人間の反応が時間とともにユーザーの間で必然的に変化することだ。 この課題に対処するために、私たちの洞察では、人間の正確なモデルを構築する代わりに、ロボットは人間のポリシーとポリシーのダイナミクスの高レベルな表現を学び、推論することができる。 この洞察を応用して、RILI:Robustly Influencing Latent Intentを開発します。 RILIはまず、人間の潜在戦略と戦略ダイナミクスの予測に、低レベルのロボット観測を組み込む。 次に、riliはこれらの予測を利用して適応的人間に影響を与える行動を、反復的な相互作用よりも有利で高い報酬行動へと選択する。 基盤となるディストリビューションからサンプリングされたユーザによるriliの計測パフォーマンスを考えると、同じディストリビューションからサンプリングされた新しい人間に対して、riliが期待するパフォーマンスを確率的にバインドできることを実証します。 我々の模擬実験はRILIと最先端の表現と強化学習のベースラインを比較し、RILIが不完全、ノイズ、時間変化のエージェントと協調することをより良く学習していることを示す。 最後に、RILIが実際の人間と協調して、タグゲームとタワー構築タスクを行う2つのユーザー研究を行う。 ユーザー・スタディのビデオはこちら。https://youtu.be/WYGO5amDXbQ

When robots interact with humans in homes, roads, or factories the human's behavior often changes in response to the robot. Non-stationary humans are challenging for robot learners: actions the robot has learned to coordinate with the original human may fail after the human adapts to the robot. In this paper we introduce an algorithmic formalism that enables robots (i.e., ego agents) to co-adapt alongside dynamic humans (i.e., other agents) using only the robot's low-level states, actions, and rewards. A core challenge is that humans not only react to the robot's behavior, but the way in which humans react inevitably changes both over time and between users. To deal with this challenge, our insight is that -- instead of building an exact model of the human -- robots can learn and reason over high-level representations of the human's policy and policy dynamics. Applying this insight we develop RILI: Robustly Influencing Latent Intent. RILI first embeds low-level robot observations into predictions of the human's latent strategy and strategy dynamics. Next, RILI harnesses these predictions to select actions that influence the adaptive human towards advantageous, high reward behaviors over repeated interactions. We demonstrate that -- given RILI's measured performance with users sampled from an underlying distribution -- we can probabilistically bound RILI's expected performance across new humans sampled from the same distribution. Our simulated experiments compare RILI to state-of-the-art representation and reinforcement learning baselines, and show that RILI better learns to coordinate with imperfect, noisy, and time-varying agents. Finally, we conduct two user studies where RILI co-adapts alongside actual humans in a game of tag and a tower-building task. See videos of our user studies here: https://youtu.be/WYGO5amDXbQ
翻訳日:2023-08-23 02:06:24 公開日:2023-08-19
# 確率的トラヒック予測のためのフル共分散型スケーラブル動的混合モデル

Scalable Dynamic Mixture Model with Full Covariance for Probabilistic Traffic Forecasting ( http://arxiv.org/abs/2212.06653v3 )

ライセンス: Link先を確認
Seongjin Choi, Nicolas Saunier, Vincent Zhihao Zheng, Martin Trepanier, Lijun Sun(参考訳) 深層学習に基づく多変量・多変量・多段トラヒック予測モデルは、通常、平均二乗誤差(mse)または平均絶対誤差(mae)をシーケンス対シーケンス設定の損失関数として訓練し、単に誤差が独立かつ等方性ガウス分布またはラプラシアン分布に従うと仮定する。 しかし、そのような仮定は、時空間予測の確率分布が非常に複雑で、センサーと時空予測地平線の両方に強い同時相関がある現実の交通予測タスクでは非現実的であることが多い。 本稿では,行列変量過程の時間変化分布をゼロ平均ガウス分布の動的混合としてモデル化する。 効率,柔軟性,スケーラビリティを実現するため,各混合成分をマトリックス正規分布を用いてパラメータ化し,混合重みが経時的に変化し,予測可能であることを示す。 提案手法は既存のディープラーニングフレームワークにシームレスに統合でき、さらにいくつかのパラメータしか学習できない。 交通速度予測タスクにおける提案手法の性能評価を行い,提案手法がモデル性能を向上するだけでなく,解釈可能な時空間相関構造も提供することを確認した。

Deep learning-based multivariate and multistep-ahead traffic forecasting models are typically trained with the mean squared error (MSE) or mean absolute error (MAE) as the loss function in a sequence-to-sequence setting, simply assuming that the errors follow an independent and isotropic Gaussian or Laplacian distributions. However, such assumptions are often unrealistic for real-world traffic forecasting tasks, where the probabilistic distribution of spatiotemporal forecasting is very complex with strong concurrent correlations across both sensors and forecasting horizons in a time-varying manner. In this paper, we model the time-varying distribution for the matrix-variate error process as a dynamic mixture of zero-mean Gaussian distributions. To achieve efficiency, flexibility, and scalability, we parameterize each mixture component using a matrix normal distribution and allow the mixture weight to change and be predictable over time. The proposed method can be seamlessly integrated into existing deep-learning frameworks with only a few additional parameters to be learned. We evaluate the performance of the proposed method on a traffic speed forecasting task and find that our method not only improves model performance but also provides interpretable spatiotemporal correlation structures.
翻訳日:2023-08-23 02:04:35 公開日:2023-08-19
# モバイルNLPのためのフェデレーションフットショット学習

Federated Few-Shot Learning for Mobile NLP ( http://arxiv.org/abs/2212.05974v2 )

ライセンス: Link先を確認
Dongqi Cai, Shangguang Wang, Yaozong Wu, Felix Xiaozhu Lin, Mengwei Xu(参考訳) 自然言語処理(NLP)はリッチなモバイルアプリケーションである。 様々な言語理解タスクをサポートするため、基盤となるnlpモデルは、しばしば連合したプライバシー保護設定(fl)で微調整される。 このプロセスは現在、モバイルクライアントから少なくとも数十万のラベル付きトレーニングサンプルに依存しているが、モバイルユーザは自分のデータをラベル付けする意思や知識を欠いていることが多い。 このようなデータラベルの不十分さは、数ショットのシナリオとして知られており、モバイルNLPアプリケーションのキーブロッカーとなっている。 この研究は、数ショットシナリオ(FedFSL)におけるフェデレーションNLPを初めて調査する。 擬似ラベリングと即時学習のアルゴリズム的進歩を再現することにより、トレーニングデータの0.05%(100未満)しかラベル付けされず、残りがラベル付けされていない場合に競争精度を提供する訓練パイプラインを最初に構築する。 ワークフローをインスタンス化するために、新しい設計で高い実行コストに対処するシステムfesをさらに提示する。 1)疑似ラベルをトレーニングワークフローに、学習の進捗に合致するレートで注入するカリキュラムペーシング、(2)最も学習可能なデータを選択するためのメカニズムである表現多様性、(3)モデルのトレーニング深さと層容量のコプランニング。 これらの設計により、トレーニング遅延、クライアントエネルギー、ネットワークトラフィックがそれぞれ46.0$\times$、41.2$\times$、3000.0$\times$となる。 FFNLPはアルゴリズム/システムの共同設計を通じて、ほとんどのトレーニングサンプルがラベル付けされていない困難な設定にFLを適用することができることを示した。

Natural language processing (NLP) sees rich mobile applications. To support various language understanding tasks, a foundation NLP model is often fine-tuned in a federated, privacy-preserving setting (FL). This process currently relies on at least hundreds of thousands of labeled training samples from mobile clients; yet mobile users often lack willingness or knowledge to label their data. Such an inadequacy of data labels is known as a few-shot scenario; it becomes the key blocker for mobile NLP applications. For the first time, this work investigates federated NLP in the few-shot scenario (FedFSL). By retrofitting algorithmic advances of pseudo labeling and prompt learning, we first establish a training pipeline that delivers competitive accuracy when only 0.05% (fewer than 100) of the training data is labeled and the remaining is unlabeled. To instantiate the workflow, we further present a system FeS, addressing the high execution cost with novel designs. (1) Curriculum pacing, which injects pseudo labels to the training workflow at a rate commensurate to the learning progress; (2) Representational diversity, a mechanism for selecting the most learnable data, only for which pseudo labels will be generated; (3) Co-planning of a model's training depth and layer capacity. Together, these designs reduce the training delay, client energy, and network traffic by up to 46.0$\times$, 41.2$\times$ and 3000.0$\times$, respectively. Through algorithm/system co-design, FFNLP demonstrates that FL can apply to challenging settings where most training samples are unlabeled.
翻訳日:2023-08-23 02:04:14 公開日:2023-08-19
# NeuS2:多視点再構成のためのニューラルネットワーク表面の高速学習

NeuS2: Fast Learning of Neural Implicit Surfaces for Multi-view Reconstruction ( http://arxiv.org/abs/2212.05231v2 )

ライセンス: Link先を確認
Yiming Wang, Qin Han, Marc Habermann, Kostas Daniilidis, Christian Theobalt, Lingjie Liu(参考訳) ニューラルサーフェス表現とレンダリングの最近の手法、例えばNeuSは、静的シーンの驚くほど高品質な再構成を実証している。 しかし、NeuSのトレーニングには非常に時間がかかる(8時間)ため、数千フレームのダイナミックなシーンに適用することはほとんど不可能である。 そこで本研究では, 高速神経表面再構成法であるneus2を提案し, 再構成品質を損なうことなく2桁の高速化を実現する。 トレーニングプロセスを高速化するために,マルチレゾリューションハッシュエンコーディングによる神経表面表現のパラメータ化を行い,ネットワークに調整された2次微分の新たな軽量計算を行い,cuda並列性を利用し,2倍の高速化を実現する。 さらに訓練の安定化と迅速化を図るため,多解像度ハッシュ符号化を粗い値から細かい値に最適化するプログレッシブラーニング戦略を提案する。 提案手法は,動的シーンを高速に訓練するための手法を拡張し,新しいグローバルトランスフォーメーション予測コンポーネントとインクリメンタルなトレーニング戦略を提案する。 各種データセットを用いた実験により,NuS2は静的シーンと動的シーンの両方において,表面再構成精度とトレーニング速度の両方において,最先端の技術を著しく上回っていることが示された。 コードは、私たちのWebサイトで入手できる。

Recent methods for neural surface representation and rendering, for example NeuS, have demonstrated the remarkably high-quality reconstruction of static scenes. However, the training of NeuS takes an extremely long time (8 hours), which makes it almost impossible to apply them to dynamic scenes with thousands of frames. We propose a fast neural surface reconstruction approach, called NeuS2, which achieves two orders of magnitude improvement in terms of acceleration without compromising reconstruction quality. To accelerate the training process, we parameterize a neural surface representation by multi-resolution hash encodings and present a novel lightweight calculation of second-order derivatives tailored to our networks to leverage CUDA parallelism, achieving a factor two speed up. To further stabilize and expedite training, a progressive learning strategy is proposed to optimize multi-resolution hash encodings from coarse to fine. We extend our method for fast training of dynamic scenes, with a proposed incremental training strategy and a novel global transformation prediction component, which allow our method to handle challenging long sequences with large movements and deformations. Our experiments on various datasets demonstrate that NeuS2 significantly outperforms the state-of-the-arts in both surface reconstruction accuracy and training speed for both static and dynamic scenes. The code is available at our website: https://vcai.mpi-inf.mpg.de/projects/NeuS2/ .
翻訳日:2023-08-23 02:03:18 公開日:2023-08-19
# 巡回グラフ上の量子ウォークによる最大絡み合った単一粒子状態の繰り返し生成

Recurrent generation of maximally entangled single particle states via quantum walks on cyclic graphs ( http://arxiv.org/abs/2301.04501v3 )

ライセンス: Link先を確認
Dinesh Kumar Panda, Colin Benjamin(参考訳) 最大絡み合った単一粒子状態(MESPS)は、より多くの情報をエンコードする可能性があり、非局所的な2粒子に比べてデコヒーレンスに強いため、量子技術の新たな可能性を開く。 1つのコインが4ドルおよび8ドルのサイト巡回グラフ上で離散時間量子ウォークによって(周期的に)繰り返し時間ステップでMESPSを生成することができる。 このスキームは資源節約であり、同じコインが各タイミングで適用されるため、おそらく最も単純な実験的な実現である。 また、任意の$k$サイト巡回グラフ、$k\in\{3,4,5,8\}$に対して、有効特異(Identity and arbitrary coin)または2つのコイン進化シーケンスを介して繰り返しMESPSを生成することができることを示す。 基礎研究におけるそれらの利用以外にも,量子暗号プロトコルにおける生成したmespの応用を提案する。 MESPSは暗号鍵であり、量子セキュア通信を強化することができる。

Maximally entangled single-particle states (MESPS) are opening new possibilities in quantum technology as they have the potential to encode more information and are robust to decoherence compared to their nonlocal two-particle counterparts. We find that a single coin can generate MESPS at recurrent time steps (periodically) via discrete-time quantum walks on both $4$ and $8$ site cyclic graphs. This scheme is resource-saving with possibly the most straightforward experimental realization since the same coin is applied at each time step. We also show that recurrent MESPS can be generated on any arbitrary $k$ site cyclic graph, $k\in\{3,4,5,8\}$ via effective-single (Identity and arbitrary coin) or two coin evolution sequences. Beyond their use in fundamental research, we propose an application of the generated MESPS in quantum cryptography protocols. MESPS as cryptographic keys can strengthen quantum-secure communication.
翻訳日:2023-08-23 01:57:05 公開日:2023-08-19
# ソートによる学習: グループ順序制約による自己教師付き学習

Learning by Sorting: Self-supervised Learning with Group Ordering Constraints ( http://arxiv.org/abs/2301.02009v2 )

ライセンス: Link先を確認
Nina Shvetsova, Felix Petersen, Anna Kukleva, Bernt Schiele, Hilde Kuehne(参考訳) コントラスト学習は、主に正のデータ対間の距離を最小化し、例えば同じ画像からのビューを最大化し、異なる画像からのビューを最大化するという考え方に依存して、ラベルのないデータから表現を学習する上で重要なツールとなっている。 本稿では, 正対と負対の距離を分類し, 正対が負対よりも大きい距離を持つかに基づいて各損失を計算し, 正対の距離を正しく順序付けしない, コントラスト学習目標である群順序制約(groco)の新たなバリエーションを提案する。 この目的のためにグロコロスは微分可能ソートネットワークに基づいており、与えられたスコアのセットをソートして生成される微分可能順列行列を各基底真理順列行列にマッチングすることにより、ソート監督によるトレーニングを可能にする。 このアイデアを、複数の正と負のペアの事前順序付けされた入力にグループ的に適用することで、強い正と負に暗黙的に強調したグロコロスの導入が可能になり、局所近傍の最適化が向上する。 提案手法は,様々な自己教師付き学習ベンチマークを用いて評価し,バニラコントラスト学習と比較して結果が向上するだけでなく,k-nn性能の現在の手法を上回って,線形プローブ法と同等の性能を示す。

Contrastive learning has become an important tool in learning representations from unlabeled data mainly relying on the idea of minimizing distance between positive data pairs, e.g., views from the same images, and maximizing distance between negative data pairs, e.g., views from different images. This paper proposes a new variation of the contrastive learning objective, Group Ordering Constraints (GroCo), that leverages the idea of sorting the distances of positive and negative pairs and computing the respective loss based on how many positive pairs have a larger distance than the negative pairs, and thus are not ordered correctly. To this end, the GroCo loss is based on differentiable sorting networks, which enable training with sorting supervision by matching a differentiable permutation matrix, which is produced by sorting a given set of scores, to a respective ground truth permutation matrix. Applying this idea to groupwise pre-ordered inputs of multiple positive and negative pairs allows introducing the GroCo loss with implicit emphasis on strong positives and negatives, leading to better optimization of the local neighborhood. We evaluate the proposed formulation on various self-supervised learning benchmarks and show that it not only leads to improved results compared to vanilla contrastive learning but also shows competitive performance to comparable methods in linear probing and outperforms current methods in k-NN performance.
翻訳日:2023-08-23 01:56:06 公開日:2023-08-19
# 例外点に対する熱帯幾何学的アプローチ

A Tropical Geometric Approach To Exceptional Points ( http://arxiv.org/abs/2301.13485v3 )

ライセンス: Link先を確認
Ayan Banerjee, Rimika Jaiswal, Madhusudan Manjunath, Awadhesh Narayan(参考訳) 非エルミート系はフォトニクスから電気回路まで幅広く研究されている。 非エルミート系の決定的な特徴は例外点(EP)であり、固有値と固有ベクトルの両方が結合する。 トロピカル幾何学(英: tropical geometry)は、代数幾何学と多面幾何学の間の界面における数学の新しい分野であり、科学への多様な応用である。 本稿では,非エルミート系の異なる面を特徴付ける統一的熱帯幾何学的枠組みを紹介,開発する。 提案手法は,いくつかの例を用いて汎用性を示し,利得・損失モデルにおける高次epのスペクトルから選択し,非エルミートsu-シュリーファー・ヘーガーモデルにおける皮膚効果を予測し,ハザーノ・ネルソンモデルにおける障害の存在下での普遍的特性を抽出するために有効であることを示す。 我々の研究は、非エルミート物理学を研究するための新しい枠組みを定め、この分野への熱帯幾何学の新しい接続を明らかにした。

Non-Hermitian systems have been widely explored in platforms ranging from photonics to electric circuits. A defining feature of non-Hermitian systems is exceptional points (EPs), where both eigenvalues and eigenvectors coalesce. Tropical geometry is an emerging field of mathematics at the interface between algebraic geometry and polyhedral geometry, with diverse applications to science. Here, we introduce and develop a unified tropical geometric framework to characterize different facets of non-Hermitian systems. We illustrate the versatility of our approach using several examples, and demonstrate that it can be used to select from a spectrum of higher-order EPs in gain and loss models, predict the skin effect in the non-Hermitian Su-Schrieffer-Heeger model, and extract universal properties in the presence of disorder in the Hatano-Nelson model. Our work puts forth a new framework for studying non-Hermitian physics and unveils a novel connection of tropical geometry to this field.
翻訳日:2023-08-23 01:44:52 公開日:2023-08-19
# 否定と述語発明による一般化

Generalisation Through Negation and Predicate Invention ( http://arxiv.org/abs/2301.07629v2 )

ライセンス: Link先を確認
David M. Cerna and Andrew Cropper(参考訳) 少数の例から一般化する能力は、機械学習における基本的な課題である。 この課題に対処するために、否定と述語的発明を組み合わせた帰納論理プログラミング(ILP)アプローチを導入する。 これら2つの特徴を組み合わせることで、ilpシステムは普遍的に定量化されたボディのみの変数でルールを学習することで、よりよい一般化が可能になる。 提案手法をNOPIで実装し, 正規論理プログラムを述語で学習し, 階層的否定を伴うデータログプログラムを含む。 複数のドメインで実験した結果,予測精度と学習時間を改善することができた。

The ability to generalise from a small number of examples is a fundamental challenge in machine learning. To tackle this challenge, we introduce an inductive logic programming (ILP) approach that combines negation and predicate invention. Combining these two features allows an ILP system to generalise better by learning rules with universally quantified body-only variables. We implement our idea in NOPI, which can learn normal logic programs with predicate invention, including Datalog programs with stratified negation. Our experimental results on multiple domains show that our approach can improve predictive accuracies and learning times.
翻訳日:2023-08-23 01:43:15 公開日:2023-08-19
# UATVR:不確実性対応のテキストビデオ検索

UATVR: Uncertainty-Adaptive Text-Video Retrieval ( http://arxiv.org/abs/2301.06309v2 )

ライセンス: Link先を確認
Bo Fang, Wenhao Wu, Chang Liu, Yu Zhou, Yuxin Song, Weiping Wang, Xiangbo Shu, Xiangyang Ji, Jingdong Wang(参考訳) ウェブビデオの爆発的な成長とCLIPなどの大規模視覚言語事前学習モデルにより、テキスト命令による興味あるビデオの検索が注目されている。 一般的な実践は、テキストとビデオのペアを同じ埋め込み空間に転送し、意味的対応のための特定の粒度の特定のエンティティとの相互の相互作用を構築することである。 残念なことに、クロスモーダルクエリの適切な粒度における最適なエンティティの組み合わせの固有の不確実性は未熟であり、特に階層的意味論(例えばビデオ、テキストなど)を持つモダリティにとって重要である。 本稿では,各ルックアップを分散マッチング手順としてモデル化する,不確実性対応型テキストビデオ検索手法であるuatvrを提案する。 具体的には、エンコーダに学習可能なトークンを追加し、フレキシブルな高レベル推論のための多粒度セマンティクスを適応的に集約する。 埋め込み空間では,テキストとビデオのペアを確率分布として表現し,プロトタイプを標本化してマッチング評価を行う。 MSR-VTT(50.8%)、VATEX(64.5%)、MSVD(49.7%)、DiDeMo(45.8%)の4つのベンチマークによる総合的な実験は、我々のUATVRの優位性を正当化している。 コードはhttps://github.com/bofang98/UATVRで入手できる。

With the explosive growth of web videos and emerging large-scale vision-language pre-training models, e.g., CLIP, retrieving videos of interest with text instructions has attracted increasing attention. A common practice is to transfer text-video pairs to the same embedding space and craft cross-modal interactions with certain entities in specific granularities for semantic correspondence. Unfortunately, the intrinsic uncertainties of optimal entity combinations in appropriate granularities for cross-modal queries are understudied, which is especially critical for modalities with hierarchical semantics, e.g., video, text, etc. In this paper, we propose an Uncertainty-Adaptive Text-Video Retrieval approach, termed UATVR, which models each look-up as a distribution matching procedure. Concretely, we add additional learnable tokens in the encoders to adaptively aggregate multi-grained semantics for flexible high-level reasoning. In the refined embedding space, we represent text-video pairs as probabilistic distributions where prototypes are sampled for matching evaluation. Comprehensive experiments on four benchmarks justify the superiority of our UATVR, which achieves new state-of-the-art results on MSR-VTT (50.8%), VATEX (64.5%), MSVD (49.7%), and DiDeMo (45.8%). The code is available at https://github.com/bofang98/UATVR.
翻訳日:2023-08-23 01:43:04 公開日:2023-08-19
# hopfir: 3次元ポーズ推定のためのグループ内関節改良型ホップワイズグラフフォーマ

HopFIR: Hop-wise GraphFormer with Intragroup Joint Refinement for 3D Human Pose Estimation ( http://arxiv.org/abs/2302.14581v3 )

ライセンス: Link先を確認
Kai Zhai, Qiang Nie, Bo Ouyang, Xiang Li and Shanlin Yang(参考訳) 2次元から3次元の人間のポーズリフトは、人間の骨格トポロジーをモデル化するのに本質的に適していることが証明された3次元人間のポーズ推定(HPE)の基礎である。 しかし、現在のGCNベースの3D HPE法は、異なる関節シナジーにおける関節の相互作用を考慮せずに、隣人の情報を集約することでノードの特徴を更新する。 運動パターンを学ぶために肢情報をインポートすることを提案した研究もあるが、バランスの維持など関節間の潜在シナジーはほとんど研究されていない。 3次元hpe問題に取り組むために,グループ内ジョイントリファインメント(hopfir)アーキテクチャを用いたホップワイズグラフフォーマを提案する。 HopFIRは主に、新しいホップワイドグラフフォーマー(HGF)モジュールとグループ内共同改良(IJR)モジュールで構成されている。 HGF加群は、結合をkホップ隣人によってグループ化し、これらの群にホップワイズトランスフォーマーのような注意機構を適用して、潜在的な関節シナジーを発見する。 IJRモジュールは、前肢情報を周辺関節改善に活用する。 大規模な実験結果から、HopFIRはHuman3.6Mデータセットの32.67mmの平均結合位置誤差(MPJPE)でSOTA法よりも高い性能を示した。 また,最先端のgcnベースの手法は,segcnとmgcnがそれぞれ8.9%,4.5%改善され,性能が大幅に向上したホップワイズアテンション機構の恩恵を受けることを示した。

2D-to-3D human pose lifting is fundamental for 3D human pose estimation (HPE), for which graph convolutional networks (GCNs) have proven inherently suitable for modeling the human skeletal topology. However, the current GCN-based 3D HPE methods update the node features by aggregating their neighbors' information without considering the interaction of joints in different joint synergies. Although some studies have proposed importing limb information to learn the movement patterns, the latent synergies among joints, such as maintaining balance are seldom investigated. We propose the Hop-wise GraphFormer with Intragroup Joint Refinement (HopFIR) architecture to tackle the 3D HPE problem. HopFIR mainly consists of a novel hop-wise GraphFormer (HGF) module and an intragroup joint refinement (IJR) module. The HGF module groups the joints by k-hop neighbors and applies a hopwise transformer-like attention mechanism to these groups to discover latent joint synergies. The IJR module leverages the prior limb information for peripheral joint refinement. Extensive experimental results show that HopFIR outperforms the SOTA methods by a large margin, with a mean per-joint position error (MPJPE) on the Human3.6M dataset of 32.67 mm. We also demonstrate that the state-of-the-art GCN-based methods can benefit from the proposed hop-wise attention mechanism with a significant improvement in performance: SemGCN and MGCN are improved by 8.9% and 4.5%, respectively.
翻訳日:2023-08-23 01:37:10 公開日:2023-08-19
# 位相ヘリカルエッジモードのプローブとしての有限温度量子ノイズ相関

Finite temperature quantum noise correlations as a probe for topological helical edge modes ( http://arxiv.org/abs/2302.05961v2 )

ライセンス: Link先を確認
Sachiraj Mishra, Colin Benjamin(参考訳) キラル、自明ヘリカル、トポロジカルヘリカルエッジモードの区別は、有限温度での量子ノイズ測定によって効果的に行うことができる。 量子ノイズ測定は主に2つの成分からなる。 1つは熱雑音、もう1つは熱ゆらぎ、もう1つはショットノイズであり、その起源は荷電粒子の量子的性質である。 これらのエッジモードを有限温度で研究することは、実世界の実験の条件をより正確に反映するため重要である。 また,有限温度の量子ノイズ相関に関する結果が有限周波でも有効であることを確認した。

The distinction between chiral, trivial helical, and topological helical edge modes can be effectively made using quantum noise measurements at finite temperatures. Quantum noise measurements consist of mainly two components. The first is thermal noise, whose provenance is thermal fluctuations, and the second is shot noise, whose origin is the quantum nature of charge particles. Studying these edge modes at finite temperatures is important as it more accurately reflects the conditions in real-world experiments. Additionally, we have verified that our results for finite temperature quantum noise correlations are valid at finite frequencies too.
翻訳日:2023-08-23 01:33:58 公開日:2023-08-19
# RSFNet:地域別カラーフィルタを用いたホワイトボックス画像修正手法

RSFNet: A White-Box Image Retouching Approach using Region-Specific Color Filters ( http://arxiv.org/abs/2303.08682v2 )

ライセンス: Link先を確認
Wenqi Ouyang, Yi Dong, Xiaoyang Kang, Peiran Ren, Xin Xu, Xuansong Xie(参考訳) 画像のリタッチは、写真の視覚的魅力を高める重要な側面である。 ユーザーは共通の審美的嗜好を共有することが多いが、個々の嗜好に応じて修正方法が異なる場合がある。 したがって、満足度の高い結果を生成し、ユーザが都合よく画像を編集できるホワイトボックスアプローチが必要である。 最近のホワイトボックスリタッチは、画像レベルのフィルタ引数を提供するがきめ細かいリタッチはできないカスケードグローバルフィルタに依存している。 対照的に、カラーリストは通常、分割と分割のアプローチを採用し、davinci resolveのような伝統的なツールを使用する際に、一連の領域固有の細かな拡張を行う。 我々はこの知見をもとに,並列領域特異的フィルタを用いた写真リタッチのためのホワイトボックスフレームワークrsfnetを開発した。 我々のモデルはフィルタの引数(飽和、コントラスト、色調)と各フィルタの領域の注意マップを同時に生成する。 フィルタをカスケードする代わりに、RCFNetはフィルタの線形和を使い、より多様なフィルタークラスを訓練しやすくする。 この実験により,RCFNetは審美的魅力とユーザ利便性を向上し,編集可能なホワイトボックスリタッチを実現することができた。

Retouching images is an essential aspect of enhancing the visual appeal of photos. Although users often share common aesthetic preferences, their retouching methods may vary based on their individual preferences. Therefore, there is a need for white-box approaches that produce satisfying results and enable users to conveniently edit their images simultaneously. Recent white-box retouching methods rely on cascaded global filters that provide image-level filter arguments but cannot perform fine-grained retouching. In contrast, colorists typically employ a divide-and-conquer approach, performing a series of region-specific fine-grained enhancements when using traditional tools like Davinci Resolve. We draw on this insight to develop a white-box framework for photo retouching using parallel region-specific filters, called RSFNet. Our model generates filter arguments (e.g., saturation, contrast, hue) and attention maps of regions for each filter simultaneously. Instead of cascading filters, RSFNet employs linear summations of filters, allowing for a more diverse range of filter classes that can be trained more easily. Our experiments demonstrate that RSFNet achieves state-of-the-art results, offering satisfying aesthetic appeal and increased user convenience for editable white-box retouching.
翻訳日:2023-08-23 01:25:44 公開日:2023-08-19
# 適応型表面微細化によるnerfからの繊細なテクスチャメッシュの回収

Delicate Textured Mesh Recovery from NeRF via Adaptive Surface Refinement ( http://arxiv.org/abs/2303.02091v2 )

ライセンス: Link先を確認
Jiaxiang Tang, Hang Zhou, Xiaokang Chen, Tianshu Hu, Errui Ding, Jingdong Wang, Gang Zeng(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は画像に基づく3D再構成において画期的なブレークスルーとなっている。 しかし、その暗黙的なボリューム表現は広く採用されている多角形メッシュとは大きく異なり、一般的な3dソフトウェアやハードウェアのサポートが欠如しており、レンダリングや操作が非効率になっている。 この制限を克服するために、画像からテクスチャ化された表面メッシュを生成する新しいフレームワークを提案する。 我々のアプローチは、NeRFを用いて幾何学とビュー依存分解外観を効率的に初期化することから始まる。 その後、粗いメッシュを抽出し、再投影されたレンダリングエラーに基づいて頂点位置と顔密度を適応的に調整する反復曲面精錬アルゴリズムを開発する。 ジオメトリと共同で外観を洗練し、テクスチャ画像に変換してリアルタイムレンダリングします。 広範な実験により,この手法が優れたメッシュ品質と競合的なレンダリング品質を実現することを実証した。

Neural Radiance Fields (NeRF) have constituted a remarkable breakthrough in image-based 3D reconstruction. However, their implicit volumetric representations differ significantly from the widely-adopted polygonal meshes and lack support from common 3D software and hardware, making their rendering and manipulation inefficient. To overcome this limitation, we present a novel framework that generates textured surface meshes from images. Our approach begins by efficiently initializing the geometry and view-dependency decomposed appearance with a NeRF. Subsequently, a coarse mesh is extracted, and an iterative surface refining algorithm is developed to adaptively adjust both vertex positions and face density based on re-projected rendering errors. We jointly refine the appearance with geometry and bake it into texture images for real-time rendering. Extensive experiments demonstrate that our method achieves superior mesh quality and competitive rendering quality.
翻訳日:2023-08-23 01:24:00 公開日:2023-08-19
# 一般パラメーター効率性を考慮した統一連続学習フレームワーク

A Unified Continual Learning Framework with General Parameter-Efficient Tuning ( http://arxiv.org/abs/2303.10070v2 )

ライセンス: Link先を確認
Qiankun Gao, Chen Zhao, Yifan Sun, Teng Xi, Gang Zhang, Bernard Ghanem, Jian Zhang(参考訳) この「事前学習$\rightarrow$ダウンストリーム適応」では、継続学習(CL)の新たな機会と課題が提示される。 最近のCLの最先端はパラメータ・効率・チューニング(PET)適応パラダイムによって達成されているが、プロンプトのみが検討されており、トランスフォーマーのみに制限されている。 本稿では,PETの1つのインスタンス化と位置づけ,ラーニング・アキュミュレーション・アンサンブル(LAE)と呼ばれる一般PETを用いた統合CLフレームワークを提案する。 PET(Adapter、LoRA、Prefixなど)は、トレーニング済みのモデルをより少ないパラメータとリソースで下流のタスクに適応させることができる。 LAEフレームワークは,PET法によりCLに3つの新しい設計を組み込む。 1)学習:事前学習モデルでは,オンラインPETモジュールを調整し,異なるPETモジュールを調整するために適応速度校正を行う。 2)蓄積:オンラインPETモジュールが学習したタスク固有の知識をモーメント更新によりオフラインPETモジュールに蓄積する。 3)アンサンブルでは,オンライン/オフラインPETモジュール(新規/歴史的タスクに好まれる)を用いて,それぞれ2人の専門家による予測アンサンブルを構築した。 LAEはPET方式のバッテリと互換性があり,CL能力も高いことを示す。 例えば、Adaptor PETを使用したLAEは、CIFAR100とImageNet-Rデータセットにおける最終段階の精度をそれぞれ1.3%と3.6%上回る。 コードは \url{https://github.com/gqk/LAE} で入手できる。

The "pre-training $\rightarrow$ downstream adaptation" presents both new opportunities and challenges for Continual Learning (CL). Although the recent state-of-the-art in CL is achieved through Parameter-Efficient-Tuning (PET) adaptation paradigm, only prompt has been explored, limiting its application to Transformers only. In this paper, we position prompting as one instantiation of PET, and propose a unified CL framework with general PET, dubbed as Learning-Accumulation-Ensemble (LAE). PET, e.g., using Adapter, LoRA, or Prefix, can adapt a pre-trained model to downstream tasks with fewer parameters and resources. Given a PET method, our LAE framework incorporates it for CL with three novel designs. 1) Learning: the pre-trained model adapts to the new task by tuning an online PET module, along with our adaptation speed calibration to align different PET modules, 2) Accumulation: the task-specific knowledge learned by the online PET module is accumulated into an offline PET module through momentum update, 3) Ensemble: During inference, we respectively construct two experts with online/offline PET modules (which are favored by the novel/historical tasks) for prediction ensemble. We show that LAE is compatible with a battery of PET methods and gains strong CL capability. For example, LAE with Adaptor PET surpasses the prior state-of-the-art by 1.3% and 3.6% in last-incremental accuracy on CIFAR100 and ImageNet-R datasets, respectively. Code is available at \url{https://github.com/gqk/LAE}.
翻訳日:2023-08-23 00:45:33 公開日:2023-08-19
# DiffusionRet:拡散モデルを用いた生成テキストビデオ検索

DiffusionRet: Generative Text-Video Retrieval with Diffusion Model ( http://arxiv.org/abs/2303.09867v2 )

ライセンス: Link先を確認
Peng Jin, Hao Li, Zesen Cheng, Kehan Li, Xiangyang Ji, Chang Liu, Li Yuan, Jie Chen(参考訳) 既存のテキストビデオ検索ソリューションは、本質的には条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てた判別モデルである。 このデファクトパラダイムは単純ではあるが、基盤となるデータ分散p(query)を見落としており、分散データの識別が難しい。 この制限に対処するために,この課題を生成的視点から創造的に解決し,テキストと動画の相関関係を確率 p(candidates,query) としてモデル化する。 これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。 トレーニング中、DiffusionRetは生成と識別の両方の観点から最適化され、ジェネレータは生成損失と対照的な損失でトレーニングされた特徴抽出器によって最適化される。 このように、DiffusionRetは生成的および識別的手法の長所を巧みに活用する。 MSRVTT, LSMDC, MSVD, ActivityNet Captions, DiDeMoの5つの一般的なテキストビデオ検索ベンチマーク実験により, 提案手法の有効性を正当化した。 さらに奨励的に、DiffusionRetはドメイン外の検索設定でもうまく機能する。 この研究は、関連する分野に基本的な洞察をもたらしていると考えています。 コードはhttps://github.com/jpthu17/diffusionretで入手できる。

Existing text-video retrieval solutions are, in essence, discriminant models focused on maximizing the conditional likelihood, i.e., p(candidates|query). While straightforward, this de facto paradigm overlooks the underlying data distribution p(query), which makes it challenging to identify out-of-distribution data. To address this limitation, we creatively tackle this task from a generative viewpoint and model the correlation between the text and the video as their joint probability p(candidates,query). This is accomplished through a diffusion-based text-video retrieval framework (DiffusionRet), which models the retrieval task as a process of gradually generating joint distribution from noise. During training, DiffusionRet is optimized from both the generation and discrimination perspectives, with the generator being optimized by generation loss and the feature extractor trained with contrastive loss. In this way, DiffusionRet cleverly leverages the strengths of both generative and discriminative methods. Extensive experiments on five commonly used text-video retrieval benchmarks, including MSRVTT, LSMDC, MSVD, ActivityNet Captions, and DiDeMo, with superior performances, justify the efficacy of our method. More encouragingly, without any modification, DiffusionRet even performs well in out-domain retrieval settings. We believe this work brings fundamental insights into the related fields. Code is available at https://github.com/jpthu17/DiffusionRet.
翻訳日:2023-08-23 00:45:05 公開日:2023-08-19
# denoising diffusion autoencoderは統一された自己教師付き学習者である

Denoising Diffusion Autoencoders are Unified Self-supervised Learners ( http://arxiv.org/abs/2303.09769v2 )

ライセンス: Link先を確認
Weilai Xiang, Hongyu Yang, Di Huang, Yunhong Wang(参考訳) 自動エンコーダを連想させる拡散モデルの最近の進歩に触発され、生成前訓練により分類のための識別的表現を得られるかを検討する。 本稿では、拡散モデルにおけるネットワーク、すなわち拡散オートエンコーダ(DDAE)が、非条件画像生成の事前学習により、補助エンコーダを使わずに中間層内で線形分離表現を強く学習し、拡散事前学習を生成・識別二重学習の一般的なアプローチとして実現していることを示す。 これを検証するために,線形プローブおよび微調整評価を行う。 拡散ベースアプローチはcifar-10とtiny-imagenetでそれぞれ95.9%と50.0%の線形評価精度を達成し、初めてコントラスト学習とマスキングオートエンコーダに匹敵する。 ImageNetからの転送学習では、ビジョントランスフォーマーのDDAEの適合性も確認されており、DDAEを統合基盤モデルとして拡張する可能性を示唆している。 コードはgithub.com/FutureXiang/ddaeで入手できる。

Inspired by recent advances in diffusion models, which are reminiscent of denoising autoencoders, we investigate whether they can acquire discriminative representations for classification via generative pre-training. This paper shows that the networks in diffusion models, namely denoising diffusion autoencoders (DDAE), are unified self-supervised learners: by pre-training on unconditional image generation, DDAE has already learned strongly linear-separable representations within its intermediate layers without auxiliary encoders, thus making diffusion pre-training emerge as a general approach for generative-and-discriminative dual learning. To validate this, we conduct linear probe and fine-tuning evaluations. Our diffusion-based approach achieves 95.9% and 50.0% linear evaluation accuracies on CIFAR-10 and Tiny-ImageNet, respectively, and is comparable to contrastive learning and masked autoencoders for the first time. Transfer learning from ImageNet also confirms the suitability of DDAE for Vision Transformers, suggesting the potential to scale DDAEs as unified foundation models. Code is available at github.com/FutureXiang/ddae.
翻訳日:2023-08-23 00:44:41 公開日:2023-08-19
# 強化データと乗算影響: モデル精度の向上とデータセット強化によるロバスト性

Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness with Dataset Reinforcement ( http://arxiv.org/abs/2303.08983v2 )

ライセンス: Link先を確認
Fartash Faghri, Hadi Pouransari, Sachin Mehta, Mehrdad Farajtabar, Ali Farhadi, Mohammad Rastegari, Oncel Tuzel(参考訳) 我々は,強化データセット上でトレーニングされたモデルアーキテクチャの精度を,ユーザにとって追加のトレーニングコストなしで向上させるように,データセットを改善するための戦略であるデータセット強化を提案する。 本稿では,データ拡張と知識蒸留に基づくデータセット強化戦略を提案する。 提案手法は,CNNモデルおよびトランスフォーマーモデルにまたがる広範囲な解析に基づいて設計され,各種データ拡張を伴う最先端モデルによる蒸留の大規模研究を行う。 ImageNet+と呼ばれるImageNetトレーニングデータセットの強化バージョンと、強化データセットCIFAR-100+、Flowers-102+、Food-101+を作成します。 ImageNet+でトレーニングされたモデルはより正確で堅牢で校正され、下流のタスク(セグメンテーションや検出など)にうまく転送される。 例えば、ResNet-50の精度はImageNet検証セットで1.7%、ImageNetV2で3.5%、ImageNet-Rで10.0%向上している。 ImageNet検証セットのキャリブレーションエラー(ECE)も9.9%削減された。 このバックボーンをMask-RCNNでMS-COCOの物体検出に使用すると、平均精度は0.8%向上する。 MobileNets、ViTs、Swin-Transformersも同様に伸びています。 MobileNetV3とSwin-Tinyでは、ImageNet-R/A/Cの大幅な改善が最大20%改善された。 ImageNet+で事前訓練され、CIFAR-100+、Flowers-102+、Food-101+で微調整されたモデルでは、精度が3.4%向上した。 コード、データセット、事前訓練されたモデルはhttps://github.com/apple/ml-dr.comで入手できる。

We propose Dataset Reinforcement, a strategy to improve a dataset once such that the accuracy of any model architecture trained on the reinforced dataset is improved at no additional training cost for users. We propose a Dataset Reinforcement strategy based on data augmentation and knowledge distillation. Our generic strategy is designed based on extensive analysis across CNN- and transformer-based models and performing large-scale study of distillation with state-of-the-art models with various data augmentations. We create a reinforced version of the ImageNet training dataset, called ImageNet+, as well as reinforced datasets CIFAR-100+, Flowers-102+, and Food-101+. Models trained with ImageNet+ are more accurate, robust, and calibrated, and transfer well to downstream tasks (e.g., segmentation and detection). As an example, the accuracy of ResNet-50 improves by 1.7% on the ImageNet validation set, 3.5% on ImageNetV2, and 10.0% on ImageNet-R. Expected Calibration Error (ECE) on the ImageNet validation set is also reduced by 9.9%. Using this backbone with Mask-RCNN for object detection on MS-COCO, the mean average precision improves by 0.8%. We reach similar gains for MobileNets, ViTs, and Swin-Transformers. For MobileNetV3 and Swin-Tiny, we observe significant improvements on ImageNet-R/A/C of up to 20% improved robustness. Models pretrained on ImageNet+ and fine-tuned on CIFAR-100+, Flowers-102+, and Food-101+, reach up to 3.4% improved accuracy. The code, datasets, and pretrained models are available at https://github.com/apple/ml-dr.
翻訳日:2023-08-23 00:43:59 公開日:2023-08-19
# オープンワールドにおけるきめ細かいシーングラフ生成のための視覚入力言語モデル

Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World ( http://arxiv.org/abs/2303.13233v2 )

ライセンス: Link先を確認
Qifan Yu, Juncheng Li, Yu Wu, Siliang Tang, Wei Ji, Yueting Zhuang(参考訳) scene graph generation (sgg) は視覚理解のために画像中の<subject, predicate, object>関係を抽出することを目的としている。 最近の研究はSGGを着実に進歩させてきたが、長い尾の分布の問題に悩まされており、尾の述語は訓練にコストがかかり、注釈付きデータが少ないため区別が難しい。 既存の再バランス戦略では、以前のルールで処理しようとするが、さまざまなモデルやデータセットではスケーラブルでない、事前定義された条件に制限されている。 本稿では,多種多様な粒度の述語を低リソースで生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケート促進(CaCao)フレームワークを提案する。 提案したCaCaoはプラグ・アンド・プレイ方式で適用でき、既存のSGGを自動的に強化して長期化問題に取り組むことができる。 そこで本研究では,オープンワールドのシーングラフ生成手法であるEntangled cross-modal prompt approach for open-world predicate scene graph generation (Epic)を導入する。 3つのベンチマークデータセットの総合的な実験により、CaCaoはモデルに依存しない方法で複数のシーングラフ生成モデルの性能を一貫して向上させることが示された。 さらに,open-world predicate predictionの競合性能も達成している。 この論文のデータとコードは公開されています。

Scene Graph Generation (SGG) aims to extract <subject, predicate, object> relationships in images for vision understanding. Although recent works have made steady progress on SGG, they still suffer long-tail distribution issues that tail-predicates are more costly to train and hard to distinguish due to a small amount of annotated data compared to frequent predicates. Existing re-balancing strategies try to handle it via prior rules but are still confined to pre-defined conditions, which are not scalable for various models and datasets. In this paper, we propose a Cross-modal prediCate boosting (CaCao) framework, where a visually-prompted language model is learned to generate diverse fine-grained predicates in a low-resource way. The proposed CaCao can be applied in a plug-and-play fashion and automatically strengthen existing SGG to tackle the long-tailed problem. Based on that, we further introduce a novel Entangled cross-modal prompt approach for open-world predicate scene graph generation (Epic), where models can generalize to unseen predicates in a zero-shot manner. Comprehensive experiments on three benchmark datasets show that CaCao consistently boosts the performance of multiple scene graph generation models in a model-agnostic way. Moreover, our Epic achieves competitive performance on open-world predicate prediction. The data and code for this paper are publicly available.
翻訳日:2023-08-23 00:35:54 公開日:2023-08-19
# Q-HyViT:ブリッジブロックを用いたハイブリッドビジョントランスのポストトレーニング量子化

Q-HyViT: Post-Training Quantization for Hybrid Vision Transformer with Bridge Block Reconstruction ( http://arxiv.org/abs/2303.12557v2 )

ライセンス: Link先を確認
Jemin Lee, Yongin Kwon, Jeman Park, Misun Yu, Sihyeong Park, Hwanjun Song(参考訳) 近年、視覚変換器(ViT)は、分類、検出、セグメンテーションを含む多くのアプリケーションで畳み込みニューラルネットワークに取って代わられている。 しかし、ViTの高い計算要求は、その広範な実装を妨げる。 この問題に対処するため、研究者らは、畳み込み層と変圧器層を組み合わせた効率的なハイブリッドトランスフォーマーアーキテクチャを提案し、線形複雑性の最適化された注意計算を行った。 さらに、計算要求を軽減する手段として、ポストトレーニング量子化が提案されている。 モバイルデバイスでは、ViTの最適加速を達成するには、量子化技術と効率的なハイブリッドトランスフォーマー構造の戦略的統合が必要である。 しかし、効率的なハイブリッドトランスに量子化を適用した以前の研究はない。 本稿では,既存のPTQ法をハイブリッドトランスに応用することで,次の4つの課題に起因して,大幅な精度低下につながることを明らかにする。 (i)非常にダイナミックな範囲 (ii)ゼロポイントオーバーフロー。 (iii)多様な正規化、及び (iv)限られたモデルパラメータ($5m)。 これらの課題を克服するために,既存のPTQ手法(EasyQuant, FQ-ViT, PTQ4ViT)と比較して,有意なマージン(平均8.32\%, 6ビット26.02\%)を持つ,効率的なハイブリッドViT(MobileViTv1, MobileViTv2, Mobile-Former, EfficientFormerV1, EfficientFormerV2)の量子化を行った。 コードは \url{https://github.com/Q-HyViT} でリリースする予定です。

Recently, vision transformers (ViTs) have superseded convolutional neural networks in numerous applications, including classification, detection, and segmentation. However, the high computational requirements of ViTs hinder their widespread implementation. To address this issue, researchers have proposed efficient hybrid transformer architectures that combine convolutional and transformer layers with optimized attention computation of linear complexity. Additionally, post-training quantization has been proposed as a means of mitigating computational demands. For mobile devices, achieving optimal acceleration for ViTs necessitates the strategic integration of quantization techniques and efficient hybrid transformer structures. However, no prior investigation has applied quantization to efficient hybrid transformers. In this paper, we discover that applying existing PTQ methods for ViTs to efficient hybrid transformers leads to a drastic accuracy drop, attributed to the four following challenges: (i) highly dynamic ranges, (ii) zero-point overflow, (iii) diverse normalization, and (iv) limited model parameters ($<$5M). To overcome these challenges, we propose a new post-training quantization method, which is the first to quantize efficient hybrid ViTs (MobileViTv1, MobileViTv2, Mobile-Former, EfficientFormerV1, EfficientFormerV2) with a significant margin (an average improvement of 8.32\% for 8-bit and 26.02\% for 6-bit) compared to existing PTQ methods (EasyQuant, FQ-ViT, and PTQ4ViT). We plan to release our code at \url{https://github.com/Q-HyViT}.
翻訳日:2023-08-23 00:34:42 公開日:2023-08-19
# 協調低光画像強調のためのインプシットニューラル表現

Implicit Neural Representation for Cooperative Low-light Image Enhancement ( http://arxiv.org/abs/2303.11722v2 )

ライセンス: Link先を確認
Shuzhou Yang and Moxuan Ding and Yanmin Wu and Zihan Li and Jian Zhang(参考訳) 以下の3つの要素は、既存の低照度画像強調法の適用を制限するものである: 予測不能な明るさ劣化とノイズ、メートル法と視覚に優しいバージョン間の固有のギャップ、限られたペアトレーニングデータ。 これらの制約に対処するため,NeRCoと呼ばれる協調低光画像強調のための暗黙的ニューラル表現法を提案する。 知覚に優しい結果を教師なしの方法でロバストに復元する。 具体的には、NeRCoは現実世界のシーンの多様な劣化要因を制御可能なフィッティング機能で統一し、ロバスト性が向上する。 また,この結果に対して,事前学習された視覚言語モデルから先行した意味指向の監督を導入する。 単に参照イメージに従うのではなく、結果が主観的な期待を満たすように促し、より視覚的フレンドリなソリューションを見つける。 さらに,ペアデータへの依存を緩和し,解空間を減らすため,双閉ループ制約付き拡張モジュールを開発した。 自制的な方法で他の関連モジュールと協調的に訓練される。 最後に,提案したNeRCoの堅牢性と優れた有効性を示す。 私たちのコードはhttps://github.com/Ysz2022/NeRCoで公開されています。

The following three factors restrict the application of existing low-light image enhancement methods: unpredictable brightness degradation and noise, inherent gap between metric-favorable and visual-friendly versions, and the limited paired training data. To address these limitations, we propose an implicit Neural Representation method for Cooperative low-light image enhancement, dubbed NeRCo. It robustly recovers perceptual-friendly results in an unsupervised manner. Concretely, NeRCo unifies the diverse degradation factors of real-world scenes with a controllable fitting function, leading to better robustness. In addition, for the output results, we introduce semantic-orientated supervision with priors from the pre-trained vision-language model. Instead of merely following reference images, it encourages results to meet subjective expectations, finding more visual-friendly solutions. Further, to ease the reliance on paired data and reduce solution space, we develop a dual-closed-loop constrained enhancement module. It is trained cooperatively with other affiliated modules in a self-supervised manner. Finally, extensive experiments demonstrate the robustness and superior effectiveness of our proposed NeRCo. Our code is available at https://github.com/Ysz2022/NeRCo.
翻訳日:2023-08-23 00:33:39 公開日:2023-08-19
# 強度変調のない位相整合量子鍵分布

Phase-Matching Quantum Key Distribution without Intensity Modulation ( http://arxiv.org/abs/2303.11585v3 )

ライセンス: Link先を確認
Shan-Feng Shao, Xiao-Yu Cao, Yuan-Mei Xie, Jie Gu, Wen-Bo Liu, Yao Fu, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 量子鍵配布は、無条件のセキュリティを持つ2つの離れたパーティ間でセキュアなキーを共有するための有望なソリューションを提供する。 それでも、量子鍵分布はデバイスの不完全性によって深刻な脅威を受けている。 特に、古典的なパルス相関はデコイ状態を送信するときにセキュリティを脅かす。 この問題に対処し,実験要件を簡素化するために,強度変調を伴わない位相整合量子鍵分布プロトコルを提案する。 そこで,decoy状態を用いる代わりに,偶数光子数成分が寄与する位相誤差率の理論的上限を推定する新しい手法を提案する。 シミュレーションの結果,プロトコルの伝送距離は通信ファイバーで305kmに達することが分かった。 さらに,本プロトコルの有効性を実証するための原理実証実験を行い,45dbチャネルの損失で鍵レートが22.5 bpsに達した。 パルス強度相関のセキュリティホールに対処し,連続ランダム位相を6~8スライスランダム位相に置き換えることで,量子ネットワーク構築のための有望なソリューションを提供する。

Quantum key distribution provides a promising solution for sharing secure keys between two distant parties with unconditional security. Nevertheless, quantum key distribution is still severely threatened by the imperfections of devices. In particular, the classical pulse correlation threatens security when sending decoy states. To address this problem and simplify experimental requirements, we propose a phase-matching quantum key distribution protocol without intensity modulation. Instead of using decoy states, we propose a novel method to estimate the theoretical upper bound on the phase error rate contributed by even-photon-number components. Simulation results show that the transmission distance of our protocol could reach 305 km in telecommunication fiber. Furthermore, we perform a proof-of-principle experiment to demonstrate the feasibility of our protocol, and the key rate reaches 22.5 bps under a 45 dB channel loss. Addressing the security loophole of pulse intensity correlation and replacing continuous random phase with 6 or 8 slices random phase, our protocol provides a promising solution for constructing quantum networks.
翻訳日:2023-08-23 00:32:51 公開日:2023-08-19
# テキスト変換を用いたゼロショット合成画像検索

Zero-Shot Composed Image Retrieval with Textual Inversion ( http://arxiv.org/abs/2303.15247v2 )

ライセンス: Link先を確認
Alberto Baldrati, Lorenzo Agnolucci, Marco Bertini, Alberto Del Bimbo(参考訳) Composed Image Retrieval (CIR) は、2つの画像の違いを記述した参照画像と相対キャプションからなるクエリに基づいてターゲット画像を取得することを目的としている。 CIRのためのデータセットのラベル付けに必要な高い労力とコストは、教師付き学習に依存するため、既存のメソッドの広範の使用を妨げる。 本研究では,ラベル付きトレーニングデータセットを必要とせずにCIRに対処することを目的としたZero-Shot CIR(ZS-CIR)を提案する。 提案手法は,0-Shot composEd imAge Retrieval with textuaL invErsion (SEARLE) と命名され,参照画像の視覚的特徴をCLIPトークン埋め込み空間内の擬ワードトークンにマッピングし,相対的なキャプションと統合する。 ZS-CIRの研究を支援するために、コンテクストにおける共通オブジェクトの合成画像検索データセット(CIRCO)を導入する。 実験により、SEARLEは、CIRタスクの2つの主要なデータセットであるFashionIQとCIRRと、提案されたCIRCOのベースラインよりも優れたパフォーマンスを示すことが示された。 データセット、コード、モデルはhttps://github.com/miccunifi/SEARLE.comで公開されている。

Composed Image Retrieval (CIR) aims to retrieve a target image based on a query composed of a reference image and a relative caption that describes the difference between the two images. The high effort and cost required for labeling datasets for CIR hamper the widespread usage of existing methods, as they rely on supervised learning. In this work, we propose a new task, Zero-Shot CIR (ZS-CIR), that aims to address CIR without requiring a labeled training dataset. Our approach, named zero-Shot composEd imAge Retrieval with textuaL invErsion (SEARLE), maps the visual features of the reference image into a pseudo-word token in CLIP token embedding space and integrates it with the relative caption. To support research on ZS-CIR, we introduce an open-domain benchmarking dataset named Composed Image Retrieval on Common Objects in context (CIRCO), which is the first dataset for CIR containing multiple ground truths for each query. The experiments show that SEARLE exhibits better performance than the baselines on the two main datasets for CIR tasks, FashionIQ and CIRR, and on the proposed CIRCO. The dataset, the code and the model are publicly available at https://github.com/miccunifi/SEARLE.
翻訳日:2023-08-23 00:24:58 公開日:2023-08-19
# 視覚言語基礎モデルを用いたマルチオブジェクト環境におけるゼロショット分布検出

Zero-Shot In-Distribution Detection in Multi-Object Settings Using Vision-Language Foundation Models ( http://arxiv.org/abs/2304.04521v2 )

ライセンス: Link先を確認
Atsuyuki Miyai, Qing Yu, Go Irie, Kiyoharu Aizawa(参考訳) インターネットから取り出されたノイズの多い画像からIDイメージを抽出することは、従来手作業で行われてきたデータセット構築のための重要な前処理である。 この前処理をディープラーニング技術で自動化することは、2つの重要な課題を提示します。 まず、IDデータをトレーニングすることなく、IDクラスの名前のみを使用してイメージを収集する。 第二に、なぜCOCOが作られたのかが分かるように、IDオブジェクトだけでなく、IDとアウト・オブ・ディストリビューション(OOD)オブジェクトの両方を含むイメージをIDイメージとして識別し、堅牢な認識器を作成することが不可欠である。 本稿では,IDオブジェクトを含むイメージを(OODオブジェクトを含む場合でも)IDイメージとして識別し,IDオブジェクトを含まないイメージをOODイメージとして識別する,ゼロショット・イン・ディストリビューション(ID)検出という新たな問題設定を提案する。 この問題を解決するために、CLIPの強力なゼロショット機能を活用し、CLIP機能のグローバルおよびローカルなビジュアルテキストアライメントに基づく、シンプルで効果的なGlobal-Local Maximum Concept Matching (GL-MCM)を提案する。 GL-MCMはマルチオブジェクトデータセットと単一オブジェクトイメージネットベンチマークの両方で比較手法より優れていることを示す。 コードはhttps://github.com/AtsuMiyai/GL-MCMで入手できる。

Extracting in-distribution (ID) images from noisy images scraped from the Internet is an important preprocessing for constructing datasets, which has traditionally been done manually. Automating this preprocessing with deep learning techniques presents two key challenges. First, images should be collected using only the name of the ID class without training on the ID data. Second, as we can see why COCO was created, it is crucial to identify images containing not only ID objects but also both ID and out-of-distribution (OOD) objects as ID images to create robust recognizers. In this paper, we propose a novel problem setting called zero-shot in-distribution (ID) detection, where we identify images containing ID objects as ID images (even if they contain OOD objects), and images lacking ID objects as OOD images without any training. To solve this problem, we leverage the powerful zero-shot capability of CLIP and present a simple and effective approach, Global-Local Maximum Concept Matching (GL-MCM), based on both global and local visual-text alignments of CLIP features. Extensive experiments demonstrate that GL-MCM outperforms comparison methods on both multi-object datasets and single-object ImageNet benchmarks. The code will be available via https://github.com/AtsuMiyai/GL-MCM.
翻訳日:2023-08-23 00:13:35 公開日:2023-08-19
# 擬密度行列としての量子力学

Quantum dynamics as a pseudo-density matrix ( http://arxiv.org/abs/2304.03954v2 )

ライセンス: Link先を確認
James Fullwood(参考訳) 相対性理論では、空間は時間とともに時空として知られる単一の実体へと発展するが、量子論は量子状態の力学進化を一つの「時間的状態」にカプセル化する標準的な概念を欠いている。 最近、Fitzsimons、Jones、Vedralの論文において、そのような状態が時間とともに量子力学過程に存在する空間的だけでなく時間的相関を符号化するならば、密度行列ではなく、擬密度行列によって表されるべきであると強調された。 擬密度行列は、境界が密度行列である単位トレースのエルミート行列であり、この研究では、擬密度行列を量子チャネルの有限列に従って進化させる量子システムに関連付けるために、量子チャネルの分解系を用いる。 すると、そのような擬密度行列を時空の局所パッチの量子アナログとみなし、そのような量子力学の擬密度行列とその性質の詳細な数学的解析を行う。 また,与えられた擬似密度行列から量子力学を明示的に抽出する方法を示す。

While in relativity theory space evolves over time into a single entity known as spacetime, quantum theory lacks a standard notion of how to encapsulate the dynamical evolution of a quantum state into a single "state over time". Recently it was emphasized in the work of Fitzsimons, Jones and Vedral that if such a state over time is to encode not only spatial but also temporal correlations which exist within a quantum dynamical process, then it should be represented not by a density matrix, but rather, by a pseudo-density matri}. A pseudo-density matrix is a hermitian matrix of unit trace whose marginals are density matrices, and in this work, we make use a factorization system for quantum channels to associate a pseudo-density matrix with a quantum system which is to evolve according to a finite sequence of quantum channels. We then view such a pseudo-density matrix as the quantum analog of a local patch of spacetime, and we make an in-depth mathematical analysis of such quantum dynamical pseudo-density matrices and the properties they satisfy. We also show how to explicitly extract quantum dynamics from a given pseudo-density matrix, thus solving an open problem posed in the literature.
翻訳日:2023-08-23 00:13:11 公開日:2023-08-19
# リアルタイムマルチラベル気象認識のためのMASK-CNN変換器

MASK-CNN-Transformer For Real-Time Multi-Label Weather Recognition ( http://arxiv.org/abs/2304.14857v2 )

ライセンス: Link先を確認
Shengchao Chen, Ting Shu, Huan Zhao, Yuan Yan Tang(参考訳) 天気予報は、交通安全、環境、気象学など、多くの実用的用途に欠かせない支援である。 しかし、既存の多くの関連著作は、その複雑な共起依存関係のため、気象条件を包括的に記述できない。 本稿では,これらの依存性を考慮した新しいマルチラベル気象認識モデルを提案する。 MASK-Convolutional Neural Network-Transformer (MASK-CT) と呼ばれる提案モデルは、Transformer、Convolutional Process、MASKメカニズムに基づいている。 このモデルは複数の畳み込み層を用いて気象画像から特徴を抽出し、トランスエンコーダを用いて各気象条件の確率を抽出した特徴量に基づいて算出する。 MASK-CTの一般化能力を向上させるため、トレーニング段階でMASK機構を使用する。 また,MASK機構の効果について検討した。 Maskメカニズムは、ワンペアトレーニングインスタンス(1つの画像とその対応するラベル)からランダムに情報を保持する。 MASKには2種類の方法がある。 具体的には、気象特徴抽出器に供給する前に、画像上にMASK-Iを設計して展開し、画像ラベルにMASK-IIを適用する。 Transformerエンコーダは、ランダムにマスクされた画像の特徴とラベルに使用される。 各種実世界の天気予報データセットによる実験結果から,提案したMASK-CTモデルは最先端の手法よりも優れていることが示された。 さらに,MASK-CTの高速動的リアルタイム気象認識能力の評価を行った。

Weather recognition is an essential support for many practical life applications, including traffic safety, environment, and meteorology. However, many existing related works cannot comprehensively describe weather conditions due to their complex co-occurrence dependencies. This paper proposes a novel multi-label weather recognition model considering these dependencies. The proposed model called MASK-Convolutional Neural Network-Transformer (MASK-CT) is based on the Transformer, the convolutional process, and the MASK mechanism. The model employs multiple convolutional layers to extract features from weather images and a Transformer encoder to calculate the probability of each weather condition based on the extracted features. To improve the generalization ability of MASK-CT, a MASK mechanism is used during the training phase. The effect of the MASK mechanism is explored and discussed. The Mask mechanism randomly withholds some information from one-pair training instances (one image and its corresponding label). There are two types of MASK methods. Specifically, MASK-I is designed and deployed on the image before feeding it into the weather feature extractor and MASK-II is applied to the image label. The Transformer encoder is then utilized on the randomly masked image features and labels. The experimental results from various real-world weather recognition datasets demonstrate that the proposed MASK-CT model outperforms state-of-the-art methods. Furthermore, the high-speed dynamic real-time weather recognition capability of the MASK-CT is evaluated.
翻訳日:2023-08-23 00:04:58 公開日:2023-08-19
# PiClick:クリックベースのインタラクティブセグメンテーションで望ましいマスクを選ぶ

PiClick: Picking the desired mask in click-based interactive segmentation ( http://arxiv.org/abs/2304.11609v2 )

ライセンス: Link先を確認
Cilin Yan, Haochen Wang, Jie Liu, Xiaolong Jiang, Yao Hu, Xu Tang, Guoliang Kang, Efstratios Gavves(参考訳) クリックベースのインタラクティブセグメンテーションは、人間のクリックを通じてターゲットマスクを生成することを目的としている。 このようなタスクでは、ターゲットのあいまいさは、セグメンテーションの精度と効率を妨げる問題である。 つまり、リッチなコンテキストのシーンでは、1クリックで複数の潜在的なターゲットに対応できるが、従来の対話型セグメンタは1つのマスクしか生成せず、ターゲットの曖昧さに対処できない。 そこで本稿では,提案するインタラクティブセグメンテーションネットワークであるpiclickを提案する。 具体的には、piclickはtransformerベースのアーキテクチャを使用して、相互に対話的なマスククエリによってすべてのターゲットマスクを生成する。 さらに、ターゲット推論モジュールはPiClickで設計されており、すべての候補からユーザーが望むマスクを自動的に提案し、ターゲットの曖昧さと外的努力を軽減している。 9つの対話型セグメンテーションデータセットに関する広範な実験は、セグメンテーション結果を考慮して、piclickが以前の最先端技術に対して好成績を示している。 さらに,PiClickは,所望のマスクのアノテートや選択において,人間の努力を効果的に削減することを示す。 PiClickのソースコードをhttps://github.com/cilinyan/PiClickのプラグイン・アンド・プレイアノテーションツールと一緒にリリースします。

Click-based interactive segmentation aims to generate target masks via human clicking, which facilitates efficient pixel-level annotation and image editing. In such a task, target ambiguity remains a problem hindering the accuracy and efficiency of segmentation. That is, in scenes with rich context, one click may correspond to multiple potential targets, while most previous interactive segmentors only generate a single mask and fail to deal with target ambiguity. In this paper, we propose a novel interactive segmentation network named PiClick, to yield all potentially reasonable masks and suggest the most plausible one for the user. Specifically, PiClick utilizes a Transformer-based architecture to generate all potential target masks by mutually interactive mask queries. Moreover, a Target Reasoning module is designed in PiClick to automatically suggest the user-desired mask from all candidates, relieving target ambiguity and extra-human efforts. Extensive experiments on 9 interactive segmentation datasets demonstrate PiClick performs favorably against previous state-of-the-arts considering the segmentation results. Moreover, we show that PiClick effectively reduces human efforts in annotating and picking the desired masks. To ease the usage and inspire future research, we release the source code of PiClick together with a plug-and-play annotation tool at https://github.com/cilinyan/PiClick.
翻訳日:2023-08-23 00:03:57 公開日:2023-08-19
# SINC:同時行動生成のための3次元人体運動の空間構成

SINC: Spatial Composition of 3D Human Motions for Simultaneous Action Generation ( http://arxiv.org/abs/2304.10417v2 )

ライセンス: Link先を確認
Nikos Athanasiou, Mathis Petrovich, Michael J. Black and G\"ul Varol(参考訳) 我々のゴールは、同時動作を記述したテキスト入力が与えられた3次元の人間の動きを合成することである。 このような同時的な動きを「空間構成」と呼ぶ。 ある作用から別の作用へ遷移しようとする時間的構成とは対照的に、空間的合成は、どの作用にどの身体部位が関与しているかを理解し、それらを同時に移動させる必要がある。 動作と身体部位の対応が強力な言語モデルにエンコードされているという観察に触発され,GPT-3に「アクション・ネーム」に関係している身体部位は何か?」などのテキストを入力し,部品リストと少数ショット例も提供する。 このアクション部分マッピングを前提として,2つの動作の身体部分を組み合わせて,2つの動作を空間的に構成する最初の自動手法を確立する。 しかし、構成動作によるトレーニングデータは、常にコンビネータによって制限される。 したがって、このアプローチでさらに合成データを作成し、それを用いてsinc(simultaneous action compositions for 3d human motions)と呼ばれる新しい最先端テキストからモーションへの生成モデルを訓練する。 実験では,GPT誘導合成データを用いたトレーニングにより,ベースライン上での空間組成生成が改善された。 私たちのコードはhttps://sinc.is.tue.mpg.de/で公開されています。

Our goal is to synthesize 3D human motions given textual inputs describing simultaneous actions, for example 'waving hand' while 'walking' at the same time. We refer to generating such simultaneous movements as performing 'spatial compositions'. In contrast to temporal compositions that seek to transition from one action to another, spatial compositing requires understanding which body parts are involved in which action, to be able to move them simultaneously. Motivated by the observation that the correspondence between actions and body parts is encoded in powerful language models, we extract this knowledge by prompting GPT-3 with text such as "what are the body parts involved in the action <action name>?", while also providing the parts list and few-shot examples. Given this action-part mapping, we combine body parts from two motions together and establish the first automated method to spatially compose two actions. However, training data with compositional actions is always limited by the combinatorics. Hence, we further create synthetic data with this approach, and use it to train a new state-of-the-art text-to-motion generation model, called SINC ("SImultaneous actioN Compositions for 3D human motions"). In our experiments, that training with such GPT-guided synthetic data improves spatial composition generation over baselines. Our code is publicly available at https://sinc.is.tue.mpg.de/.
翻訳日:2023-08-23 00:03:30 公開日:2023-08-19
# GraphFC:ラベルスカルシティによる不正検出のカスタム

GraphFC: Customs Fraud Detection with Label Scarcity ( http://arxiv.org/abs/2305.11377v2 )

ライセンス: Link先を確認
Karandeep Singh, Yu-Che Tsai, Cheng-Te Li, Meeyoung Cha, Shou-De Lin(参考訳) 世界中の税関職員が大量の取引に遭遇する。 接続性の向上とグローバル化により、税関取引は毎年増加を続けている。 税関取引に関連するのは税関詐欺であり、税や義務を避けるために商品宣言を意図的に操作することである。 人員が限られているため、税関は限られた数の宣言を手作業で検査できるのみである。 これにより、機械学習(ML)技術による税関不正検出を自動化する必要が生じる。 新しい宣言をラベル付けするための手動検査が限られているため、MLアプローチはラベル付きデータの不足による堅牢なパフォーマンスを持つべきである。 しかし、現在の税関不正検出のアプローチは、この現実世界の設定にはあまり適していない。 本稿では,モデル非依存,ドメイン固有,半教師付きグラフニューラルネットワークに基づく,セミ教師付きかつ帰納的能力を持つカスタムス不正検出アルゴリズムである,$\textbf{graphfc}$ ($\textbf{graph}$ neural networks for $\textbf{c}$ustoms $\textbf{f}$raudを提案する。 最新技術に対するリコールは252%まで増加しており、3つの異なる国の税関管理からの実際の税関データに関する広範囲な実験は、graphfcが一貫して様々な基準値や現在の技術水準を上回っていることを示している。

Custom officials across the world encounter huge volumes of transactions. With increased connectivity and globalization, the customs transactions continue to grow every year. Associated with customs transactions is the customs fraud - the intentional manipulation of goods declarations to avoid the taxes and duties. With limited manpower, the custom offices can only undertake manual inspection of a limited number of declarations. This necessitates the need for automating the customs fraud detection by machine learning (ML) techniques. Due the limited manual inspection for labeling the new-incoming declarations, the ML approach should have robust performance subject to the scarcity of labeled data. However, current approaches for customs fraud detection are not well suited and designed for this real-world setting. In this work, we propose $\textbf{GraphFC}$ ($\textbf{Graph}$ neural networks for $\textbf{C}$ustoms $\textbf{F}$raud), a model-agnostic, domain-specific, semi-supervised graph neural network based customs fraud detection algorithm that has strong semi-supervised and inductive capabilities. With upto 252% relative increase in recall over the present state-of-the-art, extensive experimentation on real customs data from customs administrations of three different countries demonstrate that GraphFC consistently outperforms various baselines and the present state-of-art by a large margin.
翻訳日:2023-08-22 23:56:26 公開日:2023-08-19
# 機械学習に基づく分散システム動作の認定に向けて

Towards Certification of Machine Learning-Based Distributed Systems Behavior ( http://arxiv.org/abs/2305.16822v3 )

ライセンス: Link先を確認
Marco Anisetti and Claudio A. Ardagna and Nicola Bena and Ernesto Damiani(参考訳) マシンラーニング(ML)は、クラウドエッジ連続体にデプロイされる複雑な分散システムの動作を非決定論的に駆動するために、ますます使われています。 彼らの採用の増加は、信頼感の向上を目的として、その非機能性(公正性、堅牢性、プライバシーなど)を評価する保証ソリューションを緊急に求めている。 認定は、この差し迫ったニーズに対応する信頼できる保証ソリューションとして、政策立案者、規制当局、および産業関係者によって明確に特定されている。 残念ながら、既存の認証スキームは、非決定論的振る舞いがMLモデル上に構築されているシステムにはすぐには適用されない。 本稿では、現状の認定制度の課題と欠陥を分析し、オープンな研究課題について論じ、MLベースの分散システムの振る舞いに関する最初の認定制度を提案する。

Machine Learning (ML) is increasingly used to drive the operation of complex distributed systems deployed on the cloud-edge continuum making their behavior non-deterministic. Their increasing adoption is urgently calling for assurance solutions assessing their non-functional properties (e.g., fairness, robustness, privacy) with the aim of improving trustworthiness. Certification has been clearly identified by policymakers, regulators, and industrial stakeholders as the reliable assurance solution to address this pressing need. Unfortunately, existing certification schemes are not immediately applicable to systems whose non-deterministic behavior is built on ML models. This article analyzes the challenges and deficiencies of current certification schemes, discusses open research issues, and proposes a first certification scheme for ML-based distributed systems behavior.
翻訳日:2023-08-22 23:46:23 公開日:2023-08-19
# NegVSR: リアルタイムビデオ超解法における一般化ノイズモデリングのための負の増大

NegVSR: Augmenting Negatives for Generalized Noise Modeling in Real-World Video Super-Resolution ( http://arxiv.org/abs/2305.14669v2 )

ライセンス: Link先を確認
Yexing Song, Meilin Wang, Xiaoyu Xian, Zhijing Yang, Yuming Fan, Yukai Shi(参考訳) 理想的なデータセットから高解像度(HR)ビデオを合成するビデオ超解像(VSR)の能力は、多くの研究で実証されている。 しかし、未知の複雑な劣化を伴う実世界のビデオにVSRモデルを適用することは難しい課題である。 まず、ほとんどのvsrメソッドにおける既存の劣化指標は、実世界のノイズやぼけを効果的にシミュレートできない。 それとは対照的に、古典的劣化の単純な組み合わせは実世界のノイズモデリングに使われ、VSRモデルはしばしば分配外ノイズによって破られる。 第二に、多くのSRモデルはノイズシミュレーションと転送に焦点を当てている。 しかし、サンプルノイズは単調で制限されている。 上記の問題に対処するために,ビデオ超解法(NegVSR)タスクにおける一般化雑音モデリングのための負の強化戦略を提案する。 具体的には,実世界のデータを対象とした逐次ノイズ生成手法を提案する。 そして、負の加減により、デジェネレーションドメインが広範囲に拡張され、様々な実世界のノイズ集合を構築する。 我々はさらに,arded negative guidance lossを提案し,arded negatives間のロバストな特徴を効果的に学習する。 実世界のデータセット(例えば VideoLQ や FLIR)に対する大規模な実験により、我々の手法は、特に視覚的品質において、最先端の手法よりも優れていることが示された。

The capability of video super-resolution (VSR) to synthesize high-resolution (HR) video from ideal datasets has been demonstrated in many works. However, applying the VSR model to real-world video with unknown and complex degradation remains a challenging task. First, existing degradation metrics in most VSR methods are not able to effectively simulate real-world noise and blur. On the contrary, simple combinations of classical degradation are used for real-world noise modeling, which led to the VSR model often being violated by out-of-distribution noise. Second, many SR models focus on noise simulation and transfer. Nevertheless, the sampled noise is monotonous and limited. To address the aforementioned problems, we propose a Negatives augmentation strategy for generalized noise modeling in Video Super-Resolution (NegVSR) task. Specifically, we first propose sequential noise generation toward real-world data to extract practical noise sequences. Then, the degeneration domain is widely expanded by negative augmentation to build up various yet challenging real-world noise sets. We further propose the augmented negative guidance loss to learn robust features among augmented negatives effectively. Extensive experiments on real-world datasets (e.g., VideoLQ and FLIR) show that our method outperforms state-of-the-art methods with clear margins, especially in visual quality.
翻訳日:2023-08-22 23:45:09 公開日:2023-08-19
# su(2)対称監視量子回路における臨界位相とスピンシャープニング

Critical phase and spin sharpening in SU(2)-symmetric monitored quantum circuits ( http://arxiv.org/abs/2305.13356v3 )

ライセンス: Link先を確認
Shayan Majidy, Utkarsh Agrawal, Sarang Gopalakrishnan, Andrew C. Potter, Romain Vasseur, Nicole Yunger Halpern(参考訳) 監視された量子回路は、一定の測定速度で絡み合い遷移を示す。 このような遷移は、観測者が測定結果からどれだけの情報を学べるかによって特徴づけられる位相を分離する。 正確な数値と有効統計力学モデルへの写像を用いて, SU(2)-symmetric monitored quantum circuits について検討した。 対称性の非アベリア性のため、測度 qubit 対は測度のみの極限においても非自明な絡み合いのスケーリングを可能にする。 体積則の絡み合った相と非可換対称性から拡散的精製ダイナミクスが現れる臨界相の間の遷移を見いだす。 さらに,「スピン強調遷移」を数値的に同定した。 一方の位相は、測定がシステムの全スピン量子数を効率的に識別できる位相であり、もう一方の位相は測定ができない位相である。

Monitored quantum circuits exhibit entanglement transitions at certain measurement rates. Such a transition separates phases characterized by how much information an observer can learn from the measurement outcomes. We study SU(2)-symmetric monitored quantum circuits, using exact numerics and a mapping onto an effective statistical-mechanics model. Due to the symmetry's non-Abelian nature, measuring qubit pairs allows for nontrivial entanglement scaling even in the measurement-only limit. We find a transition between a volume-law entangled phase and a critical phase whose diffusive purification dynamics emerge from the non-Abelian symmetry. Additionally, we numerically identify a "spin-sharpening transition." On one side is a phase in which the measurements can efficiently identify the system's total spin quantum number; on the other side is a phase in which measurements cannot.
翻訳日:2023-08-22 23:44:32 公開日:2023-08-19
# 断層分類のための動的信号係数によるグラフ再構成

A Graph Reconstruction by Dynamic Signal Coefficient for Fault Classification ( http://arxiv.org/abs/2306.05281v2 )

ライセンス: Link先を確認
Wenbin He, Jianxu Mao, Yaonan Wang, Zhe Li, Qiu Fang, Haotian Wu(参考訳) 回転機械の強騒音下での故障を識別する性能を向上させるため,提案したエンドツーエンド故障診断モデルの重要な役割を担う動的特徴再構成信号グラフ法を提案する。 具体的には、最初にウェーブレットパケット分解(wpd)により元のメカニカル信号が分解され、係数行列を含む複数のサブバンドが得られる。 次に、当初定義された2つの特徴抽出因子MDDとDDDを用いて、標準エネルギーの分布の違いに基づいてWPDの特徴係数行列を動的に選択し、各サブシグナルが適応的な信号再構成を行うことのできるL2エネルギーノルム(DFSL)に基づく動的特徴選択法を提案する。 次に、最適な特徴サブバンドの係数行列を再構成して再構成し、特徴信号グラフを得る。 最後に、2D-畳み込みニューラルネットワーク(2D-CNN)により特徴信号グラフから深い特徴を抽出する。 軸受の公開データプラットフォームとロボット研削実験プラットフォームにおける実験結果から, この手法は騒音強度の異なる既存の手法よりも優れていることがわかった。

To improve the performance in identifying the faults under strong noise for rotating machinery, this paper presents a dynamic feature reconstruction signal graph method, which plays the key role of the proposed end-to-end fault diagnosis model. Specifically, the original mechanical signal is first decomposed by wavelet packet decomposition (WPD) to obtain multiple subbands including coefficient matrix. Then, with originally defined two feature extraction factors MDD and DDD, a dynamic feature selection method based on L2 energy norm (DFSL) is proposed, which can dynamically select the feature coefficient matrix of WPD based on the difference in the distribution of norm energy, enabling each sub-signal to take adaptive signal reconstruction. Next the coefficient matrices of the optimal feature sub-bands are reconstructed and reorganized to obtain the feature signal graphs. Finally, deep features are extracted from the feature signal graphs by 2D-Convolutional neural network (2D-CNN). Experimental results on a public data platform of a bearing and our laboratory platform of robot grinding show that this method is better than the existing methods under different noise intensities.
翻訳日:2023-08-22 23:36:04 公開日:2023-08-19
# テキスト誘導拡散モデルの興味ある特性

Intriguing Properties of Text-guided Diffusion Models ( http://arxiv.org/abs/2306.00974v4 )

ライセンス: Link先を確認
Qihao Liu, Adam Kortylewski, Yutong Bai, Song Bai, and Alan Yuille(参考訳) テキスト誘導拡散モデル(TDM)は広く応用されているが、予期せず失敗することがある。 よくある失敗は (i)自然に見えるテキストは、間違った内容の画像を生成させるか、または (ii)同じテキストプロンプトで条件付けされているにもかかわらず、非常に異なる、あるいは無関係な出力を生成する潜在変数の異なるランダムなサンプル。 本研究では,TDMの障害モードについて,より詳細に研究し,理解することを目的とする。 これを実現するために,画像分類器を代理損失関数として利用するTDMに対する敵対攻撃であるSAGEを提案し,画像生成における予期せぬ動作や故障事例を自動的に発見するために,TDMの離散的なプロンプト空間と高次元潜在空間を探索する。 我々は,sageが分類器ではなく拡散モデルの障害事例を見出すために,いくつかの技術的貢献を行い,人間の研究で検証する。 本研究は,これまでに体系的に研究されていないtdmの4つの興味をそそる性質を明らかにした。(1)入力テキストのセマンティクスを捉えない画像を生成する,様々な自然テキストプロンプトを見つける。 これらの障害を根本原因に基づいた10の異なるタイプに分類する。 2) テキストプロンプトから独立して歪んだ画像につながる潜伏空間(外れ値ではない)のサンプルを見つけ, 潜伏空間の一部が十分に構造化されていないことを示唆した。 3)テキストプロンプトと無関係な自然画像に繋がる潜在サンプルを見つけ、潜在空間とプロンプト空間の間の潜在的な不一致を示唆する。 (4) 入力プロンプトに1つの逆数トークンを埋め込むことで、CLIPスコアに最小限の影響を与えながら、さまざまな特定のターゲットオブジェクトを生成することができる。 これは言語表現の脆弱さを示し、潜在的な安全性の懸念を提起する。 プロジェクトページ: https://sage-diffusion.github.io/

Text-guided diffusion models (TDMs) are widely applied but can fail unexpectedly. Common failures include: (i) natural-looking text prompts generating images with the wrong content, or (ii) different random samples of the latent variables that generate vastly different, and even unrelated, outputs despite being conditioned on the same text prompt. In this work, we aim to study and understand the failure modes of TDMs in more detail. To achieve this, we propose SAGE, an adversarial attack on TDMs that uses image classifiers as surrogate loss functions, to search over the discrete prompt space and the high-dimensional latent space of TDMs to automatically discover unexpected behaviors and failure cases in the image generation. We make several technical contributions to ensure that SAGE finds failure cases of the diffusion model, rather than the classifier, and verify this in a human study. Our study reveals four intriguing properties of TDMs that have not been systematically studied before: (1) We find a variety of natural text prompts producing images that fail to capture the semantics of input texts. We categorize these failures into ten distinct types based on the underlying causes. (2) We find samples in the latent space (which are not outliers) that lead to distorted images independent of the text prompt, suggesting that parts of the latent space are not well-structured. (3) We also find latent samples that lead to natural-looking images which are unrelated to the text prompt, implying a potential misalignment between the latent and prompt spaces. (4) By appending a single adversarial token embedding to an input prompt we can generate a variety of specified target objects, while only minimally affecting the CLIP score. This demonstrates the fragility of language representations and raises potential safety concerns. Project page: https://sage-diffusion.github.io/
翻訳日:2023-08-22 23:34:44 公開日:2023-08-19
# 非線形リカレントニューラルネットワークの逆近似理論

Inverse Approximation Theory for Nonlinear Recurrent Neural Networks ( http://arxiv.org/abs/2305.19190v2 )

ライセンス: Link先を確認
Shida Wang, Zhong Li and Qianxiao Li(参考訳) RNNを用いた非線形列列列関係の近似に対する逆近似定理を証明した。 これはいわゆるベルンシュタイン型近似理論の結果であり、仮説空間によって効果的に近似できるという仮定の下で対象関数の性質を推論する。 特に、ハードタン/タンの活性化を持つrnnによって安定に近似できる関数列と見なされる非線形列関係は指数関数的減衰記憶構造を持つ必要がある。 これは線形rnnにおけるメモリの呪いを一般的な非線形設定に拡張し、長期記憶とのシーケンシャルな関係を学習するためのrnnアーキテクチャの本質的な制限を定量化する。 そこで本研究では,その限界を克服する原理的パラメータ化手法を提案する。 理論的結果は数値実験によって確認される。

We prove an inverse approximation theorem for the approximation of nonlinear sequence-to-sequence relationships using RNNs. This is a so-called Bernstein-type result in approximation theory, which deduces properties of a target function under the assumption that it can be effectively approximated by a hypothesis space. In particular, we show that nonlinear sequence relationships, viewed as functional sequences, that can be stably approximated by RNNs with hardtanh/tanh activations must have an exponential decaying memory structure -- a notion that can be made precise. This extends the previously identified curse of memory in linear RNNs into the general nonlinear setting, and quantifies the essential limitations of the RNN architecture for learning sequential relationships with long-term memory. Based on the analysis, we propose a principled reparameterization method to overcome the limitations. Our theoretical results are confirmed by numerical experiments.
翻訳日:2023-08-22 23:33:19 公開日:2023-08-19
# リコメンダシステムのためのスケーラブルなニューラルコンテキスト帯域

Scalable Neural Contextual Bandit for Recommender Systems ( http://arxiv.org/abs/2306.14834v3 )

ライセンス: Link先を確認
Zheqing Zhu, Benjamin Van Roy(参考訳) 高品質なレコメンダシステムは、ユーザと効果的かつ探索的なインタラクションを通じて、革新的かつ関連性の高いコンテンツを提供するべきである。 しかし、既存のレコメンデーションシステムのバックボーンを形成する教師付き学習ベースのニューラルネットワークは、認識されたユーザの関心を生かし、未知のユーザの選好を効率的に見つけ出すには不十分である。 ニューラルネットワークによるオンライン探索を可能にするために、ニューラルネットワークのコンテキストバンディットアルゴリズムでは、いくつかの進歩があったが、その厄介な計算要求は、現実世界のレコメンデーションシステムで広く採用されることを妨げる。 本研究では,リコメンデータシステムのためのスケーラブルなサンプル効率ニューラルコンテキスト帯域幅アルゴリズムを提案する。 そこで我々は,トンプソンの大規模サンプリングを可能にするてんかん性ニューラルネットワークアーキテクチャENR( Epistemic Neural Recommendation)を設計した。 実世界のタスクを用いた2つの異なる大規模な実験において、ENRは、最先端のニューラルネットワークの帯域幅アルゴリズムと比較して、クリックスルー率とユーザレーティングを少なくとも9%と6%向上させる。 さらに、最高の性能のベースラインアルゴリズムと比較して、少なくとも29%のユーザインタラクションで同等のパフォーマンスを実現する。 注目すべきは、これらの改善を達成している間に、ENRはニューラルネットワークのコンテキスト帯域ベースラインアルゴリズムよりも、桁違いに少ない計算リソースを要求することである。

High-quality recommender systems ought to deliver both innovative and relevant content through effective and exploratory interactions with users. Yet, supervised learning-based neural networks, which form the backbone of many existing recommender systems, only leverage recognized user interests, falling short when it comes to efficiently uncovering unknown user preferences. While there has been some progress with neural contextual bandit algorithms towards enabling online exploration through neural networks, their onerous computational demands hinder widespread adoption in real-world recommender systems. In this work, we propose a scalable sample-efficient neural contextual bandit algorithm for recommender systems. To do this, we design an epistemic neural network architecture, Epistemic Neural Recommendation (ENR), that enables Thompson sampling at a large scale. In two distinct large-scale experiments with real-world tasks, ENR significantly boosts click-through rates and user ratings by at least 9% and 6% respectively compared to state-of-the-art neural contextual bandit algorithms. Furthermore, it achieves equivalent performance with at least 29% fewer user interactions compared to the best-performing baseline algorithm. Remarkably, while accomplishing these improvements, ENR demands orders of magnitude fewer computational resources than neural contextual bandit baseline algorithms.
翻訳日:2023-08-22 23:28:16 公開日:2023-08-19
# biff: 対話的軌道予測のためのポリリン系座標を用いたbi-level future fusion

BiFF: Bi-level Future Fusion with Polyline-based Coordinate for Interactive Trajectory Prediction ( http://arxiv.org/abs/2306.14161v2 )

ライセンス: Link先を確認
Yiyao Zhu, Di Luan, Shaojie Shen(参考訳) 周囲のエージェントの将来の軌道予測は、安全クリティカルな自動運転に不可欠である。 既存の研究のほとんどは、各エージェントの限界軌道を独立して予測することに焦点を当てている。 しかし,対話型エージェントのジョイント・トラジェクトリーの予測において研究されることは稀である。 本研究では,対話エージェント間の相互作用を明示的に捉えるために,Bi-level Future Fusion (BiFF)を提案する。 具体的には、BiFFは高レベルの将来の意図と低レベルの将来の行動とを融合させる。 次に、ポリリンベースの座標は、データ効率、フレームの堅牢性、予測精度を保証するために、特にマルチエージェント予測のために設計されている。 実験によると、biffはwaymo open motionデータセットのインタラクティブな予測ベンチマークで最先端のパフォーマンスを達成している。

Predicting future trajectories of surrounding agents is essential for safety-critical autonomous driving. Most existing work focuses on predicting marginal trajectories for each agent independently. However, it has rarely been explored in predicting joint trajectories for interactive agents. In this work, we propose Bi-level Future Fusion (BiFF) to explicitly capture future interactions between interactive agents. Concretely, BiFF fuses the high-level future intentions followed by low-level future behaviors. Then the polyline-based coordinate is specifically designed for multi-agent prediction to ensure data efficiency, frame robustness, and prediction accuracy. Experiments show that BiFF achieves state-of-the-art performance on the interactive prediction benchmark of Waymo Open Motion Dataset.
翻訳日:2023-08-22 23:27:54 公開日:2023-08-19
# 大規模3次元形状生成の限界を押し上げる

Pushing the Limits of 3D Shape Generation at Scale ( http://arxiv.org/abs/2306.11510v2 )

ライセンス: Link先を確認
Yu Wang, Xuelin Qian, Jingyang Huo, Tiejun Huang, Bo Zhao, Yanwei Fu(参考訳) 我々は,前例のない次元に拡大することで,3次元形状生成における大きなブレークスルーを示す。 自己回帰モデルの適用と大規模言語モデルの利用を通じて,360億のトレーニング可能なパラメータを持つ驚くべきモデルを開発し,argus-3dという,これまでで最大の3次元形状生成モデルとして確立した。 提案手法は,生成した3次元形状の品質と多様性を高めることで,既存の手法の限界に対処する。 高分解能3次元形状生成の課題に取り組むため,三平面特徴を潜在表現として取り入れ,計算複雑性を効果的に低減した。 さらに,これらの表現の効率的な量子化のための離散コードブックも紹介する。 変圧器のパワーを活用することで,マルチモーダル条件生成を可能にし,多様で視覚的に印象的な3d形状の生成を容易にする。 拡張モデルをトレーニングするために、ModelNet40、ShapeNet、Pix3D、3D-Future、Objaverseといった有名なリポジトリから約90,000オブジェクトの包括的なコレクションで構成された、公開可能な3Dデータセットの集合を利用する。 この多様なデータセットは、我々のモデルに幅広い種類のオブジェクトから学習する権限を与え、高品質で多様な3D形状を生成する能力を高めます。 広範な実験により, 生成した3次元形状の視覚的品質を著しく向上させる効果が示された。 3次元生成の限界を押し進め、潜在表現学習のための新しい手法を導入し、マルチモーダル条件生成にトランスフォーマーのパワーを活用することで、この分野における実質的な進歩への道を開いた。 私たちの仕事は、高品質で多様な3Dオブジェクトを必要とするゲーム、バーチャルリアリティ、製品デザイン、その他の分野のアプリケーションに新たな可能性を開く。

We present a significant breakthrough in 3D shape generation by scaling it to unprecedented dimensions. Through the adaptation of the Auto-Regressive model and the utilization of large language models, we have developed a remarkable model with an astounding 3.6 billion trainable parameters, establishing it as the largest 3D shape generation model to date, named Argus-3D. Our approach addresses the limitations of existing methods by enhancing the quality and diversity of generated 3D shapes. To tackle the challenges of high-resolution 3D shape generation, our model incorporates tri-plane features as latent representations, effectively reducing computational complexity. Additionally, we introduce a discrete codebook for efficient quantization of these representations. Leveraging the power of transformers, we enable multi-modal conditional generation, facilitating the production of diverse and visually impressive 3D shapes. To train our expansive model, we leverage an ensemble of publicly-available 3D datasets, consisting of a comprehensive collection of approximately 900,000 objects from renowned repositories such as ModelNet40, ShapeNet, Pix3D, 3D-Future, and Objaverse. This diverse dataset empowers our model to learn from a wide range of object variations, bolstering its ability to generate high-quality and diverse 3D shapes. Extensive experimentation demonstrate the remarkable efficacy of our approach in significantly improving the visual quality of generated 3D shapes. By pushing the boundaries of 3D generation, introducing novel methods for latent representation learning, and harnessing the power of transformers for multi-modal conditional generation, our contributions pave the way for substantial advancements in the field. Our work unlocks new possibilities for applications in gaming, virtual reality, product design, and other domains that demand high-quality and diverse 3D objects.
翻訳日:2023-08-22 23:26:33 公開日:2023-08-19
# 医用画像の異常を知らずに普遍的異常検出の実現可能性

Feasibility of Universal Anomaly Detection without Knowing the Abnormality in Medical Images ( http://arxiv.org/abs/2307.00750v2 )

ライセンス: Link先を確認
Can Cui, Yaohong Wang, Shunxing Bao, Yucheng Tang, Ruining Deng, Lucas W. Remedios, Zuhayr Asad, Joseph T. Roland, Ken S. Lau, Qi Liu, Lori A. Coburn, Keith T. Wilson, Bennett A. Landman, and Yuankai Huo(参考訳) 近年,多くの異常検出手法,特に深層学習法が,訓練中に正常画像のみを用いることで画像形態の異常を識別するために開発されている。 残念なことに、多くの先行異常検出方法は特定の「既知の」異常(例えば、脳腫瘍、骨分画、細胞型)に最適化された。 さらに、トレーニングプロセスでは通常の画像のみを使用していたが、検証プロセス(例えば、エポックセレクション、ハイパーパラメータチューニング)中に異常画像が頻繁に使用され、意図しない「未知」の異常が漏れる可能性がある。 In this study, we investigated these two essential aspects regarding universal anomaly detection in medical images by (1) comparing various anomaly detection methods across four medical datasets, (2) investigating the inevitable but often neglected issues on how to unbiasedly select the optimal anomaly detection model during the validation phase using only normal images, and (3) proposing a simple decision-level ensemble method to leverage the advantage of different kinds of anomaly detection without knowing the abnormality. 実験の結果,評価された手法がすべてのデータセットで常に最高の性能を達成できないことがわかった。 提案手法は一般に性能の堅牢性を高めた(平均AUC 0.956)。

Many anomaly detection approaches, especially deep learning methods, have been recently developed to identify abnormal image morphology by only employing normal images during training. Unfortunately, many prior anomaly detection methods were optimized for a specific "known" abnormality (e.g., brain tumor, bone fraction, cell types). Moreover, even though only the normal images were used in the training process, the abnormal images were often employed during the validation process (e.g., epoch selection, hyper-parameter tuning), which might leak the supposed ``unknown" abnormality unintentionally. In this study, we investigated these two essential aspects regarding universal anomaly detection in medical images by (1) comparing various anomaly detection methods across four medical datasets, (2) investigating the inevitable but often neglected issues on how to unbiasedly select the optimal anomaly detection model during the validation phase using only normal images, and (3) proposing a simple decision-level ensemble method to leverage the advantage of different kinds of anomaly detection without knowing the abnormality. The results of our experiments indicate that none of the evaluated methods consistently achieved the best performance across all datasets. Our proposed method enhanced the robustness of performance in general (average AUC 0.956).
翻訳日:2023-08-22 23:15:19 公開日:2023-08-19
# Nano1D:低次元物体のセグメンテーションと解析のための高精度コンピュータビジョンモデル

Nano1D: An accurate Computer Vision model for segmentation and analysis of low-dimensional objects ( http://arxiv.org/abs/2306.15319v2 )

ライセンス: Link先を確認
Ehsan Moradpur-Tari (1), Sergei Vlassov (1,2), Sven Oras (1,2), Mart Ernits (1), Elyad Damerchi (1), Andreas Kyritsakis (1), and Veronika Zadin (1)(参考訳) 顕微鏡画像は通常、質的または手作業で分析され、物体の自律的定量分析が必要となる。 本稿では,顕微鏡画像からの1次元不規則および変形可能な物体の正確なセグメンテーションと幾何解析のための物理計算モデルを提案する。 このモデルはNano1Dと呼ばれ、前処理、セグメンテーション、重なり合う物体と幾何学的測定の4つのステップを持つ。 このモデルはAgナノワイヤ上でテストされ、長さ、幅、分布などの幾何学的特性をセグメント化して解析することに成功した。 アルゴリズムの機能は、画像内のオブジェクトのサイズ、数、密度、方向、重なりによって損なわれない。 モデルの主な強みは、重なり合うオブジェクトを99%以上の精度でセグメント化および解析し、一方、現在の機械学習と計算モデルは、重なり合うオブジェクトをセグメント化できない不正確さに悩まされている。 Nano1Dは、ナノワイヤ、ナノチューブ、ナノロッドを含む1次元(1D)ナノ粒子を分析できる。

Microscopy images are usually analyzed qualitatively or manually and there is a need for autonomous quantitative analysis of objects. In this paper, we present a physics-based computational model for accurate segmentation and geometrical analysis of one-dimensional irregular and deformable objects from microscopy images. This model, named Nano1D, has four steps of preprocessing, segmentation, separating overlapped objects and geometrical measurements. The model is tested on Ag nanowires, and successfully segments and analyzes their geometrical characteristics including length, width and distributions. The function of the algorithm is not undermined by the size, number, density, orientation and overlapping of objects in images. The main strength of the model is shown to be its ability to segment and analyze overlapping objects successfully with more than 99% accuracy, while current machine learning and computational models suffer from inaccuracy and inability to segment overlapping objects. Nano1D can analyze one-dimensional (1D) nanoparticles including nanowires, nanotubes, nanorods in addition to other 1D features of microstructures like microcracks, dislocations etc.
翻訳日:2023-08-22 23:13:01 公開日:2023-08-19
# SINC:視覚言語タスクのための自己監督型インコンテキスト学習

SINC: Self-Supervised In-Context Learning for Vision-Language Tasks ( http://arxiv.org/abs/2307.07742v2 )

ライセンス: Link先を確認
Yi-Syuan Chen, Yun-Zhu Song, Cheng Yu Yeo, Bei Liu, Jianlong Fu, Hong-Han Shuai(参考訳) 大規模な事前学習型トランスフォーマーは、コンテキスト内学習に興味深い能力を示す。 勾配の更新がなければ、これらのモデルは入力に表示されたデモから新しい予測器を迅速に構築できる。 最近の研究は、すでにコンテキスト内予測ができる大きな言語モデルに視覚情報を組み込むことで、視覚言語領域におけるこの能力を促進する。 しかし、これらの手法はテンプレートの感度や幻覚といった言語領域の問題を継承する可能性がある。 また、これらの言語モデルの規模は計算に多大な需要をもたらし、これらのモデルを学習し、資源集約的に運用する。 この目的のために、我々は「大規模言語モデルの本質的なインコンテキスト能力に頼ることなく、インコンテキスト学習を可能にするにはどうすればよいのか? そこで本研究では,自己教師あり学習(self-supervised in-context learning:sinc)という,簡潔で汎用的なフレームワークを提案する。 学習したモデルは、オンザフライでコンテキスト内予測を行うために下流タスクに転送することができる。 広汎な実験により、SINCは数ショット設定で様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。 さらに、SINCの設計は、異なるタスクにまたがるインコンテキスト学習の利点を調べるのに役立ち、その分析により、視覚言語領域におけるインコンテキスト学習の出現に必要な要素をさらに明らかにする。

Large Pre-trained Transformers exhibit an intriguing capacity for in-context learning. Without gradient updates, these models can rapidly construct new predictors from demonstrations presented in the inputs. Recent works promote this ability in the vision-language domain by incorporating visual information into large language models that can already make in-context predictions. However, these methods could inherit issues in the language domain, such as template sensitivity and hallucination. Also, the scale of these language models raises a significant demand for computations, making learning and operating these models resource-intensive. To this end, we raise a question: ``How can we enable in-context learning without relying on the intrinsic in-context ability of large language models?". To answer it, we propose a succinct and general framework, Self-supervised IN-Context learning (SINC), that introduces a meta-model to learn on self-supervised prompts consisting of tailored demonstrations. The learned models can be transferred to downstream tasks for making in-context predictions on-the-fly. Extensive experiments show that SINC outperforms gradient-based methods in various vision-language tasks under few-shot settings. Furthermore, the designs of SINC help us investigate the benefits of in-context learning across different tasks, and the analysis further reveals the essential components for the emergence of in-context learning in the vision-language domain.
翻訳日:2023-08-22 23:06:59 公開日:2023-08-19
# 骨格型ビデオ異常検出のためのマルチモーダル運動条件拡散モデル

Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection ( http://arxiv.org/abs/2307.07205v2 )

ライセンス: Link先を確認
Alessandro Flaborea, Luca Collorone, Guido D'Amely, Stefano D'Arrigo, Bardh Prenkaj, Fabio Galasso(参考訳) 異常は稀であり、異常検出はしばしば一級分類 (one-class classification, occ) として分類される。 OCCをリードする手法は、正常な動きの潜在的な表現を限られたボリュームに制限し、外部の異常なものを検知する。 しかし、ノーマルシーは、人間がいくつかの方法で同じ動作をすることができるため、同じオープンセット性を共有している。 本稿では,ビデオ異常検出(VAD)のための新しい生成モデルを提案する。 骨格表現を考察し,最先端の拡散確率モデルを用いて多変量的未来の人間のポーズを生成する。 我々は,過去の人々の動作に関する新しい条件付けを提案し,拡散過程のモードカバレッジ能力を改善し,異なるが印象的な将来の動きを生成する。 未来モードを統計的に集約すると、生成された動きの集合が実際の未来に関係しない場合に異常を検出する。 提案手法は, UBnormal, HR-UBnormal, HR-STC, HR-Avenueの4つのベンチマークで検証した。

Anomalies are rare and anomaly detection is often therefore framed as One-Class Classification (OCC), i.e. trained solely on normalcy. Leading OCC techniques constrain the latent representations of normal motions to limited volumes and detect as abnormal anything outside, which accounts satisfactorily for the openset'ness of anomalies. But normalcy shares the same openset'ness property since humans can perform the same action in several ways, which the leading techniques neglect. We propose a novel generative model for video anomaly detection (VAD), which assumes that both normality and abnormality are multimodal. We consider skeletal representations and leverage state-of-the-art diffusion probabilistic models to generate multimodal future human poses. We contribute a novel conditioning on the past motion of people and exploit the improved mode coverage capabilities of diffusion processes to generate different-but-plausible future motions. Upon the statistical aggregation of future modes, an anomaly is detected when the generated set of motions is not pertinent to the actual future. We validate our model on 4 established benchmarks: UBnormal, HR-UBnormal, HR-STC, and HR-Avenue, with extensive experiments surpassing state-of-the-art results.
翻訳日:2023-08-22 23:06:34 公開日:2023-08-19
# egocentric video-language pre-training with fusion in the backbone

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone ( http://arxiv.org/abs/2307.05463v2 )

ライセンス: Link先を確認
Shraman Pramanick, Yale Song, Sayan Nag, Kevin Qinghong Lin, Hardik Shah, Mike Zheng Shou, Rama Chellappa, and Pengchuan Zhang(参考訳) ビデオ言語事前学習(VLP)は、様々な視覚や言語タスクに一般化できるため、ますます重要になっている。 しかし、既存の自我中心のVLPフレームワークでは、個別のビデオエンコーダと言語エンコーダを使用し、微調整時にのみタスク固有のクロスモーダル情報を学習し、統一システムの開発を制限している。 本研究では,ビデオと言語のバックボーンに直接クロスモーダル融合を組み込むことにより,前世代から大幅に改善された,エゴセントリックなビデオ言語事前学習(EgoVLPv2)の第2世代を紹介する。 egovlpv2は事前トレーニング中に強いビデオテキスト表現を学び、異なる下流タスクを柔軟かつ効率的な方法でサポートするためにクロスモーダルアテンションモジュールを再利用し、微調整コストを削減する。 さらに、バックボーン戦略の融合は、追加の融合固有の層を積み重ねるよりも軽量で計算効率が高い。 幅広いVLタスクに対する広範な実験は、全下流の強いベースラインに対して一貫した最先端性能を達成することで、EgoVLPv2の有効性を示す。 プロジェクトのページはhttps://shramanpramanick.github.io/egovlpv2/で閲覧できます。

Video-language pre-training (VLP) has become increasingly important due to its ability to generalize to various vision and language tasks. However, existing egocentric VLP frameworks utilize separate video and language encoders and learn task-specific cross-modal information only during fine-tuning, limiting the development of a unified system. In this work, we introduce the second generation of egocentric video-language pre-training (EgoVLPv2), a significant improvement from the previous generation, by incorporating cross-modal fusion directly into the video and language backbones. EgoVLPv2 learns strong video-text representation during pre-training and reuses the cross-modal attention modules to support different downstream tasks in a flexible and efficient manner, reducing fine-tuning costs. Moreover, our proposed fusion in the backbone strategy is more lightweight and compute-efficient than stacking additional fusion-specific layers. Extensive experiments on a wide range of VL tasks demonstrate the effectiveness of EgoVLPv2 by achieving consistent state-of-the-art performance over strong baselines across all downstream. Our project page can be found at https://shramanpramanick.github.io/EgoVLPv2/.
翻訳日:2023-08-22 23:06:12 公開日:2023-08-19
# CAT-ViL:ロボット手術における視覚的質問応答のための共同注意型視覚言語埋め込み

CAT-ViL: Co-Attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery ( http://arxiv.org/abs/2307.05182v3 )

ライセンス: Link先を確認
Long Bai, Mobarakol Islam, Hongliang Ren(参考訳) 医学生やジュニア外科医は、手術を学ぶ際に、上級外科医や専門医に質問に答える。 しかし、専門家はしばしば臨床や学術的な研究に忙しく、指導する時間はほとんどない。 一方、既存のディープラーニング(DL)ベースの手術用視覚質問応答システム(VQA)では、答えの場所を指定せずに簡単な回答しか得られない。 加えて、視覚言語(ViL)の埋め込みは、この種のタスクでは研究されていない研究である。 したがって、VQLA(Visual Question Localized-Answering)システムは、医学生やジュニア外科医が記録された手術ビデオから学び、理解するのに役立ちます。 本稿では,VQLA を外科的シナリオに組み込んだコAttention gaTed Vision-Language (CAT-ViL) を用いたエンドツーエンド変換器を提案する。 CAT-ViL組み込みモジュールは、視覚的およびテキストソースからのマルチモーダル機能を融合するよう設計されている。 融合埋め込みは、結合予測のための並列分類器と検出器の前に、標準データ効率のよいイメージトランスフォーマー(deit)モジュールを供給する。 我々は,MICCAI EndoVis Challenge 2017と2018の公開手術ビデオに対する実験的検証を行った。 実験の結果,提案モデルの性能とロバスト性は,最先端のアプローチと比較して高い評価を得た。 アブレーション研究は、提案された全てのコンポーネントの優れた性能をさらに証明している。 提案手法は,外科的シーン理解のための有望なソリューションを提供し,外科的訓練のための人工知能(AI)ベースのVQLAシステムにおける第一歩を開拓する。 私たちのコードは公開されています。

Medical students and junior surgeons often rely on senior surgeons and specialists to answer their questions when learning surgery. However, experts are often busy with clinical and academic work, and have little time to give guidance. Meanwhile, existing deep learning (DL)-based surgical Visual Question Answering (VQA) systems can only provide simple answers without the location of the answers. In addition, vision-language (ViL) embedding is still a less explored research in these kinds of tasks. Therefore, a surgical Visual Question Localized-Answering (VQLA) system would be helpful for medical students and junior surgeons to learn and understand from recorded surgical videos. We propose an end-to-end Transformer with the Co-Attention gaTed Vision-Language (CAT-ViL) embedding for VQLA in surgical scenarios, which does not require feature extraction through detection models. The CAT-ViL embedding module is designed to fuse multimodal features from visual and textual sources. The fused embedding will feed a standard Data-Efficient Image Transformer (DeiT) module, before the parallel classifier and detector for joint prediction. We conduct the experimental validation on public surgical videos from MICCAI EndoVis Challenge 2017 and 2018. The experimental results highlight the superior performance and robustness of our proposed model compared to the state-of-the-art approaches. Ablation studies further prove the outstanding performance of all the proposed components. The proposed method provides a promising solution for surgical scene understanding, and opens up a primary step in the Artificial Intelligence (AI)-based VQLA system for surgical training. Our code is publicly available.
翻訳日:2023-08-22 23:05:48 公開日:2023-08-19
# 大規模言語モデルのための効率的誘導生成

Efficient Guided Generation for Large Language Models ( http://arxiv.org/abs/2307.09702v4 )

ライセンス: Link先を確認
Brandon T. Willard and R\'emi Louf(参考訳) 本稿では,有限状態マシンの状態間の遷移の観点から,ニューラルテキスト生成の問題を構成的に再構成する方法について述べる。 このフレームワークは、正規表現と文脈自由文法でテキスト生成を導くための効率的な手法となり、言語モデルの語彙の上にインデックスを構築することができる。 このアプローチはモデル非依存であり、ドメイン固有の知識と制約を強制し、生成したテキストの構造を保証することによって信頼性の高いインターフェースの構築を可能にする。 トークンシーケンス生成プロセスにオーバーヘッドはほとんどなく、既存のソリューションよりも大幅に優れています。 実装は、オープンソースのpythonライブラリアウトラインで提供される

In this article we show how the problem of neural text generation can be constructively reformulated in terms of transitions between the states of a finite-state machine. This framework leads to an efficient approach to guiding text generation with regular expressions and context-free grammars by allowing the construction of an index over a language model's vocabulary. The approach is model agnostic, allows one to enforce domain-specific knowledge and constraints, and enables the construction of reliable interfaces by guaranteeing the structure of the generated text. It adds little overhead to the token sequence generation process and significantly outperforms existing solutions. An implementation is provided in the open source Python library Outlines
翻訳日:2023-08-22 22:54:28 公開日:2023-08-19
# 手書き・印刷テキストセグメンテーション:署名事例研究

Handwritten and Printed Text Segmentation: A Signature Case Study ( http://arxiv.org/abs/2307.07887v2 )

ライセンス: Link先を確認
Sina Gholamian and Ali Vahdat(参考訳) スキャンされた文書を解析している間、手書きのテキストは印刷されたテキストと重なり合うことができる。 この重なり合いは、光学文字認識(OCR)および文書のデジタル化過程において困難を引き起こし、その後、下流のNLPタスクを損なう。 以前の研究は、手書きテキストのバイナリ分類のみに焦点を当てるか、文書の3クラスセグメンテーション、すなわち手書き文字、印刷文字、背景画素の認識を実行する。 このアプローチでは、手書きと印刷されたピクセルを1つのクラスのみに重ね合わせているため、他のクラスでは説明されない。 そこで本研究では,手書きテキストセグメンテーションと印刷テキストセグメンテーションの課題に対処する新しいアプローチを開発する。 我々の目的は、クラス全体からテキストを復元することであり、特に重なり合う部分のセグメンテーション性能を向上させることである。 このタスクを支援するために、実際の法的文書から収集された新しいデータセットSignaTR6Kと、手書きおよび印刷テキストセグメンテーションタスクのための新しいモデルアーキテクチャを導入する。 私たちの最高の設定は、以前の2つの異なるデータセットで17.9%、IoUスコアで7.3%のパフォーマンスを上回っています。 SignaTR6Kデータセットは、以下のリンクを通じてダウンロード可能である。

While analyzing scanned documents, handwritten text can overlap with printed text. This overlap causes difficulties during the optical character recognition (OCR) and digitization process of documents, and subsequently, hurts downstream NLP tasks. Prior research either focuses solely on the binary classification of handwritten text or performs a three-class segmentation of the document, i.e., recognition of handwritten, printed, and background pixels. This approach results in the assignment of overlapping handwritten and printed pixels to only one of the classes, and thus, they are not accounted for in the other class. Thus, in this research, we develop novel approaches to address the challenges of handwritten and printed text segmentation. Our objective is to recover text from different classes in their entirety, especially enhancing the segmentation performance on overlapping sections. To support this task, we introduce a new dataset, SignaTR6K, collected from real legal documents, as well as a new model architecture for the handwritten and printed text segmentation task. Our best configuration outperforms prior work on two different datasets by 17.9% and 7.3% on IoU scores. The SignaTR6K dataset is accessible for download via the following link: https://forms.office.com/r/2a5RDg7cAY.
翻訳日:2023-08-22 22:53:39 公開日:2023-08-19
# Hess et al へのコメント。 Phys Rev. Lett. {\displaystyle {\bf 130},207001 (2023)

Comment on Hess et al. Phys. Rev. Lett. {\bf 130}, 207001 (2023) ( http://arxiv.org/abs/2307.15813v3 )

ライセンス: Link先を確認
A. Antipov, W. Cole, K. Kalashnikov, F. Karimi, R. Lutchyn, C. Nayak, D. Pikulin, G. Winkler(参考訳) 本稿では,Hess et alで導入されたモデルについて述べる。 Phys Rev. Lett. bf 130, 207001 (2023) は位相的ギャッププロトコル (TGP) (Pikulin et al., arXiv:2103.12217, M. Aghaee et al., Phys) に失敗する。 a b 107, 245424 (2023)。 さらに,このモデルについて,tgpのベンチマーク方法について,より広い文脈で論じる。

In this comment, we show that the model introduced in Hess et al. Phys. Rev. Lett. {\bf 130}, 207001 (2023) fails the topological gap protocol (TGP) (Pikulin et al., arXiv:2103.12217 and M. Aghaee et al., Phys. Rev. B 107, 245424 (2023)). In addition, we discuss this model in the broader context of how the TGP has been benchmarked.
翻訳日:2023-08-22 22:48:14 公開日:2023-08-19
# G-Mix:フラットミニマを目指す総合的な混合学習フレームワーク

G-Mix: A Generalized Mixup Learning Framework Towards Flat Minima ( http://arxiv.org/abs/2308.03236v2 )

ライセンス: Link先を確認
Xingyu Li and Bo Tang(参考訳) ディープニューラルネットワーク(DNN)は、様々な複雑なタスクにおいて有望な結果を示している。 しかし、現在のDNNは、特にトレーニングデータに制限がある場合、過パラメータ化の課題に直面している。 DNNの一般化能力を高めるために、Mixup技術が人気を集めている。 しかし、それでも準最適結果を生み出す。 トレーニング損失ランドスケープのシャープネスとモデル一般化を結びつけるSAM(Sharpness-Aware Minimization)アプローチに着想を得て,DNNモデルのトレーニングにMixupとSAMの強みを組み合わせたGeneralized-Mixupという新たな学習フレームワークを提案する。 この理論解析は、G-Mixフレームワークが一般化をいかに促進するかを示す。 さらに、G-MixフレームワークでDNN性能をさらに最適化するために、バイナリG-Mixと分解G-Mixの2つの新しいアルゴリズムを導入する。 これらのアルゴリズムは、各サンプルのシャープネス感度に基づいてトレーニングデータを2つのサブセットに分割し、Mixupの"manifold intrusion"の問題に対処する。 理論的説明と実験結果の両方で、提案したBG-MixアルゴリズムとDG-Mixアルゴリズムは、複数のデータセットやモデルにわたるモデルの一般化をさらに促進し、最先端の性能を達成する。

Deep neural networks (DNNs) have demonstrated promising results in various complex tasks. However, current DNNs encounter challenges with over-parameterization, especially when there is limited training data available. To enhance the generalization capability of DNNs, the Mixup technique has gained popularity. Nevertheless, it still produces suboptimal outcomes. Inspired by the successful Sharpness-Aware Minimization (SAM) approach, which establishes a connection between the sharpness of the training loss landscape and model generalization, we propose a new learning framework called Generalized-Mixup, which combines the strengths of Mixup and SAM for training DNN models. The theoretical analysis provided demonstrates how the developed G-Mix framework enhances generalization. Additionally, to further optimize DNN performance with the G-Mix framework, we introduce two novel algorithms: Binary G-Mix and Decomposed G-Mix. These algorithms partition the training data into two subsets based on the sharpness-sensitivity of each example to address the issue of "manifold intrusion" in Mixup. Both theoretical explanations and experimental results reveal that the proposed BG-Mix and DG-Mix algorithms further enhance model generalization across multiple datasets and models, achieving state-of-the-art performance.
翻訳日:2023-08-22 22:26:12 公開日:2023-08-19
# AIに基づくスマートコントラクト作成に関する実証的研究

An Empirical Study of AI-based Smart Contract Creation ( http://arxiv.org/abs/2308.02955v2 )

ライセンス: Link先を確認
Rabimba Karanjai, Edward Li, Lei Xu, Weidong Shi(参考訳) chatgptやgoogle palm2のような大規模言語モデル(llm)をスマートコントラクト生成に導入することは、aiペアプログラマの最初の確立された例のようだ。 LLMは多数のオープンソーススマートコントラクトにアクセスでき、他のコード生成ツールよりもより広範なコードをSolidityで利用することができる。 スマートコントラクト生成のためのLCMの初期的および非公式な評価は有望であるが,これらのモデルの限界と利点を検討するためには,体系的な評価が必要である。 本研究の目的は,LLMによるスマートコントラクトのための生成コードの品質を評価することである。 また、LLMに供給される入力パラメータの品質と多様性の影響を評価することを目的とする。 この目的を達成するために、有効性、正確性、効率の観点から生成されたコードを評価する実験的なセットアップを作成しました。 我々の研究は、生成されたスマートコントラクトにセキュリティバグが導入されるという重要な証拠と、コードが影響を受けている全体的な品質と正確性を発見した。 しかし、我々は改善できる領域も特定した。 また,生成したスマートコントラクトコードのプロセス,品質,安全性を改善するためのいくつかの研究方向を提案する。

The introduction of large language models (LLMs) like ChatGPT and Google Palm2 for smart contract generation seems to be the first well-established instance of an AI pair programmer. LLMs have access to a large number of open-source smart contracts, enabling them to utilize more extensive code in Solidity than other code generation tools. Although the initial and informal assessments of LLMs for smart contract generation are promising, a systematic evaluation is needed to explore the limits and benefits of these models. The main objective of this study is to assess the quality of generated code provided by LLMs for smart contracts. We also aim to evaluate the impact of the quality and variety of input parameters fed to LLMs. To achieve this aim, we created an experimental setup for evaluating the generated code in terms of validity, correctness, and efficiency. Our study finds crucial evidence of security bugs getting introduced in the generated smart contracts as well as the overall quality and correctness of the code getting impacted. However, we also identified the areas where it can be improved. The paper also proposes several potential research directions to improve the process, quality and safety of generated smart contract codes.
翻訳日:2023-08-22 22:25:07 公開日:2023-08-19
# 一般化Few-shot Semantic Segmentationのためのプロトタイプカーネル学習とオープンセット前景知覚

Prototypical Kernel Learning and Open-set Foreground Perception for Generalized Few-shot Semantic Segmentation ( http://arxiv.org/abs/2308.04952v3 )

ライセンス: Link先を確認
Kai Huang, Feigege Wang, Ye Xi, Yutao Gao(参考訳) 汎用Few-shot Semantic Segmentation (GFSS)は、Few-shot Semantic Segmentation (FSS)を拡張して、評価中に未確認のクラスと見たクラスを同時にセグメントする。 以前の作品は、fssの制約された設定を排除するために追加の分岐または原型集約を利用する。 しかし,GFSSの低下に大きく寄与する表現分割と埋め込み偏見は,合成学的には考慮されていない。 上記の問題に対して,プロトタイプカーネル学習とオープンセット前景認識を併用することで対処する。 具体的には、学習可能なカーネル群が、モノクラスを担当する各カーネルとセグメンテーションを行うために提案されている。 そこで我々は,原型学習をベースクラスカーネルの更新にマージすることを検討した。 また、条件バイアスに基づく推論と協調する前景知覚モジュールを採用し、クラス非依存およびオープンセット前景検出を行い、埋め込み偏見を軽減し、新規なターゲットを背景として誤分類することを防止する。 さらに,本手法を,インクリメンタルストリームにおける新規クラスの知識を取り入れたCIFSS(Class Incremental Few-shot Semantic Segmentation)に適応させる。 PASCAL-5iとCOCO-20iデータセットの大規模な実験により、我々の手法は従来の最先端技術よりも優れた性能を示した。

Generalized Few-shot Semantic Segmentation (GFSS) extends Few-shot Semantic Segmentation (FSS) to simultaneously segment unseen classes and seen classes during evaluation. Previous works leverage additional branch or prototypical aggregation to eliminate the constrained setting of FSS. However, representation division and embedding prejudice, which heavily results in poor performance of GFSS, have not been synthetical considered. We address the aforementioned problems by jointing the prototypical kernel learning and open-set foreground perception. Specifically, a group of learnable kernels is proposed to perform segmentation with each kernel in charge of a stuff class. Then, we explore to merge the prototypical learning to the update of base-class kernels, which is consistent with the prototype knowledge aggregation of few-shot novel classes. In addition, a foreground contextual perception module cooperating with conditional bias based inference is adopted to perform class-agnostic as well as open-set foreground detection, thus to mitigate the embedding prejudice and prevent novel targets from being misclassified as background. Moreover, we also adjust our method to the Class Incremental Few-shot Semantic Segmentation (CIFSS) which takes the knowledge of novel classes in a incremental stream. Extensive experiments on PASCAL-5i and COCO-20i datasets demonstrate that our method performs better than previous state-of-the-art.
翻訳日:2023-08-22 22:16:16 公開日:2023-08-19
# ライブストリーミング製品認識のためのクロスビューセマンティクスアライメント

Cross-view Semantic Alignment for Livestreaming Product Recognition ( http://arxiv.org/abs/2308.04912v2 )

ライセンス: Link先を確認
Wenjie Yang, Yiyi Chen, Yan Li, Yanhua Cheng, Xudong Liu, Quan Chen, Han Li(参考訳) live commerceは、ライブストリーミングを通じて商品をオンラインで販売する行為だ。 オンライン製品に対する顧客のさまざまな要求は、Livestreaming Product Recognitionにさらなる課題をもたらす。 以前の作品は、ファッション服のデータやシングルモーダル入力の利用に重点を置いており、さまざまなカテゴリのマルチモーダルデータが存在する現実のシナリオを反映していない。 本稿では,34のカテゴリをカバーする大規模マルチモーダルデータセットであるLPR4Mについて述べる。 LPR4Mは様々なビデオとノイズモードのペアを含み、現実世界の問題に似た長い尾の分布を示す。 さらに、製品の画像やビデオビューから識別インスタンスの特徴を学習するために、cRoss-vIew semantiCalignedmEnt (RICE)モデルを提案する。 これはインスタンスレベルのコントラスト学習とクロスビューパッチレベルの機能伝達によって実現される。 クロスビューパッチ間の意味的不一致を罰するために,新しいパッチ特徴復元損失を提案する。 広範な実験がライスの有効性を実証し、データセットの多様性と表現力の重要性について洞察を与える。 データセットとコードはhttps://github.com/adxcreative/riceで入手できる。

Live commerce is the act of selling products online through live streaming. The customer's diverse demands for online products introduce more challenges to Livestreaming Product Recognition. Previous works have primarily focused on fashion clothing data or utilize single-modal input, which does not reflect the real-world scenario where multimodal data from various categories are present. In this paper, we present LPR4M, a large-scale multimodal dataset that covers 34 categories, comprises 3 modalities (image, video, and text), and is 50x larger than the largest publicly available dataset. LPR4M contains diverse videos and noise modality pairs while exhibiting a long-tailed distribution, resembling real-world problems. Moreover, a cRoss-vIew semantiC alignmEnt (RICE) model is proposed to learn discriminative instance features from the image and video views of the products. This is achieved through instance-level contrastive learning and cross-view patch-level feature propagation. A novel Patch Feature Reconstruction loss is proposed to penalize the semantic misalignment between cross-view patches. Extensive experiments demonstrate the effectiveness of RICE and provide insights into the importance of dataset diversity and expressivity. The dataset and code are available at https://github.com/adxcreative/RICE
翻訳日:2023-08-22 22:15:46 公開日:2023-08-19
# single-sentence reader : 回答位置バイアスに対する新しいアプローチ

Single-Sentence Reader: A Novel Approach for Addressing Answer Position Bias ( http://arxiv.org/abs/2308.04566v3 )

ライセンス: Link先を確認
Son Quoc Tran and Matt Kretchmar(参考訳) Machine Reading Comprehension (MRC)モデルは、素早い相関(研究コミュニティのデータセットバイアスやアノテーションアーティファクトとしても知られる)を利用する傾向がある。 したがって、これらのモデルは与えられたコンテキストと質問を完全に理解することなくMCCタスクを実行することができ、分散シフトに対するロバスト性が低い可能性があるため、望ましくない。 本論文は, 文脈の第一文のみにのみ回答がある学習者のかなりの割合が, 回答位置バイアスという概念を考察する。 MRCにおける解答位置バイアスに対処するための新しいアプローチとして,Single-Sentence Readerを提案する。 このアプローチを6つの異なるモデルを用いて実装し、その性能を徹底的に分析する。 驚くべきことに,提案するシングルセンテンスリーダは,従来のトレーニングセットでトレーニングされたモデルとほぼ一致し,その効果を実証する。 本研究は,シングルセンテンス読者が遭遇するいくつかの課題についても考察し,潜在的な解決策を提案する。

Machine Reading Comprehension (MRC) models tend to take advantage of spurious correlations (also known as dataset bias or annotation artifacts in the research community). Consequently, these models may perform the MRC task without fully comprehending the given context and question, which is undesirable since it may result in low robustness against distribution shift. This paper delves into the concept of answer-position bias, where a significant percentage of training questions have answers located solely in the first sentence of the context. We propose a Single-Sentence Reader as a new approach for addressing answer position bias in MRC. We implement this approach using six different models and thoroughly analyze their performance. Remarkably, our proposed Single-Sentence Readers achieve results that nearly match those of models trained on conventional training sets, proving their effectiveness. Our study also discusses several challenges our Single-Sentence Readers encounter and proposes a potential solution.
翻訳日:2023-08-22 22:14:32 公開日:2023-08-19
# AdaER: 継続的な生涯学習のための適応的経験リプレイアプローチ

AdaER: An Adaptive Experience Replay Approach for Continual Lifelong Learning ( http://arxiv.org/abs/2308.03810v2 )

ライセンス: Link先を確認
Xingyu Li, Bo Tang, Haifeng Li(参考訳) 連続的な生涯学習は、人間の学習にインスパイアされた機械学習フレームワークであり、学習者は連続的に新しい知識を継続的に獲得するように訓練される。 しかし、ストリーミングトレーニングデータの非定常的な性質は、新しいタスクが導入されたときに学習した知識を素早く忘れることを指す破滅的な忘れこととして知られる重要な課題を生んでいる。 経験的リプレイ(ER)のようないくつかのアプローチはこの問題を軽減するために提案されているが、特に自然で非常に困難なクラスの増加シナリオにおいて、その性能は制限されている。 本稿では,生涯学習の課題に対処するための新しいアルゴリズムであるadaptive-experience replay(adaer)を提案する。 AdaERはメモリリプレイとメモリ更新という2つのステージで構成されている。 メモリ再生の段階では、AdaERはコンテキスト的にキューされたメモリリコール(C-CMR)戦略を導入し、データとタスクの両方の観点から現在の入力データと最も矛盾するメモリを選択的に再生する。 さらに、AdaERはエントロピーバランス型貯水池サンプリング(E-BRS)戦略を導入し、情報エントロピーを最大化することでメモリバッファの性能を向上させる。 adaerの有効性を評価するために,教師付き生涯学習ベンチマーク実験を行い,特に授業インクリメンタル学習シナリオに着目した。 その結果,adaerは継続学習ベースラインを上回っており,破滅的な記憶の喪失や学習性能の向上に効果があることが示されている。

Continual lifelong learning is an machine learning framework inspired by human learning, where learners are trained to continuously acquire new knowledge in a sequential manner. However, the non-stationary nature of streaming training data poses a significant challenge known as catastrophic forgetting, which refers to the rapid forgetting of previously learned knowledge when new tasks are introduced. While some approaches, such as experience replay (ER), have been proposed to mitigate this issue, their performance remains limited, particularly in the class-incremental scenario which is considered natural and highly challenging. In this paper, we present a novel algorithm, called adaptive-experience replay (AdaER), to address the challenge of continual lifelong learning. AdaER consists of two stages: memory replay and memory update. In the memory replay stage, AdaER introduces a contextually-cued memory recall (C-CMR) strategy, which selectively replays memories that are most conflicting with the current input data in terms of both data and task. Additionally, AdaER incorporates an entropy-balanced reservoir sampling (E-BRS) strategy to enhance the performance of the memory buffer by maximizing information entropy. To evaluate the effectiveness of AdaER, we conduct experiments on established supervised continual lifelong learning benchmarks, specifically focusing on class-incremental learning scenarios. The results demonstrate that AdaER outperforms existing continual lifelong learning baselines, highlighting its efficacy in mitigating catastrophic forgetting and improving learning performance.
翻訳日:2023-08-22 22:13:55 公開日:2023-08-19
# AGIをまだ持っていない理由

Why We Don't Have AGI Yet ( http://arxiv.org/abs/2308.03598v2 )

ライセンス: Link先を確認
Peter Voss and Mladjan Jovanovic(参考訳) 当初のAIのビジョンは、2002年に"Artificial General Intelligence" (AGI) という用語で再認識された。 このビジョンは、人間と同じように、学習し、推論し、問題を解決することができる「シンキングマシン」コンピュータシステムを構築することである。これは、何十年もの間、この分野のほぼすべての人が実践してきた「ナローAI」アプローチとは対照的である。 いくつかの大規模取り組みが名目上AGI(特にDeepMind)に取り組んできたが、純粋に焦点を絞ったAGI開発分野は資金不足や宣伝が進んでいない。 真のAGIが人類に与えうる素晴らしい価値を考えると、これは驚きです。 この分野での努力の重大さに加えて、進歩を妨げる理論的および方法論的なミスステップもいくつかある。 我々は、純粋に統計的アプローチがAGIに結びつく可能性が低い理由を強調し、人間のような適応性と自律学習を達成するために必要ないくつかの重要な認知能力を特定する。 我々は、AGIの進展を確実に遅らせた社会技術的要因の調査を締めくくった。

The original vision of AI was re-articulated in 2002 via the term 'Artificial General Intelligence' or AGI. This vision is to build 'Thinking Machines' - computer systems that can learn, reason, and solve problems similar to the way humans do. This is in stark contrast to the 'Narrow AI' approach practiced by almost everyone in the field over the many decades. While several large-scale efforts have nominally been working on AGI (most notably DeepMind), the field of pure focused AGI development has not been well funded or promoted. This is surprising given the fantastic value that true AGI can bestow on humanity. In addition to the dearth of effort in this field, there are also several theoretical and methodical missteps that are hampering progress. We highlight why purely statistical approaches are unlikely to lead to AGI, and identify several crucial cognitive abilities required to achieve human-like adaptability and autonomous learning. We conclude with a survey of socio-technical factors that have undoubtedly slowed progress towards AGI.
翻訳日:2023-08-22 22:13:17 公開日:2023-08-19
# OmniZoomer: 高解像度で球体を移動してズームインする学習

OmniZoomer: Learning to Move and Zoom in on Sphere at High-Resolution ( http://arxiv.org/abs/2308.08114v2 )

ライセンス: Link先を確認
Zidong Cao, Hao Ai, Yan-Pei Cao, Ying Shan, Xiaohu Qie, Lin Wang(参考訳) 全方位画像(odis)が人気を博し、その大きな視野(fov)は、仮想現実のような没入環境において、視聴者が自由に視点の方向を選択する機会を提供する。 M\"obius変換は通常、ODIの移動とズームの機会を提供するために使用されるが、画像レベルにそれを適用すると、しばしばぼやけた効果やエイリアス問題が発生する。 本稿では,ODIの移動とズームのためのネットワークにM\"obius変換を組み込むための,新しい深層学習型アプローチである「textbf{OmniZoomer}」を提案する。 異なる条件下で様々な変換された特徴マップを学習することで、ネットワークは増大するエッジ曲率を扱うように拡張され、ぼやけた効果を緩和する。 さらに,エイリアシング問題に対処するために,二つの重要な要素を提案する。 まず,曲線を記述するための画素の欠如を補うため,高分解能(HR)空間における特徴写像を拡張し,空間インデックス生成モジュールを用いて変換インデックスマップを算出する。 第二に、ODIが本質的に球面空間で表現されていることを考慮し、より優れた球面相関を求めるために、インデックスマップとHR特徴写像を組み合わせた球面再サンプリングモジュールを提案する。 変換された特徴写像をデコードしてズームしたODIを出力する。 実験により, 提案手法は, 対象物への移動やズームインを柔軟に行うことで, hrおよび高品質のodisを生成できることを示した。 プロジェクトページはhttp://vlislab22.github.io/OmniZoomer/で公開されている。

Omnidirectional images (ODIs) have become increasingly popular, as their large field-of-view (FoV) can offer viewers the chance to freely choose the view directions in immersive environments such as virtual reality. The M\"obius transformation is typically employed to further provide the opportunity for movement and zoom on ODIs, but applying it to the image level often results in blurry effect and aliasing problem. In this paper, we propose a novel deep learning-based approach, called \textbf{OmniZoomer}, to incorporate the M\"obius transformation into the network for movement and zoom on ODIs. By learning various transformed feature maps under different conditions, the network is enhanced to handle the increasing edge curvatures, which alleviates the blurry effect. Moreover, to address the aliasing problem, we propose two key components. Firstly, to compensate for the lack of pixels for describing curves, we enhance the feature maps in the high-resolution (HR) space and calculate the transformed index map with a spatial index generation module. Secondly, considering that ODIs are inherently represented in the spherical space, we propose a spherical resampling module that combines the index map and HR feature maps to transform the feature maps for better spherical correlation. The transformed feature maps are decoded to output a zoomed ODI. Experiments show that our method can produce HR and high-quality ODIs with the flexibility to move and zoom in to the object of interest. Project page is available at http://vlislab22.github.io/OmniZoomer/.
翻訳日:2023-08-22 20:31:38 公開日:2023-08-19
# コンテキストメモリを用いたオンラインテキスト拡張によるストーリーの可視化

Story Visualization by Online Text Augmentation with Context Memory ( http://arxiv.org/abs/2308.07575v2 )

ライセンス: Link先を確認
Daechul Ahn, Daneul Kim, Gwangmo Song, Seung Hwan Kim, Honglak Lee, Dongyeop Kang, Jonghyun Choi(参考訳) ストーリービジュアライゼーション(sv)は、テキスト記述から視覚的詳細をレンダリングするだけでなく、複数の文章にまたがる長期的なコンテキストをエンコードするのも困難である。 それまでの取り組みは、文ごとに意味論的に関連のある画像を生成することに集中していたが、コンテキストが与えられた段落全体に広がり、コンテクスト的に説得力のある画像(例えば、正しいキャラクタやシーンの適切な背景)を生成することが課題である。 そこで本研究では,オンラインテキスト補完機能を備えた双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。 Pororo-SVとFlintstones-SVという2つの人気のあるSVベンチマークの広範な実験において、提案手法は、FID、文字F1、フレーム精度、BLEU-2/3、R-精度など、類似または少ない計算量で、芸術の状態を著しく上回っている。

Story visualization (SV) is a challenging text-to-image generation task for the difficulty of not only rendering visual details from the text descriptions but also encoding a long-term context across multiple sentences. While prior efforts mostly focus on generating a semantically relevant image for each sentence, encoding a context spread across the given paragraph to generate contextually convincing images (e.g., with a correct character or with a proper background of the scene) remains a challenge. To this end, we propose a novel memory architecture for the Bi-directional Transformer framework with an online text augmentation that generates multiple pseudo-descriptions as supplementary supervision during training for better generalization to the language variation at inference. In extensive experiments on the two popular SV benchmarks, i.e., the Pororo-SV and Flintstones-SV, the proposed method significantly outperforms the state of the arts in various metrics including FID, character F1, frame accuracy, BLEU-2/3, and R-precision with similar or less computational complexity.
翻訳日:2023-08-22 20:30:55 公開日:2023-08-19
# 具体化エージェントの指示のための文脈認識計画と環境認識メモリ

Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents ( http://arxiv.org/abs/2308.07241v2 )

ライセンス: Link先を確認
Byeonghwi Kim, Jinyeon Kim, Yuyeong Kim, Cheolhong Min, Jonghyun Choi(参考訳) 「水を飲む」などの家事課題には、物体の空間配置や過去の行動の結果に関する知識を維持することによって、ステップバイステップのアクションを計画する必要がある。 しかし、現在の具体化されたaiエージェントの知覚モデルは、そのような知識の欠如によって誤りを犯すことが多いが、前回の行動による環境の変化に関する知識のないエージェントやアルゴリズムプランナーの非完全学習に依存している。 この問題に対処するために,物体の空間配置をその状態(例えば,物体が移動したか否か)に計画・維持するための前回の動作の文脈情報を,視覚ナビゲーションとオブジェクトインタラクションの両方を改善する知覚モデルに組み込むcpem(context-aware planner and environment-aware memory)を提案する。 CPEMは,目視環境と目視環境の両方において,目視環境と目視環境の双方で(見当たらない環境において+10.70%まで)、挑戦的な対話的インストラクションを用いて,様々な指標のタスク成功性能を達成している。 ECLAIRという名前のテンプレートアクションを持つCPEMは、CVPR'23のEmbodied AI Workshopで第1回ジェネラリスト言語接地エージェントコンテストでも優勝した。

Accomplishing household tasks such as 'bringing a cup of water' requires planning step-by-step actions by maintaining knowledge about the spatial arrangement of objects and the consequences of previous actions. Perception models of the current embodied AI agents, however, often make mistakes due to a lack of such knowledge but rely on imperfect learning of imitating agents or an algorithmic planner without knowledge about the changed environment by the previous actions. To address the issue, we propose CPEM (Context-aware Planner and Environment-aware Memory) to incorporate the contextual information of previous actions for planning and maintaining spatial arrangement of objects with their states (e.g., if an object has been moved or not) in an environment to the perception model for improving both visual navigation and object interaction. We observe that CPEM achieves state-of-the-art task success performance in various metrics using a challenging interactive instruction following benchmark both in seen and unseen environments by large margins (up to +10.70% in unseen env.). CPEM with the templated actions, named ECLAIR, also won the 1st generalist language grounding agents challenge at Embodied AI Workshop in CVPR'23.
翻訳日:2023-08-22 20:30:31 公開日:2023-08-19
# 自然言語はグラフに必要なもの

Natural Language is All a Graph Needs ( http://arxiv.org/abs/2308.07134v2 )

ライセンス: Link先を確認
Ruosong Ye, Caiqi Zhang, Runhui Wang, Shuyuan Xu, Yongfeng Zhang(参考訳) ChatGPTのような大規模な事前学習言語モデルの出現は、人工知能の様々な研究分野に革命をもたらした。 トランスフォーマーベースの大規模言語モデル(LLM)は、コンピュータビジョンと自然言語処理の分野を統合するためにCNNとRNNを徐々に置き換えている。 画像やビデオ、テキストなど、比較的独立したデータと比較すると、graphは構造的および関係的な情報を含むデータの一種である。 一方、自然言語は最も表現力のある媒体の1つであり、複雑な構造を記述するのに優れている。 しかし、グラフ学習問題を生成言語モデリングフレームワークに組み込む作業は依然として非常に限られている。 大規模言語モデルの重要性が高まり続けており、グラフの基礎モデルとしてLLMがGNNを置き換えることができるかどうかを検討することが不可欠である。 本稿では、自然言語命令に基づいて高度にスケーラブルなプロンプトを体系的に設計するインストラクションGLM(Instruction-finetuned Graph Language Model)を提案する。 提案手法は, ogbn-arxiv, Cora, PubMedデータセット上のGNNベースラインを全て越え, 提案手法の有効性を実証し, グラフ機械学習の基礎モデルとして生成可能な大規模言語モデルに光を当てる。

The emergence of large-scale pre-trained language models, such as ChatGPT, has revolutionized various research fields in artificial intelligence. Transformers-based large language models (LLMs) have gradually replaced CNNs and RNNs to unify fields of computer vision and natural language processing. Compared with the data that exists relatively independently such as images, videos or texts, graph is a type of data that contains rich structural and relational information. Meanwhile, natural language, as one of the most expressive mediums, excels in describing complex structures. However, existing work on incorporating graph learning problems into the generative language modeling framework remains very limited. As the importance of large language models continues to grow, it becomes essential to explore whether LLMs can also replace GNNs as the foundation model for graphs. In this paper, we propose InstructGLM (Instruction-finetuned Graph Language Model), systematically design highly scalable prompts based on natural language instructions, and use natural language to describe the geometric structure and node features of the graph for instruction tuning an LLM to perform learning and inference on graphs in a generative manner. Our method exceeds all competitive GNN baselines on ogbn-arxiv, Cora and PubMed datasets, which demonstrates the effectiveness of our method and sheds light on generative large language models as the foundation model for graph machine learning.
翻訳日:2023-08-22 20:30:09 公開日:2023-08-19
# 画像検索とリグレードに必要なのは、グローバルな機能

Global Features are All You Need for Image Retrieval and Reranking ( http://arxiv.org/abs/2308.06954v2 )

ライセンス: Link先を確認
Shihao Shao, Kaifeng Chen, Arjun Karpur, Qinghua Cui, Andre Araujo, and Bingyi Cao(参考訳) 画像検索システムは従来の2段階のパラダイムを使用しており、グローバル機能を初期検索に活用し、局所的な特徴を再分類する。 しかし, この手法のスケーラビリティは, 再配置段階における局所的特徴マッチングによって生じる大きなストレージと計算コストによって制限されることが多い。 本稿では,グローバルな特徴を両段階に限定して活用し,精度を犠牲にすることなく効率を向上させる手法であるSuperGlobalを提案する。 SuperGlobalは検索システムに重要な拡張を導入し、特にグローバルな特徴抽出と再ランクプロセスに焦点を当てている。 抽出のために,広く使用されているArcFace損失と一般平均プール法を組み合わせた場合の準最適性能を特定し,GeMプーリングを改善するためにいくつかの新しいモジュールを提案する。 再ランキングの段階では,クエリとトップランク画像の全体的特徴を,少数の画像による機能改良のみを考慮して更新する新しい手法を導入することにより,非常に計算効率とメモリ効率が向上する。 我々の実験は、標準ベンチマークの最先端技術と比較して大幅に改善されている。 特に、Revisited Oxford+1M Hardデータセットでは、単一のステージの結果が7.1%向上し、2ステージのアップは64,865倍のスピードアップで3.7%に達した。 我々の2段階システムは、現在の単一ステージの状態を16.3%超え、最小時間オーバーヘッドで高性能画像検索システムにスケーラブルで正確な代替手段を提供する。 コード:https://github.com/ShihaoShao-GH/SuperGlobal。

Image retrieval systems conventionally use a two-stage paradigm, leveraging global features for initial retrieval and local features for reranking. However, the scalability of this method is often limited due to the significant storage and computation cost incurred by local feature matching in the reranking stage. In this paper, we present SuperGlobal, a novel approach that exclusively employs global features for both stages, improving efficiency without sacrificing accuracy. SuperGlobal introduces key enhancements to the retrieval system, specifically focusing on the global feature extraction and reranking processes. For extraction, we identify sub-optimal performance when the widely-used ArcFace loss and Generalized Mean (GeM) pooling methods are combined and propose several new modules to improve GeM pooling. In the reranking stage, we introduce a novel method to update the global features of the query and top-ranked images by only considering feature refinement with a small set of images, thus being very compute and memory efficient. Our experiments demonstrate substantial improvements compared to the state of the art in standard benchmarks. Notably, on the Revisited Oxford+1M Hard dataset, our single-stage results improve by 7.1%, while our two-stage gain reaches 3.7% with a strong 64,865x speedup. Our two-stage system surpasses the current single-stage state-of-the-art by 16.3%, offering a scalable, accurate alternative for high-performing image retrieval systems with minimal time overhead. Code: https://github.com/ShihaoShao-GH/SuperGlobal.
翻訳日:2023-08-22 20:29:42 公開日:2023-08-19
# TeCH: テキスト誘導による生活着衣の復元

TeCH: Text-guided Reconstruction of Lifelike Clothed Humans ( http://arxiv.org/abs/2308.08545v2 )

ライセンス: Link先を確認
Yangyi Huang, Hongwei Yi, Yuliang Xiu, Tingting Liao, Jiaxiang Tang, Deng Cai, Justus Thies(参考訳) 単一の画像から衣服を復元する研究の進歩にもかかわらず、「見えない領域」を高いレベルで正確に復元することは、注意を欠く未解決の課題である。 既存の方法は、ぼやけたテクスチャで非常に滑らかな裏面を生成することが多い。 しかし、個々の視覚属性を単一の画像から効果的に捉えるには、見えない領域(例えば、バックビュー)を再構築するのに十分か? 基礎モデルの力に触発され、TeCHは3D人間を再構築する 1) 記述的テキストプロンプト(例えば、衣服、色、髪型)は、衣服解析モデルと視覚質問回答(VQA)を介して自動的に生成される。 2)「説明不能」な外観を学習するパーソナライズされたテキスト・ツー・イメージ拡散モデル(t2i)。 高分解能な3d服を着た人間を安価に表現するために,dmtetに基づくハイブリッド3d表現を提案する。 記述的プロンプト+パーソナライズされたT2I拡散モデルによって導かれる3次元人間の形状とテクスチャは、マルチビュースコア蒸留サンプリング(SDS)と元の観測に基づく復元損失により最適化される。 TeCHは、一貫性と繊細なテクスチャと詳細なフルボディ形状を備えた高忠実な3D衣服を生産する。 定量的および定性的実験により、TeCHは再現精度とレンダリング品質の点で最先端の手法より優れていることが示された。 コードは https://huangyangyi.github.io/TeCH で公開されます。

Despite recent research advancements in reconstructing clothed humans from a single image, accurately restoring the "unseen regions" with high-level details remains an unsolved challenge that lacks attention. Existing methods often generate overly smooth back-side surfaces with a blurry texture. But how to effectively capture all visual attributes of an individual from a single image, which are sufficient to reconstruct unseen areas (e.g., the back view)? Motivated by the power of foundation models, TeCH reconstructs the 3D human by leveraging 1) descriptive text prompts (e.g., garments, colors, hairstyles) which are automatically generated via a garment parsing model and Visual Question Answering (VQA), 2) a personalized fine-tuned Text-to-Image diffusion model (T2I) which learns the "indescribable" appearance. To represent high-resolution 3D clothed humans at an affordable cost, we propose a hybrid 3D representation based on DMTet, which consists of an explicit body shape grid and an implicit distance field. Guided by the descriptive prompts + personalized T2I diffusion model, the geometry and texture of the 3D humans are optimized through multi-view Score Distillation Sampling (SDS) and reconstruction losses based on the original observation. TeCH produces high-fidelity 3D clothed humans with consistent & delicate texture, and detailed full-body geometry. Quantitative and qualitative experiments demonstrate that TeCH outperforms the state-of-the-art methods in terms of reconstruction accuracy and rendering quality. The code will be publicly available for research purposes at https://huangyangyi.github.io/TeCH
翻訳日:2023-08-22 20:18:36 公開日:2023-08-19
# スパースビューCTのためのグローバル表現の拡散学習

Learning to Distill Global Representation for Sparse-View CT ( http://arxiv.org/abs/2308.08463v2 )

ライセンス: Link先を確認
Zilong Li, Chenglong Ma, Jie Chen, Junping Zhang, Hongming Shan(参考訳) CT (Sparse-view Computed Tomography) は、少量のプロジェクションを用いて、患者の放射線線量を大幅に減少させ、データ取得を加速させる。 しかし、復元された画像は強力なアーティファクトに苦しめられ、診断価値が大幅に制限された。 スパースビューCTの最近の傾向は、情報回復のために生データに目を向ける。 結果として得られた二重ドメインメソッドは、特に超スパースなビューシナリオにおいて二次的なアーティファクトに悩まされ、他のスキャナやプロトコールへの一般化は非常に制限されている。 重要な疑問が生まれます: 画像後処理メソッドは限界に達しましたか? 私たちの答えはまだだ。 本稿では,画像ポストプロセッシング手法を柔軟に活用し,sparse-view ctのためのグローバル表現(glore)蒸留フレームワークglorediを提案する。 まず,Fourier畳み込みによるGloReの学習を提案する。 第2に,全視点画像のみを監督に使用する手法と異なり,従来の文献では見当たらない中間視点画像からグロアを蒸留する手法を提案する。 GloReの蒸留の成功は、GloReの方向を整列する表現方向蒸留と、臨床的に重要な詳細を得るためのバンドパス特異的コントラスト蒸留の2つの重要な要素に起因している。 広汎な実験は、二重ドメインを含む最先端の手法よりもGloReDiの方が優れていることを示した。 ソースコードはhttps://github.com/longzilicart/GloReDiで入手できる。

Sparse-view computed tomography (CT) -- using a small number of projections for tomographic reconstruction -- enables much lower radiation dose to patients and accelerated data acquisition. The reconstructed images, however, suffer from strong artifacts, greatly limiting their diagnostic value. Current trends for sparse-view CT turn to the raw data for better information recovery. The resultant dual-domain methods, nonetheless, suffer from secondary artifacts, especially in ultra-sparse view scenarios, and their generalization to other scanners/protocols is greatly limited. A crucial question arises: have the image post-processing methods reached the limit? Our answer is not yet. In this paper, we stick to image post-processing methods due to great flexibility and propose global representation (GloRe) distillation framework for sparse-view CT, termed GloReDi. First, we propose to learn GloRe with Fourier convolution, so each element in GloRe has an image-wide receptive field. Second, unlike methods that only use the full-view images for supervision, we propose to distill GloRe from intermediate-view reconstructed images that are readily available but not explored in previous literature. The success of GloRe distillation is attributed to two key components: representation directional distillation to align the GloRe directions, and band-pass-specific contrastive distillation to gain clinically important details. Extensive experiments demonstrate the superiority of the proposed GloReDi over the state-of-the-art methods, including dual-domain ones. The source code is available at https://github.com/longzilicart/GloReDi.
翻訳日:2023-08-22 20:18:09 公開日:2023-08-19
# 準エルミート拡張SSHモデル

Quasi-Hermitian extended SSH models ( http://arxiv.org/abs/2308.09874v1 )

ライセンス: Link先を確認
Iao-Fai Io, Cheng-Yuan Huang, Jhih-Shih You, Hao-Chun Chang, and Hsien-chung Kao(参考訳) 非エルミート拡張 Su Schrieffer Heeger モデルの準エルミート極限を考えると、ホッピング振幅は特定の関係に従うので、系は対応するエルミートに写像され、そのエネルギースペクトルは完全に実である。 エルミートの場合と類似して、修正された巻数を用いて境界上のエッジ状態の総数を決定し、修正されたバルク境界対応を達成できる。 非エルミート系における皮膚効果のため、スペクトル巻線数はそのような系をさらに分類するために用いられる必要がある。 エッジ状態が左境界と右境界にどのように分散するかを規定する。 次に、準エルミート条件が破られた場合の基準をネイティブに拡張する。 私たちが考慮しているすべてのケースにおいて、矛盾は見つからない。

We consider the quasi Hermitian limit of a non-Hermitian extended Su Schrieffer Heeger model, in which the hopping amplitudes obey a specific relation so that the system may be mapped to a corresponding Hermitian one and its energy spectrum is completely real. Analogous to the Hermitian case, one may use the modified winding number to determine the total number of edge states on the boundaries to achieve a modified bulk-boundary correspondence. Due to the skin effect in nonHermitian systems, the spectral winding numbers must be used to classify such systems further. It dictates how the edge states would be distributed over the left and right boundaries. We then naively extend the criteria to the cases that the quasi Hermitian condition is violated. For all the cases that we consider, no inconsistency has been found.
翻訳日:2023-08-22 19:39:55 公開日:2023-08-19
# Skill Transformer:モバイル操作のためのモノリシックポリシー

Skill Transformer: A Monolithic Policy for Mobile Manipulation ( http://arxiv.org/abs/2308.09873v1 )

ライセンス: Link先を確認
Xiaoyu Huang, Dhruv Batra, Akshara Rai, Andrew Szot(参考訳) Skill Transformerは,条件付きシーケンスモデリングとスキルモジュール性を組み合わせた長軸ロボットタスクの解法である。 Skill Transformerは、ロボットの自我中心的かつ先天的な観察に基づいて、高度なスキル(ナビゲーション、ピック、配置など)と全身低レベルのアクション(ベースとアームの動作など)の両方を予測するために、トランスフォーマーアーキテクチャとデモトラジェクトリを使用してエンドツーエンドで訓練される。 スキル予測モジュールを通じてタスク全体の構成性とモジュール化を維持しながら、低レベルのアクションを推論し、モジュール的なアプローチで一般的なハンドオフエラーを回避する。 我々は,Skill Transformerを具体的再配置ベンチマークでテストし,新しいシナリオにおける堅牢なタスク計画と低レベル制御を実現し,ハード再配置問題におけるベースラインよりも2.5倍高い成功率を達成した。

We present Skill Transformer, an approach for solving long-horizon robotic tasks by combining conditional sequence modeling and skill modularity. Conditioned on egocentric and proprioceptive observations of a robot, Skill Transformer is trained end-to-end to predict both a high-level skill (e.g., navigation, picking, placing), and a whole-body low-level action (e.g., base and arm motion), using a transformer architecture and demonstration trajectories that solve the full task. It retains the composability and modularity of the overall task through a skill predictor module while reasoning about low-level actions and avoiding hand-off errors, common in modular approaches. We test Skill Transformer on an embodied rearrangement benchmark and find it performs robust task planning and low-level control in new scenarios, achieving a 2.5x higher success rate than baselines in hard rearrangement problems.
翻訳日:2023-08-22 19:39:42 公開日:2023-08-19
# 幾何学の逆レンダリングのための位相微分の理論

A Theory of Topological Derivatives for Inverse Rendering of Geometry ( http://arxiv.org/abs/2308.09865v1 )

ライセンス: Link先を確認
Ishit Mehta, Manmohan Chandraker, Ravi Ramamoorthi(参考訳) 画像汎関数の変分最適化のために位相微分を用いて離散トポロジー変化を可能にする微分可能曲面進化の理論的枠組みを提案する。 幾何学の逆レンダリングの以前の方法は位相変化のシルエット勾配に依存するが、そのような信号はばらばらである。 対照的に、この理論は、消滅する穴と位相を画像強度の変化に関連付ける位相微分を導出する。 その結果、ホールや位相核生成の形で微分可能な形状摂動が可能となる。 本研究では,2次元の閉曲線と3次元の曲面を最適化して提案理論を検証し,現在の手法の限界を考察し,画像ベクトル化,テキストプロンプトからのベクトルグラフ生成,形状アンビグラムの単一画像再構成,マルチビュー3D再構成などの改良的な応用を可能にする。

We introduce a theoretical framework for differentiable surface evolution that allows discrete topology changes through the use of topological derivatives for variational optimization of image functionals. While prior methods for inverse rendering of geometry rely on silhouette gradients for topology changes, such signals are sparse. In contrast, our theory derives topological derivatives that relate the introduction of vanishing holes and phases to changes in image intensity. As a result, we enable differentiable shape perturbations in the form of hole or phase nucleation. We validate the proposed theory with optimization of closed curves in 2D and surfaces in 3D to lend insights into limitations of current methods and enable improved applications such as image vectorization, vector-graphics generation from text prompts, single-image reconstruction of shape ambigrams and multi-view 3D reconstruction.
翻訳日:2023-08-22 19:39:23 公開日:2023-08-19
# 言語障壁を打破する - HindiとMarathiのための質問回答データセット

Breaking Language Barriers: A Question Answering Dataset for Hindi and Marathi ( http://arxiv.org/abs/2308.09862v1 )

ライセンス: Link先を確認
Maithili Sabane and Onkar Litake and Aman Chadha(参考訳) ディープラーニングの最近の進歩は、データに対する待ちきれない食欲を持つ高度に洗練されたシステムの開発につながった。 一方、低リソース言語のための優れたディープラーニングモデルの構築は、依然として難しい課題です。 本稿では,ヒンディー語とマラティ語という2つの言語を対象とした質問応答データセットの開発に着目する。 ヒンディー語は3億4500万人の話者を持つ世界第3位の言語であり、マラティ語は世界第11位の言語であり、8320万人の話者を持つにもかかわらず、どちらの言語も効率的な質問応答システムを構築するための限られたリソースに直面している。 データ不足の課題に取り組むため,我々は squad 2.0 データセットをhindi と marathi に変換する新しい手法を開発した。 これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。 各種アーキテクチャのデータセットを評価し、ヒンディー語とマラティー語の両方で最高の性能のモデルをリリースし、これらの言語の研究をさらに促進する。 類似性ツールを活用することで、多様な言語でデータセットを作成する可能性を秘め、様々な言語文脈における自然言語の理解を深める。 微調整されたモデル、コード、データセットが公開される予定だ。

The recent advances in deep-learning have led to the development of highly sophisticated systems with an unquenchable appetite for data. On the other hand, building good deep-learning models for low-resource languages remains a challenging task. This paper focuses on developing a Question Answering dataset for two such languages- Hindi and Marathi. Despite Hindi being the 3rd most spoken language worldwide, with 345 million speakers, and Marathi being the 11th most spoken language globally, with 83.2 million speakers, both languages face limited resources for building efficient Question Answering systems. To tackle the challenge of data scarcity, we have developed a novel approach for translating the SQuAD 2.0 dataset into Hindi and Marathi. We release the largest Question-Answering dataset available for these languages, with each dataset containing 28,000 samples. We evaluate the dataset on various architectures and release the best-performing models for both Hindi and Marathi, which will facilitate further research in these languages. Leveraging similarity tools, our method holds the potential to create datasets in diverse languages, thereby enhancing the understanding of natural language across varied linguistic contexts. Our fine-tuned models, code, and dataset will be made publicly available.
翻訳日:2023-08-22 19:39:05 公開日:2023-08-19
# 集中検索モデルに対するブラックボックス逆攻撃:多視点コントラスト学習法

Black-box Adversarial Attacks against Dense Retrieval Models: A Multi-view Contrastive Learning Method ( http://arxiv.org/abs/2308.09861v1 )

ライセンス: Link先を確認
Yu-An Liu, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Wei Chen, Yixing Fan, Xueqi Cheng(参考訳) ニューラルランキングモデル(NRM)と高密度検索モデル(DR)は、全体的な検索性能を大幅に改善した。 他の分野におけるディープラーニングベースのアプローチの堅牢性が証明されていないことに加え、コア検索問題に対するディープラーニングベースのアプローチの堅牢性への関心が高まっている。 これまで開発されてきた敵攻撃法は主にNRMの攻撃に重点を置いており、DRモデルの堅牢性にはほとんど注目されていない。 本稿では,敵探索攻撃(AREA)タスクについて紹介する。 AREAタスクは、クエリに応答してDRモデルによって取得された候補文書の初期セットの外側にあるターゲットドキュメントを取得するためにDRモデルを騙すことを目的としている。 我々は,現実の検索エンジンでは現実的な,意思決定に基づくブラックボックスの敵対的設定を考える。 AREA タスクに対処するために、まず NRM 向けに設計された既存の敵攻撃手法を用いる。 これまでnrms攻撃で報告された有望な結果は、drモデルに一般化しないことがわかりました。 我々は,nrmの相互作用に焦点をあてたアーキテクチャに一般化可能性の欠如を特徴づける。 DRモデルは、粗い粒度の表現を優先する異なる表現中心アーキテクチャに従う。 マルチビュー表現空間における対照的な学習問題としてDRモデルに対する攻撃を形式化する。 中心となる考え方は、ビューワイズ監視信号を介して、対象文書の各ビュー表現とその対応するビューア間の一貫性を促進することである。 実験結果から,提案手法はDRモデルに不明瞭なテキスト摂動を伴い,既存の攻撃戦略を著しく上回ることを示す。

Neural ranking models (NRMs) and dense retrieval (DR) models have given rise to substantial improvements in overall retrieval performance. In addition to their effectiveness, and motivated by the proven lack of robustness of deep learning-based approaches in other areas, there is growing interest in the robustness of deep learning-based approaches to the core retrieval problem. Adversarial attack methods that have so far been developed mainly focus on attacking NRMs, with very little attention being paid to the robustness of DR models. In this paper, we introduce the adversarial retrieval attack (AREA) task. The AREA task is meant to trick DR models into retrieving a target document that is outside the initial set of candidate documents retrieved by the DR model in response to a query. We consider the decision-based black-box adversarial setting, which is realistic in real-world search engines. To address the AREA task, we first employ existing adversarial attack methods designed for NRMs. We find that the promising results that have previously been reported on attacking NRMs, do not generalize to DR models: these methods underperform a simple term spamming method. We attribute the observed lack of generalizability to the interaction-focused architecture of NRMs, which emphasizes fine-grained relevance matching. DR models follow a different representation-focused architecture that prioritizes coarse-grained representations. We propose to formalize attacks on DR models as a contrastive learning problem in a multi-view representation space. The core idea is to encourage the consistency between each view representation of the target document and its corresponding viewer via view-wise supervision signals. Experimental results demonstrate that the proposed method can significantly outperform existing attack strategies in misleading the DR model with small indiscernible text perturbations.
翻訳日:2023-08-22 19:38:44 公開日:2023-08-19
# SwinLSTM:Swin TransformerとLSTMを用いた時空間予測精度の向上

SwinLSTM:Improving Spatiotemporal Prediction Accuracy using Swin Transformer and LSTM ( http://arxiv.org/abs/2308.09891v1 )

ライセンス: Link先を確認
Song Tang, Chuang Li, Pu Zhang, RongNian Tang(参考訳) 時空間依存を捉えるためにCNNとRNNを統合することは時空間予測タスクの一般的な戦略である。 しかし、局所的な空間情報を学ぶcnnの特性は、時空間依存を捉える際の効率を低下させ、予測精度を低下させる。 本稿では,swainトランスフォーマーブロックと簡易lstmを統合した新しいリカレントセルであるswainlstmと,convlstmの畳み込み構造を自己着脱機構に置き換える拡張型lstmを提案する。 さらに,時空間予測のコアとしてSwinLSTMセルを用いたネットワークを構築する。 SwinLSTMは独自のトリックを使わずに、MNIST、Human3.6m、TaxiBJ、KTHデータセットの最先端の手法より優れている。 特に、ConvLSTMに比べて予測精度が大幅に向上している。 比較実験の結果,世界空間依存の学習は,時空間依存を捉えるモデルにとってより有利であることが示された。 swinlstmが時空間予測精度の向上を促進するための確固たるベースラインとなることを願っている。 コードはhttps://github.com/SongTang-x/SwinLSTMで公開されている。

Integrating CNNs and RNNs to capture spatiotemporal dependencies is a prevalent strategy for spatiotemporal prediction tasks. However, the property of CNNs to learn local spatial information decreases their efficiency in capturing spatiotemporal dependencies, thereby limiting their prediction accuracy. In this paper, we propose a new recurrent cell, SwinLSTM, which integrates Swin Transformer blocks and the simplified LSTM, an extension that replaces the convolutional structure in ConvLSTM with the self-attention mechanism. Furthermore, we construct a network with SwinLSTM cell as the core for spatiotemporal prediction. Without using unique tricks, SwinLSTM outperforms state-of-the-art methods on Moving MNIST, Human3.6m, TaxiBJ, and KTH datasets. In particular, it exhibits a significant improvement in prediction accuracy compared to ConvLSTM. Our competitive experimental results demonstrate that learning global spatial dependencies is more advantageous for models to capture spatiotemporal dependencies. We hope that SwinLSTM can serve as a solid baseline to promote the advancement of spatiotemporal prediction accuracy. The codes are publicly available at https://github.com/SongTang-x/SwinLSTM.
翻訳日:2023-08-22 19:31:24 公開日:2023-08-19
# 帰納的バイアス学習: 大きな言語モデルでコードモデルを生成する

Inductive-bias Learning: Generating Code Models with Large Language Model ( http://arxiv.org/abs/2308.09890v1 )

ライセンス: Link先を確認
Toma Tanaka, Naofumi Emoto, and Tsukasa Yumibayashi(参考訳) 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれる能力によって注目を集めている。 ICL は LLM のパラメータを更新することなく,単にトレーニングデータをプロンプトに入力するだけで,ルール ``in the context''' に基づいて高精度な推論を行うことができる。 ICLは未解決の質問が多数ある発展分野であるが、LSM自身は推論モデルとして機能し、『帰納的バイアス』を明確に示さずに推論を実現するように見える。 一方、コード生成はLLMのハイライトアプリケーションでもある。 コード生成の精度は劇的に改善され、エンジニア以外の者でも適切なプロンプトを作れば、望ましいタスクを実行するためのコードを生成することができる。 本稿では、ICLの技法とコード生成を組み合わせた「インダクティブバイアス学習(IBL)」と呼ばれる新しい「学習」手法を提案する。 IBLの考え方は単純です。 ICLと同様に、IBLはトレーニングデータをプロンプトに入力し、 ``contextual understanding'' から推論に必要な構造("`Code Model''" と呼ぶ)を持つコードを出力する。 一見単純なアプローチであるにもかかわらず、iblは、iclに固有の```inductive bias''と、コード生成の``readability and explanationability''の両方を包含している。 驚くべきことに、生成されたコードモデルでは予測精度が、ICLや代表的な機械学習モデルに匹敵する場合もある。 私たちのILBコードはオープンソースです。

Large Language Models(LLMs) have been attracting attention due to a ability called in-context learning(ICL). ICL, without updating the parameters of a LLM, it is possible to achieve highly accurate inference based on rules ``in the context'' by merely inputting a training data into the prompt. Although ICL is a developing field with many unanswered questions, LLMs themselves serves as a inference model, seemingly realizing inference without explicitly indicate ``inductive bias''. On the other hand, a code generation is also a highlighted application of LLMs. The accuracy of code generation has dramatically improved, enabling even non-engineers to generate code to perform the desired tasks by crafting appropriate prompts. In this paper, we propose a novel ``learning'' method called an ``Inductive-Bias Learning (IBL)'', which combines the techniques of ICL and code generation. An idea of IBL is straightforward. Like ICL, IBL inputs a training data into the prompt and outputs a code with a necessary structure for inference (we referred to as ``Code Model'') from a ``contextual understanding''. Despite being a seemingly simple approach, IBL encompasses both a ``property of inference without explicit inductive bias'' inherent in ICL and a ``readability and explainability'' of the code generation. Surprisingly, generated Code Models have been found to achieve predictive accuracy comparable to, and in some cases surpassing, ICL and representative machine learning models. Our IBL code is open source: https://github.com/fuyu-quant/IBLM
翻訳日:2023-08-22 19:31:03 公開日:2023-08-19
# duaw: 安定拡散のカスタマイズに対するデータフリーな普遍的敵対的ウォーターマーク

DUAW: Data-free Universal Adversarial Watermark against Stable Diffusion Customization ( http://arxiv.org/abs/2308.09889v1 )

ライセンス: Link先を確認
Xiaoyu Ye, Hao Huang, Jiaqi An, Yongtao Wang(参考訳) 安定拡散(SD)カスタマイズアプローチにより、ユーザはSDモデルの出力をパーソナライズでき、AIアートの柔軟性と多様性を大幅に向上できる。 しかし、著作権のある画像から特定のスタイルや主題を盗み取ることも許されており、著作権侵害の可能性を懸念している。 この問題に対処するため,SDモデルのさまざまなバージョンにまたがるさまざまなカスタマイズアプローチから,無数の著作権付き画像を保護することを目的とした,目に見えないデータ自由なユニバーサル・逆向き透かし (DUAW) を提案する。 まず、SDカスタマイズ時の変分オートエンコーダを破壊するように設計されている。 第2に、DUAWはデータフリーのコンテキストで動作し、LLM(Large Language Model)と事前訓練されたSDモデルによって生成された合成画像に基づいて訓練される。 このアプローチは、著作権付き画像を直接扱う必要性を回避し、その機密性を維持する。 ひとたび作成されると、duawは大量の著作権付き画像に統合され、カスタマイズされたsdモデルによって生成された画像にかなりの歪みを生じさせることで保護措置となる。 実験により、DUAWは微調整SDモデルの出力を効果的に歪め、人間の観察者と単純な分類者の両方に識別できることを示した。

Stable Diffusion (SD) customization approaches enable users to personalize SD model outputs, greatly enhancing the flexibility and diversity of AI art. However, they also allow individuals to plagiarize specific styles or subjects from copyrighted images, which raises significant concerns about potential copyright infringement. To address this issue, we propose an invisible data-free universal adversarial watermark (DUAW), aiming to protect a myriad of copyrighted images from different customization approaches across various versions of SD models. First, DUAW is designed to disrupt the variational autoencoder during SD customization. Second, DUAW operates in a data-free context, where it is trained on synthetic images produced by a Large Language Model (LLM) and a pretrained SD model. This approach circumvents the necessity of directly handling copyrighted images, thereby preserving their confidentiality. Once crafted, DUAW can be imperceptibly integrated into massive copyrighted images, serving as a protective measure by inducing significant distortions in the images generated by customized SD models. Experimental results demonstrate that DUAW can effectively distort the outputs of fine-tuned SD models, rendering them discernible to both human observers and a simple classifier.
翻訳日:2023-08-22 19:30:37 公開日:2023-08-19
# ベイズ実験設計における期待情報ゲインの勾配の推定について

On Estimating the Gradient of the Expected Information Gain in Bayesian Experimental Design ( http://arxiv.org/abs/2308.09888v1 )

ライセンス: Link先を確認
Ziqiao Ao, Jinglai Li(参考訳) ベイズ推定のための最適実験条件を見つけることを目的としたベイズ実験設計(BED)は通常、期待情報ゲイン(EIG)を最適化するために行われる。 勾配情報はしばしば効率的なEIG最適化のために必要であり、その結果、BED問題にはEIGの勾配を推定する能力が不可欠である。 本研究の目的は, 確率的勾配降下アルゴリズムと組み合わせることで, eigの効率的な最適化を実現するために, eigの勾配推定法を開発することである。 具体的には、まず、設計変数に関するEIG勾配の後方予測表現を導入する。 そこで本研究では,EIG勾配の推定手法として,マルコフ・チェイン・モンテカルロ (MCMC) が生成した後続サンプルを用いてEIG勾配を推定するUEEG-MCMCと,パラメータサンプルを繰り返し使用して高いシミュレーション効率を実現するBEEG-APを提案する。 理論的解析および数値解析により、UEEG-MCMCは実際のEIG値を再び堅牢にし、BEEG-APは最適化されるEIG値が小さい場合により効率的であることが示された。 さらに,これらの手法は,数値実験でよく用いられるベンチマークよりも優れた性能を示す。

Bayesian Experimental Design (BED), which aims to find the optimal experimental conditions for Bayesian inference, is usually posed as to optimize the expected information gain (EIG). The gradient information is often needed for efficient EIG optimization, and as a result the ability to estimate the gradient of EIG is essential for BED problems. The primary goal of this work is to develop methods for estimating the gradient of EIG, which, combined with the stochastic gradient descent algorithms, result in efficient optimization of EIG. Specifically, we first introduce a posterior expected representation of the EIG gradient with respect to the design variables. Based on this, we propose two methods for estimating the EIG gradient, UEEG-MCMC that leverages posterior samples generated through Markov Chain Monte Carlo (MCMC) to estimate the EIG gradient, and BEEG-AP that focuses on achieving high simulation efficiency by repeatedly using parameter samples. Theoretical analysis and numerical studies illustrate that UEEG-MCMC is robust agains the actual EIG value, while BEEG-AP is more efficient when the EIG value to be optimized is small. Moreover, both methods show superior performance compared to several popular benchmarks in our numerical experiments.
翻訳日:2023-08-22 19:30:13 公開日:2023-08-19
# 半監督群集計数における不確かさの校正

Calibrating Uncertainty for Semi-Supervised Crowd Counting ( http://arxiv.org/abs/2308.09887v1 )

ライセンス: Link先を確認
Chen Li, Xiaoling Hu, Shahira Abousamra, Chao Chen(参考訳) 半監督された群衆のカウントは重要だが挑戦的なタスクである。 一般的なアプローチは、ラベルのないデータに対する擬似ラベルを反復的に生成し、トレーニングセットに追加することです。 鍵となるのは、信頼できる擬似ラベルを選択するのに不確実性を使うことだ。 本稿では,群衆数量に対するモデル不確かさを校正する新しい手法を提案する。 本手法では,教師付き不確実性推定手法を用いてサロゲート関数によるモデル学習を行う。 これにより、トレーニングを通じて不確実性が適切に制御される。 本研究では,群衆カウントタスクにおける不確かさを近似するために,マッチングに基づくパッチワイズサロゲート関数を提案する。 提案手法は, 適切な粒度を維持しつつ, 詳細に十分な注意を払っている。 提案手法は,信頼性の高い不確実性推定,高品質な擬似ラベル生成,および半教師付き群集カウントにおける最先端性能を実現する。

Semi-supervised crowd counting is an important yet challenging task. A popular approach is to iteratively generate pseudo-labels for unlabeled data and add them to the training set. The key is to use uncertainty to select reliable pseudo-labels. In this paper, we propose a novel method to calibrate model uncertainty for crowd counting. Our method takes a supervised uncertainty estimation strategy to train the model through a surrogate function. This ensures the uncertainty is well controlled throughout the training. We propose a matching-based patch-wise surrogate function to better approximate uncertainty for crowd counting tasks. The proposed method pays a sufficient amount of attention to details, while maintaining a proper granularity. Altogether our method is able to generate reliable uncertainty estimation, high quality pseudolabels, and achieve state-of-the-art performance in semisupervised crowd counting.
翻訳日:2023-08-22 19:29:49 公開日:2023-08-19
# 変圧器を用いた多変量時系列化フレームワーク : 生活予測の残存事例

A Transformer-based Framework For Multi-variate Time Series: A Remaining Useful Life Prediction Use Case ( http://arxiv.org/abs/2308.09884v1 )

ライセンス: Link先を確認
Oluwaseyi Ogunfowora, Homayoun Najjaran(参考訳) 近年、大規模言語モデル(llm)が世界的な注目を浴び、自然言語処理の分野に革命をもたらした。 LLMの有効性に起因する要因の1つは、トレーニングやトランスフォーマーに使用されるモデルアーキテクチャである。 トランスフォーマーモデルは、時系列データがシーケンシャルであるため、シーケンシャルデータにおけるコンテキスト特徴のキャプチャに優れており、より効率的な時系列データ予測のためにトランスフォーマーモデルを利用することができる。 予後予測の分野は、システムの健康管理と適切なメンテナンス計画に不可欠である。 マシンの残りの有用寿命(RUL)の信頼性評価は、大幅なコスト削減の可能性を秘めている。 これには、突然の機械故障を避けること、機器の使用を最大化すること、意思決定支援システム(DSS)として機能することが含まれる。 本研究は,多変量時系列予測のためのエンコーダ変換アーキテクチャベースのフレームワークを提案する。 C-MAPPSベンチマークデータセットの4セットすべてに対して提案手法の有効性を検証した。 トランスフォーマの知識と応用を自然言語領域から時系列に効果的に移行するために,モデル固有の3つの実験を行った。 また, 機械寿命の初期および劣化経路のモデル認識を可能にするため, 本研究で初めて拡張ウィンドウ法が提案され, スライドウインドウ法と比較され, エンコーダトランスモデルの性能が大幅に向上した。 最後に、提案したエンコーダ・トランスフォーマーモデルの性能をテストデータセットで評価し、文献中の13の最先端(SOTA)モデルと比較し、すべてのデータセットで次のベストモデルよりも平均137.65%向上した。

In recent times, Large Language Models (LLMs) have captured a global spotlight and revolutionized the field of Natural Language Processing. One of the factors attributed to the effectiveness of LLMs is the model architecture used for training, transformers. Transformer models excel at capturing contextual features in sequential data since time series data are sequential, transformer models can be leveraged for more efficient time series data prediction. The field of prognostics is vital to system health management and proper maintenance planning. A reliable estimation of the remaining useful life (RUL) of machines holds the potential for substantial cost savings. This includes avoiding abrupt machine failures, maximizing equipment usage, and serving as a decision support system (DSS). This work proposed an encoder-transformer architecture-based framework for multivariate time series prediction for a prognostics use case. We validated the effectiveness of the proposed framework on all four sets of the C-MAPPS benchmark dataset for the remaining useful life prediction task. To effectively transfer the knowledge and application of transformers from the natural language domain to time series, three model-specific experiments were conducted. Also, to enable the model awareness of the initial stages of the machine life and its degradation path, a novel expanding window method was proposed for the first time in this work, it was compared with the sliding window method, and it led to a large improvement in the performance of the encoder transformer model. Finally, the performance of the proposed encoder-transformer model was evaluated on the test dataset and compared with the results from 13 other state-of-the-art (SOTA) models in the literature and it outperformed them all with an average performance increase of 137.65% over the next best model across all the datasets.
翻訳日:2023-08-22 19:29:35 公開日:2023-08-19
# Flamingo: プライベートフェデレーションラーニングへの応用を目的としたマルチロードシングルサーバセキュアアグリゲーション

Flamingo: Multi-Round Single-Server Secure Aggregation with Applications to Private Federated Learning ( http://arxiv.org/abs/2308.09883v1 )

ライセンス: Link先を確認
Yiping Ma, Jess Woods, Sebastian Angel, Antigoni Polychroniadou, Tal Rabin(参考訳) 本稿では,大規模なクライアント間でデータをセキュアに集約するシステムであるFlamingoを紹介する。 セキュアアグリゲーションでは、サーバはクライアントのプライベートインプットを合計し、最終アグリゲーションによって入力されるもの以上の個々のインプットについて何も学ばずに結果を得る。 flamingoは、モデル重みの連続した和(平均値)が良いモデルを引き出すフェデレーション学習に見られる多ラウンド設定に焦点を当てている。 bell et al. (ccs '20) のような以前のプロトコルは単一のラウンド用に設計されており、複数回プロトコルを繰り返して連合学習環境に適合している。 Flamingoは、以前のプロトコルのラウンド単位のセットアップの必要性を排除し、クライアントがサムの中央にある場合、サーバが意味のある結果が得られるように、新しい軽量なドロップアウトレジリエンスプロトコルを備えている。 さらにFlamingoは、Bellらによって導入されたいわゆるクライアント地区をローカルに選択する新しい方法を導入した。 これらのテクニックは、Flamingoがクライアントとサーバ間のインタラクションの数を減らすのに役立つ。 我々はFlamingoを実装して評価し、(拡張)MNISTとCIFAR-100データセット上でニューラルネットワークをセキュアにトレーニングできることを示し、非プライベートなフェデレート学習システムと比較して精度を損なうことなくモデルを収束させる。

This paper introduces Flamingo, a system for secure aggregation of data across a large set of clients. In secure aggregation, a server sums up the private inputs of clients and obtains the result without learning anything about the individual inputs beyond what is implied by the final sum. Flamingo focuses on the multi-round setting found in federated learning in which many consecutive summations (averages) of model weights are performed to derive a good model. Previous protocols, such as Bell et al. (CCS '20), have been designed for a single round and are adapted to the federated learning setting by repeating the protocol multiple times. Flamingo eliminates the need for the per-round setup of previous protocols, and has a new lightweight dropout resilience protocol to ensure that if clients leave in the middle of a sum the server can still obtain a meaningful result. Furthermore, Flamingo introduces a new way to locally choose the so-called client neighborhood introduced by Bell et al. These techniques help Flamingo reduce the number of interactions between clients and the server, resulting in a significant reduction in the end-to-end runtime for a full training session over prior work. We implement and evaluate Flamingo and show that it can securely train a neural network on the (Extended) MNIST and CIFAR-100 datasets, and the model converges without a loss in accuracy, compared to a non-private federated learning system.
翻訳日:2023-08-22 19:29:10 公開日:2023-08-19
# Forecast-MAE: Masked Autoencoders を用いた動き予測のための自己教師型事前学習

Forecast-MAE: Self-supervised Pre-training for Motion Forecasting with Masked Autoencoders ( http://arxiv.org/abs/2308.09882v1 )

ライセンス: Link先を確認
Jie Cheng, Xiaodong Mei and Ming Liu(参考訳) 本研究は,コンピュータビジョンや自然言語処理においてSSLが広く成功したにもかかわらず,まだ広く研究されていない動き予測への自己教師型学習(SSL)の適用について検討する。 このギャップに対処するために,動作予測タスクの自己教師型学習を目的としたマスクオートエンコーダフレームワークであるForecast-MAEを導入する。 提案手法は,エージェントの軌跡と道路網の強い相互接続を利用する新しいマスキング戦略を含み,エージェントの未来や歴史を補完するマスキング,レーンセグメントのランダムマスキングを含む。 Argoverse 2 の動作予測ベンチマーク実験により,標準トランスフォーマーブロックを最小限の帰納バイアスで利用する Forecast-MAE は,教師付き学習や高度な設計に依存する最先端手法と比較して,競争性能が向上することを示した。 さらに,従来の自己教師あり学習法を有意差で上回っている。 コードはhttps://github.com/jchengai/forecast-maeで入手できる。

This study explores the application of self-supervised learning (SSL) to the task of motion forecasting, an area that has not yet been extensively investigated despite the widespread success of SSL in computer vision and natural language processing. To address this gap, we introduce Forecast-MAE, an extension of the mask autoencoders framework that is specifically designed for self-supervised learning of the motion forecasting task. Our approach includes a novel masking strategy that leverages the strong interconnections between agents' trajectories and road networks, involving complementary masking of agents' future or history trajectories and random masking of lane segments. Our experiments on the challenging Argoverse 2 motion forecasting benchmark show that Forecast-MAE, which utilizes standard Transformer blocks with minimal inductive bias, achieves competitive performance compared to state-of-the-art methods that rely on supervised learning and sophisticated designs. Moreover, it outperforms the previous self-supervised learning method by a significant margin. Code is available at https://github.com/jchengai/forecast-mae.
翻訳日:2023-08-22 19:28:40 公開日:2023-08-19
# 生成的敵対的ネットワークの学習

Generative Adversarial Networks Unlearning ( http://arxiv.org/abs/2308.09881v1 )

ライセンス: Link先を確認
Hui Sun, Tianqing Zhu, Wenhan Chang, and Wanlei Zhou(参考訳) 機械学習が発展し続け、データ誤用スキャンダルが広まるにつれ、個人は個人情報を心配し、データを削除する権利を主張するようになってきています。 機械学習は、訓練された機械学習モデルからトレーニングデータを消去するソリューションとして登場した。 分類器での成功にもかかわらず、ジェネレータと識別器を含む独自のアーキテクチャのため、GAN(Generative Adversarial Networks)の研究は限られている。 このプロセスは潜在空間の連続性と完全性を損なう可能性があるため、ジェネレータアンラーニングに関する課題がある。 この混乱は、学習後のモデルの有効性を損なう可能性がある。 もうひとつの課題は、未学習の画像に対して差別者が実行すべき基準を定義する方法だ。 本稿では,置換機構を導入し,これらの課題を効果的に軽減するための偽ラベルを定義する。 置換機構と偽ラベルに基づいて,GANモデル内の項目学習とクラス学習の両方に対して,未学習および学習プロセスがカスケード方式で実行されるケースケードアンラーニング手法を提案する。 mnistとcifar-10データセットを用いたカスケード学習手法の包括的評価を行った。 実験結果から,MNISTデータセットとCIFAR-10データセットの所要時間を最大185x,284xまで削減し,スクラッチから再学習するよりもはるかに改善された項目とクラスアンラーニング効率が得られた。 特に、モデルのパフォーマンスは未学習後の小さな低下を経験するが、最小の画像数(例えば64)を扱う場合、この減少は無視でき、分類のような下流タスクに悪影響を及ぼすことはない。

As machine learning continues to develop, and data misuse scandals become more prevalent, individuals are becoming increasingly concerned about their personal information and are advocating for the right to remove their data. Machine unlearning has emerged as a solution to erase training data from trained machine learning models. Despite its success in classifiers, research on Generative Adversarial Networks (GANs) is limited due to their unique architecture, including a generator and a discriminator. One challenge pertains to generator unlearning, as the process could potentially disrupt the continuity and completeness of the latent space. This disruption might consequently diminish the model's effectiveness after unlearning. Another challenge is how to define a criterion that the discriminator should perform for the unlearning images. In this paper, we introduce a substitution mechanism and define a fake label to effectively mitigate these challenges. Based on the substitution mechanism and fake label, we propose a cascaded unlearning approach for both item and class unlearning within GAN models, in which the unlearning and learning processes run in a cascaded manner. We conducted a comprehensive evaluation of the cascaded unlearning technique using the MNIST and CIFAR-10 datasets. Experimental results demonstrate that this approach achieves significantly improved item and class unlearning efficiency, reducing the required time by up to 185x and 284x for the MNIST and CIFAR-10 datasets, respectively, in comparison to retraining from scratch. Notably, although the model's performance experiences minor degradation after unlearning, this reduction is negligible when dealing with a minimal number of images (e.g., 64) and has no adverse effects on downstream tasks such as classification.
翻訳日:2023-08-22 19:28:20 公開日:2023-08-19
# datasetequity: すべてのサンプルは平等か? データセット内のエクイティを求めて

DatasetEquity: Are All Samples Created Equal? In The Quest For Equity Within Datasets ( http://arxiv.org/abs/2308.09878v1 )

ライセンス: Link先を確認
Shubham Shrivastava, Xianling Zhang, Sushruth Nagesh, Armin Parchami(参考訳) データ不均衡は、機械学習の分野でよく知られた問題であり、データ収集のコスト、ラベル付けの難しさ、データの地理的分布に起因する。 コンピュータビジョンでは、画像の出現によるデータ分布の偏りは未解明のままである。 クラスラベルを用いたカテゴリ分布と比較すると、画像の外観はクラスラベルが提供するもの以上のオブジェクト間の複雑な関係を示す。 生のピクセルから抽出した深い知覚特徴をクラスタリングすることで、データのよりリッチな表現が可能になる。 本稿では,機械学習におけるデータ不均衡に対処する新しい手法を提案する。 本手法は, 深い知覚埋め込みとクラスタリングを用いて, 画像の外観に基づくサンプル確率を算出する。 次に、これらの可能性を使って、提案された \textbf{ Generalized Focal Loss} 関数でトレーニング中にサンプルを異なる量にする。 この損失は、ディープラーニングアルゴリズムと容易に統合できる。 実験では、KITTIやnuScenesを含む自律走行視覚データセット間で、この手法の有効性を検証する。 損失関数は最先端の3dオブジェクト検出方法を改善し、kittiデータセットの未表示クラス(cyclist)で200〜%のapゲインを達成する。 その結果、この手法は一般化可能であり、既存の手法を補完し、より小さなデータセットやレアクラスに特に有用であることが示されている。 コードは、$\texttt{https://github.com/towardsautonomy/datasetequity}$で入手できる。

Data imbalance is a well-known issue in the field of machine learning, attributable to the cost of data collection, the difficulty of labeling, and the geographical distribution of the data. In computer vision, bias in data distribution caused by image appearance remains highly unexplored. Compared to categorical distributions using class labels, image appearance reveals complex relationships between objects beyond what class labels provide. Clustering deep perceptual features extracted from raw pixels gives a richer representation of the data. This paper presents a novel method for addressing data imbalance in machine learning. The method computes sample likelihoods based on image appearance using deep perceptual embeddings and clustering. It then uses these likelihoods to weigh samples differently during training with a proposed \textbf{Generalized Focal Loss} function. This loss can be easily integrated with deep learning algorithms. Experiments validate the method's effectiveness across autonomous driving vision datasets including KITTI and nuScenes. The loss function improves state-of-the-art 3D object detection methods, achieving over $200\%$ AP gains on under-represented classes (Cyclist) in the KITTI dataset. The results demonstrate the method is generalizable, complements existing techniques, and is particularly beneficial for smaller datasets and rare classes. Code is available at: $\texttt{https://github.com/towardsautonomy/DatasetEquity}$
翻訳日:2023-08-22 19:27:52 公開日:2023-08-19
# RAH! RecSys-Assistant-Human: 大規模言語モデルを用いた人間中心のレコメンデーションフレームワーク

RAH! RecSys-Assistant-Human: A Human-Central Recommendation Framework with Large Language Models ( http://arxiv.org/abs/2308.09904v1 )

ライセンス: Link先を確認
Yubo Shu, Hansu Gu, Peng Zhang, Haonan Zhang, Tun Lu, Dongsheng Li, Ning Gu(参考訳) レコメンデーションエコシステムには、レコメンデーションシステム(コンピュータ)とユーザ(Human)のインタラクションが含まれる。 本稿では,レコメンダシステムの観点から,ユーザの視点からLLMを活用し,Recommenderシステム,Assistant,Humanで構成される,より人中心的なレコメンデーションフレームワークRAHを提案する。 アシスタントは、人間の満足度を達成するためのLLMベースのパーソナルプロキシである。 アシスタントは非侵入の役割を担い、RAHフレームワークは異なる推奨システムやユーザグループに適応できる。 その後、ユーザの個性を学習し、人間のフィードバックをプロキシするためのRAHフレームワークを実装し、評価する。 実験の結果,(1)学習行動批判機構と反射機構を用いることで,人格の整合性が向上し,(2)人間のフィードバックを効果的にプロキシし,レコメンダシステムの調整に役立てることができることがわかった。 最後に,RAHフレームワークにおけるユーザコントロールやプライバシ,公平性など,人中心的な問題に対処するためのさらなる戦略について論じる。

The recommendation ecosystem involves interactions between recommender systems(Computer) and users(Human). Orthogonal to the perspective of recommender systems, we attempt to utilize LLMs from the perspective of users and propose a more human-central recommendation framework named RAH, which consists of Recommender system, Assistant and Human. The assistant is a LLM-based and personal proxy for a human to achieve user satisfaction. The assistant plays a non-invasion role and the RAH framework can adapt to different recommender systems and user groups. Subsequently, we implement and evaluate the RAH framework for learning user personalities and proxy human feedback. The experiment shows that (1) using learn-action-critic and reflection mechanisms can lead more aligned personality and (2) our assistant can effectively proxy human feedback and help adjust recommender systems. Finally, we discuss further strategies in the RAH framework to address human-central concerns including user control, privacy and fairness.
翻訳日:2023-08-22 19:20:25 公開日:2023-08-19
# Simplified Frameworkによるスケーラブルなビデオオブジェクトセグメンテーション

Scalable Video Object Segmentation with Simplified Framework ( http://arxiv.org/abs/2308.09903v1 )

ライセンス: Link先を確認
Qiangqiang Wu and Tianyu Yang and Wei WU and Antoni Chan(参考訳) ビデオオブジェクトセグメンテーション(VOS)の現在の一般的な方法は、複数の手作りモジュールを通じて特徴抽出とマッチングを別々に行う機能マッチングを実装している。 しかし、上記の手作りの設計は、実証的にターゲットの相互作用が不十分なため、VOSにおける動的ターゲット認識機能学習が制限される。 これらの制約に対処するために,単一のトランスフォーマーバックボーンを活用することで,共同特徴抽出とマッチングを行うスケーラブルなSimplified VOS(SimVOS)フレームワークを提案する。 特にsimvosでは,クエリと参照機能の同時抽出とマッチングに,スケーラブルなvitバックボーンを採用している。 この設計により、SimVOSは正確なマスク予測のためのより良いターゲットウェア機能を学ぶことができる。 さらに重要なことに、SimVOSは、VOSと大規模自己監督型事前トレーニングのギャップを埋めるVOSに、よく訓練されたViTバックボーン(例えば、MAE)を直接適用することができた。 性能と速度のトレードオフを改善するため,さらにフレーム内注目度を探求し,ランニング速度の向上と計算コストの削減を目的とした新しいトークン改質モジュールを提案する。 実験により、我々のSimVOSは、一般的なビデオオブジェクトセグメンテーションベンチマーク、すなわちDAVIS-2017 (88.0% J&F)、DAVIS-2016 (92.9% J&F)、YouTube-VOS 2019 (84.2% J&F)で、合成ビデオやBL30K事前トレーニングを適用せずに、最先端の結果を達成する。

The current popular methods for video object segmentation (VOS) implement feature matching through several hand-crafted modules that separately perform feature extraction and matching. However, the above hand-crafted designs empirically cause insufficient target interaction, thus limiting the dynamic target-aware feature learning in VOS. To tackle these limitations, this paper presents a scalable Simplified VOS (SimVOS) framework to perform joint feature extraction and matching by leveraging a single transformer backbone. Specifically, SimVOS employs a scalable ViT backbone for simultaneous feature extraction and matching between query and reference features. This design enables SimVOS to learn better target-ware features for accurate mask prediction. More importantly, SimVOS could directly apply well-pretrained ViT backbones (e.g., MAE) for VOS, which bridges the gap between VOS and large-scale self-supervised pre-training. To achieve a better performance-speed trade-off, we further explore within-frame attention and propose a new token refinement module to improve the running speed and save computational cost. Experimentally, our SimVOS achieves state-of-the-art results on popular video object segmentation benchmarks, i.e., DAVIS-2017 (88.0% J&F), DAVIS-2016 (92.9% J&F) and YouTube-VOS 2019 (84.2% J&F), without applying any synthetic video or BL30K pre-training used in previous VOS approaches.
翻訳日:2023-08-22 19:20:06 公開日:2023-08-19
# DPMAC:協調型マルチエージェント強化学習のための個人間コミュニケーション

DPMAC: Differentially Private Communication for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2308.09902v1 )

ライセンス: Link先を確認
Canzhe Zhao, Yanjie Ze, Jing Dong, Baoxiang Wang and Shuai Li(参考訳) コミュニケーションは、人間社会とマルチエージェント強化学習(MARL)における協力の基礎を築いた。 人間は他人と通信する際にもプライバシーを維持することを望んでいるが、MARLの既存の研究ではそのようなプライバシーに関する懸念は考慮されていない。 そこで,我々は,各エージェントに厳密な$(\epsilon, \delta)$-differential privacy (dp) 保証を付与することにより,個々のエージェントの機密情報を保護する \textit{differentially private multi-agent communication} (dpmac) アルゴリズムを提案する。 プライバシ保護シナリオで一般的な,事前定義されたdpノイズによるメッセージの直接摂動とは対照的に,それぞれのエージェントに対して確率的メッセージ送信器を採用し,dp要求を送信装置に組み込むことにより,dpノイズに起因する不安定性を軽減する。 さらに,プライバシ保護通信を用いた協調marlにおけるnash平衡の存在を証明し,この問題がゲーム理論的に学習可能であることを示唆する。 大規模な実験は、プライバシー保護シナリオにおけるベースラインメソッドよりもDPMACの明確な利点を示している。

Communication lays the foundation for cooperation in human society and in multi-agent reinforcement learning (MARL). Humans also desire to maintain their privacy when communicating with others, yet such privacy concern has not been considered in existing works in MARL. To this end, we propose the \textit{differentially private multi-agent communication} (DPMAC) algorithm, which protects the sensitive information of individual agents by equipping each agent with a local message sender with rigorous $(\epsilon, \delta)$-differential privacy (DP) guarantee. In contrast to directly perturbing the messages with predefined DP noise as commonly done in privacy-preserving scenarios, we adopt a stochastic message sender for each agent respectively and incorporate the DP requirement into the sender, which automatically adjusts the learned message distribution to alleviate the instability caused by DP noise. Further, we prove the existence of a Nash equilibrium in cooperative MARL with privacy-preserving communication, which suggests that this problem is game-theoretically learnable. Extensive experiments demonstrate a clear advantage of DPMAC over baseline methods in privacy-preserving scenarios.
翻訳日:2023-08-22 19:19:35 公開日:2023-08-19
# $\mathcal{pt}$-symmetricシステムにおけるトンネル時間とfaraday/kerr効果

Tunneling time and Faraday/Kerr effects in $\mathcal{PT}$-symmetric systems ( http://arxiv.org/abs/2308.09901v1 )

ライセンス: Link先を確認
Vladimir Gasparian, Peng Guo, Antonio P\'erez-Garrido, and Esther J\'odar(参考訳) 本稿では,faraday と kerr の回転角がパリティと時間 (\mathcal{p}\mathcal{t}$)-対称系におけるトンネル時間の一般化と異常挙動について検討する。 2つの現象の類似性について議論し、どちらも特定のモデルパラメータで相転移のような異常な振る舞いを示す。 $\mathcal{p}\mathcal{t}$-symmetric 系におけるトンネル時間とファラデー/カー角の異常な挙動は、エネルギー/周波数複素平面における散乱振幅の極の運動によって引き起こされる。

We review the generalization of tunneling time and anomalous behaviour of Faraday and Kerr rotation angles in parity and time ($\mathcal{P}\mathcal{T}$)-symmetric systems. Similarities of two phenomena are discussed, both exhibit a phase transition-like anomalous behaviour in certain range of model parameters. Anomalous behaviour of tunneling time and Faraday/Kerr angles in $\mathcal{P}\mathcal{T}$-symmetric systems is caused by the motion of poles of scattering amplitudes in energy/frequency complex plane.
翻訳日:2023-08-22 19:19:07 公開日:2023-08-19
# 高性能物体検出に向けて:vitとcnnに基づくディープラーニングモデルを用いたドローン検出からの洞察

Towards a High-Performance Object Detector: Insights from Drone Detection Using ViT and CNN-based Deep Learning Models ( http://arxiv.org/abs/2308.09899v1 )

ライセンス: Link先を確認
Junyang Zhang(参考訳) 正確なドローン検出は、ドローン衝突回避、ドローン防衛、無人無人航空機(UAV)の自律着陸において強く望まれる。 近年のViT(Vision Transformer)の出現により、この重要なタスクは1359枚のドローン写真からなるUAVデータセットを用いて再評価される。 我々は,CNN と ViT をベースとした各種モデルを構築し,単流体検出において,基本型 ViT が最高の CNN ベース転送学習モデルより4.6 倍堅牢であることを示す。 最先端のYou Only Look Once(YOLO v7, 200 epochs)と実験的なViTベースのYou Only Look At One Sequence(YOLOS, 20 epochs)をマルチドローン検出で実装することにより,98%,96%のmAP値が得られた。 最先端のCNN検出器の能力を全面的に超えるためには、ViTはCNNよりも優れていますが、トレーニングデータ、計算能力、高度でパフォーマンス指向な設計も必要です。 将来の研究者がより効率的な深層学習モデルを開発するのを助けるために,vitモデルとcnnモデルの異なる特徴を要約する。

Accurate drone detection is strongly desired in drone collision avoidance, drone defense and autonomous Unmanned Aerial Vehicle (UAV) self-landing. With the recent emergence of the Vision Transformer (ViT), this critical task is reassessed in this paper using a UAV dataset composed of 1359 drone photos. We construct various CNN and ViT-based models, demonstrating that for single-drone detection, a basic ViT can achieve performance 4.6 times more robust than our best CNN-based transfer learning models. By implementing the state-of-the-art You Only Look Once (YOLO v7, 200 epochs) and the experimental ViT-based You Only Look At One Sequence (YOLOS, 20 epochs) in multi-drone detection, we attain impressive 98% and 96% mAP values, respectively. We find that ViT outperforms CNN at the same epoch, but also requires more training data, computational power, and sophisticated, performance-oriented designs to fully surpass the capabilities of cutting-edge CNN detectors. We summarize the distinct characteristics of ViT and CNN models to aid future researchers in developing more efficient deep learning models.
翻訳日:2023-08-22 19:18:58 公開日:2023-08-19
# 行動認識のための空間時間アライメントネットワーク

Spatial-Temporal Alignment Network for Action Recognition ( http://arxiv.org/abs/2308.09897v1 )

ライセンス: Link先を確認
Jinhui Ye and Junwei Liang(参考訳) 本稿では,既存の行動認識アーキテクチャにおける視点不変特徴表現の導入について述べる。 行動認識の大幅な進歩にもかかわらず、大規模データセットの幾何学的変動を効率的に扱うことは依然として困難である。 そこで本研究では,行動認識のための幾何学的不変表現を明示的に学習する空間時間アライメントネットワーク(STAN)を提案する。 特にSTANモデルは軽量で汎用的であり、既存の行動認識モデル(例えばMViTv2)に追加の計算コストで接続することができる。 我々は、UCF101やHMDB51のような広く使われているデータセット上でSTANモデルをテストする。 実験の結果,STANモデルは,訓練されたスクラッチ環境下での動作認識タスクにおける最先端モデルを改善することができることがわかった。

This paper studies introducing viewpoint invariant feature representations in existing action recognition architecture. Despite significant progress in action recognition, efficiently handling geometric variations in large-scale datasets remains challenging. To tackle this problem, we propose a novel Spatial-Temporal Alignment Network (STAN), which explicitly learns geometric invariant representations for action recognition. Notably, the STAN model is light-weighted and generic, which could be plugged into existing action recognition models (e.g., MViTv2) with a low extra computational cost. We test our STAN model on widely-used datasets like UCF101 and HMDB51. The experimental results show that the STAN model can consistently improve the state-of-the-art models in action recognition tasks in trained-from-scratch settings.
翻訳日:2023-08-22 19:18:34 公開日:2023-08-19
# EHRを用いた病院内死亡リスクモデリングのためのコントラスト学習に基づくインプット予測ネットワーク

Contrastive Learning-based Imputation-Prediction Networks for In-hospital Mortality Risk Modeling using EHRs ( http://arxiv.org/abs/2308.09896v1 )

ライセンス: Link先を確認
Yuxi Liu, Zhenhao Zhang, Shaowen Qin, Flora D. Salim, Antonio Jimeno Yepes(参考訳) 電子健康記録(EHR)による院内死亡リスクの予測は注目されている。 このような予測は、患者の健康状態の早期警告を医療専門家に提供し、タイムリーな介入を可能にする。 EHRデータは本質的に不規則であり、欠落した値だけでなく、医療記録間の時間間隔も様々である。 既存のアプローチでは、患者の医療記録の変動相関を利用して、欠落した値をインプットし、そのような不規則性に対処する時間分解機構を確立することに重点を置いている。 本稿では,EHRデータを用いた病院内死亡リスク予測のための,新しいコントラスト学習型予測ネットワークを提案する。 提案手法では, グラフ解析に基づく患者階層化モデルを導入し, 類似した患者をグループ化する。 これにより、類似した患者の情報は、個人的な文脈情報に加えて、価値の含意を欠くためにのみ使用できる。 さらに,提案するネットワークアーキテクチャにコントラスト学習を統合することで,分類タスクにおける患者表現学習と予測性能を向上させる。 実世界の2つのehrデータセットにおける実験は、我々のアプローチがインプテーションと予測タスクの両方において最先端のアプローチよりも優れていることを示している。

Predicting the risk of in-hospital mortality from electronic health records (EHRs) has received considerable attention. Such predictions will provide early warning of a patient's health condition to healthcare professionals so that timely interventions can be taken. This prediction task is challenging since EHR data are intrinsically irregular, with not only many missing values but also varying time intervals between medical records. Existing approaches focus on exploiting the variable correlations in patient medical records to impute missing values and establishing time-decay mechanisms to deal with such irregularity. This paper presents a novel contrastive learning-based imputation-prediction network for predicting in-hospital mortality risks using EHR data. Our approach introduces graph analysis-based patient stratification modeling in the imputation process to group similar patients. This allows information of similar patients only to be used, in addition to personal contextual information, for missing value imputation. Moreover, our approach can integrate contrastive learning into the proposed network architecture to enhance patient representation learning and predictive performance on the classification task. Experiments on two real-world EHR datasets show that our approach outperforms the state-of-the-art approaches in both imputation and prediction tasks.
翻訳日:2023-08-22 19:18:23 公開日:2023-08-19
# コードLLMのための高リソースから低リソースプログラミング言語への知識伝達

Knowledge Transfer from High-Resource to Low-Resource Programming Languages for Code LLMs ( http://arxiv.org/abs/2308.09895v1 )

ライセンス: Link先を確認
Federico Cassano, John Gouwar, Francesca Lucchetti, Claire Schlesinger, Carolyn Jane Anderson, Michael Greenberg, Abhinav Jangda, Arjun Guha(参考訳) ここ数年、Large Language Models of Code (Code LLM) はプログラミングの実践に大きな影響を与え始めています。 コードLLMは、プログラミング言語やソフトウェア工学の研究のためのビルディングブロックとしても登場しています。 しかし、コードLLMが生成するコードの品質はプログラミング言語によって大きく異なる。 コードLLMは、トレーニングデータ(Java、Python、JavaScriptなど)でよく表現されているが、OCamlやRacketのような低リソースの言語と競合するプログラミング言語に対して印象的な結果をもたらす。 本稿では,半合成データを用いた低リソース言語におけるコードLLMの性能向上に有効な手法を提案する。 提案手法では,低リソース言語に対して高品質なデータセットを生成し,事前学習したコードLLMを微調整することができる。 我々のアプローチはMultiPL-Tと呼ばれ、高リソース言語からのトレーニングデータを低リソース言語のトレーニングデータに変換する。 我々は、PythonからRacket、OCaml、Luaの新しい数万のトレーニングアイテムを生成するために、我々のアプローチを適用します。 さらに、オープンデータセット(スタック)とモデル(starcoderbase)を使用して、モデルライセンスに違反することなく、このデータ上のベンチマークやモデルのトレーニングを解除できます。 また,MultiPL-T生成データを用いて,ベンチマーク問題に対するRacket,OCaml,Luaの最先端性能を実現するStarCoderBaseの微調整版を提案する。 Lua氏にとって、当社の微調整モデルは、MultiPL-Eベンチマーク上で、非常に高ソースのPythonであるStarCoderBaseと同じパフォーマンスを実現しています。 RacketとOCamlでは、MultiPL-Eのパフォーマンスを2倍にし、RubyやC#のような高リソース言語にそのパフォーマンスを近づけます。

Over the past few years, Large Language Models of Code (Code LLMs) have started to have a significant impact on programming practice. Code LLMs are also emerging as a building block for research in programming languages and software engineering. However, the quality of code produced by a Code LLM varies significantly by programming languages. Code LLMs produce impressive results on programming languages that are well represented in their training data (e.g., Java, Python, or JavaScript), but struggle with low-resource languages, like OCaml and Racket. This paper presents an effective approach for boosting the performance of Code LLMs on low-resource languages using semi-synthetic data. Our approach generates high-quality datasets for low-resource languages, which can then be used to fine-tune any pretrained Code LLM. Our approach, called MultiPL-T, translates training data from high-resource languages into training data for low-resource languages. We apply our approach to generate tens of thousands of new, validated training items for Racket, OCaml, and Lua from Python. Moreover, we use an open dataset (The Stack) and model (StarCoderBase), which allow us to decontaminate benchmarks and train models on this data without violating the model license. With MultiPL-T generated data, we present fine-tuned versions of StarCoderBase that achieve state-of-the-art performance for Racket, OCaml, and Lua on benchmark problems. For Lua, our fine-tuned model achieves the same performance as StarCoderBase as Python -- a very high-resource language -- on the MultiPL-E benchmarks. For Racket and OCaml, we double their performance on MultiPL-E, bringing their performance close to higher-resource languages such as Ruby and C#.
翻訳日:2023-08-22 19:18:02 公開日:2023-08-19
# セマンティクス・ヒューマン:人間のパースによる単眼映像からの人間のニューラルレンダリング

Semantic-Human: Neural Rendering of Humans from Monocular Video with Human Parsing ( http://arxiv.org/abs/2308.09894v1 )

ライセンス: Link先を確認
Jie Zhang, Pengcheng Shi, Zaiwang Gu, Yiyang Zhou, Zhi Wang(参考訳) 人間の神経のレンダリングは、非常に重要な研究テーマである。 しかし、以前の研究は主に、人間の解析の探求を怠りながら、フォトリアリスティックな詳細を達成することに焦点を当てていた。 さらに、古典的意味論的な作業は、複雑な動きの細かい結果を効率的に表現する能力に制限がある。 人間のパーシングは本質的にラディアンス再構成と関係があり、類似した外観や幾何学はしばしば同様の意味の部分に対応する。 さらに、以前の研究はしばしば観測空間から標準空間にマッピングする運動場を設計するが、過度な適合または過度な適合を示す傾向があり、その結果は限定的な一般化をもたらす。 本稿では,人間のニューラルレンダリングのためのフォトリアリスティックディテールと視点一貫性を持った人間のパーシングを実現するセマンティック・ヒューマンを提案する。 具体的には,ニューラル・ラジアンス・フィールド(nerf)を拡張し,セマンティクス,外観,幾何学を共同でエンコードし,ノイズの多い擬似ラベルによる正確な2次元セマンティクスラベルを実現する。 nerfの固有の一貫性と滑らかさを生かして、セマンティクス・ヒューマンは連続的および新規なビューの両方において一貫した人間のパースを実現する。 また,回復した体積幾何学の運動場と正規化のためのSMPL曲面から導出される制約も導入する。 このモデルをZJU-MoCapデータセットを用いて評価し,提案したSemantic-Humanの有効性を示した。 また,ラベル分類,ラベル合成,画像編集など,様々な説得力のある応用例を示し,その利点を実証的に検証する。

The neural rendering of humans is a topic of great research significance. However, previous works mostly focus on achieving photorealistic details, neglecting the exploration of human parsing. Additionally, classical semantic work are all limited in their ability to efficiently represent fine results in complex motions. Human parsing is inherently related to radiance reconstruction, as similar appearance and geometry often correspond to similar semantic part. Furthermore, previous works often design a motion field that maps from the observation space to the canonical space, while it tends to exhibit either underfitting or overfitting, resulting in limited generalization. In this paper, we present Semantic-Human, a novel method that achieves both photorealistic details and viewpoint-consistent human parsing for the neural rendering of humans. Specifically, we extend neural radiance fields (NeRF) to jointly encode semantics, appearance and geometry to achieve accurate 2D semantic labels using noisy pseudo-label supervision. Leveraging the inherent consistency and smoothness properties of NeRF, Semantic-Human achieves consistent human parsing in both continuous and novel views. We also introduce constraints derived from the SMPL surface for the motion field and regularization for the recovered volumetric geometry. We have evaluated the model using the ZJU-MoCap dataset, and the obtained highly competitive results demonstrate the effectiveness of our proposed Semantic-Human. We also showcase various compelling applications, including label denoising, label synthesis and image editing, and empirically validate its advantageous properties.
翻訳日:2023-08-22 19:17:34 公開日:2023-08-19
# セマンティックテキスト類似性を利用した臨床調査データの特徴選択

Utilizing Semantic Textual Similarity for Clinical Survey Data Feature Selection ( http://arxiv.org/abs/2308.09892v1 )

ライセンス: Link先を確認
Benjamin C. Warner, Ziqi Xu, Simon Haroutounian, Thomas Kannampallil, Chenyang Lu(参考訳) 調査データは、比較的少ない例を持ちながら、多くの機能を含むことができる。 これらの条件下でのサーベイデータから結果を予測する機械学習モデルは、過剰に適合し、一般化しにくくなる可能性がある。 この問題に対する1つの修正は、学習すべき機能の最適なサブセットを選択しようとする機能選択である。 特徴選択プロセスにおける比較的探索されていない情報源は、特徴のテキスト名の使用である。 特徴名と対象名の関係を言語モデル(LM)を用いて評価し、意味的テキスト類似度(STS)スコアを生成し、特徴の選択に使用できる。 STSを用いて最小冗長-最大関連性(mRMR)アルゴリズムで特徴を直接選択する性能について検討する。 術後持続痛(ppsp)の臨床研究の一環として収集された予備調査データに対して,特徴選択指標としてのstsの性能を評価する。 その結果,stsで選択された特徴は従来の特徴選択アルゴリズムよりも高い性能モデルが得られることが示唆された。

Survey data can contain a high number of features while having a comparatively low quantity of examples. Machine learning models that attempt to predict outcomes from survey data under these conditions can overfit and result in poor generalizability. One remedy to this issue is feature selection, which attempts to select an optimal subset of features to learn upon. A relatively unexplored source of information in the feature selection process is the usage of textual names of features, which may be semantically indicative of which features are relevant to a target outcome. The relationships between feature names and target names can be evaluated using language models (LMs) to produce semantic textual similarity (STS) scores, which can then be used to select features. We examine the performance using STS to select features directly and in the minimal-redundancy-maximal-relevance (mRMR) algorithm. The performance of STS as a feature selection metric is evaluated against preliminary survey data collected as a part of a clinical study on persistent post-surgical pain (PPSP). The results suggest that features selected with STS can result in higher performance models compared to traditional feature selection algorithms.
翻訳日:2023-08-22 19:17:06 公開日:2023-08-19
# Recap:顔の復元と顔のマッピングにより、予測不可能な追跡でディープフェイク動画を検出する

Recap: Detecting Deepfake Video with Unpredictable Tampered Traces via Recovering Faces and Mapping Recovered Faces ( http://arxiv.org/abs/2308.09921v1 )

ライセンス: Link先を確認
Juan Hu, Xin Liao, Difei Gao, Satoshi Tsutsui, Qian Wang, Zheng Qin, Mike Zheng Shou(参考訳) 悪質な意図に対するディープフェイク技術の利用は、ディープフェイク検出に対する大きな研究の関心を呼んでいる。 ディープフェイク操作は、しばしばランダムな改ざんされた痕跡をもたらし、様々な顔領域で予測不能な結果をもたらす。 しかし、既存の検出手法は特定のフォージェリ指標に大きく依存しており、フォージェリモードの改善に伴ってこれらのトレースはランダム化され、特定のフォージェリトレースに依存するメソッドの検出性能が低下する。 この制限に対処するために,顔の復元による非特異な顔部分の不整合を露呈し,復元された顔のマッピングによって実と偽の差を拡大する新しいDeepfake検出モデルであるRecapを提案する。 回収段階では, ランダムマスキング領域(rois)に着目し, 予測不能な痕跡を残さずに実顔の復元を行い, 偽顔の回復効果が低下する一方で, 実顔の回復効果が比較的良好である。 マッピング段階では、リカバリフェーズの出力は、顔マッピングプロセスを導くための監督の役割を担っている。 このマッピングプロセスは、偽の顔のマッピングを貧弱なリカバリで戦略的に強調し、表現のさらなる劣化を招きつつ、実際の顔のマッピングを良い表現で強化・改善する。 その結果、このアプローチは実際のビデオと偽のビデオの相違を大幅に増幅する。 標準ベンチマークに関する広範な実験は、Recapが複数のシナリオで有効であることを示している。

The exploitation of Deepfake techniques for malicious intentions has driven significant research interest in Deepfake detection. Deepfake manipulations frequently introduce random tampered traces, leading to unpredictable outcomes in different facial regions. However, existing detection methods heavily rely on specific forgery indicators, and as the forgery mode improves, these traces become increasingly randomized, resulting in a decline in the detection performance of methods reliant on specific forgery traces. To address the limitation, we propose Recap, a novel Deepfake detection model that exposes unspecific facial part inconsistencies by recovering faces and enlarges the differences between real and fake by mapping recovered faces. In the recovering stage, the model focuses on randomly masking regions of interest (ROIs) and reconstructing real faces without unpredictable tampered traces, resulting in a relatively good recovery effect for real faces while a poor recovery effect for fake faces. In the mapping stage, the output of the recovery phase serves as supervision to guide the facial mapping process. This mapping process strategically emphasizes the mapping of fake faces with poor recovery, leading to a further deterioration in their representation, while enhancing and refining the mapping of real faces with good representation. As a result, this approach significantly amplifies the discrepancies between real and fake videos. Our extensive experiments on standard benchmarks demonstrate that Recap is effective in multiple scenarios.
翻訳日:2023-08-22 19:12:19 公開日:2023-08-19
# 自己監督型電子顕微鏡インスタンスセグメンテーションのためのマルチスケール一貫性の学習

Learning Multiscale Consistency for Self-supervised Electron Microscopy Instance Segmentation ( http://arxiv.org/abs/2308.09917v1 )

ライセンス: Link先を確認
Yinda Chen, Wei Huang, Xiaoyu Liu, Qi Chen, Zhiwei Xiong(参考訳) 電子顕微鏡(EM)ボリュームのインスタンスセグメンテーションは、インスタンスの複雑な形態と不十分なアノテーションのために大きな課題となる。 自己教師付き学習は近年,EMインスタンスセグメンテーションに不可欠な細胞組織構造の事前知識の獲得を可能にする,有望なソリューションとして浮上している。 しかし、既存の事前学習手法では複雑な視覚パターンやボクセル間の関係をキャプチャする能力が欠如しており、結果として獲得した事前知識は下流のem分析タスクでは不十分となる。 本稿では,EMボリュームのボクセルレベルと特徴レベルの整合性を捉えるために,マルチスケールの視覚表現を活用する新しい事前学習フレームワークを提案する。 具体的には,シアームネットワークの出力間のボクセルレベルの一貫性を再構成関数によって強制し,ソフト機能マッチングのためのクロスアテンション機構を組み込んで細かな機能レベルの一貫性を実現する。 さらに,複数スケールにわたる識別的特徴を抽出するために,特徴ピラミッドのコントラスト学習手法を提案する。 我々は,本手法を4つの大規模emデータセットで事前学習し,神経細胞およびミトコンドリアインスタンスのセグメンテーションにおいて有望な性能改善を実現する。

Instance segmentation in electron microscopy (EM) volumes poses a significant challenge due to the complex morphology of instances and insufficient annotations. Self-supervised learning has recently emerged as a promising solution, enabling the acquisition of prior knowledge of cellular tissue structures that are essential for EM instance segmentation. However, existing pretraining methods often lack the ability to capture complex visual patterns and relationships between voxels, which results in the acquired prior knowledge being insufficient for downstream EM analysis tasks. In this paper, we propose a novel pretraining framework that leverages multiscale visual representations to capture both voxel-level and feature-level consistency in EM volumes. Specifically, our framework enforces voxel-level consistency between the outputs of a Siamese network by a reconstruction function, and incorporates a cross-attention mechanism for soft feature matching to achieve fine-grained feature-level consistency. Moreover, we propose a contrastive learning scheme on the feature pyramid to extract discriminative features across multiple scales. We extensively pretrain our method on four large-scale EM datasets, achieving promising performance improvements in representative tasks of neuron and mitochondria instance segmentation.
翻訳日:2023-08-22 19:11:53 公開日:2023-08-19
# vi-net: 球面表現の分離回転学習によるカテゴリーレベルの6次元物体ポーズ推定の促進

VI-Net: Boosting Category-level 6D Object Pose Estimation via Learning Decoupled Rotations on the Spherical Representations ( http://arxiv.org/abs/2308.09916v1 )

ライセンス: Link先を確認
Jiehong Lin and Zewei Wei and Yabin Zhang and Kui Jia(参考訳) RGB-Dオブジェクト観測による高精度の回転推定は,SO(3)の非線形空間での学習が困難であるため,6次元オブジェクトポーズ推定において大きな課題となる。 本稿では,vi-netと呼ばれる新たな回転推定ネットワークを提案し,視点回転と面内回転の組み合わせとして回転を分離することでタスクを容易化する。 より具体的には、vi-net は2つの分枝を持つ球面上の特徴学習をベースとし、2つの因子化された回転の推定を行い、v-ブランチは球面信号の2次分類によって視点回転を学習し、もう1つの i-ブランチは、全角方向から見るように信号を変換して平面内回転を推定する。 球面信号を処理するために,SPA-SConv(SPAtial Spherical Convolution)の新たな設計に基づいて球面特徴ピラミッドネットワークを構築し,特徴パディングによる球面信号の境界問題の解決と対称畳み込み操作による視点-等価特徴抽出を実現する。 提案したVI-Netを,CADモデルを用いない未知物体のポーズを予測するためのカテゴリレベルの6次元オブジェクトポーズ推定の課題に適用した。

Rotation estimation of high precision from an RGB-D object observation is a huge challenge in 6D object pose estimation, due to the difficulty of learning in the non-linear space of SO(3). In this paper, we propose a novel rotation estimation network, termed as VI-Net, to make the task easier by decoupling the rotation as the combination of a viewpoint rotation and an in-plane rotation. More specifically, VI-Net bases the feature learning on the sphere with two individual branches for the estimates of two factorized rotations, where a V-Branch is employed to learn the viewpoint rotation via binary classification on the spherical signals, while another I-Branch is used to estimate the in-plane rotation by transforming the signals to view from the zenith direction. To process the spherical signals, a Spherical Feature Pyramid Network is constructed based on a novel design of SPAtial Spherical Convolution (SPA-SConv), which settles the boundary problem of spherical signals via feature padding and realizesviewpoint-equivariant feature extraction by symmetric convolutional operations. We apply the proposed VI-Net to the challenging task of category-level 6D object pose estimation for predicting the poses of unknown objects without available CAD models; experiments on the benchmarking datasets confirm the efficacy of our method, which outperforms the existing ones with a large margin in the regime of high precision.
翻訳日:2023-08-22 19:11:31 公開日:2023-08-19
# EGANS:ゼロショット学習のための進化的生成逆ネットワーク探索

EGANS: Evolutionary Generative Adversarial Network Search for Zero-Shot Learning ( http://arxiv.org/abs/2308.09915v1 )

ライセンス: Link先を確認
Shiming Chen and Shihuang Chen and Wenjin Hou and Weiping Ding and Xinge You(参考訳) zero-shot learning (zsl) は予測モデルのトレーニングのために収集できない新しいクラスを認識することを目的としている。 したがって、生成モデル(GAN)は通常、クラス意味ベクトルによって条件付けられた視覚サンプルを合成し、ZSLの顕著な進歩を達成するために使用される。 しかし、既存のGANベースの生成ZSL法は手作りのモデルに基づいており、様々なデータセットやシナリオに適応できず、不安定をモデル化できない。 これらの課題を解決するため、我々は進化的生成逆ネットワーク探索(EGANS)を提案し、優れた適応性と安定性を持つ生成ネットワークを自動設計し、ZSLを進化させるための信頼性の高い視覚的特徴サンプル合成を可能にする。 具体的には,協調的双対進化を応用して,ジェネレータと判別器の両方に対して,統合進化の枠組みの下でのニューラルアーキテクチャ探索を行う。 egansは2つの段階から学んでいる: evolution generator architecture search と evolution discriminator architecture search である。 進化生成器アーキテクチャ探索において、最適な生成器を進化的に探索するために、多対一の学習戦略を採用する。 次に、進化判別器アーキテクチャ探索における最適判別器の探索に、類似の進化探索アルゴリズムを用いて最適生成器を更に適用する。 最適生成器と判別器が探索されると、ZSL分類のための様々な生成的ZSLベースラインにそれらを包含する。 大規模な実験により、EGANSは標準CUB、SUN、AWA2、FLOデータセットの既存の生成ZSLメソッドを一貫して改善している。 重要な性能向上は、進化的ニューラルアーキテクチャー探索がZSLの処女場を探索していることを示している。

Zero-shot learning (ZSL) aims to recognize the novel classes which cannot be collected for training a prediction model. Accordingly, generative models (e.g., generative adversarial network (GAN)) are typically used to synthesize the visual samples conditioned by the class semantic vectors and achieve remarkable progress for ZSL. However, existing GAN-based generative ZSL methods are based on hand-crafted models, which cannot adapt to various datasets/scenarios and fails to model instability. To alleviate these challenges, we propose evolutionary generative adversarial network search (termed EGANS) to automatically design the generative network with good adaptation and stability, enabling reliable visual feature sample synthesis for advancing ZSL. Specifically, we adopt cooperative dual evolution to conduct a neural architecture search for both generator and discriminator under a unified evolutionary adversarial framework. EGANS is learned by two stages: evolution generator architecture search and evolution discriminator architecture search. During the evolution generator architecture search, we adopt a many-to-one adversarial training strategy to evolutionarily search for the optimal generator. Then the optimal generator is further applied to search for the optimal discriminator in the evolution discriminator architecture search with a similar evolution search algorithm. Once the optimal generator and discriminator are searched, we entail them into various generative ZSL baselines for ZSL classification. Extensive experiments show that EGANS consistently improve existing generative ZSL methods on the standard CUB, SUN, AWA2 and FLO datasets. The significant performance gains indicate that the evolutionary neural architecture search explores a virgin field in ZSL.
翻訳日:2023-08-22 19:11:00 公開日:2023-08-19
# 人物識別のための雑音対応学習

Noisy-Correspondence Learning for Text-to-Image Person Re-identification ( http://arxiv.org/abs/2308.09911v1 )

ライセンス: Link先を確認
Yang Qin, Yingke Chen, Dezhong Peng, Xi Peng, Joey Tianyi Zhou, and Peng Hu(参考訳) テキスト・ツー・イメージ・パーソン・リアイデンティティ(TIReID)は,テキスト・クエリーに基づいて対象者を検索することを目的とした,クロスモーダル・コミュニティにおいて魅力的なトピックである。 多くのTIReID手法が提案され、有望な性能を達成したが、実世界のシナリオでは必ずしもそうではないため、トレーニング画像とテキストのペアが正しく一致していると暗黙的に仮定している。 実際、画像とテキストのペアは、画像の低品質とアノテーションエラーのため、必然的に非相関または偽相関、すなわち雑音対応(nc)が存在する。 この問題を解決するために,NCでも頑健な視覚関係を学習できる新しいロバスト二重埋め込み法(RDE)を提案する。 具体的には、RDEは2つの主要コンポーネントから構成される。 1) 2重埋め込みモジュールの二重きめ細かな決定を活用してクリーンなトレーニングデータのコンセンサスセットを得る信頼性コンセンサスディビジョン(CCD)モジュールにより、モデルが正確で信頼性の高い視覚的セマンティックアソシエーションを学習できるようにする。 2) trit-alignment loss(tal)は、ncを急速に過大化する傾向がある従来の3重項損失を、すべての負値に対する対指数上限に緩和するので、モデルが偽画像テキストペアを過大に強調することを防止する。 我々は、CUHK-PEDES、ICFG-PEDES、RSTPReIDの3つの公開ベンチマークにおいて、RDEの性能と堅牢性を評価するために広範な実験を行った。 提案手法は,3つのデータセットの合成ノイズ対応と非合成ノイズ対応を両立させる。

Text-to-image person re-identification (TIReID) is a compelling topic in the cross-modal community, which aims to retrieve the target person based on a textual query. Although numerous TIReID methods have been proposed and achieved promising performance, they implicitly assume the training image-text pairs are correctly aligned, which is not always the case in real-world scenarios. In practice, the image-text pairs inevitably exist under-correlated or even false-correlated, a.k.a noisy correspondence (NC), due to the low quality of the images and annotation errors. To address this problem, we propose a novel Robust Dual Embedding method (RDE) that can learn robust visual-semantic associations even with NC. Specifically, RDE consists of two main components: 1) A Confident Consensus Division (CCD) module that leverages the dual-grained decisions of dual embedding modules to obtain a consensus set of clean training data, which enables the model to learn correct and reliable visual-semantic associations. 2) A Triplet-Alignment Loss (TAL) relaxes the conventional triplet-ranking loss with hardest negatives, which tends to rapidly overfit NC, to a log-exponential upper bound over all negatives, thus preventing the model from overemphasizing false image-text pairs. We conduct extensive experiments on three public benchmarks, namely CUHK-PEDES, ICFG-PEDES, and RSTPReID, to evaluate the performance and robustness of our RDE. Our method achieves state-of-the-art results both with and without synthetic noisy correspondences on all three datasets.
翻訳日:2023-08-22 19:10:31 公開日:2023-08-19
# ポーズ確率モデルを用いた物理誘導ヒトモーションキャプチャ

Physics-Guided Human Motion Capture with Pose Probability Modeling ( http://arxiv.org/abs/2308.09910v1 )

ライセンス: Link先を確認
Jingyi Ju, Buzhen Huang, Chen Zhu, Zhihao Li and Yangang Wang(参考訳) 人間のモーションキャプチャーに物理を組み込むことで、浮き、足の滑り、地面の浸透などのアーティファクトを避けることが、有望な方向である。 既存の解は常にキネマティックな結果を参照運動として採用し、物理は後処理モジュールとして扱われる。 しかし、奥行きの曖昧さのため、単眼のモーションキャプチャーは必然的にノイズに悩まされ、ノイズの基準はしばしば物理に基づく追跡に失敗する。 この障害に対処するために,我々は,モデル化されたポーズ確率分布から物理的に妥当な人間の動きを再構築するために,逆拡散過程における解法指導として物理学を利用する。 具体的には, 2次元から3次元への昇降の不確かさを符号化し, 逆拡散を容易にする潜在ガウス模型の訓練を行った。 そして、その分布からサンプリングされた動きを追跡する物理モジュールを構築する。 追跡運動と画像観察の相違は、動きを洗練するために逆拡散モデルに対して明示的なガイダンスを与えるために用いられる。 数回の反復で、物理に基づく追跡とキネマティック・デノゲーションは互いに促進し、物理的に妥当な人間の動きを生成する。 実験の結果, 従来の物理法よりも, ジョイント精度と成功率の両面で優れていた。 詳細は \url{https://github.com/Me-Ditto/Physics-Guided-Mocap} で確認できる。

Incorporating physics in human motion capture to avoid artifacts like floating, foot sliding, and ground penetration is a promising direction. Existing solutions always adopt kinematic results as reference motions, and the physics is treated as a post-processing module. However, due to the depth ambiguity, monocular motion capture inevitably suffers from noises, and the noisy reference often leads to failure for physics-based tracking. To address the obstacles, our key-idea is to employ physics as denoising guidance in the reverse diffusion process to reconstruct physically plausible human motion from a modeled pose probability distribution. Specifically, we first train a latent gaussian model that encodes the uncertainty of 2D-to-3D lifting to facilitate reverse diffusion. Then, a physics module is constructed to track the motion sampled from the distribution. The discrepancies between the tracked motion and image observation are used to provide explicit guidance for the reverse diffusion model to refine the motion. With several iterations, the physics-based tracking and kinematic denoising promote each other to generate a physically plausible human motion. Experimental results show that our method outperforms previous physics-based methods in both joint accuracy and success rate. More information can be found at \url{https://github.com/Me-Ditto/Physics-Guided-Mocap}.
翻訳日:2023-08-22 19:09:56 公開日:2023-08-19
# マルチエージェント強化学習における繰り返し探索

Never Explore Repeatedly in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2308.09909v1 )

ライセンス: Link先を確認
Chenghao Li, Tonghan Wang, Chongjie Zhang, Qianchuan Zhao(参考訳) 多エージェント強化学習の領域では、本質的なモチベーションが探索の重要ツールとして現れている。 多くの本質的な報酬の計算は、ニューラルネットワーク近似器を用いた変分後部の推定に依存しているが、これらのニューラルネットワーク統計近似器の限られた表現能力のために顕著な課題が表面化している。 我々は、この課題を、エージェントが繰り返しタスク空間の制限された領域を探索する「再考」問題として挙げる。 これに対処するため,我々は動的報酬スケーリング手法を提案する。 本手法は, 従来調査された地域において, 内因性報酬の有意な変動を安定化させ, より広範な探査を促進することを目的としている。 実験結果から,Google Research FootballやStarCraft IIのマイクロマネジメントタスク,特にスパース報酬設定など,要求される環境におけるパフォーマンスの向上が示唆された。

In the realm of multi-agent reinforcement learning, intrinsic motivations have emerged as a pivotal tool for exploration. While the computation of many intrinsic rewards relies on estimating variational posteriors using neural network approximators, a notable challenge has surfaced due to the limited expressive capability of these neural statistics approximators. We pinpoint this challenge as the "revisitation" issue, where agents recurrently explore confined areas of the task space. To combat this, we propose a dynamic reward scaling approach. This method is crafted to stabilize the significant fluctuations in intrinsic rewards in previously explored areas and promote broader exploration, effectively curbing the revisitation phenomenon. Our experimental findings underscore the efficacy of our approach, showcasing enhanced performance in demanding environments like Google Research Football and StarCraft II micromanagement tasks, especially in sparse reward settings.
翻訳日:2023-08-22 19:09:32 公開日:2023-08-19
# LEGO: ポイントクラウドによるオンラインマルチオブジェクトトラッキングのための学習とグラフ最適化モジュールトラッカー

LEGO: Learning and Graph-Optimized Modular Tracker for Online Multi-Object Tracking with Point Clouds ( http://arxiv.org/abs/2308.09908v1 )

ライセンス: Link先を確認
Zhenrong Zhang, Jianan Liu, Yuxuan Xia, Tao Huang, Qing-Long Han, Hongbin Liu(参考訳) オンラインマルチオブジェクトトラッキング(MOT)は、自律システムにおいて重要な役割を果たす。 最先端のアプローチは通常追跡・検出方式を採用しており、データアソシエーションが重要な役割を果たす。 本稿では,既存の文献におけるデータ関連性を改善するための学習とグラフ最適化(LEGO)モジュールトラッカーを提案する。 提案するLEGOトラッカーはグラフ最適化と自己認識機構を統合し,関連スコアマップを効率的に定式化し,時間枠間のオブジェクトの正確なマッチングを容易にする。 状態更新プロセスをさらに強化するため、オブジェクト状態に時間的コヒーレンスを組み込んだ一貫したトラッキングを保証するために、Kalmanフィルタが追加された。 提案手法は,LiDARとLiDARの融合方式を含む他のオンライン追跡手法と比較して,優れた性能を示した。 LEGOは、KITTIオブジェクトトラッキング評価ランキングボードに結果が提出された時点で第1位であり、本論文提出時点では、KITTI MOTベンチマーク1のオンライントラッカーの中で第2位にとどまっている。

Online multi-object tracking (MOT) plays a pivotal role in autonomous systems. The state-of-the-art approaches usually employ a tracking-by-detection method, and data association plays a critical role. This paper proposes a learning and graph-optimized (LEGO) modular tracker to improve data association performance in the existing literature. The proposed LEGO tracker integrates graph optimization and self-attention mechanisms, which efficiently formulate the association score map, facilitating the accurate and efficient matching of objects across time frames. To further enhance the state update process, the Kalman filter is added to ensure consistent tracking by incorporating temporal coherence in the object states. Our proposed method utilizing LiDAR alone has shown exceptional performance compared to other online tracking approaches, including LiDAR-based and LiDAR-camera fusion-based methods. LEGO ranked 1st at the time of submitting results to KITTI object tracking evaluation ranking board and remains 2nd at the time of submitting this paper, among all online trackers in the KITTI MOT benchmark for cars1
翻訳日:2023-08-22 19:09:17 公開日:2023-08-19
# グラフニューラルネットワークによるデータセット間の脳波計測

Imputing Brain Measurements Across Data Sets via Graph Neural Networks ( http://arxiv.org/abs/2308.09907v1 )

ライセンス: Link先を確認
Yixin Wang, Wei Peng, Susan F. Tapert, Qingyu Zhao, Kilian M. Pohl(参考訳) 公開されている構造MRIのデータセットには、機械学習モデルのトレーニングに重要な脳の領域(ROI)の具体的な測定が含まれていない可能性がある。 例えば、Freesurferによって計算された曲率スコアは、青年脳認知開発(ABCD)研究によって公表されていない。 Freesurferをデータセットに再適用するだけでこの問題に対処できる。 しかし、このアプローチは一般に計算的かつ労働集約的である(例えば品質管理を必要とする)。 もうひとつの選択肢は、ディープラーニングアプローチによる測定値の欠如だ。 しかし、最先端技術は、測定全体よりもランダムに欠落した値を推定するように設計されている。 そこで本稿では,不足した測定値を含む他の(パブリックな)データセットの予測タスクとして計算問題を再設定し,関心のあるデータセットとROIの測定値を共有することを提案する。 その後、ディープラーニングモデルをトレーニングして、共有データから欠落測定値を予測し、その後、他のデータセットに適用する。 提案アルゴリズムは、グラフニューラルネットワーク(GNN)によるROI測定の依存関係をモデル化し、グラフエンコーディングを並列アーキテクチャに入力することで、脳計測(例えば性)の人口差を推定する。 このアーキテクチャは、グラフデコーダを同時に最適化し、人口統計因子を予測するために値と分類器をインプットする。 我々は、DAGI(Demographic Aware Graph-based Imputation)と呼ばれる手法を試して、ABCD(N=3760)の欠落したFreesurfer測定を、National Consortium on Alcohol and Neurodevelopment in Adolescence (NCANDA, N=540)が公開しているものに対して予測器をトレーニングすることで、ABCD(N=3760)の計測結果を伝達する。

Publicly available data sets of structural MRIs might not contain specific measurements of brain Regions of Interests (ROIs) that are important for training machine learning models. For example, the curvature scores computed by Freesurfer are not released by the Adolescent Brain Cognitive Development (ABCD) Study. One can address this issue by simply reapplying Freesurfer to the data set. However, this approach is generally computationally and labor intensive (e.g., requiring quality control). An alternative is to impute the missing measurements via a deep learning approach. However, the state-of-the-art is designed to estimate randomly missing values rather than entire measurements. We therefore propose to re-frame the imputation problem as a prediction task on another (public) data set that contains the missing measurements and shares some ROI measurements with the data sets of interest. A deep learning model is then trained to predict the missing measurements from the shared ones and afterwards is applied to the other data sets. Our proposed algorithm models the dependencies between ROI measurements via a graph neural network (GNN) and accounts for demographic differences in brain measurements (e.g. sex) by feeding the graph encoding into a parallel architecture. The architecture simultaneously optimizes a graph decoder to impute values and a classifier in predicting demographic factors. We test the approach, called Demographic Aware Graph-based Imputation (DAGI), on imputing those missing Freesurfer measurements of ABCD (N=3760) by training the predictor on those publicly released by the National Consortium on Alcohol and Neurodevelopment in Adolescence (NCANDA, N=540)...
翻訳日:2023-08-22 19:08:56 公開日:2023-08-19
# DiffusionTrack:マルチオブジェクト追跡のための拡散モデル

DiffusionTrack: Diffusion Model For Multi-Object Tracking ( http://arxiv.org/abs/2308.09905v1 )

ライセンス: Link先を確認
Run Luo, Zikai Song, Lintao Ma, Jinlin Wei, Wei Yang, Min Yang(参考訳) マルチオブジェクトトラッキング(MOT)は、単一のフレーム内の個々のオブジェクトを検出し、それらを複数のフレーム間で関連付けることを目的とした、難しい視覚タスクである。 近年のMOT法は,2段階追跡検出法(TBD)と1段階関節検出追跡法(JDT)に分類できる。 これらのアプローチの成功にもかかわらず、それらはまた、有害なグローバルまたはローカルの矛盾、堅牢性とモデルの複雑さの間の不利なトレードオフ、同じビデオ内の異なるシーンでの柔軟性の欠如など、共通の問題も抱えている。 本稿では,物体検出と相関を,一対の雑音箱から一対の地中箱への一貫した分節拡散過程として定式化する,単純かつ頑健な枠組みを提案する。 このプログレッシブデノナイジング拡散戦略は、トラッカーの有効性を大幅に向上させ、様々な物体の識別を可能にする。 トレーニング期間中、ペア化されたオブジェクトボックスは、ペア化された接地木箱からランダムな分布へと拡散し、このノイズ発生過程を逆転させて検出と追跡を同時に学習する。 推論において、モデルはペア化されたランダムに生成されたボックスの集合を改良し、フレキシブルなワンステップまたはマルチステップのデノナイズ拡散過程における検出および追跡結果を生成する。 MOT17,MOT20,Dancetrackなど,広く使用されている3つのMOTベンチマークに対する大規模な実験により,現在の最先端手法と比較して,我々のアプローチが競争性能を達成することを示した。

Multi-object tracking (MOT) is a challenging vision task that aims to detect individual objects within a single frame and associate them across multiple frames. Recent MOT approaches can be categorized into two-stage tracking-by-detection (TBD) methods and one-stage joint detection and tracking (JDT) methods. Despite the success of these approaches, they also suffer from common problems, such as harmful global or local inconsistency, poor trade-off between robustness and model complexity, and lack of flexibility in different scenes within the same video. In this paper we propose a simple but robust framework that formulates object detection and association jointly as a consistent denoising diffusion process from paired noise boxes to paired ground-truth boxes. This novel progressive denoising diffusion strategy substantially augments the tracker's effectiveness, enabling it to discriminate between various objects. During the training stage, paired object boxes diffuse from paired ground-truth boxes to random distribution, and the model learns detection and tracking simultaneously by reversing this noising process. In inference, the model refines a set of paired randomly generated boxes to the detection and tracking results in a flexible one-step or multi-step denoising diffusion process. Extensive experiments on three widely used MOT benchmarks, including MOT17, MOT20, and Dancetrack, demonstrate that our approach achieves competitive performance compared to the current state-of-the-art methods.
翻訳日:2023-08-22 19:08:25 公開日:2023-08-19
# 心血管疾患検出におけるAutoMLの有用性に関する研究

Study on the effectiveness of AutoML in detecting cardiovascular disease ( http://arxiv.org/abs/2308.09947v1 )

ライセンス: Link先を確認
T.V. Afanasieva and A.P. Kuzlyakin and A.V. Komolov(参考訳) 心臓血管疾患は慢性的な非感染性疾患の患者に広く見られ、労働年齢を含む主要な死因の1つである。 本稿では、機械学習(ML)が心血管疾患の予測を可能にする有望な技術である患者指向システムの開発と応用との関連について述べる。 Automated Machine Learning(AutoML)は、アプリケーションユーザ、特に医療専門家による患者指向システムの開発において重要な、AI/MLアプリケーション開発プロセスの簡素化と高速化を可能にする。 筆者らは,uci機械学習リポジトリから収集した心血管疾患指標の5つのデータセットを組み合わせることで,このタイプの疾患検出の有効性を検証できる3つのシナリオと自動機械学習の応用のためのフレームワークを提案する。 この研究では、13種類の基本MLモデルのハイパーパラメータ(KNeighborsUnif、KNeighborsDist、LightGBMXT、LightGBM、RandomForestGini、RandomForestEntr、CatBoost、ExtraTreesGini、ExtraTreesEntr、NeuralNetFastA、XGBoost、NeuralNetTorch、LightGBMLarge)を使用、最適化し、重み付きアンサンブルで最も正確なモデルを含むAutoMLモデルについて検討した。 その結果, 心血管疾患検出のためのAutoMLモデルの構造は, 使用する基本モデルの効率と精度だけでなく, 初期データ, 特にデータ正規化手法の事前処理のシナリオにも依存していることがわかった。 比較分析の結果, 心血管疾患検出におけるAutoMLモデルの精度は87.41%から92.3%の範囲で変化しており, ソースデータをバイナリ値に正規化する場合に最大精度が得られ, 組込みAutoML法では最小値が得られた。

Cardiovascular diseases are widespread among patients with chronic noncommunicable diseases and are one of the leading causes of death, including in the working age. The article presents the relevance of the development and application of patient-oriented systems, in which machine learning (ML) is a promising technology that allows predicting cardiovascular diseases. Automated machine learning (AutoML) makes it possible to simplify and speed up the process of developing AI/ML applications, which is key in the development of patient-oriented systems by application users, in particular medical specialists. The authors propose a framework for the application of automatic machine learning and three scenarios that allowed for data combining five data sets of cardiovascular disease indicators from the UCI Machine Learning Repository to investigate the effectiveness in detecting this class of diseases. The study investigated one AutoML model that used and optimized the hyperparameters of thirteen basic ML models (KNeighborsUnif, KNeighborsDist, LightGBMXT, LightGBM, RandomForestGini, RandomForestEntr, CatBoost, ExtraTreesGini, ExtraTreesEntr, NeuralNetFastA, XGBoost, NeuralNetTorch, LightGBMLarge) and included the most accurate models in the weighted ensemble. The results of the study showed that the structure of the AutoML model for detecting cardiovascular diseases depends not only on the efficiency and accuracy of the basic models used, but also on the scenarios for preprocessing the initial data, in particular, on the technique of data normalization. The comparative analysis showed that the accuracy of the AutoML model in detecting cardiovascular disease varied in the range from 87.41% to 92.3%, and the maximum accuracy was obtained when normalizing the source data into binary values, and the minimum was obtained when using the built-in AutoML technique.
翻訳日:2023-08-22 19:01:24 公開日:2023-08-19
# 階層構造潜在注意モデルによる弱教師付き行動定位

Weakly-Supervised Action Localization by Hierarchically-structured Latent Attention Modeling ( http://arxiv.org/abs/2308.09946v1 )

ライセンス: Link先を確認
Guiqin Wang and Peng Zhao and Cong Zhao and Shusen Yang and Jie Cheng and Luziwei Leng and Jianxing Liao and Qinghai Guo(参考訳) 弱教師付きアクションローカライゼーションは、ビデオレベルのラベルのみを持つ未トリミングビデオにおけるアクションインスタンスを認識およびローカライズすることを目的としている。 既存のモデルの多くはマルチインスタンス学習(mil)に依存しており、ラベルなしインスタンスの予測はラベル付きバッグの分類によって監督される。 MILに基づく手法は、分類において達成されるコジェント性能と比較的よく研究されているが、ローカライゼーションについては研究されていない。 一般に、ビデオレベルの分類によって時間領域を特定するが、特徴的意味論の時間的変動を無視する。 そこで本研究では,特徴セマンティクスの時間変化を学習するための新しい注意に基づく階層構造潜在モデルを提案する。 具体的には、2つのコンポーネントを包含し、1つは教師なしの変更点検出モジュールで、変化率に基づいて時間階層内の映像特徴の潜在表現を学習し、もう1つは前景の変化点を境界として選択する注意に基づく分類モデルである。 本モデルの有効性を評価するため, THUMOS-14とActivityNet-v1.3の2つのベンチマークデータセットに対して広範囲な実験を行った。 実験の結果,本手法は現在の最先端手法よりも優れており,完全教師付き手法で同等の性能を達成できることがわかった。

Weakly-supervised action localization aims to recognize and localize action instancese in untrimmed videos with only video-level labels. Most existing models rely on multiple instance learning(MIL), where the predictions of unlabeled instances are supervised by classifying labeled bags. The MIL-based methods are relatively well studied with cogent performance achieved on classification but not on localization. Generally, they locate temporal regions by the video-level classification but overlook the temporal variations of feature semantics. To address this problem, we propose a novel attention-based hierarchically-structured latent model to learn the temporal variations of feature semantics. Specifically, our model entails two components, the first is an unsupervised change-points detection module that detects change-points by learning the latent representations of video features in a temporal hierarchy based on their rates of change, and the second is an attention-based classification model that selects the change-points of the foreground as the boundaries. To evaluate the effectiveness of our model, we conduct extensive experiments on two benchmark datasets, THUMOS-14 and ActivityNet-v1.3. The experiments show that our method outperforms current state-of-the-art methods, and even achieves comparable performance with fully-supervised methods.
翻訳日:2023-08-22 19:00:42 公開日:2023-08-19
# 糖尿病網膜症の診断と段階評価のための2分岐型深層学習ネットワーク

Dual Branch Deep Learning Network for Detection and Stage Grading of Diabetic Retinopathy ( http://arxiv.org/abs/2308.09945v1 )

ライセンス: Link先を確認
Hossein Shakibania, Sina Raoufi, Behnam Pourafkham, Hassan Khotanlou, and Muharram Mansoorizadeh(参考訳) 糖尿病網膜症 (diabetic retinopathy) は糖尿病の重篤な合併症である。 早期かつ正確な診断は治療の成功に不可欠である。 本稿では,単一眼底網膜画像を用いた糖尿病網膜症の検出と段階評価のための深層学習法を提案する。 提案モデルでは,2つの最先端の事前学習モデルを特徴抽出器として利用し,新しいデータセットでそれらを微調整する。 提案されたモデルは、公開ソースから取得したaptos 2019データセットを含む、大規模なマルチセンタデータセットでトレーニングされる。 APTOS 2019では糖尿病網膜症の検出とステージ分類において顕著なパフォーマンスを示し、定評ある文献よりも優れていた。 二進分類では、提案手法は精度98.50%、感度99.46%、特異性97.51%を達成している。 段階格付けでは、二次重み付きkappaは93.00%、精度89.60%、感度89.60%、特異性97.72%となる。 提案手法は糖尿病網膜症に対する信頼性の高いスクリーニング・段階評価ツールとして機能し,臨床意思決定と患者ケアの促進に寄与する。

Diabetic retinopathy is a severe complication of diabetes that can lead to permanent blindness if not treated promptly. Early and accurate diagnosis of the disease is essential for successful treatment. This paper introduces a deep learning method for the detection and stage grading of diabetic retinopathy, using a single fundus retinal image. Our model utilizes transfer learning, employing two state-of-the-art pre-trained models as feature extractors and fine-tuning them on a new dataset. The proposed model is trained on a large multi-center dataset, including the APTOS 2019 dataset, obtained from publicly available sources. It achieves remarkable performance in diabetic retinopathy detection and stage classification on the APTOS 2019, outperforming the established literature. For binary classification, the proposed approach achieves an accuracy of 98.50%, a sensitivity of 99.46%, and a specificity of 97.51%. In stage grading, it achieves a quadratic weighted kappa of 93.00%, an accuracy of 89.60%, a sensitivity of 89.60%, and a specificity of 97.72%. The proposed approach serves as a reliable screening and stage grading tool for diabetic retinopathy, offering significant potential to enhance clinical decision-making and patient care.
翻訳日:2023-08-22 19:00:18 公開日:2023-08-19
# オープンワールドテストタイムトレーニングのロバスト性について:動的プロトタイプ拡張による自己学習

On the Robustness of Open-World Test-Time Training: Self-Training with Dynamic Prototype Expansion ( http://arxiv.org/abs/2308.09942v1 )

ライセンス: Link先を確認
Yushu Li, Xun Xu, Yongyi Su, Kui Jia(参考訳) ディープラーニングモデルを低レイテンシで未知のターゲット領域分布に一般化することは、テスト時間トレーニング/適応(TTT/TTA)の研究を動機付けている。 既存のアプローチは、しばしば、適切なターゲットドメインデータの下でのテスト時間トレーニングパフォーマンスを改善することに焦点を合わせています。 この研究で明らかになったように、多くの最先端の手法は、ターゲットドメインが強力なアウト・オブ・ディストリビューション(OOD)データ、すなわちオープンワールドテストタイムトレーニング(OWTTT)で汚染されると性能を維持することができない。 この失敗は主に、強いOODサンプルと通常の弱いOODサンプルを区別できないためである。 OWTTTの堅牢性を向上させるために,我々はまず,自己学習型TTT法の有効性を向上させる適応型強力なOODプルーニングを開発した。 さらに,プロトタイプを動的に拡張して強力なOODサンプルを表現し,弱い/強いOODデータ分離を改善する方法を提案する。 最後に, 分散アライメントによる自己学習を規則化し, 5つのowtttベンチマークの最先端性能を得る。 コードはhttps://github.com/Yushu-Li/OWTTTで公開されている。

Generalizing deep learning models to unknown target domain distribution with low latency has motivated research into test-time training/adaptation (TTT/TTA). Existing approaches often focus on improving test-time training performance under well-curated target domain data. As figured out in this work, many state-of-the-art methods fail to maintain the performance when the target domain is contaminated with strong out-of-distribution (OOD) data, a.k.a. open-world test-time training (OWTTT). The failure is mainly due to the inability to distinguish strong OOD samples from regular weak OOD samples. To improve the robustness of OWTTT we first develop an adaptive strong OOD pruning which improves the efficacy of the self-training TTT method. We further propose a way to dynamically expand the prototypes to represent strong OOD samples for an improved weak/strong OOD data separation. Finally, we regularize self-training with distribution alignment and the combination yields the state-of-the-art performance on 5 OWTTT benchmarks. The code is available at https://github.com/Yushu-Li/OWTTT.
翻訳日:2023-08-22 18:59:55 公開日:2023-08-19
# 動的システムの視点からの自己認識機構の理解

Understanding Self-attention Mechanism via Dynamical System Perspective ( http://arxiv.org/abs/2308.09939v1 )

ライセンス: Link先を確認
Zhongzhan Huang, Mingfu Liang, Jinghui Qin, Shanshan Zhong, Liang Lin(参考訳) SAM(Self-attention mechanism)は人工知能の様々な分野で広く使われており、様々なモデルの性能向上に成功している。 しかし、このメカニズムの現在の説明は、主に直感と経験に基づいているが、SAMがパフォーマンスの助けとなる直接的なモデリングはいまだに存在しない。 本稿では,本論文において,ニューラルネットワークの力学系の観点から,通常微分方程式 (odes) の高精度解における本質的剛性現象 (sp) が高性能ニューラルネットワーク (nn) にも広く存在することを示す。 したがって, NNのSP測定能力は, 高い性能を得るために必要であり, NNの訓練の難しさに重要な要因である。 固いODEを解くのに有効な適応的なステップサイズ法と同様に、SAMは剛性を考慮したステップサイズ適応器であり、剛性情報の推定と適応的注意値の生成により、内在性SPを測定するモデルの表現能力を向上し、SAMがモデル性能にどのような恩恵をもたらすかについての新しい理解を提供する。 この新しい視点はSAMで宝くじの仮説を説明し、表現能力の新しい定量的指標を設計し、新しい理論にインスパイアされたアプローチであるStepNetをインスピレーションする。 いくつかの人気のあるベンチマークに関する大規模な実験では、StepNetがきめ細かい剛性情報を抽出し、SPを正確に測定できることが示され、様々な視覚的タスクが大幅に改善された。

The self-attention mechanism (SAM) is widely used in various fields of artificial intelligence and has successfully boosted the performance of different models. However, current explanations of this mechanism are mainly based on intuitions and experiences, while there still lacks direct modeling for how the SAM helps performance. To mitigate this issue, in this paper, based on the dynamical system perspective of the residual neural network, we first show that the intrinsic stiffness phenomenon (SP) in the high-precision solution of ordinary differential equations (ODEs) also widely exists in high-performance neural networks (NN). Thus the ability of NN to measure SP at the feature level is necessary to obtain high performance and is an important factor in the difficulty of training NN. Similar to the adaptive step-size method which is effective in solving stiff ODEs, we show that the SAM is also a stiffness-aware step size adaptor that can enhance the model's representational ability to measure intrinsic SP by refining the estimation of stiffness information and generating adaptive attention values, which provides a new understanding about why and how the SAM can benefit the model performance. This novel perspective can also explain the lottery ticket hypothesis in SAM, design new quantitative metrics of representational ability, and inspire a new theoretic-inspired approach, StepNet. Extensive experiments on several popular benchmarks demonstrate that StepNet can extract fine-grained stiffness information and measure SP accurately, leading to significant improvements in various visual tasks.
翻訳日:2023-08-22 18:59:32 公開日:2023-08-19
# オンラインサービス用多変量モニタリングメトリクスによる実用的異常検出

Practical Anomaly Detection over Multivariate Monitoring Metrics for Online Services ( http://arxiv.org/abs/2308.09937v1 )

ライセンス: Link先を確認
Jinyang Liu, Tianyi Yang, Zhuangbin Chen, Yuxin Su, Cong Feng, Zengyin Yang, Michael R. Lyu(参考訳) 現代のソフトウェアシステムが複雑さとボリュームの面で成長を続けるにつれて、システムの健康状態をプロファイリングする多変量監視メトリクスの異常検出がますます重要で困難になっていく。 特に、異なるメトリクスとその歴史的パターン間の依存関係は、迅速かつ正確な異常検出を追求する上で重要な役割を果たす。 既存のアプローチは、そのような情報を効率的に取得できない産業的ニーズに欠けています。 本稿では,この大きなギャップを埋めるために,協調機械に基づく多変量モニタリングメトリクスの異常検出フレームワークであるCMAnomalyを提案する。 提案するコラボレーティブマシンは,線形時間複雑性を伴う特徴次元と時間次元とを両立させる機構である。 コスト効率のよいモデルを使用して、監視メトリクスと、その履歴パターン間の依存性を、異常検出に利用することができる。 提案するフレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した公開データと産業データの両方で広く評価されている。 実験の結果、最先端のベースラインモデルと比較して、CMAnomalyは平均F1スコア0.9494を達成し、ベースラインを6.77%から10.68%上回り、10倍から20倍速く走ることを示した。 さらに、huaweiクラウドにcmanomalyをデプロイした経験も共有しています。

As modern software systems continue to grow in terms of complexity and volume, anomaly detection on multivariate monitoring metrics, which profile systems' health status, becomes more and more critical and challenging. In particular, the dependency between different metrics and their historical patterns plays a critical role in pursuing prompt and accurate anomaly detection. Existing approaches fall short of industrial needs for being unable to capture such information efficiently. To fill this significant gap, in this paper, we propose CMAnomaly, an anomaly detection framework on multivariate monitoring metrics based on collaborative machine. The proposed collaborative machine is a mechanism to capture the pairwise interactions along with feature and temporal dimensions with linear time complexity. Cost-effective models can then be employed to leverage both the dependency between monitoring metrics and their historical patterns for anomaly detection. The proposed framework is extensively evaluated with both public data and industrial data collected from a large-scale online service system of Huawei Cloud. The experimental results demonstrate that compared with state-of-the-art baseline models, CMAnomaly achieves an average F1 score of 0.9494, outperforming baselines by 6.77% to 10.68%, and runs 10X to 20X faster. Furthermore, we also share our experience of deploying CMAnomaly in Huawei Cloud.
翻訳日:2023-08-22 18:59:04 公開日:2023-08-19
# BLIVA: テキストリッチ視覚質問の処理を改善するためのシンプルなマルチモーダルLLM

BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions ( http://arxiv.org/abs/2308.09936v1 )

ライセンス: Link先を確認
W. Hu, Y. Xu, Y. Li, W. Li, Z. Chen, Z. Tu(参考訳) 視覚言語モデル(VLM)は、視覚的理解機能を組み込んだ大規模言語モデル(LLM)を拡張し、オープンな視覚的質問応答(VQA)タスクに対処する上で大きな進歩を見せている。 しかし、これらのモデルはテキストに溶け込んだ画像を正確に解釈することはできない。 画像から情報を抽出する標準的な手順は、しばしば一定のクエリの埋め込みを学習する。 これらの埋め込みは画像コンテキストをカプセル化するために設計され、後にLSMのソフトプロンプト入力として使われる。 しかし、このプロセスはトークン数に限定されており、テキストに富んだコンテキストでシーンの認識を削減できる可能性がある。 そこで本研究では,Visual Assistantを用いたInstructBLIPの拡張版であるBLIVAを紹介する。 BLIVAは、InstructBLIPからのクエリの埋め込みと、LLaVAにインスパイアされたLLMにエンコードされたパッチの埋め込みを直接プロジェクトする。 このアプローチはモデルがクエリデコーディングプロセス中に見逃される可能性のある複雑な詳細をキャプチャするのを支援する。 我々のモデルであるBLIVAは、テキストリッチなVQAベンチマーク(OCR-VQAベンチマークでは最大17.76倍)と典型的なVQAベンチマーク(Visual Space Reasoningベンチマークでは最大7.9倍)の処理において、ベースラインであるInstructBLIPと比較して、パフォーマンスを大幅に向上することを示す。 BLIVAは、テキストの有無に関わらず、現実世界の画像をデコードする重要な能力を示す。 BLIVAによって実現された幅広い産業応用を実証するために,13のカテゴリにまたがる質問応答セットと組み合わせたYouTubeサムネイルからなる新しいデータセットを用いてモデルを評価した。 さらなる調査に興味のある研究者は、コードとモデルはhttps://github.com/mlpc-ucsd/bliva.gitで自由にアクセスできます。

Vision Language Models (VLMs), which extend Large Language Models (LLM) by incorporating visual understanding capability, have demonstrated significant advancements in addressing open-ended visual question-answering (VQA) tasks. However, these models cannot accurately interpret images infused with text, a common occurrence in real-world scenarios. Standard procedures for extracting information from images often involve learning a fixed set of query embeddings. These embeddings are designed to encapsulate image contexts and are later used as soft prompt inputs in LLMs. Yet, this process is limited to the token count, potentially curtailing the recognition of scenes with text-rich context. To improve upon them, the present study introduces BLIVA: an augmented version of InstructBLIP with Visual Assistant. BLIVA incorporates the query embeddings from InstructBLIP and also directly projects encoded patch embeddings into the LLM, a technique inspired by LLaVA. This approach assists the model to capture intricate details potentially missed during the query decoding process. Empirical evidence demonstrates that our model, BLIVA, significantly enhances performance in processing text-rich VQA benchmarks (up to 17.76\% in OCR-VQA benchmark) and in undertaking typical VQA benchmarks (up to 7.9\% in Visual Spatial Reasoning benchmark), comparing to our baseline InstructBLIP. BLIVA demonstrates significant capability in decoding real-world images, irrespective of text presence. To demonstrate the broad industry applications enabled by BLIVA, we evaluate the model using a new dataset comprising YouTube thumbnails paired with question-answer sets across 13 diverse categories. For researchers interested in further exploration, our code and models are freely accessible at https://github.com/mlpc-ucsd/BLIVA.git
翻訳日:2023-08-22 18:58:43 公開日:2023-08-19
# TDG:テキスト誘導ドメイン一般化

TDG: Text-guided Domain Generalization ( http://arxiv.org/abs/2308.09931v1 )

ライセンス: Link先を確認
Geng Liu and Yuxi Wang(参考訳) ドメイン一般化(DG)は、単一または複数のソースドメインで訓練されたモデルを、見えないターゲットドメインに一般化しようとする。 近年のVisual-and-Language Pre-trainedモデルの成功を活かして、余分なテキスト情報を導入することでドメインの一般化に欠かせないと論じている。 本稿では,ドメイン一般化のための新しいテキスト誘導ドメイン一般化(TDG)パラダイムを開発し,以下の3つの側面を含む。 具体的には、まず、新しいドメイン関連単語で現在のドメインの記述を拡張する自動単語生成手法を考案する。 次に,画像特徴量と共通表現空間を共有するプロンプト学習に基づくテキスト特徴生成手法により,生成されたドメイン情報をテキスト特徴空間に埋め込む。 最後に、入力画像特徴と生成されたテキスト特徴の両方を利用して、未確認のターゲットドメインをうまく一般化する特別な設計の分類器を訓練する一方、画像エンコーダは分類器から伝播する勾配の監督の下で更新される。 実験結果から,TDGが組み込んだ手法が実装容易性の向上に寄与することが示唆された。 いくつかのドメイン一般化ベンチマークにおける実験結果から,提案フレームワークは,生成されたテキスト情報をドメイン一般化に効果的に活用することにより,優れた性能を達成できることがわかった。

Domain generalization (DG) attempts to generalize a model trained on single or multiple source domains to the unseen target domain. Benefiting from the success of Visual-and-Language Pre-trained models in recent years, we argue that it is crucial for domain generalization by introducing extra text information. In this paper, we develop a novel Text-guided Domain Generalization (TDG) paradigm for domain generalization, which includes three following aspects. Specifically, we first devise an automatic words generation method to extend the description of current domains with novel domain-relevant words. Then, we embed the generated domain information into the text feature space, by the proposed prompt learning-based text feature generation method, which shares a common representation space with the image feature. Finally, we utilize both input image features and generated text features to train a specially designed classifier that generalizes well on unseen target domains, while the image encoder is also updated under the supervision of gradients back propagated from the classifier. Our experimental results show that the techniques incorporated by TDG contribute to the performance in an easy implementation manner. Experimental results on several domain generalization benchmarks show that our proposed framework achieves superior performance by effectively leveraging generated text information in domain generalization.
翻訳日:2023-08-22 18:58:10 公開日:2023-08-19
# east: 推論のための効率的で正確なセキュアトランスフォーマーフレームワーク

East: Efficient and Accurate Secure Transformer Framework for Inference ( http://arxiv.org/abs/2308.09923v1 )

ライセンス: Link先を確認
Yuanchao Ding, Hua Guo, Yewei Guan, Weixin Liu, Jiarong Huo, Zhenyu Guan, Xiyong Zhang(参考訳) Transformerは、ChatGPTのような実用的なアプリケーションで、強力なアドバンテージのためにうまく使われてきた。 しかし、ユーザの入力は、サービス中にモデルプロバイダにリークされる。 プライバシに対する人々の関心から、プライバシを保存したトランスフォーマー推論は、そのようなサービスの要求に応えている。 非線形関数のセキュアプロトコルは、プライバシー保護トランスフォーマー推論において重要であるが、あまり研究されていない。 したがって、非線形関数のための実用的なセキュアなプロトコルを設計することは、モデルの性能には重要であるが困難である。 本研究では,効率的なトランスフォーマー推論を実現するためのフレームワークであるemph{East}を提案する。 まず,新しい難解な多項式評価アルゴリズムを提案し,それをアクティベーション関数に適用する。これによりゲルのランタイムと通信を従来のアーツと比較して1.5$\times$ 2.5$\times$ 以上削減できる。 第二に、softmaxとレイヤ正規化のためのセキュアなプロトコルは、望ましい機能を忠実に維持するために慎重に設計されている。 第3に、全体的な効率を高めるために、いくつかの最適化が行われている。 BERT に \emph{East} を適用した結果,推測精度は微調整なしで平文推論と一致していることがわかった。 Ironと比較して、1.2$\times$ローランタイム内で、約1.8$\times$ロー通信を実現しています。

Transformer has been successfully used in practical applications, such as ChatGPT, due to its powerful advantages. However, users' input is leaked to the model provider during the service. With people's attention to privacy, privacy-preserving Transformer inference is on the demand of such services. Secure protocols for non-linear functions are crucial in privacy-preserving Transformer inference, which are not well studied. Thus, designing practical secure protocols for non-linear functions is hard but significant to model performance. In this work, we propose a framework \emph{East} to enable efficient and accurate secure Transformer inference. Firstly, we propose a new oblivious piecewise polynomial evaluation algorithm and apply it to the activation functions, which reduces the runtime and communication of GELU by over 1.5$\times$ and 2.5$\times$, compared to prior arts. Secondly, the secure protocols for softmax and layer normalization are carefully designed to faithfully maintain the desired functionality. Thirdly, several optimizations are conducted in detail to enhance the overall efficiency. We applied \emph{East} to BERT and the results show that the inference accuracy remains consistent with the plaintext inference without fine-tuning. Compared to Iron, we achieve about 1.8$\times$ lower communication within 1.2$\times$ lower runtime.
翻訳日:2023-08-22 18:57:46 公開日:2023-08-19
# MDCS:長距離認識のための一貫性自己蒸留法

MDCS: More Diverse Experts with Consistency Self-distillation for Long-tailed Recognition ( http://arxiv.org/abs/2308.09922v1 )

ライセンス: Link先を確認
Qihao Zhao and Chen Jiang and Wei Hu and Fan Zhang and Jun Liu(参考訳) 近年,マルチエキスパート手法によりLTR(Long-tail Recognition)が大幅に改善されている。 我々は,LTRの促進に寄与するためにさらなる強化を必要とする2つの側面を要約する:(1)より多様な専門家,(2)モデル分散の低減。 しかし、以前の方法ではうまく処理できなかった。 そこで本稿では,従来手法が残っていたギャップを埋めるために,MDCS(Consistency Self-distillation)を用いた多種多様な専門家を提案する。 MDCSアプローチは,多様性損失(DL)と一貫性自己蒸留(CS)の2つのコアコンポーネントから構成される。 詳細は、DLは異なるカテゴリーに焦点を絞ることで、専門家間の多様性を促進する。 モデルの分散を減らすために,我々はklダイバージェンスを用いて,専門家の自己蒸留に対する弱い拡張インスタンスのより豊かな知識を蒸留する。 特に,信頼度の高いインスタンスサンプリング(cis)を設計,バイアスやノイズの少ない知識を避けるために,正しく分類されたcsのインスタンスを選択する。 分析・アブレーション研究では,従来の手法と比較して,専門家の多様性を効果的に向上し,モデルのばらつきを著しく低減し,認識精度を向上させることを実証した。 さらに,本研究におけるDLとCSの役割は相互に強化・結合されており,専門家の多様性はCSから恩恵を受けており,CSはDLなしでは顕著な成果が得られない。 MDCSは、CIFAR10-LT、CIFAR100-LT、ImageNet-LT、Places-LT、iNaturalist 2018を含む5つの人気のあるロングテールベンチマークで、最先端のベンチマークを1%$\sim$ 2%上回りました。 コードはhttps://github.com/fistyee/mdcsで入手できる。

Recently, multi-expert methods have led to significant improvements in long-tail recognition (LTR). We summarize two aspects that need further enhancement to contribute to LTR boosting: (1) More diverse experts; (2) Lower model variance. However, the previous methods didn't handle them well. To this end, we propose More Diverse experts with Consistency Self-distillation (MDCS) to bridge the gap left by earlier methods. Our MDCS approach consists of two core components: Diversity Loss (DL) and Consistency Self-distillation (CS). In detail, DL promotes diversity among experts by controlling their focus on different categories. To reduce the model variance, we employ KL divergence to distill the richer knowledge of weakly augmented instances for the experts' self-distillation. In particular, we design Confident Instance Sampling (CIS) to select the correctly classified instances for CS to avoid biased/noisy knowledge. In the analysis and ablation study, we demonstrate that our method compared with previous work can effectively increase the diversity of experts, significantly reduce the variance of the model, and improve recognition accuracy. Moreover, the roles of our DL and CS are mutually reinforcing and coupled: the diversity of experts benefits from the CS, and the CS cannot achieve remarkable results without the DL. Experiments show our MDCS outperforms the state-of-the-art by 1% $\sim$ 2% on five popular long-tailed benchmarks, including CIFAR10-LT, CIFAR100-LT, ImageNet-LT, Places-LT, and iNaturalist 2018. The code is available at https://github.com/fistyee/MDCS.
翻訳日:2023-08-22 18:57:26 公開日:2023-08-19
# NeutrEx: 表情中立性に関する3次元品質要素

NeutrEx: A 3D Quality Component Measure on Facial Expression Neutrality ( http://arxiv.org/abs/2308.09963v1 )

ライセンス: Link先を確認
Marcel Grimmer, Christian Rathgeb, Raymond Veldhuis, Christoph Busch(参考訳) 正確な顔認識システムは、国境管理やマイグレーション管理のようなセンシティブなアプリケーションでますます重要になっている。 したがって、低品質の画像が認識精度に影響を与えないように、顔画像の品質を定量化することが重要となる。 この文脈において、ISO/IEC 29794-5の現在の草案は、コンポーネント品質の概念を導入し、変化の単一要因が認識結果にどのように影響するかを推定する。 本研究では,中性表現アンカーへの3次元顔再構成の蓄積距離に基づく品質指標(NeutrEx)を提案する。 顔表情分類のための畳み込みニューラルネットワークから抽出した顔埋め込みに対する支援ベクトルマシンの訓練により得られたベースラインアプローチと比較して,提案手法の優位性を示す。 さらに,頂点距離を計算し,最も影響の大きい顔領域を明らかにし,オペレーターが被験者に対してアクション可能なフィードバックを行えるようにすることで,neutrex測定の説明可能な性質を強調する。

Accurate face recognition systems are increasingly important in sensitive applications like border control or migration management. Therefore, it becomes crucial to quantify the quality of facial images to ensure that low-quality images are not affecting recognition accuracy. In this context, the current draft of ISO/IEC 29794-5 introduces the concept of component quality to estimate how single factors of variation affect recognition outcomes. In this study, we propose a quality measure (NeutrEx) based on the accumulated distances of a 3D face reconstruction to a neutral expression anchor. Our evaluations demonstrate the superiority of our proposed method compared to baseline approaches obtained by training Support Vector Machines on face embeddings extracted from a pre-trained Convolutional Neural Network for facial expression classification. Furthermore, we highlight the explainable nature of our NeutrEx measures by computing per-vertex distances to unveil the most impactful face regions and allow operators to give actionable feedback to subjects.
翻訳日:2023-08-22 18:51:09 公開日:2023-08-19
# qos対応モデルスイッチによる自己適応型機械学習システムの構築

Towards Self-Adaptive Machine Learning-Enabled Systems Through QoS-Aware Model Switching ( http://arxiv.org/abs/2308.09960v1 )

ライセンス: Link先を確認
Shubham Kulkarni, Arya Marda, Karthik Vaidhyanathan(参考訳) 機械学習(ML)、特にディープラーニングは、大きな進歩を経験し、MLS(Machine Learning-Enabled Systems)の台頭につながった。 しかしながら、多くのソフトウェアエンジニアリングの課題が、これらのMLSを本番環境に推し進めることに続き、その大部分は、サービス品質(QoS)全体に影響を及ぼす様々な実行時の不確実性のためである。 これらの不確実性は、MLモデル、ソフトウェアコンポーネント、環境要因から生じる。 自己適応技術は実行時の不確実性を管理する可能性を秘めているが、MLSにおけるそれらの応用はいまだに未解明である。 そこで本研究では,機械学習モデルバランサの概念を提案し,複数のモデルを用いてMLモデルに関連する不確実性を管理する。 次に、この概念を活用し、従来のMAPE-Kループを拡張した新しい自己適応手法であるAdaMLSを紹介する。 AdaMLSは、動的モデルの切り替えに軽量な教師なし学習を採用し、一貫したQoSを保証する。 自己適応型オブジェクト検出システムのプロトタイプを通じて,AdaMLSのバランスシステムとモデル性能における有効性を示す。 予備的な結果から、AdaMLSはQoS保証において単純かつ単一の最先端モデルを超え、動的環境における最適なQoSによる自己適応型MLSへの進歩を示唆している。

Machine Learning (ML), particularly deep learning, has seen vast advancements, leading to the rise of Machine Learning-Enabled Systems (MLS). However, numerous software engineering challenges persist in propelling these MLS into production, largely due to various run-time uncertainties that impact the overall Quality of Service (QoS). These uncertainties emanate from ML models, software components, and environmental factors. Self-adaptation techniques present potential in managing run-time uncertainties, but their application in MLS remains largely unexplored. As a solution, we propose the concept of a Machine Learning Model Balancer, focusing on managing uncertainties related to ML models by using multiple models. Subsequently, we introduce AdaMLS, a novel self-adaptation approach that leverages this concept and extends the traditional MAPE-K loop for continuous MLS adaptation. AdaMLS employs lightweight unsupervised learning for dynamic model switching, thereby ensuring consistent QoS. Through a self-adaptive object detection system prototype, we demonstrate AdaMLS's effectiveness in balancing system and model performance. Preliminary results suggest AdaMLS surpasses naive and single state-of-the-art models in QoS guarantees, heralding the advancement towards self-adaptive MLS with optimal QoS in dynamic environments.
翻訳日:2023-08-22 18:50:55 公開日:2023-08-19
# マルウェア検出のための逆学習手法の比較

A Comparison of Adversarial Learning Techniques for Malware Detection ( http://arxiv.org/abs/2308.09958v1 )

ライセンス: Link先を確認
Pavla Louth\'anov\'a, Matou\v{s} Koz\'ak, Martin Jure\v{c}ek, Mark Stamp(参考訳) 機械学習は自動マルウェア検出に有用なツールであることが証明されているが、機械学習モデルは敵の攻撃に対して脆弱であることも示されている。 本稿では、特に悪質なWindows Portable Executableファイルを含む、敵のマルウェアサンプルを生成する問題に対処する。 我々は、マルウェア検出のための敵機械学習に焦点を当てた作業の概要と比較を行った。 勾配型, 進化型, 強化型などの手法を用いて, 逆行性サンプルを生成し, 生成したサンプルを選択された抗ウイルス製品に対してテストする。 選択した手法を精度と実用性の観点から比較する。 その結果,以前検出されたマルウェアに最適化された修正を適用すると,ファイルの不正な分類につながる可能性が示唆された。 また、生成されたマルウェアのサンプルは、それらを生成するのに使用されるもの以外の検出モデルに対してうまく利用することができ、ジェネレータの組み合わせを使って検出を避ける新しいサンプルを生成することも知られている。 実験の結果,強化学習手法を用いた体育マッサージジェネレータが最も実用的可能性が示唆された。 この発電機は平均サンプル生成時間5.73秒、平均脱出速度44.11%に達した。 Gym-malwareジェネレータを使用することで、回避率は58.35%向上した。

Machine learning has proven to be a useful tool for automated malware detection, but machine learning models have also been shown to be vulnerable to adversarial attacks. This article addresses the problem of generating adversarial malware samples, specifically malicious Windows Portable Executable files. We summarize and compare work that has focused on adversarial machine learning for malware detection. We use gradient-based, evolutionary algorithm-based, and reinforcement-based methods to generate adversarial samples, and then test the generated samples against selected antivirus products. We compare the selected methods in terms of accuracy and practical applicability. The results show that applying optimized modifications to previously detected malware can lead to incorrect classification of the file as benign. It is also known that generated malware samples can be successfully used against detection models other than those used to generate them and that using combinations of generators can create new samples that evade detection. Experiments show that the Gym-malware generator, which uses a reinforcement learning approach, has the greatest practical potential. This generator achieved an average sample generation time of 5.73 seconds and the highest average evasion rate of 44.11%. Using the Gym-malware generator in combination with itself improved the evasion rate to 58.35%.
翻訳日:2023-08-22 18:50:32 公開日:2023-08-19
# GPT-3.5による大規模アンダーソース言語のためのデータ・トゥ・テキスト生成:Google翻訳から必要な支援

Data-to-text Generation for Severely Under-Resourced Languages with GPT-3.5: A Bit of Help Needed from Google Translate ( http://arxiv.org/abs/2308.09957v1 )

ライセンス: Link先を確認
Michela Lorandi and Anya Belz(参考訳) GPTのようなLLMは、トレーニングデータに支配的な英語に関わるタスクに優れています。 本稿では, アイルランド語, マルタ語, ウェールズ語, ブルトン語のデータ対テキスト生成の文脈において, 訓練データに過度に表現されていない言語を扱っている課題について考察する。 プロンプトエンジニアリングのフェーズでは、いくつかのプロンプトタイプとフォーマットをgpt-3.5と~4でテストしました。 次に、最も有望な2つのプロンプトを2つのシナリオで完全に評価します。 (i) アンダーリソース言語への直接生成、及び (ii) 英語化後、未翻訳言語への翻訳。 少数のプロンプトは、非ソース言語への直接生成ではうまく機能するが、英語によるピボットでは違いがなくなる。 少数ショット+翻訳システムの変種は、webnlg 2023共有タスクに提出され、すべてのメトリクスで、すべての言語でかなりのマージンで競合システムを上回る結果となった。 我々は、最先端のllmでアウトオブボックスで、非ソース言語での優れたパフォーマンスを実現することができると結論づける。 しかし、ウェールズ語では最高の結果が、webnlg'20の最低ランクの英語システムよりもかなり低いままである。

LLMs like GPT are great at tasks involving English which dominates in their training data. In this paper, we look at how they cope with tasks involving languages that are severely under-represented in their training data, in the context of data-to-text generation for Irish, Maltese, Welsh and Breton. During the prompt-engineering phase we tested a range of prompt types and formats on GPT-3.5 and~4 with a small sample of example input/output pairs. We then fully evaluated the two most promising prompts in two scenarios: (i) direct generation into the under-resourced language, and (ii) generation into English followed by translation into the under-resourced language. We find that few-shot prompting works better for direct generation into under-resourced languages, but that the difference disappears when pivoting via English. The few-shot + translation system variants were submitted to the WebNLG 2023 shared task where they outperformed competitor systems by substantial margins in all languages on all metrics. We conclude that good performance on under-resourced languages can be achieved out-of-the box with state-of-the-art LLMs. However, our best results (for Welsh) remain well below the lowest ranked English system at WebNLG'20.
翻訳日:2023-08-22 18:50:13 公開日:2023-08-19
# prune と not to prune : 密集したニューラルネットワークの原理的pruningに対するカオス-causality アプローチ

To prune or not to prune : A chaos-causality approach to principled pruning of dense neural networks ( http://arxiv.org/abs/2308.09955v1 )

ライセンス: Link先を確認
Rajan Sahu, Shivam Chadha, Nithin Nagaraj, Archana Mathur, Snehanshu Saha(参考訳) 性能に影響を与えることなく重みを除去することでニューラルネットワーク(プルーニング)のサイズを縮小することは、リソース制約されたデバイスにとって重要な問題である。 過去には、プルーニングは通常、大きさなどの基準に基づいて重みをランク付けまたはペナル化することで行われ、残りの重みをトレーニングする前に低ランクの重みを取り除いた。 切断戦略は、ネットワークサイズを所望する減少を達成するために、ネットワークからニューロンを除去することも含む。 具体的重みの選択による誤分類の最小化を目的とし,最適化問題としてプルーニングを定式化する。 そこで我々は,学習におけるカオス(リャプノフ指数)の概念を,重み更新と因果性を利用した誤分類の因果重の同定を通じて導入した。 このようなプルーニングされたネットワークは、元のパフォーマンスを維持し、特徴説明可能性を維持する。

Reducing the size of a neural network (pruning) by removing weights without impacting its performance is an important problem for resource-constrained devices. In the past, pruning was typically accomplished by ranking or penalizing weights based on criteria like magnitude and removing low-ranked weights before retraining the remaining ones. Pruning strategies may also involve removing neurons from the network in order to achieve the desired reduction in network size. We formulate pruning as an optimization problem with the objective of minimizing misclassifications by selecting specific weights. To accomplish this, we have introduced the concept of chaos in learning (Lyapunov exponents) via weight updates and exploiting causality to identify the causal weights responsible for misclassification. Such a pruned network maintains the original performance and retains feature explainability.
翻訳日:2023-08-22 18:49:53 公開日:2023-08-19
# Eva-KELLM: LLMの知識編集評価のための新しいベンチマーク

Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs ( http://arxiv.org/abs/2308.09954v1 )

ライセンス: Link先を確認
Suhang Wu, Minlong Peng, Yue Chen, Jinsong Su, Mingming Sun(参考訳) 大規模言語モデル(llm)は、そのパラメータにエンコードされた豊富な知識を持っている。 しかし、この知識は時代遅れあるいは時代とともに不適切になる可能性がある。 その結果,LSMの知識編集や,その有効性評価への関心が高まっている。 既存の研究は主に、コレクションの高コストだけでなく、複雑な事実の表現にも苦労する、事実三重項を用いた知識編集に焦点を当てている。 さらに、これらの研究は、しばしば評価の観点で制限される。 本稿では,LLMの知識編集を評価するための新しいベンチマークであるEva-KELLMを提案する。 このベンチマークには評価フレームワークと対応するデータセットが含まれている。 本フレームワークでは,まず LLM に生文書を用いた知識編集を依頼する。 次に、複数の視点から、更新LDMを評価する。 従来の研究から,知識編集の有効性と無関係な知識の保持を評価することに加えて,llmの能力をさらに2つの側面で検証する。 1) 変化した知識と調和し, LLMが単に記憶するのではなく, 変化した知識を真に学習することを目指す。 2) 言語間の知識伝達では, LLMが更新され, ある言語で生文書が更新された場合, 他言語からのクエリを処理できる。 さらなる研究を容易にするため、対応するデータセットを構築し、リリースする。 本ベンチマークを用いて,一般的な知識編集手法の有効性を検討する。 実験の結果, 生文書を用いた知識編集の手法は, 知識の改変や言語間知識の伝達に関して, 十分な結果を得るには有効ではないことがわかった。

Large language models (LLMs) possess a wealth of knowledge encoded in their parameters. However, this knowledge may become outdated or unsuitable over time. As a result, there has been a growing interest in knowledge editing for LLMs and evaluating its effectiveness. Existing studies primarily focus on knowledge editing using factual triplets, which not only incur high costs for collection but also struggle to express complex facts. Furthermore, these studies are often limited in their evaluation perspectives. In this paper, we propose Eva-KELLM, a new benchmark for evaluating knowledge editing of LLMs. This benchmark includes an evaluation framework and a corresponding dataset. Under our framework, we first ask the LLM to perform knowledge editing using raw documents, which provides a more convenient and universal approach compared to using factual triplets. We then evaluate the updated LLM from multiple perspectives. In addition to assessing the effectiveness of knowledge editing and the retention of unrelated knowledge from conventional studies, we further test the LLM's ability in two aspects: 1) Reasoning with the altered knowledge, aiming for the LLM to genuinely learn the altered knowledge instead of simply memorizing it. 2) Cross-lingual knowledge transfer, where the LLM updated with raw documents in one language should be capable of handling queries from another language. To facilitate further research, we construct and release the corresponding dataset. Using this benchmark, we investigate the effectiveness of several commonly-used knowledge editing methods. Experimental results indicate that the current methods for knowledge editing using raw documents are not effective in yielding satisfactory results, particularly when it comes to reasoning with altered knowledge and cross-lingual knowledge transfer.
翻訳日:2023-08-22 18:49:35 公開日:2023-08-19
# UniAP:Few-shot Learningによる視覚のユニバーサル・アニマル・パーセプションを目指して

UniAP: Towards Universal Animal Perception in Vision via Few-shot Learning ( http://arxiv.org/abs/2308.09953v1 )

ライセンス: Link先を確認
Meiqi Sun, Zhonghan Zhao, Wenhao Chai, Hanjun Luo, Shidong Cao, Yanting Zhang, Jenq-Neng Hwang, Gaoang Wang(参考訳) 動物の視覚知覚は、動物の健康を自動監視し、動物の行動を理解し、動物関連の研究を支援する重要な技術である。 しかし,多様な動物の多様性,希少種に関するデータ不足,異なる課題の意味的不整合などにより,様々な知覚課題において異なる動物に自由に適応できる深層学習に基づく知覚モデルの設計は困難である。 多様な視覚的タスクの種間認識を可能にするために,数ショット学習を活用する新しいユニバーサル動物知覚モデルUniAPを紹介する。 提案モデルでは,クエリ画像に対する迅速な指示としてサポート画像とラベルを用いる。 画像とラベルはそれぞれトランスフォーマーベースのエンコーダと軽量なラベルエンコーダによって処理される。 次に、アプロンプトガイダンスとクエリイメージの間に情報を集約するためにマッチングモジュールを設計し、その後にマルチヘッドラベルデコーダを付けて様々なタスクの出力を生成する。 異なる動物やタスク間で共有された視覚特性を利用することで、uniapはよく研究された種からラベル付きデータや見当たらない種に知識を移すことができる。 多様な動物種に対するポーズ推定, セグメンテーション, 分類タスクの総合的な実験を通じてUniAPの有効性を実証し, 最小限のラベル付き例で新しいクラスに適応する能力を示す。

Animal visual perception is an important technique for automatically monitoring animal health, understanding animal behaviors, and assisting animal-related research. However, it is challenging to design a deep learning-based perception model that can freely adapt to different animals across various perception tasks, due to the varying poses of a large diversity of animals, lacking data on rare species, and the semantic inconsistency of different tasks. We introduce UniAP, a novel Universal Animal Perception model that leverages few-shot learning to enable cross-species perception among various visual tasks. Our proposed model takes support images and labels as prompt guidance for a query image. Images and labels are processed through a Transformer-based encoder and a lightweight label encoder, respectively. Then a matching module is designed for aggregating information between prompt guidance and the query image, followed by a multi-head label decoder to generate outputs for various tasks. By capitalizing on the shared visual characteristics among different animals and tasks, UniAP enables the transfer of knowledge from well-studied species to those with limited labeled data or even unseen species. We demonstrate the effectiveness of UniAP through comprehensive experiments in pose estimation, segmentation, and classification tasks on diverse animal species, showcasing its ability to generalize and adapt to new classes with minimal labeled examples.
翻訳日:2023-08-22 18:49:11 公開日:2023-08-19
# データの出現:因果的出現は動的学習にインスピレーションを与える

Finding emergence in data: causal emergence inspired dynamics learning ( http://arxiv.org/abs/2308.09952v1 )

ライセンス: Link先を確認
Mingzhe Yang, Zhipeng Wang, Kaiwei Liu, Yingqi Rong, Bing Yuan, Jiang Zhang(参考訳) データ駆動方式で複雑な力学系をモデル化することは、マイクロレベルの観測データでは直接捕捉できない創発的挙動や特性の存在により困難である。 したがって、マクロレベルでの創発的ダイナミクスを効果的に捉え、利用可能なデータに基づいて出現を定量化できるモデルを開発することが重要である。 因果発生の理論から着想を得て,創発的潜在空間内でマクロ力学を学ぶことを目的とした機械学習フレームワークを提案する。 このフレームワークは、有効情報(EI)を最大化し、より強力な因果効果を持つマクロ力学モデルを得る。 シミュレーションおよび実データによる実験結果から,提案手法の有効性が示された。 創発的なパターンをうまく捉えるだけでなく、粗粒化戦略を学習し、データ内の因果発生の度合いを定量化する。 さらに,トレーニングデータセットとは異なる環境で行った実験では,モデルの優れた一般化能力が強調された。

Modelling complex dynamical systems in a data-driven manner is challenging due to the presence of emergent behaviors and properties that cannot be directly captured by micro-level observational data. Therefore, it is crucial to develop a model that can effectively capture emergent dynamics at the macro-level and quantify emergence based on the available data. Drawing inspiration from the theory of causal emergence, this paper introduces a machine learning framework aimed at learning macro-dynamics within an emergent latent space. The framework achieves this by maximizing the effective information (EI) to obtain a macro-dynamics model with stronger causal effects. Experimental results on both simulated and real data demonstrate the effectiveness of the proposed framework. Not only does it successfully capture emergent patterns, but it also learns the coarse-graining strategy and quantifies the degree of causal emergence in the data. Furthermore, experiments conducted on environments different from the training dataset highlight the superior generalization ability of our model.
翻訳日:2023-08-22 18:48:48 公開日:2023-08-19
# ビデオにおける自己教師型オブジェクト中心学習

Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos ( http://arxiv.org/abs/2308.09951v1 )

ライセンス: Link先を確認
Rui Qian, Shuangrui Ding, Xian Liu and Dahua Lin(参考訳) 自己教師あり手法は、高レベル意味論と低レベル時間対応の学習において顕著な進歩を示している。 これらの結果に基づいて、さらに一歩進めて、オブジェクト中心の表現を強化するためにこれらの2つの特徴を統合する可能性を探る。 予備実験では,クエリスロットの注意がrgb特徴マップから異なる意味成分を抽出できるのに対し,ランダムサンプリングに基づくスロットの注意はフレーム間の時間的対応の手がかりを活用し,インスタンス識別を支援する。 そこで本研究では,融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。 2つのスロットアテンションステージと、共有学習可能なガウス分布からなる。 第1段階では、平均ベクトルをスロット初期化として、潜在的な意味論を分解し、反復的注意を通してセマンティックセグメンテーションマスクを生成する。 第2段階では、各意味論について、対応するガウス分布からスロットをランダムにサンプリングし、意味領域内でマスキング特徴集約を行い、インスタンス識別に時間対応パターンを利用する。 我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。 提案モデルでは,複数のオブジェクトインスタンスを意味構造で効果的に識別し,教師なしのビデオオブジェクト発見に有望な結果が得られる。 さらに,高密度ラベル伝搬タスクにおける最先端性能を実現し,オブジェクト中心解析の可能性を示す。 コードはhttps://github.com/shvdiwnkozbw/smtcでリリースされる。

Self-supervised methods have shown remarkable progress in learning high-level semantics and low-level temporal correspondence. Building on these results, we take one step further and explore the possibility of integrating these two features to enhance object-centric representations. Our preliminary experiments indicate that query slot attention can extract different semantic components from the RGB feature map, while random sampling based slot attention can exploit temporal correspondence cues between frames to assist instance identification. Motivated by this, we propose a novel semantic-aware masked slot attention on top of the fused semantic features and correspondence maps. It comprises two slot attention stages with a set of shared learnable Gaussian distributions. In the first stage, we use the mean vectors as slot initialization to decompose potential semantics and generate semantic segmentation masks through iterative attention. In the second stage, for each semantics, we randomly sample slots from the corresponding Gaussian distribution and perform masked feature aggregation within the semantic area to exploit temporal correspondence patterns for instance identification. We adopt semantic- and instance-level temporal consistency as self-supervision to encourage temporally coherent object-centric representations. Our model effectively identifies multiple object instances with semantic structure, reaching promising results on unsupervised video object discovery. Furthermore, we achieve state-of-the-art performance on dense label propagation tasks, demonstrating the potential for object-centric analysis. The code is released at https://github.com/shvdiwnkozbw/SMTC.
翻訳日:2023-08-22 18:48:31 公開日:2023-08-19
# シーン認識機能マッチング

Scene-Aware Feature Matching ( http://arxiv.org/abs/2308.09949v1 )

ライセンス: Link先を確認
Xiaoyong Lu, Yaping Yan, Tong Wei, Songlin Du(参考訳) 現在の特徴マッチング手法は、個々の特徴のより良い表現学習を追求するが、シーンのさらなる理解は欠如している。 これにより、視点の広いシーンや照明の変化といった困難なシーンを扱う場合のパフォーマンスが大幅に低下する。 この問題に対処するために,Scene-Aware機能マッチングのガイドに注目グルーピングを適用したSAMという新しいモデルを提案する。 SAMは、画像トークンとグループトークンのマルチレベル機能をアテンション層で処理し、提案されたトークングループ化モジュールでイメージトークンをグループ化する。 我々のモデルは、地道一致のみで訓練でき、合理的なグループ化結果が得られる。 センスアウェアなグループ化ガイダンスでは、SAMは従来の特徴マッチングモデルよりも正確で堅牢であり、解釈性も高い。 ホモグラフィー推定,ポーズ推定,画像マッチングなど,様々な応用に関する十分な実験により,我々のモデルが最先端の性能を達成することを示す。

Current feature matching methods focus on point-level matching, pursuing better representation learning of individual features, but lacking further understanding of the scene. This results in significant performance degradation when handling challenging scenes such as scenes with large viewpoint and illumination changes. To tackle this problem, we propose a novel model named SAM, which applies attentional grouping to guide Scene-Aware feature Matching. SAM handles multi-level features, i.e., image tokens and group tokens, with attention layers, and groups the image tokens with the proposed token grouping module. Our model can be trained by ground-truth matches only and produce reasonable grouping results. With the sense-aware grouping guidance, SAM is not only more accurate and robust but also more interpretable than conventional feature matching models. Sufficient experiments on various applications, including homography estimation, pose estimation, and image matching, demonstrate that our model achieves state-of-the-art performance.
翻訳日:2023-08-22 18:48:04 公開日:2023-08-19
# 頚部異所性視力検査における原型クロスドメイン知識伝達

Prototypical Cross-domain Knowledge Transfer for Cervical Dysplasia Visual Inspection ( http://arxiv.org/abs/2308.09983v1 )

ライセンス: Link先を確認
Yichen Zhang, Yifang Yin, Ying Zhang, Zhenguang Liu, Zheng Wang, Roger Zimmermann(参考訳) 子宮頸部の異形成の早期発見は頸部癌治療に重要である。 しかし,低リソース環境においてより適切である視覚検査による頚椎脱臼の診断は依然として難しい課題である。 最近のディープラーニングモデルによって有望な結果が得られたが、それらの性能は利用可能なcervixデータセットの限られたスケールによって著しく妨げられている。 単一のデータセットから学習する従来の方法とは異なり、異なるが関連する臨床研究で収集されたクロスドメインの頚椎画像を活用して、対象とする子宮頸部データセットにおけるモデルの性能を向上させることを提案する。 データセット間での転送可能情報を堅牢に学習するために,クロスドメインサンプルの転送可能性を評価するためのプロトタイプベースの知識フィルタリング手法を提案する。 さらに、ドメインレベルでのクロスドメインイメージ表現と早期アライメントとクラスレベルを同時に調整し、モデルトレーニングと知識伝達を強い堅牢性で内在させる教師付きコントラスト学習により、共有機能空間をさらに最適化する。 3つの実世界ベンチマーク頚椎画像データセットを用いた実験結果から,提案手法は,top-1精度が4.7%,精度が7.0%,リコールが1.4%,f1スコアが4.6%,roc-aucが0.05であった。

Early detection of dysplasia of the cervix is critical for cervical cancer treatment. However, automatic cervical dysplasia diagnosis via visual inspection, which is more appropriate in low-resource settings, remains a challenging problem. Though promising results have been obtained by recent deep learning models, their performance is significantly hindered by the limited scale of the available cervix datasets. Distinct from previous methods that learn from a single dataset, we propose to leverage cross-domain cervical images that were collected in different but related clinical studies to improve the model's performance on the targeted cervix dataset. To robustly learn the transferable information across datasets, we propose a novel prototype-based knowledge filtering method to estimate the transferability of cross-domain samples. We further optimize the shared feature space by aligning the cross-domain image representations simultaneously on domain level with early alignment and class level with supervised contrastive learning, which endows model training and knowledge transfer with stronger robustness. The empirical results on three real-world benchmark cervical image datasets show that our proposed method outperforms the state-of-the-art cervical dysplasia visual inspection by an absolute improvement of 4.7% in top-1 accuracy, 7.0% in precision, 1.4% in recall, 4.6% in F1 score, and 0.05 in ROC-AUC.
翻訳日:2023-08-22 18:40:32 公開日:2023-08-19
# 静的画像とダイナミックビデオを用いた乳腺病変診断

Breast Lesion Diagnosis Using Static Images and Dynamic Video ( http://arxiv.org/abs/2308.09980v1 )

ライセンス: Link先を確認
Yunwen Huang, Hongyu Hu, Ying Zhu, Yi Xu(参考訳) 乳房超音波治療のための深層学習型コンピュータ支援診断システム (cad) が開発されている。 その多くは、代表的静止画像またはリアルタイムスキャンのダイナミックビデオを使用して、単一の超音波イメージングモードに焦点を当てている。 実際、この2つの画像は病変の診断に相補的である。 ダイナミックビデオは病変に関する詳細な3次元情報を提供し、静的画像は病変の典型的な部分をキャプチャする。 本研究では,静止画像とダイナミックビデオの双方の特徴を学習し,両形態間の潜在的な関係を探究する放射線科医の診断過程を模倣するマルチモダリティ乳腺腫瘍診断モデルを提案する。 静的な画像はプロの放射線技師によって慎重に選択されるので,静的な画像からドメイン知識の誘導の下で動的ビデオの特徴を集約し,マルチモーダルな特徴を融合させる。 本研究は897枚の超音波画像とビデオからなる乳房超音波データセットで検証した。 実験の結果,本モデルは良性/悪性度分類の性能を高め,aucで90.0%,精度で81.7%に達した。

Deep learning based Computer Aided Diagnosis (CAD) systems have been developed to treat breast ultrasound. Most of them focus on a single ultrasound imaging modality, either using representative static images or the dynamic video of a real-time scan. In fact, these two image modalities are complementary for lesion diagnosis. Dynamic videos provide detailed three-dimensional information about the lesion, while static images capture the typical sections of the lesion. In this work, we propose a multi-modality breast tumor diagnosis model to imitate the diagnosing process of radiologists, which learns the features of both static images and dynamic video and explores the potential relationship between the two modalities. Considering that static images are carefully selected by professional radiologists, we propose to aggregate dynamic video features under the guidance of domain knowledge from static images before fusing multi-modality features. Our work is validated on a breast ultrasound dataset composed of 897 sets of ultrasound images and videos. Experimental results show that our model boosts the performance of Benign/Malignant classification, achieving 90.0% in AUC and 81.7% in accuracy.
翻訳日:2023-08-22 18:40:00 公開日:2023-08-19
# ヨーロッパにおける人工知能 : 意識・態度・信頼に関する研究

Artificial Intelligence across Europe: A Study on Awareness, Attitude and Trust ( http://arxiv.org/abs/2308.09979v1 )

ライセンス: Link先を確認
Teresa Scantamburlo, Atia Cort\'es, Francesca Foffano, Cristian Barru\'e, Veronica Distefano, Long Pham, Alessandro Fabris(参考訳) 本稿では,8か国(フランス,ドイツ,イタリア,オランダ,ポーランド,ルーマニア,スペイン,スウェーデン)のヨーロッパ市民4,006人を対象に,人工知能(ai)に関する広範な調査を行った。 この研究の目的は、欧州の文脈における人々の見解や認識をよりよく理解することであり、これはすでに重要な政策行動と規制プロセスによって特徴づけられている。 欧州市民の認識を調査するために,人々の意識,態度,信頼の3つの側面から構築された新しいアンケート(PAICE)を設計,検証した。 認識は自己評価能力の低いレベルによって特徴づけられるが、AIに対する態度は人口の半数以上にとって非常に肯定的である。 収集された結果を反映して、暗黙の矛盾を強調し、信頼のエコシステムの形成と包括的AIポリシーの開発を妨げる可能性のあるトレンドを特定する。 高いレベルの教育機関の活動とともに、法的および倫理的基準を確保するルールの導入、およびaiリテラシーの促進は、信頼できるaiエコシステムを支える上で重要な要素として認識されている。 欧州の文脈に焦点をあてたAIガバナンスの推奨と、今後の作業に関する提案で締めくくります。

This paper presents the results of an extensive study investigating the opinions on Artificial Intelligence (AI) of a sample of 4,006 European citizens from eight distinct countries (France, Germany, Italy, Netherlands, Poland, Romania, Spain, and Sweden). The aim of the study is to gain a better understanding of people's views and perceptions within the European context, which is already marked by important policy actions and regulatory processes. To survey the perceptions of the citizens of Europe we design and validate a new questionnaire (PAICE) structured around three dimensions: people's awareness, attitude, and trust. We observe that while awareness is characterized by a low level of self-assessed competency, the attitude toward AI is very positive for more than half of the population. Reflecting upon the collected results, we highlight implicit contradictions and identify trends that may interfere with the creation of an ecosystem of trust and the development of inclusive AI policies. The introduction of rules that ensure legal and ethical standards, along with the activity of high-level educational entities, and the promotion of AI literacy are identified as key factors in supporting a trustworthy AI ecosystem. We make some recommendations for AI governance focused on the European context and conclude with suggestions for future work.
翻訳日:2023-08-22 18:39:44 公開日:2023-08-19
# 見つけられるかどうか? 対話型参照表現生成

Whether you can locate or not? Interactive Referring Expression Generation ( http://arxiv.org/abs/2308.09977v1 )

ライセンス: Link先を確認
Fulong Ye, Yuxing Long, Fangxiang Feng, Xiaojie Wang(参考訳) Referring Expression Generation(REG)は、参照されたオブジェクトを特定するためのReferring Expression Comprehension(REC)という2つのタスクを用いて、視覚シーンにおけるオブジェクトに対する不明瞭なReferring Expression(REs)を生成することを目的としている。 既存の手法では,REGモデルとRECモデル間の潜在的な相互作用を考慮せずに,REsのみをモデルトレーニングの基礎的真理として用いることで,REGモデルを独立に構築する。 本稿では,実際のRECモデルと対話可能な対話型REG(IREG)モデルを提案する。 RefCOCO、RefCOCO+、RefCOCOgの3つのREベンチマークデータセットに対する実験結果から、IREGは一般的な評価指標における従来の最先端手法よりも優れていることが示された。 さらに、人間による評価では、IREGは相互作用の能力でより良いREを生成する。

Referring Expression Generation (REG) aims to generate unambiguous Referring Expressions (REs) for objects in a visual scene, with a dual task of Referring Expression Comprehension (REC) to locate the referred object. Existing methods construct REG models independently by using only the REs as ground truth for model training, without considering the potential interaction between REG and REC models. In this paper, we propose an Interactive REG (IREG) model that can interact with a real REC model, utilizing signals indicating whether the object is located and the visual region located by the REC model to gradually modify REs. Our experimental results on three RE benchmark datasets, RefCOCO, RefCOCO+, and RefCOCOg show that IREG outperforms previous state-of-the-art methods on popular evaluation metrics. Furthermore, a human evaluation shows that IREG generates better REs with the capability of interaction.
翻訳日:2023-08-22 18:39:22 公開日:2023-08-19
# 情報人気予測のための明示的時間埋め込み型カスケード注意ネットワーク

Explicit Time Embedding Based Cascade Attention Network for Information Popularity Prediction ( http://arxiv.org/abs/2308.09976v1 )

ライセンス: Link先を確認
Xigang Sun, Jingya Zhou, Ling Liu, Wenqi Wei(参考訳) 情報のカスケード傾向の予測は、ソーシャルネットワークにおける根本的な問題である。 情報カスケードを理解するには,時間属性とカスケードロール情報(カスケードグラフやカスケードシーケンスなど)をキャプチャする必要がある。 現在の手法では、この情報を普及予測のために統一することはほとんどなく、カスケードの完全な特性を効果的にモデル化することができず、良好な予測性能を達成することができる。 本稿では,大規模情報ネットワークのための新しい人気予測アーキテクチャとして,時間埋め込みに基づくカスケード注意ネットワーク(TCAN)を提案する。 TCANは、時間属性(周期性、線形性、非線形スケーリング)を一般的な時間埋め込みアプローチ(TE)を介してノード機能に統合し、カスケードグラフとカスケードシーケンスの表現を完全に学習するためにカスケードグラフアテンションエンコーダ(CGAT)とカスケードシーケンスアテンションエンコーダ(CSAT)を使用する。 我々は2つの実世界のデータセット(WeiboとAPS)と数万のカスケードサンプルを使って手法を検証する。 実験の結果,TANは平均対数2乗誤差が2.007と1.201であり,それぞれ1.76時間と0.15時間であることがわかった。 さらに、TCANは他の代表ベースラインよりも10.4%、3.8%、そして10.4%、MSLE、MAE、R-squaredを平均で上回り、良好な解釈性を維持している。

Predicting information cascade popularity is a fundamental problem in social networks. Capturing temporal attributes and cascade role information (e.g., cascade graphs and cascade sequences) is necessary for understanding the information cascade. Current methods rarely focus on unifying this information for popularity predictions, which prevents them from effectively modeling the full properties of cascades to achieve satisfactory prediction performances. In this paper, we propose an explicit Time embedding based Cascade Attention Network (TCAN) as a novel popularity prediction architecture for large-scale information networks. TCAN integrates temporal attributes (i.e., periodicity, linearity, and non-linear scaling) into node features via a general time embedding approach (TE), and then employs a cascade graph attention encoder (CGAT) and a cascade sequence attention encoder (CSAT) to fully learn the representation of cascade graphs and cascade sequences. We use two real-world datasets (i.e., Weibo and APS) with tens of thousands of cascade samples to validate our methods. Experimental results show that TCAN obtains mean logarithm squared errors of 2.007 and 1.201 and running times of 1.76 hours and 0.15 hours on both datasets, respectively. Furthermore, TCAN outperforms other representative baselines by 10.4%, 3.8%, and 10.4% in terms of MSLE, MAE, and R-squared on average while maintaining good interpretability.
翻訳日:2023-08-22 18:39:03 公開日:2023-08-19
# FinEval: 大規模言語モデルのための中国の金融ドメイン知識評価ベンチマーク

FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2308.09975v1 )

ライセンス: Link先を確認
Liwen Zhang, Weige Cai, Zhaowei Liu, Zhi Yang, Wei Dai, Yujie Liao, Qianru Qin, Yifei Li, Xingyu Liu, Zhiqiang Liu, Zhoufan Zhu, Anbo Wu, Xin Guo and Yun Chen(参考訳) 大規模言語モデル(llm)は、様々な自然言語処理タスクにおいて例外的な性能を示しているが、より困難でドメイン固有のタスクにおけるその効果はほとんど未調査のままである。 本稿では,LLMにおける金融分野知識のためのベンチマークであるFinEvalについて述べる。 FinEvalは、財務、経済、会計、認証に関する高品質な多重選択質問のコレクションである。 4,661 の質問があり、34 の異なる教科にまたがっている。 総合的なモデルパフォーマンス評価を実現するため、ファインバルはゼロショットプロンプトや少数ショットプロンプト、回答のみのプロンプトやチェーンオブマインドプロンプトなど、さまざまなプロンプトタイプを採用している。 その結果、FinEval上での中国語と英語のLLMの評価は、GPT-4のみが異なるプロンプト設定で70%近い精度を達成し、金融分野の知識においてLLMが著しく成長する可能性が示唆された。 我々の研究は、より包括的な財務知識評価ベンチマークを提供し、模擬試験のデータを活用し、幅広い評価 LLM をカバーしている。

Large language models (LLMs) have demonstrated exceptional performance in various natural language processing tasks, yet their efficacy in more challenging and domain-specific tasks remains largely unexplored. This paper presents FinEval, a benchmark specifically designed for the financial domain knowledge in the LLMs. FinEval is a collection of high-quality multiple-choice questions covering Finance, Economy, Accounting, and Certificate. It includes 4,661 questions spanning 34 different academic subjects. To ensure a comprehensive model performance evaluation, FinEval employs a range of prompt types, including zero-shot and few-shot prompts, as well as answer-only and chain-of-thought prompts. Evaluating state-of-the-art Chinese and English LLMs on FinEval, the results show that only GPT-4 achieved an accuracy close to 70% in different prompt settings, indicating significant growth potential for LLMs in the financial domain knowledge. Our work offers a more comprehensive financial knowledge evaluation benchmark, utilizing data of mock exams and covering a wide range of evaluated LLMs.
翻訳日:2023-08-22 18:38:33 公開日:2023-08-19
# DESOBAv2:シャドウ生成のための大規模実世界のデータセットを目指して

DESOBAv2: Towards Large-scale Real-world Dataset for Shadow Generation ( http://arxiv.org/abs/2308.09972v1 )

ライセンス: Link先を確認
Qingyang Liu, Jianting Wang, Li Niu(参考訳) 画像構成は、背景画像に前景オブジェクトを挿入して合成画像を得る。 本研究では, 合成画像をよりリアルにするために, 挿入された前景オブジェクトに対して, 妥当な影を生成することに注力する。 既存の小規模データセットであるDESOBAを補完するために、オブジェクトシェードウ検出と塗装技術を用いて、DESOBAv2と呼ばれる大規模データセットを作成する。 具体的には,オブジェクトシャドウペアを用いた屋外映像を多数収集する。 そして,事前学習した塗装モデルを用いて影領域を塗装し,デシャドー画像を生成する。 実際の画像とデシャドー画像に基づいて,合成合成画像と接地構造目標画像のペアを構築することができる。 Datasetはhttps://github.com/bcmi/Object-Shadow-Generation-Dataset-DESOBAv2で利用可能である。

Image composition refers to inserting a foreground object into a background image to obtain a composite image. In this work, we focus on generating plausible shadow for the inserted foreground object to make the composite image more realistic. To supplement the existing small-scale dataset DESOBA, we create a large-scale dataset called DESOBAv2 by using object-shadow detection and inpainting techniques. Specifically, we collect a large number of outdoor scene images with object-shadow pairs. Then, we use pretrained inpainting model to inpaint the shadow region, resulting in the deshadowed images. Based on real images and deshadowed images, we can construct pairs of synthetic composite images and ground-truth target images. Dataset is available at https://github.com/bcmi/Object-Shadow-Generation-Dataset-DESOBAv2.
翻訳日:2023-08-22 18:38:16 公開日:2023-08-19
# 選択的ソースタスクアンラーニングのための使い捨て転送学習

Disposable Transfer Learning for Selective Source Task Unlearning ( http://arxiv.org/abs/2308.09971v1 )

ライセンス: Link先を確認
Seunghee Koh, Hyounguk Shon, Janghyeon Lee, Hyeong Gwon Hong, Junmo Kim(参考訳) 転送学習は、強力な表現を構築するためのディープニューラルネットワーク(DNN)のトレーニングに広く使用されている。 予め訓練されたモデルを対象タスクに適合させた後でも、特徴抽出器の表現性能をある程度保持する。 プレトレーニングモデルの性能は、所有者の私的財産と見なすことができるので、プレトレーニングウェイトの汎用的性能の排他的権利を求めるのは自然である。 この問題に対処するために,対象タスクの性能を低下させることなく,ソースタスクのみを処分する,可処分転送学習(dtl)と呼ばれる新しいトランスファー学習パラダイムを提案する。 知識処理を実現するために, 勾配衝突損失(gc損失)という新しい損失を提案する。 gc損失は、ミニバッチの勾配ベクトルを異なる方向に導くことによって、ソース知識を選択的に解き放つ。 モデルが元のタスクをうまく解き放つかどうかを、ピギーバック学習精度(PL精度)で測定する。 PL精度は、ソースデータまたは新しい下流データのサブセット上でスクラブモデルを再トレーニングすることで、知識漏洩の脆弱性を推定する。 我々は、gc損失を訓練したモデルが、pl精度を大幅に低減した目標タスクの性能を維持することを示すことにより、dtl問題の効果的なアプローチであるgc損失を実証する。

Transfer learning is widely used for training deep neural networks (DNN) for building a powerful representation. Even after the pre-trained model is adapted for the target task, the representation performance of the feature extractor is retained to some extent. As the performance of the pre-trained model can be considered the private property of the owner, it is natural to seek the exclusive right of the generalized performance of the pre-trained weight. To address this issue, we suggest a new paradigm of transfer learning called disposable transfer learning (DTL), which disposes of only the source task without degrading the performance of the target task. To achieve knowledge disposal, we propose a novel loss named Gradient Collision loss (GC loss). GC loss selectively unlearns the source knowledge by leading the gradient vectors of mini-batches in different directions. Whether the model successfully unlearns the source task is measured by piggyback learning accuracy (PL accuracy). PL accuracy estimates the vulnerability of knowledge leakage by retraining the scrubbed model on a subset of source data or new downstream data. We demonstrate that GC loss is an effective approach to the DTL problem by showing that the model trained with GC loss retains the performance on the target task with a significantly reduced PL accuracy.
翻訳日:2023-08-22 18:38:02 公開日:2023-08-19
# 内的モノローグ学習による視覚言語タスクの処理

Tackling Vision Language Tasks Through Learning Inner Monologues ( http://arxiv.org/abs/2308.09970v1 )

ライセンス: Link先を確認
Diji Yang, Kezhen Chen, Jinmeng Rao, Xiaoyuan Guo, Yawen Zhang, Jie Yang, Yi Zhang(参考訳) ビジュアル言語タスクは、ビジュアルコンテンツとテキストコンテンツの両方でAIモデルを理解し、推論する必要がある。 1) LLMとビジョンランゲージモデル(VLM)のハイブリッド統合では、視覚入力が最初にVLMによって言語記述に変換され、最終回答を生成するためのLLMの入力として機能し、2) 視覚入力が埋め込みとしてエンコードされ、さらなる教師付き微調整によってLLMの言語空間に投影される言語空間における視覚的特徴アライメントが実現している。 最初のアプローチは、ライトトレーニングのコストと解釈性を提供するが、エンドツーエンドで最適化することは困難である。 第二のアプローチは適切なパフォーマンスを示すが、機能アライメントは通常大量のトレーニングデータを必要とし、解釈性に欠ける。 このジレンマに対処するために,自己と無言の言語コミュニケーションを行う認知過程である内的モノローグ過程をシミュレートし,複雑な視覚言語問題を解決するための新しい手法である内的モノローグマルチモーダル最適化(immo)を提案する。 我々はLLMとVLMが自然言語会話を通して対話できるようにし、内部のモノローグ(自己問合せ質問や質問に答える質問)の方法を学ぶための2段階のトレーニングプロセスを提案する。 IMMOは2つの一般的な課題で評価され, 内的対話の認知現象をエミュレートすることにより, 推論能力と説明能力を高め, 視覚モデルと言語モデルの融合に寄与する。 さらに重要なのは、事前に定義された人造モノローグを使う代わりに、IMMOはディープラーニングモデル内でこのプロセスを学び、視覚言語タスク以外の多くのAI問題に適用可能であることを約束する。

Visual language tasks require AI models to comprehend and reason with both visual and textual content. Driven by the power of Large Language Models (LLMs), two prominent methods have emerged: (1) the hybrid integration between LLMs and Vision-Language Models (VLMs), where visual inputs are firstly converted into language descriptions by VLMs, serving as inputs for LLMs to generate final answer(s); (2) visual feature alignment in language space, where visual inputs are encoded as embeddings and projected to LLMs' language space via further supervised fine-tuning. The first approach provides light training costs and interpretability but is hard to be optimized in an end-to-end fashion. The second approach presents decent performance, but feature alignment usually requires large amounts of training data and lacks interpretability. To tackle this dilemma, we propose a novel approach, Inner Monologue Multi-Modal Optimization (IMMO), to solve complex vision language problems by simulating inner monologue processes, a cognitive process in which an individual engages in silent verbal communication with themselves. We enable LLMs and VLMs to interact through natural language conversation and propose to use a two-stage training process to learn how to do the inner monologue (self-asking questions and answering questions). IMMO is evaluated on two popular tasks and the results suggest by emulating the cognitive phenomenon of internal dialogue, our approach can enhance reasoning and explanation abilities, contributing to the more effective fusion of vision and language models. More importantly, instead of using predefined human-crafted monologues, IMMO learns this process within the deep learning models, promising wider applicability to many different AI problems beyond vision language tasks.
翻訳日:2023-08-22 18:37:40 公開日:2023-08-19
# Anomaly-Aware Semantic Segmentation by Style-Aligned OoD Augmentation (特集:情報ネットワーク)

Anomaly-Aware Semantic Segmentation via Style-Aligned OoD Augmentation ( http://arxiv.org/abs/2308.09965v1 )

ライセンス: Link先を確認
Dan Zhang, Kaspar Sakmann, William Beluch, Robin Hutmacher, Yumeng Li(参考訳) 自動運転のコンテキストでは、オープンワールドでの展開中に未知のオブジェクトに遭遇することは避けられない。 したがって、標準意味セグメンテーションモデルに異常意識を持たせることが重要である。 従来の多くのアプローチでは、この問題に対処するためにOoDデータ拡張を利用した。 本研究では,OoDデータとドライビングシーン間のドメインギャップを低減し,トレーニング中に明らかなショートカットとして機能するスタイル差を効果的に緩和することにより,OoD合成プロセスの進展を図る。 さらに,事前学習したセマンティクスセグメンテーションモデルを効果的に誘導し,与えられたクラスの‘none of the given'予測を生成する単純な微調整損失を提案し,画素単位のoodスコアを異常セグメンテーションに活用する。 最小の微調整作業で、パイプラインは、元のタスクのパフォーマンスを維持しながら、事前訓練されたモデルを異常セグメンテーションに使用することが可能です。

Within the context of autonomous driving, encountering unknown objects becomes inevitable during deployment in the open world. Therefore, it is crucial to equip standard semantic segmentation models with anomaly awareness. Many previous approaches have utilized synthetic out-of-distribution (OoD) data augmentation to tackle this problem. In this work, we advance the OoD synthesis process by reducing the domain gap between the OoD data and driving scenes, effectively mitigating the style difference that might otherwise act as an obvious shortcut during training. Additionally, we propose a simple fine-tuning loss that effectively induces a pre-trained semantic segmentation model to generate a ``none of the given classes" prediction, leveraging per-pixel OoD scores for anomaly segmentation. With minimal fine-tuning effort, our pipeline enables the use of pre-trained models for anomaly segmentation while maintaining the performance on the original task.
翻訳日:2023-08-22 18:37:05 公開日:2023-08-19
# dyffpad: 指紋提示攻撃検出のための畳み込み特徴と手作り特徴の動的融合

DyFFPAD: Dynamic Fusion of Convolutional and Handcrafted Features for Fingerprint Presentation Attack Detection ( http://arxiv.org/abs/2308.10015v1 )

ライセンス: Link先を確認
Anuj Rai, Parsheel Kumar Tiwari, Jyotishna Baishya, Ram Prakash Sharma, Somnath Dey(参考訳) 自動指紋認識システムは、国境や商業的用途を含む幅広い分野に適用されているため、プレゼンテーション攻撃の脅威に悩まされている。 ユーザの偽の指紋を被写体の意図の有無で作成することにより、提示攻撃を行うことができる。 本稿では,既知および未知の物質プロトコルにおける提示攻撃を検出するための,深層学習と手工芸の特徴の動的アンサンブルを提案する。 提案されたモデルは、深層cnnと手作りのニューラルネットワークの動的アンサンブルであり、どちらもパラメータを一緒に学習する。 提案した提示攻撃検出モデルは,両者の分類手法の能力を活用し,個々の結果よりも優れた性能を示す。 提案されたモデルの性能は、ベンチマークLivDet 2015、2017、および2019データベースを使用して検証され、全体的な精度は96.10\%、96.49\%、95.99\%である。 提案モデルは,プレゼンテーションアタック検出のベンチマークプロトコルにおいて,分類精度の点で最先端手法よりも優れている。

Automatic fingerprint recognition systems suffer from the threat of presentation attacks due to their wide range of applications in areas including national borders and commercial applications. Presentation attacks can be performed by fabricating the fake fingerprint of a user with or without the intention of the subject. This paper presents a dynamic ensemble of deep learning and handcrafted features to detect presentation attacks in known-material and unknown-material protocols. The proposed model is a dynamic ensemble of deep CNN and handcrafted features empowered deep neural networks both of which learn their parameters together. The proposed presentation attack detection model, in this way, utilizes the capabilities of both classification techniques and exhibits better performance than their individual results. The proposed model's performance is validated using benchmark LivDet 2015, 2017, and 2019 databases, with an overall accuracy of 96.10\%, 96.49\%, and 95.99\% attained on them, respectively. The proposed model outperforms state-of-the-art methods in benchmark protocols of presentation attack detection in terms of classification accuracy.
翻訳日:2023-08-22 18:31:30 公開日:2023-08-19
# スコアマッチングによる半振幅変分推論

Semi-Implicit Variational Inference via Score Matching ( http://arxiv.org/abs/2308.10014v1 )

ライセンス: Link先を確認
Longlin Yu, Cheng Zhang(参考訳) 半単純変分推論(SIVI)は、階層的な方法で定義された暗黙的な変分分布を考慮し、変分族の表現性を大いに強化する。 しかしながら、変動分布の難易度のため、現在のSIVIアプローチでは、サロゲートエビデンスローバウンド(ELBO)または高価なインナーループMCMCをトレーニングに使用することが多い。 本稿では,スコアマッチングによる代替訓練目標に基づく新しいsivi法であるsivi-smを提案する。 半単純変分族階層構造を利用して、スコアマッチングの目的は、難解な変分密度を自然にDenoising score matchingで扱うことができるミニマックスの定式化を可能にする。 SIVI-SM は MCMC の精度と密に一致し,様々なベイズ推論タスクにおいて ELBO ベースの SIVI 法より優れていることを示す。

Semi-implicit variational inference (SIVI) greatly enriches the expressiveness of variational families by considering implicit variational distributions defined in a hierarchical manner. However, due to the intractable densities of variational distributions, current SIVI approaches often use surrogate evidence lower bounds (ELBOs) or employ expensive inner-loop MCMC runs for unbiased ELBOs for training. In this paper, we propose SIVI-SM, a new method for SIVI based on an alternative training objective via score matching. Leveraging the hierarchical structure of semi-implicit variational families, the score matching objective allows a minimax formulation where the intractable variational densities can be naturally handled with denoising score matching. We show that SIVI-SM closely matches the accuracy of MCMC and outperforms ELBO-based SIVI methods in a variety of Bayesian inference tasks.
翻訳日:2023-08-22 18:30:48 公開日:2023-08-19
# 分断とデビアス:バイアス特有の専門家の混合による偏りの軽減

Partition-and-Debias: Agnostic Biases Mitigation via A Mixture of Biases-Specific Experts ( http://arxiv.org/abs/2308.10005v1 )

ライセンス: Link先を確認
Jiaxuan Li, Duc Minh Vo, Hideki Nakayama(参考訳) 画像分類におけるバイアス軽減は広く研究されており、既存の手法は顕著な成果を上げている。 しかし、これらの手法のほとんどは、ある画像が1種類の未知のバイアスのみを含むと暗黙的に仮定し、現実世界のバイアスの複雑さを考慮できない。 我々は,データセットのバイアスの種類や型数に関わらず,バイアス除去を目的とした,より困難なシナリオ,非依存バイアス緩和を導入する。 この課題に対処するために、偏見特異的な専門家の混合を用いて、偏見空間を暗黙的に複数の部分空間とゲーティングモジュールに分割し、偏見的分類を達成するために専門家間でのコンセンサスを求めるPnD法を提案する。 公開および構築されたベンチマークの実験は、PnDの有効性を実証した。 コードは、https://github.com/Jiaxuan-Li/PnD.comで入手できる。

Bias mitigation in image classification has been widely researched, and existing methods have yielded notable results. However, most of these methods implicitly assume that a given image contains only one type of known or unknown bias, failing to consider the complexities of real-world biases. We introduce a more challenging scenario, agnostic biases mitigation, aiming at bias removal regardless of whether the type of bias or the number of types is unknown in the datasets. To address this difficult task, we present the Partition-and-Debias (PnD) method that uses a mixture of biases-specific experts to implicitly divide the bias space into multiple subspaces and a gating module to find a consensus among experts to achieve debiased classification. Experiments on both public and constructed benchmarks demonstrated the efficacy of the PnD. Code is available at: https://github.com/Jiaxuan-Li/PnD.
翻訳日:2023-08-22 18:30:31 公開日:2023-08-19
# ハイブリッド微分可能レンダリング法による多視点逆レンダリング

Efficient Multi-View Inverse Rendering Using a Hybrid Differentiable Rendering Method ( http://arxiv.org/abs/2308.10003v1 )

ライセンス: Link先を確認
Xiangyang Zhu, Yiling Pan, Bailin Deng and Bin Wang(参考訳) 自然の2d画像から実世界の物体の形状と外観を復元することは、長年の逆レンダリング問題である。 本稿では,従来のハンドヘルドカメラで捉えた多視点画像からシーンの3次元形状と反射率を効率的に再構成する,新しいハイブリッド微分可能レンダリング手法を提案する。 本手法は,2つの相からなる合成分析手法に従う。 初期化フェーズでは,従来のsfm法とmvs法を用いて,実際のシーンとほぼ一致する仮想シーンを再構築する。 そして、最適化段階では、幾何と反射率を改良するためのハイブリッドアプローチを採用し、幾何を近似微分可能レンダリング法を用いて最初に最適化し、その後に物理ベース微分可能レンダリング法を用いて反射率を最適化する。 我々のハイブリッドアプローチは、近似手法の効率と物理的手法の高品質な結果を組み合わせる。 合成および実データに対する大規模な実験により,本手法は最先端の手法と同等あるいは高い品質で再現が可能でありながら,より効率的であることを示す。

Recovering the shape and appearance of real-world objects from natural 2D images is a long-standing and challenging inverse rendering problem. In this paper, we introduce a novel hybrid differentiable rendering method to efficiently reconstruct the 3D geometry and reflectance of a scene from multi-view images captured by conventional hand-held cameras. Our method follows an analysis-by-synthesis approach and consists of two phases. In the initialization phase, we use traditional SfM and MVS methods to reconstruct a virtual scene roughly matching the real scene. Then in the optimization phase, we adopt a hybrid approach to refine the geometry and reflectance, where the geometry is first optimized using an approximate differentiable rendering method, and the reflectance is optimized afterward using a physically-based differentiable rendering method. Our hybrid approach combines the efficiency of approximate methods with the high-quality results of physically-based methods. Extensive experiments on synthetic and real data demonstrate that our method can produce reconstructions with similar or higher quality than state-of-the-art methods while being more efficient.
翻訳日:2023-08-22 18:29:53 公開日:2023-08-19
# AltNeRF: 逐次奥行き最適化によるロバストニューラルネットワークの学習

AltNeRF: Learning Robust Neural Radiance Field via Alternating Depth-Pose Optimization ( http://arxiv.org/abs/2308.10001v1 )

ライセンス: Link先を確認
Kun Wang, Zhiqiang Yan, Huang Tian, Zhenyu Zhang, Xiang Li, Jun Li and Jian Yang(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、スパースシーン画像からリアルな新しいビューを生成することを約束している。 しかし、既存のNeRFアプローチは、明示的な3D監督と不正確なカメラのポーズが欠如しているため、しばしば課題に直面する。 これらの課題に対処するために,モノクラービデオから自己教師付きモノクラー深度推定(SMDE)を用いて、既知のカメラのポーズに頼ることなく、レジリエントなNeRF表現を作成するための新しいフレームワークAltNeRFを提案する。 AltNeRFのSMDEは、NeRFトレーニングを調整するために、奥行きを熟知し、前もってポーズをとる。 奥行きはnerfの正確なシーン幾何描写能力を高める一方、ポーズ先行は後のポーズ洗練のための堅牢な出発点となる。 さらに,NeRF出力をコンデンス駆動機構によりSMDEに調和的に溶接し,深度事前の整合性を向上する交互アルゴリズムを提案する。 この交互化によりAltNeRFはNeRF表現を徐々に洗練させ、現実的な新規なビューを合成する。 さらに,モバイル端末で撮影した屋内ビデオを含む特徴的データセットをキュレートする。 大規模な実験では、AltNeRFが現実によく似た高忠実で堅牢な新奇な視点を生み出す能力を示している。

Neural Radiance Fields (NeRF) have shown promise in generating realistic novel views from sparse scene images. However, existing NeRF approaches often encounter challenges due to the lack of explicit 3D supervision and imprecise camera poses, resulting in suboptimal outcomes. To tackle these issues, we propose AltNeRF -- a novel framework designed to create resilient NeRF representations using self-supervised monocular depth estimation (SMDE) from monocular videos, without relying on known camera poses. SMDE in AltNeRF masterfully learns depth and pose priors to regulate NeRF training. The depth prior enriches NeRF's capacity for precise scene geometry depiction, while the pose prior provides a robust starting point for subsequent pose refinement. Moreover, we introduce an alternating algorithm that harmoniously melds NeRF outputs into SMDE through a consistence-driven mechanism, thus enhancing the integrity of depth priors. This alternation empowers AltNeRF to progressively refine NeRF representations, yielding the synthesis of realistic novel views. Additionally, we curate a distinctive dataset comprising indoor videos captured via mobile devices. Extensive experiments showcase the compelling capabilities of AltNeRF in generating high-fidelity and robust novel views that closely resemble reality.
翻訳日:2023-08-22 18:29:37 公開日:2023-08-19
# TTPOINT:イベントカメラを用いた軽量行動認識のためのテンソル化ポイントクラウドネットワーク

TTPOINT: A Tensorized Point Cloud Network for Lightweight Action Recognition with Event Cameras ( http://arxiv.org/abs/2308.09993v1 )

ライセンス: Link先を確認
Hongwei Ren, Yue Zhou, Haotian Fu, Yulong Huang, Renjing Xu, Bojun Cheng(参考訳) イベントカメラは、データ空間、高いダイナミックレンジ、低レイテンシにより、コンピュータビジョンで人気を博している。 バイオインスパイアされたセンサとして、イベントカメラはスパースと非同期のデータを生成する。 あるいは、ポイントベースの方法は追加のモダリティ変換を避け、イベントのスパーシティに自然に適応することができる。 しかし、通常はフレームベースの方法と同等の精度に到達できない。 本稿では,アクション認識タスクにおける最先端(sota)フレームベース手法と比較しても,計算資源の1.5%しか使用せず,競争力のある結果が得られるttpointと呼ばれる軽量で汎用的なポイントクラウドネットワークを提案する。 このモデルは、階層構造による局所的および大域的幾何学の抽象化に適している。 テンソルトレイン圧縮特徴抽出器を利用することで、TTPOINTは最小限のパラメータと計算複雑性で設計できる。 さらに,時空間特性を維持するための簡易なダウンサンプリングアルゴリズムを開発した。 実験では、TTPOINTが3つのデータセットのSOTAメソッドとして現れ、同時に5つのデータセットのポイントクラウドメソッドのSOTAも達成した。 さらに, テンソル-トレイン分解法を用いて, 5つのデータセットのパラメータサイズを55%圧縮しながら, 提案したTTPOINTの精度にほとんど影響を与えない。

Event cameras have gained popularity in computer vision due to their data sparsity, high dynamic range, and low latency. As a bio-inspired sensor, event cameras generate sparse and asynchronous data, which is inherently incompatible with the traditional frame-based method. Alternatively, the point-based method can avoid additional modality transformation and naturally adapt to the sparsity of events. Still, it typically cannot reach a comparable accuracy as the frame-based method. We propose a lightweight and generalized point cloud network called TTPOINT which achieves competitive results even compared to the state-of-the-art (SOTA) frame-based method in action recognition tasks while only using 1.5 % of the computational resources. The model is adept at abstracting local and global geometry by hierarchy structure. By leveraging tensor-train compressed feature extractors, TTPOINT can be designed with minimal parameters and computational complexity. Additionally, we developed a straightforward downsampling algorithm to maintain the spatio-temporal feature. In the experiment, TTPOINT emerged as the SOTA method on three datasets while also attaining SOTA among point cloud methods on all five datasets. Moreover, by using the tensor-train decomposition method, the accuracy of the proposed TTPOINT is almost unaffected while compressing the parameter size by 55 % in all five datasets.
翻訳日:2023-08-22 18:29:14 公開日:2023-08-19
# AltDiffusion: 多言語テキスト・画像拡散モデル

AltDiffusion: A Multilingual Text-to-Image Diffusion Model ( http://arxiv.org/abs/2308.09991v1 )

ライセンス: Link先を確認
Fulong Ye, Guang Liu, Xinya Wu, Ledell Wu(参考訳) 大規模テキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト入力に基づいて,フォトリアリスティックで多様な画像を生成することができる。 しかし、既存の作品では英語、中国語、日本語などの限られた言語入力しかサポートしておらず、t2iモデルのグローバルな拡張を妨げている。 そこで本研究では,18言語をサポートする新しい多言語T2I拡散モデルAltDiffusionを提案する。 具体的には,まず知識蒸留に基づいて多言語テキストエンコーダを訓練する。 次に,事前学習された英語のみの拡散モデルに接続し,2段階のスキーマでモデルを訓練し,概念アライメントや品質改善ステージを含む多言語能力を向上させる。 さらに,多言語一般18(MG-18)および多言語文化18(MC-18)データセットを含む新しいベンチマークを導入し,高品質な画像を生成し,異なる言語で文化固有の概念を捉えるためのT2I拡散モデルの有効性を評価する。 mg-18 と mc-18 の両方の実験結果は、altdiffusion が現在の最先端の t2i モデル、例えば、多言語理解における安定な拡散、特に文化特有の概念において、高品質の画像を生成するのに匹敵する能力を持っていることを証明している。

Large Text-to-Image(T2I) diffusion models have shown a remarkable capability to produce photorealistic and diverse images based on text inputs. However, existing works only support limited language input, e.g., English, Chinese, and Japanese, leaving users beyond these languages underserved and blocking the global expansion of T2I models. Therefore, this paper presents AltDiffusion, a novel multilingual T2I diffusion model that supports eighteen different languages. Specifically, we first train a multilingual text encoder based on the knowledge distillation. Then we plug it into a pretrained English-only diffusion model and train the model with a two-stage schema to enhance the multilingual capability, including concept alignment and quality improvement stage on a large-scale multilingual dataset. Furthermore, we introduce a new benchmark, which includes Multilingual-General-18(MG-18) and Multilingual-Cultural-18(MC-18) datasets, to evaluate the capabilities of T2I diffusion models for generating high-quality images and capturing culture-specific concepts in different languages. Experimental results on both MG-18 and MC-18 demonstrate that AltDiffusion outperforms current state-of-the-art T2I models, e.g., Stable Diffusion in multilingual understanding, especially with respect to culture-specific concepts, while still having comparable capability for generating high-quality images.
翻訳日:2023-08-22 18:28:53 公開日:2023-08-19
# tsar-mvs:テクスチャレスアウェアセグメンテーションとコリレーティブリファインメント誘導マルチビューステレオ

TSAR-MVS: Textureless-aware Segmentation and Correlative Refinement Guided Multi-View Stereo ( http://arxiv.org/abs/2308.09990v1 )

ライセンス: Link先を確認
Zhenlong Yuan, Jiakai Cao, Hao Jiang, Zhaoqi Wang and Zhaoxin Li(参考訳) テクスチャレス領域の再構成は、画像間の信頼性の高い画素対応が欠如しているため、MVSでは長年、難しい問題であった。 本稿では, テクスチャレス領域による3次元再構成の課題を, フィルタリング, 精細化, セグメンテーションにより効果的に解決する, マルチビューステレオ(TSAR-MVS)を提案する。 まず,不均一不連続検出器と信頼度推定器を融合させて不正確な深度推定を除去するジョイント仮説フィルタリングを実装した。 第二に,RANSACを利用して高解像度の画素を生成する反復的相関補正戦略を導入し,高精度に決定された画素の影響を拡大する中央フィルタを継承し,エッジ検出と線検出を利用して3次元平面で装着する大型のテクスチャレス領域を正確に識別するテクスチャレス認識セグメンテーション法を提案する。 広範囲なデータセット実験により,本手法は非学習手法のほとんどを著しく上回り,テクスチャレス領域に頑健さを示しながら細部を保存できることが判明した。

The reconstruction of textureless areas has long been a challenging problem in MVS due to lack of reliable pixel correspondences between images. In this paper, we propose the Textureless-aware Segmentation And Correlative Refinement guided Multi-View Stereo (TSAR-MVS), a novel method that effectively tackles challenges posed by textureless areas in 3D reconstruction through filtering, refinement and segmentation. First, we implement joint hypothesis filtering, a technique that merges a confidence estimator with a disparity discontinuity detector to eliminate incorrect depth estimations. Second, to spread the pixels with confident depth, we introduce a iterative correlation refinement strategy that leverages RANSAC to generate superpixels, succeeded by a median filter for broadening the influence of accurately determined pixels.Finally, we present a textureless-aware segmentation method that leverages edge detection and line detection for accurately identify large textureless regions to be fitted using 3D planes. Experiments on extensive datasets demonstrate that our method significantly outperforms most non-learning methods and exhibits robustness to textureless areas while preserving fine details.
翻訳日:2023-08-22 18:28:26 公開日:2023-08-19
# ClothesNet: 模擬衣料環境を用いたインフォメーションリッチ3Dガーメントモデルリポジトリ

ClothesNet: An Information-Rich 3D Garment Model Repository with Simulated Clothes Environment ( http://arxiv.org/abs/2308.09987v1 )

ライセンス: Link先を確認
Bingyang Zhou, Haoyu Zhou, Tianhai Liang, Qiaojun Yu, Siheng Zhao, Yuwei Zeng, Jun Lv, Siyuan Luo, Qiancai Wang, Xinyuan Yu, Haonan Chen, Cewu Lu, and Lin Shao(参考訳) ClothesNet:情報豊富なアノテーションを備えた3D服用オブジェクトの大規模データセット。 我々のデータセットは、衣服の特徴、境界線、キーポイントを含む11のカテゴリをカバーする約4400のモデルで構成されています。 ClothesNetは、さまざまなコンピュータビジョンとロボットインタラクションタスクを容易にするために使用できる。 このデータセットを用いて,服の分類,境界線分割,キーポイント検出などの衣服知覚のためのベンチマークタスクを確立し,ロボットインタラクションタスクのための,再配置,折り畳み,吊り下げ,ドレッシングなどのシミュレーション環境を構築した。 また,実世界の実験において,ClothesNetの有効性を実証した。 補助材料とデータセットはプロジェクトのWebページで利用可能です。

We present ClothesNet: a large-scale dataset of 3D clothes objects with information-rich annotations. Our dataset consists of around 4400 models covering 11 categories annotated with clothes features, boundary lines, and keypoints. ClothesNet can be used to facilitate a variety of computer vision and robot interaction tasks. Using our dataset, we establish benchmark tasks for clothes perception, including classification, boundary line segmentation, and keypoint detection, and develop simulated clothes environments for robotic interaction tasks, including rearranging, folding, hanging, and dressing. We also demonstrate the efficacy of our ClothesNet in real-world experiments. Supplemental materials and dataset are available on our project webpage.
翻訳日:2023-08-22 18:28:02 公開日:2023-08-19
# HICL:ソーシャルメディア自然言語理解のためのハッシュタグ駆動型インコンテキスト学習

HICL: Hashtag-Driven In-Context Learning for Social Media Natural Language Understanding ( http://arxiv.org/abs/2308.09985v1 )

ライセンス: Link先を確認
Hanzhuo Tan, Chunpu Xu, Jing Li, Yuqun Zhang, Zeyang Fang, Zeyu Chen, Baohua Lai(参考訳) 自然言語理解(NLU)は様々なソーシャルメディアアプリケーションに不可欠である。 しかし、既存のNLUモデルはセマンティックラーニングの文脈に大きく依存しており、短いソーシャルメディアコンテンツに直面すると性能が損なわれる。 この問題に対処するために、言語モデルがいくつかのデモを条件付けして推論を行うことを学習し、新しいハッシュタグ駆動インコンテキスト学習(hicl)フレームワークを提案するin-context learning(icl)を活用する。 具体的には,#hashtags(user-annotated topic labels)を使用したモデル#encoderを事前学習し,対照学習を通じてbertベースの事前トレーニングを行う。 本研究の目的は,#Encoderがトピック関連セマンティック情報を組み込むことで,トピック関連投稿を検索してコンテキストを豊かにし,騒々しいコンテキストでソーシャルメディアNLUを拡張できるようにすることである。 検索されたコンテキストをソーステキストにさらに統合するために、グラデーションベースの手法を用いて、両方のソースからの情報を融合するのに有用なトリガ語を識別する。 In-context NLUベンチマークを作成するために4500万のつぶやきを収集し、7つの下流タスクの実験結果から、HICLは過去の最先端の成果を大幅に向上することが示された。 さらに,(1)#encoderからトップ検索された投稿とソース入力を組み合わせることは,意味的に類似したポストを使うよりも効果的である,(2)トリガーワードは,ソースと検索されたポストのコンテキストを融合する上で大きなメリットがある,という分析を行った。

Natural language understanding (NLU) is integral to various social media applications. However, existing NLU models rely heavily on context for semantic learning, resulting in compromised performance when faced with short and noisy social media content. To address this issue, we leverage in-context learning (ICL), wherein language models learn to make inferences by conditioning on a handful of demonstrations to enrich the context and propose a novel hashtag-driven in-context learning (HICL) framework. Concretely, we pre-train a model #Encoder, which employs #hashtags (user-annotated topic labels) to drive BERT-based pre-training through contrastive learning. Our objective here is to enable #Encoder to gain the ability to incorporate topic-related semantic information, which allows it to retrieve topic-related posts to enrich contexts and enhance social media NLU with noisy contexts. To further integrate the retrieved context with the source text, we employ a gradient-based method to identify trigger terms useful in fusing information from both sources. For empirical studies, we collected 45M tweets to set up an in-context NLU benchmark, and the experimental results on seven downstream tasks show that HICL substantially advances the previous state-of-the-art results. Furthermore, we conducted extensive analyzes and found that: (1) combining source input with a top-retrieved post from #Encoder is more effective than using semantically similar posts; (2) trigger words can largely benefit in merging context from the source and retrieved posts.
翻訳日:2023-08-22 18:27:50 公開日:2023-08-19
# GANの物理誘導による翼設計の精度向上

Physics-guided training of GAN to improve accuracy in airfoil design synthesis ( http://arxiv.org/abs/2308.10038v1 )

ライセンス: Link先を確認
Kazunari Wada, Katsuyuki Suzuki, Kazuo Yonekura(参考訳) GAN(Generative Adversarial Network)は近年,機械形状の設計合成に用いられている。 GANは物理的に不合理な形状を出力することがある。 例えば、GANモデルが空気力学的性能を示す翼形状を出力するように訓練されると、性能値に重大な誤差が発生する。 これはganモデルがデータのみを考慮せず、データの下にある空力方程式を考慮しないためである。 本稿では,ganモデルの物理指導による学習を行い,モデルの物理妥当性の学習を指導する。 物理的妥当性は、ニューラルネットワークモデル外に位置する汎用ソフトウェアを用いて計算される。 このような汎用ソフトウェアは、物理的に変形したニューラルネットワークのフレームワークでは使用できない。 さらに、生成モデルの制限は、出力データがトレーニングデータと類似しており、全く新しい形状を生成できないことである。 しかし、提案モデルは物理モデルによってガイドされ、トレーニングデータセットを使用しないため、全く新しい形状を生成することができる。 数値実験により,提案モデルが精度を大幅に向上することを示す。 さらに、出力形状はトレーニングデータセットと異なり、既存のganモデルの制限を克服し、物理的妥当性を満足する。

Generative adversarial networks (GAN) have recently been used for a design synthesis of mechanical shapes. A GAN sometimes outputs physically unreasonable shapes. For example, when a GAN model is trained to output airfoil shapes that indicate required aerodynamic performance, significant errors occur in the performance values. This is because the GAN model only considers data but does not consider the aerodynamic equations that lie under the data. This paper proposes the physics-guided training of the GAN model to guide the model to learn physical validity. Physical validity is computed using general-purpose software located outside the neural network model. Such general-purpose software cannot be used in physics-informed neural network frameworks, because physical equations must be implemented inside the neural network models. Additionally, a limitation of generative models is that the output data are similar to the training data and cannot generate completely new shapes. However, because the proposed model is guided by a physical model and does not use a training dataset, it can generate completely new shapes. Numerical experiments show that the proposed model drastically improves the accuracy. Moreover, the output shapes differ from those of the training dataset but still satisfy the physical validity, overcoming the limitations of existing GAN models.
翻訳日:2023-08-22 18:18:44 公開日:2023-08-19
# ロジスティック回帰に応用した高性能コンピューティング:CPUとGPUの実装比較

High Performance Computing Applied to Logistic Regression: A CPU and GPU Implementation Comparison ( http://arxiv.org/abs/2308.10037v1 )

ライセンス: Link先を確認
Nechba Mohammed, Mouhajir Mohamed, Sedjari Yassine(参考訳) 我々は,大規模データセットによるバイナリ分類における高速なアルゴリズムの需要の増加に対処するために,GPUベースの並列バージョンであるロジスティック回帰(LR)を提案する。 我々の実装は、X. Zouらによって提案された並列な勾配Descent Logistic Regressionアルゴリズムの直接変換である。 [12]. 実験により、GPUベースのLRは、f1スコアを維持しながら、実行時間の観点から既存のCPUベースの実装よりも優れていることが示された。 大規模データセットの処理の大幅な高速化は,画像認識,スパム検出,不正検出などのリアルタイム予測アプリケーションに特に有利である。 私たちのアルゴリズムは、 https://github.com/NechbaMohammed/SwiftLogisticRegで利用可能なPythonライブラリで実装されています。

We present a versatile GPU-based parallel version of Logistic Regression (LR), aiming to address the increasing demand for faster algorithms in binary classification due to large data sets. Our implementation is a direct translation of the parallel Gradient Descent Logistic Regression algorithm proposed by X. Zou et al. [12]. Our experiments demonstrate that our GPU-based LR outperforms existing CPU-based implementations in terms of execution time while maintaining comparable f1 score. The significant acceleration of processing large datasets makes our method particularly advantageous for real-time prediction applications like image recognition, spam detection, and fraud detection. Our algorithm is implemented in a ready-to-use Python library available at : https://github.com/NechbaMohammed/SwiftLogisticReg
翻訳日:2023-08-22 18:18:27 公開日:2023-08-19
# 車両乗っ取りつぶやき判定のための半監督的異常検出

Semi-Supervised Anomaly Detection for the Determination of Vehicle Hijacking Tweets ( http://arxiv.org/abs/2308.10036v1 )

ライセンス: Link先を確認
Taahir Aiyoob Patel and Clement N. Nyirenda(参考訳) 南アフリカでは、自動車のハイジャックがますます問題になっている。 これは、旅行者がこのような事故の犠牲者になることを恐れることにつながる。 本研究は,非教師付き異常検出アルゴリズムを用いて,ハイジャックインシデントをツイートで識別する,新たな半教師付きアプローチを提案する。 単語 "hijacking" からなるつぶやきを取得し,TF-IDF (quency-inverse document frequency) という用語を用いて処理し,さらに2つの異常検出アルゴリズムを用いて解析する。 1)K-Nearest Neighbour(KNN) 2)クラスタベースアウトリアーファクタ(cblof)。 比較評価の結果,nn法の精度は89%,cblofの精度は90%であった。 CBLOF法ではF1スコアが0.8、KNNでは0.78を得ることができた。 したがって、関連するハイジャックツイートを決定するための教師なしの方法として選択されたCBLOFを好んで、この2つのアプローチには若干の違いがある。 将来的には,教師あり学習法と,この大規模データセットにおける教師なし学習法の比較を行う予定である。 全体的なパフォーマンスを向上させるために最適化メカニズムも採用する予定である。

In South Africa, there is an ever-growing issue of vehicle hijackings. This leads to travellers constantly being in fear of becoming a victim to such an incident. This work presents a new semi-supervised approach to using tweets to identify hijacking incidents by using unsupervised anomaly detection algorithms. Tweets consisting of the keyword "hijacking" are obtained, stored, and processed using the term frequency-inverse document frequency (TF-IDF) and further analyzed by using two anomaly detection algorithms: 1) K-Nearest Neighbour (KNN); 2) Cluster Based Outlier Factor (CBLOF). The comparative evaluation showed that the KNN method produced an accuracy of 89%, whereas the CBLOF produced an accuracy of 90%. The CBLOF method was also able to obtain a F1-Score of 0.8, whereas the KNN produced a 0.78. Therefore, there is a slight difference between the two approaches, in favour of CBLOF, which has been selected as a preferred unsupervised method for the determination of relevant hijacking tweets. In future, a comparison will be done between supervised learning methods and the unsupervised methods presented in this work on larger dataset. Optimisation mechanisms will also be employed in order to increase the overall performance.
翻訳日:2023-08-22 18:18:17 公開日:2023-08-19
# CRC-ICM: 大腸癌免疫細胞マーカーパターンデータセット

CRC-ICM: Colorectal Cancer Immune Cell Markers Pattern Dataset ( http://arxiv.org/abs/2308.10033v1 )

ライセンス: Link先を確認
Zahra Mokhtari, Elham Amjadi, Hamidreza Bolhasani, Zahra Faghih, AmirReza Dehghanian, Marzieh Rezaei(参考訳) 大腸癌は世界で2番目に多いがん死の原因であり、adは大腸の原発性腫瘍(左右結腸、直腸)の位置によって同定できる。 この位置に基づいて、CRCは染色体および分子特性、微生物の発生率、病因、および結果の相違を示す。 左右の腫瘍も免疫組織学的に異なっており,原発巣により予後が異なる可能性が指摘されている。 腫瘍微小環境(TME)の免疫成分が腫瘍発生に重要な役割を果たすことは広く受け入れられている。 tmeにおける重要な調節分子の1つは、免疫応答のゲートキーパーが浸潤した免疫細胞機能を調節する免疫チェックポイントである。 TMEの免疫抑制機構としてPD-1、Tim3、RAG3などの免疫チェックポイントが過剰発現し、腫瘍のさらなる進展をもたらす。 このデータセットの画像は、CD3, CD8, CD45RO, PD-1, LAG3, Tim3の特定の抗体で染色されたCRC患者の大腸組織から得られた。 このデータセットの名前はCRC-ICMで、136人の患者に関連する1756の画像を含んでいる。 crc-icmの初期バージョンは elsevier mendeley dataset portal で公開されており、最新バージョンは https://databiox.com でアクセス可能である。

Colorectal Cancer (CRC) is the second most common cause of cancer death in the world, ad can be identified by the location of the primary tumor in the large intestine: right and left colon, and rectum. Based on the location, CRC shows differences in chromosomal and molecular characteristics, microbiomes incidence, pathogenesis, and outcome. It has been shown that tumors on left and right sides also have different immune landscape, so the prognosis may be different based on the primary tumor locations. It is widely accepted that immune components of the tumor microenvironment (TME) plays a critical role in tumor development. One of the critical regulatory molecules in the TME is immune checkpoints that as the gatekeepers of immune responses regulate the infiltrated immune cell functions. Inhibitory immune checkpoints such as PD-1, Tim3, and LAG3, as the main mechanism of immune suppression in TME overexpressed and result in further development of the tumor. The images of this dataset have been taken from colon tissues of patients with CRC, stained with specific antibodies for CD3, CD8, CD45RO, PD-1, LAG3 and Tim3. The name of this dataset is CRC-ICM and contains 1756 images related to 136 patients. The initial version of CRC-ICM is published on Elsevier Mendeley dataset portal, and the latest version is accessible via: https://databiox.com
翻訳日:2023-08-22 18:17:56 公開日:2023-08-19
# GameEval: 会話ゲームにおけるLLMの評価

GameEval: Evaluating LLMs on Conversational Games ( http://arxiv.org/abs/2308.10032v1 )

ライセンス: Link先を確認
Dan Qiao, Chenfei Wu, Yaobo Liang, Juntao Li, Nan Duan(参考訳) 大規模言語モデル(LLM)の急速な進歩は、これらのモデルを評価する上での課題を提示している。 既存の評価方法は参照ベースまたは好みベースであり、必然的に人間の介入を必要とするか、評価モデルによって引き起こされるテストバイアスを導入する。 本稿では,従来の手法の限界を克服し,ゴール駆動型会話ゲームによるLLMの評価手法であるGameEvalを提案する。 GameEvalはLSMをゲームプレイヤーとして扱い、議論、質問応答、投票など様々な形式の会話をローンチすることで達成した特定の目標にそれぞれ異なる役割を割り当てる。 我々は,この新手法がいかにモデル性能を包括的に評価するかを示すために,協調的あるいは敵対的な目的を持った3つのユニークなゲームを設計し,複雑な問題を解決するための統合能力の包括的評価を提供することにより,様々なllmの能力を効果的に区別できることを示す。 我々の匿名コードはhttps://github.com/GameEval/GameEval.comで入手可能です。

The rapid advancements in large language models (LLMs) have presented challenges in evaluating those models. Existing evaluation methods are either reference-based or preference based, which inevitably need human intervention or introduce test bias caused by evaluator models. In this paper, we propose GameEval, a novel approach to evaluating LLMs through goal-driven conversational games, overcoming the limitations of previous methods. GameEval treats LLMs as game players and assigns them distinct roles with specific goals achieved by launching conversations of various forms, including discussion, question answering, and voting. We design three unique games with cooperative or adversarial objectives, accompanied by corresponding evaluation metrics, to show how this new paradigm comprehensively evaluates model performance.Through extensive experiments, we show that GameEval can effectively differentiate the capabilities of various LLMs, providing a comprehensive assessment of their integrated abilities to solve complex problems. Our public anonymous code is available at https://github.com/GameEval/GameEval.
翻訳日:2023-08-22 18:17:33 公開日:2023-08-19
# コンポーネントシナジーによる単一画像反射分離

Single Image Reflection Separation via Component Synergy ( http://arxiv.org/abs/2308.10027v1 )

ライセンス: Link先を確認
Qiming Hu, Xiaojie Guo(参考訳) 反射重畳現象は複雑で現実世界に広く分布しており、様々な単純化された線形および非線形の定式化が導かれる。 本稿では,既存モデルの弱点を解明した上で,分解時の残余情報を効果的に把握し,分離した層を導出する学習可能な残余項を導入することで,重ね合わせモデルのより一般的な形式を提案する。 そこで我々は,その利点を十分に活用するために,新しい2ストリームインタラクション機構と意味的ピラミッドエンコーダを用いた強力な分解ネットワークを含む,ネットワーク構造をさらに精巧に設計する。 複数の実世界のベンチマークデータセットに対する最先端アプローチに対する我々の優位性を検証するために、大規模な実験とアブレーション研究を行った。 私たちのコードはhttps://github.com/mingcv/dsrnetで公開されています。

The reflection superposition phenomenon is complex and widely distributed in the real world, which derives various simplified linear and nonlinear formulations of the problem. In this paper, based on the investigation of the weaknesses of existing models, we propose a more general form of the superposition model by introducing a learnable residue term, which can effectively capture residual information during decomposition, guiding the separated layers to be complete. In order to fully capitalize on its advantages, we further design the network structure elaborately, including a novel dual-stream interaction mechanism and a powerful decomposition network with a semantic pyramid encoder. Extensive experiments and ablation studies are conducted to verify our superiority over state-of-the-art approaches on multiple real-world benchmark datasets. Our code is publicly available at https://github.com/mingcv/DSRNet.
翻訳日:2023-08-22 18:17:17 公開日:2023-08-19
# ControlRetriever: 制御可能な検索のためのインストラクションのパワーを損なう

ControlRetriever: Harnessing the Power of Instructions for Controllable Retrieval ( http://arxiv.org/abs/2308.10025v1 )

ライセンス: Link先を確認
Kaihang Pan, Juncheng Li, Hongye Song, Hao Fei, Wei Ji, Shuo Zhang, Jun Lin, Xiaozhong Liu, Siliang Tang(参考訳) 近年の研究では、専用のトレーニングデータを持たない密集した検索モデルは、異なる検索タスクに異なる検索意図が伴うため、様々な検索タスクでうまく実行できないことが示されている。 この課題に対処するため,我々は,自然言語における検索意図を明示的に記述する命令のパワーを活かして,多種多様な検索タスクを直接実行するための密検索モデルを制御することができる,パラメータ分離アーキテクチャを用いた汎用的かつ効率的なアプローチである controlretriever を導入する。 テキストから画像への生成で強力であることが証明されたcontrolnetの基盤を活用して、controlretrieverは、タスク固有の指示に導かれながら、制御可能な検索能力を持つ異なる検索モデルを模倣する。 さらに,大規模言語モデルの進歩を活かし,多種多様な命令を含む広範囲な自動生成検索データに基づいて,制御を反復的にチューニングする,llm誘導型指導合成反復学習戦略を提案する。 広範な実験により、beirベンチマークでは、タスクごとに特定の検索意図を自然言語で記述するだけで、controlretrieverはタスク固有のチューニングなしで統一されたマルチタスク検索システムとして、タスク固有のレトリバーで設計されたベースラインメソッドを大幅に上回り、最先端のゼロショット性能を実現している。

Recent studies have shown that dense retrieval models, lacking dedicated training data, struggle to perform well across diverse retrieval tasks, as different retrieval tasks often entail distinct search intents. To address this challenge, in this work we introduce ControlRetriever, a generic and efficient approach with a parameter isolated architecture, capable of controlling dense retrieval models to directly perform varied retrieval tasks, harnessing the power of instructions that explicitly describe retrieval intents in natural language. Leveraging the foundation of ControlNet, which has proven powerful in text-to-image generation, ControlRetriever imbues different retrieval models with the new capacity of controllable retrieval, all while being guided by task-specific instructions. Furthermore, we propose a novel LLM guided Instruction Synthesizing and Iterative Training strategy, which iteratively tunes ControlRetriever based on extensive automatically-generated retrieval data with diverse instructions by capitalizing the advancement of large language models. Extensive experiments show that in the BEIR benchmark, with only natural language descriptions of specific retrieval intent for each task, ControlRetriever, as a unified multi-task retrieval system without task-specific tuning, significantly outperforms baseline methods designed with task-specific retrievers and also achieves state-of-the-art zero-shot performance.
翻訳日:2023-08-22 18:17:05 公開日:2023-08-19
# 畳み込み型オートエンコーダボトルネック幅がStarGANベースの歌唱技術変換に及ぼす影響

Effects of Convolutional Autoencoder Bottleneck Width on StarGAN-based Singing Technique Conversion ( http://arxiv.org/abs/2308.10021v1 )

ライセンス: Link先を確認
Tung-Cheng Su, Yung-Chuan Chang, Yi-Wen Liu(参考訳) 歌唱技法変換(stc)は、元の歌手のアイデンティティ、メロディ、言語的要素をそのまま残しながら、ある声法から別の声法に変換する作業を指す。 以前のSTC研究や歌唱音声変換研究は、変換に畳み込みオートエンコーダ(CAE)を使用してきたが、CAEのボトルネック幅が合成品質に与える影響は十分に評価されていない。 そこで我々は WORLD vocoder 表現と CAE アーキテクチャを利用した GAN ベースのマルチドメイン STC システムを構築した。 我々はCAEのボトルネック幅を変動させ,変換結果を主観的に評価した。 このモデルは4人の歌手と4人の歌唱技法(胸声、偽音、ささいな声、口笛声)からなるマンダリンのデータセットで訓練された。 その結果、より広いボトルネックは明瞭度の向上に対応しているが、必ずしも目標技術への類似度が高まるとは限らない。 また、4つの技法のうち、whi音声は変換の最も容易なターゲットであり、他の3つの手法はwhiよりも説得力のある変換結果を生成する。

Singing technique conversion (STC) refers to the task of converting from one voice technique to another while leaving the original singer identity, melody, and linguistic components intact. Previous STC studies, as well as singing voice conversion research in general, have utilized convolutional autoencoders (CAEs) for conversion, but how the bottleneck width of the CAE affects the synthesis quality has not been thoroughly evaluated. To this end, we constructed a GAN-based multi-domain STC system which took advantage of the WORLD vocoder representation and the CAE architecture. We varied the bottleneck width of the CAE, and evaluated the conversion results subjectively. The model was trained on a Mandarin dataset which features four singers and four singing techniques: the chest voice, the falsetto, the raspy voice, and the whistle voice. The results show that a wider bottleneck corresponds to better articulation clarity but does not necessarily lead to higher likeness to the target technique. Among the four techniques, we also found that the whistle voice is the easiest target for conversion, while the other three techniques as a source produce more convincing conversion results than the whistle.
翻訳日:2023-08-22 18:16:40 公開日:2023-08-19
# マルチモーダル視覚融合の解釈

Interpretation on Multi-modal Visual Fusion ( http://arxiv.org/abs/2308.10019v1 )

ライセンス: Link先を確認
Hao Chen, Haoran Zhou, Yongjian Deng(参考訳) 本稿では,マルチモーダル・ビジョン・コミュニティの解釈に光を当てるために,分析的枠組みと新しい計量法を提案する。 提案手法は,モダリティとレベルにまたがる意味的差異と特徴的類似度を測定し,総合的な実験を通じて意味的および定量的分析を行う。 具体的には,モダリティ間の表現の一貫性と特殊性,各モダリティ内の進化規則,マルチモダリティモデルの最適化に使用される協調論理について検討する。 クロスモーダル特徴の相違や相補的推論のための一貫性と専門性を同時に強調するハイブリッドマルチモーダル協調規則など,いくつかの重要な知見が得られた。 我々はマルチモーダル・フュージョンの解離と発見を通じて、一般的なマルチモーダル・ビジョン・フュージョン戦略の理性や必要性を再考する。 さらに,本研究は,様々なタスクに対する信頼性が高く普遍的なマルチモーダル融合モデルの設計の基礎を築いている。

In this paper, we present an analytical framework and a novel metric to shed light on the interpretation of the multimodal vision community. Our approach involves measuring the proposed semantic variance and feature similarity across modalities and levels, and conducting semantic and quantitative analyses through comprehensive experiments. Specifically, we investigate the consistency and speciality of representations across modalities, evolution rules within each modality, and the collaboration logic used when optimizing a multi-modality model. Our studies reveal several important findings, such as the discrepancy in cross-modal features and the hybrid multi-modal cooperation rule, which highlights consistency and speciality simultaneously for complementary inference. Through our dissection and findings on multi-modal fusion, we facilitate a rethinking of the reasonability and necessity of popular multi-modal vision fusion strategies. Furthermore, our work lays the foundation for designing a trustworthy and universal multi-modal fusion model for a variety of tasks in the future.
翻訳日:2023-08-22 18:16:17 公開日:2023-08-19
# 自己教師付き6次元物体ポーズ推定のための擬似フロー一貫性

Pseudo Flow Consistency for Self-Supervised 6D Object Pose Estimation ( http://arxiv.org/abs/2308.10016v1 )

ライセンス: Link先を確認
Yang Hai, Rui Song, Jiaojiao Li, David Ferstl, Yinlin Hu(参考訳) ほとんどの自己監督型6Dオブジェクトポーズ推定手法は、追加の深度情報でのみ機能するか、2Dセグメンテーションマスクの正確なアノテーションに依存して、適用範囲を制限することができる。 本稿では,補助情報なしで純粋なRGB画像でトレーニング可能な6次元オブジェクトポーズ推定手法を提案する。 まず,ターゲットの3dメッシュから生成した合成画像から学習したネットワークから粗いポーズ初期化を求める。 そこで我々は,複数の異なる視点から合成-実画像対の幾何学的制約を活用する改良戦略を提案する。 この幾何学的制約を、動的に生成された擬似ラベルを持つトレーニング画像間のピクセルレベルのフロー一貫性として定式化する。 提案手法を3つの挑戦的データセット上で評価し、2Dアノテーションと追加の深度画像の両方で最先端の自己監督手法を著しく上回っていることを示す。

Most self-supervised 6D object pose estimation methods can only work with additional depth information or rely on the accurate annotation of 2D segmentation masks, limiting their application range. In this paper, we propose a 6D object pose estimation method that can be trained with pure RGB images without any auxiliary information. We first obtain a rough pose initialization from networks trained on synthetic images rendered from the target's 3D mesh. Then, we introduce a refinement strategy leveraging the geometry constraint in synthetic-to-real image pairs from multiple different views. We formulate this geometry constraint as pixel-level flow consistency between the training images with dynamically generated pseudo labels. We evaluate our method on three challenging datasets and demonstrate that it outperforms state-of-the-art self-supervised methods significantly, with neither 2D annotations nor additional depth images.
翻訳日:2023-08-22 18:16:00 公開日:2023-08-19
# dpl:視覚言語モデルのためのプロンプト学習の分離

DPL: Decoupled Prompt Learning for Vision-Language Models ( http://arxiv.org/abs/2308.10061v1 )

ライセンス: Link先を確認
Chen Xu, Yuhan Zhu, Guozhen Zhang, Haocheng Shen, Yixuan Liao, Xiaoxin Chen, Gangshan Wu, Limin Wang(参考訳) プロンプト学習は、基礎的なビジョンランゲージモデル(例えばCLIP)を下流タスクに転送するための効率的かつ効果的なアプローチとして登場した。 しかし、現在のメソッドは見られているカテゴリに過度に適合しがちであり、それによって見当たらないクラスに対する一般化能力が制限される。 本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法であるDecoupled Prompt Learning (DPL)を提案する。 具体的には,プロンプトとインスタンス(画像パッチ/テキストトークン)の協調プロセスについて理論的に検討する。 詳細な解析により,いくつかの近似手法により,ある種のサブプロセスの堅牢性と一般化性を高めることができる。 さらに,テキスト入力の一般化を自然に保ちつつ,分離された注意に基づく言語条件付きテキストプロンプトを導入する。 私たちのアプローチは、視覚とテキストの両方のモダリティに対して柔軟であり、マルチモーダルなプロンプトラーニングに容易に拡張できます。 提案手法を組み合わせることで,パラメータ効率を保ちながら,15の画像認識データセットを含む3つの代表的なベンチマークにおける最先端性能を実現する。 さらに,dplは補助正規化タスクや追加訓練データに依存しておらず,その顕著な一般化能力も示している。

Prompt learning has emerged as an efficient and effective approach for transferring foundational Vision-Language Models (e.g., CLIP) to downstream tasks. However, current methods tend to overfit to seen categories, thereby limiting their generalization ability for unseen classes. In this paper, we propose a new method, Decoupled Prompt Learning (DPL), which reformulates the attention in prompt learning to alleviate this problem. Specifically, we theoretically investigate the collaborative process between prompts and instances (i.e., image patches/text tokens) by reformulating the original self-attention into four separate sub-processes. Through detailed analysis, we observe that certain sub-processes can be strengthened to bolster robustness and generalizability by some approximation techniques. Furthermore, we introduce language-conditioned textual prompting based on decoupled attention to naturally preserve the generalization of text input. Our approach is flexible for both visual and textual modalities, making it easily extendable to multi-modal prompt learning. By combining the proposed techniques, our approach achieves state-of-the-art performance on three representative benchmarks encompassing 15 image recognition datasets, while maintaining parameter-efficient. Moreover, our DPL does not rely on any auxiliary regularization task or extra training data, further demonstrating its remarkable generalization ability.
翻訳日:2023-08-22 18:10:17 公開日:2023-08-19
# R-C-P法:画像処理とマシンビジョンを用いた自動体積計算法

R-C-P Method: An Autonomous Volume Calculation Method Using Image Processing and Machine Vision ( http://arxiv.org/abs/2308.10058v1 )

ライセンス: Link先を確認
MA Muktadir, Sydney Parker, Sun Yi(参考訳) マシンビジョンと画像処理は、産業用ロボットから自動運転車まで、自律システムにおける状況認識のためのセンサーとしてしばしば使用される。 LiDAR(Light Detection and Ranging)やRadarのような3D深度センサーは、自律システムにとって素晴らしい発明である。 セットアップの複雑さのため、LiDARはいくつかの運用環境、例えば宇宙環境には適さないかもしれない。 この研究は、深度カメラの代わりに複数の2Dカメラでリアルタイムのボリュームと情報を変更したいという欲求に動機づけられた。 2台のカメラを用いて、矩形物体の寸法をリアルタイムで測定した。 画像処理とエッジ検出を用いてR-C-P法を開発した。 表面積に加えて、R-C-P法は不連続エッジや体積も検出する。 最後に、表面積の次元を計算するための方程式を提供するR-C-P法の例を示した。 物体とカメラの間の所定の距離情報を持つ方程式を用いて、視覚システムは実際の物体の寸法を提供する。

Machine vision and image processing are often used with sensors for situation awareness in autonomous systems, from industrial robots to self-driving cars. The 3D depth sensors, such as LiDAR (Light Detection and Ranging), Radar, are great invention for autonomous systems. Due to the complexity of the setup, LiDAR may not be suitable for some operational environments, for example, a space environment. This study was motivated by a desire to get real-time volumetric and change information with multiple 2D cameras instead of a depth camera. Two cameras were used to measure the dimensions of a rectangular object in real-time. The R-C-P (row-column-pixel) method is developed using image processing and edge detection. In addition to the surface areas, the R-C-P method also detects discontinuous edges or volumes. Lastly, experimental work is presented for illustration of the R-C-P method, which provides the equations for calculating surface area dimensions. Using the equations with given distance information between the object and the camera, the vision system provides the dimensions of actual objects.
翻訳日:2023-08-22 18:09:52 公開日:2023-08-19
# 量子粒子のダイナミクスに関する物理条件を用いたボルン則の証明の改善

Improving the proof of the Born rule using a physical requirement on the dynamics of quantum particles ( http://arxiv.org/abs/2308.10057v1 )

ライセンス: Link先を確認
Yakir Aharonov and Tomer Shushi(参考訳) 本稿では,2つの測定値の間の時間(デルタ)が短い場合,粒子の性質が値の固定を維持するという仮定を付加してボルン則の完全証明を提案する。 この動的仮定は、[1]で得られる結果を改善することによって、その明示的な形式でボルン規則を生成できる。 提案された仮定は量子力学の仮定の一部ではないが、全ての実験がそれに従うので、量子力学の標準仮定を使って推論することはできない。

We propose a complete proof of the Born rule using an additional postulate stating that for a short enough time {\Delta}t between two measurements, a property of a particle will keep its values fixed. This dynamical postulate allows us to produce the Born rule in its explicit form by improving the result given in [1]. While the proposed postulate is still not part of the quantum mechanics postulates, every experiment obeys it, and it can not be deduced using the standard postulates of quantum mechanics.
翻訳日:2023-08-22 18:09:36 公開日:2023-08-19
# 教師付きコントラスト学習によるロバストフラッド検出

Robust Fraud Detection via Supervised Contrastive Learning ( http://arxiv.org/abs/2308.10055v1 )

ライセンス: Link先を確認
Vinay M.S., Shuhan Yuan, Xintao Wu(参考訳) ディープラーニングモデルは最近、コンピューティングプラットフォームにおける悪意のあるユーザアクティビティセッションの検出で人気を集めている。 多くの実世界のシナリオでは、少数のラベル付き悪意のあるセッションと大量の通常のセッションしか利用できない。 これらのラベル付き悪意のあるセッションは、通常、すべての悪質なセッションの多様性全体をカバーするものではない。 多くのシナリオでは、悪意のあるセッションは非常に多様である。 その結果、ディープラーニングモデルの学習されたセッション表現は、悪意のないセッションに対する優れた一般化性能を達成するのに役に立たない。 オープンセットの不正検出の課題に取り組むため,我々はconroと呼ばれるロバストな教師付きコントラスト学習ベースのフレームワークを提案する。 conroは、さまざまな潜在的な悪意のあるセッションを生成するために、効果的なデータ拡張戦略を適用する。 これらの生成および利用可能なトレーニングセットセッションを利用することで、ConRoは、教師付きコントラスト学習を活用することで、オープンセット詐欺検出タスクの分離可能な表現を導出する。 ベンチマークデータセット上でconroフレームワークや最先端のベースラインを実証的に評価しています。 当社のConRoフレームワークは,最先端のベースラインよりも顕著なパフォーマンス向上を実現しています。

Deep learning models have recently become popular for detecting malicious user activity sessions in computing platforms. In many real-world scenarios, only a few labeled malicious and a large amount of normal sessions are available. These few labeled malicious sessions usually do not cover the entire diversity of all possible malicious sessions. In many scenarios, possible malicious sessions can be highly diverse. As a consequence, learned session representations of deep learning models can become ineffective in achieving a good generalization performance for unseen malicious sessions. To tackle this open-set fraud detection challenge, we propose a robust supervised contrastive learning based framework called ConRo, which specifically operates in the scenario where only a few malicious sessions having limited diversity is available. ConRo applies an effective data augmentation strategy to generate diverse potential malicious sessions. By employing these generated and available training set sessions, ConRo derives separable representations w.r.t open-set fraud detection task by leveraging supervised contrastive learning. We empirically evaluate our ConRo framework and other state-of-the-art baselines on benchmark datasets. Our ConRo framework demonstrates noticeable performance improvement over state-of-the-art baselines.
翻訳日:2023-08-22 18:09:25 公開日:2023-08-19
# ゼロショット会話レコメンダとしての大規模言語モデル

Large Language Models as Zero-Shot Conversational Recommenders ( http://arxiv.org/abs/2308.10053v1 )

ライセンス: Link先を確認
Zhankui He, Zhouhang Xie, Rahul Jha, Harald Steck, Dawen Liang, Yesu Feng, Bodhisattwa Prasad Majumder, Nathan Kallus, Julian McAuley(参考訳) 本稿では,3つの主要なコントリビューションを持つゼロショット設定において,代表的大言語モデルを用いた会話推薦タスクに関する実証的研究を行う。 1)「未解決」会話推薦シナリオにおけるモデル行動の洞察を得るため,人気のある議論サイトをスクラップすることで,推薦関連会話のデータセットを構築した。 これは、これまでで最大の公開現実世界の会話レコメンデーションデータセットである。 2) 評価: 新しいデータセットと既存の2つの会話レコメンデーションデータセットについて, 微調整がなくても, 大規模言語モデルが既存の微調整会話レコメンデーションモデルを上回ることを観察する。 3)分析:対話型推薦における大規模言語モデルの顕著な性能の背後にあるメカニズムを検討するために,様々な探索タスクを提案する。 我々は,大規模言語モデルの行動とデータセットの特徴の両方を分析し,モデルの有効性,限界,今後の会話型推薦者設計への方向性を総合的に理解する。

In this paper, we present empirical studies on conversational recommendation tasks using representative large language models in a zero-shot setting with three primary contributions. (1) Data: To gain insights into model behavior in "in-the-wild" conversational recommendation scenarios, we construct a new dataset of recommendation-related conversations by scraping a popular discussion website. This is the largest public real-world conversational recommendation dataset to date. (2) Evaluation: On the new dataset and two existing conversational recommendation datasets, we observe that even without fine-tuning, large language models can outperform existing fine-tuned conversational recommendation models. (3) Analysis: We propose various probing tasks to investigate the mechanisms behind the remarkable performance of large language models in conversational recommendation. We analyze both the large language models' behaviors and the characteristics of the datasets, providing a holistic understanding of the models' effectiveness, limitations and suggesting directions for the design of future conversational recommenders
翻訳日:2023-08-22 18:09:10 公開日:2023-08-19
# snowflake仮説:一つのノード1の受容野でディープgnnを訓練する

The Snowflake Hypothesis: Training Deep GNN with One Node One Receptive field ( http://arxiv.org/abs/2308.10051v1 )

ライセンス: Link先を確認
Kun Wang, Guohao Li, Shilong Wang, Guibin Zhang, Kai Wang, Yang You, Xiaojiang Peng, Yuxuan Liang, Yang Wang(参考訳) グラフニューラルネットワークはグラフ表現学習タスクにかなりの期待を寄せているが、gnnは主に、コンピュータビジョンの領域のモデルとしてより深く進むにつれて、過剰フィッティングと過剰スムーシングの重大な問題に直面している。 本研究では,より深いGNN研究軌跡の系統的研究を行う。 以上の結果から, ディープGNNの現在の成功は, (I) 残差/スキップ接続, (II) DropEdgeのようなパーソナライズされたアグリゲーションアルゴリズムなどのCNNからのイノベーションの採用に起因することが示唆された。 しかし、これらのアルゴリズムは固有の解釈性に欠けることが多く、同じ方法で任意の層内の全てのノードを無差別に扱うため、様々なノード間の微妙な違いを捉えることができない。 この目的のために、snowflake仮説 -- ``one node, oneceptive field''という概念を基礎とする新しいパラダイムを紹介します。 この仮説は各雪片のユニークかつ個性的なパターンからインスピレーションを得て、GNNのノードの受容領域に対応する特異性を提案する。 我々は,各ノードの凝集深さを規定する最も単純な勾配とノードレベルのコサイン距離を指導する原則として,(1)異なる訓練スキーム,(2)様々な浅層および深層gnnバックボーン,(3)複数のベンチマーク(数百万ノードの密度グラフを含む6つのグラフ),(4)異なる集約戦略の比較など,包括的な実験を行う。 観測結果から,我々の仮説は様々なタスクの普遍的な演算子として機能し,深いGNNに膨大なポテンシャルを示すことが示された。 様々なGNNフレームワークに適用でき、奥行き操作の効率を高め、最適なネットワーク深さの選択を説明可能で一般化可能な方法で導くことができる。

Despite Graph Neural Networks demonstrating considerable promise in graph representation learning tasks, GNNs predominantly face significant issues with over-fitting and over-smoothing as they go deeper as models of computer vision realm. In this work, we conduct a systematic study of deeper GNN research trajectories. Our findings indicate that the current success of deep GNNs primarily stems from (I) the adoption of innovations from CNNs, such as residual/skip connections, or (II) the tailor-made aggregation algorithms like DropEdge. However, these algorithms often lack intrinsic interpretability and indiscriminately treat all nodes within a given layer in a similar manner, thereby failing to capture the nuanced differences among various nodes. To this end, we introduce the Snowflake Hypothesis -- a novel paradigm underpinning the concept of ``one node, one receptive field''. The hypothesis draws inspiration from the unique and individualistic patterns of each snowflake, proposing a corresponding uniqueness in the receptive fields of nodes in the GNNs. We employ the simplest gradient and node-level cosine distance as guiding principles to regulate the aggregation depth for each node, and conduct comprehensive experiments including: (1) different training schemes; (2) various shallow and deep GNN backbones, and (3) various numbers of layers (8, 16, 32, 64) on multiple benchmarks (six graphs including dense graphs with millions of nodes); (4) compare with different aggregation strategies. The observational results demonstrate that our hypothesis can serve as a universal operator for a range of tasks, and it displays tremendous potential on deep GNNs. It can be applied to various GNN frameworks, enhancing its effectiveness when operating in-depth, and guiding the selection of the optimal network depth in an explainable and generalizable way.
翻訳日:2023-08-22 18:08:52 公開日:2023-08-19
# 地雷探査作業における自律型ドローンの確率的因果発見・推論・説明に向けて

Towards Probabilistic Causal Discovery, Inference & Explanations for Autonomous Drones in Mine Surveying Tasks ( http://arxiv.org/abs/2308.10047v1 )

ライセンス: Link先を確認
Ricardo Cannizzaro, Rhys Howard, Paulina Lewinska, Lars Kunze(参考訳) 因果モデリングは、自律的なエージェントに、世界とのインタラクションを管理するデータ生成プロセスを理解する能力を提供します。 このようなモデルは、現実の環境で自律ロボットが遭遇するノイズや不確実性の確率論的表現と同様に、形式的な知識を捉える。 したがって、因果関係は自律的なエージェントが意思決定や結果の説明を行うのを助けることができるが、このような因果関係の展開は新たな課題をもたらす。 ここでは,塩鉱で稼働するドローンシステムにおける因果関係に関する課題を特定する。 このような環境は、共同設立者の存在、非定常性、そして前もって完全な因果モデルを構築することの難しさから、自律エージェントにとって難しい。 これらの問題に対処するため,我々はpomdp計画,オンラインscm適応,ポストホックな反事実説明からなる確率的因果枠組みを提案する。 さらに,シミュレーションされた鉱山環境および実世界の鉱山データセット上で,ドローンシステムと統合されたフレームワークを評価するための実験を概説した。

Causal modelling offers great potential to provide autonomous agents the ability to understand the data-generation process that governs their interactions with the world. Such models capture formal knowledge as well as probabilistic representations of noise and uncertainty typically encountered by autonomous robots in real-world environments. Thus, causality can aid autonomous agents in making decisions and explaining outcomes, but deploying causality in such a manner introduces new challenges. Here we identify challenges relating to causality in the context of a drone system operating in a salt mine. Such environments are challenging for autonomous agents because of the presence of confounders, non-stationarity, and a difficulty in building complete causal models ahead of time. To address these issues, we propose a probabilistic causal framework consisting of: causally-informed POMDP planning, online SCM adaptation, and post-hoc counterfactual explanations. Further, we outline planned experimentation to evaluate the framework integrated with a drone system in simulated mine environments and on a real-world mine dataset.
翻訳日:2023-08-22 18:08:16 公開日:2023-08-19
# テキストによる人物検索のためのCLIPの実証的研究

An Empirical Study of CLIP for Text-based Person Search ( http://arxiv.org/abs/2308.10045v1 )

ライセンス: Link先を確認
Min Cao, Yang Bai, Ziyin Zeng, Mang Ye, Min Zhang(参考訳) テキストベースPerson Search (TBPS) は、自然言語による人物画像の検索を目的としている。 近年,クロスモーダルな視覚-言語事前学習モデルであるContrastive Language Image Pretraining (CLIP) が,その強力なクロスモーダルなセマンティック学習能力により,様々な下流タスクにおいて顕著に機能している。 細粒度クロスモーダル検索タスクとしてのTBPSは、CLIPベースのTBPSの研究の高まりに直面している。 本稿では,下流TBPSタスクのための視覚言語事前学習モデルの可能性を探るため,TBPSのためのCLIPの総合的な実証的研究を行い,TBPSコミュニティに直感的かつインクリメンタルで強力なTBPS-CLIPベースラインを提供する。 データ拡張や損失関数など,CLIPにおける重要な設計上の考慮点を再考する。 このモデルは、前述の設計と実践的な訓練のトリックにより、洗練されたモジュールを使わずに満足なパフォーマンスを達成できる。 また,モデル一般化とモデル圧縮におけるTBPS-CLIPの探索実験を行い,様々な側面からTBPS-CLIPの有効性を示す。 この研究は実証的な洞察を与え、将来のCLIPベースのTBPS研究を強調することが期待されている。

Text-based Person Search (TBPS) aims to retrieve the person images using natural language descriptions. Recently, Contrastive Language Image Pretraining (CLIP), a universal large cross-modal vision-language pre-training model, has remarkably performed over various cross-modal downstream tasks due to its powerful cross-modal semantic learning capacity. TPBS, as a fine-grained cross-modal retrieval task, is also facing the rise of research on the CLIP-based TBPS. In order to explore the potential of the visual-language pre-training model for downstream TBPS tasks, this paper makes the first attempt to conduct a comprehensive empirical study of CLIP for TBPS and thus contribute a straightforward, incremental, yet strong TBPS-CLIP baseline to the TBPS community. We revisit critical design considerations under CLIP, including data augmentation and loss function. The model, with the aforementioned designs and practical training tricks, can attain satisfactory performance without any sophisticated modules. Also, we conduct the probing experiments of TBPS-CLIP in model generalization and model compression, demonstrating the effectiveness of TBPS-CLIP from various aspects. This work is expected to provide empirical insights and highlight future CLIP-based TBPS research.
翻訳日:2023-08-22 18:07:59 公開日:2023-08-19
# 非離散設定のためのVapnik Chervonenkis次元の計算

Computing the Vapnik Chervonenkis Dimension for Non-Discrete Settings ( http://arxiv.org/abs/2308.10041v1 )

ライセンス: Link先を確認
Mohammed Nechba, Mouhajir Mohamed, Sedjari Yassine(参考訳) 1984年、valiant [7 ]はboolean関数クラスのためのおそらくほぼ正しい(pac)学習フレームワークを導入した。 Blumerなど。 [2]1989年にPACの学習性を特徴付けるツールとしてVC次元を導入してこのモデルを拡張した。 VC次元は、1971年にVapnikとChervonenkisの業績に基づいており、彼は、破砕特性を特徴づけるために成長関数と呼ばれるツールを導入した。 研究者はその後、特定のクラスのVC次元を決定し、任意の概念クラスのVC次元を計算するアルゴリズムを開発する努力をしてきた。 1991年、Linial, Mansour, and Rivest [4] は、概念クラスとドメインセットの両方が有限であると仮定して、離散的な設定でVC次元を計算するアルゴリズムを提示した。 しかし,vc次元を一般設定で計算可能なアルゴリズムを設計する試みは行われておらず,本研究は概念クラスやドメイン集合に制約なくvc次元を近似的に計算する手法の開発に焦点を当てている。 提案手法は,経験的リスク最小化(Empirical Risk Minimization,ERM)学習パラダイムが,概念クラスの破砕特性を特徴付ける新しいツールとして利用できることを示すものである。

In 1984, Valiant [ 7 ] introduced the Probably Approximately Correct (PAC) learning framework for boolean function classes. Blumer et al. [ 2] extended this model in 1989 by introducing the VC dimension as a tool to characterize the learnability of PAC. The VC dimension was based on the work of Vapnik and Chervonenkis in 1971 [8 ], who introduced a tool called the growth function to characterize the shattering property. Researchers have since determined the VC dimension for specific classes, and efforts have been made to develop an algorithm that can calculate the VC dimension for any concept class. In 1991, Linial, Mansour, and Rivest [4] presented an algorithm for computing the VC dimension in the discrete setting, assuming that both the concept class and domain set were finite. However, no attempts had been made to design an algorithm that could compute the VC dimension in the general setting.Therefore, our work focuses on developing a method to approximately compute the VC dimension without constraints on the concept classes or their domain set. Our approach is based on our finding that the Empirical Risk Minimization (ERM) learning paradigm can be used as a new tool to characterize the shattering property of a concept class.
翻訳日:2023-08-22 18:07:35 公開日:2023-08-19
# ControlCom:拡散モデルを用いた制御可能な画像合成

ControlCom: Controllable Image Composition using Diffusion Model ( http://arxiv.org/abs/2308.10040v1 )

ライセンス: Link先を確認
Bo Zhang, Yuxuan Duan, Jun Lan, Yan Hong, Huijia Zhu, Weiqiang Wang, Li Niu(参考訳) 画像合成は、一対の前景画像と背景画像から現実的な複合画像合成を目標とする。 近年,合成画像を生成するために,大規模な事前学習拡散モデル上に生成合成法が構築されている。 しかし, 前景属性の制御性が欠如し, 前景アイデンティティの保存が不十分であった。 これらの課題に対処するために,画像ブレンディング,画像調和,ビュー合成,生成合成の4つのタスクを1つの拡散モデルで統一する制御可能な画像合成法を提案する。 一方,自己教師付きトレーニングフレームワークと,トレーニングデータ準備のパイプラインを合わせた設計を行った。 さらに, 拡散モデルにおけるフォアグラウンド詳細度向上のための局所拡張モジュールを提案し, 複合画像のフォアグラウンド忠実度を改善した。 提案手法は,既存の手法よりも忠実で制御可能な複合画像を生成することができることを示す。 コードとモデルはhttps://github.com/bcmi/ControlCom-Image-Compositionで公開される。

Image composition targets at synthesizing a realistic composite image from a pair of foreground and background images. Recently, generative composition methods are built on large pretrained diffusion models to generate composite images, considering their great potential in image generation. However, they suffer from lack of controllability on foreground attributes and poor preservation of foreground identity. To address these challenges, we propose a controllable image composition method that unifies four tasks in one diffusion model: image blending, image harmonization, view synthesis, and generative composition. Meanwhile, we design a self-supervised training framework coupled with a tailored pipeline of training data preparation. Moreover, we propose a local enhancement module to enhance the foreground details in the diffusion model, improving the foreground fidelity of composite images. The proposed method is evaluated on both public benchmark and real-world data, which demonstrates that our method can generate more faithful and controllable composite images than existing approaches. The code and model will be available at https://github.com/bcmi/ControlCom-Image-Composition.
翻訳日:2023-08-22 18:07:14 公開日:2023-08-19
# テキスト分類のためのオープン,クローズド,あるいはスモール言語モデル?

Open, Closed, or Small Language Models for Text Classification? ( http://arxiv.org/abs/2308.10092v1 )

ライセンス: Link先を確認
Hao Yu, Zachary Yang, Kellin Pelrine, Jean Francois Godbout, Reihaneh Rabbany(参考訳) 大規模言語モデルの最近の進歩は、様々なNLPタスクにまたがる顕著な能力を示している。 しかし、オープンソースモデルがクローズドモデルにマッチするかどうか、なぜこれらのモデルが特定のタスクに長けているのか、どのような実践的な手順がパフォーマンスを向上させるのかなど、多くの疑問が残る。 これらの質問を分類の文脈で扱うために,8つのデータセットを用いた3つのモデルのクラス,すなわち名前付きエンティティ認識,政党予測,誤情報検出について評価する。 より大きなLCMは性能改善につながることが多いが、オープンソースモデルは微調整によってクローズドソースモデルと競合することがある。 さらに、RoBERTaのような教師付き小さなモデルは、生成LDMと比較して、多くのデータセットで同様のあるいはそれ以上のパフォーマンスを達成することができる。 一方、閉モデルは最も一般化性を必要とするハードタスクにおいて優位性を維持している。 本研究はタスク要求に基づくモデル選択の重要性を強調する

Recent advancements in large language models have demonstrated remarkable capabilities across various NLP tasks. But many questions remain, including whether open-source models match closed ones, why these models excel or struggle with certain tasks, and what types of practical procedures can improve performance. We address these questions in the context of classification by evaluating three classes of models using eight datasets across three distinct tasks: named entity recognition, political party prediction, and misinformation detection. While larger LLMs often lead to improved performance, open-source models can rival their closed-source counterparts by fine-tuning. Moreover, supervised smaller models, like RoBERTa, can achieve similar or even greater performance in many datasets compared to generative LLMs. On the other hand, closed models maintain an advantage in hard tasks that demand the most generalizability. This study underscores the importance of model selection based on task requirements
翻訳日:2023-08-22 17:59:15 公開日:2023-08-19
# watchmanのロボットナビゲーションにおけるターンの最小化:戦略と解決策

Minimizing Turns in Watchman Robot Navigation: Strategies and Solutions ( http://arxiv.org/abs/2308.10090v1 )

ライセンス: Link先を確認
Hamid Hoorfar, Sara Moshtaghi Largani, Reza Rahimi, and Alireza Bagheri(参考訳) 直交ウォッチマン経路問題(OWRP)は、ロボットが多角形環境内で従わなければならない最短経路(ウォッチマン経路)を探索することを必要とする。 主な目的は、経路上の少なくとも1つの地点から環境中のすべての地点を確実に視認し、ロボットが1つの連続的な掃除で全領域を調査できるようにすることである。 本研究は,ロボット分野における監視者経路におけるナビゲーションの最適化に不可欠であるため,経路の回転数削減に特に重点を置いている。 方向変更に伴うコストは、特に特定のタイプのロボットにとって、非常に重要である。 本稿では,環境が単調であると仮定してOWRPを解くための効率的な線形時間アルゴリズムを提案する。 本研究の成果は,より合理的なパトロールロボットの設計を可能にすることで,ロボットシステムの進歩に寄与する。 これらのロボットは、ターン数を最小化しながら、複雑な環境を効率的にナビゲートすることができる。 この進歩により、カバー範囲と監視能力が向上し、様々な現実世界のアプリケーションで高い効果を発揮する。

The Orthogonal Watchman Route Problem (OWRP) entails the search for the shortest path, known as the watchman route, that a robot must follow within a polygonal environment. The primary objective is to ensure that every point in the environment remains visible from at least one point on the route, allowing the robot to survey the entire area in a single, continuous sweep. This research places particular emphasis on reducing the number of turns in the route, as it is crucial for optimizing navigation in watchman routes within the field of robotics. The cost associated with changing direction is of significant importance, especially for specific types of robots. This paper introduces an efficient linear-time algorithm for solving the OWRP under the assumption that the environment is monotone. The findings of this study contribute to the progress of robotic systems by enabling the design of more streamlined patrol robots. These robots are capable of efficiently navigating complex environments while minimizing the number of turns. This advancement enhances their coverage and surveillance capabilities, making them highly effective in various real-world applications.
翻訳日:2023-08-22 17:59:01 公開日:2023-08-19
# 単眼映像による非剛性3次元再構成に向けたルートポーズ分解

Root Pose Decomposition Towards Generic Non-rigid 3D Reconstruction with Monocular Videos ( http://arxiv.org/abs/2308.10089v1 )

ライセンス: Link先を確認
Yikai Wang, Yinpeng Dong, Fuchun Sun, Xiao Yang(参考訳) 本研究は,モノクロRGB映像系列に基づく非剛体物体の3次元再構成に焦点を当てる。 具体的には、ジェネリックオブジェクトカテゴリとカジュアルにキャプチャされたシーンのための高忠実度モデルの構築を目指している。 この目的のために、我々はオブジェクトの既知のルートポーズを仮定せず、カテゴリ固有のテンプレートや密接なポーズプリミティブを使用しない。 本手法の重要な概念である根ポーズ分解 (rpd) は, フレームごとの根ポーズ変換を維持しつつ, 根ポーズを正す局所変換を持つ密場を構築することである。 局所変換の最適化は標準空間への点登録によって行われる。 また,オブジェクトのオクルージョンや個人差を伴うマルチオブジェクトシナリオにもrpdを適用した。 結果として、rpdは、大きな変形、複雑な動きパターン、咬合、異なる個人のスケールの多様性を持つ物体を含む複雑なシナリオに対して、非剛性3次元再構成を可能にする。 このようなパイプラインは、野生のさまざまなオブジェクトセットにスケールする可能性がある。 本研究では,DAVIS,OVIS,AMAデータセットの最先端手法をRTDが超越していることを示す。

This work focuses on the 3D reconstruction of non-rigid objects based on monocular RGB video sequences. Concretely, we aim at building high-fidelity models for generic object categories and casually captured scenes. To this end, we do not assume known root poses of objects, and do not utilize category-specific templates or dense pose priors. The key idea of our method, Root Pose Decomposition (RPD), is to maintain a per-frame root pose transformation, meanwhile building a dense field with local transformations to rectify the root pose. The optimization of local transformations is performed by point registration to the canonical space. We also adapt RPD to multi-object scenarios with object occlusions and individual differences. As a result, RPD allows non-rigid 3D reconstruction for complicated scenarios containing objects with large deformations, complex motion patterns, occlusions, and scale diversities of different individuals. Such a pipeline potentially scales to diverse sets of objects in the wild. We experimentally show that RPD surpasses state-of-the-art methods on the challenging DAVIS, OVIS, and AMA datasets.
翻訳日:2023-08-22 17:58:45 公開日:2023-08-19
# PACE:大規模言語モデルのためのアクタクリティカル編集によるプロンプトの改善

PACE: Improving Prompt with Actor-Critic Editing for Large Language Model ( http://arxiv.org/abs/2308.10088v1 )

ライセンス: Link先を確認
Yihong Dong, Kangcheng Luo, Xue Jiang, Zhi Jin, and Ge Li(参考訳) 大規模言語モデル(LLM)は、プロンプトを条件付けすることで、様々なタスクにおいて顕著なポテンシャルを示した。 しかし、異なる人間によって書かれたプロンプトの品質はllmのパフォーマンスにかなりの差をもたらし、プロンプトの改善は通常、かなりの人間の努力と専門知識を必要とする。 そこで本稿では,自動プロンプト編集を実現するために,PLMのためのPACE(Prompt with Actor-Critic Editing)を提案する。 PACEは、強化学習におけるアクター批判アルゴリズムからインスピレーションを得て、LSMをアクターと批評家の二重の役割として活用し、プロンプトを政策の一種として概念化している。 PACEはプロンプトを洗練させ、プロンプトを行う俳優と批評家の両方からのフィードバックを考慮に入れ、反応を批判している。 このプロセスは、LLMの実際の応答と思考のおかげで、特定のタスクへのプロンプトの調整に役立ちます。 我々は24個の命令誘導タスクと21個のビッグベンチタスクに関する広範囲な実験を行う。 実験の結果,中・低品質プロンプトの相対的性能は98\%向上し,高い品質のプロンプトに匹敵する性能を示した。 さらに、PACEは、即時発生に対する顕著な効果を示す。

Large language models (LLMs) have showcased remarkable potential across various tasks by conditioning on prompts. However, the quality of different human-written prompts leads to substantial discrepancies in LLMs' performance, and improving prompts usually necessitates considerable human effort and expertise. To this end, this paper proposes Prompt with Actor-Critic Editing (PACE) for LLMs to enable automatic prompt editing. Drawing inspiration from the actor-critic algorithm in reinforcement learning, PACE leverages LLMs as the dual roles of actors and critics, conceptualizing prompt as a type of policy. PACE refines prompt, taking into account the feedback from both actors performing prompt and critics criticizing response. This process helps LLMs better align prompt to a specific task, thanks to real responses and thinking from LLMs. We conduct extensive experiments on 24 instruction induction tasks and 21 big-bench tasks. Experimental results indicate that PACE elevates the relative performance of medium/low-quality human-written prompts by up to 98\%, which has comparable performance to high-quality human-written prompts. Moreover, PACE also exhibits notable efficacy for prompt generation.
翻訳日:2023-08-22 17:58:28 公開日:2023-08-19
# GNNPipe:パイプラインモデル並列処理による分散フルグラフGNNトレーニングの高速化

GNNPipe: Accelerating Distributed Full-Graph GNN Training with Pipelined Model Parallelism ( http://arxiv.org/abs/2308.10087v1 )

ライセンス: Link先を確認
Jingji Chen, Zhuoming Chen, Xuehai Qian(参考訳) 現在の分散フルグラフGNNトレーニング手法では、グラフ並列性の変種が採用されており、グラフ全体を複数のパーティション(グラフ)に分割し、各GPUがそのうちの1つを処理する。 これにより、各層でメッセージ間が通過するため、高い通信オーバーヘッドが発生する。 そこで我々は,グラフ並列性よりも最悪の場合の漸近的通信複雑性が低いモデル並列性を取り入れた新しい学習法であるgnnpipeを提案する。 高いGPU利用を確保するため,各GPUが異なる階層のグラフデータを同時に処理するチャンクベースのパイプライントレーニング手法とモデル並列性を組み合わせることを提案した。 さらに,モデルレベルの並列性が不十分な場合,モデルとグラフの並列性を組み合わせたハイブリッド並列性を提案する。 また,パイプライニングによる埋め込み安定化に対応するため,収束速度とモデル精度を確保するためのいくつかの手法も導入した。 実験の結果,平均2.45倍 (平均2.03倍),通信量とオーバーヘッドを最大22.51倍 (平均10.27倍), 平均27.21倍 (平均14.96倍) まで低減し, グラフ並列性と比較してモデル精度と収束速度の同等レベルを実現した。

Current distributed full-graph GNN training methods adopt a variant of data parallelism, namely graph parallelism, in which the whole graph is divided into multiple partitions (subgraphs) and each GPU processes one of them. This incurs high communication overhead because of the inter-partition message passing at each layer. To this end, we proposed a new training method named GNNPipe that adopts model parallelism instead, which has a lower worst-case asymptotic communication complexity than graph parallelism. To ensure high GPU utilization, we proposed to combine model parallelism with a chunk-based pipelined training method, in which each GPU processes a different chunk of graph data at different layers concurrently. We further proposed hybrid parallelism that combines model and graph parallelism when the model-level parallelism is insufficient. We also introduced several tricks to ensure convergence speed and model accuracies to accommodate embedding staleness introduced by pipelining. Extensive experiments show that our method reduces the per-epoch training time by up to 2.45x (on average 2.03x) and reduces the communication volume and overhead by up to 22.51x and 27.21x (on average 10.27x and 14.96x), respectively, while achieving a comparable level of model accuracy and convergence speed compared to graph parallelism.
翻訳日:2023-08-22 17:58:05 公開日:2023-08-19
# MeDM:時間対応誘導によるビデオ間翻訳のための画像拡散モデル

MeDM: Mediating Image Diffusion Models for Video-to-Video Translation with Temporal Correspondence Guidance ( http://arxiv.org/abs/2308.10079v1 )

ライセンス: Link先を確認
Ernie Chu, Tzuhsuan Huang, Shuo-Yen Lin, Jun-Cheng Chen(参考訳) 本研究では,一貫した時間的流れを伴うビデオ間翻訳において,事前学習した画像拡散モデルを用いた効率よく効果的なMeDMを提案する。 提案フレームワークでは,通常のGバッファなどのシーン位置情報から映像をレンダリングしたり,現実のシナリオで撮影した映像のテキストガイド編集を行うことができる。 我々は,生成するフレームに物理的制約を課し,独立したフレーム毎のスコアを調停する実用的なコーディングを構築するために,明示的なオプティカルフローを用いる。 このコーディングを活用することで、生成されたビデオの時間的一貫性をクローズドフォームソリューションによる最適化問題としてフレーム化することができる。 安定拡散との互換性を確保するため,潜在空間拡散モデルにおいて観測空間スコアを変更するための回避策を提案する。 特に、MeDMは拡散モデルの微調整やテストタイムの最適化を必要としない。 様々なベンチマークにおける定性的、定量的、主観的な実験を通じて、提案手法の有効性と優位性を示す。

This study introduces an efficient and effective method, MeDM, that utilizes pre-trained image Diffusion Models for video-to-video translation with consistent temporal flow. The proposed framework can render videos from scene position information, such as a normal G-buffer, or perform text-guided editing on videos captured in real-world scenarios. We employ explicit optical flows to construct a practical coding that enforces physical constraints on generated frames and mediates independent frame-wise scores. By leveraging this coding, maintaining temporal consistency in the generated videos can be framed as an optimization problem with a closed-form solution. To ensure compatibility with Stable Diffusion, we also suggest a workaround for modifying observed-space scores in latent-space Diffusion Models. Notably, MeDM does not require fine-tuning or test-time optimization of the Diffusion Models. Through extensive qualitative, quantitative, and subjective experiments on various benchmarks, the study demonstrates the effectiveness and superiority of the proposed approach.
翻訳日:2023-08-22 17:57:38 公開日:2023-08-19
# マルチリゾリューション構造を考慮した非局所グラフのコントラスト学習

Contrastive Learning for Non-Local Graphs with Multi-Resolution Structural Views ( http://arxiv.org/abs/2308.10077v1 )

ライセンス: Link先を確認
Asif Khan, Amos Storkey(参考訳) 異種グラフのノードレベル表現の学習は,不正検出やタンパク質機能予測など,様々な応用に不可欠である。 このようなグラフでは、ノードは接続の等価性によって識別される構造的類似性を共有し、グラフ内の上位階層情報の形で暗黙的に符号化される。 対照的な方法は、グラフ内のノードの表現を学ぶための一般的な選択である。 しかし、既存のコントラスト法は高階グラフ構造を捉えるのに苦労している。 この制限に対処するために,グラフ上の拡散フィルタを統合する新しいマルチビューコントラスト学習手法を提案する。 複数のグラフビューを拡張として組み込むことで、異種グラフの構造的等価性を捕捉し、従来のノード表現では見られない隠れた関係や類似性を発見できる。 我々のアプローチは、合成および実際の構造データセットのベースラインを上回り、コーネルでは16.06セント、テキサスでは3.27セント、ウィスコンシンでは8.04セントと、最高のベースラインを上回ります。 さらに、近位課題における優れた性能を一貫して達成し、構造情報の発見と下流アプリケーションの改善の有効性を実証する。

Learning node-level representations of heterophilic graphs is crucial for various applications, including fraudster detection and protein function prediction. In such graphs, nodes share structural similarity identified by the equivalence of their connectivity which is implicitly encoded in the form of higher-order hierarchical information in the graphs. The contrastive methods are popular choices for learning the representation of nodes in a graph. However, existing contrastive methods struggle to capture higher-order graph structures. To address this limitation, we propose a novel multiview contrastive learning approach that integrates diffusion filters on graphs. By incorporating multiple graph views as augmentations, our method captures the structural equivalence in heterophilic graphs, enabling the discovery of hidden relationships and similarities not apparent in traditional node representations. Our approach outperforms baselines on synthetic and real structural datasets, surpassing the best baseline by $16.06\%$ on Cornell, $3.27\%$ on Texas, and $8.04\%$ on Wisconsin. Additionally, it consistently achieves superior performance on proximal tasks, demonstrating its effectiveness in uncovering structural information and improving downstream applications.
翻訳日:2023-08-22 17:57:21 公開日:2023-08-19
# ILCAS: クロスカメラコラボレーションによるライブビデオ分析のためのシミュレーション学習に基づく構成適応ストリーミング

ILCAS: Imitation Learning-Based Configuration-Adaptive Streaming for Live Video Analytics with Cross-Camera Collaboration ( http://arxiv.org/abs/2308.10068v1 )

ライセンス: Link先を確認
Duo Wu, Dayou Zhang, Miao Zhang, Ruoyu Zhang, Fangxin Wang, Shuguang Cui(参考訳) dnn(high-accuracy and resource-intensive deep neural network)は、ライブビデオ分析(va)によって広く採用されている。 一般的なビデオエンコーディング構成(解像度やフレームレートなど)は、帯域幅の消費と推論精度のバランスに重大な影響を与えていると認識されており、その適応方式は最適化の焦点となっている。 しかし、従来のプロファイリングベースのソリューションは高いプロファイリングコストに悩まされる一方、既存のディープ強化学習(DRL)ベースのソリューションは、エージェントのトレーニングに固定報酬関数を用いることにより、様々なシナリオでアプリケーション目標を達成できなかったため、性能が低下する可能性がある。 本稿では,最初の模倣学習(il)ベースの構成適応型vaストリーミングシステムであるilcasを提案する。 DRLベースのソリューションとは異なり、ILCASは、動的プログラミングによって構成適応問題を解決するオフライン最適ポリシーとして設計された専門家から収集されたデモンストレーションでエージェントを訓練する。 映像コンテンツダイナミクスの課題に取り組むため、ilcasは動画コンテンツの変化を視覚的に‘知覚’できるモーションベクトルに基づくモーション特徴マップを導出する。 さらに、ILCASは、カメラの時空間相関を利用して、より適切な構成選択を行うためのクロスカメラ協調方式を取り入れている。 大規模な実験は、最先端のソリューションと比較してICCASの優位性を確認し、平均精度は2-20.9%改善し、チャンクアップロードラグは19.9-85.3%削減された。

The high-accuracy and resource-intensive deep neural networks (DNNs) have been widely adopted by live video analytics (VA), where camera videos are streamed over the network to resource-rich edge/cloud servers for DNN inference. Common video encoding configurations (e.g., resolution and frame rate) have been identified with significant impacts on striking the balance between bandwidth consumption and inference accuracy and therefore their adaption scheme has been a focus of optimization. However, previous profiling-based solutions suffer from high profiling cost, while existing deep reinforcement learning (DRL) based solutions may achieve poor performance due to the usage of fixed reward function for training the agent, which fails to craft the application goals in various scenarios. In this paper, we propose ILCAS, the first imitation learning (IL) based configuration-adaptive VA streaming system. Unlike DRL-based solutions, ILCAS trains the agent with demonstrations collected from the expert which is designed as an offline optimal policy that solves the configuration adaption problem through dynamic programming. To tackle the challenge of video content dynamics, ILCAS derives motion feature maps based on motion vectors which allow ILCAS to visually ``perceive'' video content changes. Moreover, ILCAS incorporates a cross-camera collaboration scheme to exploit the spatio-temporal correlations of cameras for more proper configuration selection. Extensive experiments confirm the superiority of ILCAS compared with state-of-the-art solutions, with 2-20.9% improvement of mean accuracy and 19.9-85.3% reduction of chunk upload lag.
翻訳日:2023-08-22 17:57:00 公開日:2023-08-19
# 球状気泡トラップにおける原子フェルミ超流動の渦構造とスペクトル

Vortex structure and spectrum of atomic Fermi superfluid in a spherical bubble trap ( http://arxiv.org/abs/2308.10065v1 )

ライセンス: Link先を確認
Yan He and Chih-Chun Chien(参考訳) BCS-Bose Einstein Condensation (BEC) クロスオーバーにおけるBogoliubov-de Gennes (BdG) 方程式を解くことにより, 回転する球状気泡トラップ中の原子フェルミ超流動の多重量子化渦 (MQVs) の構造を解析した。 ポアンカレ=ホップの定理に従って、アジムタル対称性の存在下で回転軸の極に一対の渦が出現し、コンパクト幾何学はMQVの閉じ込めを与える。 単渦構造は平面幾何学の渦構造に似ているが、高渦渦渦は、通常のフェルミガスの蓄積による密度ピークや角運動量を持つin-gap状態による電流の逆流のような渦中心で興味深い現象を示す。 エネルギースペクトルは、渦の渦性に対応するin-gap状態分岐の数を示し、位相対応に基づく説明を提供する。

The structures of multiply quantized vortices (MQVs) of equal-population atomic Fermi superfluid in a rotating spherical bubble trap are analyzed by solving the Bogoliubov-de Gennes (BdG) equation throughout the BCS-Bose Einstein condensation (BEC) crossover. Consistent with the Poincare-Hopf theorem, a pair of vortices emerge at the poles of the rotation axis in the presence of azimuthal symmetry, and the compact geometry provides confinement for the MQVs. While the single-vorticity vortex structure is similar to that in a planar geometry, higher-vorticity vortices exhibit interesting phenomena at the vortex center, such as a density peak due to accumulation of normal Fermi gas and reversed circulation of current due to in-gap states carrying angular momentum, in the BCS regime but not the BEC regime because of the subtle relations between the order parameter and density. The energy spectrum shows the number of the in-gap state branches corresponds to the vorticity of a vortex, and an explanation based on topological correspondence is provided.
翻訳日:2023-08-22 17:56:31 公開日:2023-08-19
# クロスアーキテクチャ・セルフスーパービジョンによる医療の効率的な表現学習

Efficient Representation Learning for Healthcare with Cross-Architectural Self-Supervision ( http://arxiv.org/abs/2308.10064v1 )

ライセンス: Link先を確認
Pranav Singh and Jacopo Cirrone(参考訳) 医療や生体医学の応用において、極端な計算要求は表現学習を採用する上で重要な障壁となる。 表現学習は、限られた医療データから有用な事前学習をすることで、ディープラーニングアーキテクチャのパフォーマンスを向上させることができる。 しかし、最先端の自己管理技術は、より小さなバッチサイズまたはより短い事前訓練エポックを使用する場合のパフォーマンスが低下する。 この課題に対応するために、クロスアーキテクチャー・セルフスーパービジョン(CASS)を紹介します。 トランスフォーマーと畳み込みニューラルネットワーク(cnn)を相乗的に活用し,効率的な学習を実現する。 実験により,CASS学習CNNとTransformerは,4つの多様な医療データセットにおいて,既存の自己教師付き学習方法より優れていることが示された。 微調整のためのラベル付きデータはわずか1%で、cassは平均3.8%改善し、10%のラベル付きデータは5.9%、100%のラベル付きデータは10.13%向上した。 特にCASSは、最先端の手法に比べて事前訓練時間を69%削減し、臨床実践に適している。 また、CASSはバッチサイズの変化やエポックの事前訓練にかなり堅牢であることを示し、医療アプリケーションにおける機械学習の候補として適している。

In healthcare and biomedical applications, extreme computational requirements pose a significant barrier to adopting representation learning. Representation learning can enhance the performance of deep learning architectures by learning useful priors from limited medical data. However, state-of-the-art self-supervised techniques suffer from reduced performance when using smaller batch sizes or shorter pretraining epochs, which are more practical in clinical settings. We present Cross Architectural - Self Supervision (CASS) in response to this challenge. This novel siamese self-supervised learning approach synergistically leverages Transformer and Convolutional Neural Networks (CNN) for efficient learning. Our empirical evaluation demonstrates that CASS-trained CNNs and Transformers outperform existing self-supervised learning methods across four diverse healthcare datasets. With only 1% labeled data for finetuning, CASS achieves a 3.8% average improvement; with 10% labeled data, it gains 5.9%; and with 100% labeled data, it reaches a remarkable 10.13% enhancement. Notably, CASS reduces pretraining time by 69% compared to state-of-the-art methods, making it more amenable to clinical implementation. We also demonstrate that CASS is considerably more robust to variations in batch size and pretraining epochs, making it a suitable candidate for machine learning in healthcare applications.
翻訳日:2023-08-22 17:56:10 公開日:2023-08-19
# 不均一相反性を持つランダムネットワークのモデル化

Modeling Random Networks with Heterogeneous Reciprocity ( http://arxiv.org/abs/2308.10113v1 )

ライセンス: Link先を確認
Daniel Cirkovic, Tiandong Wang(参考訳) 相互性(reciprocity)は、個人の行動のミラー化傾向であり、ソーシャルネットワークにおける情報交換を記述する重要な指標である。 ソーシャルネットワークのユーザーは、異なるレベルの相互行為を行う傾向がある。 このような行動の違いは、異なるレートで相互にリンクするコミュニティの存在を示す可能性がある。 本稿では,成長するソーシャルネットワークにおける多様な相互行動のモデル化手法を開発する。 特に,利用者が人気ユーザに対して持つアトラクションを模倣する不均一な相互性を持つ優先アタッチメントモデルと,それらが相互にリンクする異種性を示す。 大規模ネットワークに対するベイジアンおよび頻繁なモデルフィッティング技術と,計算効率の良い変分法を比較した。 コミュニティの数が知られ、不明な場合も考慮されている。 提案手法をfacebookのウォールポストネットワークの分析に適用し,非一様の相互行動パターンを提示する。 装着されたモデルは、Facebookデータにおける経験的次数分布の重み付けの性質を捉え、ウォールポストへの応答と受信の傾向が異なる複数のユーザのグループを特定する。

Reciprocity, or the tendency of individuals to mirror behavior, is a key measure that describes information exchange in a social network. Users in social networks tend to engage in different levels of reciprocal behavior. Differences in such behavior may indicate the existence of communities that reciprocate links at varying rates. In this paper, we develop methodology to model the diverse reciprocal behavior in growing social networks. In particular, we present a preferential attachment model with heterogeneous reciprocity that imitates the attraction users have for popular users, plus the heterogeneous nature by which they reciprocate links. We compare Bayesian and frequentist model fitting techniques for large networks, as well as computationally efficient variational alternatives. Cases where the number of communities are known and unknown are both considered. We apply the presented methods to the analysis of a Facebook wallpost network where users have non-uniform reciprocal behavior patterns. The fitted model captures the heavy-tailed nature of the empirical degree distributions in the Facebook data and identifies multiple groups of users that differ in their tendency to reply to and receive responses to wallposts.
翻訳日:2023-08-22 17:50:13 公開日:2023-08-19
# PDL: プログレッシブ・ドロップアウト・レイヤによる複数インスタンス学習の正規化

PDL: Regularizing Multiple Instance Learning with Progressive Dropout Layers ( http://arxiv.org/abs/2308.10112v1 )

ライセンス: Link先を確認
Wenhui Zhu, Peijie Qiu, Oana M. Dumitrascu and Yalin Wang(参考訳) 多重インスタンス学習(MIL)は、バッグとして知られるインスタンスのコレクションにバイナリクラスラベルを割り当てようとする、弱い教師付き学習アプローチである。 しかし、その監督能力の弱いため、MIL法は過度に適合し、ターゲットインスタンスの包括的な表現を開発する上で必要な支援を受けていた。 通常、正規化はオーバーフィッティングと効果的に戦うが、MILモデルとの統合は以前の研究でしばしば見過ごされてきた。 一方、現在のMILの正規化手法では、様々な表現の配列を明らかにする能力に限界が示されている。 本研究では,MILモデルにおける正規化の領域を探索し,プログレッシブ・ドロップアウト・レイヤ(PDL)という新たなアプローチを提案する。 我々は、過度に適合するだけでなく、複雑で影響のある特徴表現を明らかにする上で、MILモデルを強化することを目指している。 提案手法は既存のMIL法と直交し, 性能向上に容易に組み込むことができた。 milベンチマークデータセットの広範囲にわたる評価の結果,複数のmil法にpdlを組み込むことによって,分類性能が向上するだけでなく,弱い教師付き特徴の局在化の可能性も高まった。

Multiple instance learning (MIL) was a weakly supervised learning approach that sought to assign binary class labels to collections of instances known as bags. However, due to their weak supervision nature, the MIL methods were susceptible to overfitting and required assistance in developing comprehensive representations of target instances. While regularization typically effectively combated overfitting, its integration with the MIL model has been frequently overlooked in prior studies. Meanwhile, current regularization methods for MIL have shown limitations in their capacity to uncover a diverse array of representations. In this study, we delve into the realm of regularization within the MIL model, presenting a novel approach in the form of a Progressive Dropout Layer (PDL). We aim to not only address overfitting but also empower the MIL model in uncovering intricate and impactful feature representations. The proposed method was orthogonal to existing MIL methods and could be easily integrated into them to boost performance. Our extensive evaluation across a range of MIL benchmark datasets demonstrated that the incorporation of the PDL into multiple MIL methods not only elevated their classification performance but also augmented their potential for weakly-supervised feature localizations.
翻訳日:2023-08-22 17:49:56 公開日:2023-08-19
# 制御可能なマルチドメイン意味芸術作品合成

Controllable Multi-domain Semantic Artwork Synthesis ( http://arxiv.org/abs/2308.10111v1 )

ライセンス: Link先を確認
Yuantian Huang, Satoshi Iizuka, Edgar Simo-Serra, and Kazuhiro Fukui(参考訳) セマンティックレイアウトからアートワークのマルチドメイン合成のための新しいフレームワークを提案する。 この課題の大きな制限の1つは、アート合成のための公開セグメンテーションデータセットの欠如である。 この問題に対処するために,我々はartsemと呼ぶ4つの異なるドメインのアートワークの4万枚の画像と対応するセマンティックラベルマップを含むデータセットを提案する。 まず,ランドスケープ写真から意味地図を抽出し,次に条件付き生成逆ネットワーク(gan)を用いて,ペアトレーニングデータを必要とせず,意味地図から高品質なアートワークを生成する手法を提案する。 さらに,高品質なマルチドメイン合成のための領域依存変分エンコーダを用いたアート合成モデルを提案する。 このモデルは,SSTAN(Spatially Stayle-Adaptive Normalization)と呼ばれる,意味とスタイルを併用した,シンプルだが効果的な正規化法によって改善され,補完される。 セマンティクスレイアウトのみを入力として使用する従来の手法とは対照的に,モデルではスタイル情報とセマンティクス情報の結合表現を学習することが可能であり,それによって芸術的イメージの合成における生成品質が向上する。 その結果, 本モデルは潜在空間内の領域を分離することを学び, 異なる領域を分離する超平面を同定することで, 合成したアートワークの細粒度制御を行うことができる。 提案するデータセットとアプローチを組み合わせることで,既存のデータよりも高品質なユーザコントロール可能なアートワークを作成できる。

We present a novel framework for multi-domain synthesis of artwork from semantic layouts. One of the main limitations of this challenging task is the lack of publicly available segmentation datasets for art synthesis. To address this problem, we propose a dataset, which we call ArtSem, that contains 40,000 images of artwork from 4 different domains with their corresponding semantic label maps. We generate the dataset by first extracting semantic maps from landscape photography and then propose a conditional Generative Adversarial Network (GAN)-based approach to generate high-quality artwork from the semantic maps without necessitating paired training data. Furthermore, we propose an artwork synthesis model that uses domain-dependent variational encoders for high-quality multi-domain synthesis. The model is improved and complemented with a simple but effective normalization method, based on normalizing both the semantic and style jointly, which we call Spatially STyle-Adaptive Normalization (SSTAN). In contrast to previous methods that only take semantic layout as input, our model is able to learn a joint representation of both style and semantic information, which leads to better generation quality for synthesizing artistic images. Results indicate that our model learns to separate the domains in the latent space, and thus, by identifying the hyperplanes that separate the different domains, we can also perform fine-grained control of the synthesized artwork. By combining our proposed dataset and approach, we are able to generate user-controllable artwork that is of higher quality than existing
翻訳日:2023-08-22 17:49:36 公開日:2023-08-19
# 畳み込みニューラルネットワークのためのロバスト混合訓練

Robust Mixture-of-Expert Training for Convolutional Neural Networks ( http://arxiv.org/abs/2308.10110v1 )

ライセンス: Link先を確認
Yihua Zhang, Ruisi Cai, Tianlong Chen, Guanhua Zhang, Huan Zhang, Pin-Yu Chen, Shiyu Chang, Zhangyang Wang, Sijia Liu(参考訳) 深層モデルアーキテクチャであるSparsely-gated Mixture of Expert (MoE)は、高精度で超効率的なモデル推論を可能にするという大きな約束を実証している。 moeの人気は高まっているが、畳み込みニューラルネットワーク(cnns)を前進させる可能性についてはほとんど研究されていない。 堅牢性の欠如がCNNの主要なハードルとなっているため、本稿では、CNNベースのMoEモデルを逆向きに堅牢化する方法を問う。 通常のCNNモデルのように、しっかりとトレーニングできますか? パイロット実験の結果,従来の逆行訓練(AT)機構(バニラCNN用に開発された)は,もはやMoE-CNNの堅牢化には有効ではないことが明らかとなった。 この現象をよりよく理解するために、我々はmoe-cnnのロバスト性を2次元に分類する:ルータのロバスト性(すなわち、データ固有の専門家を選ぶためのゲーティング関数)と専門家のロバスト性(つまり、バックボーンcnnのサブネットワークによって定義されたルータ誘導経路)である。 解析の結果,バニラATではルータと専門家の対応が困難であることが判明した。 そこで我々は,AdvMoEと呼ばれるMoEのための新しいルータ-エキスパート交互学習フレームワークを提案する。 提案手法の有効性は4つのベンチマークデータセット上で4つの一般的なCNNモデルアーキテクチャにまたがって正当化される。 その結果,AdvMoEは従来の高密度CNNに比べて1%~4%の対向ロバスト性向上を実現し,スペーサゲートMOEの有効性を享受し,50%以上の推論コスト削減を実現していることがわかった。 コードはhttps://github.com/OPTML-Group/Robust-MoE-CNNで公開されている。

Sparsely-gated Mixture of Expert (MoE), an emerging deep model architecture, has demonstrated a great promise to enable high-accuracy and ultra-efficient model inference. Despite the growing popularity of MoE, little work investigated its potential to advance convolutional neural networks (CNNs), especially in the plane of adversarial robustness. Since the lack of robustness has become one of the main hurdles for CNNs, in this paper we ask: How to adversarially robustify a CNN-based MoE model? Can we robustly train it like an ordinary CNN model? Our pilot study shows that the conventional adversarial training (AT) mechanism (developed for vanilla CNNs) no longer remains effective to robustify an MoE-CNN. To better understand this phenomenon, we dissect the robustness of an MoE-CNN into two dimensions: Robustness of routers (i.e., gating functions to select data-specific experts) and robustness of experts (i.e., the router-guided pathways defined by the subnetworks of the backbone CNN). Our analyses show that routers and experts are hard to adapt to each other in the vanilla AT. Thus, we propose a new router-expert alternating Adversarial training framework for MoE, termed AdvMoE. The effectiveness of our proposal is justified across 4 commonly-used CNN model architectures over 4 benchmark datasets. We find that AdvMoE achieves 1% ~ 4% adversarial robustness improvement over the original dense CNN, and enjoys the efficiency merit of sparsity-gated MoE, leading to more than 50% inference cost reduction. Codes are available at https://github.com/OPTML-Group/Robust-MoE-CNN.
翻訳日:2023-08-22 17:49:10 公開日:2023-08-19
# ベイズリスクトランスデューサ:制御可能なアライメント予測を備えたトランスデューサ

Bayes Risk Transducer: Transducer with Controllable Alignment Prediction ( http://arxiv.org/abs/2308.10107v1 )

ライセンス: Link先を確認
Jinchuan Tian, Jianwei Yu, Hangting Chen, Brian Yan, Chao Weng, Dong Yu, Shinji Watanabe(参考訳) トランスデューサに基づく自動音声認識(asr)が広く用いられている。 訓練では、トランスデューサは全ての経路の合計後方を最大化する。 後部が最も高い経路は、通常、音声と転写の間の予測されたアライメントとして定義される。 バニラトランスデューサは有効な経路を優先しないが、この作業は望ましい経路を強制し、制御可能なアライメント予測を達成することを目的としている。 具体的には,bayes risk transducer (brt) を提案する。これはbayes risk関数を用いて,予測されたアライメントが特定の望ましい特性をより満たせるように,より低いリスク値を望ましいパスに設定する。 さらに,これらの予測アライメントがバニラトランスデューサに対して実用的な利点をもたらすことを示す。 実験的に提案されたBRTは、非ストリーミングASRの推論コストを最大46%削減し、ストリーミングASRのシステム全体のレイテンシを41%削減する。

Automatic speech recognition (ASR) based on transducers is widely used. In training, a transducer maximizes the summed posteriors of all paths. The path with the highest posterior is commonly defined as the predicted alignment between the speech and the transcription. While the vanilla transducer does not have a prior preference for any of the valid paths, this work intends to enforce the preferred paths and achieve controllable alignment prediction. Specifically, this work proposes Bayes Risk Transducer (BRT), which uses a Bayes risk function to set lower risk values to the preferred paths so that the predicted alignment is more likely to satisfy specific desired properties. We further demonstrate that these predicted alignments with intentionally designed properties can provide practical advantages over the vanilla transducer. Experimentally, the proposed BRT saves inference cost by up to 46% for non-streaming ASR and reduces overall system latency by 41% for streaming ASR.
翻訳日:2023-08-22 17:48:36 公開日:2023-08-19
# ASPIRE:ロバスト画像分類のための言語ガイド拡張

ASPIRE: Language-Guided Augmentation for Robust Image Classification ( http://arxiv.org/abs/2308.10103v1 )

ライセンス: Link先を確認
Sreyan Ghosh, Chandra Kiran Reddy Evuru, Sonal Kumar, Utkarsh Tyagi, Sakshi Singh, Sanjoy Chowdhury and Dinesh Manocha(参考訳) ニューラルイメージ分類器は、トレーニングデータのクラスラベルと重複して相関する非予測的特徴を過剰に頼って、予測を学習することが多い。 これにより、そのような機能が欠落している現実世界の非定型シナリオのパフォーマンスが低下する。 このようなスプリアスな特徴のない画像でトレーニングデータセットを補完することは、より良い一般化によるスプリアス相関に対する堅牢な学習に役立つ。 本稿では,学習データセットを合成画像で拡張するための簡易かつ効果的な解であるaspire (language-guided data augmentation for spurious correlation removal)を提案する。 ASPIREは言語によってガイドされ、追加の監督や既存の例を必要とせずにこれらの画像を生成する。 正確には、llmsを用いてまず画像のテキスト記述から前景と背景の特徴を抽出し、次に高度な言語による画像編集を行い、クラスラベルと散発的に相関する特徴を発見する。 最後に,テキスト対画像生成モデルをパーソナライズして,多種多様なドメイン内画像を生成する。 4つのデータセットにおけるaspireの有効性を実証し,難解なhard imagenetデータセットと9つのベースラインを用いて,aspireが従来手法の分類精度を1%~38%向上させることを示した。 コード: https://github.com/Sreyan88/ASPIRE

Neural image classifiers can often learn to make predictions by overly relying on non-predictive features that are spuriously correlated with the class labels in the training data. This leads to poor performance in real-world atypical scenarios where such features are absent. Supplementing the training dataset with images without such spurious features can aid robust learning against spurious correlations via better generalization. This paper presents ASPIRE (Language-guided data Augmentation for SPurIous correlation REmoval), a simple yet effective solution for expanding the training dataset with synthetic images without spurious features. ASPIRE, guided by language, generates these images without requiring any form of additional supervision or existing examples. Precisely, we employ LLMs to first extract foreground and background features from textual descriptions of an image, followed by advanced language-guided image editing to discover the features that are spuriously correlated with the class label. Finally, we personalize a text-to-image generation model to generate diverse in-domain images without spurious features. We demonstrate the effectiveness of ASPIRE on 4 datasets, including the very challenging Hard ImageNet dataset, and 9 baselines and show that ASPIRE improves the classification accuracy of prior methods by 1% - 38%. Code soon at: https://github.com/Sreyan88/ASPIRE.
翻訳日:2023-08-22 17:48:19 公開日:2023-08-19
# オンラインマルチカーネル並列化学習方式

An Online Multiple Kernel Parallelizable Learning Scheme ( http://arxiv.org/abs/2308.10101v1 )

ライセンス: Link先を確認
Emilio Ruiz-Moreno and Baltasar Beferull-Lozano(参考訳) 再生カーネルHilbert空間に基づく手法の性能は、再生カーネルの選択に敏感であることが知られている。 適切な再生カーネルの選択は、特にソリューションドメインに関する事前情報なしでデータ豊富なタスクにおいて、困難かつ計算的に要求される。 本稿では,カーネル選択バイアスを低減すべく,複数の単一のカーネルベースオンライン手法を組み合わせた学習手法を提案する。 提案手法は正規化された経験的リスク最小化凸問題として定式化されたタスクに適用できる。 より具体的には、我々の学習スキームは、任意のシングルカーネルソリューション空間を拡張できるマルチカーネル学習の定式化に基づいており、高性能なソリューションを見つける可能性を高めている。 さらに、並列化可能であり、異なる計算単位にまたがる計算負荷の分散を可能にする。 提案手法は, 累積正規化最小二乗法において, 単カーネルのオンライン手法を別々に比較し, 比較検討を行った。

The performance of reproducing kernel Hilbert space-based methods is known to be sensitive to the choice of the reproducing kernel. Choosing an adequate reproducing kernel can be challenging and computationally demanding, especially in data-rich tasks without prior information about the solution domain. In this paper, we propose a learning scheme that scalably combines several single kernel-based online methods to reduce the kernel-selection bias. The proposed learning scheme applies to any task formulated as a regularized empirical risk minimization convex problem. More specifically, our learning scheme is based on a multi-kernel learning formulation that can be applied to widen any single-kernel solution space, thus increasing the possibility of finding higher-performance solutions. In addition, it is parallelizable, allowing for the distribution of the computational load across different computing units. We show experimentally that the proposed learning scheme outperforms the combined single-kernel online methods separately in terms of the cumulative regularized least squares cost metric.
翻訳日:2023-08-22 17:47:55 公開日:2023-08-19
# 大きなグラフ上のグラフニューラルネットワークの幾何学的不安定性

Geometric instability of graph neural networks on large graphs ( http://arxiv.org/abs/2308.10099v1 )

ライセンス: Link先を確認
Emily Morris, Haotian Shen, Weiling Du, Muhammad Hamza Sajjad, Borun Shi(参考訳) グラフニューラルネットワーク(GNN)による埋め込みの幾何学的不安定性を解析する。 既存の方法は小さなグラフにのみ適用でき、グラフ領域のコンテキストが欠けている。 本稿では、置換、直交変換、変換、評価順序に不変な不安定性を測定するため、単純で効率的でグラフネイティブなグラフグラム指数(GGI)を提案する。 これにより、ノード分類とリンク予測の両方のために、GNN埋め込みの様々な不安定な振る舞いを大きなグラフ上で研究することができる。

We analyse the geometric instability of embeddings produced by graph neural networks (GNNs). Existing methods are only applicable for small graphs and lack context in the graph domain. We propose a simple, efficient and graph-native Graph Gram Index (GGI) to measure such instability which is invariant to permutation, orthogonal transformation, translation and order of evaluation. This allows us to study the varying instability behaviour of GNN embeddings on large graphs for both node classification and link prediction.
翻訳日:2023-08-22 17:47:39 公開日:2023-08-19
# inexact line searchを用いた動的2レベル学習

Dynamic Bilevel Learning with Inexact Line Search ( http://arxiv.org/abs/2308.10098v1 )

ライセンス: Link先を確認
Mohammad Sadegh Salehi, Subhadip Mukherjee, Lindon Roberts, Matthias J. Ehrhardt(参考訳) 画像とデータサイエンスの様々な領域において、特に変分正規化アプローチを用いてモデル化されたタスクに対処する場合、手動で正規化パラメータを設定することは、非常に難しい課題である。 この難易度は、多数のハイパーパラメータを含む正規化器を使用するときに増大する。 この課題を克服するために、二段階学習を用いて適切なハイパーパラメータを学習する。 しかし、数値解法を用いることにより、ハイパーパラメータに関する正確な勾配は達成不可能であり、近似勾配に依存する手法を用いる必要がある。 State-of-the-art inexact method a priori は必要な精度の総和シーケンスを減らし、十分に小さな固定ステップサイズが与えられた場合にのみ収束を保証する。 それにもかかわらず、過勾配のリプシッツ定数を定め、適切な固定ステップサイズを特定することには課題が続いている。 逆に、正確な関数値の計算は不可能であり、行探索の使用を妨げる。 そこで本研究では,不正確な関数評価と過次関数を含む,確実に収束する不正確なバックトラックライン探索を提案する。 我々は超パラメータに関して損失の定常点への収束を示す。 さらに,必要な精度を動的に決定するアルゴリズムを提案する。 数値実験により,変動正規化問題におけるハイパーパラメータ推定法の有効性と,初期精度とステップサイズ選択のロバスト性が実証された。

In various domains within imaging and data science, particularly when addressing tasks modeled utilizing the variational regularization approach, manually configuring regularization parameters presents a formidable challenge. The difficulty intensifies when employing regularizers involving a large number of hyperparameters. To overcome this challenge, bilevel learning is employed to learn suitable hyperparameters. However, due to the use of numerical solvers, the exact gradient with respect to the hyperparameters is unattainable, necessitating the use of methods relying on approximate gradients. State-of-the-art inexact methods a priori select a decreasing summable sequence of the required accuracy and only assure convergence given a sufficiently small fixed step size. Despite this, challenges persist in determining the Lipschitz constant of the hypergradient and identifying an appropriate fixed step size. Conversely, computing exact function values is not feasible, impeding the use of line search. In this work, we introduce a provably convergent inexact backtracking line search involving inexact function evaluations and hypergradients. We show convergence to a stationary point of the loss with respect to hyperparameters. Additionally, we propose an algorithm to determine the required accuracy dynamically. Our numerical experiments demonstrate the efficiency and feasibility of our approach for hyperparameter estimation in variational regularization problems, alongside its robustness in terms of the initial accuracy and step size choices.
翻訳日:2023-08-22 17:47:32 公開日:2023-08-19
# 直交ロボットによる安全な経路

Securing Pathways with Orthogonal Robots ( http://arxiv.org/abs/2308.10093v1 )

ライセンス: Link先を確認
Hamid Hoorfar, Faraneh Fathi, Sara Moshtaghi Largani, and Alireza Bagheri(参考訳) 経路の保護は、都市計画、交通、監視、安全など、様々な領域で重要な意味を持つ。 本稿では,直交ロボットを用いた安全経路に対する画期的なアプローチを紹介する。 この研究は、直交する領域を最小数の直交ロボットで効率的に守るという課題に特に対処する。 主な焦点は直交経路であり、縦分解の経路のような双対グラフが特徴である。 経路に対する最小直交ロボット数を決定することは線形時間において達成できることが実証された。 しかし、単純な多角形に対して最小数のロボットを見つけるという一般的な問題は、直交の場合でさえnp-hardであることが知られていることに注意する必要がある。 境界上であれ内部であれ、多角形の中にロボットを置く柔軟性に重点が置かれている。

The protection of pathways holds immense significance across various domains, including urban planning, transportation, surveillance, and security. This article introduces a groundbreaking approach to safeguarding pathways by employing orthogonal robots. The study specifically addresses the challenge of efficiently guarding orthogonal areas with the minimum number of orthogonal robots. The primary focus is on orthogonal pathways, characterized by a path-like dual graph of vertical decomposition. It is demonstrated that determining the minimum number of orthogonal robots for pathways can be achieved in linear time. However, it is essential to note that the general problem of finding the minimum number of robots for simple polygons with general visibility, even in the orthogonal case, is known to be NP-hard. Emphasis is placed on the flexibility of placing robots anywhere within the polygon, whether on the boundary or in the interior.
翻訳日:2023-08-22 17:47:11 公開日:2023-08-19
# 強化学習による環境IoTセンシングのためのインテリジェント通信計画

Intelligent Communication Planning for Constrained Environmental IoT Sensing with Reinforcement Learning ( http://arxiv.org/abs/2308.10124v1 )

ライセンス: Link先を確認
Yi Hu, Jinhang Zuo, Bob Iannucci and Carlee Joe-Wong(参考訳) IoT(Internet of Things)テクノロジは、多くのデータ駆動型モバイルアプリケーションを可能にし、IoTセンサのネットワークを配置することで、環境監視と危険警告を大幅に改善する可能性がある。 しかし、これらのIoTデバイスは電力制約があり、帯域幅が限られている無線通信方式を利用することが多い。 このような電力制限は、各デバイスがネットワークで共有できる情報量を制限するが、帯域制限はセンサの伝送の調整を妨げる。 本研究では,環境状態を追跡するIoTセンサの通信計画問題を定式化する。 厳しい資源制約下での環境データ収集におけるセンサの判断の最適化を図る。 本稿では,マルチエージェント強化学習 (marl) 法を提案し,電力と帯域幅の制限による追従精度を最大化するセンサ毎の最適な通信方針を求める。 marlは、各センサの場所における環境データの空間的-時間的相関を学習し、センサからの冗長なレポートを減らす。 lora無線ネットワークシミュレータを用いたワイルドファイアスプレッド実験により,本手法は帯域幅の制限のないワイルドファイアスプレッドを予測できる十分なデータ収集の必要性のバランスをとることができることを示した。

Internet of Things (IoT) technologies have enabled numerous data-driven mobile applications and have the potential to significantly improve environmental monitoring and hazard warnings through the deployment of a network of IoT sensors. However, these IoT devices are often power-constrained and utilize wireless communication schemes with limited bandwidth. Such power constraints limit the amount of information each device can share across the network, while bandwidth limitations hinder sensors' coordination of their transmissions. In this work, we formulate the communication planning problem of IoT sensors that track the state of the environment. We seek to optimize sensors' decisions in collecting environmental data under stringent resource constraints. We propose a multi-agent reinforcement learning (MARL) method to find the optimal communication policies for each sensor that maximize the tracking accuracy subject to the power and bandwidth limitations. MARL learns and exploits the spatial-temporal correlation of the environmental data at each sensor's location to reduce the redundant reports from the sensors. Experiments on wildfire spread with LoRA wireless network simulators show that our MARL method can learn to balance the need to collect enough data to predict wildfire spread with unknown bandwidth limitations.
翻訳日:2023-08-22 17:37:27 公開日:2023-08-19
# 咬合ロバストな3次元ポーズ推定のための3次元認識ニューラルボディーアタッチメント

3D-Aware Neural Body Fitting for Occlusion Robust 3D Human Pose Estimation ( http://arxiv.org/abs/2308.10123v1 )

ライセンス: Link先を確認
Yi Zhang, Pengliang Ji, Angtian Wang, Jieru Mei, Adam Kortylewski, Alan Yuille(参考訳) 深層ネットワークを用いた3次元画像から3次元ポーズパラメータを直接予測する3次元ポーズ推定のための回帰に基づく手法 標準ベンチマークで最先端のパフォーマンスを達成する一方で、パフォーマンスは排他的に低下する。 対照的に、最適化に基づく手法はパラメトリックボディモデルを反復的に2次元特徴に適合させる。 局所的な再建損失は閉塞に対して堅牢な可能性があるが、2D-3D曖昧さに悩まされる。 近年の剛体ポーズ推定における生成モデルの成功に触発され,SOTA性能と閉塞堅牢性を用いた3次元人物ポーズ推定のための近似解析・合成手法である3D-Aware Neural Body Fitting (3DNBF)を提案する。 特に,3次元ポーズ依存特徴ベクトルを出力するガウス楕円核を用いた体積的人間表現に基づく深層特徴の生成モデルを提案する。 ニューラル特徴は、対照的な学習で訓練され、3D認識となり、2D-3D曖昧さを克服する。 実験により、3dnbfはoccludedとstandardベンチマークの両方で他のアプローチよりも優れていることが示された。 コードはhttps://github.com/edz-o/3DNBFで入手できる。

Regression-based methods for 3D human pose estimation directly predict the 3D pose parameters from a 2D image using deep networks. While achieving state-of-the-art performance on standard benchmarks, their performance degrades under occlusion. In contrast, optimization-based methods fit a parametric body model to 2D features in an iterative manner. The localized reconstruction loss can potentially make them robust to occlusion, but they suffer from the 2D-3D ambiguity. Motivated by the recent success of generative models in rigid object pose estimation, we propose 3D-aware Neural Body Fitting (3DNBF) - an approximate analysis-by-synthesis approach to 3D human pose estimation with SOTA performance and occlusion robustness. In particular, we propose a generative model of deep features based on a volumetric human representation with Gaussian ellipsoidal kernels emitting 3D pose-dependent feature vectors. The neural features are trained with contrastive learning to become 3D-aware and hence to overcome the 2D-3D ambiguity. Experiments show that 3DNBF outperforms other approaches on both occluded and standard benchmarks. Code is available at https://github.com/edz-o/3DNBF
翻訳日:2023-08-22 17:37:08 公開日:2023-08-19
# HollowNeRF: トレーニング可能な衝突緩和型Hashgrid系NeRF

HollowNeRF: Pruning Hashgrid-Based NeRFs with Trainable Collision Mitigation ( http://arxiv.org/abs/2308.10122v1 )

ライセンス: Link先を確認
Xiufeng Xie, Riccardo Gherardi, Zhihong Pan, Stephen Huang(参考訳) neural radiance fields (nerf)は、instant-ngpaccelerated nerfトレーニングや、hashgridベースの位置符号化とニューラルネットワークの組み合わせによる評価など、多くの注目を集めている。 しかし、3Dシーンの空間的空間性を効果的に活用することは依然として課題である。 機能グリッドの不要な領域を排除するために、既存のソリューションは、コストと無駄な繰り返しモデル評価によって、トレーニング中のオブジェクト形状の事前知識や、オブジェクト形状を定期的に見積もる。 この問題に対処するために,HollowNeRFを提案する。HollowNeRFはハッシュグリッドベースのNeRFのための新しい圧縮ソリューションで,トレーニング期間中に自動的に特徴グリッドを分散させる。 密集した特徴を直接圧縮する代わりに、HollowNeRFは効率的な特徴プレーニングを誘導する粗い3Dサリエンシマスクを訓練し、トレーニング中に3Dサリエンシマスクをスパビライズするために乗算器(ADMM)プルーナーの交互方向法を使用している。 HollowNeRFは、3Dシーンの間隔を利用してハッシュ衝突を再分配することで、同等の最先端ソリューションのパラメータのごく一部を使用しながら、レンダリング品質を向上させる。 提案手法は,パラメータの31%しか利用せず,Instant-NGPに匹敵するレンダリング品質を提供する。 さらに,パラメータの56%のみを用いてPSNR精度を最大1dBまで向上させることができる。

Neural radiance fields (NeRF) have garnered significant attention, with recent works such as Instant-NGP accelerating NeRF training and evaluation through a combination of hashgrid-based positional encoding and neural networks. However, effectively leveraging the spatial sparsity of 3D scenes remains a challenge. To cull away unnecessary regions of the feature grid, existing solutions rely on prior knowledge of object shape or periodically estimate object shape during training by repeated model evaluations, which are costly and wasteful. To address this issue, we propose HollowNeRF, a novel compression solution for hashgrid-based NeRF which automatically sparsifies the feature grid during the training phase. Instead of directly compressing dense features, HollowNeRF trains a coarse 3D saliency mask that guides efficient feature pruning, and employs an alternating direction method of multipliers (ADMM) pruner to sparsify the 3D saliency mask during training. By exploiting the sparsity in the 3D scene to redistribute hash collisions, HollowNeRF improves rendering quality while using a fraction of the parameters of comparable state-of-the-art solutions, leading to a better cost-accuracy trade-off. Our method delivers comparable rendering quality to Instant-NGP, while utilizing just 31% of the parameters. In addition, our solution can achieve a PSNR accuracy gain of up to 1dB using only 56% of the parameters.
翻訳日:2023-08-22 17:36:49 公開日:2023-08-19
# BFBTベンチマークVoid Fractionデータセットを用いた深部モデルに基づくデータ拡張

Deep Generative Modeling-based Data Augmentation with Demonstration using the BFBT Benchmark Void Fraction Datasets ( http://arxiv.org/abs/2308.10120v1 )

ライセンス: Link先を確認
Farah Alsafadi, Xu Wu(参考訳) ディープラーニング(DL)は,コンピュータビジョンや自然言語処理など多くの分野において,‘ビッグデータ’の活用によって大きな成功を収めている。 しかし、この成功は多くの核工学問題において、特に高コスト実験によるデータの場合、訓練データの量が限られているため、容易に再現できない。 このようなデータ不足を克服するために,画像データ生成に広く用いられている深部生成モデル(DGM)の科学的データ拡張への応用について検討する。 DGM(Generative Adversarial Network, GAN)、正規化フロー(NF)、変動オートエンコーダ(VAE)、条件付きVAE(CVAE)など)はトレーニングデータセットの基本的な確率分布を学習するために訓練することができる。 トレーニングが完了すると、トレーニングデータに類似した合成データを生成し、データセットのサイズを大きく拡張するために使用することができる。 NUPECボイリング水反応器(英語版)のフルサイズファインメッシュバンドルテスト(BFBT)ベンチマークに基づいて, TRACE の定常空隙分数のシミュレーションデータを DGM を用いて拡張することにより, CVAE , CVAE および GAN は合成データに類似した誤差を伴い, CVAE が最小誤差を達成していることを示す。 その結果、dgmは核工学における科学的データを増強する大きな可能性を秘めており、トレーニングデータセットを拡大し、他のdlモデルをより正確に訓練することができることが証明された。

Deep learning (DL) has achieved remarkable successes in many disciplines such as computer vision and natural language processing due to the availability of ``big data''. However, such success cannot be easily replicated in many nuclear engineering problems because of the limited amount of training data, especially when the data comes from high-cost experiments. To overcome such a data scarcity issue, this paper explores the applications of deep generative models (DGMs) that have been widely used for image data generation to scientific data augmentation. DGMs, such as generative adversarial networks (GANs), normalizing flows (NFs), variational autoencoders (VAEs), and conditional VAEs (CVAEs), can be trained to learn the underlying probabilistic distribution of the training dataset. Once trained, they can be used to generate synthetic data that are similar to the training data and significantly expand the dataset size. By employing DGMs to augment TRACE simulated data of the steady-state void fractions based on the NUPEC Boiling Water Reactor Full-size Fine-mesh Bundle Test (BFBT) benchmark, this study demonstrates that VAEs, CVAEs, and GANs have comparable generative performance with similar errors in the synthetic data, with CVAEs achieving the smallest errors. The findings shows that DGMs have a great potential to augment scientific data in nuclear engineering, which proves effective for expanding the training dataset and enabling other DL models to be trained more accurately.
翻訳日:2023-08-22 17:36:23 公開日:2023-08-19