このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230822となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 非パラメトリック時空間連成確率データアソシエーション結合フィルタと拡張ターゲット追跡の干渉 Nonparametric Spatio-Temporal Joint Probabilistic Data Association Coupled Filter and Interfering Extended Target Tracking ( http://arxiv.org/abs/2311.16106v1 ) ライセンス: Link先を確認 | Behzad Akbari, Haibin Zhu, Ya-Jun Pan, and R.Tharmarasa | (参考訳) 拡張された目標追跡は、空間と時間における目標の遠心率と形状を推定する。
拡張目標追跡が適用可能なさまざまな状況において、複数のターゲットの存在は、特にカメラのようなセンサーで互いに後方で操作する場合、干渉を引き起こす可能性がある。
それでも、複数の拡張ターゲットを扱う場合、グループ内で同様の形状を共有する傾向があるため、検出性が向上する可能性がある。
例えば、航空機の群れの協調移動は、その収束または分岐の間にレーダーの誤検出を引き起こす可能性がある。
同様に、自動運転車の文脈では、車線標識は分割または収束し、不正確な車線追跡を検出する。
有名なジョイント確率データアソシエーション結合(jpdac)フィルタは、単一点のターゲットトラッキングだけでこの問題に対処できる。
非パラメトリックな時空間連成確率データアソシエーション結合フィルタ (ST-JPDACF) を導入することで, JPDACFの変種を開発した。
異なるカーネル関数を用いて、空間(フレーム内)と時間(フレーム間)における測定の依存性を管理する。
カーネル関数は限られた数のトレーニングデータを使って学習することができる。
この拡張は、ターゲットが測定を共有するときに、クラッタ内の非パラメトリック依存拡張ターゲットの形状とダイナミクスを追跡するために使用できる。
提案手法は, 干渉法において他のよく知られた教師付き手法と比較し, 有望な結果を得た。 Extended target tracking estimates the centroid and shape of the target in space and time. In various situations where extended target tracking is applicable, the presence of multiple targets can lead to interference, particularly when they maneuver behind one another in a sensor like a camera. Nonetheless, when dealing with multiple extended targets, there's a tendency for them to share similar shapes within a group, which can enhance their detectability. For instance, the coordinated movement of a cluster of aerial vehicles might cause radar misdetections during their convergence or divergence. Similarly, in the context of a self-driving car, lane markings might split or converge, resulting in inaccurate lane tracking detections. A well-known joint probabilistic data association coupled (JPDAC) filter can address this problem in only a single-point target tracking. A variation of JPDACF was developed by introducing a nonparametric Spatio-Temporal Joint Probabilistic Data Association Coupled Filter (ST-JPDACF) to address the problem for extended targets. Using different kernel functions, we manage the dependency of measurements in space (inside a frame) and time (between frames). Kernel functions are able to be learned using a limited number of training data. This extension can be used for tracking the shape and dynamics of nonparametric dependent extended targets in clutter when targets share measurements. The proposed algorithm was compared with other well-known supervised methods in the interfering case and achieved promising results. | 翻訳日:2024-01-15 15:22:20 公開日:2023-08-22 |
# 適用可能な形式的手法の宣言 A Manifesto for Applicable Formal Methods ( http://arxiv.org/abs/2112.12758v2 ) ライセンス: Link先を確認 | Mario Gleirscher and Jaco van de Pol and Jim Woodcock | (参考訳) 形式的な方法はしばしば効果的であることが示され、おそらくそのため、実践者はより頻繁にそれを使うことに興味を持っている。
しかし、これらの手法は、特に、強く推奨され、最も可能性の高い重要な領域において、予想よりもはるかに少ない適用である。
我々の仮説では、形式的手法は依然として、意図した用途に十分、あるいは準備ができていないように思われる。
クリティカルなソフトウェアエンジニアリングでは、フォーマルなメソッドについて言えば、何を意味するのでしょう?
科学と実践の両方の観点から、このような手法が適用できるということは何ですか?
文献が最初の質問について何を述べているかに基づいて、このマニフェストでは、形式的な方法に従えば、所定の範囲で成熟した適用性を生み出す一連の原則を定めています。
過去の発展に対する批判を行使するよりも、このマニフェストは、最大限の利益のために形式的な方法の使用を増やすことに努めている。 Formal methods were frequently shown to be effective and, perhaps because of that, practitioners are interested in using them more often. Still, these methods are far less applied than expected, particularly, in critical domains where they are strongly recommended and where they have the greatest potential. Our hypothesis is that formal methods still seem not to be applicable enough or ready for their intended use. In critical software engineering, what do we mean when we speak of a formal method? And what does it mean for such a method to be applicable both from a scientific and practical viewpoint? Based on what the literature tells about the first question, with this manifesto, we lay out a set of principles that when followed by a formal method give rise to its mature applicability in a given scope. Rather than exercising criticism of past developments, this manifesto strives to foster an increased use of formal methods to the maximum benefit. | 翻訳日:2023-10-24 15:49:30 公開日:2023-08-22 |
# 実践におけるソフトウェアアーキテクチャ - 課題と機会 Software Architecture in Practice: Challenges and Opportunities ( http://arxiv.org/abs/2308.09978v2 ) ライセンス: Link先を確認 | Zhiyuan Wan, Yun Zhang, Xin Xia, Yi Jiang, David Lo | (参考訳) ソフトウェアアーキテクチャは40年近くにわたって活発な研究分野であり、ソフトウェアアーキテクチャの実践をサポートするためのメソッドやテクニックの作成やツールの構築など、これまでの研究は大きな進歩を遂げてきた。
過去の努力にもかかわらず、実践者がソフトウェアアーキテクチャ関連のアクティビティをどのように実行するか、そして彼らが直面する課題についてはほとんど理解していません。
3つの大陸にまたがる21の組織から32人の実践者とのインタビューを通じて、ソフトウェア開発とメンテナンスの間にソフトウェアアーキテクチャの実践者が直面する課題を特定した。
ソフトウェア要件、設計、建設、テスト、メンテナンスの段階における一般的なソフトウェアアーキテクチャの活動と、それに対応する課題について報告した。
私たちの研究によると、これらの課題のほとんどはマネジメント、ドキュメント、ツール、プロセスを中心にしており、これらの課題に対処するためのレコメンデーションを集めています。 Software architecture has been an active research field for nearly four decades, in which previous studies make significant progress such as creating methods and techniques and building tools to support software architecture practice. Despite past efforts, we have little understanding of how practitioners perform software architecture related activities, and what challenges they face. Through interviews with 32 practitioners from 21 organizations across three continents, we identified challenges that practitioners face in software architecture practice during software development and maintenance. We reported on common software architecture activities at software requirements, design, construction and testing, and maintenance stages, as well as corresponding challenges. Our study uncovers that most of these challenges center around management, documentation, tooling and process, and collects recommendations to address these challenges. | 翻訳日:2023-10-23 13:39:51 公開日:2023-08-22 |
# 企業全体のソフトウェアサービス依存を視覚的に分析する - 産業ケーススタディ Visually Analyzing Company-wide Software Service Dependencies: An Industrial Case Study ( http://arxiv.org/abs/2308.09637v2 ) ライセンス: Link先を確認 | Sebastian Baltes, Brian Pfitzmann, Thomas Kowark, Christoph Treude, and Fabian Beck | (参考訳) ソフトウェアサービス間の依存関係を管理することは、クラウドアプリケーションを運用する企業にとって重要なタスクです。
可視化はこれらの複雑な依存関係を理解し維持するのに役立ちます。
本稿では,SAP内で開発された,力によるサービス依存性の可視化とフィルタリングツールを提案する。
ツールのユースケースには、サービスリタイアを導くこと、サービスデプロイメントの展望と企業の組織構造との関係を理解することが含まれる。
私たちはこのツールを厳格な時間制約の下で構築し、適応し、ユーザの要求に対処する方法を報告します。
私たちはさらに、社内導入の方法に関する洞察を共有しています。
私たちにとって、最小実行可能な視覚化から始めて、すぐにユーザからのフィードバックに応答することが、ツールの価値をユーザに納得させる上で不可欠でした。
最終バージョンでは、ユーザは企業全体のサービス消費を視覚的に理解でき、データ駆動による意思決定をサポートする。 Managing dependencies between software services is a crucial task for any company operating cloud applications. Visualizations can help to understand and maintain these complex dependencies. In this paper, we present a force-directed service dependency visualization and filtering tool that has been developed and used within SAP. The tool's use cases include guiding service retirement as well as understanding service deployment landscapes and their relationship to the company's organizational structure. We report how we built and adapted the tool under strict time constraints to address the requirements of our users. We further share insights on how we enabled internal adoption. For us, starting with a minimal viable visualization and then quickly responding to user feedback was essential for convincing users of the tool's value. The final version of the tool enabled users to visually understand company-wide service consumption, supporting data-driven decision making. | 翻訳日:2023-10-23 13:27:38 公開日:2023-08-22 |
# 識別グラフパターンを持つコードモデルに対する逆攻撃 Adversarial Attacks on Code Models with Discriminative Graph Patterns ( http://arxiv.org/abs/2308.11161v1 ) ライセンス: Link先を確認 | Thanh-Dat Nguyen, Yang Zhou, Xuan Bach D. Le, Patanamon (Pick) Thongtanunam, David Lo | (参考訳) 事前訓練されたコードの言語モデルは、コード生成、コード補完、脆弱性検出など、様々なソフトウェアエンジニアリングタスクで広く使われている。
これにより、これらのモデルにセキュリティと信頼性のリスクが生じる。
重要な脅威の1つは \textit{adversarial attacks} であり、これは誤った予測につながり、ダウンストリームタスクにおけるモデルパフォーマンスに大きな影響を及ぼす。
コードモデルに対する現在の敵対的攻撃は通常、変数リネームやデッドコード挿入など、プログラム変換の固定セットを採用する。
上記の課題に対処するため,我々は,コードモデルのロバスト性を評価するための新しい攻撃フレームワークであるgraphcodeattackを提案する。
ターゲットとなるコードモデルが与えられると、graphcodeattackはモデルの決定に影響を与える重要なコードパターンを自動的にマイニングして、入力コードの構造をモデルに摂動させる。
そのために、GraphCodeAttackは入力ソースコードのセットを使用してモデルの出力を探索し、モデル決定に影響を与える可能性のある \textit{discriminative} ASTs パターンを特定します。
GraphCodeAttackは適切なASTパターンを選択し、選択したパターンをアタックとして減らし、デッドコードとしてモデルの入力プログラムに挿入する。
ASTパターンからの攻撃を効果的に合成するために、GraphCodeAttackは、個別にトレーニング済みのコードモデルを使用して、具体的なコードスニペットでASTを埋める。
著者属性,脆弱性予測,クローン検出という3つのタスクに対する2つの人気コードモデル(CodeBERTやGraphCodeBERTなど)の堅牢性を評価する。
実験結果から,提案手法は CARROT や ALERT などの攻撃コードモデルにおいて,最先端の手法よりも大幅に優れていたことが示唆された。 Pre-trained language models of code are now widely used in various software engineering tasks such as code generation, code completion, vulnerability detection, etc. This, in turn, poses security and reliability risks to these models. One of the important threats is \textit{adversarial attacks}, which can lead to erroneous predictions and largely affect model performance on downstream tasks. Current adversarial attacks on code models usually adopt fixed sets of program transformations, such as variable renaming and dead code insertion, leading to limited attack effectiveness. To address the aforementioned challenges, we propose a novel adversarial attack framework, GraphCodeAttack, to better evaluate the robustness of code models. Given a target code model, GraphCodeAttack automatically mines important code patterns, which can influence the model's decisions, to perturb the structure of input code to the model. To do so, GraphCodeAttack uses a set of input source codes to probe the model's outputs and identifies the \textit{discriminative} ASTs patterns that can influence the model decisions. GraphCodeAttack then selects appropriate AST patterns, concretizes the selected patterns as attacks, and inserts them as dead code into the model's input program. To effectively synthesize attacks from AST patterns, GraphCodeAttack uses a separate pre-trained code model to fill in the ASTs with concrete code snippets. We evaluate the robustness of two popular code models (e.g., CodeBERT and GraphCodeBERT) against our proposed approach on three tasks: Authorship Attribution, Vulnerability Prediction, and Clone Detection. The experimental results suggest that our proposed approach significantly outperforms state-of-the-art approaches in attacking code models such as CARROT and ALERT. | 翻訳日:2023-10-23 13:19:00 公開日:2023-08-22 |
# ソフトウェア工学における大規模情報検索-産業応用からの体験報告 Large-scale information retrieval in software engineering -- an experience report from industrial application ( http://arxiv.org/abs/2308.11750v1 ) ライセンス: Link先を確認 | Michael Unterkalmsteiner, Tony Gorschek, Robert Feldt, Niklas Lavesson | (参考訳) ソフトウェア工学のアクティビティは情報集約的です。
調査では,トレーサビリティリンクの確立と維持,障害識別,ソフトウェアメンテナンスなど,技術者を日々のタスクで支援するための情報検索(IR)技術を提案する。
本稿では, 工学的課題, テストケースの選択, 問題解析とソリューション発見プロセスについて述べる。
この研究の目的は、ir技術(一つの潜在的な解決策)がどの程度テストケース選択に適用可能かを理解し、大規模産業環境で意思決定支援を提供することである。
研究対象企業の文脈において,テストケースの選択がどのように実行されるかを分析し,異なるIR技術の性能を評価する一連の実験を設計する。
それぞれの実験は、実装、実行、結果から学んだ教訓を提供し、後継に与える。
3つの実験は以下の観察につながった。
1) ソフトウェア工学問題に対するir技術のスケーラブルなパラメータ最適化に関する研究が不足している。
2) 産業データへのIR技術のスケーリングは,特に潜時意味分析において困難である。
3)IRの文脈は,IR技術の実証的評価に制約を生じさせ,有効な統計手法の開発にさらなる研究が必要である。
業界グレードのデータを用いた一連のIR実験を行った経験は、ピア研究者にとって価値があり、私たちが遭遇した落とし穴を避けることができると信じています。
さらに,実験室のIR実験と産業におけるIRの実応用とのギャップを埋めるため,対処すべき課題を明らかにした。 Software Engineering activities are information intensive. Research proposes Information Retrieval (IR) techniques to support engineers in their daily tasks, such as establishing and maintaining traceability links, fault identification, and software maintenance. We describe an engineering task, test case selection, and illustrate our problem analysis and solution discovery process. The objective of the study is to gain an understanding of to what extent IR techniques (one potential solution) can be applied to test case selection and provide decision support in a large-scale, industrial setting. We analyze, in the context of the studied company, how test case selection is performed and design a series of experiments evaluating the performance of different IR techniques. Each experiment provides lessons learned from implementation, execution, and results, feeding to its successor. The three experiments led to the following observations: 1) there is a lack of research on scalable parameter optimization of IR techniques for software engineering problems; 2) scaling IR techniques to industry data is challenging, in particular for latent semantic analysis; 3) the IR context poses constraints on the empirical evaluation of IR techniques, requiring more research on developing valid statistical approaches. We believe that our experiences in conducting a series of IR experiments with industry grade data are valuable for peer researchers so that they can avoid the pitfalls that we have encountered. Furthermore, we identified challenges that need to be addressed in order to bridge the gap between laboratory IR experiments and real applications of IR in the industry. | 翻訳日:2023-10-23 13:09:40 公開日:2023-08-22 |
# アジャイル要件エンジニアリングと要件としてのテストケースの利用に関する多事例研究 A multi-case study of agile requirements engineering and the use of test cases as requirements ( http://arxiv.org/abs/2308.11747v1 ) ライセンス: Link先を確認 | Elizabeth Bjarnason, Michael Unterkalmsteiner, Markus Borg, Emelie Engstr\"om | (参考訳) コンテキスト: 要件の弱いエンジニアリングがプロジェクトの失敗の既知の原因である場合、アジャイルプロジェクトでは"要件なしで"成功できるというエニグマです。
アジャイル開発プロジェクトは広範な要件なしでうまく管理されることが多いが、テストケースは一般的に要件と見なされ、詳細な要件はテストケースとして文書化されている。
目的: テストケースを要件として使用するこのアジャイルプラクティスを調査して,テストケースが主要な要件アクティビティをどのようにサポートするのか,このプラクティスはどのように変化するのかを理解しました。
方法: 3社で反復事例調査を行い,14のインタビューと2つのフォーカスグループを通じてデータを収集した。
結果: 要件としてのテストケースの使用は,要件を明確化,検証,検証,管理する上でのメリットと課題の両方を提起する。
テストケース・アズ・ア・要件プラクティスの5つの変種を特定した。デファクト、振る舞い駆動、ストーリーテスト駆動、スタンドアローンの厳格でスタンドアローンのマニュアルで、要件の時間枠、要件のフォーマット、テストケースがマシン実行可能仕様である程度、テストケースを要件として使用するプラクティスの具体的なサポートを提供するツールの使用。
結論: この調査結果はアジャイル開発プロジェクトの要件管理とコミュニケーションに関する経験的な洞察を与えてくれます。
テストケースを要件として使用するプラクティスの特定されたバリエーションは、アジャイル要件エンジニアリングの詳細な調査に使用することができる。
利害関係者の数や変化率といったプロジェクト特性に基づいたアジャイル要件プラクティスの設計と改善のためのガイドとして、提供される推奨事項を使用することができる。 Context: It is an enigma that agile projects can succeed 'without requirements' when weak requirements engineering is a known cause for project failures. While agile development projects often manage well without extensive requirements test cases are commonly viewed as requirements and detailed requirements are documented as test cases. Objective: We have investigated this agile practice of using test cases as requirements to understand how test cases can support the main requirements activities, and how this practice varies. Method: We performed an iterative case study at three companies and collected data through 14 interviews and two focus groups. Results: The use of test cases as requirements poses both benefits and challenges when eliciting, validating, verifying, and managing requirements, and when used as a documented agreement. We have identified five variants of the test-cases-as-requirements practice, namely de facto, behaviour-driven, story-test driven, stand-alone strict and stand-alone manual for which the application of the practice varies concerning the time frame of requirements documentation, the requirements format, the extent to which the test cases are a machine executable specification and the use of tools which provide specific support for the practice of using test cases as requirements. Conclusions: The findings provide empirical insight into how agile development projects manage and communicate requirements. The identified variants of the practice of using test cases as requirements can be used to perform in-depth investigations into agile requirements engineering. Practitioners can use the provided recommendations as a guide in designing and improving their agile requirements practices based on project characteristics such as number of stakeholders and rate of change. | 翻訳日:2023-10-23 13:09:07 公開日:2023-08-22 |
# ナレッジグラフ埋め込みによるアナロジーapiの推奨 Recommending Analogical APIs via Knowledge Graph Embedding ( http://arxiv.org/abs/2308.11422v1 ) ライセンス: Link先を確認 | Mingwei Liu, Yanjun Yang, Yiling Lou, Xin Peng, Zhong Zhou, Xueying Du, Tianyong Yang | (参考訳) ライブラリマイグレーションは,現在のライブラリではなく,別のライブラリを使用して同じソフトウェア動作を再実装するものだ。
ライブラリ移行の重要な部分のひとつは、現在のものと同じ機能を提供するアナログAPIを見つけることだ。
しかし、多数のライブラリ/APIを考えると、手動で類似APIを見つけるのは非常に時間がかかり、エラーが発生しやすい。
研究者は複数の自動アナログAPIレコメンデーション技術を開発した。
文書ベースの手法は特に大きな関心を集めている。
その可能性にもかかわらず、これらの手法にはドキュメントやスケーラビリティの課題に対する包括的なセマンティック理解の欠如のような制限がある。
本稿では,KGE4ARを提案する。KGE4ARは知識グラフ(KG)の埋め込みを活用し,ライブラリ移行時に類似APIを推奨する新しいドキュメントベースのアプローチである。
具体的には、kge4arはドキュメント内の3つのタイプの知識を包括的かつ構造的に表現する、新しい統一api kgを提案する。
さらに、KGE4ARは統合されたAPI KGをベクトルに埋め込むことを提案し、より効率的でスケーラブルな類似性計算を可能にした。
私たちは35,773のJavaライブラリに対してKGE4ARの統一APIKGを構築し、ターゲットライブラリと非対象ライブラリという2つのAPIレコメンデーションシナリオで評価します。
その結果、KGE4ARは、すべての指標(例:47.1%-143.0%と11.7%-80.6%のMRR改善)において、両方の評価シナリオにおいて、最先端のドキュメンテーションベースの技術を大幅に上回っていることがわかった。
さらに,kge4arのsスケーラビリティについても検討し,ライブラリ数の増加に伴うスケーリングの有効性を確認した。 Library migration, which re-implements the same software behavior by using a different library instead of using the current one, has been widely observed in software evolution. One essential part of library migration is to find an analogical API that could provide the same functionality as current ones. However, given the large number of libraries/APIs, manually finding an analogical API could be very time-consuming and error-prone. Researchers have developed multiple automated analogical API recommendation techniques. Documentation-based methods have particularly attracted significant interest. Despite their potential, these methods have limitations, such as a lack of comprehensive semantic understanding in documentation and scalability challenges. In this work, we propose KGE4AR, a novel documentation-based approach that leverages knowledge graph (KG) embedding to recommend analogical APIs during library migration. Specifically, KGE4AR proposes a novel unified API KG to comprehensively and structurally represent three types of knowledge in documentation, which can better capture the high-level semantics. Moreover, KGE4AR then proposes to embed the unified API KG into vectors, enabling more effective and scalable similarity calculation. We build KGE4AR' s unified API KG for 35,773 Java libraries and assess it in two API recommendation scenarios: with and without target libraries. Our results show that KGE4AR substantially outperforms state-of-the-art documentation-based techniques in both evaluation scenarios in terms of all metrics (e.g., 47.1%-143.0% and 11.7%-80.6% MRR improvements in each scenario). Additionally, we explore KGE4AR' s scalability, confirming its effective scaling with the growing number of libraries. | 翻訳日:2023-10-23 13:08:22 公開日:2023-08-22 |
# ソフトウェア工学における大規模言語モデルの理解に向けて Towards an Understanding of Large Language Models in Software Engineering Tasks ( http://arxiv.org/abs/2308.11396v1 ) ライセンス: Link先を確認 | Zibin Zheng, Kaiwen Ning, Jiachi Chen, Yanlin Wang, Wenqing Chen, Lianghong Guo and Weicheng Wang | (参考訳) 大規模言語モデル(LLM)は、テキスト生成や推論といったタスクにおける驚くべき性能のために、広く注目を集め、研究している。
ChatGPTのような派生製品は広範囲にデプロイされ、追求されている。
一方、コード生成などのソフトウェア工学タスクにおけるLLMの評価と最適化が研究の焦点となっている。
しかし、ソフトウェア工学の分野でのLLMの適用と評価について、体系的な研究がまだ残っていない。
そこで本稿は,llmとソフトウェア工学を組み合わせた研究と製品を包括的に調査・コラボレーションし,(1)ソフトウェア工学とllmの現在の統合とは何か,という問いに答えることを目的とする。
2) LLM はソフトウェア工学のタスクを効果的に扱えるか?
回答を得るために,7つの主流データベースから可能な限り関連文献を収集し,分析のために123の論文を選択した。
我々は、これらの論文を詳細に分類し、7つの主要なソフトウェアエンジニアリングタスクの観点からllmの現在の研究状況をレビューし、研究者が研究のトレンドをより把握し、llmを適用する際の問題に対処するのに役立つことを期待した。
また,ソフトウェア工学タスクにおけるLLMの性能と有効性を明らかにするために,評価内容に関する論文を整理,提示し,研究者や開発者が最適化するためのガイダンスを提供している。 Large Language Models (LLMs) have drawn widespread attention and research due to their astounding performance in tasks such as text generation and reasoning. Derivative products, like ChatGPT, have been extensively deployed and highly sought after. Meanwhile, the evaluation and optimization of LLMs in software engineering tasks, such as code generation, have become a research focus. However, there is still a lack of systematic research on the application and evaluation of LLMs in the field of software engineering. Therefore, this paper is the first to comprehensively investigate and collate the research and products combining LLMs with software engineering, aiming to answer two questions: (1) What are the current integrations of LLMs with software engineering? (2) Can LLMs effectively handle software engineering tasks? To find the answers, we have collected related literature as extensively as possible from seven mainstream databases, and selected 123 papers for analysis. We have categorized these papers in detail and reviewed the current research status of LLMs from the perspective of seven major software engineering tasks, hoping this will help researchers better grasp the research trends and address the issues when applying LLMs. Meanwhile, we have also organized and presented papers with evaluation content to reveal the performance and effectiveness of LLMs in various software engineering tasks, providing guidance for researchers and developers to optimize. | 翻訳日:2023-10-23 13:07:42 公開日:2023-08-22 |
# Androidアプリケーションの多目的改善 Multi-Objective Improvement of Android Applications ( http://arxiv.org/abs/2308.11387v1 ) ライセンス: Link先を確認 | James Callan and Justyna Petke | (参考訳) 実行時やメモリ使用などの非機能プロパティは、ユーザエクスペリエンスに影響を与えるため、モバイルアプリユーザや開発者にとって重要である。
モバイルアプリにおける非機能プロパティの自動改善に関する以前の作業は、そのようなプロパティ間の固有のトレードオフに対処できなかった。
我々は,Androidアプリの多目的自動改善のための実用的アプローチと,最初のオープンソースツールであるGIDroid(2023)を提案する。
特に私たちは、改良されたソフトウェアを見つけるために、ソフトウェアバリアントの空間をナビゲートする検索ベースの技術であるgenetic improvementを使っています。
シミュレーションベースのテストフレームワークを用いて検索速度を大幅に改善する。
GIDroidには3つの最先端多目的アルゴリズムと2つの新しい突然変異演算子があり、メソッド呼び出しの結果をキャッシュする。
遺伝的改善はパッチを検証するためにテストに依存する。
以前の研究によると、オープンソースのandroidアプリケーションのテストは少ない。
そこで、21バージョンのAndroidアプリのテストを書き、パフォーマンス改善のための新しいベンチマークを作成しました。
以前、実行時、メモリ、帯域幅の使用が改善されたことを発見したモバイルアプリのバージョンを改善するために、gidroidを使いました。
既存の改良の64%を自動的に発見する。
そして、既知の改善がない現在のバージョンのソフトウェアにアプローチを適用しました。
これらのアプリでは、実行時間を最大35%改善し、メモリ使用量を最大33%改善しました。 Non-functional properties, such as runtime or memory use, are important to mobile app users and developers, as they affect user experience. Previous work on automated improvement of non-functional properties in mobile apps failed to address the inherent trade-offs between such properties. We propose a practical approach and the first open-source tool, GIDroid (2023), for multi-objective automated improvement of Android apps. In particular, we use Genetic improvement, a search-based technique that navigates the space of software variants to find improved software. We use a simulation-based testing framework to greatly improve the speed of search. GIDroid contains three state-of-the-art multi-objective algorithms, and two new mutation operators, which cache the results of method calls. Genetic improvement relies on testing to validate patches. Previous work showed that tests in open-source Android applications are scarce. We thus wrote tests for 21 versions of 7 Android apps, creating a new benchmark for performance improvements. We used GIDroid to improve versions of mobile apps where developers had previously found improvements to runtime, memory, and bandwidth use. Our technique automatically re-discovers 64% of existing improvements. We then applied our approach to current versions of software in which there were no known improvements. We were able to improve execution time by up to 35%, and memory use by up to 33% in these apps. | 翻訳日:2023-10-23 13:07:24 公開日:2023-08-22 |
# the software heritage license dataset (2022年版) The Software Heritage License Dataset (2022 Edition) ( http://arxiv.org/abs/2308.11258v1 ) ライセンス: Link先を確認 | Jes\'us M. Gonz\'alez-Barahona (URJC), Sergio Montes-Leon (URJC), Gregorio Robles (URJC), Stefano Zacchiroli (IP Paris, LTCI) | (参考訳) コンテキスト: ソフトウェアが一般公開されると、ライセンスの完全なテキストか、そのライセンスが公開されたライセンス、あるいはそれらに対する詳細な参照のいずれかに含めるのが一般的です。
したがって、foss(free, open source software)ライセンスを含む公開ライセンスは通常、ソースコードリポジトリで公開されている。objective: ソフトウェアライセンスのテキストやライセンス条項への参照を含む可能な限り多くのドキュメントを含むデータセットをコンパイルする。
一度コンパイルすると、データセットを特徴付けて、ライセンス分析に関するさらなる研究や実用的な目的に使用できるようにします。 方法: ソフトウェアヘリテージからの取得 fossソースコードの最大公開アーカイブ ライセンス条件の伝達に一般的に使用されるすべてのファイルのすべてのバージョン。
すべての検索されたドキュメントは、自動化および手動分析を使用して、さまざまな方法で特徴付けられる。
出荷されたライセンスファイルに関する追加メタデータも提供されており、ファイル長測定、MIMEタイプ、SPDXライセンス(ScanCodeで検出)、最も古い外観など、さまざまなコンテキストで使用可能なデータセットが提供されている。
8102の文書を手作業で分析した結果も含まれており、さらなる分析の根拠となっている。
このデータセットは、すべての重複したライセンスファイルを含むアーカイブファイルとしてオープンデータとしてリリースされ、メタデータを備えたいくつかのポータブルなCSVファイル、暗号化チェックサムによるファイル参照を含む。
私たちは大量のソフトウェアライセンスを組み立て、定量的かつ質的に特徴付けし、ほとんどがライセンス情報で構成され、ほぼすべての既知のライセンステキストを含んでいることを検証しました。
このデータセットは、オープンソースライセンスに関する実証的研究、自動ライセンス分類器の訓練、法律テキストの自然言語処理(NLP)分析、およびFOSSライセンスに関する歴史的および系統学的研究を行うために使用することができる。
実際に、ソースコードのライセンスを検出するツールを改善するために使用することもできる。 Context: When software is released publicly, it is common to include with it either the full text of the license or licenses under which it is published, or a detailed reference to them. Therefore public licenses, including FOSS (free, open source software) licenses, are usually publicly available in source code repositories.Objective: To compile a dataset containing as many documents as possible that contain the text of software licenses, or references to the license terms. Once compiled, characterize the dataset so that it can be used for further research, or practical purposes related to license analysis.Method: Retrieve from Software Heritage-the largest publicly available archive of FOSS source code-all versions of all files whose names are commonly used to convey licensing terms. All retrieved documents will be characterized in various ways, using automated and manual analyses.Results: The dataset consists of 6.9 million unique license files. Additional metadata about shipped license files is also provided, making the dataset ready to use in various contexts, including: file length measures, MIME type, SPDX license (detected using ScanCode), and oldest appearance. The results of a manual analysis of 8102 documents is also included, providing a ground truth for further analysis. The dataset is released as open data as an archive file containing all deduplicated license files, plus several portable CSV files with metadata, referencing files via cryptographic checksums.Conclusions: Thanks to the extensive coverage of Software Heritage, the dataset presented in this paper covers a very large fraction of all software licenses for public code. We have assembled a large body of software licenses, characterized it quantitatively and qualitatively, and validated that it is mostly composed of licensing information and includes almost all known license texts. The dataset can be used to conduct empirical studies on open source licensing, training of automated license classifiers, natural language processing (NLP) analyses of legal texts, as well as historical and phylogenetic studies on FOSS licensing. It can also be used in practice to improve tools detecting licenses in source code. | 翻訳日:2023-10-23 13:07:05 公開日:2023-08-22 |
# サブセットセマンティック表現学習と説明によるルックライクな無害・脆弱性符号の識別 Distinguishing Look-Alike Innocent and Vulnerable Code by Subtle Semantic Representation Learning and Explanation ( http://arxiv.org/abs/2308.11237v1 ) ライセンス: Link先を確認 | Chao Ni, Xin Yin, Kaiwen Yang, Dehai Zhao, Zhenchang Xing and Xin Xia | (参考訳) 多くのディープラーニング(DL)ベースの脆弱性検出アプローチが提案され、実際に顕著な性能を達成したが、一般化と実用性には限界がある。
より正確には、既存のdlベースのアプローチ(1)は、語彙的に類似するが逆意味を持つ関数間の予測タスクを負に実行し、(2)検出された結果に対する直感的な開発者指向の説明を提供しない。
本稿では,脆弱性検出のための関数レベルの微妙な意味埋め込み手法であるsvuldを提案する。
具体的には、SVulDはまず、語彙的類似性に関係なく関数の意味表現を区別することを学ぶためにモデルを訓練する。
そして、検出された脆弱性関数に対して、SVulDは、開発者が脆弱性を直感的に理解できるように、結果の自然言語説明(ルート原因など)を提供する。
SVulDの有効性を評価するため,広く利用されている実用的脆弱性データセットを用いて大規模な実験を行い,その4つの方法と比較した。
実験の結果、SVulDは全てのSOTAよりも大幅に向上している(F1スコアでは23.5%-68.0%、PR-AUCでは15.9%-134.8%、精度では7.4%-64.4%)。
さらに,脆弱なコードを理解する上でのSVulDの有用性を評価するために,ユーザケーススタディを実施し,SVulDが開発実践に役立つことを示す。 Though many deep learning (DL)-based vulnerability detection approaches have been proposed and indeed achieved remarkable performance, they still have limitations in the generalization as well as the practical usage. More precisely, existing DL-based approaches (1) perform negatively on prediction tasks among functions that are lexically similar but have contrary semantics; (2) provide no intuitive developer-oriented explanations to the detected results. In this paper, we propose a novel approach named SVulD, a function-level Subtle semantic embedding for Vulnerability Detection along with intuitive explanations, to alleviate the above limitations. Specifically, SVulD firstly trains a model to learn distinguishing semantic representations of functions regardless of their lexical similarity. Then, for the detected vulnerable functions, SVulD provides natural language explanations (e.g., root cause) of results to help developers intuitively understand the vulnerabilities. To evaluate the effectiveness of SVulD, we conduct large-scale experiments on a widely used practical vulnerability dataset and compare it with four state-of-the-art (SOTA) approaches by considering five performance measures. The experimental results indicate that SVulD outperforms all SOTAs with a substantial improvement (i.e., 23.5%-68.0% in terms of F1-score, 15.9%-134.8% in terms of PR-AUC and 7.4%-64.4% in terms of Accuracy). Besides, we conduct a user-case study to evaluate the usefulness of SVulD for developers on understanding the vulnerable code and the participants' feedback demonstrates that SVulD is helpful for development practice. | 翻訳日:2023-10-23 13:06:30 公開日:2023-08-22 |
# 物質的特性予測における精度・コストトレードオフへの取り組み--教師・学生戦略 Addressing the Accuracy-Cost Tradeoff in Material Property Prediction: A Teacher-Student Strategy ( http://arxiv.org/abs/2309.04482v1 ) ライセンス: Link先を確認 | Dong Zhu, Zhikuang xin, Siming Zheng, Yangang Wang, Xiaoyu Yang | (参考訳) 深層学習は新たな物質発見のプロセスに革命をもたらし、最先端のモデルでは化学組成のみに基づく材料特性の予測が可能になったため、材料構造の必要性は排除された。
しかし、このコスト効率の手法はモデル精度のトレードオフにつながった。
具体的には, 化学組成に基づく特性予測モデル (CPM) の精度は, 構造ベース特性予測モデル (SPM) よりも著しく遅れている。
そこで本研究では,spmの精度を高めるために,事前学習したspmが「教師」として機能する,革新的なt-s戦略を提案する。
T-S戦略を活用することで、T-S CrabNetは現在のCPMの中で最も正確なモデルになっている。
当初、我々はこの戦略の普遍性を実証した。
Materials Project (MP) と Jarvis のデータセットでは,ClarbNet と Roost という2つの異なるネットワーク構造を持つ CPM の精度を高めるため,T-S 戦略の有効性を検証した。
これによりCrabNetはT-S戦略の指導のもと、現在のCPMの中で最も正確なモデルとして登場した。
さらに、この戦略は小さなデータセットで顕著な効果を示す。
サンプルのわずか5%からなる小さなMPデータセット上の生成エネルギーを予測すると、T-S戦略はCrabNetの精度を37.1%向上させ、データセット全体のT-S戦略の強化効果を上回った。 Deep learning has revolutionized the process of new material discovery, with state-of-the-art models now able to predict material properties based solely on chemical compositions, thus eliminating the necessity for material structures. However, this cost-effective method has led to a trade-off in model accuracy. Specifically, the accuracy of Chemical Composition-based Property Prediction Models (CPMs) significantly lags behind that of Structure-based Property Prediction Models (SPMs). To tackle this challenge, we propose an innovative Teacher-Student (T-S) strategy, where a pre-trained SPM serves as the 'teacher' to enhance the accuracy of the CPM. Leveraging the T-S strategy, T-S CrabNet has risen to become the most accurate model among current CPMs. Initially, we demonstrated the universality of this strategy. On the Materials Project (MP) and Jarvis datasets, we validated the effectiveness of the T-S strategy in boosting the accuracy of CPMs with two distinct network structures, namely CrabNet and Roost. This led to CrabNet, under the guidance of the T-S strategy, emerging as the most accurate model among the current CPMs. Moreover, this strategy shows remarkable efficacy in small datasets. When predicting the formation energy on a small MP dataset comprising merely 5% of the samples, the T-S strategy boosted CrabNet's accuracy by 37.1%, exceeding the enhancement effect of the T-S strategy on the whole dataset. | 翻訳日:2023-09-17 14:06:41 公開日:2023-08-22 |
# 炭素繊維有機シート型電池の耐クラッシュ性向上のための有限要素解析と機械学習指導設計 Finite Element Analysis and Machine Learning Guided Design of Carbon Fiber Organosheet-based Battery Enclosures for Crashworthiness ( http://arxiv.org/abs/2309.00637v1 ) ライセンス: Link先を確認 | Shadab Anwar Shaikh, M.F.N. Taufique, Kranthi, Balusu, Shank S. Kulkarni, Forrest Hale, Jonathan Oleson, Ram Devanathan, Ayoub Soulami | (参考訳) カーボンファイバー複合材は、より優れた強度と重量比と耐食性のために、現行の電気自動車(E.V.s)の金属ベースの電池を交換する可能性がある。
しかし, 炭素繊維系構造物の強度は, 慎重に選択すべきパラメータに依存する。
本研究では,高スループット有限要素解析(FEA)に基づく熱成形シミュレーションを実装し,設計と処理パラメータの異なる電池囲いを仮想的に製造した。
続いて,側極衝突を模倣した仮想クラッシュシミュレーションを行い,バッテリ内装のクラッシュ性評価を行った。
この高スループットクラッシュシミュレーションデータセットは、未知集合のクラッシュ性を理解するための予測モデルを構築するために利用された。
機械学習 (ML) モデルでは, 衝突時の負荷効率, 吸収エネルギー, 侵入力, 最大減速力の予測に優れた性能 (R2 > 0.97) を示した。
このfea-mlの作業フレームワークは、炭素繊維ベースのコンポーネント設計のプロセスパラメータの選定に役立ち、他の製造技術に転送可能であると信じています。 Carbon fiber composite can be a potential candidate for replacing metal-based battery enclosures of current electric vehicles (E.V.s) owing to its better strength-to-weight ratio and corrosion resistance. However, the strength of carbon fiber-based structures depends on several parameters that should be carefully chosen. In this work, we implemented high throughput finite element analysis (FEA) based thermoforming simulation to virtually manufacture the battery enclosure using different design and processing parameters. Subsequently, we performed virtual crash simulations to mimic a side pole crash to evaluate the crashworthiness of the battery enclosures. This high throughput crash simulation dataset was utilized to build predictive models to understand the crashworthiness of an unknown set. Our machine learning (ML) models showed excellent performance (R2 > 0.97) in predicting the crashworthiness metrics, i.e., crush load efficiency, absorbed energy, intrusion, and maximum deceleration during a crash. We believe that this FEA-ML work framework will be helpful in down select process parameters for carbon fiber-based component design and can be transferrable to other manufacturing technologies. | 翻訳日:2023-09-10 03:57:00 公開日:2023-08-22 |
# チップ設計における効率的な論理合成のための回路領域一般化フレームワーク A Circuit Domain Generalization Framework for Efficient Logic Synthesis in Chip Design ( http://arxiv.org/abs/2309.03208v1 ) ライセンス: Link先を確認 | Zhihai Wang, Lei Chen, Jie Wang, Xing Li, Yinqi Bai, Xijun Li, Mingxuan Yuan, Jianye Hao, Yongdong Zhang, Feng Wu | (参考訳) 論理合成(LS)は半導体産業の基盤であるチップ設計において重要な役割を果たす。
lsの重要なタスクは、有向非巡回グラフ(英語版)(dag)によってモデル化された回路を、同等の機能を持つ簡易回路に変換することである。このタスクに取り組むために、多くのlsオペレータは、入力dag上の各ノードに根ざしたサブグラフに変換を適用する。
しかし、多くの変換が非効率であることから、これらの演算子を非常に時間を要することに気付きました。
特に、ResubおよびMfs2演算子のランタイムが、LS最適化プロセス全体のランタイムを支配していることに気付く。
そこで本研究では,データ駆動型LS演算子のパラダイムであるPruneXを提案する。
PruneXを開発する際の大きな課題は、未知の回路によく一般化するモデルを学習することである。
したがって、PruneXの主な技術的貢献は、変換不変なドメイン知識に基づいてドメイン不変表現を学ぶ新しい回路領域一般化フレームワークである。
我々の知る限りでは、PruneXはLS演算子のOOD問題に取り組むための最初のアプローチである。
PruneXを前述のResubおよびMfs2演算子と統合する。
実験の結果、PruneXは工業用および大規模の回路で同等の最適化性能を維持し、最大3.1\times$高速ランタイムを実現した。 Logic Synthesis (LS) plays a vital role in chip design -- a cornerstone of the semiconductor industry. A key task in LS is to transform circuits -- modeled by directed acyclic graphs (DAGs) -- into simplified circuits with equivalent functionalities. To tackle this task, many LS operators apply transformations to subgraphs -- rooted at each node on an input DAG -- sequentially. However, we found that a large number of transformations are ineffective, which makes applying these operators highly time-consuming. In particular, we notice that the runtime of the Resub and Mfs2 operators often dominates the overall runtime of LS optimization processes. To address this challenge, we propose a novel data-driven LS operator paradigm, namely PruneX, to reduce ineffective transformations. The major challenge of developing PruneX is to learn models that well generalize to unseen circuits, i.e., the out-of-distribution (OOD) generalization problem. Thus, the major technical contribution of PruneX is the novel circuit domain generalization framework, which learns domain-invariant representations based on the transformation-invariant domain-knowledge. To the best of our knowledge, PruneX is the first approach to tackle the OOD problem in LS operators. We integrate PruneX with the aforementioned Resub and Mfs2 operators. Experiments demonstrate that PruneX significantly improves their efficiency while keeping comparable optimization performance on industrial and very large-scale circuits, achieving up to $3.1\times$ faster runtime. | 翻訳日:2023-09-10 03:36:08 公開日:2023-08-22 |
# 多目的遺伝的アルゴリズムを用いた量子特徴マップの生成 Generating quantum feature maps using multi-objective genetic algorithm ( http://arxiv.org/abs/2309.03307v1 ) ライセンス: Link先を確認 | Haiyan Wang, Allison Bayro, Nao Yamamoto | (参考訳) 本稿では,高次元ヒルベルト空間へのアクセスを可能にする,量子化支援ベクトルマシンの量子特徴写像を効率的に生成するための新しい手法を提案する。
本手法は,量子特徴マップ回路の局所的および非局所的ゲートコストを最小化しつつ,分類精度を最大化する多目的遺伝的アルゴリズムを用いる。
これを達成するために,局所ゲートと絡み合いゲートの異なる適合関数を定義する。
量子機械学習の利点を理解するために古典的分類器との比較を行う。
驚くべきことに、量子カーネル法における量子回路の最適構成は、非局所ゲートが大々的に抑制された以前の文献とは対照的に、絡み合いのために非局所ゲートの比例数を取り入れている。
さらに,量子サポートベクトルマシンの機能マップに必要な非局所ゲート数を決定するために,データの分離性指標を効果的に活用できることを実証する。
この洞察は、データ分析に基づいたquiskit.orgのような様々な量子プログラミングパッケージにおいて、絡み合いパラメータのような適切なパラメータを選択するのに大いに役立つ。
本研究は,量子機械学習アルゴリズムの効率と精度を向上させる上で有用なガイダンスを提供する。 We present a novel approach for efficiently generating quantum feature maps for quantum-enhanced support vector machines, a kernel-based classifier, enabling access to high-dimensional Hilbert space. Our method employs a multi-objective genetic algorithm that simultaneously maximizes classification accuracy while minimizing both the local and non-local gate costs of the quantum feature map's circuit. To achieve this, we define distinct fitness functions for local gates and entanglement gates. Comparisons with classical classifiers are given in order to understand the advantages of using quantum machine learning. Surprisingly, our experiments reveal that the optimal configuration of quantum circuits for the quantum kernel method incorporates a proportional number of non-local gates for entanglement, contrary to previous literature where non-local gates were largely suppressed. Furthermore, we demonstrate that the separability indexes of data can be effectively leveraged to determine the number of non-local gates required for the quantum support vector machine's feature maps. This insight can significantly aid in selecting appropriate parameters, such as the entanglement parameter, in various quantum programming packages like quiskit.org based on data analysis. Our findings offer valuable guidance for enhancing the efficiency and accuracy of quantum machine learning algorithms. | 翻訳日:2023-09-10 03:28:48 公開日:2023-08-22 |
# ディープラーニングの一般化 Generalization in Deep Learning ( http://arxiv.org/abs/1710.05468v9 ) ライセンス: Link先を確認 | Kenji Kawaguchi, Leslie Pack Kaelbling, Yoshua Bengio | (参考訳) 本稿では,学習能力,複雑性,アルゴリズムの不安定性,非破壊性,および急激な最小性にもかかわらず,なぜ,どのようにディープラーニングが一般化できるかを理論的に考察する。
また,深層学習に対する非空在的な一般化保証を提供するためのアプローチについても論じる。
理論的な考察に基づき,新しいオープン問題を提案し,その限界について考察する。 This paper provides theoretical insights into why and how deep learning can generalize well, despite its large capacity, complexity, possible algorithmic instability, nonrobustness, and sharp minima, responding to an open question in the literature. We also discuss approaches to provide non-vacuous generalization guarantees for deep learning. Based on theoretical observations, we propose new open problems and discuss the limitations of our results. | 翻訳日:2023-09-03 21:41:27 公開日:2023-08-22 |
# 自動符号化とインストラクタ入力を組み合わせた非同期オンラインディスカッションのためのENA可視化生成 Combining Automatic Coding and Instructor Input to Generate ENA Visualizations for Asynchronous Online Discussion ( http://arxiv.org/abs/2308.13549v1 ) ライセンス: Link先を確認 | Marcia Moraes, Sadaf Ghaffari, Yanye Luther, and James Folkestad | (参考訳) 非同期オンラインディスカッションは、ハイブリッドおよびオンラインコースにおけるソーシャルインタラクションを促進するための共通の基本ツールである。
しかし、教師は非同期オンラインディスカッション活動を評価するという圧倒的な課題を達成するためのツールが欠けている。
本稿では,LDA(Latent Dirichlet Analysis)とインストラクターのキーワードを用いて,比較的小さなデータセットからコードを自動的に抽出する手法を提案する。
生成されたコードを用いて、疫学ネットワーク分析(ENA)モデルを構築し、このモデルを、人間のコーダによって構築された以前のENAモデルと比較する。
その結果,両モデル間に統計的差異は認められなかった。
本稿では,これらのモデルを解析し,教師が非同期オンラインディスカッションを評価するのに役立つ可視化として,ENAの利用の可能性について論じる。 Asynchronous online discussions are a common fundamental tool to facilitate social interaction in hybrid and online courses. However, instructors lack the tools to accomplish the overwhelming task of evaluating asynchronous online discussion activities. In this paper we present an approach that uses Latent Dirichlet Analysis (LDA) and the instructor's keywords to automatically extract codes from a relatively small dataset. We use the generated codes to build an Epistemic Network Analysis (ENA) model and compare this model with a previous ENA model built by human coders. The results show that there is no statistical difference between the two models. We present an analysis of these models and discuss the potential use of ENA as a visualization to help instructors evaluating asynchronous online discussions. | 翻訳日:2023-09-03 21:31:59 公開日:2023-08-22 |
# ホロデッキ型シミュレーションゲームに向けて Towards a Holodeck-style Simulation Game ( http://arxiv.org/abs/2308.13548v1 ) ライセンス: Link先を確認 | Ahad Shams, Douglas Summers-Stay, Vsevolod Metelsky, Arpan Tripathi, Karan Malhotra | (参考訳) Infinitiaは、再生時に生成画像と言語モデルを用いて、プレイヤーからの短い説明に基づいて設定とNPCの全ての側面を再構成するシミュレーションゲームシステムである。
生成エージェント(Generative Agents)論文のアイデアを生かした本システムでは,無限生成ファンタジーワールド,NPC行動の制御性,ユーモラス対話,コストと時間効率,プレイヤー間のコラボレーション,ゲーム内イベント間の非決定性要素などのゲームプレイ要素を導入している。
InfinitiaはサーバベースのアーキテクチャでUnityエンジンに実装されており、将来はコミュニティ開発者によるエキサイティングな機能追加を促進する。
さらに、マルチプレイヤーフレームワークを使用して、シミュレーションに人間が参加し、相互作用できるようにする。
シミュレーションは、https://infinitia.ai/で間もなくオープンソースとして公開される予定だ。 We introduce Infinitia, a simulation game system that uses generative image and language models at play time to reshape all aspects of the setting and NPCs based on a short description from the player, in a way similar to how settings are created on the fictional Holodeck. Building off the ideas of the Generative Agents paper, our system introduces gameplay elements, such as infinite generated fantasy worlds, controllability of NPC behavior, humorous dialogue, cost & time efficiency, collaboration between players and elements of non-determinism among in-game events. Infinitia is implemented in the Unity engine with a server-client architecture, facilitating the addition of exciting features by community developers in the future. Furthermore, it uses a multiplayer framework to allow humans to be present and interact in the simulation. The simulation will be available in open-alpha shortly at https://infinitia.ai/ and we are looking forward to building upon it with the community. | 翻訳日:2023-09-03 21:31:47 公開日:2023-08-22 |
# ステレオタイプストレスによって誘発される感情伝染性脳波の機能的グラフコントラスト学習 Functional Graph Contrastive Learning of Hyperscanning EEG Reveals Emotional Contagion Evoked by Stereotype-Based Stressors ( http://arxiv.org/abs/2308.13546v1 ) ライセンス: Link先を確認 | Jingyun Huang, Mengting Liu, Chad E. Forbes | (参考訳) 本研究は、感情伝染の複雑さと、そのダイアド相互作用におけるパフォーマンスへの影響を考察する。
具体的には,女性ペア間の協調問題解決作業におけるステレオタイプに基づくストレス(sbs)の文脈に着目した。
感情的な伝染の探索を通じて、研究は根底にあるメカニズムと効果を明らかにすることを目指している。
脳波に基づくハイパースキャン技術を活用するこの研究は、機能的グラフコントラスト学習(fGCL)と呼ばれる革新的なアプローチを導入し、神経活動パターンの主題不変表現を抽出する。
これらの表現は、動的グラフ分類(DGC)モデルを用いて、感情的伝染の過程を識別することを目的として分析される。
脳の同期と接続性を調べることで、この研究は感情の伝染と認知機能の間の複雑な相互作用を明らかにする。
その結果,sbs条件下での協調作業における参加者の行動の軌跡形成における感情的伝染の実質的役割が示唆された。
全体として、この研究は、感情的伝染の神経基盤に関する貴重な洞察をもたらし、それによって社会的相互作用と感情力学の基礎となる複雑さの理解を深める。 This study delves into the intricacies of emotional contagion and its impact on performance within dyadic interactions. Specifically, it focuses on the context of stereotype-based stress (SBS) during collaborative problem-solving tasks among female pairs. Through an exploration of emotional contagion, the research seeks to unveil its underlying mechanisms and effects. Leveraging EEG-based hyperscanning technology, the study introduces an innovative approach known as functional Graph Contrastive Learning (fGCL), which extracts subject-invariant representations of neural activity patterns. These representations are further subjected to analysis using the Dynamic Graph Classification (DGC) model, aimed at dissecting the process of emotional contagion. By scrutinizing brain synchronization and connectivity, the study reveals the intricate interplay between emotional contagion and cognitive functioning. The results underscore the substantial role of emotional contagion in shaping the trajectories of participants' performance during collaborative tasks in the presence of SBS conditions. Overall, this research contributes invaluable insights into the neural underpinnings of emotional contagion, thereby enriching our comprehension of the complexities underlying social interactions and emotional dynamics. | 翻訳日:2023-09-03 21:31:29 公開日:2023-08-22 |
# Atlas of Science Collaboration, 1971-2020 Atlas of Science Collaboration, 1971-2020 ( http://arxiv.org/abs/2308.16810v1 ) ライセンス: Link先を確認 | Keisuke Okamura | (参考訳) 15の自然科学分野にまたがる組織間共同研究の進化の展望を,OpenAlexのオープンソースデータを用いて検討した。
この広範な調査は1971年から2020年までの数年間にわたって行われ、主要な科学的生産者とその共著者に基づく協力関係の徹底的な調査に役立った。
この発見は世界地図や他の図に視覚的に示されており、様々な分野や期間にわたる国内外のコラボレーションパターンの顕著なバリエーションを明確かつ洞察的に表現している。
これらの視覚的表現は、科学政策立案者、外交官、機関研究者にとって貴重な資源となり、グローバルなコラボレーションの包括的概要を提供し、時間とともにこれらのパートナーシップの進化する性質を直感的に把握するのに役立つ。 The evolving landscape of interinstitutional collaborative research across 15 natural science disciplines is explored using the open data sourced from OpenAlex. This extensive exploration spans the years from 1971 to 2020, facilitating a thorough investigation of leading scientific output producers and their collaborative relationships based on coauthorships. The findings are visually presented on world maps and other diagrams, offering a clear and insightful portrayal of notable variations in both national and international collaboration patterns across various fields and time periods. These visual representations serve as valuable resources for science policymakers, diplomats and institutional researchers, providing them with a comprehensive overview of global collaboration and aiding their intuitive grasp of the evolving nature of these partnerships over time. | 翻訳日:2023-09-03 21:23:09 公開日:2023-08-22 |
# ポピュラー音楽ギタータブラチュアにおけるベンドのモデル化 Modeling Bends in Popular Music Guitar Tablatures ( http://arxiv.org/abs/2308.12307v1 ) ライセンス: Link先を確認 | Alexandre D'Hooge, Louis Bigo, Ken D\'eguernel | (参考訳) タブラチュア表記はポピュラー音楽で広く使われ、ギター音楽のコンテンツの書き起こしや共有に使われている。
標準的な音符表記の補足として、指の位置や、スライド、ハンマーオン/プルオフ、ベンドといったギター固有の様々な演奏技法を含む演奏ジェスチャ情報を書き起こし、音符のピッチを徐々にシフトさせるベンドに着目し、離散フレッチフィンガーボードの物理的制限を回避する。
本稿では,過去および将来の短期的文脈からどのように屈曲の発生を予測できるかを検討するため,表のそれぞれの音符に対して計算される25の高レベル特徴の組を提案する。
ポピュラー音楽のリード・ギター・タブラチャー932のコーパスを用いて実験を行い、f1スコア0.71で屈曲の発生を予測し、偽陽性の予測を限定し、非ギター音楽のギター・タブラチュアへの配置を支援する有望な応用を実証した。 Tablature notation is widely used in popular music to transcribe and share guitar musical content. As a complement to standard score notation, tablatures transcribe performance gesture information including finger positions and a variety of guitar-specific playing techniques such as slides, hammer-on/pull-off or bends.This paper focuses on bends, which enable to progressively shift the pitch of a note, therefore circumventing physical limitations of the discrete fretted fingerboard. In this paper, we propose a set of 25 high-level features, computed for each note of the tablature, to study how bend occurrences can be predicted from their past and future short-term context. Experiments are performed on a corpus of 932 lead guitar tablatures of popular music and show that a decision tree successfully predicts bend occurrences with an F1 score of 0.71 anda limited amount of false positive predictions, demonstrating promising applications to assist the arrangement of non-guitar music into guitar tablatures. | 翻訳日:2023-08-25 16:59:53 公開日:2023-08-22 |
# $\min\rightarrow$ファジィ関係方程式の系の不整合を扱う Handling the inconsistency of systems of $\min\rightarrow$ fuzzy relational equations ( http://arxiv.org/abs/2308.12385v1 ) ライセンス: Link先を確認 | Isma\"il Baaj | (参考訳) 本稿では,$\min-\rightarrow$ ファジィ関係方程式の系の不整合について検討する。
We give analytical formulas for computing the Chebyshev distances $\nabla = \inf_{d \in \mathcal{D}} \Vert \beta - d \Vert$ associated to systems of $\min-\rightarrow$ fuzzy relational equations of the form $\Gamma \Box_{\rightarrow}^{\min} x = \beta$, where $\rightarrow$ is a residual implicator among the G\"odel implication $\rightarrow_G$, the Goguen implication $\rightarrow_{GG}$ or Lukasiewicz's implication $\rightarrow_L$ and $\mathcal{D}$ is the set of second members of consistent systems defined with the same matrix $\Gamma$.
これらの式を得られる主要な予備的な結果は、チェビシェフ距離$\nabla$ がベクトル不等式の解の下界であり、残差インプリケータがどんなものであっても用いられることである。
最後に、$\min-\rightarrow_{G}$系の場合、チェビシェフ距離$\nabla$は無限大であり、常に$\min-\rightarrow_{G}$系と$\min-\rightarrow_{L}$系の最小値であることを示す。 In this article, we study the inconsistency of systems of $\min-\rightarrow$ fuzzy relational equations. We give analytical formulas for computing the Chebyshev distances $\nabla = \inf_{d \in \mathcal{D}} \Vert \beta - d \Vert$ associated to systems of $\min-\rightarrow$ fuzzy relational equations of the form $\Gamma \Box_{\rightarrow}^{\min} x = \beta$, where $\rightarrow$ is a residual implicator among the G\"odel implication $\rightarrow_G$, the Goguen implication $\rightarrow_{GG}$ or Lukasiewicz's implication $\rightarrow_L$ and $\mathcal{D}$ is the set of second members of consistent systems defined with the same matrix $\Gamma$. The main preliminary result that allows us to obtain these formulas is that the Chebyshev distance $\nabla$ is the lower bound of the solutions of a vector inequality, whatever the residual implicator used. Finally, we show that, in the case of the $\min-\rightarrow_{G}$ system, the Chebyshev distance $\nabla$ may be an infimum, while it is always a minimum for $\min-\rightarrow_{GG}$ and $\min-\rightarrow_{L}$ systems. | 翻訳日:2023-08-25 16:25:41 公開日:2023-08-22 |
# 名前から性別を推測する:大規模パフォーマンス評価研究 Inferring gender from name: a large scale performance evaluation study ( http://arxiv.org/abs/2308.12381v1 ) ライセンス: Link先を確認 | Kriste Krstovski, Yao Lu, Ye Xu | (参考訳) 個人の性別は、医学、社会学、政治科学、経済学など、幅広い科学分野の研究を行う際に重要な情報である。
しかし、特にビッグデータの普及に伴い、増加している事例では、性別情報は容易には利用できない。
このような場合、研究者は、主に人の名前から、容易に入手できる情報から性別を推測する必要がある。
名前から性別を推測することは倫理的な問題を引き起こすかもしれないが、現実的な代替手段がないことは、研究者が手段を正当化する際にそのようなアプローチに頼る必要があることを意味している。
name-to-gender推論の必要性は、アルゴリズム的アプローチとソフトウェア製品がますます増え続けている領域を生み出している。
これらのアプローチは、学界、産業、政府、非政府組織で世界中で使われてきた。
それにもかかわらず、既存のアプローチは体系的に評価・比較されておらず、将来の研究に最適なアプローチを決定するのが困難である。
本研究では,既存手法を大規模に評価し,その性能評価を行った。
解析は様々な名前の注釈付きデータセットを使用して行われる。
さらに,既存のアプローチよりも優れたパフォーマンスを実現する2つのハイブリッドアプローチを提案する。 A person's gender is a crucial piece of information when performing research across a wide range of scientific disciplines, such as medicine, sociology, political science, and economics, to name a few. However, in increasing instances, especially given the proliferation of big data, gender information is not readily available. In such cases researchers need to infer gender from readily available information, primarily from persons' names. While inferring gender from name may raise some ethical questions, the lack of viable alternatives means that researchers have to resort to such approaches when the goal justifies the means - in the majority of such studies the goal is to examine patterns and determinants of gender disparities. The necessity of name-to-gender inference has generated an ever-growing domain of algorithmic approaches and software products. These approaches have been used throughout the world in academia, industry, governmental and non-governmental organizations. Nevertheless, the existing approaches have yet to be systematically evaluated and compared, making it challenging to determine the optimal approach for future research. In this work, we conducted a large scale performance evaluation of existing approaches for name-to-gender inference. Analysis are performed using a variety of large annotated datasets of names. We further propose two new hybrid approaches that achieve better performance than any single existing approach. | 翻訳日:2023-08-25 16:24:54 公開日:2023-08-22 |
# collect, measure, repeat: 責任あるaiデータ収集の信頼性因子 Collect, Measure, Repeat: Reliability Factors for Responsible AI Data Collection ( http://arxiv.org/abs/2308.12885v1 ) ライセンス: Link先を確認 | Oana Inel, Tim Draws and Lora Aroyo | (参考訳) 日々の活動や高い領域における機械学習アプローチの急速な導入は、その公正さと信頼性の透明性と精査を要求する。
機械学習モデルの堅牢性を評価するために、研究は通常、デプロイメントに使用される膨大なデータセット(例えば、その起源、開発プロセス、倫理的考慮事項を理解するためのドキュメントの作成と保守)に焦点を当てる。
しかし、AIのデータ収集は一般的には1回限りのプラクティスであり、特定の目的のために収集されたデータセットやアプリケーションが異なる問題のために再利用されることが多い。
加えて、データセットのアノテーションは時間とともに代表されない、あいまいで誤ったアノテーションを含んでいる、あるいは問題やドメインをまたいで一般化できない場合がある。
最近の研究では、これらのプラクティスが不公平、偏見、あるいは不正確な結果をもたらす可能性があることが示されている。
我々は、AIのデータ収集は、データの品質を徹底的に精査し、適切なメトリクスの体系的なセットを通じて測定する責任ある方法で行うべきであると論じる。
本稿では,生成されたデータの品質と信頼性に影響を与える要因を反復的に詳細に分析するために,データ収集を一連の指標で導くための責任あるai(rai)手法を提案する。
本稿では,データセットの内部信頼性と時間経過に伴う外部安定性を知らせる粒度測定手法を提案する。
既存の9つのデータセットとアノテーションタスクと4つのコンテンツモダリティにまたがるアプローチを検証する。
このアプローチは、ユーザとコンテンツの多様性が引き起こされる現実世界でaiに適用されるデータロバスト性の評価に影響する。
さらに、データコレクションに対して体系的で透明な品質分析を提供することで、データ収集における公平性と説明責任の側面も扱う。 The rapid entry of machine learning approaches in our daily activities and high-stakes domains demands transparency and scrutiny of their fairness and reliability. To help gauge machine learning models' robustness, research typically focuses on the massive datasets used for their deployment, e.g., creating and maintaining documentation for understanding their origin, process of development, and ethical considerations. However, data collection for AI is still typically a one-off practice, and oftentimes datasets collected for a certain purpose or application are reused for a different problem. Additionally, dataset annotations may not be representative over time, contain ambiguous or erroneous annotations, or be unable to generalize across issues or domains. Recent research has shown these practices might lead to unfair, biased, or inaccurate outcomes. We argue that data collection for AI should be performed in a responsible manner where the quality of the data is thoroughly scrutinized and measured through a systematic set of appropriate metrics. In this paper, we propose a Responsible AI (RAI) methodology designed to guide the data collection with a set of metrics for an iterative in-depth analysis of the factors influencing the quality and reliability} of the generated data. We propose a granular set of measurements to inform on the internal reliability of a dataset and its external stability over time. We validate our approach across nine existing datasets and annotation tasks and four content modalities. This approach impacts the assessment of data robustness used for AI applied in the real world, where diversity of users and content is eminent. Furthermore, it deals with fairness and accountability aspects in data collection by providing systematic and transparent quality analysis for data collections. | 翻訳日:2023-08-25 13:27:15 公開日:2023-08-22 |
# 優れたサブネットワークを見つけるのにどの程度の事前トレーニングが必要か? How much pre-training is enough to discover a good subnetwork? ( http://arxiv.org/abs/2108.00259v3 ) ライセンス: Link先を確認 | Cameron R. Wolfe, Fangshuo Liao, Qihan Wang, Junhyung Lyle Kim, Anastasios Kyrillidis | (参考訳) ニューラルネットワークのプルーニングは、事前訓練された密集したネットワークアーキテクチャ内で効率的でハイパフォーマンスなサブネットワークを発見するのに有用である。
多くの場合、それは3段階のプロセス -- 事前トレーニング、プルーニング、再トレーニング -- を伴います。
事前学習量とプルーンネットワークの性能の関係を実験により明らかにしたが、その依存性の理論的な特徴付けはいまだに欠けている。
刈り込みネットワークがうまく機能するために必要な密集したネットワーク事前学習量を数学的に解析することを目指して,二層完全連結ネットワーク上での勾配降下事前学習回数の簡易な理論的拘束力を発見し,そこではグリーディフォワードセレクション [61] による刈り取りによって,良好なトレーニングエラーを実現するサブネットワークを生成する。
興味深いことに、このしきい値はデータセットのサイズに対数的に依存していることが示されており、大きなデータセットを使った実験では、プルーニングによって得られるサブネットの事前トレーニングがより必要になる。
最後に、mnistで訓練された多層パーセプトロンについて、理論結果を実証的に検証する。 Neural network pruning is useful for discovering efficient, high-performing subnetworks within pre-trained, dense network architectures. More often than not, it involves a three-step process -- pre-training, pruning, and re-training -- that is computationally expensive, as the dense model must be fully pre-trained. While previous work has revealed through experiments the relationship between the amount of pre-training and the performance of the pruned network, a theoretical characterization of such dependency is still missing. Aiming to mathematically analyze the amount of dense network pre-training needed for a pruned network to perform well, we discover a simple theoretical bound in the number of gradient descent pre-training iterations on a two-layer, fully-connected network, beyond which pruning via greedy forward selection [61] yields a subnetwork that achieves good training error. Interestingly, this threshold is shown to be logarithmically dependent upon the size of the dataset, meaning that experiments with larger datasets require more pre-training for subnetworks obtained via pruning to perform well. Lastly, we empirically validate our theoretical results on a multi-layer perceptron trained on MNIST. | 翻訳日:2023-08-24 19:35:13 公開日:2023-08-22 |
# 深層学習への取り組み Dive into Deep Learning ( http://arxiv.org/abs/2106.11342v5 ) ライセンス: Link先を確認 | Aston Zhang, Zachary C. Lipton, Mu Li, Alexander J. Smola | (参考訳) このオープンソースの本は、ディープラーニングをアプローチ可能にし、読者にコンセプト、コンテキスト、コードを教える試みを示しています。
書籍全体はjupyter notebooksに書き込まれており、展示物や数学、インタラクティブな例を自己完結したコードにシームレスに統合している。
私たちの目標は 資源を提供することです
(i)誰でも自由に利用できる。
二 実際に応用機械学習科学者になるための出発点を提供するのに十分な技術的深度を提供すること。
(iii)実行可能コードを含み、読者に実際に問題を解決する方法を示す。
(iv) 私たちとコミュニティ全体の両方による迅速な更新を可能にします。
(v) 技術的な詳細を対話的に議論し、質問に答えるためのフォーラムで補完する。 This open-source book represents our attempt to make deep learning approachable, teaching readers the concepts, the context, and the code. The entire book is drafted in Jupyter notebooks, seamlessly integrating exposition figures, math, and interactive examples with self-contained code. Our goal is to offer a resource that could (i) be freely available for everyone; (ii) offer sufficient technical depth to provide a starting point on the path to actually becoming an applied machine learning scientist; (iii) include runnable code, showing readers how to solve problems in practice; (iv) allow for rapid updates, both by us and also by the community at large; (v) be complemented by a forum for interactive discussion of technical details and to answer questions. | 翻訳日:2023-08-24 19:34:49 公開日:2023-08-22 |
# ゲームの同期値 Synchronous Values of Games ( http://arxiv.org/abs/2109.14741v2 ) ライセンス: Link先を確認 | J. William Helton, Hamoon Mousavi, Seyed Sajjad Nezhadi, Vern I. Paulsen, and Travis B. Russell | (参考訳) ゲーム,特に同期ゲームの同期値について検討する。
同期ゲームが完全な戦略を持つことは、それが完全な同期戦略を持つときと場合に限る。
しかし、同期ゲーム(特にグラフカラーゲーム)の例を、通常の値よりも厳密に小さい同期値で示す。
したがって、同期ゲームの最適戦略は同期である必要はない。
我々は、コスト行列に関連する行列を含むスペクトル上での最適化問題として、XORゲームの同期値の式を導出する。
ゲームの繰り返し商品の同期値が厳密に増加しているようなゲームの例を示す。
2つのXORゲームにおけるXORの同期量子バイアスは乗法的ではないことを示す。
最後に、ゲームの同期値をもたらす射影の集合が満たさなければならない幾何学的および代数的条件を導出する。 We study synchronous values of games, especially synchronous games. It is known that a synchronous game has a perfect strategy if and only if it has a perfect synchronous strategy. However, we give examples of synchronous games, in particular graph colouring games, with synchronous value that is strictly smaller than their ordinary value. Thus, the optimal strategy for a synchronous game need not be synchronous. We derive a formula for the synchronous value of an XOR game as an optimization problem over a spectrahedron involving a matrix related to the cost matrix. We give an example of a game such that the synchronous value of repeated products of the game is strictly increasing. We show that the synchronous quantum bias of the XOR of two XOR games is not multiplicative. Finally, we derive geometric and algebraic conditions that a set of projections that yields the synchronous value of a game must satisfy. | 翻訳日:2023-08-24 19:26:37 公開日:2023-08-22 |
# 非平衡グロモフ-ワッサーシュタイン融合脳の配向 Aligning individual brains with Fused Unbalanced Gromov-Wasserstein ( http://arxiv.org/abs/2206.09398v3 ) ライセンス: Link先を確認 | Alexis Thual, Huy Tran, Tatiana Zemskova, Nicolas Courty, R\'emi Flamary, Stanislas Dehaene, Bertrand Thirion | (参考訳) 個々の脳は解剖学的にも機能的組織でも、特定の種でも様々である。
個人間変動は、被験者のグループで収集された神経画像データから一般化可能な結論を引き出そうとする際の大きな障害である。
現在の共同登録手順は限られたデータに依存しており、従って非常に粗いオブジェクト間のアライメントをもたらす。
本研究では,Flused Un Balanced Gromov Wasserstein (FUGW) と呼ばれる最適輸送に基づく物体間アライメント手法を提案する。
本手法は, 種々の刺激条件に応じて, 機能的シグネチャの類似性に基づいて皮質表面を整列させ, 個々の地形組織に大きな変形を罰する。
FUGWは脳全体のランドマークのないアライメントに適していることを示す。
バランスのとれない機能は、機能領域のサイズが被験者によって異なるという事実に対処できる。
その結果, FUGWアライメントは, 独立機能データに対する活動のオブジェクト間相関を著しく増加させ, グループレベルでのより正確なマッピングをもたらすことがわかった。 Individual brains vary in both anatomy and functional organization, even within a given species. Inter-individual variability is a major impediment when trying to draw generalizable conclusions from neuroimaging data collected on groups of subjects. Current co-registration procedures rely on limited data, and thus lead to very coarse inter-subject alignments. In this work, we present a novel method for inter-subject alignment based on Optimal Transport, denoted as Fused Unbalanced Gromov Wasserstein (FUGW). The method aligns cortical surfaces based on the similarity of their functional signatures in response to a variety of stimulation settings, while penalizing large deformations of individual topographic organization. We demonstrate that FUGW is well-suited for whole-brain landmark-free alignment. The unbalanced feature allows to deal with the fact that functional areas vary in size across subjects. Our results show that FUGW alignment significantly increases between-subject correlation of activity for independent functional data, and leads to more precise mapping at the group level. | 翻訳日:2023-08-24 19:19:46 公開日:2023-08-22 |
# 注意に基づく階層グラフプーリングを用いた薬物組み合わせの相乗作用機構の解釈 Interpreting the Mechanism of Synergism for Drug Combinations Using Attention-Based Hierarchical Graph Pooling ( http://arxiv.org/abs/2209.09245v2 ) ライセンス: Link先を確認 | Zehao Dong, Heming Zhang, Yixin Chen, Philip R.O. Payne and Fuhai Li | (参考訳) シナジスティック薬物の組み合わせは、治療効果を高め、副作用を減らす大きな可能性をもたらす。
しかし、有効かつ相乗的な薬物結合予測は、未知の因果病シグナル伝達経路のため、未解決の問題である。
薬物の組み合わせの相乗効果を定量的に予測するために、さまざまなディープラーニング(AI)モデルが提案されているが、既存のディープラーニング手法の最大の制限は、それらが本質的に解釈不可能であり、AIモデルの結論が人間の専門家に不明瞭であることである。
本稿では,重要なサブ分子ネットワークをマイニングすることにより,根本的な治療目標とシナジー(mos)のメカニズムを明らかにする,解釈可能なグラフニューラルネットワーク(gnn)を開発した。
解釈可能なGNN予測モデルのキーポイントは、新しいグラフプーリング層、自己注意に基づくノードとエッジプール(以下SANEpool)であり、ゲノムの特徴とトポロジーに基づいて、遺伝子と接続の注意スコア(重要度)を計算することができる。
提案するgnnモデルは、検出された重要なサブ分子ネットワークに基づいて、薬物結合相乗効果を予測し、解釈するための体系的な方法を提供する。
その結果,(1)SANEpoolモデルが正確な相乗効果を予測できる優れた予測能力を有し,(2)SANEpoolが検出したサブ分子ネットワークは自己説明可能で,相乗効果のある薬物の組み合わせを同定するための健全性を示した。 Synergistic drug combinations provide huge potentials to enhance therapeutic efficacy and to reduce adverse reactions. However, effective and synergistic drug combination prediction remains an open question because of the unknown causal disease signaling pathways. Though various deep learning (AI) models have been proposed to quantitatively predict the synergism of drug combinations, the major limitation of existing deep learning methods is that they are inherently not interpretable, which makes the conclusions of AI models untransparent to human experts, henceforth limiting the robustness of the model conclusion and the implementation ability of these models in real-world human--AI healthcare. In this paper, we develop an interpretable graph neural network (GNN) that reveals the underlying essential therapeutic targets and the mechanism of the synergy (MoS) by mining the sub-molecular network of great importance. The key point of the interpretable GNN prediction model is a novel graph pooling layer, a self-attention-based node and edge pool (henceforth SANEpool), that can compute the attention score (importance) of genes and connections based on the genomic features and topology. As such, the proposed GNN model provides a systematic way to predict and interpret the drug combination synergism based on the detected crucial sub-molecular network. Experiments on various well-adopted drug-synergy-prediction datasets demonstrate that (1) the SANEpool model has superior predictive ability to generate accurate synergy score prediction, and (2) the sub-molecular networks detected by the SANEpool are self-explainable and salient for identifying synergistic drug combinations. | 翻訳日:2023-08-24 19:09:02 公開日:2023-08-22 |
# 自己回帰型神経量子状態のダイナミクス:臨界クエンチダイナミクスへの応用 Dynamics with autoregressive neural quantum states: application to critical quench dynamics ( http://arxiv.org/abs/2209.03241v2 ) ライセンス: Link先を確認 | Kaelan Donatella, Zakari Denis, Alexandre Le Boit\'e, and Cristiano Ciuti | (参考訳) 非常に有望な結果にもかかわらず、ニューラルネットワークのans\"atzeで複雑な量子システムのダイナミクスを捉えることは、いくつかの問題に苦しめられている。
本稿では,ニューラルネットワークのansatzが正規化され,選択したansatzの自己回帰性によって保証される場合,量子システムの長時間のダイナミクスを安定的に捉えるための代替的な汎用スキームを提案する。
次に,2次元量子イジングモデルにおけるkibble-zurek機構を解析し,時間依存クエンチ力学に適用する。
我々は,小システムに対する厳密なダイナミクスに優れた一致を見いだし,他の変分法と一致してスケーリング則を回復することができる。 Despite very promising results, capturing the dynamics of complex quantum systems with neural-network ans\"atze has been plagued by several problems, one of which being stochastic noise that makes the dynamics unstable and highly dependent on some regularization hyperparameters. We present an alternative general scheme that enables one to capture long-time dynamics of quantum systems in a stable fashion, provided the neural-network ansatz is normalized, which can be ensured by the autoregressive property of the chosen ansatz. We then apply the scheme to time-dependent quench dynamics by investigating the Kibble-Zurek mechanism in the two-dimensional quantum Ising model. We find an excellent agreement with exact dynamics for small systems and are able to recover scaling laws in agreement with other variational methods. | 翻訳日:2023-08-24 19:07:37 公開日:2023-08-22 |
# SAFE: 分布外物体検出のための感度認識機能 SAFE: Sensitivity-Aware Features for Out-of-Distribution Object Detection ( http://arxiv.org/abs/2208.13930v5 ) ライセンス: Link先を確認 | Samuel Wilson, Tobias Fischer, Feras Dayoub, Dimity Miller and Niko S\"underhauf | (参考訳) 本稿では,オブジェクト検出作業におけるOOD(out-of-distriion)検出の問題に対処する。
バッチ正規化による残差畳み込み層は,非分布検出と非分布検出を区別するために一貫して強力である感性認識機能(SAFE)を生成する。
検出対象毎にSAFEベクターを抽出し,サロゲートタスクで多層パーセプトロンを訓練し,クリーンな分布内例から逆摂動を識別する。
これにより、リアルなOODトレーニングデータ、計算に高価な生成モデル、またはベースオブジェクト検出器の再トレーニングの必要性を回避することができる。
SAFEは、複数のベンチマークで最先端のOODオブジェクト検出器よりも、例えばOpenImagesデータセットでFPR95を48.3%から17.7%まで30.6%削減している。 We address the problem of out-of-distribution (OOD) detection for the task of object detection. We show that residual convolutional layers with batch normalisation produce Sensitivity-Aware FEatures (SAFE) that are consistently powerful for distinguishing in-distribution from out-of-distribution detections. We extract SAFE vectors for every detected object, and train a multilayer perceptron on the surrogate task of distinguishing adversarially perturbed from clean in-distribution examples. This circumvents the need for realistic OOD training data, computationally expensive generative models, or retraining of the base object detector. SAFE outperforms the state-of-the-art OOD object detectors on multiple benchmarks by large margins, e.g. reducing the FPR95 by an absolute 30.6% from 48.3% to 17.7% on the OpenImages dataset. | 翻訳日:2023-08-24 19:07:22 公開日:2023-08-22 |
# 多体量子真空揺らぎエンジン Many-body quantum vacuum fluctuation engines ( http://arxiv.org/abs/2208.07225v2 ) ライセンス: Link先を確認 | \'Etienne Jussiau and L\'ea Bresque and Alexia Auff\`eves and Kater W. Murch and Andrew N. Jordan | (参考訳) 本稿では,相互作用系の絡み合った基底状態と局所分離状態のエネルギー差を利用した多体量子エンジンを提案する。
相互作用する多体システム上で局所エネルギー測定を行うと、局所的なフィードバック操作によって作業が抽出される励起状態が得られる。
これらの測定により、局所的に地球基底状態の量子真空変動が明らかとなり、エンジンの動作に必要なエネルギーが提供される。
エンジンサイクルのリセット部分は特に単純で、相互作用する多体系は冷水浴に結合され、絡み合った地面の状態に緩和される。
本提案では、結合量子ビットと結合調和振動子ネットワークの2種類の多体系について述べる。
これらのモデルはそれぞれフェルミオン励起とボゾン励起を表す。
いずれの場合も、エンジンの出力と効率の分析結果を得ることができる。
一般に、ワークアウトプットは関連する量子系の数としてスケールし、効率は定数に制限される。
この効率は、大地状態と局所ハミルトニアンの最低エネルギー固有状態との間のエネルギー差である「局所絡み合いギャップ」によって制御されていることが証明される。
クビットチェーンの場合、量子相転移がエンジンの性能に与える影響を作業として強調し、臨界点において効率が急上昇する。
一次元発振器チェーンの場合、有限作業出力においても結合発振器の数が増加するにつれて効率が一様に近づくことを示す。 We propose a many-body quantum engine powered by the energy difference between the entangled ground state of the interacting system and local separable states. Performing local energy measurements on an interacting many-body system can produce excited states from which work can be extracted via local feedback operations. These measurements reveal the quantum vacuum fluctuations of the global ground state in the local basis and provide the energy required to run the engine. The reset part of the engine cycle is particularly simple: The interacting many-body system is coupled to a cold bath and allowed to relax to its entangled ground state. We illustrate our proposal on two types of many-body systems: a chain of coupled qubits and coupled harmonic oscillator networks. These models faithfully represent fermionic and bosonic excitations, respectively. In both cases, analytical results for the work output and efficiency of the engine can be obtained. Generically, the work output scales as the number of quantum systems involved, while the efficiency limits to a constant. We prove the efficiency is controlled by the "local entanglement gap" -- the energy difference between the global ground state and the lowest energy eigenstate of the local Hamiltonian. In the qubit chain case, we highlight the impact of a quantum phase transition on the engine's performance as work and efficiency sharply increase at the critical point. In the case of a one-dimensional oscillator chain, we show the efficiency approaches unity as the number of coupled oscillators increases, even at finite work output. | 翻訳日:2023-08-24 19:07:07 公開日:2023-08-22 |
# スカラー入力と関数出力のためのニューラルネットワーク Neural Networks for Scalar Input and Functional Output ( http://arxiv.org/abs/2208.05776v3 ) ライセンス: Link先を確認 | Sidi Wu, C\'edric Beaulac and Jiguo Cao | (参考訳) 一連のスカラー予測器に対する関数応答の回帰は、特に多くの予測器が存在する場合や、それらの予測器と応答の関係が非線形である場合、難しい課題となる。
本研究では,この問題に対する解法を提案する。スカラー入力を用いて関数応答を予測するために設計されたフィードフォワードニューラルネットワーク(nn)である。
まず、関数応答を有限次元表現に変換し、この表現を出力するnnを構成する。
そこで本研究では,対象関数を介しNNの出力を改良し,ネットワークトレーニングのための異なる目的関数を導入することを提案する。
提案手法は定期的および不規則な間隔データに適用可能であり, 予測曲線の滑らかさを制御するためにさらにラフネスペナルティを適用することができる。
両方の機能を実装することの難しさは、バックプロパゲーション可能な客観的関数の定義にある。
実験では,従来の関数・オン・スカラー回帰モデルを複数のシナリオで上回り,予測器の次元で計算的によくスケーリングできることを実証する。 The regression of a functional response on a set of scalar predictors can be a challenging task, especially if there is a large number of predictors, or the relationship between those predictors and the response is nonlinear. In this work, we propose a solution to this problem: a feed-forward neural network (NN) designed to predict a functional response using scalar inputs. First, we transform the functional response to a finite-dimensional representation and construct an NN that outputs this representation. Then, we propose to modify the output of an NN via the objective function and introduce different objective functions for network training. The proposed models are suited for both regularly and irregularly spaced data, and a roughness penalty can be further applied to control the smoothness of the predicted curve. The difficulty in implementing both those features lies in the definition of objective functions that can be back-propagated. In our experiments, we demonstrate that our model outperforms the conventional function-on-scalar regression model in multiple scenarios while computationally scaling better with the dimension of the predictors. | 翻訳日:2023-08-24 19:06:44 公開日:2023-08-22 |
# PyABSA: 再現可能なアスペクトベースの知覚分析のためのモジュール化フレームワーク PyABSA: A Modularized Framework for Reproducible Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2208.01368v3 ) ライセンス: Link先を確認 | Heng Yang, Chen Zhang and Ke Li | (参考訳) アスペクトベース感情分析(ABSA)の進歩は、特に初心者にとって、最先端のABSAパフォーマンスを再現することの難しさを大幅に軽減できる、ユーザフレンドリーなフレームワークの欠如を促している。
要求を満たすため、再現可能なABSAのためにPyTorch上に構築されたモジュール化されたフレームワークである \our を提示する。
ABSAの研究を促進するために、PyABSAはアスペクト項抽出、アスペクト感情分類、エンドツーエンドのアスペクトベースの感情分析を含むいくつかのABSAサブタスクをサポートしている。
具体的には、29のモデルと26のデータセットを統合する。
ほんの数行のコードで、特定のデータセットのモデルの結果を再現することができる。
モジュール化された設計により、PyABSAは、考慮されたモデル、データセット、その他の関連するタスクに柔軟に拡張できる。
さらにPyABSAは、データの不足に対処するデータ拡張とアノテーション機能を強調している。
誰もが、 \url{https://github.com/yangheng95/PyABSA}を試してみることを歓迎している。 The advancement of aspect-based sentiment analysis (ABSA) has urged the lack of a user-friendly framework that can largely lower the difficulty of reproducing state-of-the-art ABSA performance, especially for beginners. To meet the demand, we present \our, a modularized framework built on PyTorch for reproducible ABSA. To facilitate ABSA research, PyABSA supports several ABSA subtasks, including aspect term extraction, aspect sentiment classification, and end-to-end aspect-based sentiment analysis. Concretely, PyABSA integrates 29 models and 26 datasets. With just a few lines of code, the result of a model on a specific dataset can be reproduced. With a modularized design, PyABSA can also be flexibly extended to considered models, datasets, and other related tasks. Besides, PyABSA highlights its data augmentation and annotation features, which significantly address data scarcity. All are welcome to have a try at \url{https://github.com/yangheng95/PyABSA}. | 翻訳日:2023-08-24 19:06:28 公開日:2023-08-22 |
# 誘導中規模導体における粒子電流統計 Particle current statistics in driven mesoscale conductors ( http://arxiv.org/abs/2211.13832v2 ) ライセンス: Link先を確認 | Marlon Brenes, Giacomo Guarnieri, Archak Purkayastha, Jens Eisert, Dvira Segal and Gabriel Landi | (参考訳) 駆動導体における電荷移動の統計量を計算するための高スケーリング手法を提案する。
この枠組みは、非零温度、端末との強い結合、および平衡から離れた非周期光間相互作用の存在の状況に適用できる。
このアプローチはいわゆるメソスコピックリード形式論とフルカウンティング統計学を組み合わせたものである。
その結果、電流変動のダイナミクスと電荷交換の確率分布関数の高次モーメントを決定する一般化された量子マスター方程式が導かれる。
一般的な時間依存二次ハミルトニアンの場合には、系のパラメータ、貯水池、あるいはシステム-保存相互作用の非摂動的レジームにおけるノイズを計算するための閉形式式を提供する。
この方法では電流とノイズの完全なダイナミクスにアクセスでき、非平衡状態における電荷移動の時間的分散を計算することができる。
ダイナミクスは、駆動するシステムでは、どの期間がカバーされているかに注意して、平均的なノイズを運用的に定義すべきであることを示している。 We propose a highly-scalable method to compute the statistics of charge transfer in driven conductors. The framework can be applied in situations of non-zero temperature, strong coupling to terminals and in the presence of non-periodic light-matter interactions, away from equilibrium. The approach combines the so-called mesoscopic leads formalism with full counting statistics. It results in a generalised quantum master equation that dictates the dynamics of current fluctuations and higher order moments of the probability distribution function of charge exchange. For generic time-dependent quadratic Hamiltonians, we provide closed-form expressions for computing noise in the non-perturbative regime of the parameters of the system, reservoir or system-reservoir interactions. Having access to the full dynamics of the current and its noise, the method allows us to compute the variance of charge transfer over time in non-equilibrium configurations. The dynamics reveal that in driven systems, the average noise should be defined operationally with care over which period of time is covered. | 翻訳日:2023-08-24 19:00:45 公開日:2023-08-22 |
# MIMT:マルチタスク局所表面と光色学習による多光色濃度 MIMT: Multi-Illuminant Color Constancy via Multi-Task Local Surface and Light Color Learning ( http://arxiv.org/abs/2211.08772v3 ) ライセンス: Link先を確認 | Shuwei Li, Jikai Wang, Michael S. Brown, Robby T. Tan | (参考訳) 均一な光色分布の仮定は、複数の光色を持つシーンではもはや適用できない。
ほとんどの色構成法は単一の光色を扱うように設計されており、複数の光色に当てはまると誤認する。
複数の光色の空間変動は、色構成問題をより困難にし、局所的な表面/光情報の抽出を必要とする。
そこで本研究では,単一入力画像における複数の光色を割引するマルチタスク学習手法を提案する。
複数の光色条件下で局所的な表面/光色をより正確に表現するために,我々は新しいマルチタスク学習フレームワークを設計する。
提案手法は,無彩色画素検出と表面色類似度予測の補助タスクを含み,それぞれ局所光と表面色に対するより良い手がかりを提供する。
また,このモデルが光色の変動に拘わらず表面色の構成性を維持するために,新しい局所色特徴保存手法が開発されている。
本研究では,マルチilluminant dataset (lsmi) における最先端のマルチilluminant color constancy法と比較して,47.1%の改善(平均角誤差4.69から2.48)を実現した。 The assumption of a uniform light color distribution is no longer applicable in scenes that have multiple light colors. Most color constancy methods are designed to deal with a single light color, and thus are erroneous when applied to multiple light colors. The spatial variability in multiple light colors causes the color constancy problem to be more challenging and requires the extraction of local surface/light information. Motivated by this, we introduce a multi-task learning method to discount multiple light colors in a single input image. To have better cues of the local surface/light colors under multiple light color conditions, we design a novel multi-task learning framework. Our framework includes auxiliary tasks of achromatic-pixel detection and surface-color similarity prediction, providing better cues for local light and surface colors, respectively. Moreover, to ensure that our model maintains the constancy of surface colors regardless of the variations of light colors, a novel local surface color feature preservation scheme is developed. We demonstrate that our model achieves 47.1% improvement (from 4.69 mean angular error to 2.48) compared to a state-of-the-art multi-illuminant color constancy method on a multi-illuminant dataset (LSMI). | 翻訳日:2023-08-24 18:59:41 公開日:2023-08-22 |
# 動的臨界現象の量子ノイズ分光 Quantum noise spectroscopy of dynamical critical phenomena ( http://arxiv.org/abs/2211.02663v2 ) ライセンス: Link先を確認 | Francisco Machado, Eugene A. Demler, Norman Y. Yao, Shubhayu Chatterjee | (参考訳) 物質の異なる相間の遷移は臨界点付近の揺らぎの性質によって特徴づけられる。
ノイズスペクトロスコピーは相転移の存在を診断できるだけでなく、その臨界性の基本的な性質も決定できることを示した。
特に、デコヒーレンスプロファイルのスケーリング崩壊を分析することによって、遷移の臨界指数を直接抽出し、その普遍性クラスを識別することができる。
本手法は自然に保存則の存在を捉え,古典相転移と量子相転移を区別する。
量子磁性の文脈において,提案手法は既存の手法を補完し,二次元磁性物質の尋問に最適化された新しいツールセットを提供する。 The transition between distinct phases of matter is characterized by the nature of fluctuations near the critical point. We demonstrate that noise spectroscopy can not only diagnose the presence of a phase transition, but can also determine fundamental properties of its criticality. In particular, by analyzing a scaling collapse of the decoherence profile, one can directly extract the critical exponents of the transition and identify its universality class. Our approach naturally captures the presence of conservation laws and distinguishes between classical and quantum phase transitions. In the context of quantum magnetism, our proposal complements existing techniques and provides a novel toolset optimized for interrogating two-dimensional magnetic materials. | 翻訳日:2023-08-24 18:59:22 公開日:2023-08-22 |
# 量子情報プロトコルにおける相対論的場の量子自由度の役割 The role of quantum degrees of freedom of relativistic fields in quantum information protocols ( http://arxiv.org/abs/2212.13262v3 ) ライセンス: Link先を確認 | T. Rick Perche and Eduardo Mart\'in-Mart\'inez | (参考訳) 我々は、相対論的量子情報プロトコルにおける量子自由度と相対論的場の違いを分析する。
相互作用する量子系の現象論を説明するために、量子自由度の存在が不可欠である体制を分類する。
また、相対論的量子情報プロトコルにおいて、量子場が量子制御された古典場によってよく近似できる正確な状態を特定する。
この結果は、古典的および量子場理論において、どの特徴が根本的に異なるかを明らかにするのに有用である。 We analyze the differences between relativistic fields with or without quantum degrees of freedom in relativistic quantum information protocols. We classify the regimes where the existence of quantum degrees of freedom is necessary to explain the phenomenology of interacting quantum systems. We also identify the precise regimes where quantum fields can be well approximated by quantum-controlled classical fields in relativistic quantum information protocols. Our results can be useful to discern which features are fundamentally different in classical and quantum field theory. | 翻訳日:2023-08-24 18:49:20 公開日:2023-08-22 |
# Spurious Features Everywhere -- ImageNetにおける有害なSpurious Featuresの大規模検出 Spurious Features Everywhere -- Large-Scale Detection of Harmful Spurious Features in ImageNet ( http://arxiv.org/abs/2212.04871v2 ) ライセンス: Link先を確認 | Yannic Neuhaus, Maximilian Augustin, Valentyn Boreiko, Matthias Hein | (参考訳) ディープラーニング分類器のベンチマーク性能は、デプロイされたモデルの性能の信頼性の高い予測器ではない。
特に、画像分類器がトレーニングデータの急激な特徴を拾った場合、予測は予期せぬ方法で失敗する可能性がある。
本稿では,ImageNetのような大規模データセットにおいて,突発的特徴を体系的に識別するフレームワークを開発する。
それは私たちの神経PCAコンポーネントとその可視化に基づいています。
スプリアス機能に関する以前の作業は、しばしばおもちゃの設定で動作し、高価なピクセル単位でアノテーションを必要とする。
対照的に、ImageNetと協働して、クラス単独で有害なスパイラルな機能の存在が、そのクラスの予測をトリガーするのに十分であることを示すことで、結果を検証する。
有害なスプリアス機能に対するImageNet分類器の信頼性を計測できる新しいデータセット"Spurious ImageNet"を紹介した。
さらに、SpuFixを単純な緩和手法として導入し、ラベルの追加やモデルの再訓練を必要とせずに、以前同定された有害なスパイラルな特徴に対するImageNet分類器の依存を減らす。
私たちはhttps://github.com/YanNeu/spurious_imagenetでコードとデータを提供しています。 Benchmark performance of deep learning classifiers alone is not a reliable predictor for the performance of a deployed model. In particular, if the image classifier has picked up spurious features in the training data, its predictions can fail in unexpected ways. In this paper, we develop a framework that allows us to systematically identify spurious features in large datasets like ImageNet. It is based on our neural PCA components and their visualization. Previous work on spurious features often operates in toy settings or requires costly pixel-wise annotations. In contrast, we work with ImageNet and validate our results by showing that presence of the harmful spurious feature of a class alone is sufficient to trigger the prediction of that class. We introduce the novel dataset "Spurious ImageNet" which allows to measure the reliance of any ImageNet classifier on harmful spurious features. Moreover, we introduce SpuFix as a simple mitigation method to reduce the dependence of any ImageNet classifier on previously identified harmful spurious features without requiring additional labels or retraining of the model. We provide code and data at https://github.com/YanNeu/spurious_imagenet . | 翻訳日:2023-08-24 18:46:49 公開日:2023-08-22 |
# 多体リンドブレディアンの対称性分類:10方向とそれ以上 Symmetry Classification of Many-Body Lindbladians: Tenfold Way and Beyond ( http://arxiv.org/abs/2212.00474v3 ) ライセンス: Link先を確認 | Lucas S\'a, Pedro Ribeiro, and Toma\v{z} Prosen | (参考訳) マルコフ環境に結合した一般(相互作用)開量子系を記述する多体リンドブラッド超作用素の系統対称性分類を行う。
本分類は,多体リンドブラジアンの反ユニタリ対称性とユニタリ畳み込みの挙動に基づく。
We find that Hermiticity preservation reduces the number of symmetry classes, while trace preservation and complete positivity do not, and that the set of admissible classes depends on the presence of additional unitary symmetries: in their absence or in symmetry sectors containing steady states, many-body Lindbladians belong to one of ten non-Hermitian symmetry classes; if however, there are additional symmetries and we consider non-steady-state sectors, they belong to a different set of 19 classes.
どちらの場合でも、クラマーの退化を伴うクラスは含まない。
注目すべきことに、我々の分類は、マルコフ的でない、そしてトラス的でない開量子力学の場合の直接的な一般化を認めている。
抽象分類は完全に一般であるが、これを一般(長距離、相互作用、空間的に不均一)スピン-1/2$鎖に適用する。
定常セクターにおけるリンドブラディアンの10つのクラス全てにおいて、デファス、スピン注入、吸収、非コヒーレントホッピングといった標準的な物理過程を記述した例を明示的に構築し、実用的な物理応用に対する我々の分類の関連性を説明する。
最後に,各クラスの例が一意なランダム行列相関を示すことを示す。
すべての対称性を完全解くために、バルク複素間隔比と固有ベクトル対の重なりを対称性演算によって組み合わせて解析する。
さらに、実および虚数軸に制約されたレベルや原点に近いレベルの統計は、リンドブラディアン PT 対称性の自発的な破れのために普遍的でないことが分かる。 We perform a systematic symmetry classification of many-body Lindblad superoperators describing general (interacting) open quantum systems coupled to a Markovian environment. Our classification is based on the behavior of the many-body Lindbladian under antiunitary symmetries and unitary involutions. We find that Hermiticity preservation reduces the number of symmetry classes, while trace preservation and complete positivity do not, and that the set of admissible classes depends on the presence of additional unitary symmetries: in their absence or in symmetry sectors containing steady states, many-body Lindbladians belong to one of ten non-Hermitian symmetry classes; if however, there are additional symmetries and we consider non-steady-state sectors, they belong to a different set of 19 classes. In both cases, it does not include classes with Kramer's degeneracy. Remarkably, our classification admits a straightforward generalization to the case of non-Markovian, and even non-trace-preserving, open quantum dynamics. While the abstract classification is completely general, we then apply it to general (long-range, interacting, spatially inhomogeneous) spin-$1/2$ chains. We explicitly build examples in all ten classes of Lindbladians in steady-state sectors, describing standard physical processes such as dephasing, spin injection and absorption, and incoherent hopping, thus illustrating the relevance of our classification for practical physics applications. Finally, we show that the examples in each class display unique random-matrix correlations. To fully resolve all symmetries, we employ the combined analysis of bulk complex spacing ratios and the overlap of eigenvector pairs related by symmetry operations. We further find that statistics of levels constrained onto the real and imaginary axes or close to the origin are not universal due to spontaneous breaking of Lindbladian PT symmetry. | 翻訳日:2023-08-24 18:46:31 公開日:2023-08-22 |
# chebyshev補間を用いたトロッターシミュレーションの精度向上 Improved Accuracy for Trotter Simulations Using Chebyshev Interpolation ( http://arxiv.org/abs/2212.14144v3 ) ライセンス: Link先を確認 | Gumaro Rendon, Jacob Watkins, Nathan Wiebe | (参考訳) 量子メートル法は、最適ハイゼンベルク極限における量子系の特性を測定することができる。
しかし、関連する量子状態がデジタルハミルトニアンシミュレーションを用いて作成されると、アルゴリズムによる誤差は、この基本的な限界から逸脱する。
本研究では, 標準多項式補間法を用いて, 時間発展に伴うアルゴリズム誤差を軽減できることを示す。
我々のアプローチは、ハードウェアエラーを緩和するためのゼロノイズ外挿手法に似た、ゼロトロッターステップサイズへの外挿である。
固有値と時間発展する期待値を推定するための補間手法の厳密な誤り解析を行い,誤差の多対数因子によってハイゼンベルク限界が達成されることを示す。
我々の研究は、最先端のシミュレーションアルゴリズムに近づいた精度は、トロッターや古典的なリソースだけで達成できる可能性を示唆している。 Quantum metrology allows for measuring properties of a quantum system at the optimal Heisenberg limit. However, when the relevant quantum states are prepared using digital Hamiltonian simulation, the accrued algorithmic errors will cause deviations from this fundamental limit. In this work, we show how algorithmic errors due to Trotterized time evolution can be mitigated through the use of standard polynomial interpolation techniques. Our approach is to extrapolate to zero Trotter step size, akin to zero-noise extrapolation techniques for mitigating hardware errors. We perform a rigorous error analysis of the interpolation approach for estimating eigenvalues and time-evolved expectation values, and show that the Heisenberg limit is achieved up to polylogarithmic factors in the error. Our work suggests that accuracies approaching those of state-of-the-art simulation algorithms may be achieved using Trotter and classical resources alone for a number of relevant algorithmic tasks. | 翻訳日:2023-08-24 18:37:18 公開日:2023-08-22 |
# DDFM:多モード画像融合のための拡散モデル DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion ( http://arxiv.org/abs/2303.06840v2 ) ライセンス: Link先を確認 | Zixiang Zhao, Haowen Bai, Yuanzhi Zhu, Jiangshe Zhang, Shuang Xu, Yulun Zhang, Kai Zhang, Deyu Meng, Radu Timofte, Luc Van Gool | (参考訳) マルチモーダル画像融合は、機能ハイライトやテクスチャ詳細など、各モーダルの相補的な特徴を保持する融合画像を生成するために、様々なモダリティを組み合わせることを目的としている。
不安定な学習や,GANに基づく生成手法の解釈可能性の欠如といった課題に対処するために,拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
融合タスクはDDPMサンプリングフレームワークの下で条件生成問題として定式化され、さらに非条件生成サブプロブレムと最大極大サブプロブレムに分割される。
後者は、潜在変数を持つ階層的ベイズ方式でモデル化され、期待最大化(EM)アルゴリズムによって推定される。
拡散サンプリングイテレーションに推論ソリューションを組み込むことにより,音源画像から自然画像生成前処理とクロスモダリティ情報を含む高品質な融合画像を生成することができる。
必要なのは条件のない事前学習生成モデルだけで、微調整は不要である。
広範にわたる実験により,近赤外可視画像融合と医用画像融合の有望な融合が得られた。
コードは \url{https://github.com/zhaozixiang1228/mmif-ddfm} で入手できる。 Multi-modality image fusion aims to combine different modalities to produce fused images that retain the complementary features of each modality, such as functional highlights and texture details. To leverage strong generative priors and address challenges such as unstable training and lack of interpretability for GAN-based generative methods, we propose a novel fusion algorithm based on the denoising diffusion probabilistic model (DDPM). The fusion task is formulated as a conditional generation problem under the DDPM sampling framework, which is further divided into an unconditional generation subproblem and a maximum likelihood subproblem. The latter is modeled in a hierarchical Bayesian manner with latent variables and inferred by the expectation-maximization (EM) algorithm. By integrating the inference solution into the diffusion sampling iteration, our method can generate high-quality fused images with natural image generative priors and cross-modality information from source images. Note that all we required is an unconditional pre-trained generative model, and no fine-tuning is needed. Our extensive experiments indicate that our approach yields promising fusion results in infrared-visible image fusion and medical image fusion. The code is available at \url{https://github.com/Zhaozixiang1228/MMIF-DDFM}. | 翻訳日:2023-08-24 18:29:39 公開日:2023-08-22 |
# 3+1d$におけるフェルミオン相互作用の完全可解モデル A Fully Solvable Model of Fermionic Interaction in $3+1d$ ( http://arxiv.org/abs/2302.08603v3 ) ライセンス: Link先を確認 | Seth Grable, Max Weiner | (参考訳) 最近ロマチュケは、o(n)$スカラー理論の極が温度や圧力などの観測性に影響しないことを発見した。
romatschke は、この結果が 3+1d$ $(o(n)$ scalar theory の辺縁、関係、無関係作用素に対して成り立つことを示した。
我々はこの方向に進み、大きなN$フェルミ相互作用を3+1d$で研究する。
そのため、大容量N$で完全に再正規化可能な辺結合フェルミ相互作用のモデルを作成する。
この理論は走行結合の極を含んでいるが、これらの極は物理的観測性に影響しないと主張する。
さらに、我々の理論は安定で準安定で不安定な位相を分離する1次相転移を含む。 Recently, Romatschke found that the poles in $O(N)$ scalar theories do not affect observables such as temperature and pressure. Romatschke went on to show this result holds for marginal, relevant, and irrelevant operators in $3+1d$ $(O(N)$ scalar theories. We continue in this direction by studying large-$N$ fermi-interactions in $3+1d$. To do so, we produce a model of marginally coupled fermi-interactions which is fully renormalizable at large-$N$. This theory contains poles in the running coupling, however we argue these poles do not affect any physical observables. Further, our theory contains first order phase transition which separates a stable, meta-stable, and unstable phase. | 翻訳日:2023-08-24 18:27:16 公開日:2023-08-22 |
# アダプティブリファインメントとカントロビッチ計量によるデータ駆動抽象化 [拡張版] Data-driven abstractions via adaptive refinements and a Kantorovich metric [extended version] ( http://arxiv.org/abs/2303.17618v3 ) ライセンス: Link先を確認 | Adrien Banse, Licio Romao, Alessandro Abate, Rapha\"el M. Jungers | (参考訳) 本稿では,動的システムのスマートでスケーラブルな抽象化のための適応的改良手順を提案する。
我々の手法は将来の出力の観測に依存する状態空間の分割に依存している。
しかし、この知識は適応的で非対称な方法で動的に構築される。
最適構造を学ぶために,マルコフ鎖間のカントロヴィチに触発された計量を定義し,損失関数として用いる。
私たちの技術はデータ駆動型フレームワークに傾向がありますが、制限はありません。
また、上記のマルコフ連鎖間の計量の性質について研究し、より広い目的のために応用できると考えている。
近似アルゴリズムを提案し,従来の線形プログラミング手法よりも計算の複雑さがはるかに高いことを示す。 We introduce an adaptive refinement procedure for smart, and scalable abstraction of dynamical systems. Our technique relies on partitioning the state space depending on the observation of future outputs. However, this knowledge is dynamically constructed in an adaptive, asymmetric way. In order to learn the optimal structure, we define a Kantorovich-inspired metric between Markov chains, and we use it as a loss function. Our technique is prone to data-driven frameworks, but not restricted to. We also study properties of the above mentioned metric between Markov chains, which we believe could be of application for wider purpose. We propose an algorithm to approximate it, and we show that our method yields a much better computational complexity than using classical linear programming techniques. | 翻訳日:2023-08-24 18:20:59 公開日:2023-08-22 |
# テキスト・画像拡散モデルのための識別クラストークン Discriminative Class Tokens for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2303.17155v2 ) ライセンス: Link先を確認 | Idan Schwartz, V\'esteinn Sn{\ae}bjarnarson, Hila Chefer, Ryan Cotterell, Serge Belongie, Lior Wolf, Sagie Benaim | (参考訳) 近年のテキスト・画像拡散モデルの進歩により、多様で高品質な画像が生成できるようになった。
印象的ではあるが、画像は微妙な細部を描写するに足りず、入力テキストの曖昧さによる誤りに悩まされることが多い。
これらの問題を緩和する一つの方法は、クラスラベルデータセット上で拡散モデルをトレーニングすることである。
このアプローチには2つの欠点があります
(i)教師付きデータセットは、テキストから画像へのモデルを訓練した大規模スクレイピングテキスト画像データセットに比べて一般的に小さく、生成された画像の品質や多様性に影響します。
(ii)入力は自由形式のテキストとは対照的にハードコードされたラベルであり、生成された画像の制御を制限する。
本研究では,事前学習された分類器からの識別信号による高精度化を図りつつ,自由形式テキストの表現電位を生かした非侵襲的微調整手法を提案する。
これは、テキスト間拡散モデルの追加入力トークンの埋め込みを反復的に修正し、分類器に従って生成された画像を所定のターゲットクラスに向けて操ることによって行われる。
本手法は,従来の微調整法と比較して高速で,クラス内画像の収集や雑音耐性分類器の再学習は不要である。
提案手法を広範囲に評価し,生成した画像が次の通りであることを示す。
(i)標準拡散モデルよりも正確で高品質である。
(ii)低リソース環境でのトレーニングデータ強化に使用できる。
(iii)案内分類器の訓練に用いるデータに関する情報を明らかにする。
コードは \url{https://github.com/idansc/discriminative_class_tokens} で入手できる。 Recent advances in text-to-image diffusion models have enabled the generation of diverse and high-quality images. While impressive, the images often fall short of depicting subtle details and are susceptible to errors due to ambiguity in the input text. One way of alleviating these issues is to train diffusion models on class-labeled datasets. This approach has two disadvantages: (i) supervised datasets are generally small compared to large-scale scraped text-image datasets on which text-to-image models are trained, affecting the quality and diversity of the generated images, or (ii) the input is a hard-coded label, as opposed to free-form text, limiting the control over the generated images. In this work, we propose a non-invasive fine-tuning technique that capitalizes on the expressive potential of free-form text while achieving high accuracy through discriminative signals from a pretrained classifier. This is done by iteratively modifying the embedding of an added input token of a text-to-image diffusion model, by steering generated images toward a given target class according to a classifier. Our method is fast compared to prior fine-tuning methods and does not require a collection of in-class images or retraining of a noise-tolerant classifier. We evaluate our method extensively, showing that the generated images are: (i) more accurate and of higher quality than standard diffusion models, (ii) can be used to augment training data in a low-resource setting, and (iii) reveal information about the data used to train the guiding classifier. The code is available at \url{https://github.com/idansc/discriminative_class_tokens}. | 翻訳日:2023-08-24 18:20:48 公開日:2023-08-22 |
# u-toe: 低電力iotのためのユニバーサルtinymlオンボード評価ツールキット U-TOE: Universal TinyML On-board Evaluation Toolkit for Low-Power IoT ( http://arxiv.org/abs/2306.14574v2 ) ライセンス: Link先を確認 | Zhaolan Huang, Koen Zandberg, Kaspar Schleiser and Emmanuel Baccelli | (参考訳) TinyMLコミュニティの結果は、たとえ小さなマイクロコントローラベースのデバイスであっても、端末上で機械学習モデルを直接実行可能であることを実証している。
しかし、これまでは、任意の低消費電力IoTハードウェア上で任意のモデルを実行する可能性を評価するための便利なオールインワンツールキットが欠如していた。
本論文では,低消費電力組み込みOS,汎用モデルトランスパイラとコンパイラ,統合パフォーマンス測定モジュール,オープンアクセスリモートIoTテストベッドの機能を組み合わせることで,IoTデザイナと研究者の作業を容易にする汎用ツールキットU-TOEを提案する。
我々は、U-TOEのオープンソース実装を提供し、その使用により、一般的なマイクロコントローラアーキテクチャに基づいて、さまざまな低消費電力IoTボード上で、様々なモデルの性能を実験的に評価する。
U-TOEは、さまざまなIoTハードウェアに対して、容易に再現可能でカスタマイズ可能な比較評価実験を可能にする。
U-TOEのようなツールキットの可用性は、人工知能とIoTを組み合わせた研究を加速し、エッジコンピューティングの可能性を完全に活用することが望ましい。 Results from the TinyML community demonstrate that, it is possible to execute machine learning models directly on the terminals themselves, even if these are small microcontroller-based devices. However, to date, practitioners in the domain lack convenient all-in-one toolkits to help them evaluate the feasibility of executing arbitrary models on arbitrary low-power IoT hardware. To this effect, we present in this paper U-TOE, a universal toolkit we designed to facilitate the task of IoT designers and researchers, by combining functionalities from a low-power embedded OS, a generic model transpiler and compiler, an integrated performance measurement module, and an open-access remote IoT testbed. We provide an open source implementation of U-TOE and we demonstrate its use to experimentally evaluate the performance of various models, on a wide variety of low-power IoT boards, based on popular microcontroller architectures. U-TOE allows easily reproducible and customizable comparative evaluation experiments on a wide variety of IoT hardware all-at-once. The availability of a toolkit such as U-TOE is desirable to accelerate research combining Artificial Intelligence and IoT towards fully exploiting the potential of edge computing. | 翻訳日:2023-08-24 18:02:12 公開日:2023-08-22 |
# 曖昧なサイバー攻撃記述を解釈する大規模言語モデルの利用について On the Uses of Large Language Models to Interpret Ambiguous Cyberattack Descriptions ( http://arxiv.org/abs/2306.14062v2 ) ライセンス: Link先を確認 | Reza Fayyazi, Shanchieh Jay Yang | (参考訳) 脆弱性やエクスプロイトの変化量、多様性、速度によって、インシデント脅威分析は、人間の専門知識や経験に挑戦している。
戦術、テクニック、手順(TTP)は、攻撃者が脆弱性を悪用する方法と理由を説明することである。
しかし、あるセキュリティ専門家によって書かれたTTP記述は、別のセキュリティ専門家によって非常に異なる解釈が可能であり、サイバーセキュリティの運用やビジネス、ポリシー、法的決定の混乱につながる。
一方、AIの進歩は、サイバーオペレーションにおける様々なタスクを支援するために自然言語処理(NLP)アルゴリズムの使用の増加につながっている。
LLM(Large Language Models)の台頭により、LPMのセマンティック理解と拡張性により、NLPタスクは大幅に改善された。
これにより、LCMがTTPや一般的なサイバーアタックの記述を正しく解釈し、サイバーアタックの意図した目的をアナリストに伝えることができるか疑問が持たれる。
我々は,小型LLM(例えばBERT)のLPM(例えばGPT-3.5)と教師付き微調整(SFT)を直接使用して,ATT&CK戦術の予測能力について検討することを提案する。
以上の結果から,SFTを用いた小型LLMは,ATT&CK戦術のより焦点を絞った,より明瞭な分化をもたらすことが明らかとなった。
一方、LSMの直接使用はサイバー攻撃技術のより広範な解釈を提供する。
より一般的なケースを扱う場合、LSMの力にもかかわらず、固有の曖昧さが存在し、予測力を制限する。
次に,これらの課題を要約し,様々なサイバー操作で使用されるTP記述のあいまいさを扱うため,LSMの研究指針を推薦する。 The volume, variety, and velocity of change in vulnerabilities and exploits have made incident threat analysis challenging with human expertise and experience along. Tactics, Techniques, and Procedures (TTPs) are to describe how and why attackers exploit vulnerabilities. However, a TTP description written by one security professional can be interpreted very differently by another, leading to confusion in cybersecurity operations or even business, policy, and legal decisions. Meanwhile, advancements in AI have led to the increasing use of Natural Language Processing (NLP) algorithms to assist the various tasks in cyber operations. With the rise of Large Language Models (LLMs), NLP tasks have significantly improved because of the LLM's semantic understanding and scalability. This leads us to question how well LLMs can interpret TTPs or general cyberattack descriptions to inform analysts of the intended purposes of cyberattacks. We propose to analyze and compare the direct use of LLMs (e.g., GPT-3.5) versus supervised fine-tuning (SFT) of small-scale-LLMs (e.g., BERT) to study their capabilities in predicting ATT&CK tactics. Our results reveal that the small-scale-LLMs with SFT provide a more focused and clearer differentiation between the ATT&CK tactics (if such differentiation exists). On the other hand, direct use of LLMs offer a broader interpretation of cyberattack techniques. When treating more general cases, despite the power of LLMs, inherent ambiguity exists and limits their predictive power. We then summarize the challenges and recommend research directions on LLMs to treat the inherent ambiguity of TTP descriptions used in various cyber operations. | 翻訳日:2023-08-24 18:01:06 公開日:2023-08-22 |
# 破滅的なAIリスクの概観 An Overview of Catastrophic AI Risks ( http://arxiv.org/abs/2306.12001v4 ) ライセンス: Link先を確認 | Dan Hendrycks, Mantas Mazeika, Thomas Woodside | (参考訳) 人工知能(AI)の急速な進歩は、専門家、政策立案者、そして世界のリーダーの間で、ますます高度なAIシステムが破滅的なリスクをもたらす可能性を懸念する声が高まっている。
多数のリスクが別々に詳述されているが、組織的な議論と、それらを軽減する努力をより良い情報化するための潜在的な危険の例示の必要性が差し迫っている。
This paper provides an overview of the main sources of catastrophic AI risks, which we organize into four categories: malicious use, in which individuals or groups intentionally use AIs to cause harm; AI race, in which competitive environments compel actors to deploy unsafe AIs or cede control to AIs; organizational risks, highlighting how human factors and complex systems can increase the chances of catastrophic accidents; and rogue AIs, describing the inherent difficulty in controlling agents far more intelligent than humans.
リスクのカテゴリごとに,特定のハザードを記述し,図解的なストーリーを提示し,理想的なシナリオを想定し,これらのハザードを緩和するための実践的提案を提案する。
私たちの目標は、これらのリスクを包括的に理解し、AIが安全な方法で開発され、デプロイされることを保証するために、集団的かつ積極的な取り組みを促すことです。
最終的には、破滅的な結果の可能性を最小化しながら、この強力な技術のメリットを実現することができることを願っています。 Rapid advancements in artificial intelligence (AI) have sparked growing concerns among experts, policymakers, and world leaders regarding the potential for increasingly advanced AI systems to pose catastrophic risks. Although numerous risks have been detailed separately, there is a pressing need for a systematic discussion and illustration of the potential dangers to better inform efforts to mitigate them. This paper provides an overview of the main sources of catastrophic AI risks, which we organize into four categories: malicious use, in which individuals or groups intentionally use AIs to cause harm; AI race, in which competitive environments compel actors to deploy unsafe AIs or cede control to AIs; organizational risks, highlighting how human factors and complex systems can increase the chances of catastrophic accidents; and rogue AIs, describing the inherent difficulty in controlling agents far more intelligent than humans. For each category of risk, we describe specific hazards, present illustrative stories, envision ideal scenarios, and propose practical suggestions for mitigating these dangers. Our goal is to foster a comprehensive understanding of these risks and inspire collective and proactive efforts to ensure that AIs are developed and deployed in a safe manner. Ultimately, we hope this will allow us to realize the benefits of this powerful technology while minimizing the potential for catastrophic outcomes. | 翻訳日:2023-08-24 18:00:04 公開日:2023-08-22 |
# エージェント分析によるタスク学習のためのLLMからの知識抽出の改善 Improving Knowledge Extraction from LLMs for Task Learning through Agent Analysis ( http://arxiv.org/abs/2306.06770v3 ) ライセンス: Link先を確認 | James R. Kirk, Robert E. Wray, Peter Lindes | (参考訳) 大規模言語モデル(LLM)は、タスク学習の知識源として大きな約束を提供する。
即席工学は、llmから知識を引き出すのに有効であることが示されているが、単独では、新しいタスクを学習する具体化エージェントにとって、関連する、状況に応じた知識を得るには不十分である。
本稿では,プロンプトエンジニアリングを拡張し,その限界を緩和し,エージェントがネイティブ言語能力,具体化,環境,ユーザの好みに合った新しいタスク知識を得ることを可能にする認知エージェントアプローチについて述べる。
アプローチは、LSMの応答空間を拡大し、自律エージェントに埋め込まれた一般的な戦略を展開し、LSMが生成する候補の応答を評価し、修復し、選択することである。
本稿では, LLM からの回答を幅広く検索し, 評価することにより, ユーザによる監視なしに, 77~94% のタスク完了を達成できることを示すアプローチと実験について述べる。
このアプローチは、人間の監視(好みの表示など)が提供されるとき、100%のタスク完了を達成する。
さらに、監視のタイプは、明示的な自然言語命令から、ユーザに提示する前にエージェントが検証した高品質な応答の単純な確認/確認へと大きく変わる。 Large language models (LLMs) offer significant promise as a knowledge source for task learning. Prompt engineering has been shown to be effective for eliciting knowledge from an LLM, but alone it is insufficient for acquiring relevant, situationally grounded knowledge for an embodied agent learning novel tasks. We describe a cognitive-agent approach that extends and complements prompt engineering, mitigating its limitations and thus enabling an agent to acquire new task knowledge matched to its native language capabilities, embodiment, environment, and user preferences. The approach is to increase the response space of LLMs and deploy general strategies, embedded within the autonomous agent, to evaluate, repair, and select among candidate responses produced by the LLM. We describe the approach and experiments that show how an agent, by retrieving and evaluating a breadth of responses from the LLM, can achieve 77-94% task completion in one-shot learning without user oversight. The approach achieves 100% task completion when human oversight (such as an indication of preference) is provided. Further, the type of oversight largely shifts from explicit, natural language instruction to simple confirmation/discomfirmation of high-quality responses that have been vetted by the agent before presentation to a user. | 翻訳日:2023-08-24 17:58:50 公開日:2023-08-22 |
# Compressed Sensing:離散最適化アプローチ Compressed Sensing: A Discrete Optimization Approach ( http://arxiv.org/abs/2306.04647v2 ) ライセンス: Link先を確認 | Dimitris Bertsimas and Nicholas A. G. Johnson | (参考訳) 圧縮センシング(CS: Compressed Sensing)問題について検討した。これは,線形測定の集合をある程度の数値耐性まで満足する最もスパースなベクトルを求める問題である。
csは、信号処理、データ圧縮、画像再構成などのアプリケーションで発生する統計、運用研究、機械学習における中心的な問題である。
我々は,混合整数二階コーンプログラムとして再構成したcsの$\ell_2$正規化式を導入する。
この問題の2次円錐緩和を導出し、正規化パラメータの穏やかな条件下では、結果として得られる緩和は、よく研究された基礎追従問題と等価であることを示す。
本稿では,2次コーン緩和を強化し,2次コーン緩和を利用した独自の分岐結合アルゴリズムを開発し,CSのインスタンスを最適性を証明する。
数値的な結果から,本手法は,合成データに対する art ベンチマーク手法によって得られた解よりも平均 6.22\% 少ない解を数分で生成できることがわかった。
実世界のECGデータでは、与えられた$\ell_2$リコンストラクションエラーに対して、我々のアプローチはベンチマークメソッドよりも平均9.95\%$スパースなソリューションを生成し、一方、所定の空間レベルでは平均10.77\%$リコンストラクションエラーを数分で生成する。 We study the Compressed Sensing (CS) problem, which is the problem of finding the most sparse vector that satisfies a set of linear measurements up to some numerical tolerance. CS is a central problem in Statistics, Operations Research and Machine Learning which arises in applications such as signal processing, data compression and image reconstruction. We introduce an $\ell_2$ regularized formulation of CS which we reformulate as a mixed integer second order cone program. We derive a second order cone relaxation of this problem and show that under mild conditions on the regularization parameter, the resulting relaxation is equivalent to the well studied basis pursuit denoising problem. We present a semidefinite relaxation that strengthens the second order cone relaxation and develop a custom branch-and-bound algorithm that leverages our second order cone relaxation to solve instances of CS to certifiable optimality. Our numerical results show that our approach produces solutions that are on average $6.22\%$ more sparse than solutions returned by state of the art benchmark methods on synthetic data in minutes. On real world ECG data, for a given $\ell_2$ reconstruction error our approach produces solutions that are on average $9.95\%$ more sparse than benchmark methods, while for a given sparsity level our approach produces solutions that have on average $10.77\%$ lower reconstruction error than benchmark methods in minutes. | 翻訳日:2023-08-24 17:58:28 公開日:2023-08-22 |
# 安全アライメントのための発話連鎖を用いた大規模言語モデルの再編成 Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment ( http://arxiv.org/abs/2308.09662v2 ) ライセンス: Link先を確認 | Rishabh Bhardwaj, Soujanya Poria | (参考訳) 大きな言語モデル(llm)は、次の単語予測目標を最適化するだけで、巨大なマルチタスク機能で世界を席巻した。
それらの特性と符号化された知識が出現すると、有害なアウトプットを生み出すLSMのリスクが増大し、一般向けに拡張性のあるデプロイメントには適さない。
本研究では,red-teamingを行う新しい安全性評価ベンチマークであるred-evalを提案する。
GPT-4 や ChatGPT のようなクローズドソース LLM ベースのシステムを非倫理的に応答し,有害なクエリの 65% 以上と 73% 以上に対して,広くデプロイされたモデルでさえ,CoU (Chain of Utterances) の影響を受けることを示す。
また, RED-EVAL が8つのオープンソース LLM にまたがる一貫性を実証し, レッドチームの86%以上で有害な応答を発生させることを示した。
次に,安全アライメントのためのred-instruct-anアプローチを提案する。
2つの段階を構成する。
1) HARMFULQAデータ収集:CoUを活用することで、幅広いトピックをカバーする1.9Kの有害な質問、9.5Kの安全、7.3KのChatGPTからの有害な会話からなるデータセットを収集する。
2)SAFE-ALIGN: 負の対数類似度を有用な応答よりも最小化し, サンプル損失よりも勾配アクセントにより有害な応答をペナルティ化することにより, LLMの安全アライメントに会話データセットをいかに活用できるかを実証する。
我々のモデルSTARling, 微調整Vicuna-7Bは, RED-EVALおよびHHHベンチマークにおいて, ベースラインモデル(TruthfulQA, MMLU, BBH)の有用性を保ちながら, より安全に整列することが観察された。 Larger language models (LLMs) have taken the world by storm with their massive multi-tasking capabilities simply by optimizing over a next-word prediction objective. With the emergence of their properties and encoded knowledge, the risk of LLMs producing harmful outputs increases, making them unfit for scalable deployment for the public. In this work, we propose a new safety evaluation benchmark RED-EVAL that carries out red-teaming. We show that even widely deployed models are susceptible to the Chain of Utterances-based (CoU) prompting, jailbreaking closed source LLM-based systems such as GPT-4 and ChatGPT to unethically respond to more than 65% and 73% of harmful queries. We also demonstrate the consistency of the RED-EVAL across 8 open-source LLMs in generating harmful responses in more than 86% of the red-teaming attempts. Next, we propose RED-INSTRUCT--An approach for the safety alignment of LLMs. It constitutes two phases: 1) HARMFULQA data collection: Leveraging CoU prompting, we collect a dataset that consists of 1.9K harmful questions covering a wide range of topics, 9.5K safe and 7.3K harmful conversations from ChatGPT; 2) SAFE-ALIGN: We demonstrate how the conversational dataset can be used for the safety alignment of LLMs by minimizing the negative log-likelihood over helpful responses and penalizing over harmful responses by gradient accent over sample loss. Our model STARLING, a fine-tuned Vicuna-7B, is observed to be more safely aligned when evaluated on RED-EVAL and HHH benchmarks while preserving the utility of the baseline models (TruthfulQA, MMLU, and BBH). | 翻訳日:2023-08-24 17:40:52 公開日:2023-08-22 |
# プログレッシブ蒸留による拡散型組合せ最適化解法 Accelerating Diffusion-based Combinatorial Optimization Solvers by Progressive Distillation ( http://arxiv.org/abs/2308.06644v2 ) ライセンス: Link先を確認 | Junwei Huang, Zhiqing Sun, Yiming Yang | (参考訳) グラフベースの拡散モデルは、NP完全(NPC)組合せ最適化(CO)問題に対する高品質な解を生成するという点で有望な結果を示している。
しかし,これらのモデルはしばしば,拡散過程の反復的な評価特性のため,推論において非効率であることが多い。
本稿では, 脱離過程において, プログレッシブ蒸留を用いてより少ないステップ(例えば, 1 ステップ以内の2 ステップの予測)で推算を高速化することを提案する。
実験の結果, TSP-50データセットの性能は0.019%しか低下せず, 段階的に蒸留したモデルでは16倍高速に推算できることがわかった。 Graph-based diffusion models have shown promising results in terms of generating high-quality solutions to NP-complete (NPC) combinatorial optimization (CO) problems. However, those models are often inefficient in inference, due to the iterative evaluation nature of the denoising diffusion process. This paper proposes to use progressive distillation to speed up the inference by taking fewer steps (e.g., forecasting two steps ahead within a single step) during the denoising process. Our experimental results show that the progressively distilled model can perform inference 16 times faster with only 0.019% degradation in performance on the TSP-50 dataset. | 翻訳日:2023-08-24 17:39:13 公開日:2023-08-22 |
# 有限要素問題における線形系の量子緩和法 Quantum Relaxation Method for Linear Systems in Finite Element Problems ( http://arxiv.org/abs/2308.01377v3 ) ライセンス: Link先を確認 | Osama Muhammad Raisuddin, Suvranu De | (参考訳) ゲートベースの量子コンピューティングのための量子線形系アルゴリズム(QLSA)は、方程式の線形系に対する指数的なスピードアップを提供することができる。
有限要素の離散化から生じる方程式系における問題サイズの条件数の増加は、高速化のためのqlsasの直接適用を阻害する。
さらにQLSAは、近似ソリューションや初期推測を使って改善されたソリューションを出力することはできない。
本稿では,線形定常反復をより大きなブロック線形系に埋め込み,ゲート型量子コンピュータの反復的アプローチとして,線形系の量子緩和(qrls)を提案する。
ブロック線形システムの条件番号は、元のシステムのサイズと条件番号に依存しないイテレーション数と線形にスケールし、有限要素問題の条件番号を効果的に管理する。
このシステムは、QLSAの最先端量子信号処理(QSP)変種を用いて有限要素問題の実用的な反復解を可能にし、量子コンピュータシミュレータを用いて数値計算結果を提供する。
反復の複雑さは、o(log(n)) qubitsとシステムサイズによらず、解時間スケーリングが量子ハードウェア上の反復有限要素解の新しいパラダイムを開く指数関数的改善によって、古典的なアーキテクチャと比較して好適にスケールする。 Quantum linear system algorithms (QLSAs) for gate-based quantum computing can provide exponential speedups for linear systems of equations. The growth of the condition number with problem size for a system of equations arising from a finite element discretization inhibits the direct application of QLSAs for a speedup. Furthermore, QLSAs cannot use an approximate solution or initial guess to output an improved solution. Here, we present Quantum Relaxation for Linear System (qRLS), as an iterative approach for gate-based quantum computers by embedding linear stationary iterations into a larger block linear system. The condition number of the block linear system scales linearly with the number of iterations independent of the size and condition number of the original system, effectively managing the condition number of the finite element problem. The well-conditioned system enables a practical iterative solution of finite element problems using the state-of-the-art Quantum Signal Processing (QSP) variant of QLSAs, for which we provide numerical results using a quantum computer simulator. The complexity of the iterations scales favorably compared to classical architectures due to solution time scaling independent of system size with O(log(N)) qubits, an exponential improvement opening a new paradigm for iterative finite element solutions on quantum hardware. | 翻訳日:2023-08-24 17:37:58 公開日:2023-08-22 |
# 工場環境における多変量時系列分類を用いた機械学習に基づく位置決め Machine Learning-based Positioning using Multivariate Time Series Classification for Factory Environments ( http://arxiv.org/abs/2308.11670v1 ) ライセンス: Link先を確認 | Nisal Hemadasa Manikku Badu and Marcus Venzke and Volker Turau and Yanqiu Huang | (参考訳) 屋内測位システム (IPS) は多くの産業用途で重要になった。
最先端のソリューションは、外部インフラストラクチャに大きく依存しており、潜在的なプライバシーの妥協、外部情報要件、仮定などに直面しているため、プライバシや長期機能を必要とする環境では好ましくない。
屋内位置決めのための補助的なインフラを配置する環境は、実現不可能で費用がかかる可能性がある。
機械学習(ML)の最近の進歩は、IoTデバイスのオンボードセンサーのデータのみに依存する、これらの制限に対処するソリューションを提供する。
しかし、IoTデバイスのリソース制約を考慮すると、どのモデルが最適かは定かではない。
本稿では,移動体をプライバシ関連工場環境に局在させるため,モーションセンサと環境センサを用いた機械学習による屋内位置決めシステムを提案する。
この問題は多変量時系列分類(MTSC)として定式化され、それに対応するために異なる機械学習モデルの比較分析を行う。
本稿では,工場の組立ラインをエミュレートした時系列データセットを提案する。
このデータセットを使用して、選択したモデルの精度、メモリフットプリント、推論速度を評価し、比較する。
その結果,すべての評価モデルが80%以上の精度を達成できることがわかった。
CNN-1Dは最もバランスのとれた性能を示し、MLPが続く。
DTはメモリフットプリントと推論のレイテンシが低く、実際のシナリオへのデプロイの可能性を示している。 Indoor Positioning Systems (IPS) gained importance in many industrial applications. State-of-the-art solutions heavily rely on external infrastructures and are subject to potential privacy compromises, external information requirements, and assumptions, that make it unfavorable for environments demanding privacy and prolonged functionality. In certain environments deploying supplementary infrastructures for indoor positioning could be infeasible and expensive. Recent developments in machine learning (ML) offer solutions to address these limitations relying only on the data from onboard sensors of IoT devices. However, it is unclear which model fits best considering the resource constraints of IoT devices. This paper presents a machine learning-based indoor positioning system, using motion and ambient sensors, to localize a moving entity in privacy concerned factory environments. The problem is formulated as a multivariate time series classification (MTSC) and a comparative analysis of different machine learning models is conducted in order to address it. We introduce a novel time series dataset emulating the assembly lines of a factory. This dataset is utilized to assess and compare the selected models in terms of accuracy, memory footprint and inference speed. The results illustrate that all evaluated models can achieve accuracies above 80 %. CNN-1D shows the most balanced performance, followed by MLP. DT was found to have the lowest memory footprint and inference latency, indicating its potential for a deployment in real-world scenarios. | 翻訳日:2023-08-24 17:29:29 公開日:2023-08-22 |
# クラスラベル認識グラフ異常検出 Class Label-aware Graph Anomaly Detection ( http://arxiv.org/abs/2308.11669v1 ) ライセンス: Link先を確認 | Junghoon Kim, Yeonjun In, Kanghoon Yoon, Junmo Lee, Chanyoung Park | (参考訳) 教師なしGAD法は異常ラベルの欠如、すなわちノードが異常であるか否かを仮定する。
従来の教師なしメソッドからの一般的な観察は、そのような異常ラベルがないだけでなく、クラスラベルがないこと(ノードが一般的なノード分類タスクで使われるクラスに属する)を想定していることです。
本研究では,教師なしGADのためのクラスラベルの有用性,特に構造異常の検出方法について検討する。
そこで本研究では,少数のラベル付きノードを用いて教師なしGADの性能を向上させるクラスラベル対応グラフ異常検出フレームワーク(CLAD)を提案する。
10個のデータセットに対する大規模な実験は、既存の教師なしGAD法と比較してCLADの優れた性能を示す。
CLADのソースコードは \url{https://github.com/jhkim611/CLAD} で入手できる。 Unsupervised GAD methods assume the lack of anomaly labels, i.e., whether a node is anomalous or not. One common observation we made from previous unsupervised methods is that they not only assume the absence of such anomaly labels, but also the absence of class labels (the class a node belongs to used in a general node classification task). In this work, we study the utility of class labels for unsupervised GAD; in particular, how they enhance the detection of structural anomalies. To this end, we propose a Class Label-aware Graph Anomaly Detection framework (CLAD) that utilizes a limited amount of labeled nodes to enhance the performance of unsupervised GAD. Extensive experiments on ten datasets demonstrate the superior performance of CLAD in comparison to existing unsupervised GAD methods, even in the absence of ground-truth class label information. The source code for CLAD is available at \url{https://github.com/jhkim611/CLAD}. | 翻訳日:2023-08-24 17:29:08 公開日:2023-08-22 |
# 言語モデルの効率的なベンチマーク Efficient Benchmarking (of Language Models) ( http://arxiv.org/abs/2308.11696v1 ) ライセンス: Link先を確認 | Yotam Perlitz, Elron Bandel, Ariel Gera, Ofir Arviv, Liat Ein-Dor, Eyal Shnarch, Noam Slonim, Michal Shmueli-Scheuer, Leshem Choshen | (参考訳) 言語モデルの汎用性の向上により、LMは幅広い能力を包括的に評価する新しいクラスのベンチマークを生み出した。
このようなベンチマークは、モデル当たり数千gpu時間に達する膨大な計算コストと関連している。
しかし,これらの評価作業の効率性は文献上ではほとんど議論されなかった。
本稿では,lm評価の計算コストを,信頼性を損なうことなくインテリジェントに削減する,効率的なベンチマーク問題を提案する。
helmベンチマークをテストケースとして使用することにより,ベンチマーク設計の異なる選択が計算信頼性のトレードオフに与える影響を調べる。
そこで本研究では,新しい尺度決定が信頼性ディオールに与える影響を簡潔に評価することを提案する。
例えば、HELMの現在のリーダーは、単にベンチマークから低ランクのモデルを取り除くだけで変化し、いくつかのサンプルが正しいベンチマークランキングを得るのに十分であることを示す。
逆に、ヘルムシナリオのわずかに異なる選択は、ランクが異なる。
ベンチマークの信頼性を最小限に抑えることで、より効率的なベンチマーク設計と利用プラクティスのための具体的な推奨事項を概説し、しばしばx100以上の計算を削減します。 The increasing versatility of language models LMs has given rise to a new class of benchmarks that comprehensively assess a broad range of capabilities. Such benchmarks are associated with massive computational costs reaching thousands of GPU hours per model. However the efficiency aspect of these evaluation efforts had raised little discussion in the literature. In this work we present the problem of Efficient Benchmarking namely intelligently reducing the computation costs of LM evaluation without compromising reliability. Using the HELM benchmark as a test case we investigate how different benchmark design choices affect the computation-reliability tradeoff. We propose to evaluate the reliability of such decisions by using a new measure Decision Impact on Reliability DIoR for short. We find for example that the current leader on HELM may change by merely removing a low-ranked model from the benchmark and observe that a handful of examples suffice to obtain the correct benchmark ranking. Conversely a slightly different choice of HELM scenarios varies ranking widely. Based on our findings we outline a set of concrete recommendations for more efficient benchmark design and utilization practices leading to dramatic cost savings with minimal loss of benchmark reliability often reducing computation by x100 or more. | 翻訳日:2023-08-24 17:20:42 公開日:2023-08-22 |
# エッジにおける新しい身体活動のインクリメンタル学習に関する実践的考察 Practical Insights on Incremental Learning of New Human Physical Activity on the Edge ( http://arxiv.org/abs/2308.11691v1 ) ライセンス: Link先を確認 | George Arvanitakis, Jingwei Zuo, Mthandazo Ndhlovu and Hakim Hacid | (参考訳) コンピューティングインテリジェンスをクラウドベースのシステムからエッジデバイスに移行するエッジ機械学習(Edge ML)は、レイテンシの低減、データプライバシの強化、接続依存の低減など、明らかなメリットから、大きな関心を集めている。
これらのアドバンテージは魅力的ですが、従来のクラウドベースのアプローチにはないユニークな課題を導入します。
本稿では,エッジベース学習の複雑さを掘り下げ,相互依存性について考察する。
(i)Edgeデバイス上の制約付きデータストレージ。
(ii)訓練の計算能力の制限、及び
(iii)学習科目数
モバイルセンサから収集したデータによる人間の活動学習に焦点を当てたMAGNETOシステムを用いた実験を通じて、これらの課題を強調し、Edge MLに関する貴重な視点を提供する。 Edge Machine Learning (Edge ML), which shifts computational intelligence from cloud-based systems to edge devices, is attracting significant interest due to its evident benefits including reduced latency, enhanced data privacy, and decreased connectivity reliance. While these advantages are compelling, they introduce unique challenges absent in traditional cloud-based approaches. In this paper, we delve into the intricacies of Edge-based learning, examining the interdependencies among: (i) constrained data storage on Edge devices, (ii) limited computational power for training, and (iii) the number of learning classes. Through experiments conducted using our MAGNETO system, that focused on learning human activities via data collected from mobile sensors, we highlight these challenges and offer valuable perspectives on Edge ML. | 翻訳日:2023-08-24 17:20:28 公開日:2023-08-22 |
# 言語的・社会的相互作用を利用したソーシャルメディアにおけるユーザアイデンティティリンク User Identity Linkage in Social Media Using Linguistic and Social Interaction Features ( http://arxiv.org/abs/2308.11684v1 ) ライセンス: Link先を確認 | Despoina Chatzakou, Juan Soler-Company, Theodora Tsikrika, Leo Wanner, Stefanos Vrochidis, Ioannis Kompatsiaris | (参考訳) ソーシャルメディアのユーザーは、自分の考え、考え、視点の広がりを増やそうと、複数のアカウントを持っていることが多い。
好ましくないコンテンツの場合、ユーザーはソーシャルメディアプラットフォームが実施する対策を回避し、一部のアカウントを停止してもオンラインアイデンティティを維持するために複数のアカウントを作成する傾向がある。
user identity linkageは、同じ自然人に属する可能性が高いソーシャルメディアアカウントを明らかにし、虐待/違法行為の拡散を防止することを目的としている。
そこで本研究では,2つ以上の仮想的アイデンティティが同一の自然人かどうかを識別するために,ユーザのオンライン活動の複数の属性を利用する機械学習に基づく検出モデルを提案する。
モデルの有効性は、虐待とテロ関連のTwitterコンテンツで実証されている。 Social media users often hold several accounts in their effort to multiply the spread of their thoughts, ideas, and viewpoints. In the particular case of objectionable content, users tend to create multiple accounts to bypass the combating measures enforced by social media platforms and thus retain their online identity even if some of their accounts are suspended. User identity linkage aims to reveal social media accounts likely to belong to the same natural person so as to prevent the spread of abusive/illegal activities. To this end, this work proposes a machine learning-based detection model, which uses multiple attributes of users' online activity in order to identify whether two or more virtual identities belong to the same real natural person. The models efficacy is demonstrated on two cases on abusive and terrorism-related Twitter content. | 翻訳日:2023-08-24 17:20:14 公開日:2023-08-22 |
# 生成と理解の学習---つまり、リアルタイムでの補修言語 Learning to generate and corr- uh I mean repair language in real-time ( http://arxiv.org/abs/2308.11683v1 ) ライセンス: Link先を確認 | Arash Eshghi, Arash Ashrafzadeh | (参考訳) 会話において、話者は、会話の動的に展開する文脈における自身の貢献の適切さを継続的に監視しながら、単語ごとに言語を段階的に生成する。
このリアルタイム言語処理能力は、さらにフルーエントで自然な会話型aiの開発に不可欠である。
本稿では、これまでに学習した動的構文文法とCHILDESコーパスを用いて、モデルへの入力がレコード付き型理論(TTR)における純粋意味生成目標概念であるインクリメンタル生成のための確率モデルの開発と訓練、評価を行う。
その結果, ROUGE-lスコア0.86の78%のケースでは, モデル出力が金候補と正確に一致していることがわかった。
さらに,生成目標が発話中に変化する場合に,同一モデルが自己修復を行う能力についてゼロショット評価を行う。
自動評価は、85%のケースで自己修復を正しく生成できることを示している。
小さな人間評価は、生成された自己修復者の自然性と文法性を確認する。
これらの結果は、文法ベースのモデルの一般化能力をさらに強調し、より制御可能で自然な対話型AIシステムの基礎を築いた。 In conversation, speakers produce language incrementally, word by word, while continuously monitoring the appropriateness of their own contribution in the dynamically unfolding context of the conversation; and this often leads them to repair their own utterance on the fly. This real-time language processing capacity is furthermore crucial to the development of fluent and natural conversational AI. In this paper, we use a previously learned Dynamic Syntax grammar and the CHILDES corpus to develop, train and evaluate a probabilistic model for incremental generation where input to the model is a purely semantic generation goal concept in Type Theory with Records (TTR). We show that the model's output exactly matches the gold candidate in 78% of cases with a ROUGE-l score of 0.86. We further do a zero-shot evaluation of the ability of the same model to generate self-repairs when the generation goal changes mid-utterance. Automatic evaluation shows that the model can generate self-repairs correctly in 85% of cases. A small human evaluation confirms the naturalness and grammaticality of the generated self-repairs. Overall, these results further highlight the generalisation power of grammar-based models and lay the foundations for more controllable, and naturally interactive conversational AI systems. | 翻訳日:2023-08-24 17:20:00 公開日:2023-08-22 |
# VadCLIP:弱教師付きビデオ異常検出のための視覚言語モデルへの適応 VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection ( http://arxiv.org/abs/2308.11681v1 ) ライセンス: Link先を確認 | Peng Wu, Xuerong Zhou, Guansong Pang, Lingru Zhou, Qingsen Yan, Peng Wang, Yanning Zhang | (参考訳) 最近のコントラスト言語画像事前学習(CLIP)モデルは、幅広い画像レベルのタスクで大きな成功を収めており、リッチなセマンティクスで強力な視覚表現を学習する驚くべき能力を示している。
オープンで価値のある問題は、そのような強力なモデルをビデオ領域に効率的に適応させ、堅牢なビデオ異常検知器を設計することである。
本研究では,凍結したCLIPモデルを事前学習や微調整を行うことなく直接利用することにより,弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
フレームレベルのバイナリ分類のための弱い教師付き分類器に抽出された特徴を直接供給する現在の作業とは異なり、VadCLIPはCLIPの強度で視覚と言語の間のきめ細かい関連をフル活用し、二重分岐を伴う。
1つのブランチは、粗粒度のバイナリ分類に視覚的特徴を単純に利用し、もう1つは細粒度の言語イメージアライメントを完全に活用する。
二重分岐の利点により、VadCLIPはCLIPからWSVADタスクに事前学習した知識を転送することで、粗粒度と細粒度の両方の動画異常検出を実現する。
我々は2つの一般的なベンチマーク実験を行い、VadCLIPが粗粒度と細粒度の両方で最高の性能を達成し、最先端の手法を大きなマージンで上回っていることを示す。
具体的には、VadCLIPは84.51%APと88.02%AUCをそれぞれXD-ViolenceとUCF-Crimeで達成している。
コードと機能がリリースされ、将来のvad研究が促進される。 The recent contrastive language-image pre-training (CLIP) model has shown great success in a wide range of image-level tasks, revealing remarkable ability for learning powerful visual representations with rich semantics. An open and worthwhile problem is efficiently adapting such a strong model to the video domain and designing a robust video anomaly detector. In this work, we propose VadCLIP, a new paradigm for weakly supervised video anomaly detection (WSVAD) by leveraging the frozen CLIP model directly without any pre-training and fine-tuning process. Unlike current works that directly feed extracted features into the weakly supervised classifier for frame-level binary classification, VadCLIP makes full use of fine-grained associations between vision and language on the strength of CLIP and involves dual branch. One branch simply utilizes visual features for coarse-grained binary classification, while the other fully leverages the fine-grained language-image alignment. With the benefit of dual branch, VadCLIP achieves both coarse-grained and fine-grained video anomaly detection by transferring pre-trained knowledge from CLIP to WSVAD task. We conduct extensive experiments on two commonly-used benchmarks, demonstrating that VadCLIP achieves the best performance on both coarse-grained and fine-grained WSVAD, surpassing the state-of-the-art methods by a large margin. Specifically, VadCLIP achieves 84.51% AP and 88.02% AUC on XD-Violence and UCF-Crime, respectively. Code and features will be released to facilitate future VAD research. | 翻訳日:2023-08-24 17:19:40 公開日:2023-08-22 |
# 模範のない授業インクリメンタル学習のための初期学習戦略の分析 An Analysis of Initial Training Strategies for Exemplar-Free Class-Incremental Learning ( http://arxiv.org/abs/2308.11677v1 ) ライセンス: Link先を確認 | Gr\'egoire Petit, Michael Soumm, Eva Feillet, Adrian Popescu, Bertrand Delezoide, David Picard, C\'eline Hudelot | (参考訳) CIL(Class-Incremental Learning)は、データストリームから分類モデルを構築することを目的としている。
CILプロセスの各ステップでは、新しいクラスをモデルに統合する必要があります。
破滅的な忘れ物のため、過去のクラスの例が保存できない場合、特にCILは難しいです。
現在、ほとんどのアプローチは、CILプロセスのターゲットデータセットのみに基づいている。
しかし、大量のデータに対して自己教師付きで事前訓練されたモデルの使用は、最近勢いを増している。
CILプロセスの初期モデルは、ターゲットデータセットの最初のバッチのみを使用するか、補助データセットで得られたトレーニング済み重量を使用することができる。
これら2つの初期学習戦略の選択は、漸進学習モデルの性能に大きな影響を及ぼすが、まだ深く研究されていない。
パフォーマンスはcilアルゴリズムの選択、ニューラルアーキテクチャ、ターゲットタスクの性質、ストリーム内のクラス分布、学習に利用可能なサンプル数にも影響されている。
これらの要因の役割を評価するための総合的な実験的研究を行う。
本稿では,各因子のインクリメンタルパフォーマンスへの相対的寄与を定量化する統計解析フレームワークを提案する。
我々の主な発見は、最初のトレーニング戦略が平均的な漸進的精度に影響を与える主要な要因であるが、CILアルゴリズムの選択は忘れることを防ぐために重要であることである。
そこで本研究では,段階的な学習用ユースケースに対して,適切な初期訓練戦略を選択するための実践的勧告を提案する。
これらの推奨は、インクリメンタル学習の実用的な展開を促進することを目的としている。 Class-Incremental Learning (CIL) aims to build classification models from data streams. At each step of the CIL process, new classes must be integrated into the model. Due to catastrophic forgetting, CIL is particularly challenging when examples from past classes cannot be stored, the case on which we focus here. To date, most approaches are based exclusively on the target dataset of the CIL process. However, the use of models pre-trained in a self-supervised way on large amounts of data has recently gained momentum. The initial model of the CIL process may only use the first batch of the target dataset, or also use pre-trained weights obtained on an auxiliary dataset. The choice between these two initial learning strategies can significantly influence the performance of the incremental learning model, but has not yet been studied in depth. Performance is also influenced by the choice of the CIL algorithm, the neural architecture, the nature of the target task, the distribution of classes in the stream and the number of examples available for learning. We conduct a comprehensive experimental study to assess the roles of these factors. We present a statistical analysis framework that quantifies the relative contribution of each factor to incremental performance. Our main finding is that the initial training strategy is the dominant factor influencing the average incremental accuracy, but that the choice of CIL algorithm is more important in preventing forgetting. Based on this analysis, we propose practical recommendations for choosing the right initial training strategy for a given incremental learning use case. These recommendations are intended to facilitate the practical deployment of incremental learning. | 翻訳日:2023-08-24 17:19:10 公開日:2023-08-22 |
# 潜在的なアウトカム・フレームワークに基づく手法の推論性能に及ぼす非衝突共変量の影響に関する研究 A Study on the Impact of Non-confounding Covariates on the Inferential Performance of Methods based on the Potential Outcome Framework ( http://arxiv.org/abs/2308.11676v1 ) ライセンス: Link先を確認 | Yonghe Zhao, Shuai Fu, Huiyan Sun | (参考訳) 潜在的なアウトカムフレームワーク(POF)は因果推論の分野で重要な役割を果たしている。
POF(CIMs-B-POF)に基づくほとんどの因果推論モデルは、共起バイアスを排除し、共起共分散の前提となる仮定をデフォルトとするように設計されている。
この仮定は、共変数は共同設立者のみからなることを仮定する。
しかし、特に高次元の共変体を扱う場合、共変体を補足するという仮定は実際は維持することが困難である。
因果推論を行う前に、共変数の異なる成分を区別する特定の方法が提案されているが、非衝突共変数を共同設立者として扱う結果はまだ不明である。
この曖昧さは、CIMs-B-POFを実践シナリオに適用する際の潜在的なリスクをもたらす。
本稿では,CIMs-B-POFのための統一的なグラフィカル・フレームワークを提案する。
本稿では,CIMs-B-POFの推論性能が,機器変数,仲介者,衝突者,調整変数など,多種多様な非衝突共変体に影響を及ぼす程度を定量的に分析する。
主な発見は, 偏見を除去するタスクにおいて, 共同設立者のみを包含する最適なシナリオであり, 反現実的な結果を推測するタスクでは, 調整変数がより正確な推論に寄与する。
さらに、合成データセット上で行われた広範な実験は、これらの理論的な結論を一貫して検証する。 The Potential Outcome Framework (POF) plays a prominent role in the field of causal inference. Most causal inference models based on the POF (CIMs-B-POF) are designed for eliminating confounding bias and default to an underlying assumption of Confounding Covariates. This assumption posits that the covariates consist solely of confounders. However, the assumption of Confounding Covariates is challenging to maintain in practice, particularly when dealing with high-dimensional covariates. While certain methods have been proposed to differentiate the distinct components of covariates prior to conducting causal inference, the consequences of treating non-confounding covariates as confounders remain unclear. This ambiguity poses a potential risk when applying the CIMs-B-POF in practical scenarios. In this paper, we present a unified graphical framework for the CIMs-B-POF, which greatly enhances the comprehension of these models' underlying principles. Using this graphical framework, we quantitatively analyze the extent to which the inference performance of CIMs-B-POF is influenced when incorporating various types of non-confounding covariates, such as instrumental variables, mediators, colliders, and adjustment variables. The key findings are: in the task of eliminating confounding bias, the optimal scenario is for the covariates to exclusively encompass confounders; in the subsequent task of inferring counterfactual outcomes, the adjustment variables contribute to more accurate inferences. Furthermore, extensive experiments conducted on synthetic datasets consistently validate these theoretical conclusions. | 翻訳日:2023-08-24 17:18:46 公開日:2023-08-22 |
# WEARS:リアルタイムセンサーデータを用いたウェアラブル感情AI WEARS: Wearable Emotion AI with Real-time Sensor data ( http://arxiv.org/abs/2308.11673v1 ) ライセンス: Link先を確認 | Dhruv Limbani, Daketi Yatin, Nitish Chaturvedi, Vaishnavi Moorthy, Pushpalatha M, Harichandana BSS | (参考訳) 感情予測は人間の感情を理解するための研究分野である。
既存の手法では、テキスト、音声、表情などのモダリティに重点を置いている。
感情は、被験者の心理的データからも引き出すことができる。
感情認識のための生理的センサの組み合わせを用いた様々なアプローチが提案されている。
しかし、すべてのセンサーは、日常の個人にとって使いやすく便利なものではない。
そこで,スマートウォッチセンサを用いたユーザ感情予測システムを提案する。
我々は、英語と地域語を併用した動画をリアルタイムに収集する枠組みを設計し、参加者の感情を呼び起こし、データを収集する。
さらに,データセットサイズが限られているため,問題をバイナリ分類としてモデル化し,複数の機械学習モデルを実験した。
また、心拍、加速度計、ジャイロセンサーデータなどの特徴が気分に与える影響について、アブレーション調査を行った。
実験結果から、多層パーセプトロンは、不快感(高原子価分類)に対して最大93.75パーセントの精度を示した。 Emotion prediction is the field of study to understand human emotions. Existing methods focus on modalities like text, audio, facial expressions, etc., which could be private to the user. Emotion can be derived from the subject's psychological data as well. Various approaches that employ combinations of physiological sensors for emotion recognition have been proposed. Yet, not all sensors are simple to use and handy for individuals in their daily lives. Thus, we propose a system to predict user emotion using smartwatch sensors. We design a framework to collect ground truth in real-time utilizing a mix of English and regional language-based videos to invoke emotions in participants and collect the data. Further, we modeled the problem as binary classification due to the limited dataset size and experimented with multiple machine-learning models. We also did an ablation study to understand the impact of features including Heart Rate, Accelerometer, and Gyroscope sensor data on mood. From the experimental results, Multi-Layer Perceptron has shown a maximum accuracy of 93.75 percent for pleasant-unpleasant (high/low valence classification) moods. | 翻訳日:2023-08-24 17:18:20 公開日:2023-08-22 |
# パラメトリックベイズモデルに対するシミュレーションに基づく事前知識の導出 Simulation-Based Prior Knowledge Elicitation for Parametric Bayesian Models ( http://arxiv.org/abs/2308.11672v1 ) ライセンス: Link先を確認 | Florence Bockting, Stefan T. Radev, Paul-Christian B\"urkner | (参考訳) ベイズ統計の重要な特徴は、先行知識を様々なモデリングプロセスに一貫して組み込む能力である。
本稿では,ドメインエキスパートの知識をモデルパラメータ上の対応する事前分布に翻訳することに焦点を当てる。
専門家の知識は、生データ、要約統計、モデルパラメータなど、さまざまなフォーマットで表現することができる。
既存の適用方法における大きな課題は、モデル構造に関係なく、専門家の期待に沿う事前分布を定式化するために、これらの異なるフォーマットを効果的に活用する方法である。
これらの課題に対処するために,確率勾配降下を用いた多種多様な専門知識から,任意のパラメトリック事前分布のハイパーパラメータを学習できるシミュレーションベースのエリケーション法を開発した。
線形モデル,一般化線形モデル,階層モデルを含む4つの代表的なケーススタディにおいて,本手法の有効性とロバスト性を検証する。
以上の結果から,本手法は基礎となるモデル構造とほぼ独立であり,分位法,モーメント法,ヒストグラム法など様々な推定手法に適応できるという主張を裏付ける。 A central characteristic of Bayesian statistics is the ability to consistently incorporate prior knowledge into various modeling processes. In this paper, we focus on translating domain expert knowledge into corresponding prior distributions over model parameters, a process known as prior elicitation. Expert knowledge can manifest itself in diverse formats, including information about raw data, summary statistics, or model parameters. A major challenge for existing elicitation methods is how to effectively utilize all of these different formats in order to formulate prior distributions that align with the expert's expectations, regardless of the model structure. To address these challenges, we develop a simulation-based elicitation method that can learn the hyperparameters of potentially any parametric prior distribution from a wide spectrum of expert knowledge using stochastic gradient descent. We validate the effectiveness and robustness of our elicitation method in four representative case studies covering linear models, generalized linear models, and hierarchical models. Our results support the claim that our method is largely independent of the underlying model structure and adaptable to various elicitation techniques, including quantile-based, moment-based, and histogram-based methods. | 翻訳日:2023-08-24 17:18:04 公開日:2023-08-22 |
# 組織およびアッセイ埋め込みを用いたエピジェノム予測のための一般化配列モデル Generalising sequence models for epigenome predictions with tissue and assay embeddings ( http://arxiv.org/abs/2308.11671v1 ) ライセンス: Link先を確認 | Jacob Deasy, Ron Schwessinger, Ferran Gonzalez, Stephen Young, Kim Branson | (参考訳) エピジェネティックプロファイル予測のためのシーケンスモデリングアプローチは、最近、シーケンス長、モデルサイズ、プロファイル多様性の観点から拡張されている。
しかし、現在のモデルでは、文脈情報の使用が不十分なため、多くの実験的に実現可能な組織やアッセイペアを推測することはできず、規制ゲノム学の理解に$\textit{in silico} を制限している。
我々は, 組織とアッセイをコンテクスト化ゲノムネットワーク(cgn)に組み込むことにより, 幅広い実験条件において強い相関が達成できることを実証する。
従来の手法とは対照的に、出力空間を広げるのではなく、入力空間に文脈情報を含む長距離シーケンス埋め込みを強化する。
我々は、エピジェネティックなプロファイルの幅広いセットにまたがるアプローチの有効性を示し、エピジェネティックなシーケンスモデルトレーニングにおける遺伝的変異の影響に関する最初の知見を提供する。
コンテキスト統合に対する一般的なアプローチは、より厳密な検証手順を採用しながら、複数の設定でアートの状態を超えます。 Sequence modelling approaches for epigenetic profile prediction have recently expanded in terms of sequence length, model size, and profile diversity. However, current models cannot infer on many experimentally feasible tissue and assay pairs due to poor usage of contextual information, limiting $\textit{in silico}$ understanding of regulatory genomics. We demonstrate that strong correlation can be achieved across a large range of experimental conditions by integrating tissue and assay embeddings into a Contextualised Genomic Network (CGN). In contrast to previous approaches, we enhance long-range sequence embeddings with contextual information in the input space, rather than expanding the output space. We exhibit the efficacy of our approach across a broad set of epigenetic profiles and provide the first insights into the effect of genetic variants on epigenetic sequence model training. Our general approach to context integration exceeds state of the art in multiple settings while employing a more rigorous validation procedure. | 翻訳日:2023-08-24 17:17:44 公開日:2023-08-22 |
# 近似鎖に対する滑らかな min-エントロピー下界 Smooth min-entropy lower bounds for approximation chains ( http://arxiv.org/abs/2308.11736v1 ) ライセンス: Link先を確認 | Ashutosh Marwah and Fr\'ed\'eric Dupuis | (参考訳) 状態$\rho_{a_1^n b}$ に対して、一連の状態$(\sigma_{a_1^k b}^{(k)})_{k=1}^n$ が近似チェーンであるとは、各 1 \leq k \leq n$, $\rho_{a_1^k b} \approx_\epsilon \sigma_{a_1^k b}^{(k)}$ に対してである。
一般に、そのような$\rho_{A_1^n B}$の滑らかなミンエントロピーを、非常に大きなペナルティ因子を伴わない$\sigma_{A_1^k B}^{(k)}$のエントロピーで下げることはできない。
本稿では,そのような近似連鎖を仮定して検討する。
まず単純なエントロピー三角形の不等式を証明し、任意の補助状態の R'enyi エントロピーの観点から状態の滑らかなミニエントロピーを2つの間の滑らかな最大相対エントロピーを考慮に入れられるようにする。
この三角形の不等式を用いて、様々なシナリオにおける近似連鎖のエントロピーの観点から、状態の滑らかなミニエントロピーに対する下界を生成する。
特に,この手法を用いてエントロピー蓄積の近似バージョンを証明し,量子鍵分布におけるソース相関問題の解を提供する。 For a state $\rho_{A_1^n B}$, we call a sequence of states $(\sigma_{A_1^k B}^{(k)})_{k=1}^n$ an approximation chain if for every $1 \leq k \leq n$, $\rho_{A_1^k B} \approx_\epsilon \sigma_{A_1^k B}^{(k)}$. In general, it is not possible to lower bound the smooth min-entropy of such a $\rho_{A_1^n B}$, in terms of the entropies of $\sigma_{A_1^k B}^{(k)}$ without incurring very large penalty factors. In this paper, we study such approximation chains under additional assumptions. We begin by proving a simple entropic triangle inequality, which allows us to bound the smooth min-entropy of a state in terms of the R\'enyi entropy of an arbitrary auxiliary state while taking into account the smooth max-relative entropy between the two. Using this triangle inequality, we create lower bounds for the smooth min-entropy of a state in terms of the entropies of its approximation chain in various scenarios. In particular, utilising this approach, we prove an approximate version of entropy accumulation and also provide a solution to the source correlation problem in quantum key distribution. | 翻訳日:2023-08-24 17:09:45 公開日:2023-08-22 |
# 遠方における深部顔ランキングにおける(un)fair露光 (Un)fair Exposure in Deep Face Rankings at a Distance ( http://arxiv.org/abs/2308.11732v1 ) ライセンス: Link先を確認 | Andrea Atzori, Gianni Fenu, Mirko Marras | (参考訳) 法執行機関は、顔画像から容疑者をランク付けするという課題に直面している。
ディープフェイスモデルは、このプロセスに役立つが、特定の人口構成に不均等に影響を及ぼすバイアスをしばしば導入する。
就職候補者ランキングのような領域では偏見調査が一般的であるが、法医学的な顔のランキングの分野はいまだに未調査である。
本稿では,6つの最先端顔エンコーダと2つの公開データセットを包含する,新たな実験フレームワークを提案する。
再識別作業と識別作業の両方をカバーする総合的な実験を通じて、この領域内の露光バイアスは対処されるには程遠いことを示し、アドホックな政策の確立と修正措置に注意を払っている。
ソースコードはhttps://github.com/atzoriandrea/ijcb2023-unfair-face- ranksで入手できる。 Law enforcement regularly faces the challenge of ranking suspects from their facial images. Deep face models aid this process but frequently introduce biases that disproportionately affect certain demographic segments. While bias investigation is common in domains like job candidate ranking, the field of forensic face rankings remains underexplored. In this paper, we propose a novel experimental framework, encompassing six state-of-the-art face encoders and two public data sets, designed to scrutinize the extent to which demographic groups suffer from biases in exposure in the context of forensic face rankings. Through comprehensive experiments that cover both re-identification and identification tasks, we show that exposure biases within this domain are far from being countered, demanding attention towards establishing ad-hoc policies and corrective measures. The source code is available at https://github.com/atzoriandrea/ijcb2023-unfair-face-rankings | 翻訳日:2023-08-24 17:09:09 公開日:2023-08-22 |
# 多文書質問応答のための知識グラフプロンプト Knowledge Graph Prompting for Multi-Document Question Answering ( http://arxiv.org/abs/2308.11730v1 ) ライセンス: Link先を確認 | Yu Wang, Nedim Lipka, Ryan A. Rossi, Alexa Siu, Ruiyi Zhang, Tyler Derr | (参考訳) 大規模言語モデル(LLM)の'事前訓練,プロンプト,予測'パラダイムは,オープンドメイン質問応答(OD-QA)において大きな成功を収めた。
しかし、多文書質問応答(MD-QA)のシナリオにおいて、異なる文書の内容と構造間の論理的関連を徹底的に理解するタスクにおいて、このパラダイムを探求する研究はほとんどない。
この重要なギャップを埋めるために,我々は,グラフ構築モジュールとグラフトラバーサルモジュールからなるMD-QA用LLMの適切なコンテキストを定式化するための知識グラフプロンプト法(KGP)を提案する。
グラフ構築のために、複数の文書に、通路や文書構造(例えば、ページ/テーブル)を象徴するノードと、通路や文書内構造関係間の意味的・語彙的類似性を表すエッジを持つ知識グラフ(KG)を作成する。
グラフトラバーサルでは,ノード間を走行するLM誘導グラフトラバーサを設計し,MD-QAでLLMを支援する支援通路を収集する。
構築されたグラフは、通路間の遷移空間を規制し、検索遅延を減少させる大域的定規として機能する。
同時に、LM誘導トラバーサは、関連するコンテキストを収集し、質問に徐々にアプローチし、検索品質を保証するローカルナビゲータとして機能する。
MD-QAに対するKGPの有効性は、LLMの迅速な設計を強化するためにグラフを活用する可能性を示している。
私たちのコードはhttps://github.com/YuWVandy/KG-LLM-MDQAにあります。 The 'pre-train, prompt, predict' paradigm of large language models (LLMs) has achieved remarkable success in open-domain question answering (OD-QA). However, few works explore this paradigm in the scenario of multi-document question answering (MD-QA), a task demanding a thorough understanding of the logical associations among the contents and structures of different documents. To fill this crucial gap, we propose a Knowledge Graph Prompting (KGP) method to formulate the right context in prompting LLMs for MD-QA, which consists of a graph construction module and a graph traversal module. For graph construction, we create a knowledge graph (KG) over multiple documents with nodes symbolizing passages or document structures (e.g., pages/tables), and edges denoting the semantic/lexical similarity between passages or intra-document structural relations. For graph traversal, we design an LM-guided graph traverser that navigates across nodes and gathers supporting passages assisting LLMs in MD-QA. The constructed graph serves as the global ruler that regulates the transitional space among passages and reduces retrieval latency. Concurrently, the LM-guided traverser acts as a local navigator that gathers pertinent context to progressively approach the question and guarantee retrieval quality. Extensive experiments underscore the efficacy of KGP for MD-QA, signifying the potential of leveraging graphs in enhancing the prompt design for LLMs. Our code is at https://github.com/YuWVandy/KG-LLM-MDQA. | 翻訳日:2023-08-24 17:08:53 公開日:2023-08-22 |
# 2つのリストは1より優れているか?
共同意思決定における利益とハーム When Are Two Lists Better than One?: Benefits and Harms in Joint Decision-making ( http://arxiv.org/abs/2308.11721v1 ) ライセンス: Link先を確認 | Kate Donahue, Kostas Kollias, Sreenivas Gollapudi | (参考訳) 歴史的に、機械学習の研究の多くはアルゴリズムの性能だけに焦点を当ててきたが、近年は人間-アルゴリズムの協調性能の最適化に注目が集まっている。
ここでは,アルゴリズムが1組の$n$アイテムにアクセス可能な,特定のタイプの人間とアルゴリズムのコラボレーションを分析し,その中の最終項目を選択した人に$k$のサブセットを提示する。
このシナリオは、コンテンツのレコメンデーション、ルート計画、どんな種類のラベル付けタスクでもモデル化できる。
人間とアルゴリズムのどちらも、アイテムの真の順序に関する不完全でノイズの多い情報を持っているので、鍵となる疑問は次のとおりである:$k$の値が最終的にベストアイテムが選択される確率を最大化するか?
$k=1$の場合、パフォーマンスはアルゴリズム単独で最適化され、$k=n$の場合、人間単独で最適化される。
驚いたことに、複数のノイズモデルに対して、$k \in [2, n-1]$ - を設定するのが最適である。
理論的には、Mallowsモデルに対して、およびノイズ置換のランダムユーティリティモデルに対して実験的にこれを実証する。
しかし、このパターンは、人間が提示されたアルゴリズムの順序に固定されているときに反転することを示している。
これらの結果は、人間とアルゴリズムが精度のレベルで異なる場合まで拡張し、より正確なエージェントがより正確でないエージェントとのコラボレーションによって厳密に利益を得るような体制が常に存在することを示したが、これらの制度は人間とアルゴリズムの精度の間に非対称である。 Historically, much of machine learning research has focused on the performance of the algorithm alone, but recently more attention has been focused on optimizing joint human-algorithm performance. Here, we analyze a specific type of human-algorithm collaboration where the algorithm has access to a set of $n$ items, and presents a subset of size $k$ to the human, who selects a final item from among those $k$. This scenario could model content recommendation, route planning, or any type of labeling task. Because both the human and algorithm have imperfect, noisy information about the true ordering of items, the key question is: which value of $k$ maximizes the probability that the best item will be ultimately selected? For $k=1$, performance is optimized by the algorithm acting alone, and for $k=n$ it is optimized by the human acting alone. Surprisingly, we show that for multiple of noise models, it is optimal to set $k \in [2, n-1]$ - that is, there are strict benefits to collaborating, even when the human and algorithm have equal accuracy separately. We demonstrate this theoretically for the Mallows model and experimentally for the Random Utilities models of noisy permutations. However, we show this pattern is reversed when the human is anchored on the algorithm's presented ordering - the joint system always has strictly worse performance. We extend these results to the case where the human and algorithm differ in their accuracy levels, showing that there always exist regimes where a more accurate agent would strictly benefit from collaborating with a less accurate one, but these regimes are asymmetric between the human and the algorithm's accuracy. | 翻訳日:2023-08-24 17:08:26 公開日:2023-08-22 |
# 散逸測定によるマグノン系量子ビットカップリング Magnon-mediated qubit coupling determined via dissipation measurements ( http://arxiv.org/abs/2308.11710v1 ) ライセンス: Link先を確認 | Masaya Fukami, Jonathan C. Marcks, Denis R. Candido, Leah R. Weiss, Benjamin Soloway, Sean E. Sullivan, Nazar Delegan, F. Joseph Heremans, Michael E. Flatt\'e, and David D. Awschalom | (参考訳) 局所的および非局在的な固体スピンシステム間の制御された相互作用は、量子スピントロニクスを用いたオンチップ量子情報処理のための魅力的なプラットフォームを提供する。
ダイヤモンド中の局在窒素空洞(nv)中心のハイブリッド量子システム(hqss)と、自然に共役エネルギーを持つ強磁性体系における非局在マグノンモードは、近年、特に双極子カップリングによって設定された長大なスケールで孤立スピン量子ビットを相互接続することにおいて、大きな注目を集めている。
しかし、広範な理論的な努力にもかかわらず、そのようなハイブリッド量子アーキテクチャの開発に必要なNV中心間のマグノン媒介相互作用の実験的特徴が欠如している。
ここでは,マグノンによるNV中心の自己エネルギーからマグノンを介するNV-NV結合を実験的に決定する。
この結果は、NV中心が双極子相互作用によってマグノンと結合するモデルと定量的に一致している。
この研究はHQSを強力な結合がない場合に特徴付ける汎用的なツールを提供し、絡み合った固体システムを設計するための将来の取り組みを知らせる。 Controlled interaction between localized and delocalized solid-state spin systems offers a compelling platform for on-chip quantum information processing with quantum spintronics. Hybrid quantum systems (HQSs) of localized nitrogen-vacancy (NV) centers in diamond and delocalized magnon modes in ferrimagnets-systems with naturally commensurate energies-have recently attracted significant attention, especially for interconnecting isolated spin qubits at length-scales far beyond those set by the dipolar coupling. However, despite extensive theoretical efforts, there is a lack of experimental characterization of the magnon-mediated interaction between NV centers, which is necessary to develop such hybrid quantum architectures. Here, we experimentally determine the magnon-mediated NV-NV coupling from the magnon-induced self-energy of NV centers. Our results are quantitatively consistent with a model in which the NV center is coupled to magnons by dipolar interactions. This work provides a versatile tool to characterize HQSs in the absence of strong coupling, informing future efforts to engineer entangled solid-state systems. | 翻訳日:2023-08-24 17:07:45 公開日:2023-08-22 |
# 適応変分量子固有解法における階層化とサブプール探索 : 回路の深さ、実行時間、ノイズ感受性の低減 Layering and subpool exploration for adaptive Variational Quantum Eigensolvers: Reducing circuit depth, runtime, and susceptibility to noise ( http://arxiv.org/abs/2308.11708v1 ) ライセンス: Link先を確認 | Christopher K. Long, Kieran Dalton, Crispin H. W. Barnes, David R. M. Arvidsson-Shukur, Normann Mertig | (参考訳) 適応変分量子固有解法(ADAPT-VQEs)は、近未来の量子ハードウェア上での強い相関系のシミュレーションの候補である。
これらのアルゴリズムのノイズレジリエンスをさらに向上させるため、最近の取り組みはansatz回路の小型化や層化に向けられている。
ここでは,アルゴリズム階層化プロセスの理解を3つの方法で拡大する。
まず、ADAPT-VQE ans\atzeを構築するために使用される異なる要素間の非交換関係について検討する。
そこで我々は,より浅い回路を生成する階層化アルゴリズムの研究と開発のためのフレームワークを開発した。
第二に、このフレームワークに基づき、変動量子アルゴリズムがアンサッツ要素を付加する選択手順を最適化することにより、量子プロセッサ呼び出し数を削減できる新しいサブルーチンを開発した。
第3に,adapt-vqeアルゴリズムの回路を階層化することで得られる雑音耐性改善の詳細な数値的検討を行う。
階層化は振幅減衰やノイズの強調に関してノイズのレジリエンスが向上し、一般にアイドリングや非アイドリングクビットにも影響を与えることが判明した。
アクティブに操作される量子ビットのみに影響を与える傾向がある非分極ノイズに関しては,層化の利点は認められない。 Adaptive variational quantum eigensolvers (ADAPT-VQEs) are promising candidates for simulations of strongly correlated systems on near-term quantum hardware. To further improve the noise resilience of these algorithms, recent efforts have been directed towards compactifying, or layering, their ansatz circuits. Here, we broaden the understanding of the algorithmic layering process in three ways. First, we investigate the non-commutation relations between the different elements that are used to build ADAPT-VQE ans\"atze. Doing so, we develop a framework for studying and developing layering algorithms, which produce shallower circuits. Second, based on this framework, we develop a new subroutine that can reduce the number of quantum-processor calls by optimizing the selection procedure with which a variational quantum algorithm appends ansatz elements. Third, we provide a thorough numerical investigation of the noise-resilience improvement available via layering the circuits of ADAPT-VQE algorithms. We find that layering leads to an improved noise resilience with respect to amplitude-damping and dephasing noise, which, in general, affect idling and non-idling qubits alike. With respect to depolarizing noise, which tends to affect only actively manipulated qubits, we observe no advantage of layering. | 翻訳日:2023-08-24 17:07:23 公開日:2023-08-22 |
# 最も単純な線形ランプは何ですか? What is the Simplest Linear Ramp? ( http://arxiv.org/abs/2308.11704v1 ) ライセンス: Link先を確認 | Suman Das, Sumit K. Garg, Chethan Krishnan, Arnab Kundu | (参考訳) 本稿では、ハミルトニアンの固有値の集合として解釈される実数の決定論的列が、通常ランダム行列スペクトルに関連する特徴を示すことができる条件について論じる。
重要な診断はスペクトルフォームファクター(SFF)であり、SFFの線形ランプはランダムな行列の振る舞いのシグネチャと見なされることが多い。
様々な明示的な例に基づき、線形およびパワーの法則が決定論的スペクトルに現れる条件を観測する。
線形ランプを持つ非常に単純なスペクトルは$E_n \sim \log n$である。
ランプの存在にもかかわらず、これらのシーケンスは従来のレベルの反発を示す$$$$であり、それらの並行性に関する伝承が洗練する必要があることを示している。
しかし、スペクトルに小さなノイズ補正を加えると、(線形)ランプと同様にクリアレベルの反発につながる。
対数スペクトルの顕著な特徴は、それらの線形ランプとは別に、それらはブラックホールの伸びた水平線の通常のモードと密接に関連しており、引数 $s=\beta+it$ の分割関数はリーマンゼータ函数 $\zeta(s)$ である。
直接の結果、スペクトル形式因子は単に$\sim |\zeta(it)|^2$である。
ログスペクトルが線形ランプを持つという観察は、ゼータ関数の成長に関するリンデルの仮説と密接に関連している。
基本数値では、ログプロット上の最良の適合線の勾配が、実際には、第4の十進数に対して$|\zeta(it)|^2$であることを示す。
また、リーマンゼータ関数の和を有限整数 $n$ で切り切ると、高原で無限のランプが終わることに注意する。 We discuss conditions under which a deterministic sequence of real numbers, interpreted as the set of eigenvalues of a Hamiltonian, can exhibit features usually associated to random matrix spectra. A key diagnostic is the spectral form factor (SFF) -- a linear ramp in the SFF is often viewed as a signature of random matrix behavior. Based on various explicit examples, we observe conditions for linear and power law ramps to arise in deterministic spectra. We note that a very simple spectrum with a linear ramp is $E_n \sim \log n$. Despite the presence of ramps, these sequences do $not$ exhibit conventional level repulsion, demonstrating that the lore about their concurrence needs refinement. However, when a small noise correction is added to the spectrum, they lead to clear level repulsion as well as the (linear) ramp. We note some remarkable features of logarithmic spectra, apart from their linear ramps: they are closely related to normal modes of black hole stretched horizons, and their partition function with argument $s=\beta+it$ is the Riemann zeta function $\zeta(s)$. An immediate consequence is that the spectral form factor is simply $\sim |\zeta(it)|^2$. Our observation that log spectra have a linear ramp, is closely related to the Lindel\"of hypothesis on the growth of the zeta function. With elementary numerics, we check that the slope of a best fit line through $|\zeta(it)|^2$ on a log-log plot is indeed $1$, to the fourth decimal. We also note that truncating the Riemann zeta function sum at a finite integer $N$ causes the would-be-eternal ramp to end on a plateau. | 翻訳日:2023-08-24 17:07:01 公開日:2023-08-22 |
# SuperCalo:カロリメータシャワーの超高解像度化 SuperCalo: Calorimeter shower super-resolution ( http://arxiv.org/abs/2308.11700v1 ) ライセンス: Link先を確認 | Ian Pang, John Andrew Raine, David Shih | (参考訳) カロリメータシャワーシミュレーションは、大型ハドロン衝突型加速器計算パイプラインの主要なボトルネックである。
近年,この課題を克服するために,深部的なサロゲートモデルの採用が試みられている。
しかし、優れたパフォーマンスモデルの多くは、高次元のカロリーメータシャワーにうまくスケールしないトレーニングと生成時間を持っている。
本研究では,フローベース超解像モデルであるSuperCaloを導入し,粗粒のシャワーから高次元の微粒なカロリーメータシャワーを素早くアップサンプリングできることを実証した。
この新しいアプローチは、計算コスト、メモリ要件、高速なカロリメータシミュレーションモデルに関連する生成時間を削減する方法を示す。
さらに,SuperCaloによってサンプリングされたシャワーには,高いばらつきがあることが判明した。
これにより、多数の高次元のカロリーメータシャワーが、非常に少ない粗いシャワーと高忠実度でアップサンプリングされ、結果として生成時間が短縮される。 Calorimeter shower simulation is a major bottleneck in the Large Hadron Collider computational pipeline. There have been recent efforts to employ deep-generative surrogate models to overcome this challenge. However, many of best performing models have training and generation times that do not scale well to high-dimensional calorimeter showers. In this work, we introduce SuperCalo, a flow-based super-resolution model, and demonstrate that high-dimensional fine-grained calorimeter showers can be quickly upsampled from coarse-grained showers. This novel approach presents a way to reduce computational cost, memory requirements and generation time associated with fast calorimeter simulation models. Additionally, we show that the showers upsampled by SuperCalo possess a high degree of variation. This allows a large number of high-dimensional calorimeter showers to be upsampled from much fewer coarse showers with high-fidelity, which results in additional reduction in generation time. | 翻訳日:2023-08-24 17:06:31 公開日:2023-08-22 |
# 局在量子場理論からの粒子検出器 Particle Detectors from Localized Quantum Field Theories ( http://arxiv.org/abs/2308.11698v1 ) ライセンス: Link先を確認 | T. Rick Perche, Jos\'e Polo-G\'omez, Bruno de S. L. Torres, Eduardo Mart\'in-Mart\'inez | (参考訳) 量子場理論における局所化プローブに対する完全相対論的モデルを提案する。
さらに、自由量子場と相互作用する局所量子場理論から粒子検出器モデルを得ることが可能であることを示す。
特に、局所化された場の到達不能な自由度をトレースすると、粒子検出器モデルが得られる。
これにより、粒子検出器モデル、すなわち、時空の拡張領域における自由場理論と結合する量子自由度が生じる。
さらに, 従来の粒子検出器モデルと完全相対論的局所場との予測は摂動理論の指導次数と完全に一致することを示した。 We present a fully relativistic model for localized probes in quantum field theory. Furthermore, we show that it is possible to obtain particle detector models from localized quantum field theories that interact with a free quantum field. In particular, a particle detector model is obtained when one traces out over inaccessible degrees of freedom of the localized field. This gives rise to a particle detector model, that is, a quantum degree of freedom that couples to a free field theory in an extended region of spacetime. Moreover, we show that the predictions of traditional particle detector models and fully relativistic localized fields completely coincide to leading order in perturbation theory. | 翻訳日:2023-08-24 17:06:15 公開日:2023-08-22 |
# 3ET:Change-based ConvLSTM Networkを用いた効率的なイベントベースアイトラッキング 3ET: Efficient Event-based Eye Tracking using a Change-Based ConvLSTM Network ( http://arxiv.org/abs/2308.11771v1 ) ライセンス: Link先を確認 | Qinyu Chen, Zuowen Wang, Shih-Chii Liu, Chang Gao | (参考訳) 本稿では,AR/VRヘッドセットなどの次世代ウェアラブル医療技術の鍵となる,イベントベースの視線追跡のためのスパースチェンジベース畳み込み長短期記憶(CB-ConvLSTM)モデルを提案する。
我々は、retinaにインスパイアされたイベントカメラの利点、すなわち低遅延応答とスパースな出力イベントストリームを、従来のフレームベースのカメラよりも活用する。
我々のCB-ConvLSTMアーキテクチャは,従来のCNN構造より優れた,イベントストリームからの瞳孔追跡のための時空間的特徴を効率的に抽出する。
CB-ConvLSTMは、デルタ符号化されたリカレントパスによるアクティベーション間隔の増強を利用して、ラベル付き瞳孔のイベントデータセットでテストした場合、精度を損なうことなく算術演算を約4.7$\times$に削減する。
この効率の向上は、リソース制約のあるデバイスのリアルタイムアイトラッキングに理想的だ。
プロジェクトコードとデータセットは \url{https://github.com/qinche106/cb-convlstm-eyetracking} で公開されている。 This paper presents a sparse Change-Based Convolutional Long Short-Term Memory (CB-ConvLSTM) model for event-based eye tracking, key for next-generation wearable healthcare technology such as AR/VR headsets. We leverage the benefits of retina-inspired event cameras, namely their low-latency response and sparse output event stream, over traditional frame-based cameras. Our CB-ConvLSTM architecture efficiently extracts spatio-temporal features for pupil tracking from the event stream, outperforming conventional CNN structures. Utilizing a delta-encoded recurrent path enhancing activation sparsity, CB-ConvLSTM reduces arithmetic operations by approximately 4.7$\times$ without losing accuracy when tested on a \texttt{v2e}-generated event dataset of labeled pupils. This increase in efficiency makes it ideal for real-time eye tracking in resource-constrained devices. The project code and dataset are openly available at \url{https://github.com/qinche106/cb-convlstm-eyetracking}. | 翻訳日:2023-08-24 17:01:22 公開日:2023-08-22 |
# Halo: オープンソースの弱言語モデルにおける幻覚の推定と削減 Halo: Estimation and Reduction of Hallucinations in Open-Source Weak Large Language Models ( http://arxiv.org/abs/2308.11764v1 ) ライセンス: Link先を確認 | Mohamed Elaraby, Mengyin Lu, Jacob Dunn, Xueying Zhang, Yu Wang, Shizhu Liu | (参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした。
研究や実用化には便利だが、パラメータが少ないオープンソースのLLMは、より大きなものに比べて深刻な幻覚に悩まされることが多い。
本稿では,研究用および商用用として公開されている,より弱いオープンソースLLMの代表であるBLOOM 7Bの幻覚の測定と低減に焦点をあてる。
我々は,LLMにおける幻覚の重症度を定量化する軽量なブラックボックス知識フリーフレームワークであるHaloCheckを紹介する。
さらに,低パラメータLDMにおける幻覚を軽減するための知識注入や教師の指導的アプローチなどの手法についても検討する。
本実験は,これらのLSMに対する挑戦領域における幻覚の減少を効果的に示すものである。 Large Language Models (LLMs) have revolutionized Natural Language Processing (NLP). Although convenient for research and practical applications, open-source LLMs with fewer parameters often suffer from severe hallucinations compared to their larger counterparts. This paper focuses on measuring and reducing hallucinations in BLOOM 7B, a representative of such weaker open-source LLMs that are publicly available for research and commercial applications. We introduce HaloCheck, a lightweight BlackBox knowledge-free framework designed to quantify the severity of hallucinations in LLMs. Additionally, we explore techniques like knowledge injection and teacher-student approaches to alleviate hallucinations in low-parameter LLMs. Our experiments effectively demonstrate the reduction of hallucinations in challenging domains for these LLMs. | 翻訳日:2023-08-24 17:00:59 公開日:2023-08-22 |
# 乱流環境における弱教師付き顔と全身認識 Weakly Supervised Face and Whole Body Recognition in Turbulent Environments ( http://arxiv.org/abs/2308.11757v1 ) ライセンス: Link先を確認 | Kshitij Nikhal, Benjamin S. Riggan | (参考訳) 顔と人物の認識は、最近、オフポスやクロススペクトラムマッチングといった困難なシナリオで顕著な成功を収めている。
しかし、長距離認識システムは、しばしば大気の乱流によって妨げられ、画像の空間的および時間的歪みに繋がる。
現在の解決策は、乱れのない画像を再構成するために生成モデルに依存するが、認識に不可欠な識別的特徴ではなく、しばしばフォトリアリズムを保存する。
これは、最適な再構成に必要な乱流と原始のペア画像の大規模なデータセットが欠如していることに起因する。
この問題に対処するために,パラメータ効率のよい自己アテンションモジュールを用いて,領域非依存な表現を生成し,乱流画像とpristine画像を共通部分空間に整列する,新たな弱教師付きフレームワークを提案する。
さらに,乱流画像で観測される幾何歪みを予測する新しい傾きマップ推定器を導入する。
この推定値はギャラリーマッチの再ランク付けに使われ、結果としてランク1の精度が最大13.86\%向上する。
提案手法では, 乱流のない画像や地対画像の合成は必要とせず, 注釈付きサンプルが著しく少なくなり, 大規模データセットの実用的, 迅速な利用が可能となった。
我々はLong-Range Face Identification Dataset (LRFID) とBRIAR Government Collection 1 (BGC1) の2つのデータセットを用いてフレームワークを解析し、乱流と待機距離の変化による識別性の向上を実現する。 Face and person recognition have recently achieved remarkable success under challenging scenarios, such as off-pose and cross-spectrum matching. However, long-range recognition systems are often hindered by atmospheric turbulence, leading to spatially and temporally varying distortions in the image. Current solutions rely on generative models to reconstruct a turbulent-free image, but often preserve photo-realism instead of discriminative features that are essential for recognition. This can be attributed to the lack of large-scale datasets of turbulent and pristine paired images, necessary for optimal reconstruction. To address this issue, we propose a new weakly supervised framework that employs a parameter-efficient self-attention module to generate domain agnostic representations, aligning turbulent and pristine images into a common subspace. Additionally, we introduce a new tilt map estimator that predicts geometric distortions observed in turbulent images. This estimate is used to re-rank gallery matches, resulting in up to 13.86\% improvement in rank-1 accuracy. Our method does not require synthesizing turbulent-free images or ground-truth paired images, and requires significantly fewer annotated samples, enabling more practical and rapid utility of increasingly large datasets. We analyze our framework using two datasets -- Long-Range Face Identification Dataset (LRFID) and BRIAR Government Collection 1 (BGC1) -- achieving enhanced discriminability under varying turbulence and standoff distance. | 翻訳日:2023-08-24 17:00:49 公開日:2023-08-22 |
# VBMO:投票に基づく多目的パス計画 VBMO: Voting-Based Multi-Objective Path Planning ( http://arxiv.org/abs/2308.11755v1 ) ライセンス: Link先を確認 | Raj Korpan | (参考訳) 本稿では, 最適単一目的計画を作成し, 他の目的に対する評価を行い, 投票機構で選択する, 投票ベースの多目的経路計画アルゴリズムvbmoを提案する。
VBMOは手動の重みを使用せず、探索の各段階で複数の目的を考慮せず、進化的アルゴリズムも使用していない。
その代わり、ある目的において最適な計画が他の目的に対してうまく機能するかを考える。
VBMOには、範囲、ボルダ、承認の組み合わせの3つの投票メカニズムが組み込まれている。
多様な複雑な環境における広範囲な評価は、アルゴリズムが複数の目的を満たすプランを効率的に作成する能力を示している。 This paper presents VBMO, the Voting-Based Multi-Objective path planning algorithm, that generates optimal single-objective plans, evaluates each of them with respect to the other objectives, and selects one with a voting mechanism. VBMO does not use hand-tuned weights, consider the multiple objectives at every step of search, or use an evolutionary algorithm. Instead, it considers how a plan that is optimal in one objective may perform well with respect to others. VBMO incorporates three voting mechanisms: range, Borda, and combined approval. Extensive evaluation in diverse and complex environments demonstrates the algorithm's ability to efficiently produce plans that satisfy multiple objectives. | 翻訳日:2023-08-24 17:00:24 公開日:2023-08-22 |
# gnnに基づく悪意領域検出に対するマルチインスタンス攻撃 Multi-Instance Adversarial Attack on GNN-Based Malicious Domain Detection ( http://arxiv.org/abs/2308.11754v1 ) ライセンス: Link先を確認 | Mahmoud Nazzal, Issa Khalil, Abdallah Khreishah, NhatHai Phan, and Yao Ma | (参考訳) 悪意のあるドメイン検出(mdd)は、インターネットドメインがサイバー攻撃に関連しているかどうかを検出するオープンセキュリティチャレンジである。
この問題に対する多くのアプローチの中で、グラフニューラルネットワーク(GNN)は非常に効果的であると考えられている。
GNNベースのMDDは、悪意のあるグラフ(DMG)のノードとしてインターネットドメインを表すためにDNSログを使用し、悪意のあるドメインを識別して悪意のあるドメインを推測するためにGNNを訓練する。
この方法は、DMGを構築するためにアクセス可能なDNSログに依存するため、敵がDMG内のドメインノードの機能や接続を操作する脆弱性を公開する。
既存の研究は主に個々の攻撃ノードを操作する脅威モデルに集中している。
しかし、敵は通常、経済的に目的を達成し、検出を避けるために複数のドメインを生成する。
彼らの目的は、できるだけ多くのドメインにわたる発見を避けることである。
本研究では,DMG内の複数のノードを同時に操作する攻撃をマルチインスタンス回避攻撃と呼ぶ。
我々は,既存の単一インスタンス回避技術が,GNNベースのMDDに対するマルチインスタンス回避攻撃に不十分であるという理論的および実証的な証拠を提示する。
そこで我々は,GNNベースのMDDに対する推論時マルチインスタンス攻撃であるMintAを紹介する。
mintaは、最適化された摂動によってノードと近傍の回避性を強化し、ターゲットモデルへのブラックボックスのみアクセスでうまく動作し、モデルの仕様や非敵ノードに関する知識を不要にする。
我々はMintAの最適化課題を定式化し、近似解を実現する。
実世界のデータを用いたGNNベースのMDD技術でMintAを評価すると、攻撃成功率は80%を超えている。
これらの発見はセキュリティ専門家にとって警告となり、gnnベースのmddがそれらの効果と利益を損なう実用的な攻撃に対する感受性を強調する。 Malicious domain detection (MDD) is an open security challenge that aims to detect if an Internet domain is associated with cyber-attacks. Among many approaches to this problem, graph neural networks (GNNs) are deemed highly effective. GNN-based MDD uses DNS logs to represent Internet domains as nodes in a maliciousness graph (DMG) and trains a GNN to infer their maliciousness by leveraging identified malicious domains. Since this method relies on accessible DNS logs to construct DMGs, it exposes a vulnerability for adversaries to manipulate their domain nodes' features and connections within DMGs. Existing research mainly concentrates on threat models that manipulate individual attacker nodes. However, adversaries commonly generate multiple domains to achieve their goals economically and avoid detection. Their objective is to evade discovery across as many domains as feasible. In this work, we call the attack that manipulates several nodes in the DMG concurrently a multi-instance evasion attack. We present theoretical and empirical evidence that the existing single-instance evasion techniques for are inadequate to launch multi-instance evasion attacks against GNN-based MDDs. Therefore, we introduce MintA, an inference-time multi-instance adversarial attack on GNN-based MDDs. MintA enhances node and neighborhood evasiveness through optimized perturbations and operates successfully with only black-box access to the target model, eliminating the need for knowledge about the model's specifics or non-adversary nodes. We formulate an optimization challenge for MintA, achieving an approximate solution. Evaluating MintA on a leading GNN-based MDD technique with real-world data showcases an attack success rate exceeding 80%. These findings act as a warning for security experts, underscoring GNN-based MDDs' susceptibility to practical attacks that can undermine their effectiveness and benefits. | 翻訳日:2023-08-24 17:00:12 公開日:2023-08-22 |
# 臨床・デジタルデータの統合的プロファイリングによる患者クラスタリング Patient Clustering via Integrated Profiling of Clinical and Digital Data ( http://arxiv.org/abs/2308.11748v1 ) ライセンス: Link先を確認 | Dongjin Choi, Andy Xiang, Ozgur Ozturk, Deep Shrestha, Barry Drake, Hamid Haidarian, Faizan Javed, Haesun Park | (参考訳) 医療における臨床データを対象とした新しいプロファイルベース患者クラスタリングモデルを提案する。
制約付き低ランク近似に基づく手法を用いて,患者の臨床データと,ブラウジングや検索を含むデジタルインタラクションデータを利用して,患者のプロファイルを構築する。
その結果、非負の埋め込みベクトルが生成され、患者の低次元表現として機能する。
本モデルは,医療用webポータルの患者データを用いて,クラスタリングとレコメンデーション機能を考慮した総合的な評価手法を用いて評価した。
他のベースラインと比較して,クラスタリングコヒーレンスとレコメンデーション精度の点で優れた性能を示した。 We introduce a novel profile-based patient clustering model designed for clinical data in healthcare. By utilizing a method grounded on constrained low-rank approximation, our model takes advantage of patients' clinical data and digital interaction data, including browsing and search, to construct patient profiles. As a result of the method, nonnegative embedding vectors are generated, serving as a low-dimensional representation of the patients. Our model was assessed using real-world patient data from a healthcare web portal, with a comprehensive evaluation approach which considered clustering and recommendation capabilities. In comparison to other baselines, our approach demonstrated superior performance in terms of clustering coherence and recommendation accuracy. | 翻訳日:2023-08-24 16:59:43 公開日:2023-08-22 |
# 効率的な制御可能なマルチタスクアーキテクチャ Efficient Controllable Multi-Task Architectures ( http://arxiv.org/abs/2308.11744v1 ) ライセンス: Link先を確認 | Abhishek Aich, Samuel Schulter, Amit K. Roy-Chowdhury, Manmohan Chandraker, Yumin Suh | (参考訳) 我々は、ユーザが必要な計算予算と、デプロイ後のタスクパフォーマンスの相対的重要性を再トレーニングすることなく調整できるように、マルチタスクモデルをトレーニングすることを目指している。
これにより、さまざまなシナリオのモデルをトレーニングおよび保存するための重い計算オーバーヘッドなしに、動的に変化するユーザニーズに対するパフォーマンスの最適化が可能になる。
そこで本研究では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変えることでタスクの重要性を制御し、エンコーダの容量を共同調整することで計算コストを制御することである。
これにより、与えられた予算でより強力なエンコーダを許容し、計算コストの制御を増加させ、ユーザの制約に基づいた高品質なスリム化サブアーキテクチャを提供することにより、全体的な精度が向上する。
異なるランタイム幅設定の下でバックボーン表現を不変にし、精度を向上させる新しい「構成-不変知識蒸留」損失を含む。
さらに,ユーザ制約を共有エンコーダとタスクデコーダの両方のランタイム幅設定に変換し,サブアーキテクチャをサンプリングする簡易かつ効果的な検索アルゴリズムを提案する。
探索アルゴリズムの重要なルールは、mtl全体の性能を向上させる共有エンコーダ構成を探索しながら、より望ましいタスクデコーダにより大きな計算予算を提供することである。
多様なバックボーンアーキテクチャを持つ3つのマルチタスクベンチマーク(PASCALContext, NYUDv2, CIFAR100-MTL)に対する様々な実験は、我々のアプローチの利点を示している。
例えば、従来の方法に比べてnyud-v2データセットの制御性は33.5%向上し、計算コストは大幅に低減した。 We aim to train a multi-task model such that users can adjust the desired compute budget and relative importance of task performances after deployment, without retraining. This enables optimizing performance for dynamically varying user needs, without heavy computational overhead to train and save models for various scenarios. To this end, we propose a multi-task model consisting of a shared encoder and task-specific decoders where both encoder and decoder channel widths are slimmable. Our key idea is to control the task importance by varying the capacities of task-specific decoders, while controlling the total computational cost by jointly adjusting the encoder capacity. This improves overall accuracy by allowing a stronger encoder for a given budget, increases control over computational cost, and delivers high-quality slimmed sub-architectures based on user's constraints. Our training strategy involves a novel 'Configuration-Invariant Knowledge Distillation' loss that enforces backbone representations to be invariant under different runtime width configurations to enhance accuracy. Further, we present a simple but effective search algorithm that translates user constraints to runtime width configurations of both the shared encoder and task decoders, for sampling the sub-architectures. The key rule for the search algorithm is to provide a larger computational budget to the higher preferred task decoder, while searching a shared encoder configuration that enhances the overall MTL performance. Various experiments on three multi-task benchmarks (PASCALContext, NYUDv2, and CIFAR100-MTL) with diverse backbone architectures demonstrate the advantage of our approach. For example, our method shows a higher controllability by ~33.5% in the NYUD-v2 dataset over prior methods, while incurring much less compute cost. | 翻訳日:2023-08-24 16:59:32 公開日:2023-08-22 |
# 量子コンピューティングのための超伝導多モード空洞アーキテクチャの探索 Exploration of superconducting multi-mode cavity architectures for quantum computing ( http://arxiv.org/abs/2308.11740v1 ) ライセンス: Link先を確認 | Alessandro Reineri (1), Silvia Zorzetti (1), Tanay Roy (1), Xinyuan You (1) ((1) Fermi National Accelerator Laboratory) | (参考訳) トランスモン回路に結合した超伝導無線周波数(SRF)キャビティは、高コヒーレンスな量子情報プロセッサを構築する上で有望なプラットフォームであることが証明されている。
この実現の重要な側面は、量子系の寿命を延ばすために高品質な3次元超伝導空洞を設計することである。
このアーキテクチャの計算能力を高めるために、我々はマルチモードアプローチを検討している。
本稿では,多セルSRF空洞の設計最適化プロセスについて,粒子加速器技術の範囲内で開発された既存の設計に基づいて量子計算を行う。
パラメトリック電磁シミュレーションを行い,設計の評価と最適化を行う。
特に,トランスモンと呼ばれる非線形超伝導回路と空洞との相互作用の解析に着目する。
このパラメトリック設計最適化は、将来の類似システムの研究の青写真として機能するように構成されている。 Superconducting radio-frequency (SRF) cavities coupled to transmon circuits have proven to be a promising platform for building high-coherence quantum information processors. An essential aspect of this realization involves designing high quality factor three-dimensional superconducting cavities to extend the lifetime of quantum systems. To increase the computational capability of this architecture, we are exploring a multimode approach. This paper presents the design optimization process of a multi-cell SRF cavity to perform quantum computation based on an existing design developed in the scope of particle accelerator technology. We perform parametric electromagnetic simulations to evaluate and optimize the design. In particular, we focus on the analysis of the interaction between a nonlinear superconducting circuit known as the transmon and the cavity. This parametric design optimization is structured to serve as a blueprint for future studies on similar systems. | 翻訳日:2023-08-24 16:58:54 公開日:2023-08-22 |
# 第一次論理を超えたリフテッド推論 Lifted Inference beyond First-Order Logic ( http://arxiv.org/abs/2308.11738v1 ) ライセンス: Link先を確認 | Sagar Malhotra, Davide Bizzaro, and Luciano Serafini | (参考訳) WFOMC(Weighted First Order Model Counting)は、統計関係学習モデルにおける確率論的推論の基礎である。
WFOMCは一般に難解($P完全)であることが知られているので、多項式時間WFOMCを許容する論理的断片は重要な関心事である。
このような断片はドメインリフトと呼ばれる。
最近の研究は、数量化子(\mathrm{C^2}$)で拡張された一階論理の2変数の断片がドメインリフト可能であることを示した。
しかし、引用ネットワークの非循環性やソーシャルネットワークの接続性など、現実世界のデータの多くの特性は、一般に$\mathrm{c^2}$、あるいはfirst order logicでモデル化することはできない。
本研究では、複数の性質を持つ$\mathrm{C^2}$の領域持ち上げ可能性を拡張する。
任意の$\mathrm{C^2}$文は、その関係の1つが有向非巡回グラフ、連結グラフ、木(有向木を参照)または森(有向木を参照)を表すように制限されたときに、ドメインリフト可能であることを示す。
すべての結果は、"分割による数え上げ"という、斬新で一般的な方法論に依存しています。
確率的推論への応用に加えて,コンビネート構造を数えるための汎用フレームワークを提供する。
我々は,有向非巡回グラフや系統ネットワークなどを用いた離散数学文献において,これまでの膨大な結果を拡大する。 Weighted First Order Model Counting (WFOMC) is fundamental to probabilistic inference in statistical relational learning models. As WFOMC is known to be intractable in general ($\#$P-complete), logical fragments that admit polynomial time WFOMC are of significant interest. Such fragments are called domain liftable. Recent works have shown that the two-variable fragment of first order logic extended with counting quantifiers ($\mathrm{C^2}$) is domain-liftable. However, many properties of real-world data, like acyclicity in citation networks and connectivity in social networks, cannot be modeled in $\mathrm{C^2}$, or first order logic in general. In this work, we expand the domain liftability of $\mathrm{C^2}$ with multiple such properties. We show that any $\mathrm{C^2}$ sentence remains domain liftable when one of its relations is restricted to represent a directed acyclic graph, a connected graph, a tree (resp. a directed tree) or a forest (resp. a directed forest). All our results rely on a novel and general methodology of "counting by splitting". Besides their application to probabilistic inference, our results provide a general framework for counting combinatorial structures. We expand a vast array of previous results in discrete mathematics literature on directed acyclic graphs, phylogenetic networks, etc. | 翻訳日:2023-08-24 16:58:33 公開日:2023-08-22 |
# Animal3D:3Dの動物写真と形状の総合データセット Animal3D: A Comprehensive Dataset of 3D Animal Pose and Shape ( http://arxiv.org/abs/2308.11737v1 ) ライセンス: Link先を確認 | Jiacong Xu, Yi Zhang, Jiawei Peng, Wufei Ma, Artur Jesslen, Pengliang Ji, Qixin Hu, Jiehua Zhang, Qihao Liu, Jiahao Wang, Wei Ji, Chen Wang, Xiaoding Yuan, Prakhar Kaushik, Guofeng Zhang, Jie Liu, Yushan Xie, Yawen Cui, Alan Yuille, Adam Kortylewski | (参考訳) 3Dの姿勢と形状を正確に推定することは動物行動を理解するための重要なステップであり、野生生物保護のような下流の多くの応用に利益をもたらす可能性がある。
しかし、この分野の研究は、高品質な3dポーズと形状アノテーションを備えた包括的で多様なデータセットが欠如していることから遠ざかっている。
本稿では,哺乳類の3Dポーズと形状推定のための包括的データセットであるAnimal3Dを提案する。
動物3Dは、40種の哺乳類から収集された3379枚の画像、26個のキーポイントの高品質なアノテーション、特にSMALモデルのポーズと形状パラメータで構成されている。
すべてのアノテーションはマルチステージプロセスで手動でラベル付けされチェックされ、高品質な結果が得られます。
The Animal3D data based on the Animal3D dataset, we benchmark representative shape and pose Estimation model at (1) 教師付き学習, (2) 合成画像から実写への変換, 3) 微調整された人間のポーズと形状推定モデル。
実験の結果, 個体間の3次元形状と姿勢の予測は, ヒトの姿勢推定の大幅な進歩にもかかわらず, 極めて困難な課題であることがわかった。
さらに, 合成事前学習は, モデル性能を高めるための有効な戦略であることを示す。
全体として、animal3dは動物の3dポーズと形状推定の将来の研究を促進するための新しい方向を開き、一般公開されている。 Accurately estimating the 3D pose and shape is an essential step towards understanding animal behavior, and can potentially benefit many downstream applications, such as wildlife conservation. However, research in this area is held back by the lack of a comprehensive and diverse dataset with high-quality 3D pose and shape annotations. In this paper, we propose Animal3D, the first comprehensive dataset for mammal animal 3D pose and shape estimation. Animal3D consists of 3379 images collected from 40 mammal species, high-quality annotations of 26 keypoints, and importantly the pose and shape parameters of the SMAL model. All annotations were labeled and checked manually in a multi-stage process to ensure highest quality results. Based on the Animal3D dataset, we benchmark representative shape and pose estimation models at: (1) supervised learning from only the Animal3D data, (2) synthetic to real transfer from synthetically generated images, and (3) fine-tuning human pose and shape estimation models. Our experimental results demonstrate that predicting the 3D shape and pose of animals across species remains a very challenging task, despite significant advances in human pose estimation. Our results further demonstrate that synthetic pre-training is a viable strategy to boost the model performance. Overall, Animal3D opens new directions for facilitating future research in animal 3D pose and shape estimation, and is publicly available. | 翻訳日:2023-08-24 16:57:44 公開日:2023-08-22 |
# データチャート値検出のための拡張可能な点ベース手法 An extensible point-based method for data chart value detection ( http://arxiv.org/abs/2308.11788v1 ) ライセンス: Link先を確認 | Carlos Soto, Shinjae Yoo | (参考訳) 本稿では,逆エンジニア(すなわち,データチャートの値の抽出)に対する意味点を識別する拡張可能な手法について述べる。
提案手法では,ポイント提案ネットワーク(オブジェクト検出のための領域提案ネットワーク)を用いて,グラフ上のポイントの位置を直接予測し,複数のチャートタイプやチャート要素に対して容易に拡張できる。
我々は科学文献の複雑なバーチャートに注目し、我々のモデルは0.8705 F1 (@1.5-cell max deviation) の精度で正解点を検出できる。
また,新たに拡張した合成データのみによるトレーニングも検討し,実際のチャート上での驚くほど優れた性能 (0.6621 F1) を実現するとともに,合成パイチャート(0.8343 F1)に直接適用した変化のない手法をさらに実証する。
データセット、トレーニングされたモデル、評価コードはhttps://github.com/BNLNLP/PPN_modelで入手できる。 We present an extensible method for identifying semantic points to reverse engineer (i.e. extract the values of) data charts, particularly those in scientific articles. Our method uses a point proposal network (akin to region proposal networks for object detection) to directly predict the position of points of interest in a chart, and it is readily extensible to multiple chart types and chart elements. We focus on complex bar charts in the scientific literature, on which our model is able to detect salient points with an accuracy of 0.8705 F1 (@1.5-cell max deviation); it achieves 0.9810 F1 on synthetically-generated charts similar to those used in prior works. We also explore training exclusively on synthetic data with novel augmentations, reaching surprisingly competent performance in this way (0.6621 F1) on real charts with widely varying appearance, and we further demonstrate our unchanged method applied directly to synthetic pie charts (0.8343 F1). Datasets, trained models, and evaluation code are available at https://github.com/BNLNLP/PPN_model. | 翻訳日:2023-08-24 16:48:17 公開日:2023-08-22 |
# HypBO: エキスパートガイドによる新しい材料探索 HypBO: Expert-Guided Chemist-in-the-Loop Bayesian Search for New Materials ( http://arxiv.org/abs/2308.11787v1 ) ライセンス: Link先を確認 | Abdoulatif Cisse, Xenophon Evangelopoulos, Sam Carruthers, Vladimir V. Gusev, Andrew I. Cooper | (参考訳) ロボットと自動化は、材料発見のような難易度の高い多変量科学的な問題を解決するための膨大な加速を提供する。
ベイズ最適化(BO)は、ターゲット関数/プロパティの分析形式が知られていないタスクで繁栄する、一般的なサンプル効率最適化エンジンとして登場した。
ここでは、専門家の人間知識を仮説の形で活用し、化学空間の有望な領域へのベイズ探索をより迅速に行う。
従来の手法では、既存の実験的な測定から導かれた基礎的な分布を使用していた。
また、そのような分布は複雑な仮説を捉えることができない。
提案手法はhypboと呼ばれ,人間の仮説を駆使して改良されたサンプル種を生成する。
発芽しない種子は自動的に割引され、有望な種子はサロゲートモデルデータを増やすために使用され、より良いインフォームドサンプリングが達成される。
このプロセスは、二段階最適化フレームワークで組織されたグローバル対ローカル検索方式で継続される。
本手法は,様々な合成機能上での性能を検証し,専門家仮説を用いることで検索性能が著しく向上する実化学設計タスクにおいて,その実用性を示す。 Robotics and automation offer massive accelerations for solving intractable, multivariate scientific problems such as materials discovery, but the available search spaces can be dauntingly large. Bayesian optimization (BO) has emerged as a popular sample-efficient optimization engine, thriving in tasks where no analytic form of the target function/property is known. Here we exploit expert human knowledge in the form of hypotheses to direct Bayesian searches more quickly to promising regions of chemical space. Previous methods have used underlying distributions derived from existing experimental measurements, which is unfeasible for new, unexplored scientific tasks. Also, such distributions cannot capture intricate hypotheses. Our proposed method, which we call HypBO, uses expert human hypotheses to generate an improved seed of samples. Unpromising seeds are automatically discounted, while promising seeds are used to augment the surrogate model data, thus achieving better-informed sampling. This process continues in a global versus local search fashion, organized in a bilevel optimization framework. We validate the performance of our method on a range of synthetic functions and demonstrate its practical utility on a real chemical design task where the use of expert hypotheses accelerates the search performance significantly. | 翻訳日:2023-08-24 16:47:58 公開日:2023-08-22 |
# 変圧器を用いた多段多段回帰 Coarse-to-Fine Multi-Scene Pose Regression with Transformers ( http://arxiv.org/abs/2308.11783v1 ) ライセンス: Link先を確認 | Yoli Shavit, Ron Ferens, Yosi Keller | (参考訳) 絶対的なカメラポーズレグレッシャは、キャプチャされた画像だけでカメラの位置と向きを推定する。
通常、多層パーセプトロン(MLP)ヘッドを持つ畳み込みバックボーンは、画像とラベルを使って訓練され、一度に単一の参照シーンを埋め込む。
近年,MLPヘッドを全接続層に置き換えることで,複数のシーンを学習できるように拡張されている。
本研究では,トランスフォーマーを用いてマルチシーンの絶対カメラポーズの回帰を学習し,エンコーダを用いてアクティベーションマップを自己アテンションで集約し,デコーダが潜在特徴やシーンのエンコーディングをポーズ予測に変換することを提案する。
これにより、複数のシーンを並列に埋め込みながら、ローカライゼーションに有用な一般的な機能に集中することが可能になります。
我々は,従来のMS-Transformerアプローチであるcite{shavit2021learning}を拡張し,局所化精度を向上する混合分類回帰アーキテクチャを導入する。
本手法は,屋内および屋外の共通ベンチマークデータセット上で評価され,マルチシーンおよび最先端の1シーンの絶対ポーズレグレッタを上回った。 Absolute camera pose regressors estimate the position and orientation of a camera given the captured image alone. Typically, a convolutional backbone with a multi-layer perceptron (MLP) head is trained using images and pose labels to embed a single reference scene at a time. Recently, this scheme was extended to learn multiple scenes by replacing the MLP head with a set of fully connected layers. In this work, we propose to learn multi-scene absolute camera pose regression with Transformers, where encoders are used to aggregate activation maps with self-attention and decoders transform latent features and scenes encoding into pose predictions. This allows our model to focus on general features that are informative for localization, while embedding multiple scenes in parallel. We extend our previous MS-Transformer approach \cite{shavit2021learning} by introducing a mixed classification-regression architecture that improves the localization accuracy. Our method is evaluated on commonly benchmark indoor and outdoor datasets and has been shown to exceed both multi-scene and state-of-the-art single-scene absolute pose regressors. | 翻訳日:2023-08-24 16:47:37 公開日:2023-08-22 |
# 動的かつスパースな定性データへの対処:カテゴリー変数のヒルベルト空間埋め込み Addressing Dynamic and Sparse Qualitative Data: A Hilbert Space Embedding of Categorical Variables ( http://arxiv.org/abs/2308.11781v1 ) ライセンス: Link先を確認 | Anirban Mukherjee and Hannah H. Chang | (参考訳) 因果推定のための定量的モデルに定性的データを組み込む新しい枠組みを提案する。
従来の手法では、質的データから派生した分類変数を使用して量的モデルを構築していた。
しかし、このアプローチは、定性的情報が動的で複雑であれば、データスパースなカテゴリにつながり、矛盾(漸近的に偏り)と不正確な(有限サンプル偏り)推定をもたらす可能性がある。
機能分析を使って、より微妙で柔軟なフレームワークを作ります。
観測された圏を潜在ベール空間に埋め込み、圏のベール空間から表現関数の再現ケルネルヒルベルト空間(RKHS)への連続線型写像(ヒルベルト空間埋め込み)を導入する。
リースの表現定理により、因果モデルにおけるカテゴリー変数の正準処理が、RKHSの特定構造に変換できることが証明される。
伝達学習は、合理化推定の触媒として作用する -- 伝統的なモデルからの埋め込みは、ヒルベルト空間埋め込みを形成するためにカーネルトリックと組み合わせられる。
我々は,eコマース市場における経済学や心理学の理論的予測と対比する実世界研究において,総合シミュレーションによるモデルの有効性を検証し,その妥当性を実証する。
その結果,定性的情報が曖昧で複雑であるシナリオでは,モデルの性能が向上することが確認できた。 We propose a novel framework for incorporating qualitative data into quantitative models for causal estimation. Previous methods use categorical variables derived from qualitative data to build quantitative models. However, this approach can lead to data-sparse categories and yield inconsistent (asymptotically biased) and imprecise (finite sample biased) estimates if the qualitative information is dynamic and intricate. We use functional analysis to create a more nuanced and flexible framework. We embed the observed categories into a latent Baire space and introduce a continuous linear map -- a Hilbert space embedding -- from the Baire space of categories to a Reproducing Kernel Hilbert Space (RKHS) of representation functions. Through the Riesz representation theorem, we establish that the canonical treatment of categorical variables in causal models can be transformed into an identified structure in the RKHS. Transfer learning acts as a catalyst to streamline estimation -- embeddings from traditional models are paired with the kernel trick to form the Hilbert space embedding. We validate our model through comprehensive simulation evidence and demonstrate its relevance in a real-world study that contrasts theoretical predictions from economics and psychology in an e-commerce marketplace. The results confirm the superior performance of our model, particularly in scenarios where qualitative information is nuanced and complex. | 翻訳日:2023-08-24 16:47:17 公開日:2023-08-22 |
# 偏差学習によるテキスト中の少数ショット異常検出 Few-shot Anomaly Detection in Text with Deviation Learning ( http://arxiv.org/abs/2308.11780v1 ) ライセンス: Link先を確認 | Anindya Sundar Das, Aravind Ajay, Sriparna Saha and Monowar Bhuyan | (参考訳) テキスト中の異常を検出するほとんどの方法は、ラベルのないデータのみに依存するモデルの構築に集中している。
これらのモデルは、ラベル付き異常な例がないという仮定に基づいて動作し、多くの実世界のアプリケーションで通常小さな数に存在する異常の事前知識を利用できないようにする。
さらに、これらのモデルでは、異常スコアを直接最適化するのではなく、学習機能の埋め込みを優先する。
本稿では,限定された異常例を利用した深層学習ベースのフレームワークであるFATEを紹介し,偏差学習を用いたエンドツーエンド手法で異常点を明示的に学習する。
このアプローチでは, 正規例の異常スコアを, 先行分布から得られる基準スコアによく似たように調整する。
逆に、異常サンプルは、前者の上尾の基準スコアからかなり逸脱した異常スコアを持つように強制される。
さらに,マルチヘッド・セルフアテンション層と複数のインスタンス・ラーニング・アプローチを用いて,異常の異なる振る舞いを学ぶように最適化した。
いくつかのベンチマークデータセットに関する総合的な実験により、提案手法が最先端性能の新たなレベルを達成することを示す。 Most current methods for detecting anomalies in text concentrate on constructing models solely relying on unlabeled data. These models operate on the presumption that no labeled anomalous examples are available, which prevents them from utilizing prior knowledge of anomalies that are typically present in small numbers in many real-world applications. Furthermore, these models prioritize learning feature embeddings rather than optimizing anomaly scores directly, which could lead to suboptimal anomaly scoring and inefficient use of data during the learning process. In this paper, we introduce FATE, a deep few-shot learning-based framework that leverages limited anomaly examples and learns anomaly scores explicitly in an end-to-end method using deviation learning. In this approach, the anomaly scores of normal examples are adjusted to closely resemble reference scores obtained from a prior distribution. Conversely, anomaly samples are forced to have anomalous scores that considerably deviate from the reference score in the upper tail of the prior. Additionally, our model is optimized to learn the distinct behavior of anomalies by utilizing a multi-head self-attention layer and multiple instance learning approaches. Comprehensive experiments on several benchmark datasets demonstrate that our proposed approach attains a new level of state-of-the-art performance. | 翻訳日:2023-08-24 16:46:55 公開日:2023-08-22 |
# ドメイン一般化のためのヘシアンアライメントの理解 Understanding Hessian Alignment for Domain Generalization ( http://arxiv.org/abs/2308.11778v1 ) ライセンス: Link先を確認 | Sobhan Hemati, Guojun Zhang, Amir Estiri, Xi Chen | (参考訳) アウト・オブ・ディストリビューション(OOD)の一般化は、ヘルスケアや自動運転車を含む多くの現実のシナリオにおいて、ディープラーニングモデルにとって重要な能力である。
近年,ood一般化を改善するための様々な手法が提案されている。
これらの手法のうち、勾配式正規化器は他の競合に比べて有望な性能を示した。
この成功にもかかわらず、領域一般化におけるヘシアンと勾配アライメントの役割に対する我々の理解はまだ限られている。
この欠点に対処するために、最近のOOD理論を用いた領域一般化における分類器の頭部ヘッセン行列と勾配の役割を解析する。
理論的には、分類器の頭部ヘッセン行列間の領域間のスペクトルノルムが、ターゲット領域とソース領域の間の距離の概念である転送測度の上界であることが示される。
さらに, ヘシアンと勾配の類似性を促すと, 整列する属性をすべて解析する。
本解析では, サンゴ, irm, v-rex, fish, iga, fishrなど多くの正規化剤が, 分類器の頭部ヘッシアンおよび/または勾配の一部を規則化することにより, その成功を明らかにした。
最後に,ヘシアン勾配積(hgp)とハッチンソン法(hutchinson)に基づいて,ヘシアンを直接計算することなく,分類器の頭部ヘシアンと勾配を効率的にマッチングする2つの簡易かつ効果的な手法を提案する。
提案手法のOOD一般化能力は,転送性,重相関シフト,ラベルシフト,多様性シフトなど,様々なシナリオで検証する。
その結果,Hessianアライメント手法は様々なOODベンチマークで有望な性能を実現することがわかった。
コードは \url{https://github.com/huawei-noah/federated-learning/tree/main/hessianalignment} で入手できる。 Out-of-distribution (OOD) generalization is a critical ability for deep learning models in many real-world scenarios including healthcare and autonomous vehicles. Recently, different techniques have been proposed to improve OOD generalization. Among these methods, gradient-based regularizers have shown promising performance compared with other competitors. Despite this success, our understanding of the role of Hessian and gradient alignment in domain generalization is still limited. To address this shortcoming, we analyze the role of the classifier's head Hessian matrix and gradient in domain generalization using recent OOD theory of transferability. Theoretically, we show that spectral norm between the classifier's head Hessian matrices across domains is an upper bound of the transfer measure, a notion of distance between target and source domains. Furthermore, we analyze all the attributes that get aligned when we encourage similarity between Hessians and gradients. Our analysis explains the success of many regularizers like CORAL, IRM, V-REx, Fish, IGA, and Fishr as they regularize part of the classifier's head Hessian and/or gradient. Finally, we propose two simple yet effective methods to match the classifier's head Hessians and gradients in an efficient way, based on the Hessian Gradient Product (HGP) and Hutchinson's method (Hutchinson), and without directly calculating Hessians. We validate the OOD generalization ability of proposed methods in different scenarios, including transferability, severe correlation shift, label shift and diversity shift. Our results show that Hessian alignment methods achieve promising performance on various OOD benchmarks. The code is available at \url{https://github.com/huawei-noah/Federated-Learning/tree/main/HessianAlignment}. | 翻訳日:2023-08-24 16:46:33 公開日:2023-08-22 |
# ws-sfmlearner : カメラパラメータ不明手術ビデオにおける自己教師付き単眼深度とエゴモーション推定 WS-SfMLearner: Self-supervised Monocular Depth and Ego-motion Estimation on Surgical Videos with Unknown Camera Parameters ( http://arxiv.org/abs/2308.11776v1 ) ライセンス: Link先を確認 | Ange Lou and Jack Noble | (参考訳) 手術映像の深さ推定は多くの画像誘導手術において重要な役割を担っている。
しかし,手術シーンの明るさやノイズの相違が原因で,手術映像に深度マップの真実データセットを作成するのが難しく,時間を要する。
そのため,コンピュータビジョンコミュニティからは,高精度でロバストな自己監視深度とカメラの自我運動推定システムの構築が注目されている。
いくつかの自己監督手法は、地上の真理深度マップやポーズの必要性を緩和するが、カメラ固有のパラメータがまだ必要であり、しばしば欠落しているか記録されていない。
さらに,既存の作業におけるカメラ固有の予測手法は,データセットの品質に大きく依存する。
本研究では,正確な深度マップとカメラポーズだけでなく,カメラ固有のパラメータを予測できる自己教師付き深度推定システムの構築を目標とした。
我々は,カメラパラメータ予測のための補助的な監視を行うために,コストボリュームに基づく監視手法を提案した。
実験の結果,提案手法は推定カメラパラメータ,エゴモーション,深さ推定の精度を改善した。 Depth estimation in surgical video plays a crucial role in many image-guided surgery procedures. However, it is difficult and time consuming to create depth map ground truth datasets in surgical videos due in part to inconsistent brightness and noise in the surgical scene. Therefore, building an accurate and robust self-supervised depth and camera ego-motion estimation system is gaining more attention from the computer vision community. Although several self-supervision methods alleviate the need for ground truth depth maps and poses, they still need known camera intrinsic parameters, which are often missing or not recorded. Moreover, the camera intrinsic prediction methods in existing works depend heavily on the quality of datasets. In this work, we aimed to build a self-supervised depth and ego-motion estimation system which can predict not only accurate depth maps and camera pose, but also camera intrinsic parameters. We proposed a cost-volume-based supervision manner to give the system auxiliary supervision for camera parameters prediction. The experimental results showed that the proposed method improved the accuracy of estimated camera parameters, ego-motion, and depth estimation. | 翻訳日:2023-08-24 16:46:03 公開日:2023-08-22 |
# samsnerf: segment anything model(sam)はneural radiance field(nerf)によるダイナミックな手術シーンの再構築をガイドする。 SAMSNeRF: Segment Anything Model (SAM) Guides Dynamic Surgical Scene Reconstruction by Neural Radiance Field (NeRF) ( http://arxiv.org/abs/2308.11774v1 ) ライセンス: Link先を確認 | Ange Lou, Yamin Li, Xing Yao, Yike Zhang and Jack Noble | (参考訳) 手術映像からの手術シーンの正確な再構成は, 術中ナビゲーションや画像誘導ロボット手術自動化など, 様々な応用に不可欠である。
しかし,従来のアプローチは主に深度推定に頼っているため,移動式手術器具による手術シーンの再構築には限界がある。
この制限に対処し,すべてのフレームにおける手術器具の正確な3次元位置予測を行うため,Segment Anything Model (SAM) とNeRF(NeRF)技術を組み合わせたSAMSNeRFと呼ばれる新しいアプローチを提案する。
提案手法は,NeRFによる動的手術シーン再構築の洗練を導くSAMを用いて,手術器具の正確なセグメンテーションマスクを生成する。
腹腔鏡下手術ビデオにおける実験結果から,本手法は高忠実度ダイナミックな手術場面を再現し,手術器具の空間情報を正確に反映する。
提案手法は手術時の手術器具の正確な3次元位置情報を外科医に提供することで,手術ナビゲーションと自動化を大幅に向上させることができる。 The accurate reconstruction of surgical scenes from surgical videos is critical for various applications, including intraoperative navigation and image-guided robotic surgery automation. However, previous approaches, mainly relying on depth estimation, have limited effectiveness in reconstructing surgical scenes with moving surgical tools. To address this limitation and provide accurate 3D position prediction for surgical tools in all frames, we propose a novel approach called SAMSNeRF that combines Segment Anything Model (SAM) and Neural Radiance Field (NeRF) techniques. Our approach generates accurate segmentation masks of surgical tools using SAM, which guides the refinement of the dynamic surgical scene reconstruction by NeRF. Our experimental results on public endoscopy surgical videos demonstrate that our approach successfully reconstructs high-fidelity dynamic surgical scenes and accurately reflects the spatial information of surgical tools. Our proposed approach can significantly enhance surgical navigation and automation by providing surgeons with accurate 3D position information of surgical tools during surgery.The source code will be released soon. | 翻訳日:2023-08-24 16:45:45 公開日:2023-08-22 |
# 自動音声認識システムとディープラーニングモデルを用いたスマートフォンによる自由応答音声記録における抑うつ関連トピックの同定 Identifying depression-related topics in smartphone-collected free-response speech recordings using an automatic speech recognition system and a deep learning topic model ( http://arxiv.org/abs/2308.11773v1 ) ライセンス: Link先を確認 | Yuezhou Zhang, Amos A Folarin, Judith Dineley, Pauline Conde, Valeria de Angel, Shaoxiong Sun, Yatharth Ranjan, Zulqarnain Rashid, Callum Stewart, Petroula Laiou, Heet Sankesara, Linglong Qian, Faith Matcham, Katie M White, Carolin Oetzmann, Femke Lamers, Sara Siddi, Sara Simblett, Bj\"orn W. Schuller, Srinivasan Vairavan, Til Wykes, Josep Maria Haro, Brenda WJH Penninx, Vaibhav A Narayan, Matthew Hotopf, Richard JB Dobson, Nicholas Cummins, RADAR-CNS consortium | (参考訳) 言語使用は抑うつと相関することが示されているが、大規模な検証が必要である。
臨床研究のような伝統的な方法は高価です。
そのため、ソーシャルメディアでは抑うつを予測するために自然言語処理が採用されているが、検証済みラベル、バイアス付きユーザーサンプル、コンテキストの制限は残っていない。
調査では,WhisperツールとBERTopicモデルを用いて,265人のスマートフォンによる音声記録3919件中29件を抽出した。
PHQ-8の中央値が10以上の6つのトピックは、期待、睡眠、精神療法、ヘアカット、学習、コースワークといったうつ病のリスクトピックとみなされた。
うつ病の出現と関連性を明らかにするため,特定トピック間での行動的特徴と言語的特徴を比較した。
また, トピックシフトとうつ病重症度の変化との関係についても検討し, 言語使用の縦断的モニタリングの重要性を示唆した。
また, BERTopicモデルについても, 57名の参加者の音声記録356件を対象に実験を行い, 一貫性のある結果を得た。
要約すると,特定の音声話題はうつ病の重篤さを示す可能性がある。
提示されたデータ駆動ワークフローは、デジタルヘルス研究のための現実世界の設定から大規模な音声データを収集し分析するための実践的なアプローチを提供する。 Language use has been shown to correlate with depression, but large-scale validation is needed. Traditional methods like clinic studies are expensive. So, natural language processing has been employed on social media to predict depression, but limitations remain-lack of validated labels, biased user samples, and no context. Our study identified 29 topics in 3919 smartphone-collected speech recordings from 265 participants using the Whisper tool and BERTopic model. Six topics with a median PHQ-8 greater than or equal to 10 were regarded as risk topics for depression: No Expectations, Sleep, Mental Therapy, Haircut, Studying, and Coursework. To elucidate the topic emergence and associations with depression, we compared behavioral (from wearables) and linguistic characteristics across identified topics. The correlation between topic shifts and changes in depression severity over time was also investigated, indicating the importance of longitudinally monitoring language use. We also tested the BERTopic model on a similar smaller dataset (356 speech recordings from 57 participants), obtaining some consistent results. In summary, our findings demonstrate specific speech topics may indicate depression severity. The presented data-driven workflow provides a practical approach to collecting and analyzing large-scale speech data from real-world settings for digital health research. | 翻訳日:2023-08-24 16:45:25 公開日:2023-08-22 |
# 保存則の量子相関理論の導出 Derivation of Conservation Laws Quantum-Correlation Theory ( http://arxiv.org/abs/2308.11772v1 ) ライセンス: Link先を確認 | Sobhan Sounda and Dibyendu jana | (参考訳) 本稿では,2階量子相関テンソルに基礎概念を拡張し,強度-強度相関を表現し,その重要性を増す様々な光場実験への応用として,エネルギー,線形運動量,角運動量などの保存量を調査し,量子相関の動的性質を照らし出す。 This paper extends the foundational concept to second-order quantum correlation tensors, representing intensity-intensity correlations.As their application in diverse optical field experiments gaining importance, we investigate conserved quantities such as energy, linear and angular momentum and illuminate the dynamic nature of quantum correlations. | 翻訳日:2023-08-24 16:45:02 公開日:2023-08-22 |
# リカレントニューラルネットワークにおける表現確率的サンプリング Expressive probabilistic sampling in recurrent neural networks ( http://arxiv.org/abs/2308.11809v1 ) ライセンス: Link先を確認 | Shirui Chen, Linxin Preston Jiang, Rajesh P. N. Rao, Eric Shea-Brown | (参考訳) サンプリングに基づく脳機能のベイズモデルでは、神経活動は脳が確率計算に使用する確率分布のサンプルであると仮定される。
しかし、神経動力学の機械的なモデルが任意の分布からどのようにサンプルできるかの包括的理解はまだ欠けている。
関数解析と確率微分方程式のツールを使って、複素分布からサンプルを得るために$\textit{recurrent}$ニューラルネットワークの最小アーキテクチャ要件を探求する。
まず,出力がサンプル(サンプルのみのネットワーク)を直接表現するニューロンのネットワークからなる従来のサンプリングモデルを検討する。
従来のモデルにおけるシナプス電流と発火速度のダイナミクスは、複雑な確率分布からサンプルをサンプリングする能力に制限がある。
本稿では, 任意の確率分布から, 出力単位を分離した再帰型ニューラルネットワークの発火速度のダイナミクスをサンプリングできることを示す。
このような回路をリザーブ・サンプラーネットワーク (RSN) と呼ぶ。
本稿では, RSNがLangevinサンプリングを実装しているような繰り返しおよび出力重みを求める, スコアマッチングに基づく効率的なトレーニング手法を提案する。
提案するニューラルダイナミクスを用いて,複数の複雑なデータ分布から標本を抽出できるモデルの能力を実証し,その次世代の標本ベース脳モデルへの適用性について検討した。 In sampling-based Bayesian models of brain function, neural activities are assumed to be samples from probability distributions that the brain uses for probabilistic computation. However, a comprehensive understanding of how mechanistic models of neural dynamics can sample from arbitrary distributions is still lacking. We use tools from functional analysis and stochastic differential equations to explore the minimum architectural requirements for $\textit{recurrent}$ neural circuits to sample from complex distributions. We first consider the traditional sampling model consisting of a network of neurons whose outputs directly represent the samples (sampler-only network). We argue that synaptic current and firing-rate dynamics in the traditional model have limited capacity to sample from a complex probability distribution. We show that the firing rate dynamics of a recurrent neural circuit with a separate set of output units can sample from an arbitrary probability distribution. We call such circuits reservoir-sampler networks (RSNs). We propose an efficient training procedure based on denoising score matching that finds recurrent and output weights such that the RSN implements Langevin sampling. We empirically demonstrate our model's ability to sample from several complex data distributions using the proposed neural dynamics and discuss its applicability to developing the next generation of sampling-based brain models. | 翻訳日:2023-08-24 16:39:28 公開日:2023-08-22 |
# テキスト書き換えのためのオンデバイスエージェントを目指して Towards an On-device Agent for Text Rewriting ( http://arxiv.org/abs/2308.11807v1 ) ライセンス: Link先を確認 | Yun Zhu, Yinxiao Liu, Felix Stahlberg, Shankar Kumar, Yu-hui Chen, Liangchen Luo, Lei Shu, Renjie Liu, Jindong Chen, Lei Meng | (参考訳) 大規模言語モデル(LLM)は、テキストの書き直し機能を示す。
それでも、これらのモデルのサイズが大きいため、デバイス上での推論には非現実的であり、そうでなければプライバシと経済的推論が強化される。
テキスト書き換えのための小さくて強力な言語モデルを作成することは、小さなサイズの必要性と、コストのかかるデータ収集を必要とするllmの創発的な機能を維持する必要性のバランスをとる必要があるため、非常に難しい課題となります。
以上の課題に対処するため,モバイル中心のテキスト書き換えモデルを構築するための新しい命令チューニング手法を提案する。
我々の戦略は、人間のラベル付けなしで高品質なトレーニングデータを生成することができる。
さらに,選好データを必要とせず,性能を大幅に向上させるヒューリスティック強化学習フレームワークを提案する。
性能ギャップをサーバサイドモデルにさらに橋渡しするために,モバイルリライトエージェントとカスケードを用いたサーバモデルを組み合わせた効果的なアプローチを提案する。
テキスト書き換えタスクをモバイルシナリオに合わせるため、我々は、自然言語命令によるメッセージのテキスト書き換えに焦点を当てたベンチマークであるmessagerewriteevalを導入した。
実験により,我々のオンデバイスモデルは,テキストの書き直しにおける現在のLLMをはるかに上回りながら,モデルサイズを著しく小さくすることを示した。
特に,提案手法がモデル性能を向上させることを示す。 Large Language Models (LLMs) have demonstrated impressive capabilities for text rewriting. Nonetheless, the large sizes of these models make them impractical for on-device inference, which would otherwise allow for enhanced privacy and economical inference. Creating a smaller yet potent language model for text rewriting presents a formidable challenge because it requires balancing the need for a small size with the need to retain the emergent capabilities of the LLM, that requires costly data collection. To address the above challenge, we introduce a new instruction tuning approach for building a mobile-centric text rewriting model. Our strategies enable the generation of high quality training data without any human labeling. In addition, we propose a heuristic reinforcement learning framework which substantially enhances performance without requiring preference data. To further bridge the performance gap with the larger server-side model, we propose an effective approach that combines the mobile rewrite agent with the server model using a cascade. To tailor the text rewriting tasks to mobile scenarios, we introduce MessageRewriteEval, a benchmark that focuses on text rewriting for messages through natural language instructions. Through empirical experiments, we demonstrate that our on-device model surpasses the current state-of-the-art LLMs in text rewriting while maintaining a significantly reduced model size. Notably, we show that our proposed cascading approach improves model performance. | 翻訳日:2023-08-24 16:39:06 公開日:2023-08-22 |
# Ceci n'est pas une pomme:マルチモーダル・エンベディングにおける逆イリュージョン Ceci n'est pas une pomme: Adversarial Illusions in Multi-Modal Embeddings ( http://arxiv.org/abs/2308.11804v1 ) ライセンス: Link先を確認 | Eugene Bagdasaryan, Vitaly Shmatikov | (参考訳) マルチモーダルエンコーダは、画像、音、テキスト、ビデオなどを単一の埋め込み空間にマッピングし、モダリティ間で表現を整列させる(例えば、犬のイメージとバーキングサウンドを関連付ける)。
マルチモーダル埋め込みは「敵の錯覚」と呼ばれる攻撃に対して脆弱であることを示す。
任意のモダリティの入力が与えられたとき、敵はそれを摂動させ、その埋め込みを別のモダリティの任意の逆朝銭入力に近いものにすることができる。
これにより、敵はどんな画像でもどんなテキストでも、どんなテキストでもどんな音でも整列できる。
逆錯覚は埋め込み空間に近付くことを利用しており、従って下流のタスクとは無関係である。
ImageBind埋め込みを用いて、特定の下流タスク、ミスリード画像生成、テキスト生成、ゼロショット分類の知識を必要とせず、逆アライメントされた入力がどのように生成されるかを示す。 Multi-modal encoders map images, sounds, texts, videos, etc. into a single embedding space, aligning representations across modalities (e.g., associate an image of a dog with a barking sound). We show that multi-modal embeddings can be vulnerable to an attack we call "adversarial illusions." Given an input in any modality, an adversary can perturb it so as to make its embedding close to that of an arbitrary, adversary-chosen input in another modality. Illusions thus enable the adversary to align any image with any text, any text with any sound, etc. Adversarial illusions exploit proximity in the embedding space and are thus agnostic to downstream tasks. Using ImageBind embeddings, we demonstrate how adversarially aligned inputs, generated without knowledge of specific downstream tasks, mislead image generation, text generation, and zero-shot classification. | 翻訳日:2023-08-24 16:38:46 公開日:2023-08-22 |
# 変動密度伝播連続学習 Variational Density Propagation Continual Learning ( http://arxiv.org/abs/2308.11801v1 ) ライセンス: Link先を確認 | Christopher Angelini, Nidhal Bouaynaya, and Ghulam Rasool | (参考訳) 現実世界にデプロイされたディープニューラルネットワーク(dnn)は、通常、アウトオブディストリビューション(ood)データ、さまざまなタイプのノイズ、概念目標のシフトを受ける。
本稿では,ベンチマーク連続学習データセットをモデルとしたデータ分散ドリフト適応のためのフレームワークを提案する。
本研究では,ベイズ推定から不確実性定量化を利用した連続学習法を開発し,その評価を行った。
予測分布をサンプリングするためにモデル重みのモンテカルロサンプリングを不要にすることで,従来のアプローチを拡張する。
分布の最初の2つのモーメント,すなわち平均と共分散を全てのネットワーク層を通して伝播することにより,予測分布を近似する,閉形式のエビデンス下界(ELBO)を最適化する。
閉形式ELBOを用いて最小記述長(MDL)の原理を近似することにより破滅的忘れを緩和し、現行タスクの変分後部と前タスクの変分後部とのKLの偏差を最小化してモデル可能性の変化を本質的にペナルティ化する。
MDL法則の近似を応用して、最初はばらつきの後部を学習し、その後タスクで学習したモデル複雑さを最小化する。
タスクシーケンス長の異なる複数の逐次ベンチマークデータセットにまたがる完全接続型および畳み込み型ニューラルネットワークの密度伝達バージョンを用いて,タスクインクリメンタル学習シナリオについて評価した。
最終的に、この手順は破滅的な忘れを緩和する一連のタスクに対して、最小限の複雑なネットワークを生み出す。 Deep Neural Networks (DNNs) deployed to the real world are regularly subject to out-of-distribution (OoD) data, various types of noise, and shifting conceptual objectives. This paper proposes a framework for adapting to data distribution drift modeled by benchmark Continual Learning datasets. We develop and evaluate a method of Continual Learning that leverages uncertainty quantification from Bayesian Inference to mitigate catastrophic forgetting. We expand on previous approaches by removing the need for Monte Carlo sampling of the model weights to sample the predictive distribution. We optimize a closed-form Evidence Lower Bound (ELBO) objective approximating the predictive distribution by propagating the first two moments of a distribution, i.e. mean and covariance, through all network layers. Catastrophic forgetting is mitigated by using the closed-form ELBO to approximate the Minimum Description Length (MDL) Principle, inherently penalizing changes in the model likelihood by minimizing the KL Divergence between the variational posterior for the current task and the previous task's variational posterior acting as the prior. Leveraging the approximation of the MDL principle, we aim to initially learn a sparse variational posterior and then minimize additional model complexity learned for subsequent tasks. Our approach is evaluated for the task incremental learning scenario using density propagated versions of fully-connected and convolutional neural networks across multiple sequential benchmark datasets with varying task sequence lengths. Ultimately, this procedure produces a minimally complex network over a series of tasks mitigating catastrophic forgetting. | 翻訳日:2023-08-24 16:38:29 公開日:2023-08-22 |
# 音声アンチスプーフィングのための複雑評価ニューラルネットワーク Complex-valued neural networks for voice anti-spoofing ( http://arxiv.org/abs/2308.11800v1 ) ライセンス: Link先を確認 | Nicolas M. M\"uller, Philip Sperl, Konstantin B\"ottinger | (参考訳) 現在のアンチスプーフィングおよびオーディオディープフェイク検出システムは、CQTやメルスペクトログラムのような等級スペクトルベースの特徴または畳み込みやシンク層によって処理される生オーディオを使用する。
マグニチュードスペクトログラムは音声の自然性に影響を与える位相情報を破棄し、生の機能ベースのモデルは従来の説明可能なaiメソッドを使用しない。
本稿では、複素数値ニューラルネットワークを用いて入力音声のCQT周波数領域表現を処理することにより、両手法の利点を組み合わせた新しい手法を提案する。
この方法は相情報を保持し、説明可能なAI手法を可能にする。
その結果、この手法は"In-the-Wild"アンチスプーフィングデータセットの従来の手法よりも優れており、説明可能なAIによる結果の解釈を可能にする。
アブレーション研究は、このモデルが位相情報を用いて発声を検出することを学習したことを確認した。 Current anti-spoofing and audio deepfake detection systems use either magnitude spectrogram-based features (such as CQT or Melspectrograms) or raw audio processed through convolution or sinc-layers. Both methods have drawbacks: magnitude spectrograms discard phase information, which affects audio naturalness, and raw-feature-based models cannot use traditional explainable AI methods. This paper proposes a new approach that combines the benefits of both methods by using complex-valued neural networks to process the complex-valued, CQT frequency-domain representation of the input audio. This method retains phase information and allows for explainable AI methods. Results show that this approach outperforms previous methods on the "In-the-Wild" anti-spoofing dataset and enables interpretation of the results through explainable AI. Ablation studies confirm that the model has learned to use phase information to detect voice spoofing. | 翻訳日:2023-08-24 16:38:00 公開日:2023-08-22 |
# CLIP Multi-modal Hashing: 新しいベースラインCLIPMH CLIP Multi-modal Hashing: A new baseline CLIPMH ( http://arxiv.org/abs/2308.11797v1 ) ライセンス: Link先を確認 | Jian Zhu, Mingkai Sheng, Mingda Ke, Zhangmin Huang, Jingfei Chang | (参考訳) マルチモーダルハッシュ法はマルチメディア検索に広く用いられている。
マルチソースデータを融合してバイナリハッシュコードを生成する。
しかし,現在のマルチモーダル法では,検索精度が低いという問題がある。
その理由は、個々のバックボーンネットワークが特徴表現能力に制限があり、大規模な教師なしマルチモーダルデータで共同で事前訓練されていないからである。
そこで本研究では,新しいベースラインクリップマルチモーダルハッシュ(clipmh)法を提案する。
CLIPモデルを使ってテキストと画像の特徴を抽出し、ヒューズしてハッシュコードを生成する。
CLIPは各モーダル特徴の表現性を改善する。
このようにして、マルチモーダルハッシュ法の検索性能を大幅に向上させることができる。
最先端の教師なしおよび教師付きマルチモーダルハッシュ法と比較して,提案したCLIPMHは性能を著しく向上させることができる(最大8.38%)。
CLIPはまた、これまでよく使われていたテキストやビジュアルバックボーンネットワークに対して大きな利点があります。 The multi-modal hashing method is widely used in multimedia retrieval. It can fuse multi-source data to generate binary hash code. However, the current multi-modal methods have the problem of low retrieval accuracy. The reason is that the individual backbone networks have limited feature expression capabilities and are not jointly pre-trained on large-scale unsupervised multi-modal data. To solve this problem, we propose a new baseline CLIP Multi-modal Hashing (CLIPMH) method. It uses CLIP model to extract text and image features, and then fuse to generate hash code. CLIP improves the expressiveness of each modal feature. In this way, it can greatly improve the retrieval performance of multi-modal hashing methods. In comparison to state-of-the-art unsupervised and supervised multi-modal hashing methods, experiments reveal that the proposed CLIPMH can significantly enhance performance (Maximum increase of 8.38%). CLIP also has great advantages over the text and visual backbone networks commonly used before. | 翻訳日:2023-08-24 16:37:41 公開日:2023-08-22 |
# time does tell: 濃密な画像表現の自己教師付き時間チューニング Time Does Tell: Self-Supervised Time-Tuning of Dense Image Representations ( http://arxiv.org/abs/2308.11796v1 ) ライセンス: Link先を確認 | Mohammadreza Salehi, Efstratios Gavves, Cees G. M. Snoek, Yuki M. Asano | (参考訳) 空間的に密接な自己教師あり学習は急速に成長する問題領域であり、教師なしセグメンテーションや密集した下流タスクの事前学習に有望な応用がある。
ビデオの形での時間データの豊富さにもかかわらず、この情報豊富な情報源は見過ごされている。
本稿では,集中型自己教師型学習における時間的一貫性を取り入れた新しい手法を提案する。
画像のみにデザインされた手法は、ビデオ上で同じパフォーマンスを達成できないが、ビデオの表現品質だけでなく、画像の表現品質も向上する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
これにより、ビデオから画像表現への高レベル情報の転送が効果的に行える。
タイムチューニングは、教師なしセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
本手法は,ビデオの高可用性を活用することで,さらに自己監督的なスケーリングを実現する方法であると考えている。
実装は以下の通りである。 https://github.com/SMSD75/Timetuning Spatially dense self-supervised learning is a rapidly growing problem domain with promising applications for unsupervised segmentation and pretraining for dense downstream tasks. Despite the abundance of temporal data in the form of videos, this information-rich source has been largely overlooked. Our paper aims to address this gap by proposing a novel approach that incorporates temporal consistency in dense self-supervised learning. While methods designed solely for images face difficulties in achieving even the same performance on videos, our method improves not only the representation quality for videos-but also images. Our approach, which we call time-tuning, starts from image-pretrained models and fine-tunes them with a novel self-supervised temporal-alignment clustering loss on unlabeled videos. This effectively facilitates the transfer of high-level information from videos to image representations. Time-tuning improves the state-of-the-art by 8-10% for unsupervised semantic segmentation on videos and matches it for images. We believe this method paves the way for further self-supervised scaling by leveraging the abundant availability of videos. The implementation can be found here : https://github.com/SMSD75/Timetuning | 翻訳日:2023-08-24 16:37:27 公開日:2023-08-22 |
# LLMの強化に類似したNeRFの強化:視界混合型一般化可能なNeRF変換器 Enhancing NeRF akin to Enhancing LLMs: Generalizable NeRF Transformer with Mixture-of-View-Experts ( http://arxiv.org/abs/2308.11793v1 ) ライセンス: Link先を確認 | Wenyan Cong, Hanxue Liang, Peihao Wang, Zhiwen Fan, Tianlong Chen, Mukund Varma, Yi Wang, Zhangyang Wang | (参考訳) 見えないシーンの新たなビューを直接合成できるクロスシーン一般化可能なNeRFモデルは、NeRFフィールドの新たなスポットライトとなっている。
いくつかの既存の試みは、シーン表現やレンダリングモジュールをトランスフォーマーのような高性能ニューラルネットワークに置き換え、新しいビュー合成をフィードフォワード推論パイプラインに変換するなど、ますますエンドツーエンドの"ニューラル化"アーキテクチャに依存している。
これらのフィードフォワードの"神経化"アーキテクチャは、まだ多様なシーンに適していないが、大規模言語モデル(LLM)からの強力なMixture-of-Experts(MoE)のアイデアでそれらを橋渡しすることを提案し、より大規模なモデルキャパシティと柔軟なインスタンスごとの特殊化のバランスをとることで、より優れた一般化能力を示す。
GNTと呼ばれる最近の一般化可能なNeRFアーキテクチャから始め、まずモデルを強化するためにMoEをきちんと接続できることを実証する。
さらに,多面的一貫性と空間的滑らかさをそれぞれ適用するために,共有された恒常的専門家と幾何学的整合性損失をカスタマイズする。
gnt with mixed-of-view-experts (gnt-move) と名づけたこのモデルでは,未発見のシーンに転送する時の最先端の結果が実験的に示された。
私たちのコードはhttps://github.com/VITA-Group/GNT-MOVE.comで公開されています。 Cross-scene generalizable NeRF models, which can directly synthesize novel views of unseen scenes, have become a new spotlight of the NeRF field. Several existing attempts rely on increasingly end-to-end "neuralized" architectures, i.e., replacing scene representation and/or rendering modules with performant neural networks such as transformers, and turning novel view synthesis into a feed-forward inference pipeline. While those feedforward "neuralized" architectures still do not fit diverse scenes well out of the box, we propose to bridge them with the powerful Mixture-of-Experts (MoE) idea from large language models (LLMs), which has demonstrated superior generalization ability by balancing between larger overall model capacity and flexible per-instance specialization. Starting from a recent generalizable NeRF architecture called GNT, we first demonstrate that MoE can be neatly plugged in to enhance the model. We further customize a shared permanent expert and a geometry-aware consistency loss to enforce cross-scene consistency and spatial smoothness respectively, which are essential for generalizable view synthesis. Our proposed model, dubbed GNT with Mixture-of-View-Experts (GNT-MOVE), has experimentally shown state-of-the-art results when transferring to unseen scenes, indicating remarkably better cross-scene generalization in both zero-shot and few-shot settings. Our codes are available at https://github.com/VITA-Group/GNT-MOVE. | 翻訳日:2023-08-24 16:37:07 公開日:2023-08-22 |
# Karasu: ビッグデータ分析のための効率的なクラスタ構成のためのコラボレーションアプローチ Karasu: A Collaborative Approach to Efficient Cluster Configuration for Big Data Analytics ( http://arxiv.org/abs/2308.11792v1 ) ライセンス: Link先を確認 | Dominik Scheinert, Philipp Wiesner, Thorsten Wittkopp, Lauritz Thamsen, Jonathan Will, and Odej Kao | (参考訳) マシンタイプやクラスタサイズなど、さまざまな設定オプションがあるため、ビッグデータ分析ジョブの適切なリソースの選択は困難です。
選択不足が資源効率、コスト、エネルギー利用に重大な影響を与えるため、自動化アプローチが人気を集めています。
既存のメソッドのほとんどは、時間とともに最適に近いソリューションを見つけるために、繰り返し発生するワークロードのプロファイリングに依存している。
コールドスタートの問題のため、これはしばしば長くコストのかかるプロファイリングフェーズにつながる。
しかし、ユーザ間のビッグデータ分析ジョブは、多くの共通プロパティを共有することができる。
集約されたプロファイリングを共有する可能性は、コールドスタート問題に対処するために協調的に実行されます。
Karasuは、同様のインフラストラクチャ、フレームワーク、アルゴリズム、データセットを扱うユーザ間のデータ共有を促進する、より効率的なリソース構成プロファイリングのアプローチである。
karasuはコラボレータの集約ランタイム情報を使用して軽量なパフォーマンスモデルをトレーニングし、それらをアンサンブルメソッドに組み合わせ、構成検索空間の固有の知識を利用する。
さらに、カラスでは複数の目的を同時に最適化できる。
評価は,パブリッククラウド環境における多様なワークロード実行のパフォーマンスデータに基づく。
対象のジョブに共通する部分的な特徴のみを共有するプロファイリングの実行がほとんどない場合でも,カラスではパフォーマンス,検索時間,コストの観点から既存手法を大幅に向上できることを示す。 Selecting the right resources for big data analytics jobs is hard because of the wide variety of configuration options like machine type and cluster size. As poor choices can have a significant impact on resource efficiency, cost, and energy usage, automated approaches are gaining popularity. Most existing methods rely on profiling recurring workloads to find near-optimal solutions over time. Due to the cold-start problem, this often leads to lengthy and costly profiling phases. However, big data analytics jobs across users can share many common properties: they often operate on similar infrastructure, using similar algorithms implemented in similar frameworks. The potential in sharing aggregated profiling runs to collaboratively address the cold start problem is largely unexplored. We present Karasu, an approach to more efficient resource configuration profiling that promotes data sharing among users working with similar infrastructures, frameworks, algorithms, or datasets. Karasu trains lightweight performance models using aggregated runtime information of collaborators and combines them into an ensemble method to exploit inherent knowledge of the configuration search space. Moreover, Karasu allows the optimization of multiple objectives simultaneously. Our evaluation is based on performance data from diverse workload executions in a public cloud environment. We show that Karasu is able to significantly boost existing methods in terms of performance, search time, and cost, even when few comparable profiling runs are available that share only partial common characteristics with the target job. | 翻訳日:2023-08-24 16:36:36 公開日:2023-08-22 |
# 符号不定前置詞に対するデータ同化:シンクホーンアルゴリズムの一般化 Data Assimilation for Sign-indefinite Priors: A generalization of Sinkhorn's algorithm ( http://arxiv.org/abs/2308.11791v1 ) ライセンス: Link先を確認 | Anqi Dong, Tryphon T. Georgiou, and Allen Tannenbaum | (参考訳) この研究の目的は、schr\"odinger-fortet-sinkhornパラダイムを適切に拡張することにより、署名されたデータセットを特定の限界に一致させるフレームワークを開発することである。
具体的には、更新された値が指定された限界値と一致するように、符号不変な多次元配列を再検討する。
本手法は,限界分布に合致する「優先的」確率測度を更新することを目的としたschr\"odinger's problemの理論的根拠に従う。
有名なシンクホーンのアルゴリズム(Rによって以前に確立された)。
Schr\"odinger's problem was found early application in calibrating contingency table in statistics and、より最近では、機械学習と最適輸送におけるマルチマージ問題である。
本稿では,多次元アレーの形で符号不確定な先行を仮定し,与えられた限界値との整合性を確保するために,前処理を適切に更新する最適化問題を提案する。
結果のアルゴリズムはシンクホーンアルゴリズムを一般化し、異なる座標方向に沿って配列のエントリを反復的にスケーリングする。
スケーリングは乗法だが、シンクホーンとは対照的に、エントリの符号に依存する逆乗法である。
我々のアルゴリズムは、前者のエントリが正のとき、古典的なシンクホーンアルゴリズムに還元される。 The purpose of this work is to develop a framework to calibrate signed datasets so as to be consistent with specified marginals by suitably extending the Schr\"odinger-Fortet-Sinkhorn paradigm. Specifically, we seek to revise sign-indefinite multi-dimensional arrays in a way that the updated values agree with specified marginals. Our approach follows the rationale in Schr\"odinger's problem, aimed at updating a "prior" probability measure to agree with marginal distributions. The celebrated Sinkhorn's algorithm (established earlier by R.\ Fortet) that solves Schr\"odinger's problem found early applications in calibrating contingency tables in statistics and, more recently, multi-marginal problems in machine learning and optimal transport. Herein, we postulate a sign-indefinite prior in the form of a multi-dimensional array, and propose an optimization problem to suitably update this prior to ensure consistency with given marginals. The resulting algorithm generalizes the Sinkhorn algorithm in that it amounts to iterative scaling of the entries of the array along different coordinate directions. The scaling is multiplicative but also, in contrast to Sinkhorn, inverse-multiplicative depending on the sign of the entries. Our algorithm reduces to the classical Sinkhorn algorithm when the entries of the prior are positive. | 翻訳日:2023-08-24 16:36:14 公開日:2023-08-22 |
# ヒト脳構造接続の正常な周産期発達の特徴 Characterizing normal perinatal development of the human brain structural connectivity ( http://arxiv.org/abs/2308.11836v1 ) ライセンス: Link先を確認 | Yihan Wu, Lana Vasung, Camilo Calixto, Ali Gholipour, Davood Karimi | (参考訳) 初期の脳の発達は、高度に組織化された構造的コネクトームの形成によって特徴づけられる。
このコネクトームの相互結合の性質は脳の認知能力の基盤となり、疾患や環境要因に対する応答に影響を与える。
したがって、周産期における構造的結合の定量的評価は、正常および異常神経発達の研究に有用である。
しかし、拡散MRIデータからコネクトームを推定するには複雑な計算が必要となる。
周産期においては、これらの計算は脳の急速な発達と画像化の困難によりさらに困難である。
高いサブジェクト間変動性と組み合わせると、これらの因子は構造コネクトームの正常な発達を図示することが困難になる。
結果として、脳開発におけるこの重要な段階において、構造的接続指標の信頼できる規範的ベースラインが欠如している。
本研究では,時空間平均化に基づく計算フレームワークを開発し,その基盤線を決定する。
この枠組みを用いて月経後33~44週における構造的接続を166名の被験者のデータを用いて解析した。
以上の結果から, 周産期における構造接続の発達傾向が明らかとなった。
分数異方性と神経突起密度に基づく接続重み付けが最も一貫した結果を得た。
我々は,大域的および局所的な効率の向上,特徴経路長の減少,脳葉と半球間の接続の拡充を観察した。
また,異なる接続重み付けアプローチで一貫性のある非対称性パターンも観察した。
新たな計算手法と結果は,構造的コネクトームの正常および異常な発達の早期評価に有用である。 Early brain development is characterized by the formation of a highly organized structural connectome. The interconnected nature of this connectome underlies the brain's cognitive abilities and influences its response to diseases and environmental factors. Hence, quantitative assessment of structural connectivity in the perinatal stage is useful for studying normal and abnormal neurodevelopment. However, estimation of the connectome from diffusion MRI data involves complex computations. For the perinatal period, these computations are further challenged by the rapid brain development and imaging difficulties. Combined with high inter-subject variability, these factors make it difficult to chart the normal development of the structural connectome. As a result, there is a lack of reliable normative baselines of structural connectivity metrics at this critical stage in brain development. In this study, we developed a computational framework, based on spatio-temporal averaging, for determining such baselines. We used this framework to analyze the structural connectivity between 33 and 44 postmenstrual weeks using data from 166 subjects. Our results unveiled clear and strong trends in the development of structural connectivity in perinatal stage. Connection weighting based on fractional anisotropy and neurite density produced the most consistent results. We observed increases in global and local efficiency, a decrease in characteristic path length, and widespread strengthening of the connections within and across brain lobes and hemispheres. We also observed asymmetry patterns that were consistent between different connection weighting approaches. The new computational method and results are useful for assessing normal and abnormal development of the structural connectome early in life. | 翻訳日:2023-08-24 16:29:09 公開日:2023-08-22 |
# ネットワーク侵入検出のためのベイズ変種の性能比較と実装 Performance Comparison and Implementation of Bayesian Variants for Network Intrusion Detection ( http://arxiv.org/abs/2308.11834v1 ) ライセンス: Link先を確認 | Tosin Ige, Christopher Kiekintveld | (参考訳) ベイズ分類器は、それぞれの特徴が互いに完全に独立であるときにうまく機能するが、現実世界のアプリケーションでは必ずしも有効ではない。
本研究の目的は,ネットワーク侵入の異常検出におけるベイズ分類器(Multinomial,Bernoulli,Gaussian)の各変種の性能の実装と比較を行い,各変種仮定とその性能に何らかの関連があるかどうかを検討することである。
その結果,ベイズアルゴリズムの各変種は特徴量に関係なくその仮定を盲目的に追従し,その仮定が精度に影響を与える唯一の重要な要因であることがわかった。
実験の結果、ベルヌーイの精度は69.9%(列車71%)、多項の精度は31.2%(列車31.2%)、ガウスの精度は81.69%(列車82.84%)であった。
より深く研究し、各ナイーブベイズ変種のパフォーマンスと精度は、主に各分類器の仮定に起因し、ガウス分類器は、特徴が連続である正規分布に従うと仮定し、多項分類器は単に離散分布と多項分布を仮定して不規則な性能を持つという仮定により、異常検出において最もよく行った。 Bayesian classifiers perform well when each of the features is completely independent of the other which is not always valid in real world application. The aim of this study is to implement and compare the performances of each variant of Bayesian classifier (Multinomial, Bernoulli, and Gaussian) on anomaly detection in network intrusion, and to investigate whether there is any association between each variant assumption and their performance. Our investigation showed that each variant of Bayesian algorithm blindly follows its assumption regardless of feature property, and that the assumption is the single most important factor that influences their accuracy. Experimental results show that Bernoulli has accuracy of 69.9% test (71% train), Multinomial has accuracy of 31.2% test (31.2% train), while Gaussian has accuracy of 81.69% test (82.84% train). Going deeper, we investigated and found that each Naive Bayes variants performances and accuracy is largely due to each classifier assumption, Gaussian classifier performed best on anomaly detection due to its assumption that features follow normal distributions which are continuous, while multinomial classifier have a dismal performance as it simply assumes discreet and multinomial distribution. | 翻訳日:2023-08-24 16:28:48 公開日:2023-08-22 |
# 数学定数間の固有順序のアルゴリズムによる発見 Algorithm-assisted discovery of an intrinsic order among mathematical constants ( http://arxiv.org/abs/2308.11829v1 ) ライセンス: Link先を確認 | Rotem Elimelech, Ofir David, Carlos De la Cruz Mengual, Rotem Kalisch, Wolfgang Berndt, Michael Shalyt, Mark Silberstein, Yaron Hadad, and Ido Kaminer | (参考訳) 近年、数学の分野における多くの発見がコンピュータアルゴリズムによって支援され、主に人間が調査するのに時間がかかりすぎる大きなパラメータ空間を探索している。
コンピュータとアルゴリズムがより強力になるにつれて、人間の直観とコンピュータアルゴリズムの相互作用が新たな数学的概念の発見に繋がる可能性がある。
この観点を実現するため,我々は,前例のない数式を基本数定数に対して連続的に生成する超並列計算機アルゴリズムを開発した。
アルゴリズムによって発見された数式は、我々が保守行列場と呼ぶ新しい数学的構造を明らかにしている。
そのような行列体 (1) は数千の既存の公式を統一し、(2) は無限に多くの新しい公式を生成し、(3) より重要なのは、リーマンゼータ函数の複数の整数値を含む異なる数学定数の間の予期せぬ関係を導くことである。
保守行列場はまた、不合理性の新たな数学的証明を可能にする。
特に、これらは ap\'ery による $\zeta(3)$ の不合理性に対する証明の一般化に使うことができる。
世界中の何千ものパーソナルコンピュータを活用して,実験数学の力を実証し,長期にわたるオープン問題に取り組み,様々な科学分野にわたる予期せぬつながりを発見する大規模計算手法の展望を明らかにした。 In recent decades, a growing number of discoveries in fields of mathematics have been assisted by computer algorithms, primarily for exploring large parameter spaces that humans would take too long to investigate. As computers and algorithms become more powerful, an intriguing possibility arises - the interplay between human intuition and computer algorithms can lead to discoveries of novel mathematical concepts that would otherwise remain elusive. To realize this perspective, we have developed a massively parallel computer algorithm that discovers an unprecedented number of continued fraction formulas for fundamental mathematical constants. The sheer number of formulas discovered by the algorithm unveils a novel mathematical structure that we call the conservative matrix field. Such matrix fields (1) unify thousands of existing formulas, (2) generate infinitely many new formulas, and most importantly, (3) lead to unexpected relations between different mathematical constants, including multiple integer values of the Riemann zeta function. Conservative matrix fields also enable new mathematical proofs of irrationality. In particular, we can use them to generalize the celebrated proof by Ap\'ery for the irrationality of $\zeta(3)$. Utilizing thousands of personal computers worldwide, our computer-supported research strategy demonstrates the power of experimental mathematics, highlighting the prospects of large-scale computational approaches to tackle longstanding open problems and discover unexpected connections across diverse fields of science. | 翻訳日:2023-08-24 16:28:18 公開日:2023-08-22 |
# テストテイクにおけるgptモデルの有効性の検討 : 運転免許知識試験を事例として Exploring the Effectiveness of GPT Models in Test-Taking: A Case Study of the Driver's License Knowledge Test ( http://arxiv.org/abs/2308.11827v1 ) ライセンス: Link先を確認 | Saba Rahimi, Tucker Balch, Manuela Veloso | (参考訳) Open AIのGenerative Pre-trained Transformer (GPT)モデルのような大規模言語モデルは、質問に答えるには熟練しているが、その知識はトレーニングデータに存在する情報に限られている。
この制限により、最近の開発や非公開文書に関する疑問に直面すると効果が低下する。
本研究は,gptモデルが学習データに含まれない情報ソースから文脈を用いて質問に答えることを可能にする手法を提案する。
この手法には、文脈情報の事前処理、コンテキストとクエリの埋め込み、コンテキストの埋め込みの統合によるプロンプトの構築、GPTモデルによる回答の生成が含まれる。
本手法をカリフォルニアドライバハンドブックを情報源として,制御されたテストシナリオに適用した。
gpt-3モデルは50個のサンプル駆動型知識テスト質問で96%の合格点を達成した。
対照的に、文脈のないモデルでは、パススコアは82%に低下した。
しかし、このモデルは、改善の余地を強調しながら、コンテキストのライブラリを提供しても、いくつかの質問に答えることができない。
また,モデルの性能に及ぼすプロンプト長とコンテキストフォーマットの影響についても検討した。
この研究は、質問応答タスクにおけるGPTモデルの限界と潜在的な改善に関する洞察を提供する。 Large language models such as Open AI's Generative Pre-trained Transformer (GPT) models are proficient at answering questions, but their knowledge is confined to the information present in their training data. This limitation renders them ineffective when confronted with questions about recent developments or non-public documents. Our research proposes a method that enables GPT models to answer questions by employing context from an information source not previously included in their training data. The methodology includes preprocessing of contextual information, the embedding of contexts and queries, constructing prompt through the integration of context embeddings, and generating answers using GPT models. We applied this method in a controlled test scenario using the California Driver's Handbook as the information source. The GPT-3 model achieved a 96% passing score on a set of 50 sample driving knowledge test questions. In contrast, without context, the model's passing score fell to 82%. However, the model still fails to answer some questions correctly even with providing library of context, highlighting room for improvement. The research also examined the impact of prompt length and context format, on the model's performance. Overall, the study provides insights into the limitations and potential improvements for GPT models in question-answering tasks. | 翻訳日:2023-08-24 16:27:54 公開日:2023-08-22 |
# Accel-GCN:グラフ畳み込みネットワークのための高性能GPUアクセラレータ設計 Accel-GCN: High-Performance GPU Accelerator Design for Graph Convolution Networks ( http://arxiv.org/abs/2308.11825v1 ) ライセンス: Link先を確認 | Xi Xie, Hongwu Peng, Amit Hasan, Shaoyi Huang, Jiahui Zhao, Haowen Fang, Wei Zhang, Tong Geng, Omer Khan, and Caiwen Ding | (参考訳) グラフ畳み込みネットワーク(graph convolutional network, gcns)は、さまざまなドメインにわたるグラフデータから潜在情報を抽出する上で重要な役割を担っている。
これらの課題に対処するため,GCN用のGPUアクセラレータアーキテクチャであるAccel-GCNを提案する。
Accel-GCNの設計は以下のとおりである。
(i)類似の程度のグループノードに対する軽量次数分類段階
(ii) ワープのワークロードサイズを動的に調整し、共有メモリのローカリティとワークロードのバランスを改善し、GNNAdvisorのような設計と比較してメタデータのオーバーヘッドを減らすブロックレベルのパーティション戦略。
(iii)密行列の柱次元におけるメモリ結合と計算並列性を改善する複合ワープ戦略。
これらの原理を用いて,ブロックレベルの分割とワープ戦略を組み合わせたGCNにおけるスパース行列乗法(SpMM)のカーネルを定式化した。
このアプローチは性能とマルチレベルメモリ効率を向上し、メモリの結合とアライメントを利用してメモリ帯域幅を最適化する。
18のベンチマークグラフに対するAccel-GCNの評価では、cuSPARSE、GNNAdvisor、Graph-BLASTをそれぞれ1.17倍、1.86倍、2.94倍で上回っている。
その結果,GCN計算効率を向上させる有効なソリューションとして,Accel-GCNが評価された。 Graph Convolutional Networks (GCNs) are pivotal in extracting latent information from graph data across various domains, yet their acceleration on mainstream GPUs is challenged by workload imbalance and memory access irregularity. To address these challenges, we present Accel-GCN, a GPU accelerator architecture for GCNs. The design of Accel-GCN encompasses: (i) a lightweight degree sorting stage to group nodes with similar degree; (ii) a block-level partition strategy that dynamically adjusts warp workload sizes, enhancing shared memory locality and workload balance, and reducing metadata overhead compared to designs like GNNAdvisor; (iii) a combined warp strategy that improves memory coalescing and computational parallelism in the column dimension of dense matrices. Utilizing these principles, we formulated a kernel for sparse matrix multiplication (SpMM) in GCNs that employs block-level partitioning and combined warp strategy. This approach augments performance and multi-level memory efficiency and optimizes memory bandwidth by exploiting memory coalescing and alignment. Evaluation of Accel-GCN across 18 benchmark graphs reveals that it outperforms cuSPARSE, GNNAdvisor, and graph-BLAST by factors of 1.17 times, 1.86 times, and 2.94 times respectively. The results underscore Accel-GCN as an effective solution for enhancing GCN computational efficiency. | 翻訳日:2023-08-24 16:27:34 公開日:2023-08-22 |
# グリーン関数の逆流補正:二次元Fermi-Hubbard型モデルのベンチマーク Backflow Corrections of Green's Functions: Benchmarks on the Two-dimensional Fermi-Hubbard-type Model ( http://arxiv.org/abs/2308.11823v1 ) ライセンス: Link先を確認 | Yu-Tong Zhou, Zheng-Wei Zhou, Xiao Liang | (参考訳) 量子多体問題は凝縮物質物理学において重要なトピックである。
この問題を解決するため、波動関数の表現能力を向上させるため、いくつかの手法が開発されている。
フェルミ・ハバード型モデルでは、基底エネルギーは1体と2体の相関を含む。
波動関数とは対照的に、グリーン関数は複数の部位間の時空間相関を直接表現する。
本研究では, 1体グリーン関数の逆流補正を行い, 相関を捉える能力を向上させる。
本手法は,開境界条件を持つスピンレス$t-V$モデルと,長方形格子上の周期的および円筒的境界条件を持つFermi-Hubbardモデルでベンチマークを行う。
本手法で得られたエネルギーは最先端の手法で達成したエネルギーよりも、あるいはさらに低いエネルギーである。 The quantum many-body problem is an important topic in condensed matter physics. To efficiently solve the problem, several methods have been developped to improve the representation ability of wave-functions. For the Fermi-Hubbard-type model, the ground energy contains one-body and two-body correlations. In contrast to the wave-function, the Green function directly represents the spatio-temporal correlations between multiple sites. In this work, we propose a backflow correction of the one-body Green function to improve the ability to capture correlations. Our method is benchmarked on the spinless $t-V$ model with open boundary conditions and on the Fermi-Hubbard model with periodic and cylindrical boudary conditions, both on rectangular lattices. The energies achieved by our method are competitive with or even lower than those achieved by state-of-the-art methods. | 翻訳日:2023-08-24 16:27:09 公開日:2023-08-22 |
# PatchBackdoor:モデル修正なしのディープニューラルネットワークに対するバックドア攻撃 PatchBackdoor: Backdoor Attack against Deep Neural Networks without Model Modification ( http://arxiv.org/abs/2308.11822v1 ) ライセンス: Link先を確認 | Yizhen Yuan (1), Rui Kong (3), Shenghao Xie (4), Yuanchun Li (1 and 2), Yunxin Liu (1 and 2) ((1) Institute for AI Industry Research (AIR), Tsinghua University, Beijing, China, (2) Shanghai AI Laboratory, Shanghai, China, (3) Shanghai Jiao Tong University, Shanghai, China, (4) Wuhan University, Wuhan, China) | (参考訳) バックドア攻撃は、安全クリティカルなシナリオにおけるディープラーニングシステムに対する大きな脅威であり、攻撃者が制御する条件下でのニューラルネットワークモデルの誤動作を誘発することを目的としている。
しかし、ほとんどのバックドアアタックは、有毒なデータや/または直接モデル編集によるトレーニングを通じてニューラルネットワークモデルを変更する必要があるため、バックドアアタックはモデルを適切に保護することで容易に回避できるという一般的な偽の信念が導かれる。
本稿では,バックドア攻撃がモデル修正なしに実現可能であることを示す。
トレーニングデータやモデルにバックドアロジックを注入するのではなく、カメラの前に慎重に設計されたパッチ(つまりバックドアパッチ)を配置し、入力画像と共にモデルに供給することを提案する。
パッチは、攻撃者が制御するトリガーオブジェクトを含む入力画像において誤った予測を生成する一方で、常に正常に振る舞うように訓練することができる。
本手法は,バックドアパッチを生成するための効果的なトレーニング手法と,実際のデプロイにおけるパッチの実現可能性を高めるためのデジタル物理変換モデリング手法を含む。
広範な実験により、patchbackdoorは一般的なディープラーニングモデル(vgg、mobilenet、resnet)に適用でき、分類タスクで攻撃成功率は93%から99%である。
さらに、実際のシナリオでPatchBackdoorを実装し、攻撃がまだ脅威であることを示す。 Backdoor attack is a major threat to deep learning systems in safety-critical scenarios, which aims to trigger misbehavior of neural network models under attacker-controlled conditions. However, most backdoor attacks have to modify the neural network models through training with poisoned data and/or direct model editing, which leads to a common but false belief that backdoor attack can be easily avoided by properly protecting the model. In this paper, we show that backdoor attacks can be achieved without any model modification. Instead of injecting backdoor logic into the training data or the model, we propose to place a carefully-designed patch (namely backdoor patch) in front of the camera, which is fed into the model together with the input images. The patch can be trained to behave normally at most of the time, while producing wrong prediction when the input image contains an attacker-controlled trigger object. Our main techniques include an effective training method to generate the backdoor patch and a digital-physical transformation modeling method to enhance the feasibility of the patch in real deployments. Extensive experiments show that PatchBackdoor can be applied to common deep learning models (VGG, MobileNet, ResNet) with an attack success rate of 93% to 99% on classification tasks. Moreover, we implement PatchBackdoor in real-world scenarios and show that the attack is still threatening. | 翻訳日:2023-08-24 16:26:55 公開日:2023-08-22 |
# Deconfounderによる電子健康記録における健康格差の緩和 Mitigating Health Disparity on Biased Electronic Health Records via Deconfounder ( http://arxiv.org/abs/2308.11819v1 ) ライセンス: Link先を確認 | Zheng Liu, Xiaohan Li and Philip Yu | (参考訳) 臨床データモデリングの公平性の問題、特にElectronic Health Records(EHRs)は、EHRの複雑な潜伏構造と潜在的選択バイアスのために最も重要である。
モデル全体の精度を実際に維持しながら、健康格差を軽減することがしばしば必要である。
しかし、従来の手法は、観測されたデータを超えた基礎となる要因を捉えることができないため、正確さと公平さのトレードオフに遭遇することが多い。
この課題に対処するために、縦型電子健康記録(EHR)モデリングにおける公平性と正確性の両方を達成することを目的とした、Fair Longitudinal Medical Deconfounder(FLMD)と呼ばれる新しいモデルを提案する。
FLMDは2段階のトレーニングプロセスを採用している。
第一段階では、flmdは観察されていない共同創設者を、患者の遺伝子型や生活習慣といった観察されたehr以外の医学的要因を効果的に表わす。
この観察されていない共同創設者は、正確さとフェアネスのジレンマに対処するために不可欠である。
第2段階では、FLMDは学習した潜在表現と他の関連する特徴を組み合わせて予測を行う。
対物公正などの適切な公正基準を取り入れることで、FLMDは健康格差を最小化しつつ高い予測精度を維持することを保証する。
我々は、FLMDの有効性を示すために、2つの実世界のEHRデータセットの総合的な実験を行った。
公平性と正確性の観点からのベースライン法とflmd変種の比較を別にして、乱れ/不均衡/合成データセットにおける全てのモデルの性能を評価し、異なる設定におけるflmdの優位性を示し、その能力に関する貴重な洞察を提供する。 The fairness issue of clinical data modeling, especially on Electronic Health Records (EHRs), is of utmost importance due to EHR's complex latent structure and potential selection bias. It is frequently necessary to mitigate health disparity while keeping the model's overall accuracy in practice. However, traditional methods often encounter the trade-off between accuracy and fairness, as they fail to capture the underlying factors beyond observed data. To tackle this challenge, we propose a novel model called Fair Longitudinal Medical Deconfounder (FLMD) that aims to achieve both fairness and accuracy in longitudinal Electronic Health Records (EHR) modeling. Drawing inspiration from the deconfounder theory, FLMD employs a two-stage training process. In the first stage, FLMD captures unobserved confounders for each encounter, which effectively represents underlying medical factors beyond observed EHR, such as patient genotypes and lifestyle habits. This unobserved confounder is crucial for addressing the accuracy/fairness dilemma. In the second stage, FLMD combines the learned latent representation with other relevant features to make predictions. By incorporating appropriate fairness criteria, such as counterfactual fairness, FLMD ensures that it maintains high prediction accuracy while simultaneously minimizing health disparities. We conducted comprehensive experiments on two real-world EHR datasets to demonstrate the effectiveness of FLMD. Apart from the comparison of baseline methods and FLMD variants in terms of fairness and accuracy, we assessed the performance of all models on disturbed/imbalanced and synthetic datasets to showcase the superiority of FLMD across different settings and provide valuable insights into its capabilities. | 翻訳日:2023-08-24 16:26:30 公開日:2023-08-22 |
# 物理インフォームドニューラルネットワークにおける非局所交通流モデルの導入 Incorporating Nonlocal Traffic Flow Model in Physics-informed Neural Networks ( http://arxiv.org/abs/2308.11818v1 ) ライセンス: Link先を確認 | Archie J. Huang, Animesh Biswas, Shaurya Agarwal | (参考訳) 本研究では,物理インフォームドディープラーニングフレームワークにおける非局所LWRモデルの利点を活用することにより,交通状態推定手法の進歩に寄与する。
古典的なLWRモデルは有用ではあるが、現実の交通の流れを正確に表現するには不十分である。
非局所LWRモデルは、下流の交通密度の重み付け平均として速度を考慮し、この制限に対処する。
本稿では,非局所LWRモデルを組み込んだ新しいPIDLフレームワークを提案する。
固定長カーネルと可変長カーネルの両方を導入し、必要な数学を開発する。
提案したPIDLフレームワークは,NGSIMおよびCitySimデータセットのデータを用いて,さまざまな畳み込みカーネルやルックアヘッドウィンドウを含む包括的な評価を行う。
その結果, 局所LWRモデルを用いたPIDL法の改良が示された。
提案手法が交通状態推定の精度と信頼性を高める可能性を示し,より効果的な交通管理戦略を実現する。 This research contributes to the advancement of traffic state estimation methods by leveraging the benefits of the nonlocal LWR model within a physics-informed deep learning framework. The classical LWR model, while useful, falls short of accurately representing real-world traffic flows. The nonlocal LWR model addresses this limitation by considering the speed as a weighted mean of the downstream traffic density. In this paper, we propose a novel PIDL framework that incorporates the nonlocal LWR model. We introduce both fixed-length and variable-length kernels and develop the required mathematics. The proposed PIDL framework undergoes a comprehensive evaluation, including various convolutional kernels and look-ahead windows, using data from the NGSIM and CitySim datasets. The results demonstrate improvements over the baseline PIDL approach using the local LWR model. The findings highlight the potential of the proposed approach to enhance the accuracy and reliability of traffic state estimation, enabling more effective traffic management strategies. | 翻訳日:2023-08-24 16:26:01 公開日:2023-08-22 |
# 海洋予測に向けた深部神経オペレーターモデルの評価 Evaluation of Deep Neural Operator Models toward Ocean Forecasting ( http://arxiv.org/abs/2308.11814v1 ) ライセンス: Link先を確認 | Ellery Rajagopal, Anantha N.S. Babu, Tony Ryu, Patrick J. Haley Jr., Chris Mirabito, Pierre F.J. Lermusiaux | (参考訳) データ駆動のディープラーニングモデリングフレームワークは、最近時系列データの予測のために開発されている。
このような機械学習モデルは、大気や海洋を含む複数の領域で有用であり、一般により大きな流体群集で有用である。
本研究は, 古典流体の再生・予測における深層ニューラルオペレーターモデルの有効性と, 現実的な海洋力学のシミュレーションについて検討する。
まず,シリンダーを過ぎる2次元流れをシミュレートしたモデルを用いて,これらの深層ニューラルオペレータモデルの能力評価を行った。
次に, 大西洋岸中部とマサチューセッツ湾における海面循環予測への応用について検討し, 実海実験に使用する高分解能データ同化シミュレーションから学ぶ。
訓練されたディープ・ニューラル・オペレーター・モデルは、理想的な周期的エディー・シェディングを予測することができることを確認した。
現実的な海面流れと予備的な研究のために、彼らはいくつかの特徴を予測し、いくつかのスキルを示し、将来の研究と応用の可能性を提供することができる。 Data-driven, deep-learning modeling frameworks have been recently developed for forecasting time series data. Such machine learning models may be useful in multiple domains including the atmospheric and oceanic ones, and in general, the larger fluids community. The present work investigates the possible effectiveness of such deep neural operator models for reproducing and predicting classic fluid flows and simulations of realistic ocean dynamics. We first briefly evaluate the capabilities of such deep neural operator models when trained on a simulated two-dimensional fluid flow past a cylinder. We then investigate their application to forecasting ocean surface circulation in the Middle Atlantic Bight and Massachusetts Bay, learning from high-resolution data-assimilative simulations employed for real sea experiments. We confirm that trained deep neural operator models are capable of predicting idealized periodic eddy shedding. For realistic ocean surface flows and our preliminary study, they can predict several of the features and show some skill, providing potential for future research and applications. | 翻訳日:2023-08-24 16:25:46 公開日:2023-08-22 |
# 事業譲渡50件の記録 Recording of 50 Business Assignments ( http://arxiv.org/abs/2308.12211v1 ) ライセンス: Link先を確認 | Michal Sroka and Mohammadreza Fani Sani | (参考訳) プロセスマイニングの主なユースケースの1つは、ユーザがビジネス課題をどのようにフォローするかを発見し分析し、プロセスの効率と最適化に関する貴重な洞察を提供することです。
本稿では,50のビジネスプロセスからなる包括的データセットを提案する。
このデータセットは、タスクマイニングやプロセス自動化など、さまざまなアプリケーションで研究を行う上で大きな可能性を秘めている。 One of the main use cases of process mining is to discover and analyze how users follow business assignments, providing valuable insights into process efficiency and optimization. In this paper, we present a comprehensive dataset consisting of 50 real business processes. The dataset holds significant potential for research in various applications, including task mining and process automation which is a valuable resource for researchers and practitioners. | 翻訳日:2023-08-24 13:47:02 公開日:2023-08-22 |
# ディープラーニング学習における概念進化--統一解釈枠組みと発見 Concept Evolution in Deep Learning Training: A Unified Interpretation Framework and Discoveries ( http://arxiv.org/abs/2203.16475v4 ) ライセンス: Link先を確認 | Haekyu Park, Seongmin Lee, Benjamin Hoover, Austin P. Wright, Omar Shaikh, Rahul Duggal, Nilaksh Das, Kevin Li, Judy Hoffman, Duen Horng Chau | (参考訳) 本稿では,学習中の学習概念のインセプションと進化を明らかにする,ディープニューラルネットワーク(dnn)のための統合解釈フレームワークであるconceptevoを提案する。
我々の研究はDNN解釈研究における重要なギャップに対処するものであり、既存の手法は主に後学習の解釈に焦点を当てている。
conceptevoは、2つの新しい技術的貢献を紹介している:(1)統一的な意味空間を生成し、トレーニング中に異なるモデルの並べて比較できるアルゴリズム、(2)クラス予測のための重要な概念進化を発見し、定量化するアルゴリズム。
大規模な人的評価と定量的実験を通じて,ConceptEvoは,人間にとって理解しやすいだけでなく,クラスの予測にも不可欠である,異なるモデル間の概念進化の同定に成功した。
ConceptEvoは、ConvNeXtのような現代のDNNアーキテクチャと、VGGsやInceptionV3のような古典的なDNNの両方に適用できる。 We present ConceptEvo, a unified interpretation framework for deep neural networks (DNNs) that reveals the inception and evolution of learned concepts during training. Our work addresses a critical gap in DNN interpretation research, as existing methods primarily focus on post-training interpretation. ConceptEvo introduces two novel technical contributions: (1) an algorithm that generates a unified semantic space, enabling side-by-side comparison of different models during training, and (2) an algorithm that discovers and quantifies important concept evolutions for class predictions. Through a large-scale human evaluation and quantitative experiments, we demonstrate that ConceptEvo successfully identifies concept evolutions across different models, which are not only comprehensible to humans but also crucial for class predictions. ConceptEvo is applicable to both modern DNN architectures, such as ConvNeXt, and classic DNNs, such as VGGs and InceptionV3. | 翻訳日:2023-08-24 11:29:40 公開日:2023-08-22 |
# 窒素空洞中心と光メカニクスを用いた室温量子リピータの提案 Proposal for room-temperature quantum repeaters with nitrogen-vacancy centers and optomechanics ( http://arxiv.org/abs/2203.06611v3 ) ライセンス: Link先を確認 | Jia-Wei Ji, Yu-Feng Wu, Stephen C. Wein, Faezeh Kimiaee Asadi, Roohollah Ghobadi, and Christoph Simon | (参考訳) 環境条件下で動作可能な量子リピータアーキテクチャを提案する。
提案手法は, 室温でも良好なスピンコヒーレンス時間を有する窒素空孔中心と, フォノン関連デコヒーレンスを回避し, 発光光子をテレコムバンド内に配置できる光力学に基づく非低温スピン光子界面への最近の進展を基盤としている。
本研究では、光子数分解法を用いて、2つの遠隔電子スピン間の絡み合いの忠実度と効率を定量化する。
電子スピンと核スピンを含む操作を準決定論的に置き換えることで核スピンに格納し、長距離に拡張する方法について述べる。
さらに,スピン-オプトメカニクスインタフェースを用いて室温でのスピン状態の高忠実な読み出しを実現する手法を提案する。
我々の研究は、室温で作動する固体成分からなる長距離量子ネットワークが、現在の技術能力の範囲内にあることを示している。 We propose a quantum repeater architecture that can operate under ambient conditions. Our proposal builds on recent progress towards non-cryogenic spin-photon interfaces based on nitrogen-vacancy centers, which have excellent spin coherence times even at room temperature, and optomechanics, which allows to avoid phonon-related decoherence and also allows the emitted photons to be in the telecom band. We apply the photon number decomposition method to quantify the fidelity and the efficiency of entanglement established between two remote electron spins. We describe how the entanglement can be stored in nuclear spins and extended to long distances via quasi-deterministic entanglement swapping operations involving the electron and nuclear spins. We furthermore propose schemes to achieve high-fidelity readout of the spin states at room temperature using the spin-optomechanics interface. Our work shows that long-distance quantum networks made of solid-state components that operate at room temperature are within reach of current technological capabilities. | 翻訳日:2023-08-23 21:39:34 公開日:2023-08-22 |
# EvoPruneDeepTL:トランスファーラーニングに基づくディープニューラルネットワークのための進化的プルーニングモデル EvoPruneDeepTL: An Evolutionary Pruning Model for Transfer Learning based Deep Neural Networks ( http://arxiv.org/abs/2202.03844v2 ) ライセンス: Link先を確認 | Javier Poyatos, Daniel Molina, Aritz. D. Martinez, Javier Del Ser, Francisco Herrera | (参考訳) 近年、ディープラーニングモデルは複雑な最適化問題において優れた性能を示している。
一般的に大規模なトレーニングデータセットが必要ですが、ほとんどのケースでは制限があります。
転送学習は、事前学習されたアーキテクチャの最初のレイヤをインポートし、それらを完全に接続されたレイヤに接続して、新しい問題に適用することができる。
その結果、これらのレイヤの構成はモデルの性能に不可欠となる。
残念ながら、これらのモデルの最適化は通常、計算に要求されるタスクである。
ディープラーニングモデルを最適化する戦略のひとつにpruning schemeがある。
プルーニングメソッドは、一度プルーニングされたモデルのパフォーマンス上のペナルティを想定して、ネットワークの複雑さを減らすことに重点を置いている。
しかし、プルーニングは、最適化アルゴリズムを使用してニューロン間の不要な接続を識別し、最終的に除去することで、パフォーマンスを向上させるために使われる可能性がある。
本研究は,最後の完全連結層を遺伝的アルゴリズムにより最適化された疎層に置き換える,トランスファー学習に基づくディープニューラルネットワークのための進化的プルーニングモデルであるevoprune deeptlを提案する。
提案手法は,その解符号化戦略に応じて,ニューラルネットワークの密結合部分上で最適化されたプルーニングや特徴選択を行うことができる。
提案の利点を評価するために,複数のデータセットを用いて異なる実験を行った。
その結果、最適化プロセスの結果、EvoPruneDeepTLの寄与と、ネットワーク全体の計算効率に対する特徴選択が示された。
特に精度が向上し、最終層における活動ニューロンの数も減少する。 In recent years, Deep Learning models have shown a great performance in complex optimization problems. They generally require large training datasets, which is a limitation in most practical cases. Transfer learning allows importing the first layers of a pre-trained architecture and connecting them to fully-connected layers to adapt them to a new problem. Consequently, the configuration of the these layers becomes crucial for the performance of the model. Unfortunately, the optimization of these models is usually a computationally demanding task. One strategy to optimize Deep Learning models is the pruning scheme. Pruning methods are focused on reducing the complexity of the network, assuming an expected performance penalty of the model once pruned. However, the pruning could potentially be used to improve the performance, using an optimization algorithm to identify and eventually remove unnecessary connections among neurons. This work proposes EvoPruneDeepTL, an evolutionary pruning model for Transfer Learning based Deep Neural Networks which replaces the last fully-connected layers with sparse layers optimized by a genetic algorithm. Depending on its solution encoding strategy, our proposed model can either perform optimized pruning or feature selection over the densely connected part of the neural network. We carry out different experiments with several datasets to assess the benefits of our proposal. Results show the contribution of EvoPruneDeepTL and feature selection to the overall computational efficiency of the network as a result of the optimization process. In particular, the accuracy is improved, reducing at the same time the number of active neurons in the final layers. | 翻訳日:2023-08-23 21:38:44 公開日:2023-08-22 |
# 画像キャプションにおけるディープラーニングのアプローチ Deep Learning Approaches on Image Captioning: A Review ( http://arxiv.org/abs/2201.12944v5 ) ライセンス: Link先を確認 | Taraneh Ghandi and Hamidreza Pourreza and Hamidreza Mahyar | (参考訳) 画像キャプションは重要な研究領域であり、静止画像の形で視覚的内容の自然言語記述を生成することを目的としている。
ディープラーニングの出現と、最近では視覚言語による事前学習技術がこの分野に革命をもたらし、より洗練された手法とパフォーマンスの向上につながった。
本稿では,画像キャプションにおける深層学習法について,包括的分類法を提示し,各手法のカテゴリを詳細に検討し,構造化したレビューを行う。
さらに、画像キャプション研究によく用いられるデータセットと、異なるキャプティングモデルの性能を評価するために使用される評価指標について検討する。
本稿では,対象の幻覚,不足した文脈,照明条件,文脈理解,参照表現などの問題を強調することで,この分野で直面する課題に対処する。
さまざまなディープラーニング手法のパフォーマンスを,広く使用されている評価指標に基づいてランク付けし,その技術の現状について考察した。
さらに,画像とテキスト間の情報ミスアライメント問題への取り組み,データセットバイアスの軽減,キャプション生成のための視覚言語事前学習手法の導入,画像キャプションの品質を正確に測定するための評価ツールの改善など,この分野における研究の今後の方向性を明らかにした。 Image captioning is a research area of immense importance, aiming to generate natural language descriptions for visual content in the form of still images. The advent of deep learning and more recently vision-language pre-training techniques has revolutionized the field, leading to more sophisticated methods and improved performance. In this survey paper, we provide a structured review of deep learning methods in image captioning by presenting a comprehensive taxonomy and discussing each method category in detail. Additionally, we examine the datasets commonly employed in image captioning research, as well as the evaluation metrics used to assess the performance of different captioning models. We address the challenges faced in this field by emphasizing issues such as object hallucination, missing context, illumination conditions, contextual understanding, and referring expressions. We rank different deep learning methods' performance according to widely used evaluation metrics, giving insight into the current state of the art. Furthermore, we identify several potential future directions for research in this area, which include tackling the information misalignment problem between image and text modalities, mitigating dataset bias, incorporating vision-language pre-training methods to enhance caption generation, and developing improved evaluation tools to accurately measure the quality of image captions. | 翻訳日:2023-08-23 21:38:20 公開日:2023-08-22 |
# 情報理論に基づくヒューリスティック・プログレッシブ・マルチビュー符号化 Information Theory-Guided Heuristic Progressive Multi-View Coding ( http://arxiv.org/abs/2109.02344v2 ) ライセンス: Link先を確認 | Jiangmeng Li, Wenwen Qiang, Hang Gao, Bing Su, Farid Razzak, Jie Hu, Changwen Zheng, Hui Xiong | (参考訳) マルチビュー表現学習は、共有コンテキストの複数のビューから包括的な情報をキャプチャする。
近年の著作では、対立学習(con contrastive learning, cl)を適用して、ペアワイズな方法で表現を学習するが、これはまだスケーラブルである: ビュー固有のノイズは、ビュー共有表現を学ぶ際にフィルタされない; 負の項が実際には正と同じクラス内にあり、実際の負のペアが等しく扱われる偽の負のペア; そして、用語間の類似性を測定することは、最適化に支障をきたすかもしれない。
特に2つ以上の視点で、一般化された自己教師型多視点学習の理論的枠組みを研究する研究はほとんどない。
この目的のために,情報理論的な視点から既存の多視点学習パラダイムを再考し,一般化多視点学習のための新しい情報理論的枠組みを提案する。
そこで我々は,3階層のプログレッシブアーキテクチャ,すなわち情報理論に基づくヒューリスティックなプログレッシブ・マルチビュー符号化(IPMC)を用いたマルチビュー符号化手法を構築した。
分散層では、IPMCはビュー間の分散を調整し、ビュー固有のノイズを減らす。
セット層では、IPMCはコントラストのための自己調整型プールを構築し、ビューフィルタを使用してプールを適応的に修正する。
最後に、インスタンス層では、識別表現を学習し、勾配干渉を減らすために、設計された統一損失を採用する。
理論上,実証的に,ipmcが最先端手法よりも優れていることを示す。 Multi-view representation learning captures comprehensive information from multiple views of a shared context. Recent works intuitively apply contrastive learning (CL) to learn representations, regarded as a pairwise manner, which is still scalable: view-specific noise is not filtered in learning view-shared representations; the fake negative pairs, where the negative terms are actually within the same class as the positive, and the real negative pairs are coequally treated; and evenly measuring the similarities between terms might interfere with optimization. Importantly, few works research the theoretical framework of generalized self-supervised multi-view learning, especially for more than two views. To this end, we rethink the existing multi-view learning paradigm from the information theoretical perspective and then propose a novel information theoretical framework for generalized multi-view learning. Guided by it, we build a multi-view coding method with a three-tier progressive architecture, namely Information theory-guided heuristic Progressive Multi-view Coding (IPMC). In the distribution-tier, IPMC aligns the distribution between views to reduce view-specific noise. In the set-tier, IPMC builds self-adjusted pools for contrasting, which utilizes a view filter to adaptively modify the pools. Lastly, in the instance-tier, we adopt a designed unified loss to learn discriminative representations and reduce the gradient interference. Theoretically and empirically, we demonstrate the superiority of IPMC over state-of-the-art methods. | 翻訳日:2023-08-23 21:37:56 公開日:2023-08-22 |
# Geo6D:6次元空間推定のための幾何学的制約学習 Geo6D: Geometric Constraints Learning for 6D Pose Estimation ( http://arxiv.org/abs/2210.10959v6 ) ライセンス: Link先を確認 | Jianqiu Chen, Mingshan Sun, Ye Zheng, Tianpeng Bao, Zhenyu He, Donghai Li, Guoqiang Jin, Rui Zhao, Liwei Wu, Xiaoke Jiang | (参考訳) 目的のポーズパラメータを直接推定するために、エンドツーエンドの回帰を用いた多数の6次元ポーズ推定法が提案されている。
オブジェクトの可視的特徴はポーズに暗黙的に影響されるため、ネットワークは可視領域の特徴の違いを分析してポーズを推測することができる。
しかし、予測不可能で制約のないポーズのバリエーションのため、暗黙的に学習された特徴目的制約はトレーニングサンプルによって不十分にカバーされ、ネットワークが見えないオブジェクトのポーズに脆弱になる。
これらの課題に取り組むため,我々は直接回帰6次元ポーズ推定法としてgeo6dと呼ばれる新しい幾何学的制約学習手法を提案した。
相対オフセット表現で表されるポーズ変換式を導入し、ネットワークの入出力目標を再構成するための幾何学的制約として活用する。
これらの再構成されたデータにより、ネットワークは明示的な幾何学的制約に基づいてポーズを推定でき、相対オフセット表現はポーズ分布ギャップの問題を緩和する。
大規模な実験結果から,Geo6Dを装着すると,直接6D法は複数のデータセット上で最先端の性能を達成でき,10%の量のデータでも有意な有効性を示した。 Numerous 6D pose estimation methods have been proposed that employ end-to-end regression to directly estimate the target pose parameters. Since the visible features of objects are implicitly influenced by their poses, the network allows inferring the pose by analyzing the differences in features in the visible region. However, due to the unpredictable and unrestricted range of pose variations, the implicitly learned visible feature-pose constraints are insufficiently covered by the training samples, making the network vulnerable to unseen object poses. To tackle these challenges, we proposed a novel geometric constraints learning approach called Geo6D for direct regression 6D pose estimation methods. It introduces a pose transformation formula expressed in relative offset representation, which is leveraged as geometric constraints to reconstruct the input and output targets of the network. These reconstructed data enable the network to estimate the pose based on explicit geometric constraints and relative offset representation mitigates the issue of the pose distribution gap. Extensive experimental results show that when equipped with Geo6D, the direct 6D methods achieve state-of-the-art performance on multiple datasets and demonstrate significant effectiveness, even with only 10% amount of data. | 翻訳日:2023-08-23 21:33:27 公開日:2023-08-22 |
# コントラスト視覚言語モデルにおける知覚的グループ化 Perceptual Grouping in Contrastive Vision-Language Models ( http://arxiv.org/abs/2210.09996v3 ) ライセンス: Link先を確認 | Kanchana Ranasinghe, Brandon McKinzie, Sachin Ravi, Yinfei Yang, Alexander Toshev, Jonathon Shlens | (参考訳) ゼロショット画像認識の最近の進歩は、視覚言語モデルが自然言語句で任意に探索される可能性のある高い意味情報で汎用的な視覚表現を学ぶことを示唆している。
しかし、画像を理解することは、画像内のコンテンツが何であるかを理解するだけでなく、そのコンテンツがどこにあるかを理解することにある。
本研究では,物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について検討する。
本稿では,コントラスト損失と大規模 web ベースデータに基づく現代的ビジョンと言語表現学習モデルについて述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
我々はこの性能を、ゼロショット画像認識、教師なしボトムアップ、トップダウンセマンティックセグメンテーション、ロバストネス解析の観点から測定する。
得られたモデルが教師なしセグメンテーション(unsupervised segmentation)の観点で最先端の結果を達成し、学習された表現が視覚モデルの因果行動を研究するために設計されたデータセットにおいて、突発的な相関に一意に堅牢であることを示す。 Recent advances in zero-shot image recognition suggest that vision-language models learn generic visual representations with a high degree of semantic information that may be arbitrarily probed with natural language phrases. Understanding an image, however, is not just about understanding what content resides within an image, but importantly, where that content resides. In this work we examine how well vision-language models are able to understand where objects reside within an image and group together visually related parts of the imagery. We demonstrate how contemporary vision and language representation learning models based on contrastive losses and large web-based data capture limited object localization information. We propose a minimal set of modifications that results in models that uniquely learn both semantic and spatial information. We measure this performance in terms of zero-shot image recognition, unsupervised bottom-up and top-down semantic segmentations, as well as robustness analyses. We find that the resulting model achieves state-of-the-art results in terms of unsupervised segmentation, and demonstrate that the learned representations are uniquely robust to spurious correlations in datasets designed to probe the causal behavior of vision models. | 翻訳日:2023-08-23 21:33:04 公開日:2023-08-22 |
# 平衡伝播を用いたシーケンス学習 Sequence Learning Using Equilibrium Propagation ( http://arxiv.org/abs/2209.09626v4 ) ライセンス: Link先を確認 | Malyaban Bal and Abhronil Sengupta | (参考訳) Equilibrium Propagation (EP) は、バックプロパゲーションのような従来の学習フレームワークに代わる、強力でより生物学的な代替手段である。
EPの有効性は、局所的な計算にのみ依存し、両方のトレーニングフェーズで1種類の計算ユニットだけを必要とするという事実から来ており、生物にインスパイアされたニューロモルフィックコンピューティングのような領域で適用性を高めることができる。
EPにおけるモデルの力学はエネルギー関数によって制御され、モデルの内部状態は同じで定義された状態遷移規則に従って定常状態に収束する。
しかし、EPの定義によれば、モデルの入力(収束RNN)はトレーニングの両フェーズで静的である必要がある。
したがって、LSTMやGRUのようなアーキテクチャを用いたEPを用いたシーケンス分類モデルの設計は不可能である。
本稿では,現代ホップフィールドネットワークにおける最近の発展を活用し,エネルギーベースモデルをさらに理解し,収束基準を満たしながらEPを用いた複雑なシーケンス分類タスクの解を開発し,再帰的バックプロパゲーションと理論的類似性を維持する。
本研究では,EP で使用される収束 RNN モデルに注目するメカニズムとして,現代のホップフィールドネットワークを統合する可能性を探究し,自然言語処理における2つの異なるシーケンス分類タスクに対して,その適用性を初めて拡張する。 Equilibrium Propagation (EP) is a powerful and more bio-plausible alternative to conventional learning frameworks such as backpropagation. The effectiveness of EP stems from the fact that it relies only on local computations and requires solely one kind of computational unit during both of its training phases, thereby enabling greater applicability in domains such as bio-inspired neuromorphic computing. The dynamics of the model in EP is governed by an energy function and the internal states of the model consequently converge to a steady state following the state transition rules defined by the same. However, by definition, EP requires the input to the model (a convergent RNN) to be static in both the phases of training. Thus it is not possible to design a model for sequence classification using EP with an LSTM or GRU like architecture. In this paper, we leverage recent developments in modern hopfield networks to further understand energy based models and develop solutions for complex sequence classification tasks using EP while satisfying its convergence criteria and maintaining its theoretical similarities with recurrent backpropagation. We explore the possibility of integrating modern hopfield networks as an attention mechanism with convergent RNN models used in EP, thereby extending its applicability for the first time on two different sequence classification tasks in natural language processing viz. sentiment analysis (IMDB dataset) and natural language inference (SNLI dataset). | 翻訳日:2023-08-23 21:32:31 公開日:2023-08-22 |
# 円錐型プログラミングによるマルチパラメータ量子メソロジーのためのタイトクイッククレージュ'{e}r-rao型境界 Tight Cram\'{e}r-Rao type bounds for multiparameter quantum metrology through conic programming ( http://arxiv.org/abs/2209.05218v5 ) ライセンス: Link先を確認 | Masahito Hayashi and Yingkai Ouyang | (参考訳) 量子センサの最大ポテンシャルを解き放つために、最善の精度で互換性のないパラメータを推定できる実用的な測定戦略を持つことが重要となる。
しかし、プローブ状態上の相関のない測定であっても、最適な精度で実用的な測定方法はまだ分かっていない。
ここでは、最適な精度で相関のない計測戦略を見つけるための具体的な方法を示す。
本研究では,マルチパラメータ推定のための精度境界の理論を統一したコニックプログラミングの枠組みを導入することで,この基本的な問題を解決する。
すなわち、行列のテンソル積空間上で定義される様々な円錐上の線型プログラムから生じる、分離可能な行列の特定の円錐を含む精度境界を与える。
その後,本理論は,これらの境界を密接化できる非相関計測戦略の最終的な精度境界に対して,上界と下界の両方を計算する効率的なアルゴリズムを開発することを可能にする。
特に、我々の理論から生じる無相関な測定戦略は、上限から究極の精度境界まで飽和させる。
また,従来の計算可能境界と最終精度境界との間には厳密なギャップがあることを数値的に示す。 In the quest to unlock the maximum potential of quantum sensors, it is of paramount importance to have practical measurement strategies that can estimate incompatible parameters with best precisions possible. However, it is still not known how to find practical measurements with optimal precisions, even for uncorrelated measurements over probe states. Here, we give a concrete way to find uncorrelated measurement strategies with optimal precisions. We solve this fundamental problem by introducing a framework of conic programming that unifies the theory of precision bounds for multiparameter estimates for uncorrelated and correlated measurement strategies under a common umbrella. Namely, we give precision bounds that arise from linear programs on various cones defined on a tensor product space of matrices, including a particular cone of separable matrices. Subsequently, our theory allows us to develop an efficient algorithm that calculates both upper and lower bounds for the ultimate precision bound for uncorrelated measurement strategies, where these bounds can be tight. In particular, the uncorrelated measurement strategy that arises from our theory saturates the upper bound to the ultimate precision bound. Also, we show numerically that there is a strict gap between the previous efficiently computable bounds and the ultimate precision bound. | 翻訳日:2023-08-23 21:32:06 公開日:2023-08-22 |
# 量子リスク最小化による確率領域一般化 Probable Domain Generalization via Quantile Risk Minimization ( http://arxiv.org/abs/2207.09944v4 ) ライセンス: Link先を確認 | Cian Eastwood, Alexander Robey, Shashank Singh, Julius von K\"ugelgen, Hamed Hassani, George J. Pappas, Bernhard Sch\"olkopf | (参考訳) ドメイン一般化 (Domain Generalization, DG) は、複数の関連するトレーニング分布やドメインから引き出されたデータを活用することにより、目に見えないテスト分布でうまく動作する予測子を求める。
これを達成するために、DGは一般に、可能なドメインの集合に対して平均または最悪のケース問題として定式化される。
しかし、平均的によく機能する予測者は頑健性に欠けるが、最悪の場合うまく機能する予測者は過度に保守的になる傾向がある。
そこで我々はDGのための新しい確率的フレームワークを提案し,高い確率で高い性能の予測器を学習することを目的とする。
私たちのキーとなる考え方は、トレーニング中に見られる分散シフトは、テスト時に可能なシフトを知らせるべきである、ということです。
そこで本研究では,QRM(Quantile Risk Minimization)と呼ばれる新しい最適化問題を提案する。
予測器のドメイン上のリスク分布の$\alpha$-quantileを最小化することにより、QRMは確率$\alpha$とよく似た予測器を求める。
実際にQRMを解くために,経験的QRM (EQRM) アルゴリズムを提案し,提案する。
i) EQRM に束縛された一般化,及び
i) EQRM が因果予測器を $\alpha \to 1$ として回復する条件。
実験では、DGのより総合的な定量化にフォーカスした評価プロトコルを導入し、EQRMがWILDSやDomainBedのデータセットの最先端ベースラインより優れていることを示す。 Domain generalization (DG) seeks predictors which perform well on unseen test distributions by leveraging data drawn from multiple related training distributions or domains. To achieve this, DG is commonly formulated as an average- or worst-case problem over the set of possible domains. However, predictors that perform well on average lack robustness while predictors that perform well in the worst case tend to be overly-conservative. To address this, we propose a new probabilistic framework for DG where the goal is to learn predictors that perform well with high probability. Our key idea is that distribution shifts seen during training should inform us of probable shifts at test time, which we realize by explicitly relating training and test domains as draws from the same underlying meta-distribution. To achieve probable DG, we propose a new optimization problem called Quantile Risk Minimization (QRM). By minimizing the $\alpha$-quantile of predictor's risk distribution over domains, QRM seeks predictors that perform well with probability $\alpha$. To solve QRM in practice, we propose the Empirical QRM (EQRM) algorithm and provide: (i) a generalization bound for EQRM; and (ii) the conditions under which EQRM recovers the causal predictor as $\alpha \to 1$. In our experiments, we introduce a more holistic quantile-focused evaluation protocol for DG and demonstrate that EQRM outperforms state-of-the-art baselines on datasets from WILDS and DomainBed. | 翻訳日:2023-08-23 21:31:47 公開日:2023-08-22 |
# 知識度を考慮したユニバーサルドメイン適応のためのサンプル間親和性の拡大 Exploiting Inter-Sample Affinity for Knowability-Aware Universal Domain Adaptation ( http://arxiv.org/abs/2207.09280v5 ) ライセンス: Link先を確認 | Yifan Wang and Lin Zhang and Ran Song and Hongliang Li and Paul L. Rosin and Wei Zhang | (参考訳) ユニバーサルドメイン適応(unida:universal domain adaptation)は、ソースドメインからターゲットドメインへの共通クラスの知識をラベルセットに関する事前の知識なしに転送することを目的としている。
最近の手法では、既知のサンプルと未知のサンプルを区別するのではなく、対象のサンプルを1つのソースクラスに分類することに重点を置いている。
本稿では,このようなサンプル間の親和性を生かした新しいUDAフレームワークを提案する。
具体的には, 2 つのステップに分類可能なノウナビリティに基づくラベリングスキームを提案する。
1) 親和性行列の1次特異ベクトルを利用して, サンプルの固有構造に基づいて, 未知および未知のサンプルを同定し, 対象標本の可知性を得る。
2) 対象試料をリラベルするために近傍整合性に基づくラベル改良を行い, 予測の近傍一貫性に基づいて各試料のラベルを精錬する。
そして、この2つのステップに基づく補助損失を用いて、未知と既知のターゲットサンプル間のサンプル間親和性を減少させる。
最後に,4つの公開データセットを用いた実験により,本手法が既存の最先端手法を大幅に上回ることを示した。 Universal domain adaptation (UniDA) aims to transfer the knowledge of common classes from the source domain to the target domain without any prior knowledge on the label set, which requires distinguishing in the target domain the unknown samples from the known ones. Recent methods usually focused on categorizing a target sample into one of the source classes rather than distinguishing known and unknown samples, which ignores the inter-sample affinity between known and unknown samples and may lead to suboptimal performance. Aiming at this issue, we propose a novel UDA framework where such inter-sample affinity is exploited. Specifically, we introduce a knowability-based labeling scheme which can be divided into two steps: 1) Knowability-guided detection of known and unknown samples based on the intrinsic structure of the neighborhoods of samples, where we leverage the first singular vectors of the affinity matrices to obtain the knowability of every target sample. 2) Label refinement based on neighborhood consistency to relabel the target samples, where we refine the labels of each target sample based on its neighborhood consistency of predictions. Then, auxiliary losses based on the two steps are used to reduce the inter-sample affinity between the unknown and the known target samples. Finally, experiments on four public datasets demonstrate that our method significantly outperforms existing state-of-the-art methods. | 翻訳日:2023-08-23 21:31:20 公開日:2023-08-22 |
# 逆強化学習のためのアクティブ探索 Active Exploration for Inverse Reinforcement Learning ( http://arxiv.org/abs/2207.08645v4 ) ライセンス: Link先を確認 | David Lindner and Andreas Krause and Giorgia Ramponi | (参考訳) 逆強化学習(IRL)は、専門家によるデモンストレーションから報酬関数を推定する強力なパラダイムである。
多くのirlアルゴリズムは、既知の遷移モデルと、時には既知の専門家ポリシーを必要とするか、少なくとも生成モデルへのアクセスを必要とする。
しかし、これらの仮定は多くの実世界のアプリケーションにとって強すぎるため、環境はシーケンシャルな相互作用によってのみアクセス可能である。
本稿では,未知の環境と専門的政策を積極的に探求し,専門家の報酬関数を迅速に学習し,優れた政策を識別する,新しいIRLアルゴリズムを提案する。
AceIRLは以前の観測結果を用いて、妥当な報酬関数を捕捉する信頼区間を構築し、環境の最も情報性の高い領域に焦点を当てた探索ポリシーを見つける。
AceIRLは、環境の生成モデルを必要としないサンプル複雑な境界を持つ活性IRLへの最初のアプローチである。
AceIRLは、活性IRLのサンプルの複雑さと、最悪の場合の生成モデルとを一致させる。
さらに,aceirlのサンプル複雑性を与えられたirl問題の準最適ギャップに関連付ける問題依存境界を確立する。
我々はアセールをシミュレーションで実験的に評価し,よりナイーブな探索戦略を著しく上回っていることを見出した。 Inverse Reinforcement Learning (IRL) is a powerful paradigm for inferring a reward function from expert demonstrations. Many IRL algorithms require a known transition model and sometimes even a known expert policy, or they at least require access to a generative model. However, these assumptions are too strong for many real-world applications, where the environment can be accessed only through sequential interaction. We propose a novel IRL algorithm: Active exploration for Inverse Reinforcement Learning (AceIRL), which actively explores an unknown environment and expert policy to quickly learn the expert's reward function and identify a good policy. AceIRL uses previous observations to construct confidence intervals that capture plausible reward functions and find exploration policies that focus on the most informative regions of the environment. AceIRL is the first approach to active IRL with sample-complexity bounds that does not require a generative model of the environment. AceIRL matches the sample complexity of active IRL with a generative model in the worst case. Additionally, we establish a problem-dependent bound that relates the sample complexity of AceIRL to the suboptimality gap of a given IRL problem. We empirically evaluate AceIRL in simulations and find that it significantly outperforms more naive exploration strategies. | 翻訳日:2023-08-23 21:30:58 公開日:2023-08-22 |
# FRAug: Representation Augmentationを通じて、非IID機能によるフェデレーションラーニングに取り組む FRAug: Tackling Federated Learning with Non-IID Features via Representation Augmentation ( http://arxiv.org/abs/2205.14900v3 ) ライセンス: Link先を確認 | Haokun Chen, Ahmed Frikha, Denis Krompass, Jindong Gu, Volker Tresp | (参考訳) フェデレートラーニング(FL)は分散学習パラダイムであり、複数のクライアントがローカルデータを集中せずにディープラーニングモデルを協調訓練し、データプライバシを保存する。
現実世界のアプリケーションは、通常、異なるクライアントのデータセット間の分散シフトを伴い、クライアントの一般化能力を損なう。
本稿では,最近提案されている,異なる特徴分布を持つクライアントに対して,ラベル分布が同じである特徴シフト問題に対処する。
本稿では,FRAug(Federated Representation Augmentation)を提案する。
提案手法は,通常は小さなクライアントデータセットを増大させるために,埋め込み空間にクライアント固有の合成サンプルを生成する。
そのため、私たちは共有生成モデルをトレーニングし、異なる特徴分布から学んだクライアントの知識を融合させます。
このジェネレータはクライアントに依存しない埋め込みを合成し、Representation Transformation Networks (RTNets) によってクライアント固有の埋め込みに局所的に変換される。
クライアント間で知識を転送することで、生成された埋め込みはクライアントモデルのレギュレータとして機能し、ローカルのオリジナルデータセットへのオーバーフィットを削減し、一般化を改善します。
公開ベンチマークおよび実世界の医療データセットにおける経験的評価により,提案手法の有効性が示され,partmentfedやfebnを含む非iid機能に対する最新のfl法を実質的に上回っている。 Federated Learning (FL) is a decentralized learning paradigm, in which multiple clients collaboratively train deep learning models without centralizing their local data, and hence preserve data privacy. Real-world applications usually involve a distribution shift across the datasets of the different clients, which hurts the generalization ability of the clients to unseen samples from their respective data distributions. In this work, we address the recently proposed feature shift problem where the clients have different feature distributions, while the label distribution is the same. We propose Federated Representation Augmentation (FRAug) to tackle this practical and challenging problem. Our approach generates synthetic client-specific samples in the embedding space to augment the usually small client datasets. For that, we train a shared generative model to fuse the clients knowledge learned from their different feature distributions. This generator synthesizes client-agnostic embeddings, which are then locally transformed into client-specific embeddings by Representation Transformation Networks (RTNets). By transferring knowledge across the clients, the generated embeddings act as a regularizer for the client models and reduce overfitting to the local original datasets, hence improving generalization. Our empirical evaluation on public benchmarks and a real-world medical dataset demonstrates the effectiveness of the proposed method, which substantially outperforms the current state-of-the-art FL methods for non-IID features, including PartialFed and FedBN. | 翻訳日:2023-08-23 21:30:39 公開日:2023-08-22 |
# 微粒な代理時間ネットワークの生成 Generating fine-grained surrogate temporal networks ( http://arxiv.org/abs/2205.08820v2 ) ライセンス: Link先を確認 | Antonio Longa, Giulia Cencetti, Sune Lehmann, Andrea Passerini and Bruno Lepri | (参考訳) 時間ネットワークは、社会的相互作用から生物学的システムまで、行動が時間によって変化するシステムのモデリングと理解に不可欠である。
しかし、多くの場合、現実世界のデータは、大規模な収集や、プライバシー上の懸念のために共有できないほど高価である。
この問題を回避するための有望な方法は、実世界のネットワークの特性を持つ任意に大規模で匿名化された合成グラフ、すなわち「サーロゲートネットワーク」を生成することである。
これまで、入力ネットワークの時間的特性と位相的特性、およびそれらの相関をスケーラブルなモデルで捉えることが困難であったため、現実的な代理時間ネットワークの生成は未解決の問題のままであった。
本稿では,新しい簡易な時間的ネットワーク生成法を提案する。
本手法は、入力ネットワークを時間とともに進化する星状構造に分解する。
次に、これらの構造をビルディングブロックとして、代理時間ネットワークを生成する。
我々のモデルは、位相的および動的に類似性の観点から、複数の時間的ネットワークの例で現在の手法を大きく上回っている。
さらに,本手法は,現実的な相互作用パターンを生成するだけでなく,時間的ネットワークの固有時間周期性を,競合する手法よりも桁違いに低い時間で捉えることができることを示す。
アルゴリズムの単純さにより、容易に解釈でき、拡張可能で、アルゴリズム的にスケーラブルです。 Temporal networks are essential for modeling and understanding systems whose behavior varies in time, from social interactions to biological systems. Often, however, real-world data are prohibitively expensive to collect in a large scale or unshareable due to privacy concerns. A promising way to bypass the problem consists in generating arbitrarily large and anonymized synthetic graphs with the properties of real-world networks, namely `surrogate networks'. Until now, the generation of realistic surrogate temporal networks has remained an open problem, due to the difficulty of capturing both the temporal and topological properties of the input network, as well as their correlations, in a scalable model. Here, we propose a novel and simple method for generating surrogate temporal networks. Our method decomposes the input network into star-like structures evolving in time. Then those structures are used as building blocks to generate a surrogate temporal network. Our model vastly outperforms current methods across multiple examples of temporal networks in terms of both topological and dynamical similarity. We further show that beyond generating realistic interaction patterns, our method is able to capture intrinsic temporal periodicity of temporal networks, all with an execution time lower than competing methods by multiple orders of magnitude. The simplicity of our algorithm makes it easily interpretable, extendable and algorithmically scalable. | 翻訳日:2023-08-23 21:30:12 公開日:2023-08-22 |
# CROSSFIRE: 意図しない表現による自己監督された特徴のカメラリローカライズ CROSSFIRE: Camera Relocalization On Self-Supervised Features from an Implicit Representation ( http://arxiv.org/abs/2303.04869v2 ) ライセンス: Link先を確認 | Arthur Moreau, Nathan Piasco, Moussab Bennehar, Dzmitry Tsishkou, Bogdan Stanciulescu, Arnaud de La Fortelle | (参考訳) ニューラル・ラジアンス・フィールドは、新しいビュー合成以外にも、現実世界と相互作用するアプリケーションに有用である。
本稿では,与えられたシーンの暗黙の地図として使用し,この表現に合わせたカメラ再局在化アルゴリズムを提案する。
提案手法は,ナビゲーション中に1台のRGBカメラを用いて,デバイスの正確な位置をリアルタイムで計算することができる。
従来の研究とは対照的に、ポーズ回帰や測光アライメントに頼るのではなく、自己監督目的のシーンに特有なボリュームレンダリングによって得られる密集した局所的特徴を用いる。
その結果、我々のアルゴリズムは競合相手よりも正確であり、雷条件を変化させた動的屋外環境での動作が可能であり、任意のボリュームニューラルレンダラーに容易に統合できる。 Beyond novel view synthesis, Neural Radiance Fields are useful for applications that interact with the real world. In this paper, we use them as an implicit map of a given scene and propose a camera relocalization algorithm tailored for this representation. The proposed method enables to compute in real-time the precise position of a device using a single RGB camera, during its navigation. In contrast with previous work, we do not rely on pose regression or photometric alignment but rather use dense local features obtained through volumetric rendering which are specialized on the scene with a self-supervised objective. As a result, our algorithm is more accurate than competitors, able to operate in dynamic outdoor environments with changing lightning conditions and can be readily integrated in any volumetric neural renderer. | 翻訳日:2023-08-23 21:22:57 公開日:2023-08-22 |
# TrojText: テストタイムで見えないテキストトロイの木馬のインサーション TrojText: Test-time Invisible Textual Trojan Insertion ( http://arxiv.org/abs/2303.02242v2 ) ライセンス: Link先を確認 | Qian Lou, Yepeng Liu, Bo Feng | (参考訳) 自然言語処理(NLP)では、インテリジェントニューロンモデルはテキストトロイの木馬攻撃の影響を受けやすい。
このような攻撃はTrojanモデルが通常の入力に対して正常に振る舞うが、特定のトリガを含む入力に対して悪意のある出力を生成するときに発生する。
目に見えない構文構造トリガーは、検出や防御が難しいため、トロイの木馬攻撃で人気が高まっている。
しかし、これらの攻撃はトロイの木馬の挿入に必要な構文構造を持つ有毒なサンプルを生成するために大量の訓練データを必要とする。
このようなデータを取得することは攻撃者にとって困難であり、構文的な毒のトリガーを生成し、トロイの木馬を挿入するプロセスは時間がかかる。
本稿では,学習データなしでより効率的かつ費用対効果の高いテキスト・トロイの木版攻撃が可能かどうかを判定するTrojTextという手法を提案する。
提案手法はRepresentation-Logit Trojan Insertion (RLI)アルゴリズムと呼ばれ、大規模なトレーニングデータの代わりにより小さなサンプルデータを用いて、望ましい攻撃を実現する。
また,累積勾配ランキング(AGR)とTWP(Trojan Weights Pruning)という2つの手法を導入し,調整パラメータの数と攻撃オーバーヘッドを削減する。
TrojTextアプローチは、3つのNLPモデル(BERT, XLNet, DeBERTa)を用いて、3つのデータセット(AG's News, SST-2, OLID)で評価した。
実験により、TrojTextアプローチは、AGのNewsデータセットのBERTモデルのターゲットクラスにおけるテスト文の98.35\%の分類精度を達成した。
TrojTextのソースコードはhttps://github.com/UCF-ML-Research/TrojTextで入手できる。 In Natural Language Processing (NLP), intelligent neuron models can be susceptible to textual Trojan attacks. Such attacks occur when Trojan models behave normally for standard inputs but generate malicious output for inputs that contain a specific trigger. Syntactic-structure triggers, which are invisible, are becoming more popular for Trojan attacks because they are difficult to detect and defend against. However, these types of attacks require a large corpus of training data to generate poisoned samples with the necessary syntactic structures for Trojan insertion. Obtaining such data can be difficult for attackers, and the process of generating syntactic poisoned triggers and inserting Trojans can be time-consuming. This paper proposes a solution called TrojText, which aims to determine whether invisible textual Trojan attacks can be performed more efficiently and cost-effectively without training data. The proposed approach, called the Representation-Logit Trojan Insertion (RLI) algorithm, uses smaller sampled test data instead of large training data to achieve the desired attack. The paper also introduces two additional techniques, namely the accumulated gradient ranking (AGR) and Trojan Weights Pruning (TWP), to reduce the number of tuned parameters and the attack overhead. The TrojText approach was evaluated on three datasets (AG's News, SST-2, and OLID) using three NLP models (BERT, XLNet, and DeBERTa). The experiments demonstrated that the TrojText approach achieved a 98.35\% classification accuracy for test sentences in the target class on the BERT model for the AG's News dataset. The source code for TrojText is available at https://github.com/UCF-ML-Research/TrojText. | 翻訳日:2023-08-23 21:22:43 公開日:2023-08-22 |
# 狭帯域双対ビームからの隠蔽光子間のHong-Ou-Mandel干渉の展開 Unfolding the Hong-Ou-Mandel interference between heralded photons from narrowband twin beams ( http://arxiv.org/abs/2302.10652v3 ) ライセンス: Link先を確認 | K. Laiho, T. Dirmeier, G. Shafiee, Ch. Marquardt | (参考訳) ホン・オ・マンデル干渉(HOM)は最も興味深い量子光学現象の1つであり、量子光学通信および計算タスクの実行に不可欠である。
近年、パラメトリックダウンコンバージョン (PDC) プロセスに依存しているような双対ビームエミッターは、単一の光子の信頼できる源となっている。
しかし、ポンプのパワーが十分に高い場合、PDC(しばしばシグナルとアイドラーと呼ばれる)を介して生成されるペアは、調査された量子的特徴を歪ませる多光子寄与を含んでいる。
ここでは、2つの独立な狭帯域pdc源からのヘラルド状態間のhom干渉の時間的特性を導出する。
PDC多光子含有量とは別に、不平衡ビームスプリッタ比と光損失の影響も考慮に入れた。
我々は,通信波長範囲のシミュレーションを行い,PDCプロセスパラメータの最適選択を見つけるための有用なツールを提供する。
本研究は,狭帯域PDC光源の特性を考察し,量子光学応用を駆動する際に有用であることを示す。 The Hong-Ou-Mandel (HOM) interference is one of the most intriguing quantum optical phenomena and crucial in performing quantum optical communication and computation tasks. Lately, twin beam emitters such as those relying on the process of parametric down-conversion (PDC) have become confident sources of heralded single photons. However, if the pump power is high enough, the pairs produced via PDC -- often called signal and idler -- incorporate multiphoton contributions that usually distort the investigated quantum features. Here, we derive the temporal characteristics of the HOM interference between heralded states from two independent narrowband PDC sources. Apart from the PDC multiphoton content, our treatment also takes into account effects arriving from an unbalanced beam splitter ratio and optical losses. We perform a simulation in the telecommunication wavelength range and provide a useful tool for finding the optimal choice for PDC process parameters. Our results offer insight in the properties of narrowband PDC sources and turn useful when driving quantum optical applications with them. | 翻訳日:2023-08-23 21:22:13 公開日:2023-08-22 |
# 確率的および逆オンライン凸最適化のための最適オンラインミラーダイス Optimistic Online Mirror Descent for Bridging Stochastic and Adversarial Online Convex Optimization ( http://arxiv.org/abs/2302.04552v2 ) ライセンス: Link先を確認 | Sijia Chen, Yu-Jie Zhang, Wei-Wei Tu, Peng Zhao, Lijun Zhang | (参考訳) Stochastically Extended Adversarial (SEA) モデルは Sachs らによって導入された。
2022] 確率的および逆的オンライン凸最適化の補間である。
滑らかさ条件の下では、楽観的追従正規化リーダ(FTRL)の期待された後悔は、凸函数に対する累積確率分散$\sigma_{1:T}^2$と累積逆変分$\Sigma_{1:T}^2$に依存することを示した。
これらはまた、強凸函数に対して最大確率分散 $\sigma_{\max}^2$ と最大逆変量 $\sigma_{\max}^2$ に基づくわずかに弱い境界を与える。
本研究は,SEAモデルに対する楽観的オンラインミラー降下(OMD)の理論的保証について考察する。
凸函数と滑らかな函数に対しては、個々の函数の凸性要件なしに同じ$\mathcal{O}(\sqrt{\sigma_{1:T}^2}+\sqrt{\Sigma_{1:T}^2})$ regret boundが得られる。
強凸かつ滑らかな函数に対しては、$\mathcal{O}((\sigma_{\max}^2 + \Sigma_{\max}^2) \log (\sigma_{1:T}^2+\Sigma_{1:T}^2))$bound を $\mathcal{O}((\sigma_{\max}^2 + \Sigma_{\max}^2) \log T)$ result とする。
exp-concave と smooth 関数に対しては、新しい $\mathcal{o}(d\log(\sigma_{1:t}^2+\sigma_{1:t}^2))$ bound が得られる。
OMDフレームワークにより、動的後悔の最小化とオンライン機能が非滑らかなシナリオについて研究する作業を広げる。
非定常シナリオでは静的な後悔の限界よりも有利な凸と滑らかな関数を持つseaモデルに対する最初の動的後悔の保証を確立する。
さらに,SEAモデルにおける非平滑関数と凸関数を扱うために,暗黙の更新を施した楽観的OMD上に構築した新しいアルゴリズムを提案する。 Stochastically Extended Adversarial (SEA) model is introduced by Sachs et al. [2022] as an interpolation between stochastic and adversarial online convex optimization. Under the smoothness condition, they demonstrate that the expected regret of optimistic follow-the-regularized-leader (FTRL) depends on the cumulative stochastic variance $\sigma_{1:T}^2$ and the cumulative adversarial variation $\Sigma_{1:T}^2$ for convex functions. They also provide a slightly weaker bound based on the maximal stochastic variance $\sigma_{\max}^2$ and the maximal adversarial variation $\Sigma_{\max}^2$ for strongly convex functions. Inspired by their work, we investigate the theoretical guarantees of optimistic online mirror descent (OMD) for the SEA model. For convex and smooth functions, we obtain the same $\mathcal{O}(\sqrt{\sigma_{1:T}^2}+\sqrt{\Sigma_{1:T}^2})$ regret bound, without the convexity requirement of individual functions. For strongly convex and smooth functions, we establish an $\mathcal{O}((\sigma_{\max}^2 + \Sigma_{\max}^2) \log (\sigma_{1:T}^2+\Sigma_{1:T}^2))$ bound, better than their $\mathcal{O}((\sigma_{\max}^2 + \Sigma_{\max}^2) \log T)$ result. For exp-concave and smooth functions, we achieve a new $\mathcal{O}(d\log(\sigma_{1:T}^2+\Sigma_{1:T}^2))$ bound. Owing to the OMD framework, we broaden our work to study dynamic regret minimization and scenarios where the online functions are non-smooth. We establish the first dynamic regret guarantee for the SEA model with convex and smooth functions, which is more favorable than static regret bounds in non-stationary scenarios. Furthermore, to deal with non-smooth and convex functions in the SEA model, we propose novel algorithms building on optimistic OMD with an implicit update, which provably attain static regret and dynamic regret guarantees without smoothness conditions. | 翻訳日:2023-08-23 21:21:58 公開日:2023-08-22 |
# 脳腫瘍分節に対するメタラーニングによるモダリティ非依存表現の強化 Enhancing Modality-Agnostic Representations via Meta-Learning for Brain Tumor Segmentation ( http://arxiv.org/abs/2302.04308v2 ) ライセンス: Link先を確認 | Aishik Konwer, Xiaoling Hu, Joseph Bae, Xuan Xu, Chao Chen, Prateek Prasanna | (参考訳) 医用視覚では、様々な画像モダリティが相補的な情報を提供する。
しかし実際には、推論やトレーニング中にすべてのモダリティが利用できるわけではない。
知識蒸留や画像合成といった以前のアプローチでは、訓練中のすべての患者に完全なモダリティが利用できると仮定することが多い。
本研究は,完全なモダリティサンプルしか利用できない場合でも,メタラーニング戦略をトレーニングに採用することで,拡張モダリティ非依存表現を学習するための新しい手法を提案する。
メタラーニングは、部分モダリティデータのメタトレーニングと制限されたフルモダリティサンプルのメタテストにより、部分モダリティ表現をフルモダリティ表現に拡張する。
さらに,この機能の強化を補助的な敵意学習ブランチの導入によって監督する。
より具体的には、完全なモダリティ設定を模倣する識別器として欠落モダリティ検出器が使用される。
我々のセグメンテーションフレームワークは、欠落したモダリティシナリオにおいて最先端の脳腫瘍セグメンテーション技術より著しく優れている。 In medical vision, different imaging modalities provide complementary information. However, in practice, not all modalities may be available during inference or even training. Previous approaches, e.g., knowledge distillation or image synthesis, often assume the availability of full modalities for all patients during training; this is unrealistic and impractical due to the variability in data collection across sites. We propose a novel approach to learn enhanced modality-agnostic representations by employing a meta-learning strategy in training, even when only limited full modality samples are available. Meta-learning enhances partial modality representations to full modality representations by meta-training on partial modality data and meta-testing on limited full modality samples. Additionally, we co-supervise this feature enrichment by introducing an auxiliary adversarial learning branch. More specifically, a missing modality detector is used as a discriminator to mimic the full modality setting. Our segmentation framework significantly outperforms state-of-the-art brain tumor segmentation techniques in missing modality scenarios. | 翻訳日:2023-08-23 21:21:04 公開日:2023-08-22 |
# 超伝導共振器3連系における例外点支援絡み、スクイーズ、リセット Exceptional-point-assisted entanglement, squeezing, and reset in a chain of three superconducting resonators ( http://arxiv.org/abs/2301.13571v2 ) ライセンス: Link先を確認 | Wallace S. Teixeira, Vasilii Vadimov, Timm M\"orstedt, Suman Kundu, Mikko M\"ott\"onen | (参考訳) 量子技術の様々な制御プロトコルで必要とされるコヒーレントと散逸ダイナミクスの相互作用は、例外点(EPs)と呼ばれる開系退化の研究を動機付けている。
本稿では、3つの超伝導共振器の損失連鎖における例外点工学を用いた高速量子状態合成法を提案する。
理論的には、EPのリッチ物理は、高速で準安定なスキーズと絡み合いの移動、あるいはシステムの高速なリセットを好むパラメータ空間内の領域を特定するのに利用できる。
結合強度$g$の弱い相互作用共振器の場合、得られた準安定化時間スケールは1/(2\sqrt{2}g)$と同定され、弱い圧縮共振器の場合、約6/g$の待ち時間で10^{-5}$未満のリセット不整合が得られる。
その結果,マルチモードガウスシステムにおけるEPの役割に光を当て,消散を資源としたフォトニックネットワークの異なるノード間におけるスキューズと絡み合いの最適分布の道を開くことができた。 The interplay between coherent and dissipative dynamics required in various control protocols of quantum technology has motivated studies of open-system degeneracies, referred to as exceptional points (EPs). Here, we introduce a scheme for fast quantum-state synthesis using exceptional-point engineering in a lossy chain of three superconducting resonators. We theoretically find that the rich physics of EPs can be used to identify regions in the parameter space that favor a fast and quasi-stable transfer of squeezing and entanglement, or a fast reset of the system. For weakly interacting resonators with the coupling strength $g$, the obtained quasi-stabilization time scales are identified as $1/(2\sqrt{2}g)$, and reset infidelities below $10^{-5}$ are obtained with a waiting time of roughly $6/g$ in the case of weakly squeezed resonators. Our results shed light on the role of EPs in multimode Gaussian systems and pave the way for optimized distribution of squeezing and entanglement between different nodes of a photonic network using dissipation as a resource. | 翻訳日:2023-08-23 21:20:49 公開日:2023-08-22 |
# Truveta Mapper: ゼロショットオントロジーアライメントフレームワーク Truveta Mapper: A Zero-shot Ontology Alignment Framework ( http://arxiv.org/abs/2301.09767v3 ) ライセンス: Link先を確認 | Mariyam Amir, Murchana Baruah, Mahsa Eslamialishah, Sina Ehsani, Alireza Bahramali, Sadra Naddaf-Sh, Saman Zarandioon | (参考訳) 本稿では,教師なしオントロジーマッチング(OM)やオントロジーアライメント(OA)を翻訳タスクとして扱うことにより,新たな視点を提案する。
オントロジーはグラフとして表現され、ソースオントロジーグラフのノードからターゲットオントロジーグラフのパスへの変換が行われる。
提案手法であるtruveta mapper (tm) はマルチタスクシーケンスからシーケンスへのトランスフォーマーモデルを利用して,ゼロショット,統一,エンドツーエンドの方法で複数のオントロジー間のアライメントを行う。
マルチタスクにより、手動で明示的な相互オントロジーデータを必要とすることなく、トランスファーラーニングを通じて異なるオントロジー間の関係を暗黙的に学習することができる。
これにより、フォーム化されたフレームワークが、ランタイムレイテンシとアライメント品質の両方において、既存のソリューションを上回ることができる。
モデルは事前トレーニングされ、公開されているテキストコーパスと内部オントロジーデータのみに微調整される。
提案されたソリューションは、最先端のアプローチ、Edit-Similarity、LogMap、AML、BERTMap、および最近発表されたオントロジーアライメント評価イニシアチブ(OAEI22)における新しいOMフレームワークよりも優れており、ログ線形の複雑さを提供し、全体としてOMタスクを、マッピング拡張やマッピング修復を含む多くの後処理を伴わずに効率的かつ容易にする。
私たちはソリューションをオープンソース化しています。 In this paper, a new perspective is suggested for unsupervised Ontology Matching (OM) or Ontology Alignment (OA) by treating it as a translation task. Ontologies are represented as graphs, and the translation is performed from a node in the source ontology graph to a path in the target ontology graph. The proposed framework, Truveta Mapper (TM), leverages a multi-task sequence-to-sequence transformer model to perform alignment across multiple ontologies in a zero-shot, unified and end-to-end manner. Multi-tasking enables the model to implicitly learn the relationship between different ontologies via transfer-learning without requiring any explicit cross-ontology manually labeled data. This also enables the formulated framework to outperform existing solutions for both runtime latency and alignment quality. The model is pre-trained and fine-tuned only on publicly available text corpus and inner-ontologies data. The proposed solution outperforms state-of-the-art approaches, Edit-Similarity, LogMap, AML, BERTMap, and the recently presented new OM frameworks in Ontology Alignment Evaluation Initiative (OAEI22), offers log-linear complexity, and overall makes the OM task efficient and more straightforward without much post-processing involving mapping extension or mapping repair. We are open sourcing our solution. | 翻訳日:2023-08-23 21:20:27 公開日:2023-08-22 |
# アルゴリズムによるシャドースペクトロスコピー Algorithmic Shadow Spectroscopy ( http://arxiv.org/abs/2212.11036v3 ) ライセンス: Link先を確認 | Hans Hon Sang Chan, Richard Meister, Matthew L. Goh, B\'alint Koczor | (参考訳) シャドースペクトロスコピーは,ごくわずかな回路繰り返し(ショット)と余剰資源(アンシラキュービット)を用い,エネルギーギャップを推定するためのシミュレータ非依存の量子アルゴリズムとして提案する。
このアプローチは、量子系の可観測性はすべて、同じ調和成分に従って進化しなければならないという基本的な特徴に基づいている: 時間進化した量子状態の古典的な影を後処理して、多くの時間周期信号$N_o\propto 10^8$を抽出し、その周波数はハイゼンベルク制限精度とハミルトンエネルギー差に対応する。
我々は強力な分析的保証を提供する
(a)量子リソースは$O(\log N_o)$、古典的な計算複雑性は$O(N_o)$である。
b) 信号と雑音の比は、分析された信号の数に応じて、$\propto \sqrt{N_o}$, and
(c)ピーク周波数は妥当なノイズレベルに免疫する。
さらに、モデルスピン系をプローブするシャドウスペクトロスコピーと分子ch$_2$の励起状態円錐交叉をシミュレーションで検証することで、このアプローチが直感的に使用しやすく、ゲートノイズに頑健であり、新しいタイプのアルゴリズムエラー緩和技術に適しており、通常の近距離量子アルゴリズムよりも1桁少ないショット数で、時間ステップあたり10ショットで十分であることを確認した。
最後に、容易に利用可能なibm量子コンピュータ上でスピンチェーンの高品質で実験的なシャドウスペクトルを測定し、高度な誤差緩和を使わずにノイズフリーシミュレーションと同じ精度を達成する。 We present shadow spectroscopy as a simulator-agnostic quantum algorithm for estimating energy gaps using very few circuit repetitions (shots) and no extra resources (ancilla qubits) beyond performing time evolution and measurements. The approach builds on the fundamental feature that every observable property of a quantum system must evolve according to the same harmonic components: we can reveal them by post-processing classical shadows of time-evolved quantum states to extract a large number of time-periodic signals $N_o\propto 10^8$, whose frequencies correspond to Hamiltonian energy differences with Heisenberg-limited precision. We provide strong analytical guarantees that (a) quantum resources scale as $O(\log N_o)$, while the classical computational complexity is linear $O(N_o)$, (b) the signal-to-noise ratio increases with the number of analysed signals as $\propto \sqrt{N_o}$, and (c) peak frequencies are immune to reasonable levels of noise. Moreover, performing shadow spectroscopy to probe model spin systems and the excited state conical intersection of molecular CH$_2$ in simulation verifies that the approach is intuitively easy to use in practice, robust against gate noise, amiable to a new type of algorithmic-error mitigation technique, and uses orders of magnitude fewer number of shots than typical near-term quantum algorithms -- as low as 10 shots per timestep is sufficient. Finally, we measured a high-quality, experimental shadow spectrum of a spin chain on readily-available IBM quantum computers, achieving the same precision as in noise-free simulations without using any advanced error mitigation. | 翻訳日:2023-08-23 21:19:53 公開日:2023-08-22 |
# 量子コードの局所確率的復号 Local Probabilistic Decoding of a Quantum Code ( http://arxiv.org/abs/2212.06985v3 ) ライセンス: Link先を確認 | T. R. Scruby, K. Nemoto | (参考訳) フリップは極端に単純で極端に局所的な古典的デコーダであり、古典的符号の特定のクラスにおいて大きな効果を発揮するために用いられてきた。
量子符号に適用する場合、このデコーダには修正不可能な一定の重み付きエラー(安定化器の半分など)が存在するため、以前の研究ではフリップの修正版を、時には他のデコーダと共に検討している。
これは必ずしも必要とは限らず、立方格子上の3次元トーリック符号のループ様症候群に適用されるとき、フリップのしきい値が存在することを数値的に証明する。
この結果は、このデコーダの最小ウェイトな修正不可能なエラーが、他の修正不可能なエラーよりも(ハミング距離の観点で)修正不能なエラーに近いため、追加ノイズによる変換後のコードサイクルで修正可能であることに起因する。
デコーダにランダム性を導入することで、これらの「訂正不能」な誤りを有限の確率で修正することができ、信念伝播と確率的フリップの組み合わせを用いたデコード戦略では、現象論的ノイズ下では$\sim5.5\%$のしきい値が観測される。
これは、このコードの最もよく知られたしきい値(\sim7.1\%$)に匹敵するものです。これは、信念の伝播と順序付けされた統計デコード(higgott and breuckmann, 2022])を使用して達成されました。これは、ローカルデコーダの$o(n)$ ($o(1)$ when parallelized)ランタイムとは対照的に、$o(n^3)$のランタイムを持つ戦略です。
私たちは、この戦略が他の低密度パリティチェックコードでうまく機能するように一般化されることを期待し、これらの結果が以前見落とされた他のデコーダの調査を早めることを期待しています。 flip is an extremely simple and maximally local classical decoder which has been used to great effect in certain classes of classical codes. When applied to quantum codes there exist constant-weight errors (such as half of a stabiliser) which are uncorrectable for this decoder, so previous studies have considered modified versions of flip, sometimes in conjunction with other decoders. We argue that this may not always be necessary, and present numerical evidence for the existence of a threshold for flip when applied to the looplike syndromes of a three-dimensional toric code on a cubic lattice. This result can be attributed to the fact that the lowest-weight uncorrectable errors for this decoder are closer (in terms of Hamming distance) to correctable errors than to other uncorrectable errors, and so they are likely to become correctable in future code cycles after transformation by additional noise. Introducing randomness into the decoder can allow it to correct these "uncorrectable" errors with finite probability, and for a decoding strategy that uses a combination of belief propagation and probabilistic flip we observe a threshold of $\sim5.5\%$ under phenomenological noise. This is comparable to the best known threshold for this code ($\sim7.1\%$) which was achieved using belief propagation and ordered statistics decoding [Higgott and Breuckmann, 2022], a strategy with a runtime of $O(n^3)$ as opposed to the $O(n)$ ($O(1)$ when parallelised) runtime of our local decoder. We expect that this strategy could be generalised to work well in other low-density parity check codes, and hope that these results will prompt investigation of other previously overlooked decoders. | 翻訳日:2023-08-23 21:19:14 公開日:2023-08-22 |
# 微細組織中の酵母細胞のインスタンスセグメンテーションデータセット An Instance Segmentation Dataset of Yeast Cells in Microstructures ( http://arxiv.org/abs/2304.07597v3 ) ライセンス: Link先を確認 | Christoph Reich, Tim Prangemeier, Andr\'e O. Fran\c{c}ani, Heinz Koeppl | (参考訳) 顕微鏡データから単一セル情報を抽出するには、正確なインスタンスワイドセグメンテーションが必要である。
顕微鏡画像からのピクセル単位のセグメンテーションは、特に微構造環境の複雑さが増すと、依然として困難な課題である。
本稿では酵母細胞を微構造に分割する新しいデータセットを提案する。
ピクセル単位のインスタンスセグメンテーションラベルをセルとトラップマイクロ構造の両方に提供します。
総計493枚の密注釈顕微鏡画像を公開する。
本稿では,新しいセグメンテーションアルゴリズムの統一的な比較を容易にするために,データセットの標準化評価戦略を提案する。
データセットと評価戦略の目的は、新しい細胞分割アプローチの開発を促進することである。
データセットはhttps://christophreich 1996.github.io/yeast_in_microstructures_dataset/で公開されている。 Extracting single-cell information from microscopy data requires accurate instance-wise segmentations. Obtaining pixel-wise segmentations from microscopy imagery remains a challenging task, especially with the added complexity of microstructured environments. This paper presents a novel dataset for segmenting yeast cells in microstructures. We offer pixel-wise instance segmentation labels for both cells and trap microstructures. In total, we release 493 densely annotated microscopy images. To facilitate a unified comparison between novel segmentation algorithms, we propose a standardized evaluation strategy for our dataset. The aim of the dataset and evaluation strategy is to facilitate the development of new cell segmentation approaches. The dataset is publicly available at https://christophreich1996.github.io/yeast_in_microstructures_dataset/ . | 翻訳日:2023-08-23 21:14:10 公開日:2023-08-22 |
# DynaMITe: 多目的対話型セグメンテーショントランスのための動的クエリブートストラップ DynaMITe: Dynamic Query Bootstrapping for Multi-object Interactive Segmentation Transformer ( http://arxiv.org/abs/2304.06668v2 ) ライセンス: Link先を確認 | Amit Kumar Rana, Sabarinath Mahadevan, Alexander Hermans, and Bastian Leibe | (参考訳) 最先端のインスタンスセグメンテーション手法の多くは、大量のピクセル精度のグランドトルースアノテーションをトレーニングに頼っている。
インタラクティブセグメンテーションネットワークは、画像とクリックのような対応するユーザインタラクションに基づいて、そのようなアノテーションを生成する。
このタスクの既存のメソッドは一度に1つのインスタンスしか処理できず、各ユーザーインタラクションはディープネットワーク全体を通過する完全なフォワードパスを必要とします。
我々は,複数のオブジェクトインスタンスを単一イテレーションでセグメント化可能なTransformerデコーダに対して,ユーザインタラクションを時空間クエリとして表現するDynaMITeという,より効率的なアプローチを導入する。
我々のアーキテクチャはまた、改善中に画像機能を再計算する必要をなくし、他の方法と比較して、1つの画像に複数のインスタンスを分割する際のインタラクションを少なくする。
DynaMITeは、複数の既存のインタラクティブセグメンテーションベンチマークと、本論文で提案する新しいマルチインスタンスベンチマークに対して、最先端の結果を達成する。 Most state-of-the-art instance segmentation methods rely on large amounts of pixel-precise ground-truth annotations for training, which are expensive to create. Interactive segmentation networks help generate such annotations based on an image and the corresponding user interactions such as clicks. Existing methods for this task can only process a single instance at a time and each user interaction requires a full forward pass through the entire deep network. We introduce a more efficient approach, called DynaMITe, in which we represent user interactions as spatio-temporal queries to a Transformer decoder with a potential to segment multiple object instances in a single iteration. Our architecture also alleviates any need to re-compute image features during refinement, and requires fewer interactions for segmenting multiple instances in a single image when compared to other methods. DynaMITe achieves state-of-the-art results on multiple existing interactive segmentation benchmarks, and also on the new multi-instance benchmark that we propose in this paper. | 翻訳日:2023-08-23 21:13:25 公開日:2023-08-22 |
# 2段階移動学習による多視点融合法による自動内視鏡石認識の改善 Improving automatic endoscopic stone recognition using a multi-view fusion approach enhanced with two-step transfer learning ( http://arxiv.org/abs/2304.03193v2 ) ライセンス: Link先を確認 | Francisco Lopez-Tiro, Elias Villalvazo-Avila, Juan Pablo Betancur-Rengifo, Ivan Reyes-Amezcua, Jacques Hubert, Gilberto Ochoa-Ruiz, Christian Daul | (参考訳) 本研究は,内視鏡画像で見る腎臓結石の種類を識別するために,異なる視点から取得した画像情報を抽出・融合する深層学習手法を提案する。
モデルはさらに2段階の伝達学習アプローチと、学習した特徴マップを洗練するための注意ブロックによって改善された。
深い特徴融合戦略により, 腎臓結石分類の精度において, 単視抽出バックボーンモデルの結果を6%以上改善した。 This contribution presents a deep-learning method for extracting and fusing image information acquired from different viewpoints, with the aim to produce more discriminant object features for the identification of the type of kidney stones seen in endoscopic images. The model was further improved with a two-step transfer learning approach and by attention blocks to refine the learned feature maps. Deep feature fusion strategies improved the results of single view extraction backbone models by more than 6% in terms of accuracy of the kidney stones classification. | 翻訳日:2023-08-23 21:13:04 公開日:2023-08-22 |
# マルチモードキャビティQEDにおける最適ゲージの計量と特性 Metrics and properties of optimal gauges in multimode cavity QED ( http://arxiv.org/abs/2304.02436v2 ) ライセンス: Link先を確認 | Geva Arwas, Vladimir E. Manucharyan, and Cristiano Ciuti | (参考訳) マルチモードキャビティ量子電磁力学(qed)は、例えば、原子とマルチモード電磁共振器の結合を記述する。
ゲージ選択は、正確なゲージ不変性は全空間でのみ回復されるため、切り離されたヒルベルト空間における実用的な計算にとって重要である。
最適ゲージは、同じ数の原子レベルとモードに対して最も正確な観測可能性を予測するものと定義することができる。
ゲージのパフォーマンスを定量化する異なるメトリクスは、関心の観測可能性に応じて導入できる。
この研究において、最適選択は一般にモード依存であり、すなわち各キャビティモードに対して異なるゲージが必要であることを示す。
光-物質相互作用の増大にはゲージの選択が重要になるが、最適ゲージは光-物質間の絡み合いが最小となる状況に対応していないことも示している。 Multi-mode cavity quantum electrodynamics (QED) describes, for example, the coupling between an atom and a multi-mode electromagnetic resonator. The gauge choice is important for practical calculations in truncated Hilbert spaces, because the exact gauge-invariance is recovered only in the whole space. An optimal gauge can be defined as the one predicting the most accurate observables for the same number of atomic levels and modes. Different metrics quantifying the gauge performance can be introduced depending on the observable of interest. In this work we demonstrate that the optimal choice is generally mode-dependent, i.e., a different gauge is needed for each cavity mode. While the choice of gauge becomes more important for increasing light-matter interaction, we also show that the optimal gauge does not correspond to the situation where the entanglement between light and matter is the smallest. | 翻訳日:2023-08-23 21:12:00 公開日:2023-08-22 |
# ChatGPT関連研究の概要と大規模言語モデルの将来への展望 Summary of ChatGPT-Related Research and Perspective Towards the Future of Large Language Models ( http://arxiv.org/abs/2304.01852v4 ) ライセンス: Link先を確認 | Yiheng Liu, Tianle Han, Siyuan Ma, Jiayue Zhang, Yuanyuan Yang, Jiaming Tian, Hao He, Antong Li, Mengshen He, Zhengliang Liu, Zihao Wu, Lin Zhao, Dajiang Zhu, Xiang Li, Ning Qiang, Dingang Shen, Tianming Liu, Bao Ge | (参考訳) 本稿では、ChatGPT関連研究(GPT-3.5およびGPT-4)、GPTシリーズの最先端の大規模言語モデル(LLM)、および様々な領域にわたる将来的な応用について概説する。
実際、世界中の知識を捉える大規模な事前学習や、人間のフィードバックからの微調整と強化学習(RLHF)といった重要な革新は、LLMの適応性と性能を高める上で重要な役割を担っている。
各種アプリケーション領域におけるトレンド分析,ワードクラウド表現,分布解析を含む,arXivに関する194の関連論文の詳細な分析を行った。
この発見は、ChatGPT関連の研究への関心が高まり、直接自然言語処理の応用が中心となっている一方で、教育や歴史、数学、医学、物理学といった分野にも大きな可能性を秘めている。
本研究は,ChatGPTの能力,潜在的含意,倫理的懸念,今後の発展への方向性について考察する。 This paper presents a comprehensive survey of ChatGPT-related (GPT-3.5 and GPT-4) research, state-of-the-art large language models (LLM) from the GPT series, and their prospective applications across diverse domains. Indeed, key innovations such as large-scale pre-training that captures knowledge across the entire world wide web, instruction fine-tuning and Reinforcement Learning from Human Feedback (RLHF) have played significant roles in enhancing LLMs' adaptability and performance. We performed an in-depth analysis of 194 relevant papers on arXiv, encompassing trend analysis, word cloud representation, and distribution analysis across various application domains. The findings reveal a significant and increasing interest in ChatGPT-related research, predominantly centered on direct natural language processing applications, while also demonstrating considerable potential in areas ranging from education and history to mathematics, medicine, and physics. This study endeavors to furnish insights into ChatGPT's capabilities, potential implications, ethical concerns, and offer direction for future advancements in this field. | 翻訳日:2023-08-23 21:11:27 公開日:2023-08-22 |
# ea-lss: 3d bevオブジェクト検出のためのエッジアウェアリフトプレートショットフレームワーク EA-LSS: Edge-aware Lift-splat-shot Framework for 3D BEV Object Detection ( http://arxiv.org/abs/2303.17895v3 ) ライセンス: Link先を確認 | Haotian Hu, Fanyi Wang, Jingwen Su, Yaonong Wang, Laifeng Hu, Weiye Fang, Jingwei Xu, Zhiwang Zhang | (参考訳) 近年,Lft-Splat-Shot-based (LSS-based) 3Dオブジェクト検出法に大きな進歩を遂げている。
しかし、特に深度が著しく変化する領域(例えば「深度ジャンプ」問題)において、カメラのみおよびマルチモデル3Dオブジェクト検出モデルの精度には、不正確な深さ推定が重要な制約となっている。
本稿では,新しいエッジ対応Lift-splat-shot (EA-LSS) フレームワークを提案する。
具体的には,「深度跳躍」問題と細粒度深度(FGD)モジュールを緩和し,深度管理をさらに強化するために,エッジ対応深度融合(EADF)モジュールを提案する。
我々のEA-LSSフレームワークは、任意のLSSベースの3次元オブジェクト検出モデルと互換性があり、推論時間の無視できる増加で性能を効果的に向上させる。
nuScenesベンチマークの実験では、EA-LSSはカメラのみまたはマルチモデルモデルで有効であることが示されている。
EA-LSS は mAP と NDS のそれぞれ76.5% と 77.6% の nuScenes テストベンチマークで最先端のパフォーマンスを達成したことは注目に値する。 In recent years, great progress has been made in the Lift-Splat-Shot-based (LSS-based) 3D object detection method. However, inaccurate depth estimation remains an important constraint to the accuracy of camera-only and multi-model 3D object detection models, especially in regions where the depth changes significantly (i.e., the ``depth jump'' problem). In this paper, we proposed a novel Edge-aware Lift-splat-shot (EA-LSS) framework. Specifically, edge-aware depth fusion (EADF) module is proposed to alleviate the ``depth jump'' problem and fine-grained depth (FGD) module to further enforce refined supervision on depth. Our EA-LSS framework is compatible for any LSS-based 3D object detection models, and effectively boosts their performances with negligible increment of inference time. Experiments on nuScenes benchmarks demonstrate that EA-LSS is effective in either camera-only or multi-model models. It is worth mentioning that EA-LSS achieved the state-of-the-art performance on nuScenes test benchmarks with mAP and NDS of 76.5% and 77.6%, respectively. | 翻訳日:2023-08-23 21:10:22 公開日:2023-08-22 |
# 人間の嗜好スコア:人間の選好によるテキスト・画像モデルの改善 Human Preference Score: Better Aligning Text-to-Image Models with Human Preference ( http://arxiv.org/abs/2303.14420v2 ) ライセンス: Link先を確認 | Xiaoshi Wu, Keqiang Sun, Feng Zhu, Rui Zhao, Hongsheng Li | (参考訳) 近年、深層生成モデルが急速に成長し、テキストから画像へのモデルが大衆から注目を集めている。
しかし、既存のモデルは、手足と表情のぎこちない組み合わせなど、人間の好みとうまく一致しない画像を生成することが多い。
この問題に対処するために,我々は,安定基盤ディスコードチャネルから生成された画像から人間選択のデータセットを収集する。
本実験は, 生成モデルの評価基準が人間の選択とよく相関しないことを示す。
そこで我々は、収集したデータセットを用いて人選好分類器を訓練し、その分類器に基づいて人選好スコア(HPS)を導出する。
我々はHPSを用いて,ヒトの嗜好に合わせて安定拡散を適応する簡易かつ効果的な手法を提案する。
実験の結果,HPSはCLIPより優れ,他のモデルから生成された画像に対して優れた一般化能力を有することがわかった。
安定拡散をHPSの指導で調整することにより、適応モデルは人間の好む画像を生成することができる。
https://tgxs002.github.io/align_sd_web/。 Recent years have witnessed a rapid growth of deep generative models, with text-to-image models gaining significant attention from the public. However, existing models often generate images that do not align well with human preferences, such as awkward combinations of limbs and facial expressions. To address this issue, we collect a dataset of human choices on generated images from the Stable Foundation Discord channel. Our experiments demonstrate that current evaluation metrics for generative models do not correlate well with human choices. Thus, we train a human preference classifier with the collected dataset and derive a Human Preference Score (HPS) based on the classifier. Using HPS, we propose a simple yet effective method to adapt Stable Diffusion to better align with human preferences. Our experiments show that HPS outperforms CLIP in predicting human choices and has good generalization capability toward images generated from other models. By tuning Stable Diffusion with the guidance of HPS, the adapted model is able to generate images that are more preferred by human users. The project page is available here: https://tgxs002.github.io/align_sd_web/ . | 翻訳日:2023-08-23 21:09:57 公開日:2023-08-22 |
# イソバリック-等温流によるギブス自由エネルギーの推定 Estimating Gibbs free energies via isobaric-isothermal flows ( http://arxiv.org/abs/2305.13233v2 ) ライセンス: Link先を確認 | Peter Wirnsberger, Borja Ibarz, George Papamakarios | (参考訳) イソバリック-等温アンサンブルからサンプルを採取するよう訓練された正規化フローに基づく機械学習モデルを提案する。
そこで本研究では,完全フレキシブル・トリクリニック・シミュレーションボックスと粒子座標の接合分布を近似し,所望の内部圧力を実現する。
この新しいフローベースサンプリングのイソバリック-等温アンサンブルへの拡張はギブス自由エネルギーを直接推定する。
我々は, 立方晶および六角形氷相の単原子水上で NPT-flow を試験し, 既設ベースラインと比較してギブス自由エネルギーなどの観測可能エネルギーとの良好な一致を見出した。 We present a machine-learning model based on normalizing flows that is trained to sample from the isobaric-isothermal ensemble. In our approach, we approximate the joint distribution of a fully-flexible triclinic simulation box and particle coordinates to achieve a desired internal pressure. This novel extension of flow-based sampling to the isobaric-isothermal ensemble yields direct estimates of Gibbs free energies. We test our NPT-flow on monatomic water in the cubic and hexagonal ice phases and find excellent agreement of Gibbs free energies and other observables compared with established baselines. | 翻訳日:2023-08-23 21:02:42 公開日:2023-08-22 |
# GMD:誘導拡散モデルによる制御可能な人体運動合成 GMD: Controllable Human Motion Synthesis via Guided Diffusion Models ( http://arxiv.org/abs/2305.12577v2 ) ライセンス: Link先を確認 | Korrawe Karunratanakul, Konpat Preechakul, Supasorn Suwajanakorn, Siyu Tang | (参考訳) 発声拡散モデルは、自然言語記述に基づく人間の運動合成において大きな期待が持たれている。
しかし, 運動軌跡や障害物などの空間的制約の統合は, 孤立した人間の運動と周囲の環境とのギャップを埋めるのに不可欠であるにもかかわらず, 依然として課題である。
この問題を解決するために,空間制約を運動生成プロセスに組み込む手法であるガイド運動拡散(GMD)を提案する。
具体的には,空間情報と局所ポーズの一貫性を高めるために,動作表現を操作する効果的な特徴投影方式を提案する。
新しい計算式とともに、生成された動きは、大域的な運動軌跡のような空間的制約に確実に適合することができる。
さらに,空間的制約(例えばスパースキーフレーム)が与えられた場合,逆ステップで無視されやすいスパース信号を,生成された動作を所定の制約に導くためにより密な信号に変換するための,新しい密集した誘導手法を導入する。
広範な実験によりgmdの開発が正当化され,空間制約のある合成動作の制御が可能となり,テキストベースモーション生成における最先端手法よりも大幅に改善した。 Denoising diffusion models have shown great promise in human motion synthesis conditioned on natural language descriptions. However, integrating spatial constraints, such as pre-defined motion trajectories and obstacles, remains a challenge despite being essential for bridging the gap between isolated human motion and its surrounding environment. To address this issue, we propose Guided Motion Diffusion (GMD), a method that incorporates spatial constraints into the motion generation process. Specifically, we propose an effective feature projection scheme that manipulates motion representation to enhance the coherency between spatial information and local poses. Together with a new imputation formulation, the generated motion can reliably conform to spatial constraints such as global motion trajectories. Furthermore, given sparse spatial constraints (e.g. sparse keyframes), we introduce a new dense guidance approach to turn a sparse signal, which is susceptible to being ignored during the reverse steps, into denser signals to guide the generated motion to the given constraints. Our extensive experiments justify the development of GMD, which achieves a significant improvement over state-of-the-art methods in text-based motion generation while allowing control of the synthesized motions with spatial constraints. | 翻訳日:2023-08-23 21:02:29 公開日:2023-08-22 |
# NollySenti:ナイジェリア映画感性分類における転送学習と機械翻訳の活用 NollySenti: Leveraging Transfer Learning and Machine Translation for Nigerian Movie Sentiment Classification ( http://arxiv.org/abs/2305.10971v2 ) ライセンス: Link先を確認 | Iyanuoluwa Shode, David Ifeoluwa Adelani, Jing Peng, Anna Feldman | (参考訳) アフリカには2000以上の先住民族言語があるが、データセットの欠如によりnlp研究に過小評価されている。
近年、アフリカの言語のためのラベル付きコーパスの開発が進められている。
しかし、それらは単一のドメインで利用でき、他のドメインに一般化できないことがある。
本稿では,クロスドメイン適応のための感情分類の課題に焦点を当てる。
ナイジェリアで広く話されている5つの言語(英語、ハウサ、igbo、ナイジェリア・ピジン、ヨルバ)のノリウッド映画レビューに基づいて、新しいデータセット、nollysentiを作成しました。
古典的な機械学習手法と事前学習言語モデルを用いた広範な経験的評価を提供する。
転送学習を活用して、Twitterドメインからのクロスドメイン適応のパフォーマンスと、英語からのクロス言語適応を比較した。
評価の結果,同じ対象領域における英語からの転送は,同じ言語でのtwitterからの転送に比べて5%以上精度が向上することがわかった。
ドメイン差を緩和するために、英語から他のナイジェリア語への機械翻訳(MT)を活用し、言語間評価よりも7%向上した。
低リソース言語へのmtは品質が低いことが多いが、人間の評価を通して、翻訳された文の多くは原文のレビューの感情を保っていることを示している。 Africa has over 2000 indigenous languages but they are under-represented in NLP research due to lack of datasets. In recent years, there have been progress in developing labeled corpora for African languages. However, they are often available in a single domain and may not generalize to other domains. In this paper, we focus on the task of sentiment classification for cross domain adaptation. We create a new dataset, NollySenti - based on the Nollywood movie reviews for five languages widely spoken in Nigeria (English, Hausa, Igbo, Nigerian-Pidgin, and Yoruba. We provide an extensive empirical evaluation using classical machine learning methods and pre-trained language models. Leveraging transfer learning, we compare the performance of cross-domain adaptation from Twitter domain, and cross-lingual adaptation from English language. Our evaluation shows that transfer from English in the same target domain leads to more than 5% improvement in accuracy compared to transfer from Twitter in the same language. To further mitigate the domain difference, we leverage machine translation (MT) from English to other Nigerian languages, which leads to a further improvement of 7% over cross-lingual evaluation. While MT to low-resource languages are often of low quality, through human evaluation, we show that most of the translated sentences preserve the sentiment of the original English reviews. | 翻訳日:2023-08-23 21:02:07 公開日:2023-08-22 |
# double pessimismは分散的ロバストなオフライン強化学習に有効である:ジェネリックアルゴリズムとロバスト部分カバレッジ Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage ( http://arxiv.org/abs/2305.09659v2 ) ライセンス: Link先を確認 | Jose Blanchet, Miao Lu, Tong Zhang, Han Zhong | (参考訳) 本稿では,分散的に堅牢なオフライン強化学習(robust offline rl)について検討する。
具体的には、フレキシブルモデル推定サブルーチンと2つの悲観的ポリシー最適化ステップを組み合わせた、Double Pessimistic Model-based Policy Optimization(P^2MPO$)という汎用アルゴリズムフレームワークを提案する。
特に、二重悲観主義原理は、引き起こされる分布シフトを克服するために重要である。
(i)行動方針と対象政策のミスマッチ
(ii)名目モデルの摂動
モデル推定サブルーチン上の一定の精度条件の下では、$p^2mpo$ はロバストな部分被覆データでサンプル効率が良く、オフラインデータは最適ロバストポリシーと名目モデル周辺の摂動モデルによって引き起こされる分布を適切にカバーすることが要求される。
表式RMDP, 因子RMDP, カーネル, ニューラルRMDPなど, RMDPの具体的な例として, 特定のモデル推定サブルーチンを調整することにより, $P^2MPO$が$\tilde{\mathcal{O}}(n^{-1/2})$収束率で、$n$がデータセットサイズであることを示す。
これらの例は、表付きRMDPを除いて、この研究によって最初に同定され、証明可能であることを強調する。
さらに、ロバストマルコフゲーム(RMG)におけるロバストオフラインRLの研究も継続する。
単一エージェントRMDPで特定される二重悲観主義の原理を拡張することにより、ロバストな一方的(部分的)カバレッジデータのみを用いて、プレイヤー間の堅牢なナッシュ平衡を効率的に見つけることができる別のアルゴリズムフレームワークを提案する。
我々の知る限り、この研究は、ロバストなオフラインRLのための最初の一般学習原理である二重悲観主義を提案し、一般関数近似で証明可能な効率であることを示す。 In this paper, we study distributionally robust offline reinforcement learning (robust offline RL), which seeks to find an optimal policy purely from an offline dataset that can perform well in perturbed environments. In specific, we propose a generic algorithm framework called Doubly Pessimistic Model-based Policy Optimization ($P^2MPO$), which features a novel combination of a flexible model estimation subroutine and a doubly pessimistic policy optimization step. Notably, the double pessimism principle is crucial to overcome the distributional shifts incurred by (i) the mismatch between the behavior policy and the target policies; and (ii) the perturbation of the nominal model. Under certain accuracy conditions on the model estimation subroutine, we prove that $P^2MPO$ is sample-efficient with robust partial coverage data, which only requires the offline data to have good coverage of the distributions induced by the optimal robust policy and the perturbed models around the nominal model. By tailoring specific model estimation subroutines for concrete examples of RMDPs, including tabular RMDPs, factored RMDPs, kernel and neural RMDPs, we prove that $P^2MPO$ enjoys a $\tilde{\mathcal{O}}(n^{-1/2})$ convergence rate, where $n$ is the dataset size. We highlight that all these examples, except tabular RMDPs, are first identified and proven tractable by this work. Furthermore, we continue our study of robust offline RL in the robust Markov games (RMGs). By extending the double pessimism principle identified for single-agent RMDPs, we propose another algorithm framework that can efficiently find the robust Nash equilibria among players using only robust unilateral (partial) coverage data. To our best knowledge, this work proposes the first general learning principle -- double pessimism -- for robust offline RL and shows that it is provably efficient with general function approximation. | 翻訳日:2023-08-23 21:01:45 公開日:2023-08-22 |
# 量子論の別の基礎 An alternative foundation of quantum theory ( http://arxiv.org/abs/2305.06727v7 ) ライセンス: Link先を確認 | Inge S. Helland | (参考訳) 量子論への新しいアプローチが本論文で提案されている。
基本はまず、理論変数、アクセス可能あるいはアクセス不能な変数、すなわち、アクターが任意に鋭い数値をそれらに割り当てることは可能であるか不可能であるかもしれない。
認識論的プロセスでは、アクセス可能な変数は、アクターまたは一部の通信アクターと接続された理想的な観察である。
群作用はこれらの変数上で定義され、群表現論はここでヒルベルト空間形式論を展開する基礎である。
アクセス可能な理論変数に対応する演算子が導出され、離散の場合、可能な物理値はそれらの演算子の固有値であることが証明される。
論文の焦点は、提案された量子論の基礎を埋める数学的定理である。
ここで、このアプローチで必要とされる群と変換は、アクセス可能な変数が有限次元である場合に明示的に構成できることを示す。
ヒルベルト空間の定式化を再現するには、2つの相補変数の存在を仮定するのに十分である。
数学的変数よりも物理変数にのみ焦点を合わせるために、到達不能変数の概念は概念の概念に置き換えられ、この関係において圏論の側面は群論を部分的に置き換える。
ここで提案された基礎から推測される解釈は、量子論の一般的なエピステミック解釈と呼ばれる。
この解釈の特別な例はQB主義であり、他のいくつかの解釈とも関係している。 A new approach to quantum theory is proposed in this paper. The basis is first taken to be theoretical variables, variables that may be accessible or inaccessible, i.e., it may be possible or impossible for an actor to assign arbitrarily sharp numerical values to them. In an epistemic process, the accessible variables are just ideal observations connected to an actor or to some communicating actors. Group actions are defined on these variables, and group representation theory is the basis for developing the Hilbert space formalism here. Operators corresponding to accessible theoretical variables are derived, and in the discrete case, it is proved that the possible physical values are the eigenvalues of these operators. The focus of the paper is some mathematical theorems paving the ground for the proposed foundation of quantum theory. It is shown here that the groups and transformations needed in this approach can be constructed explicitly in the case where the accessible variables are finite-dimensional. This simplifies the theory considerably: To reproduce the Hilbert space formulation, it is enough to assume the existence of two complementary variables. To focus only on physical variables rather than mathematical variables, the concept of inaccessible variables is then replaced by the concept of notions, and in this connection, aspects of category theory partly replace group theory. The interpretation inferred from the proposed foundation here may be called a general epistemic interpretation of quantum theory. A special case of this interpretation is QBism; it also has a relationship to several other interpretations. | 翻訳日:2023-08-23 21:01:03 公開日:2023-08-22 |
# Relightify:拡散モデルによる単一画像からの3D顔の再現性 Relightify: Relightable 3D Faces from a Single Image via Diffusion Models ( http://arxiv.org/abs/2305.06077v2 ) ライセンス: Link先を確認 | Foivos Paraperas Papantoniou, Alexandros Lattas, Stylianos Moschoglou, Stefanos Zafeiriou | (参考訳) 画像生成における拡散モデルの顕著な成功に続いて、最近の研究は、条件付け入力に基づいてサンプリング過程を適切に制約することにより、教師なしの方法で多くの逆問題に対処できる印象的な能力を示した。
そこで本研究では,1枚の画像から高精度な3次元顔BRDF再構成を行うために,拡散モデルを用いた最初のアプローチを提案する。
まず,自然のRGBテクスチャをシミュレートするために,様々な照明条件下でレンダリングする高品質な顔反射率データセット(拡散およびスペクトルアルベドおよび正規値)を利用し,その上で,合成されたテクスチャと反射率成分の組合わせによる非条件拡散モデルを訓練する。
テスト時には、与えられた画像に3d morphableモデルを適用し、部分的なuvテクスチャで顔を解き放つ。
拡散モデルからサンプリングすることにより、観察されたテクスチャ部を無傷に保ちながら、モデルは、自己閉鎖領域だけでなく、未知の反射成分を1つのデノナイジングステップで塗布する。
既存の手法とは対照的に,観測されたテクスチャを直接入力画像から取得し,より忠実で一貫した反射率推定を行う。
質的,定量的な比較を行い,テクスチャ補完と反射率再構成の両タスクにおいて優れた性能を示す。 Following the remarkable success of diffusion models on image generation, recent works have also demonstrated their impressive ability to address a number of inverse problems in an unsupervised way, by properly constraining the sampling process based on a conditioning input. Motivated by this, in this paper, we present the first approach to use diffusion models as a prior for highly accurate 3D facial BRDF reconstruction from a single image. We start by leveraging a high-quality UV dataset of facial reflectance (diffuse and specular albedo and normals), which we render under varying illumination settings to simulate natural RGB textures and, then, train an unconditional diffusion model on concatenated pairs of rendered textures and reflectance components. At test time, we fit a 3D morphable model to the given image and unwrap the face in a partial UV texture. By sampling from the diffusion model, while retaining the observed texture part intact, the model inpaints not only the self-occluded areas but also the unknown reflectance components, in a single sequence of denoising steps. In contrast to existing methods, we directly acquire the observed texture from the input image, thus, resulting in more faithful and consistent reflectance estimation. Through a series of qualitative and quantitative comparisons, we demonstrate superior performance in both texture completion as well as reflectance reconstruction tasks. | 翻訳日:2023-08-23 21:00:43 公開日:2023-08-22 |
# 画像検索の公正性:画像検索における職業ステレオタイピングとそのデバイアスに関する研究 Fairness in Image Search: A Study of Occupational Stereotyping in Image Retrieval and its Debiasing ( http://arxiv.org/abs/2305.03881v2 ) ライセンス: Link先を確認 | Swagatika Dash | (参考訳) マルチモーダル検索エンジンは近年大きく成長し、広く利用されている。
検索エンジンシステムは様々なサービスを提供しているが、画像検索分野は最近、情報検索コミュニティの焦点となっている。
Googleのような人気検索エンジンは画像検索の精度と俊敏性に優れているが、検索結果が性別、言語、人口統計、社会文化的側面、ステレオタイプに偏っているかどうかについては議論が続いている。
このバイアスの可能性は個人の知覚に重大な影響を与え、視点に影響を与える可能性がある。
本稿では,web検索におけるバイアスと公平性について,キーワードに基づく画像検索を中心に検討する。
まず,検索システムに存在する複数のバイアスと,それらを軽減することが重要である理由について論じる。
我々は,画像検索における作業的ステレオタイプの評価と緩和に本研究を絞り込み,画像検索におけるフェアネス問題となっている。
ステレオタイプの評価では、ジェンダーを指標として捉えている。
画像から性別を識別するための様々なオープンソースおよびプロプライエタリなAPIについて検討する。
本研究では,複数の作業用キーワードを用いたトップタンク画像検索結果における性別バイアスの程度について検討する。
バイアスを軽減するために、最適化する公平性を考慮した再格付けアルゴリズムを提案する。
(a)キーワードによる検索結果の関連性及び
b) 性別の公平性。
10個の作業キーワードから得られた上位100画像について実験を行い,関連度に基づく無作為な再ランク付けと再ランク付けをベースラインとして検討した。
実験の結果,公平度対応再ランク付けアルゴリズムは,基準値よりも公平度スコアと競合性スコアの高いランキングを生成することがわかった。 Multi-modal search engines have experienced significant growth and widespread use in recent years, making them the second most common internet use. While search engine systems offer a range of services, the image search field has recently become a focal point in the information retrieval community, as the adage goes, "a picture is worth a thousand words". Although popular search engines like Google excel at image search accuracy and agility, there is an ongoing debate over whether their search results can be biased in terms of gender, language, demographics, socio-cultural aspects, and stereotypes. This potential for bias can have a significant impact on individuals' perceptions and influence their perspectives. In this paper, we present our study on bias and fairness in web search, with a focus on keyword-based image search. We first discuss several kinds of biases that exist in search systems and why it is important to mitigate them. We narrow down our study to assessing and mitigating occupational stereotypes in image search, which is a prevalent fairness issue in image retrieval. For the assessment of stereotypes, we take gender as an indicator. We explore various open-source and proprietary APIs for gender identification from images. With these, we examine the extent of gender bias in top-tanked image search results obtained for several occupational keywords. To mitigate the bias, we then propose a fairness-aware re-ranking algorithm that optimizes (a) relevance of the search result with the keyword and (b) fairness w.r.t genders identified. We experiment on 100 top-ranked images obtained for 10 occupational keywords and consider random re-ranking and re-ranking based on relevance as baselines. Our experimental results show that the fairness-aware re-ranking algorithm produces rankings with better fairness scores and competitive relevance scores than the baselines. | 翻訳日:2023-08-23 21:00:03 公開日:2023-08-22 |
# beyond geometry: 神経回路における計算の時間構造と動的類似性解析の比較 Beyond Geometry: Comparing the Temporal Structure of Computation in Neural Circuits with Dynamical Similarity Analysis ( http://arxiv.org/abs/2306.10168v2 ) ライセンス: Link先を確認 | Mitchell Ostrow, Adam Eisen, Leo Kozachkov, Ila Fiete | (参考訳) 2つのニューラルネットワークが、特定の計算に同じ内部プロセスを使用しているかどうかをどうやって判断できるのか?
この問題は、ニューロAI、機械的解釈可能性、脳と機械のインターフェイスを含む、神経科学と機械学習の両方の複数のサブフィールドに関係している。
ニューラルネットワークの比較のための標準的アプローチは、潜在状態の空間幾何学に焦点を当てている。
しかし、リカレントネットワークでは、計算は神経動力学のレベルで実装され、幾何学と単純な1対1のマッピングを持っていない。
このギャップを埋めるために、2つの系をダイナミクスのレベルで比較する新しい類似度メトリックを導入する。
データ駆動力学系理論の最近の進歩を利用して、元の非線形力学の中核的特徴を正確に捉える高次元線形系を学習する。
次に、ベクトル場が直交変換の下でどのように変化するかを考慮した新たなプロクルス解析の拡張を通して、これらの線形近似を比較する。
4つのケーススタディを通じて,本手法はリカレントニューラルネットワーク(rnn)の動的構造を効果的に識別し識別するが,幾何学的手法は不足することを示した。
また,本手法では教師なしの学習ルールを識別できることを示した。
そこで本手法は,ニューラルネットワークの時間構造をデータ駆動で解析し,RNNを脳のモデルとしてより厳密なテストを行うための扉を開く。 How can we tell whether two neural networks are utilizing the same internal processes for a particular computation? This question is pertinent for multiple subfields of both neuroscience and machine learning, including neuroAI, mechanistic interpretability, and brain-machine interfaces. Standard approaches for comparing neural networks focus on the spatial geometry of latent states. Yet in recurrent networks, computations are implemented at the level of neural dynamics, which do not have a simple one-to-one mapping with geometry. To bridge this gap, we introduce a novel similarity metric that compares two systems at the level of their dynamics. Our method incorporates two components: Using recent advances in data-driven dynamical systems theory, we learn a high-dimensional linear system that accurately captures core features of the original nonlinear dynamics. Next, we compare these linear approximations via a novel extension of Procrustes Analysis that accounts for how vector fields change under orthogonal transformation. Via four case studies, we demonstrate that our method effectively identifies and distinguishes dynamic structure in recurrent neural networks (RNNs), whereas geometric methods fall short. We additionally show that our method can distinguish learning rules in an unsupervised manner. Our method therefore opens the door to novel data-driven analyses of the temporal structure of neural computation, and to more rigorous testing of RNNs as models of the brain. | 翻訳日:2023-08-23 20:51:29 公開日:2023-08-22 |
# 自然言語処理におけるソシオドモグラフィーバイアスの実態調査 Survey on Sociodemographic Bias in Natural Language Processing ( http://arxiv.org/abs/2306.08158v3 ) ライセンス: Link先を確認 | Vipul Gupta, Pranav Narayanan Venkit, Shomir Wilson, Rebecca J. Passonneau | (参考訳) ディープニューラルネットワークは、トレーニング中に意図しないバイアスを学習することが多い。
本研究は、自然言語処理(NLP)における社会デマトグラフィーバイアスに関連する214の論文を調査した。
本研究では,NLPにおける社会デマログラフバイアスに対するアプローチの類似点と相違点をより包括的に理解することを目的とする。
バイアスと現実世界の害の区別をよりよく理解するために、心理学や行動経済学の考え方に転換し、社会的な偏見の定義を提案する。
NLPバイアス研究の主な3つのカテゴリは、バイアスの種類、定量化バイアス、脱バイアス技術である。
バイアスとデバイアステクニックを定量化する現在のトレンドに注目し,その強みと弱みに関する洞察を提供する。
バイアスの定量化に関する現在のアプローチは信頼性の問題に直面しており、バイアス指標の多くは現実のバイアスとは関係がなく、デバイアス技術はトレーニング方法にもっと集中する必要があると結論付けている。
最後に、今後の仕事について推奨する。 Deep neural networks often learn unintended bias during training, which might have harmful effects when deployed in real-world settings. This work surveys 214 papers related to sociodemographic bias in natural language processing (NLP). In this study, we aim to provide a more comprehensive understanding of the similarities and differences among approaches to sociodemographic bias in NLP. To better understand the distinction between bias and real-world harm, we turn to ideas from psychology and behavioral economics to propose a definition for sociodemographic bias. We identify three main categories of NLP bias research: types of bias, quantifying bias, and debiasing techniques. We highlight the current trends in quantifying bias and debiasing techniques, offering insights into their strengths and weaknesses. We conclude that current approaches on quantifying bias face reliability issues, that many of the bias metrics do not relate to real-world bias, and that debiasing techniques need to focus more on training methods. Finally, we provide recommendations for future work. | 翻訳日:2023-08-23 20:51:06 公開日:2023-08-22 |
# SAMのロバスト性: 破壊とそれ以上のセグメンテーション Robustness of SAM: Segment Anything Under Corruptions and Beyond ( http://arxiv.org/abs/2306.07713v2 ) ライセンス: Link先を確認 | Yu Qiao, Chaoning Zhang, Taegoo Kang, Donghun Kim, Shehbaz Tariq, Chenshuang Zhang, Choong Seon Hong | (参考訳) Segment Any Model (SAM) は、名前が示すように、任意のオブジェクトを切断できると主張しており、プロンプトの誘導によって、印象的なゼロショット転送性能を示す。
しかし、現在では様々な汚職下での堅牢性に関する総合的な評価が欠如している。
SAMのさまざまな汚職シナリオに対する堅牢性を理解することは、現実世界のデプロイメントにおいて不可欠である。
以前の研究では、SAMは形ではなくテクスチャ(スタイル)に偏っていることが示されており、その動機は、SAMのスタイル移動に対する頑健さを調査することにある。
スタイル変更としての汚職の効果の解釈に続いて,15種類の共通汚職に対するSAMの堅牢性について,包括的評価を実施している。
これらの腐敗は、主にデジタル、ノイズ、天気、ぼやけといったカテゴリーに分類される。
それぞれの汚職カテゴリーの中で、現実世界の汚職シナリオをシミュレートする5つの深刻度レベルを調査します。
汚職以外にも,画像における局所閉塞と局所敵パッチ攻撃に関する堅牢性も評価した。
我々の知る限り、我々の研究はSAMのスタイル変更、局所閉塞、および局所的敵パッチアタックによる堅牢性を評価するための最初の試みである。
ヒトの目に見えるパッチアタックは容易に検出できるので、ヒトの目では認識できない敵の摂動に対するSAMの頑丈さも評価する。
全体として、この研究はSAMの堅牢性に関する総合的な実証的研究を提供し、様々な汚職下での性能を評価し、その評価を局所的な排除、局所的なパッチ攻撃、知覚できない敵の摂動といった重要な側面にまで拡張し、SAMの現実的な課題への実践的適用性と有効性に関する貴重な洞察を与える。 Segment anything model (SAM), as the name suggests, is claimed to be capable of cutting out any object and demonstrates impressive zero-shot transfer performance with the guidance of a prompt. However, there is currently a lack of comprehensive evaluation regarding its robustness under various corruptions. Understanding SAM's robustness across different corruption scenarios is crucial for its real-world deployment. Prior works show that SAM is biased towards texture (style) rather than shape, motivated by which we start by investigating SAM's robustness against style transfer, which is synthetic corruption. Following the interpretation of the corruption's effect as style change, we proceed to conduct a comprehensive evaluation of the SAM for its robustness against 15 types of common corruption. These corruptions mainly fall into categories such as digital, noise, weather, and blur. Within each of these corruption categories, we explore 5 severity levels to simulate real-world corruption scenarios. Beyond the corruptions, we further assess its robustness regarding local occlusion and local adversarial patch attacks in images. To the best of our knowledge, our work is the first of its kind to evaluate the robustness of SAM under style change, local occlusion, and local adversarial patch attacks. Considering that patch attacks visible to human eyes are easily detectable, we also assess SAM's robustness against adversarial perturbations that are imperceptible to human eyes. Overall, this work provides a comprehensive empirical study on SAM's robustness, evaluating its performance under various corruptions and extending the assessment to critical aspects like local occlusion, local patch attacks, and imperceptible adversarial perturbations, which yields valuable insights into SAM's practical applicability and effectiveness in addressing real-world challenges. | 翻訳日:2023-08-23 20:50:47 公開日:2023-08-22 |
# マルチラベル時間ネットワークを用いた大腸内視鏡ビデオの意味解析 Semantic Parsing of Colonoscopy Videos with Multi-Label Temporal Networks ( http://arxiv.org/abs/2306.06960v2 ) ライセンス: Link先を確認 | Ori Kelner, Or Weinstein, Ehud Rivlin, and Roman Goldenberg | (参考訳) ポリープ検出とキャラクタリゼーションが成功した後、大腸内視鏡のためにより高度な自動化ツールが開発されている。
品質指標やレポート生成といった新しい自動化タスクでは、アクティビティやイベント、解剖学的ランドマークなどを含むプロシージャフローの理解が必要になります。
本稿では,大腸内視鏡ビデオの自動意味解析手法を提案する。
本手法は、教師なしおよび教師なし体制下で訓練された新しいDL多ラベル時間分割モデルを用いる。
今回,300本以上のアノテーテッド大腸内視鏡映像の検査セットにおける方法の精度を評価し,アブレーションを用いて各部位の相対的重要性について検討した。 Following the successful debut of polyp detection and characterization, more advanced automation tools are being developed for colonoscopy. The new automation tasks, such as quality metrics or report generation, require understanding of the procedure flow that includes activities, events, anatomical landmarks, etc. In this work we present a method for automatic semantic parsing of colonoscopy videos. The method uses a novel DL multi-label temporal segmentation model trained in supervised and unsupervised regimes. We evaluate the accuracy of the method on a test set of over 300 annotated colonoscopy videos, and use ablation to explore the relative importance of various method's components. | 翻訳日:2023-08-23 20:50:16 公開日:2023-08-22 |
# 動的ビジュアルプロンプティングによる視覚言語課題への事前学習言語モデルの適用 Adapting Pre-trained Language Models to Vision-Language Tasks via Dynamic Visual Prompting ( http://arxiv.org/abs/2306.00409v2 ) ライセンス: Link先を確認 | Shubin Huang, Qiong Wu, Yiyi Zhou, Weijie Chen, Rongsheng Zhang, Xiaoshuai Sun, Rongrong Ji | (参考訳) 事前学習型言語モデル (PLM) はマルチメディア研究において役割を担っている。
視覚言語(VL)タスクでは、しばしば言語エンコーダとして機能し、VL推論のための追加の融合ネットワークを必要とするため、過剰なメモリオーバーヘッドが発生する。
本稿では,VL推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
最近普及しているプロンプトチューニングに触発されて、処理された視覚特徴がPLMのセマンティック空間に投影され、シングルモーダル学習とマルチモーダル学習のギャップを埋めるためのプロンプトトークンとして機能することを証明する。
しかし、この解は視覚情報やモデル推論に明らかな冗長性を示し、プロンプトトークンの配置も最終的な性能に大きな影響を及ぼす。
これらの観測に基づいて,動的ビジュアル・プロンプティング (DVP) と呼ばれる PLM のための新しい移動学習手法を提案する。
具体的には、dvpはまずクロスアテンションモジュールをデプロイしてテキスト関連でコンパクトなビジュアルプロンプトトークンを取得し、plmの入力長を大幅に削減します。
最適配置を得るためには,DVPに強化学習に基づく探索アルゴリズムを装備し,非常に短い探索プロセスによって異なるVLタスクに対して,DVPとPLMを自動マージする。
さらに,最近普及しているアダプタ手法であるDVPを用いて,VLタスクに適応する際のPLMのパラメータの大部分をそのまま維持し,シングルモーダルタスクとマルチモーダルタスクの迅速なシフトを実現するために,DVPを実験した。
VQA2.0, GQA, SNLIVE を含む一連の VL 推論ベンチマークにおいて, DVP を BERT と T5 の2つの代表的 PLM に適用する。
実験結果はDVPの効率と性能の優位性を示すだけでなく、事前学習された言語モデルをVLタスクに適用する際の優位性も確認した。 Pre-trained language models (PLMs) have played an increasing role in multimedia research. In terms of vision-language (VL) tasks, they often serve as a language encoder and still require an additional fusion network for VL reasoning, resulting in excessive memory overhead. In this paper, we focus on exploring PLMs as a stand-alone model for VL reasoning tasks. Inspired by the recently popular prompt tuning, we first prove that the processed visual features can be also projected onto the semantic space of PLMs and act as prompt tokens to bridge the gap between single- and multi-modal learning. However, this solution exhibits obvious redundancy in visual information and model inference, and the placement of prompt tokens also greatly affects the final performance. Based on these observations, we further propose a novel transfer learning approach for PLMs, termed Dynamic Visual Prompting (DVP). Concretely, DVP first deploys a cross-attention module to obtain text-related and compact visual prompt tokens, thereby greatly reducing the input length of PLMs. To obtain the optimal placement, we also equip DVP with a reinforcement-learning based search algorithm, which can automatically merge DVP with PLMs for different VL tasks via a very short search process. In addition, we also experiment DVP with the recently popular adapter approach to keep the most parameters of PLMs intact when adapting to VL tasks, helping PLMs achieve a quick shift between single- and multi-modal tasks. We apply DVP to two representative PLMs, namely BERT and T5, and conduct extensive experiments on a set of VL reasoning benchmarks including VQA2.0, GQA and SNLIVE. The experimental results not only show the advantage of DVP on efficiency and performance, but also confirm its superiority in adapting pre-trained language models to VL tasks. | 翻訳日:2023-08-23 20:50:06 公開日:2023-08-22 |
# 長期大モデルに対するブロックワイズ並列変換器 Blockwise Parallel Transformer for Long Context Large Models ( http://arxiv.org/abs/2305.19370v2 ) ライセンス: Link先を確認 | Hao Liu, Pieter Abbeel | (参考訳) トランスフォーマーは最先端の自然言語処理モデルの基盤として現れ、幅広いAIアプリケーションにまたがる優れたパフォーマンスを示している。
しかし、トランスフォーマーの自己アテンション機構と大きなフィードフォワードネットワークによって引き起こされるメモリ要求は、長いシーケンスを扱う能力を制限するため、複数の長いシーケンスや長期依存関係を含むタスクの課題が生じる。
本稿では,Blockwise Parallel Transformer(BPT)という,自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算を利用したメモリコストの最小化手法を提案する。
メモリ効率を維持しながら長い入力シーケンスを処理することにより、bptはバニラトランスの最大32倍、以前のメモリ効率の2倍から4倍のトレーニングシーケンスを可能にする。
言語モデリングと強化学習タスクに関する大規模な実験は、BPTがメモリ要求の低減と性能改善に有効であることを実証している。 Transformers have emerged as the cornerstone of state-of-the-art natural language processing models, showcasing exceptional performance across a wide range of AI applications. However, the memory demands posed by the self-attention mechanism and the large feedforward network in Transformers limit their ability to handle long sequences, thereby creating challenges for tasks involving multiple long sequences or long-term dependencies. We present a distinct approach, Blockwise Parallel Transformer (BPT), that leverages blockwise computation of self-attention and feedforward network fusion to minimize memory costs. By processing longer input sequences while maintaining memory efficiency, BPT enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods. Extensive experiments on language modeling and reinforcement learning tasks demonstrate the effectiveness of BPT in reducing memory requirements and improving performance. | 翻訳日:2023-08-23 20:49:30 公開日:2023-08-22 |
# タスク特異的アンダーサンプルMRI再構成のための制約付き確率マスク学習 Constrained Probabilistic Mask Learning for Task-specific Undersampled MRI Reconstruction ( http://arxiv.org/abs/2305.16376v2 ) ライセンス: Link先を確認 | Tobias Weber, Michael Ingrisch, Bernd Bischl, David R\"ugamer | (参考訳) アンダーサンプリング(アンダーサンプリング)は、磁気共鳴イメージング(MRI)において、k空間内のデータ点数をサブサンプリングし、画像品質の低下による取得時間を短縮する一般的な方法である。
一般的なアプローチは、可変密度サンプリングや放射軌道といった様々な戦略に従ってアンダーサンプリングパターンを採用することである。
本研究では,データポイントからアンダーサンプリングマスクを直接学習する手法を提案し,タスクやドメイン特有のパターンも提供する。
離散最適化問題を解くために,凸制約により加速因子を強制するマスク最適化のための,完全確率的,微分可能,汎用的,モデルフリーなフレームワークであるProMを提案する。
膝, 脳, 心臓MRIのデータセットを解析した結果, 異なる解剖学的領域で最適なアンダーサンプリングマスクが明らかとなり, ダウンストリームタスクに適したカスタムマスクを使用することのメリットが示された。
例えば、ProMは、完全にサンプリングされたMRIでトレーニングされたネットワークとのセグメンテーションのような下流タスクのパフォーマンスを最大化するアンダーサンプリングマスクを作成することができる。
極端な加速要因があるにもかかわらず、ProMは既存の手法よりも汎用性が高く、データ駆動の全目的マスク生成の道を開く。 Undersampling is a common method in Magnetic Resonance Imaging (MRI) to subsample the number of data points in k-space, reducing acquisition times at the cost of decreased image quality. A popular approach is to employ undersampling patterns following various strategies, e.g., variable density sampling or radial trajectories. In this work, we propose a method that directly learns the undersampling masks from data points, thereby also providing task- and domain-specific patterns. To solve the resulting discrete optimization problem, we propose a general optimization routine called ProM: A fully probabilistic, differentiable, versatile, and model-free framework for mask optimization that enforces acceleration factors through a convex constraint. Analyzing knee, brain, and cardiac MRI datasets with our method, we discover that different anatomic regions reveal distinct optimal undersampling masks, demonstrating the benefits of using custom masks, tailored for a downstream task. For example, ProM can create undersampling masks that maximize performance in downstream tasks like segmentation with networks trained on fully-sampled MRIs. Even with extreme acceleration factors, ProM yields reasonable performance while being more versatile than existing methods, paving the way for data-driven all-purpose mask generation. | 翻訳日:2023-08-23 20:48:25 公開日:2023-08-22 |
# Type-to-Track: Promptベースのトラッキングによる任意のオブジェクトの検索 Type-to-Track: Retrieve Any Object via Prompt-based Tracking ( http://arxiv.org/abs/2305.13495v2 ) ライセンス: Link先を確認 | Pha Nguyen, Kha Gia Quach, Kris Kitani, Khoa Luu | (参考訳) 視覚問題の最近のトレンドの1つは、興味のある対象を記述するために自然言語キャプションを使用することである。
このアプローチは、境界ボックスやカテゴリアノテーションに依存する従来のメソッドのいくつかの制限を克服することができる。
本稿では,ユーザが自然言語記述を入力して動画中のオブジェクトを追跡できる,複数のオブジェクト追跡のための新しいパラダイムであるtype-to-trackを提案する。
我々は,GroOTと呼ばれる,さまざまな種類のオブジェクトと,その外観と動作を詳細に記述したテキストキャプションを収録した,新しいグラウンドド・マルチオブジェクト追跡タスクのデータセットを提案する。
さらに,本課題に特化して2つの評価プロトコルと評価基準を導入する。
本研究では,3次テンソル分解を用いたトランスフォーマーベースのeMbed-ENcoDE-extRactフレームワーク(MENDER)をモデル化する。
5つのシナリオでの実験では、MENDERのアプローチは、精度と効率の点で別の2段階の設計よりも14.7%の精度と4$\times$スピードで優れていることが示された。 One of the recent trends in vision problems is to use natural language captions to describe the objects of interest. This approach can overcome some limitations of traditional methods that rely on bounding boxes or category annotations. This paper introduces a novel paradigm for Multiple Object Tracking called Type-to-Track, which allows users to track objects in videos by typing natural language descriptions. We present a new dataset for that Grounded Multiple Object Tracking task, called GroOT, that contains videos with various types of objects and their corresponding textual captions describing their appearance and action in detail. Additionally, we introduce two new evaluation protocols and formulate evaluation metrics specifically for this task. We develop a new efficient method that models a transformer-based eMbed-ENcoDE-extRact framework (MENDER) using the third-order tensor decomposition. The experiments in five scenarios show that our MENDER approach outperforms another two-stage design in terms of accuracy and efficiency, up to 14.7% accuracy and 4$\times$ speed faster. | 翻訳日:2023-08-23 20:47:51 公開日:2023-08-22 |
# pre-train, adapt and detection: camouflaged object detectionのためのマルチタスクアダプタチューニング Pre-train, Adapt and Detect: Multi-Task Adapter Tuning for Camouflaged Object Detection ( http://arxiv.org/abs/2307.10685v2 ) ライセンス: Link先を確認 | Yinghui Xing, Dexuan Kong, Shizhou Zhang, Geng Chen, Lingyan Ran, Peng Wang, Yanning Zhang | (参考訳) camouflaged object detection (cod)は、背景に類似したパターンを示すcamouflaged objectをセグメント化することを目的としている。
既存のほとんどの研究は、完全な細部と細部でカモフラージュされたオブジェクトを特定するための特別なモジュールの確立に特化しているが、境界は、オブジェクト関連のセマンティクスの欠如のためにうまく配置できない。
本稿では,新しい‘pre-train, adapt and detection’パラダイムを提案する。
大規模事前学習モデルを導入することで、大量のマルチモーダルデータから学んだ豊富な知識をcodに直接転送することができる。
下流CODタスクに適した機能を調整するために、軽量並列アダプタを挿入する。
4つの挑戦的なベンチマークデータセットに対する大規模な実験により、我々の手法は既存の最先端のCODモデルよりも大きなマージンで優れていることが示された。
さらに,異なるセマンティッククラス間で共有可能な知識を活用するために,アダプタをチューニングするためのマルチタスク学習方式を設計する。
総合的な実験結果から,本モデルの一般化能力は,ソースタスクのマルチタスクアダプタ初期化とターゲットタスクのマルチタスク適応により大幅に向上できることがわかった。 Camouflaged object detection (COD), aiming to segment camouflaged objects which exhibit similar patterns with the background, is a challenging task. Most existing works are dedicated to establishing specialized modules to identify camouflaged objects with complete and fine details, while the boundary can not be well located for the lack of object-related semantics. In this paper, we propose a novel ``pre-train, adapt and detect" paradigm to detect camouflaged objects. By introducing a large pre-trained model, abundant knowledge learned from massive multi-modal data can be directly transferred to COD. A lightweight parallel adapter is inserted to adjust the features suitable for the downstream COD task. Extensive experiments on four challenging benchmark datasets demonstrate that our method outperforms existing state-of-the-art COD models by large margins. Moreover, we design a multi-task learning scheme for tuning the adapter to exploit the shareable knowledge across different semantic classes. Comprehensive experimental results showed that the generalization ability of our model can be substantially improved with multi-task adapter initialization on source tasks and multi-task adaptation on target tasks. | 翻訳日:2023-08-23 20:39:16 公開日:2023-08-22 |
# 画像分割の2つのアプローチ Two Approaches to Supervised Image Segmentation ( http://arxiv.org/abs/2307.10123v3 ) ライセンス: Link先を確認 | Alexandre Benatti, Luciano da F. Costa | (参考訳) 人間によってほとんど努力がかからないが、2Dグレースケールまたはカラーイメージをそれぞれの関心領域(例えば、背景、物体、または物体の一部)に分割することは、次元減少(3Dから2D)、ノイズ、反射、陰影、オクルージョンなど、科学と技術における最大の課題の1つである。
過去数十年間、多くの興味深い関連したアプローチが提案されてきたが、主に近年のディープラーニングの発展により、より効果的で一般的なソリューションが得られ、現在ではこの種の操作の基本的な比較基準を構成している。
また,近年,空間的精度,安定性,ロバスト性を組み合わせた画像セグメンテーション性能を向上し,計算資源(ハードウェアおよび/またはトレーニングおよび認識時間)をほとんど必要としないマルチセット方式が提案されている。
マルチセットニューロン方法論の興味深い特徴は、選択性と感度の強化と、教師付き画像分割へのマルチセットアプローチが確立された偶然類似性指数によって許容されるデータの摂動や異常値に対するロバスト性の向上である。
深層学習とマルチセットニューロンのアプローチについて記述した後,本研究は,それぞれの特徴を,その特徴量やパラメータ構成に適用することを目的とした比較実験を展開する。
ディープラーニングアプローチは、画像のセグメンテーションを実行する可能性を確認したが、代替のマルチセット手法は、計算リソースをほとんど必要とせず、精度を高めた。 Though performed almost effortlessly by humans, segmenting 2D gray-scale or color images into respective regions of interest (e.g.~background, objects, or portions of objects) constitutes one of the greatest challenges in science and technology as a consequence of several effects including dimensionality reduction(3D to 2D), noise, reflections, shades, and occlusions, among many other possibilities. While a large number of interesting related approaches have been suggested along the last decades, it was mainly thanks to the recent development of deep learning that more effective and general solutions have been obtained, currently constituting the basic comparison reference for this type of operation. Also developed recently, a multiset-based methodology has been described that is capable of encouraging image segmentation performance combining spatial accuracy, stability, and robustness while requiring little computational resources (hardware and/or training and recognition time). The interesting features of the multiset neurons methodology mostly follow from the enhanced selectivity and sensitivity, as well as good robustness to data perturbations and outliers, allowed by the coincidence similarity index on which the multiset approach to supervised image segmentation is founded. After describing the deep learning and multiset neurons approaches, the present work develops comparison experiments between them which are primarily aimed at illustrating their respective main interesting features when applied to the adopted specific type of data and parameter configurations. While the deep learning approach confirmed its potential for performing image segmentation, the alternative multiset methodology allowed for enhanced accuracy while requiring little computational resources. | 翻訳日:2023-08-23 20:38:51 公開日:2023-08-22 |
# 全身写真における皮膚病変の対応 Skin Lesion Correspondence Localization in Total Body Photography ( http://arxiv.org/abs/2307.09642v2 ) ライセンス: Link先を確認 | Wei-Lun Huang, Davood Tashayyod, Jun Kang, Amir Gandjbakhche, Michael Kazhdan, Mehran Armand | (参考訳) 皮膚病変の経時的追跡(対応の発見,形態変化,食感の変化)はメラノーマの早期発見に有用である。
しかし、フルボディイメージングの文脈では十分に研究されていない。
そこで本研究では,形状情報とテクスチャ情報を組み合わせて,皮膚病変の対応関係をソーススキャンからターゲットスキャンにローカライズする枠組みを提案する。
ボディランドマークまたはスパース対応は、まずソースとターゲットの3Dテクスチャメッシュ上に作成される。
各メッシュ上のすべての頂点は、そのメッシュ上のランドマークへの測地距離を特徴付ける特徴ベクトルにマッピングされる。
次に、ソース上の各興味病変(LOI)について、特徴ベクトルに符号化された幾何情報を用いてターゲット上の対応する位置をまず粗く推定し、そのテクスチャ情報を用いて精査する。
提案手法は公開データセットとプライベートデータセットの両方で定量的に評価し,成功率(10mm基準)が報告された唯一の縦断調査と同等であることを確認した。
全身3dキャプチャが普及し品質が向上するにつれて,提案手法が皮膚病変の縦断追跡において有用なステップとなることを期待する。 Longitudinal tracking of skin lesions - finding correspondence, changes in morphology, and texture - is beneficial to the early detection of melanoma. However, it has not been well investigated in the context of full-body imaging. We propose a novel framework combining geometric and texture information to localize skin lesion correspondence from a source scan to a target scan in total body photography (TBP). Body landmarks or sparse correspondence are first created on the source and target 3D textured meshes. Every vertex on each of the meshes is then mapped to a feature vector characterizing the geodesic distances to the landmarks on that mesh. Then, for each lesion of interest (LOI) on the source, its corresponding location on the target is first coarsely estimated using the geometric information encoded in the feature vectors and then refined using the texture information. We evaluated the framework quantitatively on both a public and a private dataset, for which our success rates (at 10 mm criterion) are comparable to the only reported longitudinal study. As full-body 3D capture becomes more prevalent and has higher quality, we expect the proposed method to constitute a valuable step in the longitudinal tracking of skin lesions. | 翻訳日:2023-08-23 20:38:21 公開日:2023-08-22 |
# 簡単な算術的操作は時間モデリングに何ができるか? What Can Simple Arithmetic Operations Do for Temporal Modeling? ( http://arxiv.org/abs/2307.08908v2 ) ライセンス: Link先を確認 | Wenhao Wu, Yuxin Song, Zhun Sun, Jingdong Wang, Chang Xu, Wanli Ouyang | (参考訳) 時間モデリングはビデオコンテンツを理解する上で重要な役割を果たす。
この問題に取り組むために、従来の研究では、計算能力の高いデバイスの開発により、時系列を通じて複雑な時間関係を構築した。
本研究では,時間モデリングのための4つの単純な算術演算の可能性について検討する。
具体的には, 抽出されたフレーム特徴のペア間の加算, 減算, 乗算, 分割を計算し, 補助的な時間的手がかりを捉えた。
次に、これらの手がかりから対応する特徴を抽出し、元の時間非依存領域に便益を与える。
このような単純なパイプラインを算術的テンポラリモジュール(atm)と呼び、プラグアンドプレイスタイルで視覚的バックボーンの茎を操作する。
我々はATMのインスタンス化に関する包括的なアブレーション研究を行い、このモジュールが低計算コストで強力な時間モデリング機能を提供することを示した。
さらにATMはCNNとViTsベースのアーキテクチャの両方に対応している。
以上の結果から,ATMは人気ビデオベンチマークよりも優れた性能を示した。
具体的には、Something V1、V2、Kinetics-400では、それぞれ65.6%、74.6%、89.4%というトップ1の精度に達した。
コードは https://github.com/whwu95/ATM で入手できる。 Temporal modeling plays a crucial role in understanding video content. To tackle this problem, previous studies built complicated temporal relations through time sequence thanks to the development of computationally powerful devices. In this work, we explore the potential of four simple arithmetic operations for temporal modeling. Specifically, we first capture auxiliary temporal cues by computing addition, subtraction, multiplication, and division between pairs of extracted frame features. Then, we extract corresponding features from these cues to benefit the original temporal-irrespective domain. We term such a simple pipeline as an Arithmetic Temporal Module (ATM), which operates on the stem of a visual backbone with a plug-and-play style. We conduct comprehensive ablation studies on the instantiation of ATMs and demonstrate that this module provides powerful temporal modeling capability at a low computational cost. Moreover, the ATM is compatible with both CNNs- and ViTs-based architectures. Our results show that ATM achieves superior performance over several popular video benchmarks. Specifically, on Something-Something V1, V2 and Kinetics-400, we reach top-1 accuracy of 65.6%, 74.6%, and 89.4% respectively. The code is available at https://github.com/whwu95/ATM. | 翻訳日:2023-08-23 20:38:01 公開日:2023-08-22 |
# 量子回路のロバスト性に及ぼすハミルトニアンの整流子特性の影響 Influence of the Commutator Properties of Hamiltonians on the Robustness of Quantum Circuits ( http://arxiv.org/abs/2307.08404v2 ) ライセンス: Link先を確認 | Vladyslav Bivziuk, Vitalii Slynko | (参考訳) 我々は、量子コンピューティングで使用される量子回路のコヒーレント制御誤差の新しい推定を証明した。
これらの推定は基本的にハミルトニアンの可換特性を考慮し、可換計算の式に基づいている。 We have proved new estimates for the coherent control errors of quantum circuits used in quantum computing. These estimates essentially take into account the commutator properties of the Hamiltonians and are based on the formulas of the commutator calculus. | 翻訳日:2023-08-23 20:37:43 公開日:2023-08-22 |
# 知識グラフからのゼロショット自然言語生成のための大規模言語モデルの利用 Using Large Language Models for Zero-Shot Natural Language Generation from Knowledge Graphs ( http://arxiv.org/abs/2307.07312v2 ) ライセンス: Link先を確認 | Agnes Axelsson and Gabriel Skantze | (参考訳) 構造化知識グラフ(kg)データを基礎知識表現として使用するシステムでは、kg-to-text生成は、グラフデータの一部を人間が理解できるテキストに変換するのに有用なツールである。
近年の研究では,KG-to-textタスクにおいて,特定のグラフ-to-textタスクのトレーニングデータセットが比較的小さい場合でも,大量のテキストデータに対する事前学習を利用するモデルが良好に動作できることが示されている。
本稿では,この概念を大規模言語モデルを用いて構築し,モデルが読み取ることのできる3重構造に対する理解のみに基づいてゼロショット生成を行う。
私たちは、chatgptがwebnlg 2020チャレンジのいくつかの尺度で最先端のパフォーマンスを達成していることを示しています。
さらに、事実、反事実、虚偽の文を比較し、LLMが解析しているデータと出力テキストの品質について既に知っているものの間に有意な関連性があることを示します。 In any system that uses structured knowledge graph (KG) data as its underlying knowledge representation, KG-to-text generation is a useful tool for turning parts of the graph data into text that can be understood by humans. Recent work has shown that models that make use of pretraining on large amounts of text data can perform well on the KG-to-text task even with relatively small sets of training data on the specific graph-to-text task. In this paper, we build on this concept by using large language models to perform zero-shot generation based on nothing but the model's understanding of the triple structure from what it can read. We show that ChatGPT achieves near state-of-the-art performance on some measures of the WebNLG 2020 challenge, but falls behind on others. Additionally, we compare factual, counter-factual and fictional statements, and show that there is a significant connection between what the LLM already knows about the data it is parsing and the quality of the output text. | 翻訳日:2023-08-23 20:37:38 公開日:2023-08-22 |
# denoising diffusion probabilistic modelを用いた変分自己符号化分子グラフ Variational Autoencoding Molecular Graphs with Denoising Diffusion Probabilistic Model ( http://arxiv.org/abs/2307.00623v2 ) ライセンス: Link先を確認 | Daiki Koge, Naoaki Ono and Shigehiko Kanaya | (参考訳) データ駆動の薬物発見では、分子ディスクリプタの設計は非常に重要な課題である。
変分オートエンコーダ(VAE)のような深い生成モデルは、分子構造から派生した確率潜在ベクトルとして記述子を設計することで潜在的な解を提供する。
これらのモデルは、分子構造しか持たない大規模なデータセットで訓練でき、伝達学習に適用できる。
それにもかかわらず、通常のvaeの潜在ベクトルの近似的な後方分布は、ゼロ共分散を持つ単純多変量ガウス分布を仮定し、潜在特徴を表す性能を制限できる。
この制限を克服するために,階層構造を確率的潜在ベクトルに組み込んだ新しい分子深部生成モデルを提案する。
拡散確率モデル(DDPM)によりこれを達成した。
本モデルは,物理特性と活性に関する小さなデータセットを用いて,分子特性予測のための有効な分子潜在ベクトルを設計できることを実証する。
その結果,既存の手法と比較して予測性能と頑健性が向上した。 In data-driven drug discovery, designing molecular descriptors is a very important task. Deep generative models such as variational autoencoders (VAEs) offer a potential solution by designing descriptors as probabilistic latent vectors derived from molecular structures. These models can be trained on large datasets, which have only molecular structures, and applied to transfer learning. Nevertheless, the approximate posterior distribution of the latent vectors of the usual VAE assumes a simple multivariate Gaussian distribution with zero covariance, which may limit the performance of representing the latent features. To overcome this limitation, we propose a novel molecular deep generative model that incorporates a hierarchical structure into the probabilistic latent vectors. We achieve this by a denoising diffusion probabilistic model (DDPM). We demonstrate that our model can design effective molecular latent vectors for molecular property prediction from some experiments by small datasets on physical properties and activity. The results highlight the superior prediction performance and robustness of our model compared to existing approaches. | 翻訳日:2023-08-23 20:36:34 公開日:2023-08-22 |
# フォールトトレランス前の量子コンピューティングの有用性に関するエビデンスの高速・収束的古典シミュレーション Fast and converged classical simulations of evidence for the utility of quantum computing before fault tolerance ( http://arxiv.org/abs/2308.05077v2 ) ライセンス: Link先を確認 | Tomislav Begu\v{s}i\'c, Johnnie Gray, Garnet Kin-Lic Chan | (参考訳) 最近の量子シミュレーションでは、127キュービット[nature 618, 500 (2023)]のブロックイジングモデルの可観測性が、厳密な古典的シミュレーションの能力を超えている。
スパースパウリ力学とテンソルネットワークアルゴリズムに基づくいくつかの近似古典的手法は、これらの観測可能な順序を量子実験より桁違いに高速にシミュレートでき、また実験精度を超えて体系的に収束できることを示す。
我々の最も正確な手法は、Schr\\odingerとHeisenbergテンソルネットワークの混合表現とBethe自由エントロピー関係を組み合わせたもので、多くの実用目的のために収束した${<}0.01$の観測可能量において、効果的な波動関数-演算サンドイッチ結合次元${>}16,000,000$で期待値を計算する。
これにより,実験外挿における不正確さを同定し,古典的硬さを高めるために今後の実験方法を提案する。 A recent quantum simulation of observables of the kicked Ising model on 127 qubits [Nature 618, 500 (2023)] implemented circuits that exceed the capabilities of exact classical simulation. We show that several approximate classical methods, based on sparse Pauli dynamics and tensor network algorithms, can simulate these observables orders of magnitude faster than the quantum experiment, and can also be systematically converged beyond the experimental accuracy. Our most accurate technique combines a mixed Schr\"odinger and Heisenberg tensor network representation with the Bethe free entropy relation of belief propagation to compute expectation values with an effective wavefunction-operator sandwich bond dimension ${>}16,000,000$, achieving an absolute accuracy, without extrapolation, in the observables of ${<}0.01$, which is converged for many practical purposes. We thereby identify inaccuracies in the experimental extrapolations and suggest how future experiments can be implemented to increase the classical hardness. | 翻訳日:2023-08-23 20:30:39 公開日:2023-08-22 |
# LARCH: ヒューリスティックスによる大規模言語モデルに基づく自動読解作成 LARCH: Large Language Model-based Automatic Readme Creation with Heuristics ( http://arxiv.org/abs/2308.03099v2 ) ライセンス: Link先を確認 | Yuta Koreeda, Terufumi Morishita, Osamu Imaichi, Yasuhiro Sogawa | (参考訳) プログラムコードの管理と再利用において重要な役割を果たすので、読み書きはソフトウェア開発の重要な側面である。
多くの開発者にとっては痛点だが、数千行のコードから抽象的な記述を生成する必要があるため、最近の大規模言語モデル(llm)の進歩にもかかわらず、自動生成は依然として課題である。
本稿では,レポジトリを代表するコードフラグメントを識別できれば,LCMが一貫性があり,実際に正しい読み出しを生成することができることを示す。
そこで我々は,larch (llm-based automatic readme creation with heuristics) を開発した。
人的および自動的な評価を通じて、LARCHは、ほとんどのケースにおいて一貫性のある、事実上正しい読み出しを生成でき、代表的なコード識別に依存しないベースラインよりも優れていることを示す。
LARCHをオープンソースにし、クロスプラットフォームのVisual Studio Codeインターフェースとコマンドラインインターフェースを提供しました。
LARCHの機能を示すデモビデオはhttps://youtu.be/ZUKkh5ED-O4.comで公開されている。 Writing a readme is a crucial aspect of software development as it plays a vital role in managing and reusing program code. Though it is a pain point for many developers, automatically creating one remains a challenge even with the recent advancements in large language models (LLMs), because it requires generating an abstract description from thousands of lines of code. In this demo paper, we show that LLMs are capable of generating a coherent and factually correct readmes if we can identify a code fragment that is representative of the repository. Building upon this finding, we developed LARCH (LLM-based Automatic Readme Creation with Heuristics) which leverages representative code identification with heuristics and weak supervision. Through human and automated evaluations, we illustrate that LARCH can generate coherent and factually correct readmes in the majority of cases, outperforming a baseline that does not rely on representative code identification. We have made LARCH open-source and provided a cross-platform Visual Studio Code interface and command-line interface, accessible at https://github.com/hitachi-nlp/larch. A demo video showcasing LARCH's capabilities is available at https://youtu.be/ZUKkh5ED-O4. | 翻訳日:2023-08-23 20:30:01 公開日:2023-08-22 |
# モンテカルロ法によるデバイス非依存量子鍵分布のセキュリティ評価 Monte Carlo approach to the evaluation of the security of device-independent quantum key distribution ( http://arxiv.org/abs/2308.03030v2 ) ライセンス: Link先を確認 | Hong-Yi Su | (参考訳) 本稿では,多セットデバイス非依存の量子鍵分布プロトコル,すなわち,各パーティが実行すべき2つ以上の測定(あるいは入力)と2コトミックな結果(あるいは出力)に関する情報理論のセキュリティに関する総合的研究を行う。
開発したアプローチは、対称または非対称ベル実験のいずれかのプロトコルに適用すると、測定装置の最小検出効率とともに、セキュアな鍵レートの非自明な推定値が得られる。
その結果,測定回数の増加は,セキュリティ基準で要求される最小限の効率を低下させる可能性が示唆された。
しかし、改善は、しかしながら、
(i)プロトコルでテスト対象に選ばれた複数セットベル不等式の選択、
(ii)対称または非対称ベル実験を考慮。
本研究は,デバイス非依存の量子鍵分布をヘラルドを使わずに適用するためのセキュリティ評価と効率要件の低減に向けた取り組みである。 We present a generic study on the information-theoretic security of multi-setting device-independent quantum key distribution protocols, i.e., ones that involve more than two measurements (or inputs) for each party to perform, and yield dichotomic results (or outputs). The approach we develop, when applied in protocols with either symmetric or asymmetric Bell experiments, yields nontrivial estimates of the secure key rates, along with those of the minimum detection efficiencies of the measuring devices. The results imply that increasing the number of measurements may lower the minimum efficiency required by the security criterion. The improvement, however, depends on (i) the choice of multi-setting Bell inequalities chosen to be tested in a protocol, and (ii) either a symmetric or asymmetric Bell experiment is considered. Our results serve as an advance toward the quest for evaluating security and reducing efficiency requirement of applying device-independent quantum key distribution in scenarios without heralding. | 翻訳日:2023-08-23 20:29:38 公開日:2023-08-22 |
# 人間の顔に対する高忠実眼アニマタブル神経放射場 High-Fidelity Eye Animatable Neural Radiance Fields for Human Face ( http://arxiv.org/abs/2308.00773v2 ) ライセンス: Link先を確認 | Hengfei Wang, Zhongqun Zhang, Yihua Cheng, Hyung Jin Chang | (参考訳) neural radiance fields (nerf) はコンピュータビジョンの分野で急速に発展している研究分野である。
近年の手法は主にアイデンティティや表現などの顔属性の制御に重点を置いているが、様々な下流タスクにおいて重要である眼球回転をモデル化する重要な側面を見落としていることが多い。
本稿では,多視点画像から眼球運動に敏感な顔NeRFモデルを学習することを目的とする。
我々は、眼球回転を効果的に捉える方法と、眼球回転を表す多様体を構築する方法の2つの課題に対処する。
そこで我々はまず,マルチビューの整合性を考慮した多視点画像に,よく確立されたパラメトリック顔モデルFLAMEを適合させる。
その後、新しいダイナミックアイ対応NeRF(DeNeRF)を導入する。
DeNeRFは3Dポイントを異なる視点から標準空間に変換し、統一された顔NeRFモデルを学ぶ。
我々は、剛性変換、例えば、眼球回転、非剛性変換を含む変形のための眼変形場を設計する。
eth-xgazeデータセットを用いた実験により,新しい視野角でも正確な眼球回転と非剛性眼球変形を伴う高忠実度画像を生成することができることを実証した。
さらに、レンダリング画像を利用することで、視線推定性能を効果的に向上できることを示す。 Face rendering using neural radiance fields (NeRF) is a rapidly developing research area in computer vision. While recent methods primarily focus on controlling facial attributes such as identity and expression, they often overlook the crucial aspect of modeling eyeball rotation, which holds importance for various downstream tasks. In this paper, we aim to learn a face NeRF model that is sensitive to eye movements from multi-view images. We address two key challenges in eye-aware face NeRF learning: how to effectively capture eyeball rotation for training and how to construct a manifold for representing eyeball rotation. To accomplish this, we first fit FLAME, a well-established parametric face model, to the multi-view images considering multi-view consistency. Subsequently, we introduce a new Dynamic Eye-aware NeRF (DeNeRF). DeNeRF transforms 3D points from different views into a canonical space to learn a unified face NeRF model. We design an eye deformation field for the transformation, including rigid transformation, e.g., eyeball rotation, and non-rigid transformation. Through experiments conducted on the ETH-XGaze dataset, we demonstrate that our model is capable of generating high-fidelity images with accurate eyeball rotation and non-rigid periocular deformation, even under novel viewing angles. Furthermore, we show that utilizing the rendered images can effectively enhance gaze estimation performance. | 翻訳日:2023-08-23 20:29:21 公開日:2023-08-22 |
# 実世界のアノテーションシナリオにおける雑音型ラベル学習の再考 Rethinking Noisy Label Learning in Real-world Annotation Scenarios from the Noise-type Perspective ( http://arxiv.org/abs/2307.16889v2 ) ライセンス: Link先を確認 | Renyu Zhu, Haoyu Liu, Runze Wu, Minmin Lin, Tangjie Lv, Changjie Fan, Haobo Wang | (参考訳) 本稿では,実世界のアノテーションシナリオにおいて,ノイズを実感ノイズとあいまいさノイズの2種類に分類できるノイズラベルを用いた学習の問題について検討する。
そこで,これらのノイズタイプを識別し,その意味を活用すべく,雑音ラベル学習のための新しいサンプル選択に基づく手法proto-semiを提案する。
proto-semiは当初、すべてのサンプルをウォームアップを通じて、信頼できないデータセットに分割する。
自信のあるデータセットを活用することで、プロトタイプベクトルはクラス特性をキャプチャするために構築される。
その後、未確認サンプルとプロトタイプベクトルとの距離を算出し、ノイズ分類を容易にする。
これらの距離に基づいて、ラベルは修正または保持され、信頼性と信頼性の低いデータセットが洗練される。
最後に,訓練を強化するための半教師付き学習手法を提案する。
実世界の注釈付きデータセットの実証評価は、ノイズラベルから学習する問題の処理において、プロトセミの堅牢性を裏付ける。
一方,試作機によるリパーティショニング戦略はラベルノイズの悪影響を軽減するのに有効であることが示された。
私たちのコードとデータはhttps://github.com/fuxiailab/protosemiで入手できます。 In this paper, we investigate the problem of learning with noisy labels in real-world annotation scenarios, where noise can be categorized into two types: factual noise and ambiguity noise. To better distinguish these noise types and utilize their semantics, we propose a novel sample selection-based approach for noisy label learning, called Proto-semi. Proto-semi initially divides all samples into the confident and unconfident datasets via warm-up. By leveraging the confident dataset, prototype vectors are constructed to capture class characteristics. Subsequently, the distances between the unconfident samples and the prototype vectors are calculated to facilitate noise classification. Based on these distances, the labels are either corrected or retained, resulting in the refinement of the confident and unconfident datasets. Finally, we introduce a semi-supervised learning method to enhance training. Empirical evaluations on a real-world annotated dataset substantiate the robustness of Proto-semi in handling the problem of learning from noisy labels. Meanwhile, the prototype-based repartitioning strategy is shown to be effective in mitigating the adverse impact of label noise. Our code and data are available at https://github.com/fuxiAIlab/ProtoSemi. | 翻訳日:2023-08-23 20:28:58 公開日:2023-08-22 |
# データセット辞書学習によるwasserstein空間におけるマルチソースドメイン適応 Multi-Source Domain Adaptation through Dataset Dictionary Learning in Wasserstein Space ( http://arxiv.org/abs/2307.14953v2 ) ライセンス: Link先を確認 | Eduardo Fernandes Montesuma, Fred Ngol\`e Mboula, Antoine Souloumiac | (参考訳) 本稿では、複数のラベル付きソースドメインからラベルなしターゲットドメインへの知識転送時のデータ分散シフトを軽減することを目的としたマルチソースドメイン適応(MSDA)の解決を目指す。
本稿では,辞書学習と最適トランスポートに基づく新しいmsdaフレームワークを提案する。
我々はMSDAの各ドメインを経験的分布と解釈する。
したがって、各領域を経験的分布である辞書原子のwasserstein barycenterとして表現する。
ミニバッチによる学習のための新しいアルゴリズムDaDiLを提案する。
(i)原子分布
(ii) 偏心座標の行列。
対象ドメインのラベル付きサンプルを再構成したDaDil-Rと,原子分布から学習した分類器のアンサンブルに基づくDaDiL-Eの2つの新しい手法を提案する。
この手法をcaltech-office,office 31,crwuの3つのベンチマークで評価し,従来の最先端技術を3.15%,2.29%,7.71%の分類性能で改善した。
最後に、学習した原子のワッサーシュタイン殻の補間によって、ターゲット領域に一般化可能なデータが得られることを示す。 This paper seeks to solve Multi-Source Domain Adaptation (MSDA), which aims to mitigate data distribution shifts when transferring knowledge from multiple labeled source domains to an unlabeled target domain. We propose a novel MSDA framework based on dictionary learning and optimal transport. We interpret each domain in MSDA as an empirical distribution. As such, we express each domain as a Wasserstein barycenter of dictionary atoms, which are empirical distributions. We propose a novel algorithm, DaDiL, for learning via mini-batches: (i) atom distributions; (ii) a matrix of barycentric coordinates. Based on our dictionary, we propose two novel methods for MSDA: DaDil-R, based on the reconstruction of labeled samples in the target domain, and DaDiL-E, based on the ensembling of classifiers learned on atom distributions. We evaluate our methods in 3 benchmarks: Caltech-Office, Office 31, and CRWU, where we improved previous state-of-the-art by 3.15%, 2.29%, and 7.71% in classification performance. Finally, we show that interpolations in the Wasserstein hull of learned atoms provide data that can generalize to the target domain. | 翻訳日:2023-08-23 20:28:42 公開日:2023-08-22 |
# 医用画像分類における無声障害の理解 Understanding Silent Failures in Medical Image Classification ( http://arxiv.org/abs/2307.14729v2 ) ライセンス: Link先を確認 | Till J. Bungert, Levin Kobelke and Paul F. Jaeger | (参考訳) 医療応用における分類システムの信頼性確保のためには, サイレント障害の防止が重要である。
これは、そもそも失敗を避けるのに十分な堅牢な分類器を設計するか、あるいは信頼性スコアリング関数(CSF)を使用して残りの障害を検出することで達成できる。
画像分類における障害の主な原因は、トレーニングデータとデプロイメントデータ間の分散シフトである。
医用画像におけるサイレント障害予防の現状を理解するため,4つのバイオメディカルタスクにおける各種CSFと多種多様な分布シフトを比較した総合的な分析を行った。
ベンチマークしたcsfはいずれもサイレント障害を確実に防止できないため,データ障害の根本原因を深く理解する必要があると結論づけた。
そこで本稿では,遅延空間クラスタリングを用いてシフトや障害を可視化するインタラクティブな解析ツールであるsf-visualsを紹介する。
様々な例に基づき、このツールは医学領域における分類システムの安全な適用の要件に対する研究者の洞察を得るのにどのように役立つのかを実証する。
オープンソースのベンチマークとツールは以下のとおりである。 To ensure the reliable use of classification systems in medical applications, it is crucial to prevent silent failures. This can be achieved by either designing classifiers that are robust enough to avoid failures in the first place, or by detecting remaining failures using confidence scoring functions (CSFs). A predominant source of failures in image classification is distribution shifts between training data and deployment data. To understand the current state of silent failure prevention in medical imaging, we conduct the first comprehensive analysis comparing various CSFs in four biomedical tasks and a diverse range of distribution shifts. Based on the result that none of the benchmarked CSFs can reliably prevent silent failures, we conclude that a deeper understanding of the root causes of failures in the data is required. To facilitate this, we introduce SF-Visuals, an interactive analysis tool that uses latent space clustering to visualize shifts and failures. On the basis of various examples, we demonstrate how this tool can help researchers gain insight into the requirements for safe application of classification systems in the medical domain. The open-source benchmark and tool are at: https://github.com/IML-DKFZ/sf-visuals. | 翻訳日:2023-08-23 20:28:22 公開日:2023-08-22 |
# コンテキストベースカスケードcnnによる車両照明のロバスト検出・関連付け・局在化とその評価 Robust Detection, Association, and Localization of Vehicle Lights: A Context-Based Cascaded CNN Approach and Evaluations ( http://arxiv.org/abs/2307.14571v2 ) ライセンス: Link先を確認 | Akshay Gopalkrishnan, Ross Greer, Maitrayee Keskar, Mohan Trivedi | (参考訳) 車両が車線変更や旋回を行っているかどうかを判断するために、車両の軽量状態を予測するなど、下流の安全な自動運転タスクには、車両の光検出、関連付け、ローカライズが必要となる。
現在、多くの車両光検出器は単段検出器を使用して車両光を識別するために境界ボックスを予測している。
本稿では,上流の車両を検知し,可視光の中心を近似した車両光を検出する方法を提案する。
本手法は,各車両の光に付随する四角角を推定する。
我々は周辺車両の混乱を軽減するために設計されたcnnアーキテクチャ、データ拡張およびコンテキスト前処理手法を実験する。
地上の真理角からの平均距離誤差は4.77ピクセルであり、平均で車両の光量の16.33%程度である。
我々は、LISA Lights Datasetでモデルをトレーニングし、評価し、様々な車両の照明形状と照明条件に基づいて車両の光角検出モデルを徹底的に評価する。
本手法は,車体検出と車体光センタ検出を併用したパイプラインに統合し,車体光検出ネットワークを構築することで,運転シーンにおける軌道変化信号の同定に有用である。 Vehicle light detection, association, and localization are required for important downstream safe autonomous driving tasks, such as predicting a vehicle's light state to determine if the vehicle is making a lane change or turning. Currently, many vehicle light detectors use single-stage detectors which predict bounding boxes to identify a vehicle light, in a manner decoupled from vehicle instances. In this paper, we present a method for detecting a vehicle light given an upstream vehicle detection and approximation of a visible light's center. Our method predicts four approximate corners associated with each vehicle light. We experiment with CNN architectures, data augmentation, and contextual preprocessing methods designed to reduce surrounding-vehicle confusion. We achieve an average distance error from the ground truth corner of 4.77 pixels, about 16.33% of the size of the vehicle light on average. We train and evaluate our model on the LISA Lights Dataset, allowing us to thoroughly evaluate our vehicle light corner detection model on a large variety of vehicle light shapes and lighting conditions. We propose that this model can be integrated into a pipeline with vehicle detection and vehicle light center detection to make a fully-formed vehicle light detection network, valuable to identifying trajectory-informative signals in driving scenes. | 翻訳日:2023-08-23 20:28:03 公開日:2023-08-22 |
# 多項式関数の効率的な量子振幅符号化 Efficient quantum amplitude encoding of polynomial functions ( http://arxiv.org/abs/2307.10917v2 ) ライセンス: Link先を確認 | Javier Gonzalez-Conde, Thomas W. Watts, Pablo Rodriguez-Grasa and Mikel Sanz | (参考訳) 量子コンピュータへの関数のロードは、量子偏微分方程式解法のようないくつかの量子アルゴリズムにおいて重要なステップである。
したがって、このプロセスの非効率性は、これらのアルゴリズムの適用に大きなボトルネックをもたらす。
本稿では,実多項式関数の振幅符号化のための2つの効率的な手法を提示・比較する。
この場合、閉区間上の任意の連続函数は多項式関数によって任意の精度で一様に近似できるので、特別な関係を持つ。
最初のアプローチは行列積の状態表現に依存する。
結合次元が小さいと仮定された場合の目標状態の近似について検討およびベンチマークを行った。
2つ目のアルゴリズムは2つのサブルーチンを組み合わせる。
まず、線形関数のハダマール・ウォルシュ級数係数をロードするマルチコントロールゲートのスワップシーケンスを持つ量子レジスタに線形関数を符号化する。
逆離散アダマール=ウォルシュ変換を適用すると、級数係数は線形関数の振幅符号化に変換される。
次に、この構成をビルディングブロックとして使用して、線形関数に対応する振幅の$\mathcal{O}(n)$ブロック符号化を実現し、振幅のブロック符号化に多項式変換を実装する量子特異値変換を適用する。
さらに,線形関数のアダマール・ワルシュ級数列が対象状態の最終忠実性にどのように影響するかを考察し,最小の資源で高いフィディティを報告した。 Loading functions into quantum computers represents an essential step in several quantum algorithms, such as quantum partial differential equation solvers. Therefore, the inefficiency of this process leads to a major bottleneck for the application of these algorithms. Here, we present and compare two efficient methods for the amplitude encoding of real polynomial functions. This case holds special relevance, as any continuous function on a closed interval can be uniformly approximated with arbitrary precision by a polynomial function. The first approach relies on the matrix product state representation. We study and benchmark the approximations of the target state when the bond dimension is assumed to be small. The second algorithm combines two subroutines. Initially we encode the linear function into the quantum registers with a swallow sequence of multi-controlled gates that loads the linear function's Hadamard-Walsh series coefficients. Applying the inverse discrete Hadamard-Walsh transform transforms the series coefficients into an amplitude encoding of the linear function. Then, we use this construction as a building block to achieve a $\mathcal{O}(n)$ block encoding of the amplitudes corresponding to the linear function and apply the quantum singular value transformation that implements a polynomial transformation to the block encoding of the amplitudes. Additionally, we explore how truncating the Hadamard-Walsh series of the linear function affects the final fidelity of the target state, reporting high fidelities with minimal resources. | 翻訳日:2023-08-23 20:27:39 公開日:2023-08-22 |
# mindmap: 知識グラフプロンプト - 大規模言語モデルにおける思考グラフの火花 MindMap: Knowledge Graph Prompting Sparks Graph of Thoughts in Large Language Models ( http://arxiv.org/abs/2308.09729v2 ) ライセンス: Link先を確認 | Yilin Wen, Zifeng Wang, Jimeng Sun | (参考訳) LLMは、通常、新しい知識を取り入れる能力、幻覚の生成、意思決定プロセスの透明性の限界を示す。
本稿では,LLMを知識グラフ(KG)で促進する方法について検討し,LLMを最新の知識で活用し,LLMから推論経路を引き出すための対策として機能する。
具体的には、KG入力を解釈し、暗黙の知識と抽出した外部知識を組み合わせて推論する能力を備えたLLMを実現するプロンプトパイプラインを構築する。
さらに,LLMが推論を行うマインドマップを抽出し,回答を生成する。
生成したマインドマップは、知識のオントロジーに基づくLLMの推論経路を示しており、それによって、生産におけるLLM推論の探索と拡大の見通しがもたらされる。
3つの質問と回答データセットに関する実験では、マインドマップのプロンプトが経験的な成果をもたらすことも示されている。
例えば、MindMap で GPT-3.5 をプロンプトすると、GPT-4 よりも圧倒的なパフォーマンスが得られる。
また、KGから抽出した構造化事実により、MindMapは、KGsのより正確で簡潔で包括的な知識の恩恵を受けながら、一連のプロンプト・ウィズ・ドキュメンテーション・検索手法より優れていることを示す。 LLMs usually exhibit limitations in their ability to incorporate new knowledge, the generation of hallucinations, and the transparency of their decision-making process. In this paper, we explore how to prompt LLMs with knowledge graphs (KG), working as a remedy to engage LLMs with up-to-date knowledge and elicit the reasoning pathways from LLMs. Specifically, we build a prompting pipeline that endows LLMs with the capability of comprehending KG inputs and inferring with a combined implicit knowledge and the retrieved external knowledge. In addition, we investigate eliciting the mind map on which LLMs perform the reasoning and generate the answers. It is identified that the produced mind map exhibits the reasoning pathways of LLMs grounded on the ontology of knowledge, hence bringing the prospects of probing and gauging LLM inference in production. The experiments on three question & answering datasets also show that MindMap prompting leads to a striking empirical gain. For instance, prompting a GPT-3.5 with MindMap yields an overwhelming performance over GPT-4 consistently. We also demonstrate that with structured facts retrieved from KG, MindMap can outperform a series of prompting-with-document-retrieval methods, benefiting from more accurate, concise, and comprehensive knowledge from KGs. | 翻訳日:2023-08-23 20:18:46 公開日:2023-08-22 |
# ソースフリービデオ領域適応のための大規模言語ビジョンモデルの不合理性 The Unreasonable Effectiveness of Large Language-Vision Models for Source-free Video Domain Adaptation ( http://arxiv.org/abs/2308.09139v2 ) ライセンス: Link先を確認 | Giacomo Zara, Alessandro Conti, Subhankar Roy, St\'ephane Lathuili\`ere, Paolo Rota, Elisa Ricci | (参考訳) source-free video unsupervised domain adaptation (sfvuda)タスクは、ラベル付きソースデータセットでトレーニングされたアクション認識モデルを、実際のソースデータにアクセスせずに、ラベルなしのターゲットデータセットに適応させる。
以前のアプローチでは、ターゲットデータ自体から派生した自己超越(例えば、時間的一貫性を強制する)を活用してSFVUDAに対処しようとした。
本稿では、llvmがドメインシフトに驚くほど堅牢になる前にリッチな世界を含むという根拠から、大規模な言語ビジョンモデル(llvm)から"web-supervision"を活用して、直交的なアプローチを取ります。
本稿では,SFVUDA に LLVM を組み込むことによる不合理な効果を,大言語ビジョンモデル (DALL-V) を用いたドメイン適応法 (Domain Adaptation with Large Language-Vision Model, DALL-V) と呼ぶ直感的でパラメータ効率のよい手法で示す。
単純さにもかかわらず、DALL-Vは最先端のSFVUDAメソッドよりも大幅に改善されている。 Source-Free Video Unsupervised Domain Adaptation (SFVUDA) task consists in adapting an action recognition model, trained on a labelled source dataset, to an unlabelled target dataset, without accessing the actual source data. The previous approaches have attempted to address SFVUDA by leveraging self-supervision (e.g., enforcing temporal consistency) derived from the target data itself. In this work, we take an orthogonal approach by exploiting "web-supervision" from Large Language-Vision Models (LLVMs), driven by the rationale that LLVMs contain a rich world prior surprisingly robust to domain-shift. We showcase the unreasonable effectiveness of integrating LLVMs for SFVUDA by devising an intuitive and parameter-efficient method, which we name Domain Adaptation with Large Language-Vision models (DALL-V), that distills the world prior and complementary source model information into a student network tailored for the target. Despite the simplicity, DALL-V achieves significant improvement over state-of-the-art SFVUDA methods. | 翻訳日:2023-08-23 20:18:21 公開日:2023-08-22 |
# PMET: トランスによる精密モデル編集 PMET: Precise Model Editing in a Transformer ( http://arxiv.org/abs/2308.08742v2 ) ライセンス: Link先を確認 | Xiaopeng Li, Shasha Li, Shezheng Song, Jing Yang, Jun Ma, and Jie Yu | (参考訳) モデル編集技術は、比較的低コストでLLM(Large Language Models)の知識の少なさを修正し、顕著な成功を収めた。
既存の手法では、トランスフォーマー層(tl)隠れ状態がフィードフォワードネットワーク(ffn)のキー値記憶値であると仮定している。
彼らは通常、目標知識を記憶し、llmにおけるffnの重み付けを更新するためにtl隠れ状態を最適化する。
しかしながら、tl隠れ状態の情報フローは、マルチヘッドセルフアテンション(mhsa)、ffn、残余接続の3つの部分から来ている。
既存の方法は、TL隠蔽状態がFFNに特に必要でない情報を含んでいるという事実を無視している。
これにより、モデル編集の性能が低下する。
より正確なモデル編集を実現するために,MHSAとFFNの隠れ状態を解析し,MHSAが特定の一般的な知識抽出パターンを符号化していることを確認した。
これは、MHSAの重み付けが新しい知識が導入されたときに更新を必要としないことを意味する。
以上の結果から, PMET は Transformer Component (TC, MHSA と FFN) の隠蔽状態を同時に最適化すると同時に, FFN の隠蔽状態を最適化して FFN の重みを正確に更新する。
実験の結果,PMET は COUNTERFACT と zsRE の両方のデータセット上で最先端の性能を示すことがわかった。
我々のアブレーション実験は、MHSAが特定の一般的な知識抽出パターンを符号化し、少量の事実知識の蓄積を示すことの発見をさらに強化し、拡張の有効性を裏付けるものである。
私たちのコードはhttps://github.com/xpq-tech/pmet.gitで入手できる。 Model editing techniques modify a minor proportion of knowledge in Large Language Models (LLMs) at a relatively low cost, which have demonstrated notable success. Existing methods assume Transformer Layer (TL) hidden states are values of key-value memories of the Feed-Forward Network (FFN). They usually optimize the TL hidden states to memorize target knowledge and use it to update the weights of the FFN in LLMs. However, the information flow of TL hidden states comes from three parts: Multi-Head Self-Attention (MHSA), FFN, and residual connections. Existing methods neglect the fact that the TL hidden states contains information not specifically required for FFN. Consequently, the performance of model editing decreases. To achieve more precise model editing, we analyze hidden states of MHSA and FFN, finding that MHSA encodes certain general knowledge extraction patterns. This implies that MHSA weights do not require updating when new knowledge is introduced. Based on above findings, we introduce PMET, which simultaneously optimizes Transformer Component (TC, namely MHSA and FFN) hidden states, while only using the optimized TC hidden states of FFN to precisely update FFN weights. Our experiments demonstrate that PMET exhibits state-of-the-art performance on both the COUNTERFACT and zsRE datasets. Our ablation experiments substantiate the effectiveness of our enhancements, further reinforcing the finding that the MHSA encodes certain general knowledge extraction patterns and indicating its storage of a small amount of factual knowledge. Our code is available at https://github.com/xpq-tech/PMET.git. | 翻訳日:2023-08-23 20:17:57 公開日:2023-08-22 |
# アクティブ深部物体検出のための分類委員会 Classification Committee for Active Deep Object Detection ( http://arxiv.org/abs/2308.08476v2 ) ライセンス: Link先を確認 | Lei Zhao, Bo Li, Xingxing Wei | (参考訳) オブジェクト検出では、画像内の複数のオブジェクトのカテゴリを確認するだけでなく、各オブジェクトの境界ボックスを正確に決定する必要があるため、ラベル付けのコストが非常に高い。
したがって、アクティブラーニングをオブジェクト検出に統合することは、かなりポジティブな意味を持つ。
本稿では,複数の分類器の識別機構を導入して,物体検出の訓練を行うためのアクティブディープオブジェクト検出手法の分類委員会を提案する。
モデルには主検出器と分類委員会が含まれている。
主検出器は、選択された情報画像からなるラベル付きプールから訓練された対象物体検出器を表す。
分類委員会の役割は、事例の相違と代表性に重点を置く分類の観点から、その不確実性値に応じて最も有益な画像を選択することである。
具体的には,MCDGL(Maximum Classifiers Discrepancy Group Loss)によって事前訓練された委員会による,画像内の特定インスタンスの不確実性を測定する。
最も情報性の高い画像は、多くの不確実なインスタンスを持つものを選択することで最終的に決定される。
さらに、干渉インスタンスの影響を軽減するため、私たちは、委員会が代表インスタンスに自動的に焦点を合わせ、同じインスタンスに対するそれらの不一致を正確にエンコードできるように、ポジティブインスタンス損失(fpil)に焦点を当てます。
パスカルVOCとCOCOデータセットで、いくつかの一般的な物体検出器に対して実験が行われた。
また,本手法は,提案手法の有効性を検証した最先端の能動学習法よりも優れていることを示す。 In object detection, the cost of labeling is much high because it needs not only to confirm the categories of multiple objects in an image but also to accurately determine the bounding boxes of each object. Thus, integrating active learning into object detection will raise pretty positive significance. In this paper, we propose a classification committee for active deep object detection method by introducing a discrepancy mechanism of multiple classifiers for samples' selection when training object detectors. The model contains a main detector and a classification committee. The main detector denotes the target object detector trained from a labeled pool composed of the selected informative images. The role of the classification committee is to select the most informative images according to their uncertainty values from the view of classification, which is expected to focus more on the discrepancy and representative of instances. Specifically, they compute the uncertainty for a specified instance within the image by measuring its discrepancy output by the committee pre-trained via the proposed Maximum Classifiers Discrepancy Group Loss (MCDGL). The most informative images are finally determined by selecting the ones with many high-uncertainty instances. Besides, to mitigate the impact of interference instances, we design a Focus on Positive Instances Loss (FPIL) to make the committee the ability to automatically focus on the representative instances as well as precisely encode their discrepancies for the same instance. Experiments are conducted on Pascal VOC and COCO datasets versus some popular object detectors. And results show that our method outperforms the state-of-the-art active learning methods, which verifies the effectiveness of the proposed method. | 翻訳日:2023-08-23 20:17:24 公開日:2023-08-22 |
# セキュリティ検査画像におけるYOLOv8検出アルゴリズムの改良 Improved YOLOv8 Detection Algorithm in Security Inspection Image ( http://arxiv.org/abs/2308.06452v3 ) ライセンス: Link先を確認 | Liyao Lu | (参考訳) セキュリティ検査は、人々の生活と財産の安全を確保するための最初の防衛線であり、インテリジェントセキュリティ検査は、セキュリティ検査産業の将来の発展において避けられないトレンドである。
YOLOv8sに基づくX線コントラバンド検出アルゴリズムであるCSS-YOLOを提案する。 Security inspection is the first line of defense to ensure the safety of people's lives and property, and intelligent security inspection is an inevitable trend in the future development of the security inspection industry. Aiming at the problems of overlapping detection objects, false detection of contraband, and missed detection in the process of X-ray image detection, an improved X-ray contraband detection algorithm CSS-YOLO based on YOLOv8s is proposed. | 翻訳日:2023-08-23 20:16:59 公開日:2023-08-22 |
# 限界によって一意に決定される状態の加法性 The additivity of states uniquely determined by marginals ( http://arxiv.org/abs/2308.11089v1 ) ライセンス: Link先を確認 | Yi Shen and Lin Chen | (参考訳) すべての(uda)状態の限界によって一意に決定できる純粋な状態は、効率的な量子状態トモグラフィーに必須である。
我々は,低位状態の効率的な状態トモグラフィーにより,純状態の文脈から任意の状態(純粋な状態や混合状態とは関係なく)の状態に一般化する。
3つの異なるテンソル積の合成方法に対して、k$-uda 状態の \emph{additivity} と呼ぶが、2つの $k$-uda 状態の合成状態が対応するテンソル積の $k$-partite 辺数によって一意に決定される場合である。
2つの初期状態のうちの1つが純粋であれば、加法的が成り立つことを示し、2つの混合 UDA 状態に対して加法的が成り立つ条件を示す。
テンソル積の3つの合成方法の1つは、真に多成分の絡み合った(gme)状態を構築するためにも用いられる。
したがって、$k$-UDA状態の加算率とGME状態の構成を統一することにより、真の絡み合いを持つマルチパーティの$k$-UDA状態を構築するのが効果的である。 The pure states that can be uniquely determined among all (UDA) states by their marginals are essential to efficient quantum state tomography. We generalize the UDA states from the context of pure states to that of arbitrary (no matter pure or mixed) states, motivated by the efficient state tomography of low-rank states. We call the \emph{additivity} of $k$-UDA states for three different composite ways of tensor product, if the composite state of two $k$-UDA states is still uniquely determined by the $k$-partite marginals for the corresponding type of tensor product. We show that the additivity holds if one of the two initial states is pure, and present the conditions under which the additivity holds for two mixed UDA states. One of the three composite ways of tensor product is also adopted to construct genuinely multipartite entangled (GME) states. Therefore, it is effective to construct multipartite $k$-UDA state with genuine entanglement by uniting the additivity of $k$-UDA states and the construction of GME states. | 翻訳日:2023-08-23 19:52:00 公開日:2023-08-22 |
# LAN-HDR:高ダイナミックレンジ映像再構成のための輝度ベースアライメントネットワーク LAN-HDR: Luminance-based Alignment Network for High Dynamic Range Video Reconstruction ( http://arxiv.org/abs/2308.11116v1 ) ライセンス: Link先を確認 | Haesoo Chung and Nam Ik Cho | (参考訳) 高品質ビデオの需要が高まるにつれて、高解像度かつ高ダイナミックレンジ(HDR)イメージング技術が注目されている。
低ダイナミックレンジ(LDR)画像からHDRビデオを生成するために、重要なステップの1つはLDRフレーム間の動き補償である。
しかし, 飽和や複雑な動きが存在する場合, これらの手法は流れ推定誤差に苦しむ。
本稿では,LDRフレームを特徴空間に整列し,画素領域の光学的フローに依存しないHDRフレームに整列した特徴をマージする,エンドツーエンドのHDRビデオ合成フレームワークを提案する。
具体的には、アライメントモジュールと幻覚モジュールからなるHDR(LAN-HDR)のための輝度ベースのアライメントネットワークを提案する。
アライメントモジュールは、色情報を除く輝度ベースの注意を評価することにより、フレームを隣接参照に整列する。
幻覚モジュールは、特に飽和による洗い出し領域において、鋭い詳細を生成する。
そして、アライメントと幻覚の特徴を適応的にブレンドして相互補完する。
最後に、機能をマージして最終的なHDRフレームを生成します。
トレーニングでは,フレーム復元の損失に加えて時間的損失を採用し,時間的一貫性を高め,フレッカリングを低減した。
大規模実験により, 提案手法はいくつかのベンチマークにおいて, 最先端の手法に匹敵する性能を示した。 As demands for high-quality videos continue to rise, high-resolution and high-dynamic range (HDR) imaging techniques are drawing attention. To generate an HDR video from low dynamic range (LDR) images, one of the critical steps is the motion compensation between LDR frames, for which most existing works employed the optical flow algorithm. However, these methods suffer from flow estimation errors when saturation or complicated motions exist. In this paper, we propose an end-to-end HDR video composition framework, which aligns LDR frames in the feature space and then merges aligned features into an HDR frame, without relying on pixel-domain optical flow. Specifically, we propose a luminance-based alignment network for HDR (LAN-HDR) consisting of an alignment module and a hallucination module. The alignment module aligns a frame to the adjacent reference by evaluating luminance-based attention, excluding color information. The hallucination module generates sharp details, especially for washed-out areas due to saturation. The aligned and hallucinated features are then blended adaptively to complement each other. Finally, we merge the features to generate a final HDR frame. In training, we adopt a temporal loss, in addition to frame reconstruction losses, to enhance temporal consistency and thus reduce flickering. Extensive experiments demonstrate that our method performs better or comparable to state-of-the-art methods on several benchmarks. | 翻訳日:2023-08-23 19:39:56 公開日:2023-08-22 |
# ニューラルネットワークモデルの画像分類精度を向上させる新しい量子前処理フィルタの開発 Development of a Novel Quantum Pre-processing Filter to Improve Image Classification Accuracy of Neural Network Models ( http://arxiv.org/abs/2308.11112v1 ) ライセンス: Link先を確認 | Farina Riaz, Shahab Abdulla, Hajime Suzuki, Srinjoy Ganguly, Ravinesh C. Deo and Susan Hopkins | (参考訳) 本稿では,ニューラルネットワーク(nn)モデルの画像分類精度を向上させる新しい量子前処理フィルタ(qpf)を提案する。
完全に接続されたNNアーキテクチャにデータを渡す前に、Y回転ゲートと2つの制御されたNOTゲートを用いた簡単な4量子ビット量子回路を特徴抽出フィルタとして適用する。
QPFアプローチを適用することで、MNIST(手書き10桁)とEMNIST(手書き47桁と文字)のデータセットに基づく画像分類精度が92.5%から95.4%、68.9%から75.9%に改善できることが示されている。
これらの改善は、機械学習プロセスに追加のモデルパラメータや最適化を導入することなく得られた。
しかし,43種類の実生活交通標識画像を用いた比較的複雑なGTSRBデータセットに対するQPF手法による検証の結果,分類精度の低下が認められた。
この結果を踏まえ、画像分類ニューラルネットワークのためのより適切な量子回路アプローチの理解と設計に関するさらなる研究を、本論文で提案したベースライン手法を用いて検討することができる。 This paper proposes a novel quantum pre-processing filter (QPF) to improve the image classification accuracy of neural network (NN) models. A simple four qubit quantum circuit that uses Y rotation gates for encoding and two controlled NOT gates for creating correlation among the qubits is applied as a feature extraction filter prior to passing data into the fully connected NN architecture. By applying the QPF approach, the results show that the image classification accuracy based on the MNIST (handwritten 10 digits) and the EMNIST (handwritten 47 class digits and letters) datasets can be improved, from 92.5% to 95.4% and from 68.9% to 75.9%, respectively. These improvements were obtained without introducing extra model parameters or optimizations in the machine learning process. However, tests performed on the developed QPF approach against a relatively complex GTSRB dataset with 43 distinct class real-life traffic sign images showed a degradation in the classification accuracy. Considering this result, further research into the understanding and the design of a more suitable quantum circuit approach for image classification neural networks could be explored utilizing the baseline method proposed in this paper. | 翻訳日:2023-08-23 19:39:34 公開日:2023-08-22 |
# CAME: 対照的な自動モデル評価 CAME: Contrastive Automated Model Evaluation ( http://arxiv.org/abs/2308.11111v1 ) ライセンス: Link先を確認 | Ru Peng, Qiuyang Duan, Haobo Wang, Jiachen Ma, Yanbo Jiang, Yongjun Tu, Xiu Jiang, Junbo Zhao | (参考訳) 自動モデル評価(autoeval)フレームワークは、ラベル付きテストセットに頼ることなく、トレーニングされた機械学習モデルを評価することができる。
約束といくつかの適切な結果にもかかわらず、既存のAutoEvalメソッドは、未実装のテストセットとトレーニングセットの間のコンピューティング分散シフトに大きく依存している。
このトレーニングセットへの依存は、この技術を現実世界のML開発に出荷する上で、もうひとつの障害になると考えています。
本研究では,ループ内のトレーニングセットを除外した新しい自動評価フレームワークである,コントラスト型自動モデル評価(came)を提案する。
CAMEの中核的な考え方は、モデル性能と対照的な損失を結合する理論解析に基づいている。
さらに, 広範な実証検証を行うことで, ラベルなし/見当たらないテストセットをデジェクトすることで, 両者の予測可能な関係を確立することができた。
その結果生まれたフレームワークであるCAMEは、AutoEvalの新しいSOTA結果を確立します。 The Automated Model Evaluation (AutoEval) framework entertains the possibility of evaluating a trained machine learning model without resorting to a labeled testing set. Despite the promise and some decent results, the existing AutoEval methods heavily rely on computing distribution shifts between the unlabelled testing set and the training set. We believe this reliance on the training set becomes another obstacle in shipping this technology to real-world ML development. In this work, we propose Contrastive Automatic Model Evaluation (CAME), a novel AutoEval framework that is rid of involving training set in the loop. The core idea of CAME bases on a theoretical analysis which bonds the model performance with a contrastive loss. Further, with extensive empirical validation, we manage to set up a predictable relationship between the two, simply by deducing on the unlabeled/unseen testing set. The resulting framework CAME establishes a new SOTA results for AutoEval by surpassing prior work significantly. | 翻訳日:2023-08-23 19:39:15 公開日:2023-08-22 |
# AIアーキテクチャーによる月の表面パターンの分類:AIは月のウサギを見るか? Classification of the lunar surface pattern by AI architectures: Does AI see a rabbit in the Moon? ( http://arxiv.org/abs/2308.11107v1 ) ライセンス: Link先を確認 | Daigo Shoji | (参考訳) アジア諸国では、ウサギ(ムーンウサギ)が月に住むという伝統がある。
この伝統の起源として、通常は2つの理由が挙げられる。
月面の色紋がウサギの形に似ているのも理由の1つである。
もう一つの理由は、月とウサギの両方が月が周期的に現れて姿を消す(すなわち、ワックスとウォーニング)ために妊娠の象徴であり、ウサギは頻繁に子供を産むからである。
後者の理由から、月面の色パターンはウサギと似ていないのか?
そこで,7つのAIアーキテクチャを用いて,ウサギと月面パターンの類似性を評価した。
CLIPによるテストでは、人々が夕方に頻繁に月を見ると、月面は低緯度域の顔よりもウサギに似ているが、月面は緯度が上がるにつれて顔に分類できる。
ImageNetの重量でテストされたConvNeXtとCLIPは、月の表面パターンを比較的高い確率でウサギに分類することがある。
文化は私たちの環境に対する態度によって生まれる。
動的および静的な類似性は、想像力を誘導するために必要となるかもしれない。 In Asian countries, there is a tradition that a rabbit (the Moon rabbit) lives on the Moon. As the origin of this tradition, usually, two reasons are mentioned. One reason is that the color pattern of the lunar surface is similar to the shape of a rabbit. The other reason is that both the Moon and rabbit are symbols of fertility because the Moon appears and disappears (i.e., waxing and waning) cyclically, and rabbits bear children frequently. Considering the latter reason, is the lunar surface color pattern not similar to a rabbit? Here, the similarity between rabbit and the lunar surface pattern was evaluated using seven AI architectures. In the test by CLIP, assuming that people look at the Moon in the early evening frequently, the lunar surface is more similar to a rabbit than a face at low latitude regions, while it can be classified as face as latitude increases, which is consistent with that the oldest literature about the Moon rabbit was written in India and that there is a culture of human's face in the Moon in Europe. Tested with ImageNet weights, ConvNeXt and CLIP sometimes classified the lunar surface pattern into rabbit with relatively high probabilities. Cultures are generated by our attitude to the environment. Both dynamic and static similarities may be required to induce our imagination. | 翻訳日:2023-08-23 19:39:02 公開日:2023-08-22 |
# 再帰的ビデオレーン検出 Recursive Video Lane Detection ( http://arxiv.org/abs/2308.11106v1 ) ライセンス: Link先を確認 | Dongkwon Jin, Dahyun Kim, Chang-Su Kim | (参考訳) 本稿では,映像中の路面線を検出する新しい手法であるrecursive video lane detector (RVLD)を提案し,現行のフレームを次のフレームに再帰的に伝播させる。
RVLDはフレーム内レーン検出器(ILD)と予測レーン検出器(PLD)から構成される。
まず、車線を静止フレームでローカライズするIDDを設計する。
第2に,現行フレームにおける車線検出に先行フレームの情報を利用するPLDを開発する。
この目的のために、運動場を推定し、前の出力を現在のフレームにワープする。
歪んだ情報を用いて、現在のフレームの特徴マップを洗練し、車線をより確実に検出する。
実験の結果,RVLDはビデオレーンデータセット上で既存の検出器よりも優れていた。
私たちのコードはhttps://github.com/dongkwonjin/rvldで利用可能です。 A novel algorithm to detect road lanes in videos, called recursive video lane detector (RVLD), is proposed in this paper, which propagates the state of a current frame recursively to the next frame. RVLD consists of an intra-frame lane detector (ILD) and a predictive lane detector (PLD). First, we design ILD to localize lanes in a still frame. Second, we develop PLD to exploit the information of the previous frame for lane detection in a current frame. To this end, we estimate a motion field and warp the previous output to the current frame. Using the warped information, we refine the feature map of the current frame to detect lanes more reliably. Experimental results show that RVLD outperforms existing detectors on video lane datasets. Our codes are available at https://github.com/dongkwonjin/RVLD. | 翻訳日:2023-08-23 19:38:41 公開日:2023-08-22 |
# リスクの匿名性?
大規模言語モデルの再同定能力の評価 Anonymity at Risk? Assessing Re-Identification Capabilities of Large Language Models ( http://arxiv.org/abs/2308.11103v1 ) ライセンス: Link先を確認 | Alex Nyffenegger, Matthias St\"urmer, Joel Niklaus | (参考訳) 裁判所判決における自然と法的双方の匿名性は、欧州連合とスイスにおけるプライバシー保護の重要な側面である。
LLMの出現に伴い、匿名化者の大規模再識別への懸念が高まっている。
スイス連邦最高裁判所に従って、スイス連邦最高裁判所の実際の法的データを用いて概念実証を構築することにより、裁判所の判決において個人を再識別するLLMの可能性を探る。
実験の結果,匿名化されたWikipediaデータセットをより厳密な試験場として構築し,さらなる調査を行った。
テキスト中の人物を識別する新しいタスクの導入と適用により、パフォーマンスを測定するための新しい指標も導入する。
モデルサイズ, 入力長, 命令のチューニングを最も重要な決定要因として同定し, 再同定に影響を及ぼす要因を系統的に分析する。
ウィキペディアの再識別率が高いにもかかわらず、最高のLCMでさえ裁判所の判断に苦しんだ。
この複雑さは、テストデータセットの欠如、十分なトレーニングリソースの必要性、再識別に使用される情報のスパーシティに起因する。
結論として,本研究では,LLMを用いた再同定は現時点では不可能であるが,ウィキペディアにおける概念実証が示すように,将来的には可能となる可能性がある。
当社のシステムは、匿名化された決定のセキュリティに対する信頼性を高めるのに役立ち、裁判所が決定を公表する自信を増すことを願っています。 Anonymity of both natural and legal persons in court rulings is a critical aspect of privacy protection in the European Union and Switzerland. With the advent of LLMs, concerns about large-scale re-identification of anonymized persons are growing. In accordance with the Federal Supreme Court of Switzerland, we explore the potential of LLMs to re-identify individuals in court rulings by constructing a proof-of-concept using actual legal data from the Swiss federal supreme court. Following the initial experiment, we constructed an anonymized Wikipedia dataset as a more rigorous testing ground to further investigate the findings. With the introduction and application of the new task of re-identifying people in texts, we also introduce new metrics to measure performance. We systematically analyze the factors that influence successful re-identifications, identifying model size, input length, and instruction tuning among the most critical determinants. Despite high re-identification rates on Wikipedia, even the best LLMs struggled with court decisions. The complexity is attributed to the lack of test datasets, the necessity for substantial training resources, and data sparsity in the information used for re-identification. In conclusion, this study demonstrates that re-identification using LLMs may not be feasible for now, but as the proof-of-concept on Wikipedia showed, it might become possible in the future. We hope that our system can help enhance the confidence in the security of anonymized decisions, thus leading to the courts being more confident to publish decisions. | 翻訳日:2023-08-23 19:38:29 公開日:2023-08-22 |
# 量子ニューラルネットワークの解釈における説明可能性と説明可能性 Explicability and Inexplicability in the Interpretation of Quantum Neural Networks ( http://arxiv.org/abs/2308.11098v1 ) ライセンス: Link先を確認 | Lirand\"e Pira, Chris Ferrie | (参考訳) 人工知能(AI)手法の解釈可能性、特にディープニューラルネットワークは、しばしば説明不能な振る舞いを持つAI支援システムの普及によって大きな関心を集めている。
このようなモデルの解釈性は、信頼できるシステムを構築する上で重要な要素である。
この問題にアプローチするために多くの方法が存在するが、量子設定に明らかに一般化していない。
本稿では,量子ニューラルネットワークと古典ニューラルネットワークの局所的モデルに依存しない解釈可能性尺度を用いて,量子ニューラルネットワークの解釈可能性を検討する。
我々は、データサンプルが説明できない解釈可能な領域、おそらくは本質的にランダムな量子測定の犠牲者を表す、説明不能な帯域の概念を導入する。
これは、責任と説明責任を持つ量子AIモデルを構築する方法を理解するためのステップだと考えています。 Interpretability of artificial intelligence (AI) methods, particularly deep neural networks, is of great interest due to the widespread use of AI-backed systems, which often have unexplainable behavior. The interpretability of such models is a crucial component of building trusted systems. Many methods exist to approach this problem, but they do not obviously generalize to the quantum setting. Here we explore the interpretability of quantum neural networks using local model-agnostic interpretability measures of quantum and classical neural networks. We introduce the concept of the band of inexplicability, representing the interpretable region in which data samples have no explanation, likely victims of inherently random quantum measurements. We see this as a step toward understanding how to build responsible and accountable quantum AI models. | 翻訳日:2023-08-23 19:38:07 公開日:2023-08-22 |
# MosaiQ: NISQコンピュータ上の画像生成のための量子生成逆ネットワーク MosaiQ: Quantum Generative Adversarial Networks for Image Generation on NISQ Computers ( http://arxiv.org/abs/2308.11096v1 ) ライセンス: Link先を確認 | Daniel Silver, Tirthak Patel, William Cutler, Aditya Ranjan, Harshitta Gandhi, Devesh Tiwari | (参考訳) 量子マシンの能力の急速な向上を可能にするハードウェアの進歩によって、量子機械学習とビジョンが最近注目されている。
近年、量子画像生成は非量子技術よりも多くの潜在的な利点をもって研究されてきたが、従来の技術は品質と堅牢性に悩まされてきた。
これらの問題に対処するため、今日のNISQ(Near-term Intermediate Scale Quantum)コンピュータで実行できる高品質な量子画像生成GANフレームワークであるMosaiQを紹介した。 Quantum machine learning and vision have come to the fore recently, with hardware advances enabling rapid advancement in the capabilities of quantum machines. Recently, quantum image generation has been explored with many potential advantages over non-quantum techniques; however, previous techniques have suffered from poor quality and robustness. To address these problems, we introduce, MosaiQ, a high-quality quantum image generation GAN framework that can be executed on today's Near-term Intermediate Scale Quantum (NISQ) computers. | 翻訳日:2023-08-23 19:37:55 公開日:2023-08-22 |
# Video OWL-ViT: ビデオにおける時間的に一貫性のあるオープンワールドローカライゼーション Video OWL-ViT: Temporally-consistent open-world localization in video ( http://arxiv.org/abs/2308.11093v1 ) ライセンス: Link先を確認 | Georg Heigold, Matthias Minderer, Alexey Gritsenko, Alex Bewley, Daniel Keysers, Mario Lu\v{c}i\'c, Fisher Yu, Thomas Kipf | (参考訳) 学習済みのオープンワールドイメージモデルをビデオのローカライズに適応させるアーキテクチャとトレーニングレシピを提案する。
オープンな視覚世界を理解する(固定ラベル空間に制約されない)ことは、多くの現実世界の視覚タスクにとって不可欠である。
大規模な画像テキストデータセットでのコントラスト事前トレーニングは、最近画像レベルのタスクを大幅に改善した。
事前訓練されたモデルを適用するオブジェクトローカライゼーションを含むより構造化されたタスクは、より難しい。
これは特に、タスク固有のデータが制限されたビデオタスクに当てはまる。
OWL-ViTオープンボキャブラリ検出モデル上に構築し,トランスフォーマデコーダを追加してビデオに適応することで,オープンワールドモデルの転送に成功したことを示す。
デコーダは、あるフレームの出力トークンを次のフレームのオブジェクトクエリとして使用することにより、オブジェクト表現を時間を通して繰り返し伝搬する。
私たちのモデルはビデオデータ上でエンドツーエンドでトレーニング可能で、トラッキングバイ検出のベースラインと比較して時間的一貫性が向上すると同時に、バックボーン検出器のオープンワールド機能を保持しています。
我々は,TAO-OWベンチマークを用いて,大規模な画像テキスト事前学習から学習したオープンワールド機能を,多様なビデオ間のオープンワールドローカライゼーションにうまく移行できることを実証した。 We present an architecture and a training recipe that adapts pre-trained open-world image models to localization in videos. Understanding the open visual world (without being constrained by fixed label spaces) is crucial for many real-world vision tasks. Contrastive pre-training on large image-text datasets has recently led to significant improvements for image-level tasks. For more structured tasks involving object localization applying pre-trained models is more challenging. This is particularly true for video tasks, where task-specific data is limited. We show successful transfer of open-world models by building on the OWL-ViT open-vocabulary detection model and adapting it to video by adding a transformer decoder. The decoder propagates object representations recurrently through time by using the output tokens for one frame as the object queries for the next. Our model is end-to-end trainable on video data and enjoys improved temporal consistency compared to tracking-by-detection baselines, while retaining the open-world capabilities of the backbone detector. We evaluate our model on the challenging TAO-OW benchmark and demonstrate that open-world capabilities, learned from large-scale image-text pre-training, can be transferred successfully to open-world localization across diverse videos. | 翻訳日:2023-08-23 19:37:44 公開日:2023-08-22 |
# 最適輸送を用いた画像分類におけるフェアネスと説明可能性 Addressing Fairness and Explainability in Image Classification Using Optimal Transport ( http://arxiv.org/abs/2308.11090v1 ) ライセンス: Link先を確認 | Philipp Ratz and Fran\c{c}ois Hu and Arthur Charpentier | (参考訳) アルゴリズム的公平性と潜在的不公平な結果の説明は、医療や警察などの分野における人工知能システムの信頼と説明可能性を確立する上で不可欠である。
それぞれの分野では大きな進歩があったが、特にディープニューラルネットワークを使用する領域では、フェアネスアプリケーションにおける説明可能性の達成は依然として困難である。
同時に、倫理的なデータマイニングは、公正さを意識しないアルゴリズムがバイアスのある結果をもたらすことを、数え切れないほど示してきた。
現在のアプローチでは、モデルの結果におけるバイアスの軽減に焦点を当てているが、モデルが偏っていることを説明する試みはほとんど行われていない。
このギャップを埋めるために,画像内の偏り領域の原因と影響を明らかにするために,最適輸送理論を利用する包括的アプローチを提案する。
ワッサースタイン・バリセンタ(wasserstein barycenters)の使用により、感度の高い変数とは独立なスコアを得るが、限界順序は保持する。
このステップは予測精度を確保しますが、バイアスの発生に最も関連する領域の回復にも役立ちます。
我々の発見は、さまざまな領域にわたる重要な意思決定シナリオにおける透明性、説明責任、公平性を育み、信頼できるAIシステムの開発に重大な影響を与える。 Algorithmic Fairness and the explainability of potentially unfair outcomes are crucial for establishing trust and accountability of Artificial Intelligence systems in domains such as healthcare and policing. Though significant advances have been made in each of the fields separately, achieving explainability in fairness applications remains challenging, particularly so in domains where deep neural networks are used. At the same time, ethical data-mining has become ever more relevant, as it has been shown countless times that fairness-unaware algorithms result in biased outcomes. Current approaches focus on mitigating biases in the outcomes of the model, but few attempts have been made to try to explain \emph{why} a model is biased. To bridge this gap, we propose a comprehensive approach that leverages optimal transport theory to uncover the causes and implications of biased regions in images, which easily extends to tabular data as well. Through the use of Wasserstein barycenters, we obtain scores that are independent of a sensitive variable but keep their marginal orderings. This step ensures predictive accuracy but also helps us to recover the regions most associated with the generation of the biases. Our findings hold significant implications for the development of trustworthy and unbiased AI systems, fostering transparency, accountability, and fairness in critical decision-making scenarios across diverse domains. | 翻訳日:2023-08-23 19:37:23 公開日:2023-08-22 |
# TOPIC:複雑な動きと異場面における多対象追跡のための並列アソシエーションパラダイム TOPIC: A Parallel Association Paradigm for Multi-Object Tracking under Complex Motions and Diverse Scenes ( http://arxiv.org/abs/2308.11157v1 ) ライセンス: Link先を確認 | Xiaoyan Cao, Yiyao Zheng, Yao Yao, Huapeng Qin, Xiaoyu Cao, Shihui Guo | (参考訳) ビデオデータとアルゴリズムは、マルチオブジェクトトラッキング(MOT)の進歩を推進している。
既存のMOTデータセットはオクルージョンと外観の類似性に重点を置いているが、複雑な動きパターンは広く見過ごされている。
この問題に対処するために、複雑な動きを強調するBEE23と呼ばれる新しいデータセットを導入する。
アイデンティティ関連アルゴリズムは以前からMOT研究の焦点となっている。
既存のトラッカーは、単一機能パラダイム(動きまたは外観の特徴に基づく)とシリアルパラダイム(一方が二次的、もう一方が一次的)の2つに分類される。
しかし、これらのパラダイムは異なる特徴を完全に活用できない。
本稿では並列パラダイムを提案し,それを実装するために2つのrOund Parallel matchIng meChanism(TOPIC)を提案する。
このトピックは、動きと外観の両方の特徴を活用し、望ましいものを動きレベルに基づいて割り当て指標として適応的に選択することができる。
さらに,外観特徴の埋め込みを再構築するアテンションベース外観再構築モジュール(aarm)を提供し,外観特徴の表現性を高める。
包括的実験により、4つの公開データセットとBEE23上での最先端のパフォーマンスが得られた。
特に,提案する並列パラダイムは,既存の連想パラダイムの性能を大きく上回っており,例えば,単一結合パラダイムと比較して偽陰性を12%から51%削減している。
この研究で導入されたデータセットとアソシエーションパラダイムは、MOT分野を前進させるための新たな視点を提供する。
ソースコードとデータセットはhttps://github.com/holmescao/topictrackで入手できる。 Video data and algorithms have been driving advances in multi-object tracking (MOT). While existing MOT datasets focus on occlusion and appearance similarity, complex motion patterns are widespread yet overlooked. To address this issue, we introduce a new dataset called BEE23 to highlight complex motions. Identity association algorithms have long been the focus of MOT research. Existing trackers can be categorized into two association paradigms: single-feature paradigm (based on either motion or appearance feature) and serial paradigm (one feature serves as secondary while the other is primary). However, these paradigms are incapable of fully utilizing different features. In this paper, we propose a parallel paradigm and present the Two rOund Parallel matchIng meChanism (TOPIC) to implement it. The TOPIC leverages both motion and appearance features and can adaptively select the preferable one as the assignment metric based on motion level. Moreover, we provide an Attention-based Appearance Reconstruct Module (AARM) to reconstruct appearance feature embeddings, thus enhancing the representation of appearance features. Comprehensive experiments show that our approach achieves state-of-the-art performance on four public datasets and BEE23. Notably, our proposed parallel paradigm surpasses the performance of existing association paradigms by a large margin, e.g., reducing false negatives by 12% to 51% compared to the single-feature association paradigm. The introduced dataset and association paradigm in this work offers a fresh perspective for advancing the MOT field. The source code and dataset are available at https://github.com/holmescao/TOPICTrack. | 翻訳日:2023-08-23 19:31:10 公開日:2023-08-22 |
# xxMD: 平衡を超えた拡張ダイナミクスを用いた神経力場のベンチマーク xxMD: Benchmarking Neural Force Fields Using Extended Dynamics beyond Equilibrium ( http://arxiv.org/abs/2308.11155v1 ) ライセンス: Link先を確認 | Zihan Pengmei, Junyu Liu, Yinan Shu | (参考訳) 神経力場(NFF)は代理モデルとして計算化学で有名になり、アブ初期分子動力学における量子化学計算に取って代わられている。
NFFの一般的なベンチマークはMD17データセットとその拡張である。
これらのデータセットは主に、基底電子状態ポテンシャルエネルギー表面の平衡領域からのジオメトリで構成され、直接断熱力学からサンプリングされる。
しかし、多くの化学反応は重要な分子変形、特に結合破壊を引き起こす。
MD17データセットにおける内部座標とエネルギーの制約分布を実演し, 化学反応中の系を表現するのに不適切であることを示す。
このサンプリング制限に対処し、非断熱力学から派生したxxMD(Extended Excited-state Molecular Dynamics)データセットを導入する。
このデータセットは、マルチ参照波動関数理論と密度汎関数理論の両方から得られるエネルギーと力を含んでいる。
さらに、核配置空間は化学反応を忠実に表現しており、xxMDはより化学的に関連するデータセットとなっている。
xxMDデータセット上での同変モデルの再評価により,MD17とその変種と比較して平均絶対誤差が顕著に高いことが明らかになった。
この観察は、外挿能力を持つ一般化可能なNFFモデルを構築する際に直面する課題を浮き彫りにする。
提案したxxMD-CASSCFとxxMD-DFTデータセットは、 \url{https://github.com/zpengmei/xxMD}で利用可能である。 Neural force fields (NFFs) have gained prominence in computational chemistry as surrogate models, superseding quantum-chemistry calculations in ab initio molecular dynamics. The prevalent benchmark for NFFs has been the MD17 dataset and its subsequent extension. These datasets predominantly comprise geometries from the equilibrium region of the ground electronic state potential energy surface, sampling from direct adiabatic dynamics. However, many chemical reactions entail significant molecular deformations, notably bond breaking. We demonstrate the constrained distribution of internal coordinates and energies in the MD17 datasets, underscoring their inadequacy for representing systems undergoing chemical reactions. Addressing this sampling limitation, we introduce the xxMD (Extended Excited-state Molecular Dynamics) dataset, derived from non-adiabatic dynamics. This dataset encompasses energies and forces ascertained from both multireference wave function theory and density functional theory. Furthermore, its nuclear configuration spaces authentically depict chemical reactions, making xxMD a more chemically relevant dataset. Our re-assessment of equivariant models on the xxMD datasets reveals notably higher mean absolute errors than those reported for MD17 and its variants. This observation underscores the challenges faced in crafting a generalizable NFF model with extrapolation capability. Our proposed xxMD-CASSCF and xxMD-DFT datasets are available at \url{https://github.com/zpengmei/xxMD}. | 翻訳日:2023-08-23 19:30:42 公開日:2023-08-22 |
# LLaMA-Reviewer:パラメータ効率の良いファインチューニングによる大規模言語モデルによるコードレビューの自動化(実践経験報告) LLaMA-Reviewer: Advancing Code Review Automation with Large Language Models through Parameter-Efficient Fine-Tuning (Practical Experience Report) ( http://arxiv.org/abs/2308.11148v1 ) ライセンス: Link先を確認 | Junyi Lu, Lei Yu, Xiaojia Li, Li Yang, Chun Zuo | (参考訳) ソフトウェア工学における長年の追求であるコードレビュー活動の自動化は、主に多くのドメイン固有の事前訓練モデルによって対処されてきた。
その成功にもかかわらず、これらのモデルはしばしばスクラッチから事前訓練するための広範囲なリソースを要求する。
対照的に、Large Language Models (LLMs) は、ドメイン固有の知識を補足する際、その優れた能力を考えると、興味深い代替手段を提供する。
しかし、コードレビュータスクを自動化する可能性はほとんど調査されていない。
この研究のギャップに対応するために、コードレビューの領域において、人気のあるLLMであるLLaMAの機能を活用する革新的なフレームワークであるLLaMA-Reviewerを紹介します。
リソース制約を念頭に置いて、このフレームワークはパラメータ効率の細かいチューニング(peft)メソッドを採用し、トレーニング可能なパラメータの1%未満を使用して高いパフォーマンスを提供する。
LLaMA-Reviewerの広範な評価は、2つの多様な公開データセットに対して行われる。
特に、6.7Bパラメータと限られたチューニングエポック数からなる最小のLLaMAベースモデルであっても、LLaMA-Reviewerは既存のコードレビューに焦点を当てたモデルの性能と同等である。
アブレーション実験は、入力表現、命令チューニング、異なるPEFTメソッドを含む様々な微調整プロセスコンポーネントの影響についての洞察を提供する。
この分野での継続的な進歩を促進するために、コードとすべてのPEFT軽量プラグインがオープンソース化された。 The automation of code review activities, a long-standing pursuit in software engineering, has been primarily addressed by numerous domain-specific pre-trained models. Despite their success, these models frequently demand extensive resources for pre-training from scratch. In contrast, Large Language Models (LLMs) provide an intriguing alternative, given their remarkable capabilities when supplemented with domain-specific knowledge. However, their potential for automating code review tasks remains largely unexplored. In response to this research gap, we present LLaMA-Reviewer, an innovative framework that leverages the capabilities of LLaMA, a popular LLM, in the realm of code review. Mindful of resource constraints, this framework employs parameter-efficient fine-tuning (PEFT) methods, delivering high performance while using less than 1% of trainable parameters. An extensive evaluation of LLaMA-Reviewer is conducted on two diverse, publicly available datasets. Notably, even with the smallest LLaMA base model consisting of 6.7B parameters and a limited number of tuning epochs, LLaMA-Reviewer equals the performance of existing code-review-focused models. The ablation experiments provide insights into the influence of various fine-tuning process components, including input representation, instruction tuning, and different PEFT methods. To foster continuous progress in this field, the code and all PEFT-weight plugins have been made open-source. | 翻訳日:2023-08-23 19:30:20 公開日:2023-08-22 |
# 自己活性化マップを用いた教師なし細胞認識の探索 Exploring Unsupervised Cell Recognition with Prior Self-activation Maps ( http://arxiv.org/abs/2308.11144v1 ) ライセンス: Link先を確認 | Pingyi Chen, Chenglu Zhu, Zhongyi Shui, Jiatong Cai, Sunyi Zheng, Shichuan Zhang, Lin Yang | (参考訳) 細胞認識タスクにおける教師付きディープラーニングモデルの成功は、詳細なアノテーションに依存している。
以前の多くの作品は、ラベルへの依存を減らすことに成功している。
しかし、パッチに含まれる多数の細胞を考えると、高価で非効率なラベル付けは避けられない。
そこで我々は,ラベルのない細胞認識手法について検討した。
トレーニング対象として擬似マスクを生成するために, 事前自己活性化マップ(PSM)を提案する。
具体的には、アクティベーションネットワークを自己教師付き学習で訓練する。
ネットワークの浅い層内の勾配情報を集約し、事前の自己活性化マップを生成する。
その後、セマンティッククラスタリングモジュールがパイプラインとして導入され、PSMを下流タスク用のピクセルレベルのセマンティックマスクに変換する。
MoNuSeg(細胞セグメンテーション)とBCData(マルチクラス細胞検出)の2つの組織学的データセットを用いて本手法の評価を行った。
他の完全教師付き・弱教師付き手法と比較して,本手法は手動アノテーションを使わずに競争性能を達成できる。
当社のシンプルかつ効果的なフレームワークは、既存の教師なしメソッドでは実行できないマルチクラスセル検出も実現できます。
この結果は、医療分野のラベルの飢餓に対処するために他の研究を刺激するPSMの可能性を示している。 The success of supervised deep learning models on cell recognition tasks relies on detailed annotations. Many previous works have managed to reduce the dependency on labels. However, considering the large number of cells contained in a patch, costly and inefficient labeling is still inevitable. To this end, we explored label-free methods for cell recognition. Prior self-activation maps (PSM) are proposed to generate pseudo masks as training targets. To be specific, an activation network is trained with self-supervised learning. The gradient information in the shallow layers of the network is aggregated to generate prior self-activation maps. Afterward, a semantic clustering module is then introduced as a pipeline to transform PSMs to pixel-level semantic pseudo masks for downstream tasks. We evaluated our method on two histological datasets: MoNuSeg (cell segmentation) and BCData (multi-class cell detection). Compared with other fully-supervised and weakly-supervised methods, our method can achieve competitive performance without any manual annotations. Our simple but effective framework can also achieve multi-class cell detection which can not be done by existing unsupervised methods. The results show the potential of PSMs that might inspire other research to deal with the hunger for labels in medical area. | 翻訳日:2023-08-23 19:29:55 公開日:2023-08-22 |
# 運動補償を伴わない飽和補償を伴う動的シーンの高ダイナミックレンジイメージング High Dynamic Range Imaging of Dynamic Scenes with Saturation Compensation but without Explicit Motion Compensation ( http://arxiv.org/abs/2308.11140v1 ) ライセンス: Link先を確認 | Haesoo Chung and Nam Ik Cho | (参考訳) 高ダイナミックレンジ(HDR)イメージングは、カメラセンサの限界により大量の情報が失われるため、非常に難しい課題である。
HDRイメージングでは、複数の低ダイナミックレンジ(LDR)画像を露出の変化で捉え、より多くの情報を収集する手法がある。
しかし、これらのアプローチはフレーム間の大きな動きがあるときにゴーストアーティファクトを導入する。
また,マルチ露光画像が提供されるが,過剰露光領域の情報は少ない。
既存の手法のほとんどは、複数のldrショットをアライメントしてゴーストアーティファクトを減らす動き補償に焦点を当てているが、それでも満足できない結果をもたらす。
これらの手法は、飽和領域を回復する必要性をむしろ見落としている。
本稿では,動作アライメント問題を簡易な輝度調整問題に再構成し,アライメント特性の整列化を行う。
さらに,飽和補償を明示した粗粒間マージ戦略を提案する。
飽和領域は、適応的な文脈的注意力を用いて、同様のよく露出した内容で再構成される。
本手法は,定性評価と定量的評価に関して,最先端の手法よりも優れていることを示す。 High dynamic range (HDR) imaging is a highly challenging task since a large amount of information is lost due to the limitations of camera sensors. For HDR imaging, some methods capture multiple low dynamic range (LDR) images with altering exposures to aggregate more information. However, these approaches introduce ghosting artifacts when significant inter-frame motions are present. Moreover, although multi-exposure images are given, we have little information in severely over-exposed areas. Most existing methods focus on motion compensation, i.e., alignment of multiple LDR shots to reduce the ghosting artifacts, but they still produce unsatisfying results. These methods also rather overlook the need to restore the saturated areas. In this paper, we generate well-aligned multi-exposure features by reformulating a motion alignment problem into a simple brightness adjustment problem. In addition, we propose a coarse-to-fine merging strategy with explicit saturation compensation. The saturated areas are reconstructed with similar well-exposed content using adaptive contextual attention. We demonstrate that our method outperforms the state-of-the-art methods regarding qualitative and quantitative evaluations. | 翻訳日:2023-08-23 19:29:37 公開日:2023-08-22 |
# 消費者苦情の物語におけるNLPによる系統的異常の検出 NLP-based detection of systematic anomalies among the narratives of consumer complaints ( http://arxiv.org/abs/2308.11138v1 ) ライセンス: Link先を確認 | Peiheng Gao, Ning Sun, Xuefeng Wang, Chen Yang, Ri\v{c}ardas Zitikis | (参考訳) 本研究では,NLPをベースとしたシステム的非商業的消費者苦情の検出手法を開発した。
分類アルゴリズムは発音異常を検出するのに使用されるが、より小さく頻繁な体系的異常の場合、そのアルゴリズムは、技術的理由や人間のアナリストの自然な制限など、様々な理由により、混乱する可能性がある。
そこで,分類後の次のステップとして,苦情を定量的なデータに変換し,系統的異常を検出するアルゴリズムを用いて分析する。
本稿では,消費者金融保護局の消費者苦情データベースから得られた苦情のナラティブを用いて,手続き全体を説明する。 We develop an NLP-based procedure for detecting systematic nonmeritorious consumer complaints, simply called systematic anomalies, among complaint narratives. While classification algorithms are used to detect pronounced anomalies, in the case of smaller and frequent systematic anomalies, the algorithms may falter due to a variety of reasons, including technical ones as well as natural limitations of human analysts. Therefore, as the next step after classification, we convert the complaint narratives into quantitative data, which are then analyzed using an algorithm for detecting systematic anomalies. We illustrate the entire procedure using complaint narratives from the Consumer Complaint Database of the Consumer Financial Protection Bureau. | 翻訳日:2023-08-23 19:29:21 公開日:2023-08-22 |
# LLMエージェントに社会原理はあるか? Is There Any Social Principle for LLM-Based Agents? ( http://arxiv.org/abs/2308.11136v1 ) ライセンス: Link先を確認 | Jitao Bai, Simiao Zhang, Zhonghao Chen | (参考訳) 大規模言語モデルに基づくエージェントは、人間中心のアライメントやアプリケーション以上のものを含むべきである。
エージェント自身にもっと注意を払うべきであり、エージェントに対する社会科学の可能性について議論すべきである。 Focus on Large Language Model based agents should involve more than "human-centered" alignment or application. We argue that more attention should be paid to the agent itself and discuss the potential of social sciences for agents. | 翻訳日:2023-08-23 19:29:09 公開日:2023-08-22 |
# ニューラルラジアンス分布場を用いた効率的なビュー合成 Efficient View Synthesis with Neural Radiance Distribution Field ( http://arxiv.org/abs/2308.11130v1 ) ライセンス: Link先を確認 | Yushuang Wu, Xiao Li, Jinglu Wang, Xiaoguang Han, Shuguang Cui, Yan Lu | (参考訳) ニューラルラジアンス場(NeRF)に関する最近の研究は、高品質なビュー合成において大きな進歩を見せている。
NeRFの大きな制限は、単一のピクセルをレンダリングするために複数のネットワーク転送を必要とするため、レンダリング効率が低いことである。
既存のNeRFの改良手法は、必要なサンプル数を減らすか、ネットワーク転送を高速化するために実装を最適化する。
これらの努力にもかかわらず、放射場の本質的な表現による多重サンプリングの問題は持続する。
対照的に、Neural Light Fields (NeLF)は1ピクセル当たりの1つのネットワーク転送をクエリすることで、NeRFの計算コストを削減する。
NeRFに密接な視覚的品質を実現するため、既存のNeLF法では、実際のレンダリング効率を制限したネットワーク容量が大幅に大きくなる必要がある。
本研究では,リアルタイムの効率的なビュー合成を目的としたニューラルレージアンス分布場(NeRDF)という新しい表現を提案する。
具体的には、NeLFのように1ピクセル当たりの1つのネットワーク転送でレンダリング速度を保ちながら、NeRFに似た小さなネットワークを使用する。
鍵となるのは、各線に沿った放射分布を周波数ベースでモデル化し、ネットワークを用いて周波数重みを予測することである。
ピクセル値は、放射分布のボリュームレンダリングによって計算される。
実験の結果,提案手法は従来の手法よりも速度,品質,ネットワークサイズとのトレードオフが良好であることが確認された。
プロジェクトページはYushuang-wu.github.io/NeRDFにあります。 Recent work on Neural Radiance Fields (NeRF) has demonstrated significant advances in high-quality view synthesis. A major limitation of NeRF is its low rendering efficiency due to the need for multiple network forwardings to render a single pixel. Existing methods to improve NeRF either reduce the number of required samples or optimize the implementation to accelerate the network forwarding. Despite these efforts, the problem of multiple sampling persists due to the intrinsic representation of radiance fields. In contrast, Neural Light Fields (NeLF) reduce the computation cost of NeRF by querying only one single network forwarding per pixel. To achieve a close visual quality to NeRF, existing NeLF methods require significantly larger network capacities which limits their rendering efficiency in practice. In this work, we propose a new representation called Neural Radiance Distribution Field (NeRDF) that targets efficient view synthesis in real-time. Specifically, we use a small network similar to NeRF while preserving the rendering speed with a single network forwarding per pixel as in NeLF. The key is to model the radiance distribution along each ray with frequency basis and predict frequency weights using the network. Pixel values are then computed via volume rendering on radiance distributions. Experiments show that our proposed method offers a better trade-off among speed, quality, and network size than existing methods: we achieve a ~254x speed-up over NeRF with similar network size, with only a marginal performance decline. Our project page is at yushuang-wu.github.io/NeRDF. | 翻訳日:2023-08-23 19:29:05 公開日:2023-08-22 |
# 階層的距離を用いた多層グラフ構造の変換器 Transformers for Capturing Multi-level Graph Structure using Hierarchical Distances ( http://arxiv.org/abs/2308.11129v1 ) ライセンス: Link先を確認 | Yuankai Luo | (参考訳) グラフトランスフォーマーは、意味のある注意点を導き出すために強い帰納バイアスを必要とする。
しかし、現在の提案は、分子、ソーシャルネットワーク、引用ネットワークなどの様々なグラフに現れるように、長い範囲、階層構造、またはコミュニティ構造をキャプチャする手法にはほとんど対処しない。
本稿では,階層構造符号化(HDSE)を提案し,その階層的特徴に着目したグラフ内のノード間の階層的距離をモデル化する。
特に、これは既存のグラフ変換器と柔軟に統合可能なフレームワークをもたらし、他の位置表現との同時適用を可能にします。
実世界の12のデータセットに対する広範な実験を通じて、HDSE法は様々な種類のベースライントランスフォーマーを向上し、10のベンチマークデータセット上で最先端の実証的なパフォーマンスを達成することを実証した。 Graph transformers need strong inductive biases to derive meaningful attention scores. Yet, current proposals rarely address methods capturing longer ranges, hierarchical structures, or community structures, as they appear in various graphs such as molecules, social networks, and citation networks. In this paper, we propose a hierarchy-distance structural encoding (HDSE), which models a hierarchical distance between the nodes in a graph focusing on its multi-level, hierarchical nature. In particular, this yields a framework which can be flexibly integrated with existing graph transformers, allowing for simultaneous application with other positional representations. Through extensive experiments on 12 real-world datasets, we demonstrate that our HDSE method successfully enhances various types of baseline transformers, achieving state-of-the-art empirical performances on 10 benchmark datasets. | 翻訳日:2023-08-23 19:28:43 公開日:2023-08-22 |
# ゼロショット異常検出のためのクリップによるランダム単語データ拡張 Random Word Data Augmentation with CLIP for Zero-Shot Anomaly Detection ( http://arxiv.org/abs/2308.11119v1 ) ライセンス: Link先を確認 | Masato Tamura | (参考訳) 本稿では,ゼロショット異常検出のためのデータソースとして,視覚言語モデルCLIPを利用する新しい手法を提案する。
産業応用の可能性から異常検出器の開発に多大な努力が払われている。
トレーニングのための様々な異常なサンプルを取得することの難しさを考慮すると、既存の手法のほとんどは正常なサンプルのみを用いてモデルを訓練し、推論中の正常なサンプルの分布との差異を測定する。
この非効率なトレーニング要件の問題は、スライドウインドウ方式で画像の各部分に即時誘導分類を適用するCLIPベースの異常検出器を設計することで解決されている。
しかし、この方法はまだ既知のオブジェクトカテゴリを慎重にセンシングする作業に苦しむ。
上記の問題を克服するため、トレーニング用のデータソースとしてCLIPを活用することを提案する。
テキストエンコーダをCLIPのテキストエンコーダに埋め込み、正規語や異常語を含む典型的なプロンプトを生成する。
これらの単語に加えて、ランダムに生成された複数の単語をプロンプトに挿入することで、エンコーダは様々な正規および異常なサンプルを生成することができる。
生成された埋め込みをトレーニングデータとして、フィードフォワードニューラルネットワークは、クリップの埋め込みから正常および異常の特徴を抽出するように学習し、その結果、トレーニング画像なしでカテゴリ非依存の異常検出を行うことができる。
実験により, ゼロショットセットアップにおいて, 精巧なプロンプトアンサンブルを伴わずに, 最先端の性能を達成できることが実証された。 This paper presents a novel method that leverages a visual-language model, CLIP, as a data source for zero-shot anomaly detection. Tremendous efforts have been put towards developing anomaly detectors due to their potential industrial applications. Considering the difficulty in acquiring various anomalous samples for training, most existing methods train models with only normal samples and measure discrepancies from the distribution of normal samples during inference, which requires training a model for each object category. The problem of this inefficient training requirement has been tackled by designing a CLIP-based anomaly detector that applies prompt-guided classification to each part of an image in a sliding window manner. However, the method still suffers from the labor of careful prompt ensembling with known object categories. To overcome the issues above, we propose leveraging CLIP as a data source for training. Our method generates text embeddings with the text encoder in CLIP with typical prompts that include words of normal and anomaly. In addition to these words, we insert several randomly generated words into prompts, which enables the encoder to generate a diverse set of normal and anomalous samples. Using the generated embeddings as training data, a feed-forward neural network learns to extract features of normal and anomaly from CLIP's embeddings, and as a result, a category-agnostic anomaly detector can be obtained without any training images. Experimental results demonstrate that our method achieves state-of-the-art performance without laborious prompt ensembling in zero-shot setups. | 翻訳日:2023-08-23 19:28:27 公開日:2023-08-22 |
# mega:マルチモーダルアライメントアライメントアグリゲーションと蒸留による映像セグメンテーション MEGA: Multimodal Alignment Aggregation and Distillation For Cinematic Video Segmentation ( http://arxiv.org/abs/2308.11185v1 ) ライセンス: Link先を確認 | Najmeh Sadoughi, Xinyu Li, Avijit Vajpayee, David Fan, Bing Shuai, Hector Santos-Villalobos, Vimal Bhat, Rohith MV | (参考訳) これまでの研究は、映画ビデオをシーンに分割し、物語的行為に分割するタスクを研究してきた。
しかし,これらの研究は,長尺ビデオ (>60min) を効果的かつ効率的に処理するためのマルチモーダルアライメントと融合の必須課題を見逃している。
本稿では,映画的ロングビデオセグメンテーションのためのマルチモーダルアライメントアグリゲーションと蒸留(mega)について紹介する。
megaは複数のメディアモダリティを活用することで課題に取り組む。
可変長と異なるモダリティの入力をアライメント位置符号化により粗調整する。
計算量を減らしつつ時間同期を維持するため,時間アライメントを用いた改良型ボトルネック融合層も導入する。
さらにmegaは、モダリティ間のラベルの同期と転送のために、新しいコントラスト損失を採用しており、ビデオショット上のラベル付きシナプス文からのアクトセグメンテーションを可能にしている。
実験の結果,MEGAはシーンセグメンテーションのためのMovieNetデータセット(平均精度+1.19%)および行動セグメンテーションのためのTRIPODデータセット(総コンセンサス+5.51%)において,最先端の手法よりも優れていた。 Previous research has studied the task of segmenting cinematic videos into scenes and into narrative acts. However, these studies have overlooked the essential task of multimodal alignment and fusion for effectively and efficiently processing long-form videos (>60min). In this paper, we introduce Multimodal alignmEnt aGgregation and distillAtion (MEGA) for cinematic long-video segmentation. MEGA tackles the challenge by leveraging multiple media modalities. The method coarsely aligns inputs of variable lengths and different modalities with alignment positional encoding. To maintain temporal synchronization while reducing computation, we further introduce an enhanced bottleneck fusion layer which uses temporal alignment. Additionally, MEGA employs a novel contrastive loss to synchronize and transfer labels across modalities, enabling act segmentation from labeled synopsis sentences on video shots. Our experimental results show that MEGA outperforms state-of-the-art methods on MovieNet dataset for scene segmentation (with an Average Precision improvement of +1.19%) and on TRIPOD dataset for act segmentation (with a Total Agreement improvement of +5.51%) | 翻訳日:2023-08-23 19:18:45 公開日:2023-08-22 |
# ReFit: 3Dヒューマンリカバリのためのリカレントフィッティングネットワーク ReFit: Recurrent Fitting Network for 3D Human Recovery ( http://arxiv.org/abs/2308.11184v1 ) ライセンス: Link先を確認 | Yufu Wang, Kostas Daniilidis | (参考訳) リカレントフィッティング(Recurrent Fitting, ReFit)は, 単画像・パラメトリック3次元再構成のためのニューラルネットワークアーキテクチャである。
ReFitは、最適化を通じて逆問題を解決する戦略を反映したフィードバック更新ループを学習する。
反復的なステップ毎に、人間モデルからキーポイントを再投影して、クエリフィードバックのためのマップを特徴付けし、リカレントベースの更新器を使用して、モデルを調整して画像に適合させる。
ReFitは逆問題に関する強い知識を符号化するので、以前の回帰モデルよりも訓練が速い。
同時に、ReFitは標準ベンチマークの最先端のパフォーマンスを改善している。
さらに、ReFitはマルチビューフィッティングやシングルビュー形状フィッティングといった他の最適化設定にも適用される。
プロジェクトwebサイト: https://yufu-wang.github.io/refit_humans/ We present Recurrent Fitting (ReFit), a neural network architecture for single-image, parametric 3D human reconstruction. ReFit learns a feedback-update loop that mirrors the strategy of solving an inverse problem through optimization. At each iterative step, it reprojects keypoints from the human model to feature maps to query feedback, and uses a recurrent-based updater to adjust the model to fit the image better. Because ReFit encodes strong knowledge of the inverse problem, it is faster to train than previous regression models. At the same time, ReFit improves state-of-the-art performance on standard benchmarks. Moreover, ReFit applies to other optimization settings, such as multi-view fitting and single-view shape fitting. Project website: https://yufu-wang.github.io/refit_humans/ | 翻訳日:2023-08-23 19:18:24 公開日:2023-08-22 |
# デジタル癌組織学における意味セグメンテーション,インスタンスセグメンテーション,マルチオルガン核分類の3つのボトムアップフレームワーク A three in one bottom-up framework for simultaneous semantic segmentation, instance segmentation and classification of multi-organ nuclei in digital cancer histology ( http://arxiv.org/abs/2308.11179v1 ) ライセンス: Link先を確認 | Ibtihaj Ahmad, Syed Muhammad Israr, Zain Ul Islam | (参考訳) デジタル組織学における核の同時分割と分類は、コンピュータ支援癌診断において重要な役割を果たすが、依然として困難である。
最も達成されたバイナリとマルチクラスのPanoptic Quality (PQ)は、それぞれ0.68 bPQと0.49 mPQである。
これは、高い染色変動性、組織全体の変動性、粗い臨床状態、重なり合う核、核種の不均衡によるものである。
一般的なディープラーニング手法は通常、エンドツーエンドモデルに依存しているが、デジタルヒストロジーに関連するこれらの問題には対処できない。
これまでの研究であるDAN-NucNetでは、エンド・ツー・エンド・モデルを用いてセマンティックセグメンテーションの課題を解決した。
この作業は、以前のモデルを同時インスタンスセグメンテーションと分類に拡張します。
我々は、意味セグメンテーション、エッジ提案、分類マップを生成する独立した重み付き損失を伴う追加のデコーダヘッドを導入する。
三頭モデルからの出力を使って、後処理を適用して最終的なセグメンテーションと分類を行う。
多段階アプローチでは,最先端の提案と意味セグメンテーションを用いて,直接セグメンテーションと分類戦略を比較した。
これにより,高品質なインスタンスセグメンテーションと核分類の生成において,大幅な性能向上が期待できる。
意味セグメンテーションの0.841 diceスコア,例セグメンテーションの0.713bpqスコア,核分類の0.633mpqを達成した。
提案フレームワークは19種類の組織にまたがって一般化されている。
さらに、フレームワークは最先端に比べて複雑ではない。 Simultaneous segmentation and classification of nuclei in digital histology play an essential role in computer-assisted cancer diagnosis; however, it remains challenging. The highest achieved binary and multi-class Panoptic Quality (PQ) remains as low as 0.68 bPQ and 0.49 mPQ, respectively. It is due to the higher staining variability, variability across the tissue, rough clinical conditions, overlapping nuclei, and nuclear class imbalance. The generic deep-learning methods usually rely on end-to-end models, which fail to address these problems associated explicitly with digital histology. In our previous work, DAN-NucNet, we resolved these issues for semantic segmentation with an end-to-end model. This work extends our previous model to simultaneous instance segmentation and classification. We introduce additional decoder heads with independent weighted losses, which produce semantic segmentation, edge proposals, and classification maps. We use the outputs from the three-head model to apply post-processing to produce the final segmentation and classification. Our multi-stage approach utilizes edge proposals and semantic segmentations compared to direct segmentation and classification strategies followed by most state-of-the-art methods. Due to this, we demonstrate a significant performance improvement in producing high-quality instance segmentation and nuclei classification. We have achieved a 0.841 Dice score for semantic segmentation, 0.713 bPQ scores for instance segmentation, and 0.633 mPQ for nuclei classification. Our proposed framework is generalized across 19 types of tissues. Furthermore, the framework is less complex compared to the state-of-the-art. | 翻訳日:2023-08-23 19:18:11 公開日:2023-08-22 |
# ViCo: 人間の嗜好を抑えたビデオコメント生成 ViCo: Engaging Video Comment Generation with Human Preference Rewards ( http://arxiv.org/abs/2308.11171v1 ) ライセンス: Link先を確認 | Yuchong Sun, Bei Liu, Xu Chen, Ruihua Song, Jianlong Fu | (参考訳) ビデオコメントは、視聴者の感情、考え、ユーモアの担い手であるため、ビデオソーシャルメディアにおいて重要な役割を担っている。
キャプション型エンコーダ-デコーダモデルを採用することで,ビデオコメント生成の初期研究を行っている。
しかし、コメント生成はキャプション生成とは異なるいくつかの固有の課題を示しており、これらの手法は係わるコメントを生成するのにやや効果が低い。
キャプションの客観的かつ記述的な性質とは対照的に、コメントは本質的に主観的であり、コメントのエンゲージメントを定量化し評価することは困難である。
さらに、真に魅力的なコメントの不足は、十分な高品質なトレーニングサンプルを集めるのに困難をもたらします。
本稿では,ビデオコメント生成の課題に対処するために,3つの新しいデザインを取り入れたViCoを提案する。
まず、コメントの関与度を定量化するために、各コメントが受信する「いいね」の数を適切なデバイアス手順の後に人間の好みの代理として利用する。
次に、コメントのエンゲージメントを自動的に評価するために、評価を上記のプロキシに合わせるために報酬モデルをトレーニングする。
本研究は,この報酬モデルが人間の判断と効果的に一致することを示す。
最後に、高品質なコメントの不足を軽減するために、最初のジェネレータは簡単に利用できるがノイズの多いデータに基づいてトレーニングされ、コメントを生成する。
次に、報酬モデルを使用し、生成されたコメントにフィードバックを与え、初期ジェネレータを最適化する。
ビデオコメントの研究を容易にするため,人気ビデオサイトからビデオコメントデータベース(ViCo-20k)の豊富なメタデータを収集する。
ViCo-20kの実験では、ViCoモデルが生成したコメントは、量的および質的な結果の両方において、特にエンゲージメントを考慮した場合に、最高のパフォーマンスを示す。 Engaging video comments play an important role in video social media, as they are the carrier of feelings, thoughts, or humor of the audience. Preliminary works have made initial exploration for video comment generation by adopting caption-style encoder-decoder models. However, comment generation presents some unique challenges distinct from caption generation, which makes these methods somewhat less effective at generating engaging comments. In contrast to the objective and descriptive nature of captions, comments tend to be inherently subjective, making it hard to quantify and evaluate the engagement of comments. Furthermore, the scarcity of truly engaging comments brings difficulty to collecting enough high-quality training examples. In this paper, we propose ViCo with three novel designs to tackle the above challenges for generating engaging Video Comments. Firstly, to quantify the engagement of comments, we utilize the number of "likes" each comment receives as a proxy of human preference after an appropriate debiasing procedure. Secondly, to automatically evaluate the engagement of comments, we train a reward model to align its judgment to the above proxy. Our user studies indicate that this reward model effectively aligns with human judgments. Lastly, to alleviate the scarcity of high-quality comments, an initial generator is trained on readily available but noisy data to generate comments. Then the reward model is employed to offer feedback on the generated comments, thus optimizing the initial generator. To facilitate the research of video commenting, we collect a large video comment-dataset (ViCo-20k) with rich metadata from a popular video website. Experiments on ViCo-20k show that the comments generated by our ViCo model exhibit the best performance in terms of both quantitative and qualitative results, particularly when engagement is considered. | 翻訳日:2023-08-23 19:17:42 公開日:2023-08-22 |
# 半教師付きポイントクラウドセマンティクスセグメンテーションのための階層型ポイントベースアクティブラーニング Hierarchical Point-based Active Learning for Semi-supervised Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2308.11166v1 ) ライセンス: Link先を確認 | Zongyi Xu, Bo Yuan, Shanshan Zhao, Qianni Zhang, Xinbo Gao | (参考訳) 大量のラベル付きデータを持つ完全教師付き手法によって,ポイントクラウドセマンティックセマンティックセマンティクスにおける印象的な性能が達成されている。
大規模ポイントクラウドデータをポイントワイドラベルで取得することは労働集約的であるため,アノテーションを限定した3Dポイントクラウドセグメンテーションの学習が試みられている。
アクティブラーニングは、この目的を達成する効果的な戦略の1つだが、まだ未熟である。
この種の最新の手法は、手動ラベリングのための各分割済み領域の不確実性を測定するが、冗長な情報に悩まされ、地域分割にさらなる努力を要する。
本稿では,階層型ポイントベースアクティブラーニング戦略を開発し,この問題に対処することを目的とする。
具体的には,複数のレベルの文脈情報を考慮した階層的最小マージン不確実性モジュールを用いて各点の不確実性を測定する。
次に、手動ラベリングにおいて重要かつ代表的ポイントを選定する特徴距離抑制戦略を考案する。
さらに、ラベルのないデータをうまく活用するために、当社のアクティブ戦略に基づいた半教師ありセグメンテーションフレームワークを構築します。
S3DISとScanNetV2データセットの大規模な実験により、提案フレームワークは、それぞれ0.07%と0.1%のトレーニングデータで、完全に教師されたベースラインの96.5%と100%のパフォーマンスを達成した。
コードはhttps://github.com/SmiletoE/HPALで入手できる。 Impressive performance on point cloud semantic segmentation has been achieved by fully-supervised methods with large amounts of labelled data. As it is labour-intensive to acquire large-scale point cloud data with point-wise labels, many attempts have been made to explore learning 3D point cloud segmentation with limited annotations. Active learning is one of the effective strategies to achieve this purpose but is still under-explored. The most recent methods of this kind measure the uncertainty of each pre-divided region for manual labelling but they suffer from redundant information and require additional efforts for region division. This paper aims at addressing this issue by developing a hierarchical point-based active learning strategy. Specifically, we measure the uncertainty for each point by a hierarchical minimum margin uncertainty module which considers the contextual information at multiple levels. Then, a feature-distance suppression strategy is designed to select important and representative points for manual labelling. Besides, to better exploit the unlabelled data, we build a semi-supervised segmentation framework based on our active strategy. Extensive experiments on the S3DIS and ScanNetV2 datasets demonstrate that the proposed framework achieves 96.5% and 100% performance of fully-supervised baseline with only 0.07% and 0.1% training data, respectively, outperforming the state-of-the-art weakly-supervised and active learning methods. The code will be available at https://github.com/SmiletoE/HPAL. | 翻訳日:2023-08-23 19:17:11 公開日:2023-08-22 |
# 1段階プログレッシブ・デングレーションによるマルチモダリティ画像融合の精度向上 Improving Misaligned Multi-modality Image Fusion with One-stage Progressive Dense Registration ( http://arxiv.org/abs/2308.11165v1 ) ライセンス: Link先を確認 | Di Wang, Jinyuan Liu, Long Ma, Risheng Liu, Xin Fan | (参考訳) 多モード画像間の相違は、画像融合の課題を引き起こし、構造的歪みとエッジゴーストとして現れる。
既存の努力は、一般的に最初に登録し、後に融合し、通常、粗い登録と細かな登録の2つの段階を使用する。
どちらの段階も、それぞれの目標変形場を直接推定する。
本稿では,分離した2段階の登録はコンパクトではなく,対象変形場の直接推定は十分正確ではないと主張する。
これらの課題に対処するために,一段階最適化のみを用いて粗粒間登録を実現し,不整合マルチモダリティ画像の融合性能を向上させるクロスモダリティマルチスケールプログレッシブデント登録(c-mpdr)方式を提案する。
具体的には、密度変形場融合(DFF)モジュールとプログレッシブ・フィーチャー・ファイン(PFF)モジュールの2つの重要な要素が関与している。
DFFは予測されたマルチスケール変形サブフィールドを現在のスケールで集約し、PFFは残りの不整合性を徐々に洗練する。
両者は協力して最終変形場を正確に推定する。
さらに,局所的および長距離的特徴依存を考慮したTransformer-Conv-based Fusion (TCF) サブネットワークを開発し,高品質な融合画像を生成するために,登録された赤外線および可視画像からより情報的な特徴を捉えることができる。
広汎な実験解析により,不整合画像の融合における提案手法の優位性を示した。 Misalignments between multi-modality images pose challenges in image fusion, manifesting as structural distortions and edge ghosts. Existing efforts commonly resort to registering first and fusing later, typically employing two cascaded stages for registration,i.e., coarse registration and fine registration. Both stages directly estimate the respective target deformation fields. In this paper, we argue that the separated two-stage registration is not compact, and the direct estimation of the target deformation fields is not accurate enough. To address these challenges, we propose a Cross-modality Multi-scale Progressive Dense Registration (C-MPDR) scheme, which accomplishes the coarse-to-fine registration exclusively using a one-stage optimization, thus improving the fusion performance of misaligned multi-modality images. Specifically, two pivotal components are involved, a dense Deformation Field Fusion (DFF) module and a Progressive Feature Fine (PFF) module. The DFF aggregates the predicted multi-scale deformation sub-fields at the current scale, while the PFF progressively refines the remaining misaligned features. Both work together to accurately estimate the final deformation fields. In addition, we develop a Transformer-Conv-based Fusion (TCF) subnetwork that considers local and long-range feature dependencies, allowing us to capture more informative features from the registered infrared and visible images for the generation of high-quality fused images. Extensive experimental analysis demonstrates the superiority of the proposed method in the fusion of misaligned cross-modality images. | 翻訳日:2023-08-23 19:16:40 公開日:2023-08-22 |
# 高次ランダムウォークを用いたデカップリング型マルチビュークラスタリング Decoupled Contrastive Multi-view Clustering with High-order Random Walks ( http://arxiv.org/abs/2308.11164v1 ) ライセンス: Link先を確認 | Yiding Lu, Yijie Lin, Mouxing Yang, Dezhong Peng, Peng Hu, Xi Peng | (参考訳) 近年, クラスタ内サンプルが負のペアとして誤って扱われるなど, 偽陰性の問題を軽減するために, 近隣からのデータペアを構築する, 頑健なマルチビュークラスタリング(MvC)手法が提案されている。
これらの方法では有望な性能が達成されているが、偽陰性問題はまだ解決されておらず、全ての対人および対人関係のサンプルが単に正と負として扱われているため偽陽性問題が発生する。
この問題に対処するために,高次ランダムウォーク(divide)を用いた非結合型コントラストマルチビュークラスタリングという,新しいロバストな手法を提案する。
簡単に言うと、divisionはランダムウォークを利用して、ローカルな方法でではなく、グローバルにデータペアを段階的に識別する。
その結果、DIVIDEは近隣の陰性および外部の陽性を同定することができた。
さらに、DIVIDEは新しいMvCアーキテクチャを採用し、異なる埋め込み空間でビュー内およびビュー内コントラスト学習を行い、クラスタリング性能を高め、欠落したビューに対するロバスト性を受け入れる。
DIVIDEの有効性を検証するため、4つのベンチマークデータセットに対して、完全および不完全両方のMvC設定において、9つの最先端MvC手法と比較して広範な実験を行った。 In recent, some robust contrastive multi-view clustering (MvC) methods have been proposed, which construct data pairs from neighborhoods to alleviate the false negative issue, i.e., some intra-cluster samples are wrongly treated as negative pairs. Although promising performance has been achieved by these methods, the false negative issue is still far from addressed and the false positive issue emerges because all in- and out-of-neighborhood samples are simply treated as positive and negative, respectively. To address the issues, we propose a novel robust method, dubbed decoupled contrastive multi-view clustering with high-order random walks (DIVIDE). In brief, DIVIDE leverages random walks to progressively identify data pairs in a global instead of local manner. As a result, DIVIDE could identify in-neighborhood negatives and out-of-neighborhood positives. Moreover, DIVIDE embraces a novel MvC architecture to perform inter- and intra-view contrastive learning in different embedding spaces, thus boosting clustering performance and embracing the robustness against missing views. To verify the efficacy of DIVIDE, we carry out extensive experiments on four benchmark datasets comparing with nine state-of-the-art MvC methods in both complete and incomplete MvC settings. | 翻訳日:2023-08-23 19:16:10 公開日:2023-08-22 |
# 深層ネットワークを用いたwho乳房分類における腫瘍識別の検索とマッチングに関する予備的検討 A Preliminary Investigation into Search and Matching for Tumour Discrimination in WHO Breast Taxonomy Using Deep Networks ( http://arxiv.org/abs/2308.11162v1 ) ライセンス: Link先を確認 | Abubakr Shafique, Ricardo Gonzalez, Liron Pantanowitz, Puay Hoon Tan, Alberto Machado, Ian A Cree, and Hamid R. Tizhoosh | (参考訳) 乳がんは世界中で女性に影響を及ぼす最も一般的ながんの1つである。
悪性腫瘍群を含み、様々な生物学的、臨床的、病理組織学的特徴を持つ。
35以上の異なる病理形態の乳腺病変があり、細胞の形態、成長、建築パターンに応じて組織学的に分類・診断することができる。
近年、人工知能の分野では、深層学習が医療画像のコンピュータ化表現に多くの注目を集めている。
検索可能なデジタルアトラスは、病理学者にパッチマッチングツールを提供することで、明らかに診断され治療された考古学的症例の中から検索することができる。
本研究では,35型にわたるWHO乳腺分類(Tumours 5th Ed.)を索引化し,解析した。
TCGAレポジトリから数百万の診断組織像に基づいて,最先端の深層学習モデルから抽出した深部特徴を用いて,すべての腫瘍型を可視化した。
さらに,デジタル"atlas"の概念を,希少なテストケースの検索とマッチングの基準としてテストした。
WHOの乳腺分類データのパッチ類似性検索は、「多数投票」による検証では88%以上、トップn型を用いた検査では91%以上の精度に達した。
これらの結果から, 乳房病変と乳房病変の複雑な関係について, 索引付きデジタルアーカイブを用いて検討した。 Breast cancer is one of the most common cancers affecting women worldwide. They include a group of malignant neoplasms with a variety of biological, clinical, and histopathological characteristics. There are more than 35 different histological forms of breast lesions that can be classified and diagnosed histologically according to cell morphology, growth, and architecture patterns. Recently, deep learning, in the field of artificial intelligence, has drawn a lot of attention for the computerized representation of medical images. Searchable digital atlases can provide pathologists with patch matching tools allowing them to search among evidently diagnosed and treated archival cases, a technology that may be regarded as computational second opinion. In this study, we indexed and analyzed the WHO breast taxonomy (Classification of Tumours 5th Ed.) spanning 35 tumour types. We visualized all tumour types using deep features extracted from a state-of-the-art deep learning model, pre-trained on millions of diagnostic histopathology images from the TCGA repository. Furthermore, we test the concept of a digital "atlas" as a reference for search and matching with rare test cases. The patch similarity search within the WHO breast taxonomy data reached over 88% accuracy when validating through "majority vote" and more than 91% accuracy when validating using top-n tumour types. These results show for the first time that complex relationships among common and rare breast lesions can be investigated using an indexed digital archive. | 翻訳日:2023-08-23 19:15:42 公開日:2023-08-22 |
# SwinV2DNet:リモートセンシング画像変化検出のためのピラミッドと自己スーパービジョン複合特徴学習 SwinV2DNet: Pyramid and Self-Supervision Compounded Feature Learning for Remote Sensing Images Change Detection ( http://arxiv.org/abs/2308.11159v1 ) ライセンス: Link先を確認 | Dalong Zheng, Zebin Wu, Jia Liu, Zhihui Wei | (参考訳) 現在の主流の変化検出ネットワークでは、transformerは正確な低レベル詳細をキャプチャする能力に欠けており、畳み込みニューラルネットワーク(cnn)はグローバル情報を理解し、遠隔空間関係を確立する能力を求めている。
一方、広く使われているアーリーフュージョンとレイトフュージョンの両方のフレームワークは、完全な変更機能を完全に学べない。
そこで,Swin Transformer V2 (Swin V2) と VGG16 をベースとして,SwinV2DNetとCNNの両方の利点を継承し,特徴学習における既存のネットワークの欠点を克服する。
まず、密結合されたSwin V2バックボーンを通じて変更関係の機能をキャプチャし、CNNブランチを通じて低レベルの事前変更と後変更の機能を提供する。
これら3つの変化特徴に基づいて,正確な変化検出を行う。
次に,transformer と cnn を組み合わせることで,層間インタラクション情報と層内マルチスケール情報を提供する混合特徴ピラミッド (mfp) を提案する。
MFPはプラグアンドプレイモジュールであり、他の変更検出ネットワークにも有効であることが実験的に証明されている。
さらに,cnnブランチの学習不能な問題を解決し,エンコーダの機能に関する意味的変更情報を提供する,新たなcnnブランチをガイドするために,自己スーパービジョン戦略を課す。
一般に使用される4つのリモートセンシングデータセットにおける最先端手法と比較し,最先端(sota)変化検出スコアと細粒度変化マップを得た。
コードはhttps://github.com/dalongz/swinv2dnetで入手できる。 Among the current mainstream change detection networks, transformer is deficient in the ability to capture accurate low-level details, while convolutional neural network (CNN) is wanting in the capacity to understand global information and establish remote spatial relationships. Meanwhile, both of the widely used early fusion and late fusion frameworks are not able to well learn complete change features. Therefore, based on swin transformer V2 (Swin V2) and VGG16, we propose an end-to-end compounded dense network SwinV2DNet to inherit the advantages of both transformer and CNN and overcome the shortcomings of existing networks in feature learning. Firstly, it captures the change relationship features through the densely connected Swin V2 backbone, and provides the low-level pre-changed and post-changed features through a CNN branch. Based on these three change features, we accomplish accurate change detection results. Secondly, combined with transformer and CNN, we propose mixed feature pyramid (MFP) which provides inter-layer interaction information and intra-layer multi-scale information for complete feature learning. MFP is a plug and play module which is experimentally proven to be also effective in other change detection networks. Further more, we impose a self-supervision strategy to guide a new CNN branch, which solves the untrainable problem of the CNN branch and provides the semantic change information for the features of encoder. The state-of-the-art (SOTA) change detection scores and fine-grained change maps were obtained compared with other advanced methods on four commonly used public remote sensing datasets. The code is available at https://github.com/DalongZ/SwinV2DNet. | 翻訳日:2023-08-23 19:15:18 公開日:2023-08-22 |
# Rationale不変量による領域一般化 Domain Generalization via Rationale Invariance ( http://arxiv.org/abs/2308.11158v1 ) ライセンス: Link先を確認 | Liang Chen, Yong Zhang, Yibing Song, Anton van den Hengel, and Lingqiao Liu | (参考訳) 本稿では,未確認環境においてもロバストな結果の維持を伴う領域一般化の課題を緩和する新たな視点を提供する。
我々の設計は最終分類層における意思決定プロセスに焦点を当てている。
具体的には,最終結果に対する要素的貢献を意思決定の根拠として扱い,各サンプルの理論的根拠を行列として表現することを提案する。
十分に一般化されたモデルでは、同じカテゴリに属するサンプルに対する有理行列は類似すべきであり、モデルが決定を行うためのドメイン不変の手がかりに依存しており、ロバストな結果を保証することを示唆する。
この概念を実装するために,単純な正規化手法として合理的不変性損失を導入し,数行のコードしか必要としない。
提案手法は, 単純性に拘わらず, 様々なデータセット間で競合する結果が得られることを示す。
コードは \url{https://github.com/liangchen527/RIDG} で入手できる。 This paper offers a new perspective to ease the challenge of domain generalization, which involves maintaining robust results even in unseen environments. Our design focuses on the decision-making process in the final classifier layer. Specifically, we propose treating the element-wise contributions to the final results as the rationale for making a decision and representing the rationale for each sample as a matrix. For a well-generalized model, we suggest the rationale matrices for samples belonging to the same category should be similar, indicating the model relies on domain-invariant clues to make decisions, thereby ensuring robust results. To implement this idea, we introduce a rationale invariance loss as a simple regularization technique, requiring only a few lines of code. Our experiments demonstrate that the proposed approach achieves competitive results across various datasets, despite its simplicity. Code is available at \url{https://github.com/liangchen527/RIDG}. | 翻訳日:2023-08-23 19:14:48 公開日:2023-08-22 |
# グラフによる大規模言語モデルの評価:パフォーマンス洞察と比較分析 Evaluating Large Language Models on Graphs: Performance Insights and Comparative Analysis ( http://arxiv.org/abs/2308.11224v1 ) ライセンス: Link先を確認 | Chang Liu, Bo Wu | (参考訳) 大規模言語モデル(llm)は、学術と産業の両方でかなりの関心を集めている。
しかし、グラフデータへのllmsの適用は未検討のままである。
本研究では,グラフデータを用いた解析問題に対処する4つのLSMの能力を評価する。
私たちは4つの異なる評価指標(理解、正確性、忠実性、そして正当性)を採用しています。
結果はこう示しています
1) LLMは自然言語のグラフデータを効果的に理解し, グラフトポロジによる推論を行う。
2) gptモデルは論理的かつコヒーレントな結果を生成することができる。
3) LLMは, ゼロショットチェーンや少数ショットプロンプトといった手法を用いて, 構造的推論における課題に直面した。
4) GPTモデルでは, 複数解答課題において誤答がしばしば生じ, 忠実度への懸念が高まった。
5) GPTモデルは出力に高い信頼性を示し、補正能力を妨げる可能性がある。
特に、GPT-4はGPT-3.5-turboとそれ以前のイテレーションからの応答を補正する能力を示した。
コードは、https://github.com/Ayame1006/LLMtoGraphで入手できる。 Large Language Models (LLMs) have garnered considerable interest within both academic and industrial. Yet, the application of LLMs to graph data remains under-explored. In this study, we evaluate the capabilities of four LLMs in addressing several analytical problems with graph data. We employ four distinct evaluation metrics: Comprehension, Correctness, Fidelity, and Rectification. Our results show that: 1) LLMs effectively comprehend graph data in natural language and reason with graph topology. 2) GPT models can generate logical and coherent results, outperforming alternatives in correctness. 3) All examined LLMs face challenges in structural reasoning, with techniques like zero-shot chain-of-thought and few-shot prompting showing diminished efficacy. 4) GPT models often produce erroneous answers in multi-answer tasks, raising concerns in fidelity. 5) GPT models exhibit elevated confidence in their outputs, potentially hindering their rectification capacities. Notably, GPT-4 has demonstrated the capacity to rectify responses from GPT-3.5-turbo and its own previous iterations. The code is available at: https://github.com/Ayame1006/LLMtoGraph. | 翻訳日:2023-08-23 19:07:05 公開日:2023-08-22 |
# プライバシー保護型多嚢胞性卵巣症候群治療における患者データに基づく連合学習 Federated Learning on Patient Data for Privacy-Protecting Polycystic Ovary Syndrome Treatment ( http://arxiv.org/abs/2308.11220v1 ) ライセンス: Link先を確認 | Lucia Morris, Tori Qiu, Nikhil Raghuraman | (参考訳) 女性の内分泌学の分野は、主に患者データのプライバシーに関する懸念から、データ駆動医療ソリューションに遅れを取っている。
ホルモンレベルや月経周期に関する貴重なデータポイントは、共生や妊娠に苦しむ患者を曝し、プライバシーを侵害する可能性がある。
本研究では,多嚢胞性卵巣症候群 (pcos) に対する最適薬剤の予測へのフェデレート学習 (fl) の適用について検討した。
PCOSは世界中で何百万もの女性に影響を及ぼす深刻なホルモン障害だが、理解は不十分で、研究は患者のデータ不足に悩まされている。
FLアプローチがPCOS患者データセットの合成に成功していることを示す。
提案するFLモデルは,PCOS患者にプライバシ保証を提供しながら,大量の多様なデータにアクセスし,最も効果的な治療オプションを特定するためのツールである。 The field of women's endocrinology has trailed behind data-driven medical solutions, largely due to concerns over the privacy of patient data. Valuable datapoints about hormone levels or menstrual cycling could expose patients who suffer from comorbidities or terminate a pregnancy, violating their privacy. We explore the application of Federated Learning (FL) to predict the optimal drug for patients with polycystic ovary syndrome (PCOS). PCOS is a serious hormonal disorder impacting millions of women worldwide, yet it's poorly understood and its research is stunted by a lack of patient data. We demonstrate that a variety of FL approaches succeed on a synthetic PCOS patient dataset. Our proposed FL models are a tool to access massive quantities of diverse data and identify the most effective treatment option while providing PCOS patients with privacy guarantees. | 翻訳日:2023-08-23 19:06:50 公開日:2023-08-22 |
# ビッグデータ時代のフェデレーション学習:ドメイン特有なマルチモーダル大モデル Federated Learning in Big Model Era: Domain-Specific Multimodal Large Models ( http://arxiv.org/abs/2308.11217v1 ) ライセンス: Link先を確認 | Zengxiang Li and Zhaoxiang Hou and Hui Liu and Ying Wang and Tongzhi Li and Longfei Xie and Chao Shi and Chengyi Yang and Weishan Zhang and Zelei Liu | (参考訳) 物理的世界を包括的に認識し認識できるマルチモーダルデータは、汎用人工知能への必須経路となっている。
しかし、パブリックデータセットでトレーニングされたマルチモーダルな大規模モデルは、特定の産業領域では性能が劣ることが多い。
本稿では、複数の企業がプライベートドメインデータを利用して、垂直ドメインのための大規模モデルを協調的にトレーニングし、シナリオをまたいだインテリジェントなサービスを実現するマルチモーダルフェデレーション学習フレームワークを提案する。
著者らは、ヘテロジニアスデータ、モデルアグリゲーション、パフォーマンスとコストのトレードオフ、データプライバシ、インセンティブメカニズムにおいて直面する新たな課題と同様に、ビッグデータ時代のインテリジェンス基盤と目的の観点から、フェデレーション学習の戦略的変革について詳細に論じている。
本稿では,分散配置やフェデレート学習プラットフォームの効率的な調整,大規模モデル能力に基づくデータ品質向上に関する技術的革新,効率的な統合微調整アプローチなど,都市安全運用管理にマルチモーダルデータと専門家知識を寄与する大企業のケーススタディを詳述する。
予備実験により、企業はマルチモーダルモデルフェデレーション学習を通じてインテリジェントな能力を増強し蓄積することができ、エネルギーインフラの安全性、住宅コミュニティのセキュリティ、都市運営管理を含む高品質なインテリジェントサービスを提供するスマートシティモデルを共同で作成できることが示された。
確立されたフェデレーション学習連携エコシステムは、産業、学界、研究資源を更に集約し、複数の垂直領域における大規模モデルを実現し、人工知能の大規模産業応用とマルチモーダルフェデレーション学習の最先端研究を促進することが期待されている。 Multimodal data, which can comprehensively perceive and recognize the physical world, has become an essential path towards general artificial intelligence. However, multimodal large models trained on public datasets often underperform in specific industrial domains. This paper proposes a multimodal federated learning framework that enables multiple enterprises to utilize private domain data to collaboratively train large models for vertical domains, achieving intelligent services across scenarios. The authors discuss in-depth the strategic transformation of federated learning in terms of intelligence foundation and objectives in the era of big model, as well as the new challenges faced in heterogeneous data, model aggregation, performance and cost trade-off, data privacy, and incentive mechanism. The paper elaborates a case study of leading enterprises contributing multimodal data and expert knowledge to city safety operation management , including distributed deployment and efficient coordination of the federated learning platform, technical innovations on data quality improvement based on large model capabilities and efficient joint fine-tuning approaches. Preliminary experiments show that enterprises can enhance and accumulate intelligent capabilities through multimodal model federated learning, thereby jointly creating an smart city model that provides high-quality intelligent services covering energy infrastructure safety, residential community security, and urban operation management. The established federated learning cooperation ecosystem is expected to further aggregate industry, academia, and research resources, realize large models in multiple vertical domains, and promote the large-scale industrial application of artificial intelligence and cutting-edge research on multimodal federated learning. | 翻訳日:2023-08-23 19:06:34 公開日:2023-08-22 |
# DiffCloth: 構造的クロスモーダルセマンティックアライメントによる拡散型ガーメント合成と操作 DiffCloth: Diffusion Based Garment Synthesis and Manipulation via Structural Cross-modal Semantic Alignment ( http://arxiv.org/abs/2308.11206v1 ) ライセンス: Link先を確認 | Xujie Zhang, Binbin Yang, Michael C. Kampffmeyer, Wenqing Zhang, Shiyue Zhang, Guansong Lu, Liang Lin, Hang Xu, Xiaodan Liang | (参考訳) クロスモーダル衣料品の合成と操作は,ファッションデザイナーによる衣料品の生成やフレキシブルな言語インターフェースによるデザイン変更の方法に大きなメリットをもたらす。
そこで本研究では, クロスモーダルな衣服合成と操作のための拡散に基づくパイプラインであるDiffClothを紹介し, クロスモーダルな意味論を構造的に整列させることで, ファッション領域における柔軟な構成性を持つ拡散モデルを実現する。
具体的には、構成構文解析と意味セグメンテーションにより得られる言語属性・フレーズ(ap)と視覚服部との2部マッチング問題として、部分レベルのクロスモーダルアライメントを定式化する。
属性混同の問題を緩和するため,属性形容詞の注意マップと各APの名詞間の空間構造的類似性を維持するために,意味に満ちたクロスアテンションを提案する。
さらにDiffClothは、テキストプロンプト内のAPを置き換えることで、生成された結果の操作を可能にする。
操作非関連領域はAPの束縛された注目マップから得られる混合マスクによって認識され、変化しない。
CM-Fashionベンチマークの大規模な実験により、DiffClothはどちらも、固有の構造情報を活用し、領域の整合性による柔軟な操作をサポートすることにより、最先端の衣服合成結果を得ることを示した。 Cross-modal garment synthesis and manipulation will significantly benefit the way fashion designers generate garments and modify their designs via flexible linguistic interfaces.Current approaches follow the general text-to-image paradigm and mine cross-modal relations via simple cross-attention modules, neglecting the structural correspondence between visual and textual representations in the fashion design domain. In this work, we instead introduce DiffCloth, a diffusion-based pipeline for cross-modal garment synthesis and manipulation, which empowers diffusion models with flexible compositionality in the fashion domain by structurally aligning the cross-modal semantics. Specifically, we formulate the part-level cross-modal alignment as a bipartite matching problem between the linguistic Attribute-Phrases (AP) and the visual garment parts which are obtained via constituency parsing and semantic segmentation, respectively. To mitigate the issue of attribute confusion, we further propose a semantic-bundled cross-attention to preserve the spatial structure similarities between the attention maps of attribute adjectives and part nouns in each AP. Moreover, DiffCloth allows for manipulation of the generated results by simply replacing APs in the text prompts. The manipulation-irrelevant regions are recognized by blended masks obtained from the bundled attention maps of the APs and kept unchanged. Extensive experiments on the CM-Fashion benchmark demonstrate that DiffCloth both yields state-of-the-art garment synthesis results by leveraging the inherent structural information and supports flexible manipulation with region consistency. | 翻訳日:2023-08-23 19:06:03 公開日:2023-08-22 |
# Few-shot Segmentationのためのマスク付きクロスイメージ符号化 Masked Cross-image Encoding for Few-shot Segmentation ( http://arxiv.org/abs/2308.11201v1 ) ライセンス: Link先を確認 | Wenbo Xu, Huaxi Huang, Ming Cheng, Litao Yu, Qiang Wu, Jian Zhang | (参考訳) Few-shot segmentation (FSS) は、注釈付き画像の限られた数だけを用いて、未確認クラスのピクセルワイズラベルを推測することを目的とした、密度の高い予測タスクである。
FSSの主な課題は、少数のラベル付きサポート例から学んだクラスプロトタイプを使用して、クエリピクセルのラベルを分類することである。
FSSの以前のアプローチは、サポートイメージから独立してクラスワイド記述子を学ぶことに集中しており、サポートクエリ機能間のリッチなコンテキスト情報や相互依存関係を無視している。
そこで本稿では,この制限に対処するために,オブジェクトの詳細を記述する共通視覚特性をキャプチャし,画像間の双方向依存性を学習し,特徴の相互作用を高めるために,マスククロスイメージ符号化(mce)と呼ばれる共同学習手法を提案する。
MCEは視覚表現エンリッチメントモジュール以上のもので、相互依存と暗黙のガイダンスも考慮している。
FSSベンチマーク PASCAL-$5^i$ と COCO-$20^i$ の実験では,提案手法の高度なメタ学習能力を実証している。 Few-shot segmentation (FSS) is a dense prediction task that aims to infer the pixel-wise labels of unseen classes using only a limited number of annotated images. The key challenge in FSS is to classify the labels of query pixels using class prototypes learned from the few labeled support exemplars. Prior approaches to FSS have typically focused on learning class-wise descriptors independently from support images, thereby ignoring the rich contextual information and mutual dependencies among support-query features. To address this limitation, we propose a joint learning method termed Masked Cross-Image Encoding (MCE), which is designed to capture common visual properties that describe object details and to learn bidirectional inter-image dependencies that enhance feature interaction. MCE is more than a visual representation enrichment module; it also considers cross-image mutual dependencies and implicit guidance. Experiments on FSS benchmarks PASCAL-$5^i$ and COCO-$20^i$ demonstrate the advanced meta-learning ability of the proposed method. | 翻訳日:2023-08-23 19:05:33 公開日:2023-08-22 |
# ConcatPlexer: より高速なViTのための追加のDim1バッチ ConcatPlexer: Additional Dim1 Batching for Faster ViTs ( http://arxiv.org/abs/2308.11199v1 ) ライセンス: Link先を確認 | Donghoon Han, Seunghyeon Seo, Donghyeon Jeon, Jiho Jang, Chaerin Kong and Nojun Kwak | (参考訳) トランスフォーマーは自然言語処理(nlp)の領域だけでなく、コンピュータビジョンの分野においても大きな成功を収め、様々な創造的なアプローチや応用を無視している。
しかし、トランスフォーマの優れた性能とモデリングの柔軟性は計算コストの大幅な増加をもたらしたため、この負担を軽減する方法がいくつか提案されている。
データ多重化(data multiplexing, datamux)という言語モデルで当初提案されていたコスト削減手法に触発されて,dim1バッチ(すなわち結合)を付加し,精度を損なうことなくスループットを大幅に向上させる効率的な視覚認識のための新しい手法を提案する。
まず,視覚モデルに対するdatamuxのナイーブな適応,イメージ多重化,その弱点を克服するための新しいコンポーネントの考案,最終モデルであるconcatplexerを推論速度と精度の中間のスイートスポットに配置する。
ConcatPlexerはImageNet1KとCIFAR100データセットでトレーニングされ、それぞれ69.5%と83.4%の精度でVT-B/16よりも23.5%少ないGFLOPを達成した。 Transformers have demonstrated tremendous success not only in the natural language processing (NLP) domain but also the field of computer vision, igniting various creative approaches and applications. Yet, the superior performance and modeling flexibility of transformers came with a severe increase in computation costs, and hence several works have proposed methods to reduce this burden. Inspired by a cost-cutting method originally proposed for language models, Data Multiplexing (DataMUX), we propose a novel approach for efficient visual recognition that employs additional dim1 batching (i.e., concatenation) that greatly improves the throughput with little compromise in the accuracy. We first introduce a naive adaptation of DataMux for vision models, Image Multiplexer, and devise novel components to overcome its weaknesses, rendering our final model, ConcatPlexer, at the sweet spot between inference speed and accuracy. The ConcatPlexer was trained on ImageNet1K and CIFAR100 dataset and it achieved 23.5% less GFLOPs than ViT-B/16 with 69.5% and 83.4% validation accuracy, respectively. | 翻訳日:2023-08-23 19:05:13 公開日:2023-08-22 |
# スパースビューからのハンドオブジェクトインタラクションのための新規ビュー合成とポーズ推定 Novel-view Synthesis and Pose Estimation for Hand-Object Interaction from Sparse Views ( http://arxiv.org/abs/2308.11198v1 ) ライセンス: Link先を確認 | Wentian Qu, Zhaopeng Cui, Yinda Zhang, Chenyu Meng, Cuixia Ma, Xiaoming Deng, Hongan Wang | (参考訳) 没入的コミュニケーションでは,手と物体の相互作用の理解とほとんど対応しない新しい視点合成が望まれるが,手と物体の間の高い変形と重い咬合のため難しい。
本稿では,スパースビューから手-物体間相互作用を推定するニューラルレンダリングとポーズ推定システムを提案し,手-物体間相互作用の3次元編集を可能にする。
本稿では,前もって構築されたシーン固有のモデルによって,特に入力が疎い場合に視覚タスクを著しく改善・解き放つことを示し,それを動的手動インタラクションシナリオに拡張し,その問題を2段階で解くことを提案する。
まず、オフラインステージの神経表現と分離して、手とオブジェクトの事前知識の形状と外観を学習する。
オンラインの段階では,手とオブジェクト間の動的ハンドオブジェクトインタラクションやインタラクションの優先順位を理解するためのレンダリングベースのジョイントモデルフィッティングフレームワークを設計し,手とオブジェクト間の浸透・分離問題を克服し,新たなビュー合成を可能にした。
連続するハンド・オブジェクト間インタラクションプロセス中に安定した接触を得るため、コンタクト領域を一貫性を持たせるために、安定した接触損失を提案する。
実験により,本手法が最先端手法に勝ることを実証した。
コードとデータセットはproject webpage https://iscas3dv.github.io/ho-nerfで入手できる。 Hand-object interaction understanding and the barely addressed novel view synthesis are highly desired in the immersive communication, whereas it is challenging due to the high deformation of hand and heavy occlusions between hand and object. In this paper, we propose a neural rendering and pose estimation system for hand-object interaction from sparse views, which can also enable 3D hand-object interaction editing. We share the inspiration from recent scene understanding work that shows a scene specific model built beforehand can significantly improve and unblock vision tasks especially when inputs are sparse, and extend it to the dynamic hand-object interaction scenario and propose to solve the problem in two stages. We first learn the shape and appearance prior knowledge of hands and objects separately with the neural representation at the offline stage. During the online stage, we design a rendering-based joint model fitting framework to understand the dynamic hand-object interaction with the pre-built hand and object models as well as interaction priors, which thereby overcomes penetration and separation issues between hand and object and also enables novel view synthesis. In order to get stable contact during the hand-object interaction process in a sequence, we propose a stable contact loss to make the contact region to be consistent. Experiments demonstrate that our method outperforms the state-of-the-art methods. Code and dataset are available in project webpage https://iscas3dv.github.io/HO-NeRF. | 翻訳日:2023-08-23 19:04:50 公開日:2023-08-22 |
# ViLLA: 実世界データによる細粒度視覚言語表現学習 ViLLA: Fine-Grained Vision-Language Representation Learning from Real-World Data ( http://arxiv.org/abs/2308.11194v1 ) ライセンス: Link先を確認 | Maya Varma, Jean-Benoit Delbrouck, Sarah Hooper, Akshay Chaudhari, Curtis Langlotz | (参考訳) CLIPやALIGNのような視覚言語モデル(VLM)は一般的に、Webから取得した画像キャプチャペアからなるデータセットに基づいて訓練される。
しかしながら、医療データのような現実のマルチモーダルデータセットは、より複雑である: 各画像(例えば、X線)は、画像のきめ細かい領域で発生する多くの異なる属性を記述するテキスト(例えば、医師レポート)とペアリングされることが多い。
各画像とテキストのペアを多数の領域属性のペアに分解できるため、これらのサンプルは高いペアワイズ複雑度を示す。
VLMが画像領域とテキスト属性の微細な関係を捉えることができる範囲については、これまでは評価されていない。
この研究の最初の重要な貢献は、トレーニングデータセットのペアワイズ複雑性が増加するにつれて、標準vlmが地域属性関係の学習に苦慮し、検索タスクで最大37%のパフォーマンス低下を示すという系統的評価を通じて実証することである。
この問題に対処するため、第2のキーコントリビューションとしてViLLAを紹介します。
ViLLAは、複雑なデータセットからきめ細かい領域属性関係をキャプチャするために訓練されている。
(a)画像テキストサンプルを地域属性対に分解する軽量で自己監督型マッピングモデル
b) 生成された領域属性対から表現を学習する対照的なVLM。
VLLAは、ゼロショットオブジェクト検出(COCO3.6 AP50点、LVIS0.6 mAP点)や検索(14.2 R-Precision点)など、細粒度推論タスクにおいて、VLMよりも優れていることを4つの領域(合成、製品、医療、自然画像)で実証した。 Vision-language models (VLMs), such as CLIP and ALIGN, are generally trained on datasets consisting of image-caption pairs obtained from the web. However, real-world multimodal datasets, such as healthcare data, are significantly more complex: each image (e.g. X-ray) is often paired with text (e.g. physician report) that describes many distinct attributes occurring in fine-grained regions of the image. We refer to these samples as exhibiting high pairwise complexity, since each image-text pair can be decomposed into a large number of region-attribute pairings. The extent to which VLMs can capture fine-grained relationships between image regions and textual attributes when trained on such data has not been previously evaluated. The first key contribution of this work is to demonstrate through systematic evaluations that as the pairwise complexity of the training dataset increases, standard VLMs struggle to learn region-attribute relationships, exhibiting performance degradations of up to 37% on retrieval tasks. In order to address this issue, we introduce ViLLA as our second key contribution. ViLLA, which is trained to capture fine-grained region-attribute relationships from complex datasets, involves two components: (a) a lightweight, self-supervised mapping model to decompose image-text samples into region-attribute pairs, and (b) a contrastive VLM to learn representations from generated region-attribute pairs. We demonstrate with experiments across four domains (synthetic, product, medical, and natural images) that ViLLA outperforms comparable VLMs on fine-grained reasoning tasks, such as zero-shot object detection (up to 3.6 AP50 points on COCO and 0.6 mAP points on LVIS) and retrieval (up to 14.2 R-Precision points). | 翻訳日:2023-08-23 19:04:24 公開日:2023-08-22 |
# 多様性対策:言語モデルクエリの障害に対するドメインに依存しないプロキシ Diversity Measures: Domain-Independent Proxies for Failure in Language Model Queries ( http://arxiv.org/abs/2308.11189v1 ) ライセンス: Link先を確認 | Noel Ngu, Nathaniel Lee, Paulo Shakarian | (参考訳) 大きな言語モデルにおけるエラー予測は、しばしばドメイン固有の情報に依存する。
本稿では,与えられたプロンプトに対する応答の多様性に基づいて,大規模言語モデルの応答における誤差の定量化手法を提案する。
エントロピー, ジーニ不純物, セントロイド距離に基づく3つの測度を用いる方法について述べる。
複数のデータセットと温度設定に関する一連の実験を行い、これらの測定が失敗の確率と強く相関していることを示す。
さらに,これらの指標が,数ショットプロンプト,連鎖的思考推論,誤り検出にどのように適用できるかを示す実験結果を示す。 Error prediction in large language models often relies on domain-specific information. In this paper, we present measures for quantification of error in the response of a large language model based on the diversity of responses to a given prompt - hence independent of the underlying application. We describe how three such measures - based on entropy, Gini impurity, and centroid distance - can be employed. We perform a suite of experiments on multiple datasets and temperature settings to demonstrate that these measures strongly correlate with the probability of failure. Additionally, we present empirical results demonstrating how these measures can be applied to few-shot prompting, chain-of-thought reasoning, and error detection. | 翻訳日:2023-08-23 19:03:48 公開日:2023-08-22 |
# 汎用視覚言語モデルのための知識認識プロンプトチューニング Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models ( http://arxiv.org/abs/2308.11186v1 ) ライセンス: Link先を確認 | Baoshuo Kan, Teng Wang, Wenpeng Lu, Xiantong Zhen, Weili Guan, Feng Zheng | (参考訳) 事前訓練された視覚言語モデル(例えばCLIP)は手動で設計したプロンプトで動作し、転送学習の能力を示す。
最近では、学習可能なプロンプトは最先端のパフォーマンスを達成するが、見過ごされる傾向にあり、目に見えないクラスに一般化することができない。
本稿では,視覚言語モデルのための知識認識型プロンプトチューニング(KAPT)フレームワークを提案する。
我々のアプローチは、外的知識が通常、新しい対象のカテゴリを認識することに組み込まれる人間の知性から着想を得ている。
具体的には,テキストエンコーダに対して,カテゴリー関連の外部知識の特徴を活用した知識認識プロンプトを2種類設計する。
離散プロンプトはオブジェクトカテゴリの記述からキー情報を抽出し、学習された連続プロンプトは全体のコンテキストをキャプチャする。
さらに,視覚エンコーダの適応ヘッドをデザインし,有意な視覚手がかりを集約し,識別とタスク対応の視覚表現を確立する。
11のベンチマークデータセットについて広範な実験を行い,特に未発見のカテゴリへの一般化において,少数の画像分類の有効性を検証した。
最先端のcocoop法と比較して、kaptは良好な性能を示し、新しいクラスでは3.22%、調和平均では2.57%の絶対利得を達成している。 Pre-trained vision-language models, e.g., CLIP, working with manually designed prompts have demonstrated great capacity of transfer learning. Recently, learnable prompts achieve state-of-the-art performance, which however are prone to overfit to seen classes, failing to generalize to unseen classes. In this paper, we propose a Knowledge-Aware Prompt Tuning (KAPT) framework for vision-language models. Our approach takes inspiration from human intelligence in which external knowledge is usually incorporated into recognizing novel categories of objects. Specifically, we design two complementary types of knowledge-aware prompts for the text encoder to leverage the distinctive characteristics of category-related external knowledge. The discrete prompt extracts the key information from descriptions of an object category, and the learned continuous prompt captures overall contexts. We further design an adaptation head for the visual encoder to aggregate salient attentive visual cues, which establishes discriminative and task-aware visual representations. We conduct extensive experiments on 11 widely-used benchmark datasets and the results verify the effectiveness in few-shot image classification, especially in generalizing to unseen categories. Compared with the state-of-the-art CoCoOp method, KAPT exhibits favorable performance and achieves an absolute gain of 3.22% on new classes and 2.57% in terms of harmonic mean. | 翻訳日:2023-08-23 19:03:40 公開日:2023-08-22 |
# HMD-NeMo: スパース観測によるオンライン3Dアバターモーション生成 HMD-NeMo: Online 3D Avatar Motion Generation From Sparse Observations ( http://arxiv.org/abs/2308.11261v1 ) ライセンス: Link先を確認 | Sadegh Aliakbarian, Fatemeh Saleh, David Collier, Pashmina Cameron, Darren Cosker | (参考訳) 実用的で正確な全身アバターの動きを生成することは、混合現実シナリオにおける没入体験の質の鍵となる。
ヘッドマウントデバイス(HMD)は、通常、頭や手などの入力信号のみを提供する。
近年,頭部と手の信号だけで全身運動を発生させる手法が注目されている。
しかしながら、私たちの知る限りでは、既存のアプローチはすべて完全な可視性に依存しています。
これは例えばモーションコントローラを使用する場合であるが、混合現実体験のかなりの割合はモーションコントローラを伴わず、エゴセントリックなハンドトラッキングに依存している。
これにより、HMDの視野が制限されているため、部分的な手視認が困難になる。
本稿では,手の一部しか見えない場合でも,可塑性かつ高精度な全身運動生成を実現する,最初の統一的アプローチであるHMD-NeMoを提案する。
HMD-NeMoは、オンラインでリアルタイムに全身の動きを予測する軽量ニューラルネットワークである。
HMD-NeMoの中心にある時空間エンコーダは、手の動きがない場合に可塑性運動を促進する新しい時間適応マスクトークンを持つ。
我々は、HMD-NeMoにおける異なるコンポーネントの影響を広範囲に分析し、評価を通じて新しい最先端のデータセットをAMASSデータセットに導入する。 Generating both plausible and accurate full body avatar motion is the key to the quality of immersive experiences in mixed reality scenarios. Head-Mounted Devices (HMDs) typically only provide a few input signals, such as head and hands 6-DoF. Recently, different approaches achieved impressive performance in generating full body motion given only head and hands signal. However, to the best of our knowledge, all existing approaches rely on full hand visibility. While this is the case when, e.g., using motion controllers, a considerable proportion of mixed reality experiences do not involve motion controllers and instead rely on egocentric hand tracking. This introduces the challenge of partial hand visibility owing to the restricted field of view of the HMD. In this paper, we propose the first unified approach, HMD-NeMo, that addresses plausible and accurate full body motion generation even when the hands may be only partially visible. HMD-NeMo is a lightweight neural network that predicts the full body motion in an online and real-time fashion. At the heart of HMD-NeMo is the spatio-temporal encoder with novel temporally adaptable mask tokens that encourage plausible motion in the absence of hand observations. We perform extensive analysis of the impact of different components in HMD-NeMo and introduce a new state-of-the-art on AMASS dataset through our evaluation. | 翻訳日:2023-08-23 18:40:23 公開日:2023-08-22 |
# HopPG:不均一な知識を問うマルチホップ質問に対する自己判断型プログラム生成 HopPG: Self-Iterative Program Generation for Multi-Hop Question Answering over Heterogeneous Knowledge ( http://arxiv.org/abs/2308.11257v1 ) ライセンス: Link先を確認 | Yingyao Wang, Yongwei Zhou, Chaoqun Duan, Junwei Bao, Tiejun Zhao | (参考訳) 意味解析に基づく手法は知識に基づく質問応答の重要な研究分野である。
通常は、質問に頼って実行可能なプログラムを生成し、知識ベース上で答えを推論する。
このメカニズムの利点は、パフォーマンスと解釈可能性に利点があることです。
しかし、伝統的な意味解析手法は実行前に完全なプログラムを生成するのが一般的であり、ヘテロジニアスな知識を越えてマルチホップの質問に答えるのに苦労している。
第一に、完全マルチホッププログラムは複数の異種な支援事実に依存しており、モデルがこれらの事実を同時に受け取ることは困難である。
次に、前回のホップ実行結果と現在のホッププログラム生成との相互作用情報を無視する。
これらの課題を解決するために,前回のホップ実行結果を利用して支援事実を検索し,その後のプログラムを反復的に生成する,多目的プログラム生成(HopPG)のための自己定型フレームワークを提案する。
MMQA-T^2のモデルについて検討した。
実験の結果,HopPGは既存のセマンティックパーシングベースのベースライン,特にマルチホップ質問よりも優れていた。 The semantic parsing-based method is an important research branch for knowledge-based question answering. It usually generates executable programs lean upon the question and then conduct them to reason answers over a knowledge base. Benefit from this inherent mechanism, it has advantages in the performance and the interpretability. However,traditional semantic parsing methods usually generate a complete program before executing it, which struggles with multi-hop question answering over heterogeneous knowledge. Firstly,a complete multi-hop program relies on multiple heterogeneous supporting facts, and it is difficult for models to receive these facts simultaneously. Secondly,these methods ignore the interaction information between the previous-hop execution result and the current-hop program generation. To alleviate these challenges, we propose a self-iterative framework for multi-hop program generation (HopPG) over heterogeneous knowledge, which leverages the previous-hop execution results to retrieve supporting facts and generate subsequent programs iteratively. We evaluate our model on MMQA-T^2. The experimental results show that HopPG outperforms existing semantic-parsing-based baselines, especially on the multi-hop questions. | 翻訳日:2023-08-23 18:40:00 公開日:2023-08-22 |
# ゲーム解法における高能率ラストイテレート収束アルゴリズム Efficient Last-iterate Convergence Algorithms in Solving Games ( http://arxiv.org/abs/2308.11256v1 ) ライセンス: Link先を確認 | Linjian Meng, Zhenxing Ge, Wenbin Li, Bo An, Yang Gao | (参考訳) 非回帰アルゴリズムは、NFG(Non-player zero-sum normal-form game)とEFG(Exparious-form Games)でナッシュ均衡(NE)を学ぶのに人気がある。
最近の多くの研究で、ラストイテレート収束ノーレグレットアルゴリズムが検討されている。
その中でも最も有名なのが、OGDA(Optimistic Gradient Descent Ascent)とOMWU(Optimistic Multiplicative Weight Update)である。
しかし、OGDAはイテレーション当たりの複雑さが高い。
OMWUは、単体比の複雑さは低いが経験的性能は低く、NEが一意である場合にのみ収束する。
近年,MWU に対するリワード変換 (RT) フレームワークが提案されている。
残念なことに、RTベースのアルゴリズムは同じイテレーション数でOGDAよりもパフォーマンスが悪く、収束保証はほとんどのシナリオでは成立しない継続的フィードバックの仮定に基づいている。
これらの問題に対処するため、連続的なフィードバックと離散的なフィードバックを両立するRTフレームワークをより深く分析する。
RTフレームワークの本質は,オリジナルゲームにおけるNE学習の問題を,一連のコンベックス・コンケーブ最適化問題(SCCP)に変換することである。
RTに基づくアルゴリズムのボトルネックはSCCPを解くスピードであることを示す。
実験性能を改善するために,Regret Matching+ (RM+)によりSCCPを解ける新しい変換法を設計し,実験性能を向上し,Reward Transformation RM+ (RTRM+) を実現する。
rtrm+は離散時間フィードバック設定下でラストイテレート収束を楽しむ。
本稿では, RTRM+をEFGに拡張するReward Transformation CFR+(RTCFR+)を提案する。
実験の結果,本アルゴリズムは既存のラストイテレート収束アルゴリズムとrm+(cfr+)を大きく上回ることがわかった。 No-regret algorithms are popular for learning Nash equilibrium (NE) in two-player zero-sum normal-form games (NFGs) and extensive-form games (EFGs). Many recent works consider the last-iterate convergence no-regret algorithms. Among them, the two most famous algorithms are Optimistic Gradient Descent Ascent (OGDA) and Optimistic Multiplicative Weight Update (OMWU). However, OGDA has high per-iteration complexity. OMWU exhibits a lower per-iteration complexity but poorer empirical performance, and its convergence holds only when NE is unique. Recent works propose a Reward Transformation (RT) framework for MWU, which removes the uniqueness condition and achieves competitive performance with OMWU. Unfortunately, RT-based algorithms perform worse than OGDA under the same number of iterations, and their convergence guarantee is based on the continuous-time feedback assumption, which does not hold in most scenarios. To address these issues, we provide a closer analysis of the RT framework, which holds for both continuous and discrete-time feedback. We demonstrate that the essence of the RT framework is to transform the problem of learning NE in the original game into a series of strongly convex-concave optimization problems (SCCPs). We show that the bottleneck of RT-based algorithms is the speed of solving SCCPs. To improve the their empirical performance, we design a novel transformation method to enable the SCCPs can be solved by Regret Matching+ (RM+), a no-regret algorithm with better empirical performance, resulting in Reward Transformation RM+ (RTRM+). RTRM+ enjoys last-iterate convergence under the discrete-time feedback setting. Using the counterfactual regret decomposition framework, we propose Reward Transformation CFR+ (RTCFR+) to extend RTRM+ to EFGs. Experimental results show that our algorithms significantly outperform existing last-iterate convergence algorithms and RM+ (CFR+). | 翻訳日:2023-08-23 18:39:41 公開日:2023-08-22 |
# 機械学習研究におけるバイアスに関する調査 A survey on bias in machine learning research ( http://arxiv.org/abs/2308.11254v1 ) ライセンス: Link先を確認 | Agnieszka Miko{\l}ajczyk-Bare{\l}a, Micha{\l} Grochowski | (参考訳) 機械学習におけるバイアスに関する現在の研究は、しばしば公正に焦点を当て、バイアスの根源や原因を見下ろしている。
しかしながら、偏見はもともと「体系的な誤り」として定義され、しばしば研究過程の異なる段階の人間が引き起こした。
本稿は,データとモデルの潜在的なバイアス源と誤差の分類を提供することにより,研究におけるバイアスに関する過去の文献間のギャップを埋めることを目的とする。
論文は機械学習パイプラインのバイアスに焦点を当てている。
機械学習(ML)パイプラインにおける40の潜在的なバイアス源に関する調査分析は、それぞれに明確な例を提供している。
機械学習におけるバイアスの原因と結果を理解することによって、その検出と緩和のためにより良い方法が開発され、より公平で透明性があり、より正確なMLモデルが得られる。 Current research on bias in machine learning often focuses on fairness, while overlooking the roots or causes of bias. However, bias was originally defined as a "systematic error," often caused by humans at different stages of the research process. This article aims to bridge the gap between past literature on bias in research by providing taxonomy for potential sources of bias and errors in data and models. The paper focus on bias in machine learning pipelines. Survey analyses over forty potential sources of bias in the machine learning (ML) pipeline, providing clear examples for each. By understanding the sources and consequences of bias in machine learning, better methods can be developed for its detecting and mitigating, leading to fairer, more transparent, and more accurate ML models. | 翻訳日:2023-08-23 18:39:05 公開日:2023-08-22 |
# Video BagNet:短期的受容野は長期的行動認識において堅牢性を高める Video BagNet: short temporal receptive fields increase robustness in long-term action recognition ( http://arxiv.org/abs/2308.11249v1 ) ライセンス: Link先を確認 | Ombretta Strafforello, Xin Liu, Klamer Schutte, Jan van Gemert | (参考訳) 長期ビデオ動作認識に関するこれまでの研究は、大きな時間的受容場(rf)を持つ深い3d畳み込みモデルに依存している。
これらのモデルは、ビデオの時間的モデリングにとって、必ずしも最良の選択肢ではない、と我々は主張する。
大きな時間的受容場は、ビデオの正確なサブアクション順序を符号化することができ、テストビデオが異なるサブアクション順序を持つ場合のパフォーマンスが低下する。
本研究では,行動認識モデルの時間的受容領域を縮小することにより,モデルロバスト性をサブアクション順に改善できるかを検討する。
そこで我々は,3D ResNet-50モデルの変種であるVideo BagNetを設計し,時間的受容野サイズを1,9,17,33フレームに制限した。
合成および実世界のビデオデータセット上でビデオバネットを解析し,モデルと時間的受容場を実験的に比較する。
短い受容場はサブアクションの順序変化に対して頑健であり、大きい時間受容場はサブアクションの順序に敏感である。 Previous work on long-term video action recognition relies on deep 3D-convolutional models that have a large temporal receptive field (RF). We argue that these models are not always the best choice for temporal modeling in videos. A large temporal receptive field allows the model to encode the exact sub-action order of a video, which causes a performance decrease when testing videos have a different sub-action order. In this work, we investigate whether we can improve the model robustness to the sub-action order by shrinking the temporal receptive field of action recognition models. For this, we design Video BagNet, a variant of the 3D ResNet-50 model with the temporal receptive field size limited to 1, 9, 17 or 33 frames. We analyze Video BagNet on synthetic and real-world video datasets and experimentally compare models with varying temporal receptive fields. We find that short receptive fields are robust to sub-action order changes, while larger temporal receptive fields are sensitive to the sub-action order. | 翻訳日:2023-08-23 18:38:51 公開日:2023-08-22 |
# 化学プロセスのクロスドメイン故障診断のためのマルチソースドメイン適応 Multi-Source Domain Adaptation for Cross-Domain Fault Diagnosis of Chemical Processes ( http://arxiv.org/abs/2308.11247v1 ) ライセンス: Link先を確認 | Eduardo Fernandes Montesuma, Michela Mulas, Fred Ngol\`e Mboula, Francesco Corona, Antoine Souloumiac | (参考訳) 故障診断はプロセスの監視において不可欠な要素である。
実際、事前に検出されたことを考慮し、どの障害が発生したかを決定し、適切な介入を可能にする。
自動故障診断システムは、センサ読み取りから故障タイプを予測するために機械学習を使用する。
それにもかかわらず、これらのモデルはデータ分布の変化に敏感であり、これは操作モードの変化などの監視プロセスの変化によって引き起こされる可能性がある。
このシナリオはクロスドメイン障害診断(CDFD)として知られている。
我々はCDFDのための単一および複数ソースの非教師付きドメイン適応(SSDAとMSDA)アルゴリズムを広範囲に比較する。
化学産業において広く用いられているベンチマークであるテネシー-イーストマン過程の文脈でこれらの手法を考察した。
トレーニング中に複数のドメインを使用すると,適応性がなくても肯定的な効果があることを示す。
そのため、MSDAベースラインはSSDAベースライン分類の精度を平均23%向上させる。
また,複数ソースのシナリオでは,非適応設定の分類精度を平均8.4%向上させる。 Fault diagnosis is an essential component in process supervision. Indeed, it determines which kind of fault has occurred, given that it has been previously detected, allowing for appropriate intervention. Automatic fault diagnosis systems use machine learning for predicting the fault type from sensor readings. Nonetheless, these models are sensible to changes in the data distributions, which may be caused by changes in the monitored process, such as changes in the mode of operation. This scenario is known as Cross-Domain Fault Diagnosis (CDFD). We provide an extensive comparison of single and multi-source unsupervised domain adaptation (SSDA and MSDA respectively) algorithms for CDFD. We study these methods in the context of the Tennessee-Eastmann Process, a widely used benchmark in the chemical industry. We show that using multiple domains during training has a positive effect, even when no adaptation is employed. As such, the MSDA baseline improves over the SSDA baseline classification accuracy by 23% on average. In addition, under the multiple-sources scenario, we improve classification accuracy of the no adaptation setting by 8.4% on average. | 翻訳日:2023-08-23 18:38:33 公開日:2023-08-22 |
# 単一繰り返し動作による量子次元証人 Quantum dimension witness with a single repeated operation ( http://arxiv.org/abs/2308.11246v1 ) ライセンス: Link先を確認 | Tomasz Bia{\l}ecki, Tomasz Rybotycki, Josep Batle, Adam Bednorz | (参考訳) 本稿では,各インスタンスが同一かつ独立であることを前提として,遅延法における1つの繰り返し演算を用いて,量子系の次元の単純なヌル検定を行う。
このテストは、プログラムされたゲートを持つ現在の実現可能な量子技術に適している。
また、単体またはほぼ単体操作を仮定し、統計的誤差の式を導出する、テストの弱いバージョンも分析する。 We present a simple null test of a dimension of a quantum system, using a single repeated operation in the method of delays, assuming that each instance is identical and independent. The test is well-suited to current feasible quantum technologies, with programmed gates. We also analyze weaker versions of the test, assuming unitary or almost unitary operations and derive expressions for the statistical error. | 翻訳日:2023-08-23 18:38:18 公開日:2023-08-22 |
# 現在の長期ビデオ理解データセットは長期的なものか? Are current long-term video understanding datasets long-term? ( http://arxiv.org/abs/2308.11244v1 ) ライセンス: Link先を確認 | Ombretta Strafforello, Klamer Schutte, Jan van Gemert | (参考訳) スポーツ分析から監視まで、多くの現実世界の応用は、自動長期行動認識の恩恵を受ける。
現在のdeep learning paradigm for automatic action recognitionでは、モデルがデータセットやタスクで訓練され、テストされることが不可欠である。
本研究では,ビデオデータセットが長期行動認識モデルにどの程度適しているかを評価する手法を提案する。
この目的のために、短期的情報のみを使用して正しく認識できる全ての動画を除外する長期行動を定義する。
この定義を既存の3つの現実世界のデータセット(朝食、クロスタスク、lvu)で検証し、これらのデータセットが本当に長期的な認識を評価するかどうかを判定する。
本研究は,短期情報に基づくショートカットを用いて,これらのデータセットを効果的に解決できることを示す。
この発見に続いて、長期的な行動認識研究者に対して、長期的な情報を必要とするデータセットの活用を奨励する。 Many real-world applications, from sport analysis to surveillance, benefit from automatic long-term action recognition. In the current deep learning paradigm for automatic action recognition, it is imperative that models are trained and tested on datasets and tasks that evaluate if such models actually learn and reason over long-term information. In this work, we propose a method to evaluate how suitable a video dataset is to evaluate models for long-term action recognition. To this end, we define a long-term action as excluding all the videos that can be correctly recognized using solely short-term information. We test this definition on existing long-term classification tasks on three popular real-world datasets, namely Breakfast, CrossTask and LVU, to determine if these datasets are truly evaluating long-term recognition. Our study reveals that these datasets can be effectively solved using shortcuts based on short-term information. Following this finding, we encourage long-term action recognition researchers to make use of datasets that need long-term information to be solved. | 翻訳日:2023-08-23 18:38:11 公開日:2023-08-22 |
# 位置:フロー誘導グラフカットと自己学習による自己教師付きオブジェクト発見 LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and Bootstrapped Self-training ( http://arxiv.org/abs/2308.11239v1 ) ライセンス: Link先を確認 | Silky Singh and Shripad Deshmukh and Mausoom Sarkar and Balaji Krishnamurthy | (参考訳) 人間の監督なしに画像とビデオのデータセットでオブジェクトセグメンテーションを学ぶことは難しい問題である。
人間は、共通の運命のゲシュタルト原理を用いて、動画中の動くサルエント物体を容易に識別し、一緒に動くものが一緒に存在することを示唆する。
このアイデアに基づいて、動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師対象発見手法を提案する。
具体的には、画像上の従来のグラフカットを再設計し、動き情報と外観情報とを線形に組み合わせてエッジウェイトを生成する。
驚くべきことに、このステップは複数のベンチマークで現在の最先端に匹敵するオブジェクトセグメンテーションマスクを生成する。
さらに,これらの予備マスク上で訓練されたセグメンテーションネットワークを擬似地下真理としてブートストラップし,自己学習を通じて自身の出力から学習する。
我々は,複数の標準映像オブジェクトのセグメンテーション,イメージ・サリエンシ検出,オブジェクトのセグメンテーション・ベンチマークにおいて,LOCATEと呼ばれるアプローチの有効性を実証する。
In-the-wild画像の質的研究を通じて,新しい領域へのアプローチの伝達可能性を示す。
さらに,設計選択を支援するために広範囲なアブレーション分析を行い,提案手法の各コンポーネントの貢献を強調した。 Learning object segmentation in image and video datasets without human supervision is a challenging problem. Humans easily identify moving salient objects in videos using the gestalt principle of common fate, which suggests that what moves together belongs together. Building upon this idea, we propose a self-supervised object discovery approach that leverages motion and appearance information to produce high-quality object segmentation masks. Specifically, we redesign the traditional graph cut on images to include motion information in a linear combination with appearance information to produce edge weights. Remarkably, this step produces object segmentation masks comparable to the current state-of-the-art on multiple benchmarks. To further improve performance, we bootstrap a segmentation network trained on these preliminary masks as pseudo-ground truths to learn from its own outputs via self-training. We demonstrate the effectiveness of our approach, named LOCATE, on multiple standard video object segmentation, image saliency detection, and object segmentation benchmarks, achieving results on par with and, in many cases surpassing state-of-the-art methods. We also demonstrate the transferability of our approach to novel domains through a qualitative study on in-the-wild images. Additionally, we present extensive ablation analysis to support our design choices and highlight the contribution of each component of our proposed method. | 翻訳日:2023-08-23 18:37:54 公開日:2023-08-22 |
# 偏心画像を用いた手持ち容器の寸法分割 Affordance segmentation of hand-occluded containers from exocentric images ( http://arxiv.org/abs/2308.11233v1 ) ライセンス: Link先を確認 | Tommaso Apicella, Alessio Xompero, Edoardo Ragusa, Riccardo Berta, Andrea Cavallaro, Paolo Gastaldo | (参考訳) 視覚的アフォーダンスセグメンテーションは、エージェントが相互作用できるオブジェクトの表面を識別する。
可測性を特定するための一般的な課題は、これらの曲面の幾何学的および物理的性質の多様性と閉塞である。
本稿では,それを操作している人が手持ちする物体の閉塞に焦点をあてる。
この課題に対処するために,補助ブランチを用いてオブジェクトとハンド領域を別々に処理するアフォーダンスセグメンテーションモデルを提案する。
提案モデルは,手と対象のセグメンテーションを通して特徴地図を重み付けすることにより,手作業による特徴量学習を行う。
モデルをトレーニングするために,既存のデータセットの視覚的可視性に手持ち容器の混合現実像を3人称(外部中心)画像にアノテートした。
実画像と混合現実画像の両方で実験した結果,既存のモデルよりも精度の高いセグメンテーションと一般化が得られた。 Visual affordance segmentation identifies the surfaces of an object an agent can interact with. Common challenges for the identification of affordances are the variety of the geometry and physical properties of these surfaces as well as occlusions. In this paper, we focus on occlusions of an object that is hand-held by a person manipulating it. To address this challenge, we propose an affordance segmentation model that uses auxiliary branches to process the object and hand regions separately. The proposed model learns affordance features under hand-occlusion by weighting the feature map through hand and object segmentation. To train the model, we annotated the visual affordances of an existing dataset with mixed-reality images of hand-held containers in third-person (exocentric) images. Experiments on both real and mixed-reality images show that our model achieves better affordance segmentation and generalisation than existing models. | 翻訳日:2023-08-23 18:37:29 公開日:2023-08-22 |
# 等価性の利用と排除 Using and Abusing Equivariance ( http://arxiv.org/abs/2308.11316v1 ) ライセンス: Link先を確認 | Tom Edixhoven, Attila Lengyel, Jan van Gemert | (参考訳) 本稿では,グループ同変畳み込みニューラルネットワークがサブサンプリングを用いて,対称性の等価性を破ることについて述べる。
本研究では,2次元回転と反射に着目し,分散の破れがネットワーク性能に与える影響について検討する。
我々は、ネットワークの入力次元が1ピクセルほど小さくなれば、一般的に使用されるアーキテクチャが正確にではなく、ほぼ同値になるのに十分であることを示す。
我々は、ネットワークが正確に同変でない場合の影響を調査し、ほぼ同変のネットワークは、その同変のネットワークに比べて、目に見えない対称性よりも著しく悪化することを示した。
しかし、トレーニングデータの対称性がネットワークの対称性と同一ではない場合、近似同変ネットワークは、自身の同変制約を緩和することができ、共通のベンチマークデータセット上の正確な同変ネットワークと一致するか、または上回らせることができる。 In this paper we show how Group Equivariant Convolutional Neural Networks use subsampling to learn to break equivariance to their symmetries. We focus on 2D rotations and reflections and investigate the impact of broken equivariance on network performance. We show that a change in the input dimension of a network as small as a single pixel can be enough for commonly used architectures to become approximately equivariant, rather than exactly. We investigate the impact of networks not being exactly equivariant and find that approximately equivariant networks generalise significantly worse to unseen symmetries compared to their exactly equivariant counterparts. However, when the symmetries in the training data are not identical to the symmetries of the network, we find that approximately equivariant networks are able to relax their own equivariant constraints, causing them to match or outperform exactly equivariant networks on common benchmark datasets. | 翻訳日:2023-08-23 18:31:45 公開日:2023-08-22 |
# 線形スピン量子ビットアレイにおける残留交換結合の解析と緩和 Analysis and mitigation of residual exchange coupling in linear spin qubit arrays ( http://arxiv.org/abs/2308.11308v1 ) ライセンス: Link先を確認 | Irina Heinz, Adam R. Mills, Jason R. Petta and Guido Burkard | (参考訳) スピン量子ビットを用いた量子コンピューティングの最近の進歩により、このプラットフォームは2量子ビットゲートを99.5%以上実装する可能性を秘めている。
しかし、他のqubitプラットフォームと同様に、qubit結合を完全にオフにすることは不可能である。
本研究では,二重量子ドットを用いたゲート集合トモグラフィにおけるコヒーレント誤差行列の影響について検討する。
スピン間の残留交換による不確かさを評価し, 電荷雑音の有無によるパラメータ設定の相違を考慮した簡易駆動による調整タイミングの利用を含む, 様々な緩和手法を比較した。
さらに,本解析を交換結合スピン量子ビットのより大きな配列に拡張し,期待される忠実度を推定する。
特に,リニアチェーンにおける1キュービット$y$ゲートとネイティブ2キュービットスワップゲートに対する残差交換の影響を実証する。
本研究は,スピン量子ビット装置をスケールアップする際の残差交換の計算の重要性を強調するとともに,帯電ノイズと残差交換のトレードオフを強調する。 In recent advancements of quantum computing utilizing spin qubits, it has been demonstrated that this platform possesses the potential for implementing two-qubit gates with fidelities exceeding 99.5%. However, as with other qubit platforms, it is not feasible to completely turn qubit couplings off. This study aims to investigate the impact of coherent error matrices in gate set tomography by employing a double quantum dot. We evaluate the infidelity caused by residual exchange between spins and compare various mitigation approaches, including the use of adjusted timing through simple drives, considering different parameter settings in the presence of charge noise. Furthermore, we extend our analysis to larger arrays of exchange-coupled spin qubits to provide an estimation of the expected fidelity. In particular, we demonstrate the influence of residual exchange on a single-qubit $Y$ gate and the native two-qubit SWAP gate in a linear chain. Our findings emphasize the significance of accounting for residual exchange when scaling up spin qubit devices and highlight the tradeoff between the effects of charge noise and residual exchange in mitigation techniques. | 翻訳日:2023-08-23 18:31:30 公開日:2023-08-22 |
# bhsd : 3次元脳出血分画データセット BHSD: A 3D Multi-Class Brain Hemorrhage Segmentation Dataset ( http://arxiv.org/abs/2308.11298v1 ) ライセンス: Link先を確認 | Biao Wu, Yutong Xie, Zeyu Zhang, Jinchao Ge, Kaspar Yaxley, Suzan Bahadir, Qi Wu, Yifan Liu, Minh-Son To | (参考訳) 頭蓋内出血(英: intracranial hemorrhage、ich)は、頭蓋骨や脳内の出血を特徴とする病態である。
ICHの同定、局在化、定量化は、出血依存的な方法で重要な臨床的意味を持つ。
深層学習技術は医用画像のセグメンテーションに広く使われており、ICHセグメンテーションタスクに応用されているが、既存の公開ICHデータセットはマルチクラスセグメンテーション問題をサポートしない。
そこで我々は,脳出血セグメンテーションデータセット(bhsd)を開発し,192巻の画素レベルアノテーションと2200巻のスライスレベルアノテーションを5つのカテゴリにまたいだ3dマルチクラスichデータセットを提供する。
データセットの有用性を示すために、教師付きおよび半教師付きICHセグメンテーションの一連のタスクを定式化する。
このデータセットのさらなるモデル開発と評価のための基準ベンチマークとして、最先端モデルを用いた実験結果を提供する。 Intracranial hemorrhage (ICH) is a pathological condition characterized by bleeding inside the skull or brain, which can be attributed to various factors. Identifying, localizing and quantifying ICH has important clinical implications, in a bleed-dependent manner. While deep learning techniques are widely used in medical image segmentation and have been applied to the ICH segmentation task, existing public ICH datasets do not support the multi-class segmentation problem. To address this, we develop the Brain Hemorrhage Segmentation Dataset (BHSD), which provides a 3D multi-class ICH dataset containing 192 volumes with pixel-level annotations and 2200 volumes with slice-level annotations across five categories of ICH. To demonstrate the utility of the dataset, we formulate a series of supervised and semi-supervised ICH segmentation tasks. We provide experimental results with state-of-the-art models as reference benchmarks for further model developments and evaluations on this dataset. | 翻訳日:2023-08-23 18:31:13 公開日:2023-08-22 |
# 縦型特徴伝搬による木材丸太の結び目予測の改善 Improving Knot Prediction in Wood Logs with Longitudinal Feature Propagation ( http://arxiv.org/abs/2308.11291v1 ) ライセンス: Link先を確認 | Salim Khazem, Jeremy Fix, C\'edric Pradalier | (参考訳) 木材産業における木製丸太の品質は、木の枝の成長の結果として生じる内結び目を含む外的欠陥と内的欠陥の両方の存在に大きく依存する。
今日では、内側の結び目を見つけるには、x線スキャナなどの高価な機器を使う必要がある。
本稿では,ログの外形から内部欠陥の位置を予測する作業について述べる。
データセットは、X線測定で輪郭と結び目の両方を抽出することによって構築される。
本稿では,畳み込み型リカレントニューラルネットワークを用いて,この2値分割課題を解決することを提案する。
ニューラルネットワークがトレーニングされると、レーザープロファイラなどの安価なデバイスで測定された外形から推論を行うことができる。
本研究は,本種に対するアプローチの有効性を実証し,その重要性を示すために,再発に対するアブレーションを行う。 The quality of a wood log in the wood industry depends heavily on the presence of both outer and inner defects, including inner knots that are a result of the growth of tree branches. Today, locating the inner knots require the use of expensive equipment such as X-ray scanners. In this paper, we address the task of predicting the location of inner defects from the outer shape of the logs. The dataset is built by extracting both the contours and the knots with X-ray measurements. We propose to solve this binary segmentation task by leveraging convolutional recurrent neural networks. Once the neural network is trained, inference can be performed from the outer shape measured with cheap devices such as laser profilers. We demonstrate the effectiveness of our approach on fir and spruce tree species and perform ablation on the recurrence to demonstrate its importance. | 翻訳日:2023-08-23 18:30:54 公開日:2023-08-22 |
# データ中心量子システム学習のためのShadowNet ShadowNet for Data-Centric Quantum System Learning ( http://arxiv.org/abs/2308.11290v1 ) ライセンス: Link先を確認 | Yuxuan Du, Yibo Yang, Tongliang Liu, Zhouchen Lin, Bernard Ghanem, Dacheng Tao | (参考訳) 大規模量子システムのダイナミクスを理解することは、次元の呪いによって妨げられる。
統計的学習は、ニューラルネットワークプロトコルと古典的な影によってこの体制に新たな可能性をもたらすが、どちらの手法にも制限がある: 前者は予測の不確実性に悩まされ、後者は一般化能力に欠ける。
本稿では,これら2つのアプローチの強みを組み合わせた,多様な量子システム学習(qsl)タスクを促進するデータ中心学習パラダイムを提案する。
特に,我々のパラダイムでは,量子システムの他の入手が容易な情報とともに古典的影を利用してトレーニングデータセットを作成し,ニューラルネットワークによって学習し,探索されたQSL問題の基盤となるマッピングルールを明らかにする。
ニューラルネットワークの一般化力に基づいて、このパラダイムはオフラインでトレーニングされ、ほとんど状態コピーなしで、推論段階で未確認のシステムを予測できる。
さらに、古典的なシャドウの特性を継承し、メモリ効率のよいストレージと忠実な予測を可能にする。
これらの特徴は、新しい大規模量子システムの発見におけるデータ中心アプローチの膨大な可能性の核となる。
具体的には,量子状態トモグラフィおよび直接忠実度推定タスクにおける我々のパラダイムのインスタンス化を行い,最大60量子ビットまでの数値解析を行う。
我々の研究は、データ中心の人工知能がQSLを忠実で一般化可能な方法で前進させる大きな可能性を示している。 Understanding the dynamics of large quantum systems is hindered by the curse of dimensionality. Statistical learning offers new possibilities in this regime by neural-network protocols and classical shadows, while both methods have limitations: the former is plagued by the predictive uncertainty and the latter lacks the generalization ability. Here we propose a data-centric learning paradigm combining the strength of these two approaches to facilitate diverse quantum system learning (QSL) tasks. Particularly, our paradigm utilizes classical shadows along with other easily obtainable information of quantum systems to create the training dataset, which is then learnt by neural networks to unveil the underlying mapping rule of the explored QSL problem. Capitalizing on the generalization power of neural networks, this paradigm can be trained offline and excel at predicting previously unseen systems at the inference stage, even with few state copies. Besides, it inherits the characteristic of classical shadows, enabling memory-efficient storage and faithful prediction. These features underscore the immense potential of the proposed data-centric approach in discovering novel and large-scale quantum systems. For concreteness, we present the instantiation of our paradigm in quantum state tomography and direct fidelity estimation tasks and conduct numerical analysis up to 60 qubits. Our work showcases the profound prospects of data-centric artificial intelligence to advance QSL in a faithful and generalizable manner. | 翻訳日:2023-08-23 18:30:41 公開日:2023-08-22 |
# LEAP: NLPソフトウェアの効率的な自動テスト方法 LEAP: Efficient and Automated Test Method for NLP Software ( http://arxiv.org/abs/2308.11284v1 ) ライセンス: Link先を確認 | Mingxuan Xiao, Yan Xiao, Hai Dong, Shunhui Ji, Pengcheng Zhang | (参考訳) NLPソフトウェアにおけるDNNの普及は、堅牢性の必要性を強調している。
研究者らは敵検体に対する様々な自動検査手法を提案した。
bertベースのnlpソフトウェアでは0%から24.6%の成功率があり、テストケース毎に177.8から205.28秒を要し、時間の制約のあるシナリオでは困難である。
これらの問題に対処するため,本稿では,levy飛行に基づく適応粒子群最適化とテキスト特徴を統合した自動テスト手法であるleapを提案する。
具体的には,集団初期化にlevy flightを採用し,生成したテストケースの多様性を高めた。
我々はまた、LEAPの高次元テキスト例に対するグローバル最適化の効率を向上させるために慣性重み適応更新演算子を設計し、探索時間を短縮する欲求戦略に基づく突然変異演算子を設計する。
我々は, LEAPのNLPソフトウェアテスト能力を検証する一連の実験を行い, 敵検体生成におけるLEAPの平均成功率は79.1%であり, 次のベストアプローチ(PSOアタック)よりも6.1%高いことがわかった。
LEAPは高い成功率を確保する一方で、他のヒューリスティックな手法と比較して、時間オーバーヘッドを最大147.6秒削減する。
さらに, LEAPはより伝達可能なテストケースを生成し, DNNベースのシステムの堅牢性を大幅に向上させることができることを示した。 The widespread adoption of DNNs in NLP software has highlighted the need for robustness. Researchers proposed various automatic testing techniques for adversarial test cases. However, existing methods suffer from two limitations: weak error-discovering capabilities, with success rates ranging from 0% to 24.6% for BERT-based NLP software, and time inefficiency, taking 177.8s to 205.28s per test case, making them challenging for time-constrained scenarios. To address these issues, this paper proposes LEAP, an automated test method that uses LEvy flight-based Adaptive Particle swarm optimization integrated with textual features to generate adversarial test cases. Specifically, we adopt Levy flight for population initialization to increase the diversity of generated test cases. We also design an inertial weight adaptive update operator to improve the efficiency of LEAP's global optimization of high-dimensional text examples and a mutation operator based on the greedy strategy to reduce the search time. We conducted a series of experiments to validate LEAP's ability to test NLP software and found that the average success rate of LEAP in generating adversarial test cases is 79.1%, which is 6.1% higher than the next best approach (PSOattack). While ensuring high success rates, LEAP significantly reduces time overhead by up to 147.6s compared to other heuristic-based methods. Additionally, the experimental results demonstrate that LEAP can generate more transferable test cases and significantly enhance the robustness of DNN-based systems. | 翻訳日:2023-08-23 18:30:21 公開日:2023-08-22 |
# 注釈付き3次元レンダリングとイルミネーションによる地図写真から学ぶCNNによるCuneiform Sign Detection CNN based Cuneiform Sign Detection Learned from Annotated 3D Renderings and Mapped Photographs with Illumination Augmentation ( http://arxiv.org/abs/2308.11277v1 ) ライセンス: Link先を確認 | Ernst St\"otzner, Timo Homburg and Hubert Mara | (参考訳) デジタル古代近東研究(DANES)コミュニティの課題に触発され,3千年以上,少なくとも8つの主要言語で使用されている粘土板に3Dスクリプトをインプリントしたキュニフォームスクリプトを処理するデジタルツールを開発した。
時間と空間によって変化する何千ものキャラクターで構成されている。
写真は機械学習に使える最も一般的な表現であり、インク描画は解釈しやすい。
利用可能な最も適した3dデータセット。
私たちは約500の注釈付きタブレットからなるHeiCuBeDaとMaiCuBeDaのデータセットを作成し、使用しました。
混合画像データに対する新しいOCRライクなアプローチとして、3Dレンダリングと写真の間でアノテーションを転送するためのマッピングツールを提供する。
我々のサインローカライゼーションはRepPoints検出器を使って文字の位置をバウンディングボックスとして予測する。
私たちは、GigaMeshのMSII(曲率、https://gigamesh.eu)ベースのレンダリング、Pong-shaded 3Dモデル、写真、照明強化などの画像データを使用します。
その結果,手話検出にレンダリングされた3D画像は,写真上での他の作業よりも優れていた。
さらに,本手法は写真のみに対して妥当な結果を与えるが,混合データセットには最適である。
さらに重要なことに、フォンのレンダリング、特にmsiiレンダリングは、世界規模で最大のデータセットである写真の結果を改善します。 Motivated by the challenges of the Digital Ancient Near Eastern Studies (DANES) community, we develop digital tools for processing cuneiform script being a 3D script imprinted into clay tablets used for more than three millennia and at least eight major languages. It consists of thousands of characters that have changed over time and space. Photographs are the most common representations usable for machine learning, while ink drawings are prone to interpretation. Best suited 3D datasets that are becoming available. We created and used the HeiCuBeDa and MaiCuBeDa datasets, which consist of around 500 annotated tablets. For our novel OCR-like approach to mixed image data, we provide an additional mapping tool for transferring annotations between 3D renderings and photographs. Our sign localization uses a RepPoints detector to predict the locations of characters as bounding boxes. We use image data from GigaMesh's MSII (curvature, see https://gigamesh.eu) based rendering, Phong-shaded 3D models, and photographs as well as illumination augmentation. The results show that using rendered 3D images for sign detection performs better than other work on photographs. In addition, our approach gives reasonably good results for photographs only, while it is best used for mixed datasets. More importantly, the Phong renderings, and especially the MSII renderings, improve the results on photographs, which is the largest dataset on a global scale. | 翻訳日:2023-08-23 18:29:53 公開日:2023-08-22 |
# music understanding llama: 質問応答とキャプションによるテキスト・ツー・ミュージック生成の進歩 Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning ( http://arxiv.org/abs/2308.11276v1 ) ライセンス: Link先を確認 | Shansong Liu, Atin Sakkeer Hussain, Chenshuo Sun, Ying Shan | (参考訳) テキスト・ツー・ミュージック・ジェネレーション(T2M-Gen)は、自然言語キャプションを備えた大規模公開楽曲データセットの不足により大きな障害に直面している。
そこで我々は,音楽関連質問に答え,音楽ファイルのキャプションを生成することができる音楽理解LLaMA(MU-LLaMA)を提案する。
本モデルは,事前学習したMERTモデルから音声表現を用いて楽曲の特徴を抽出する。
しかし、MU-LLaMAモデルのトレーニングに適したデータセットを得るには、既存の公開音声質問応答データセットには、オープンエンド音楽質問応答に必要な深さが欠けているため、依然として困難である。
このギャップを埋めるために,既存の音声キャプションデータセットから質問応答ペアを生成する手法と,オープンエンドな音楽関連質問に回答するためのmusicqaデータセットを提案する。
実験により,提案したMU-LLaMAモデルは,設計したMusicQAデータセットに基づいて,音楽質問応答と音楽キャプション生成の両方において優れた性能を達成し,両分野の最先端(SOTA)モデルより優れ,T2M-Gen研究分野において有望な進歩をもたらすことを示した。 Text-to-music generation (T2M-Gen) faces a major obstacle due to the scarcity of large-scale publicly available music datasets with natural language captions. To address this, we propose the Music Understanding LLaMA (MU-LLaMA), capable of answering music-related questions and generating captions for music files. Our model utilizes audio representations from a pretrained MERT model to extract music features. However, obtaining a suitable dataset for training the MU-LLaMA model remains challenging, as existing publicly accessible audio question answering datasets lack the necessary depth for open-ended music question answering. To fill this gap, we present a methodology for generating question-answer pairs from existing audio captioning datasets and introduce the MusicQA Dataset designed for answering open-ended music-related questions. The experiments demonstrate that the proposed MU-LLaMA model, trained on our designed MusicQA dataset, achieves outstanding performance in both music question answering and music caption generation across various metrics, outperforming current state-of-the-art (SOTA) models in both fields and offering a promising advancement in the T2M-Gen research field. | 翻訳日:2023-08-23 18:29:26 公開日:2023-08-22 |
# 量子インスパイアされた機械学習:調査 Quantum-Inspired Machine Learning: a Survey ( http://arxiv.org/abs/2308.11269v1 ) ライセンス: Link先を確認 | Larry Huynh, Jin Hong, Ajmal Mian, Hajime Suzuki, Yanqiu Wu, Seyit Camtepe | (参考訳) 量子インスパイアされた機械学習(QiML)は、古典的な計算フレームワークにおける量子力学の原理を活用する可能性について、研究者から世界的な注目を集めている。
しかしながら、現在のレビュー文献はQiMLを表面的に探究し、より広範な量子機械学習(QML)分野に焦点を当てていることが多い。
このギャップに対応するために、この調査は、QiMLの様々な研究領域、例えばテンソルネットワークシミュレーション、量子化アルゴリズム、その他を総合的に調査し、最近の進歩、実践的応用、将来的な研究の道を示す。
さらに、QiMLの具体的定義は、この用語の様々な先行解釈とその固有の曖昧さを解析することによって確立される。
QiMLが進化を続けるにつれて、量子力学、量子コンピューティング、そして古典的な機械学習から引き出された将来的な発展が期待でき、この分野をさらに豊かにする。
この調査は研究者や実践者のガイドとなり、qimlの現在の状況と今後の方向性を総合的に理解する。 Quantum-inspired Machine Learning (QiML) is a burgeoning field, receiving global attention from researchers for its potential to leverage principles of quantum mechanics within classical computational frameworks. However, current review literature often presents a superficial exploration of QiML, focusing instead on the broader Quantum Machine Learning (QML) field. In response to this gap, this survey provides an integrated and comprehensive examination of QiML, exploring QiML's diverse research domains including tensor network simulations, dequantized algorithms, and others, showcasing recent advancements, practical applications, and illuminating potential future research avenues. Further, a concrete definition of QiML is established by analyzing various prior interpretations of the term and their inherent ambiguities. As QiML continues to evolve, we anticipate a wealth of future developments drawing from quantum mechanics, quantum computing, and classical machine learning, enriching the field further. This survey serves as a guide for researchers and practitioners alike, providing a holistic understanding of QiML's current landscape and future directions. | 翻訳日:2023-08-23 18:29:04 公開日:2023-08-22 |
# ロバスト制約マルコフ決定過程におけるロバストラグランジアンと逆数ポリシー勾配 Robust Lagrangian and Adversarial Policy Gradient for Robust Constrained Markov Decision Processes ( http://arxiv.org/abs/2308.11267v1 ) ライセンス: Link先を確認 | David M. Bossens | (参考訳) robust constraintsed markov decision process (rcmdp) は、最近の強化学習のためのタスクモデリングフレームワークであり、振る舞いの制約を取り入れ、不確実性セットの使用による遷移ダイナミクスモデルのエラーに対する堅牢性を提供する。
RCMDPのシミュレーションでは、各状態の値推定に基づいて最悪のケースのダイナミクスを計算する必要があるが、これは以前Robust Constrained Policy Gradient (RCPG)で使われていたアプローチである。
本稿では,rcpgの完全制約目標の強固化やインクリメンタル学習の欠如など,rcpgの潜在的な欠点を強調すると同時に,頑健なラグランジアンと逆ラグランジアンを持つrcpgという2つのアルゴリズムを提案する。
Robust Lagrangian による RCPG は、値や制約ではなく、ラグランジアンに基づく最悪のケースダイナミクスを取り入れて RCPG を修飾する。
逆数RCPGはまた、ラグランジアンに基づいて最悪のケースのダイナミクスを定式化するが、ソートされた値リスト上の制約付き最適化により間接的かつ突然に勾配降下よりも、直接的かつ漸進的に、逆数ポリシーとして学習する。
理論的解析は、まず、提案されたアルゴリズムのポリシー最適化のためのラグランジアンポリシー勾配を導出し、次に、逆数RCPGの逆数を学ぶための逆数ポリシー勾配を導出する。
在庫管理と安全なナビゲーションタスクに摂動を注入する実証実験は、従来のRCPGの変種と非破壊的および非拘束的アブレーションの両アルゴリズムの競合性能を示す。
特に、Adversarial RCPGは全てのテストで上位2のアルゴリズムにランクインしている。 The robust constrained Markov decision process (RCMDP) is a recent task-modelling framework for reinforcement learning that incorporates behavioural constraints and that provides robustness to errors in the transition dynamics model through the use of an uncertainty set. Simulating RCMDPs requires computing the worst-case dynamics based on value estimates for each state, an approach which has previously been used in the Robust Constrained Policy Gradient (RCPG). Highlighting potential downsides of RCPG such as not robustifying the full constrained objective and the lack of incremental learning, this paper introduces two algorithms, called RCPG with Robust Lagrangian and Adversarial RCPG. RCPG with Robust Lagrangian modifies RCPG by taking the worst-case dynamics based on the Lagrangian rather than either the value or the constraint. Adversarial RCPG also formulates the worst-case dynamics based on the Lagrangian but learns this directly and incrementally as an adversarial policy through gradient descent rather than indirectly and abruptly through constrained optimisation on a sorted value list. A theoretical analysis first derives the Lagrangian policy gradient for the policy optimisation of both proposed algorithms and then the adversarial policy gradient to learn the adversary for Adversarial RCPG. Empirical experiments injecting perturbations in inventory management and safe navigation tasks demonstrate the competitive performance of both algorithms compared to traditional RCPG variants as well as non-robust and non-constrained ablations. In particular, Adversarial RCPG ranks among the top two performing algorithms on all tests. | 翻訳日:2023-08-23 18:28:44 公開日:2023-08-22 |
# クリップフリー量子化スーパーレゾリューションネットワークに向けて:代表画像のモザイクの方法 Towards Clip-Free Quantized Super-Resolution Networks: How to Tame Representative Images ( http://arxiv.org/abs/2308.11365v1 ) ライセンス: Link先を確認 | Alperen Kalay, Bahri Batuhan Bilecen, Mustafa Ayazoglu | (参考訳) 超高解像度(SR)ネットワークは、モバイル版と軽量版が最近注目されている。
ネットワークパラメータ(主にFP32からINT8)の精度を下げる量子化は、SRネットワークでモバイル互換性を確立するためにも利用される。
本研究は、PTQの量子化範囲を調整する代表的データセット(RD)という、非常に重要だが見落とされがちな後量子化(PTQ)ステップに焦点を当てる。
本稿では,FP32モデルの出力のみを用いることで,RD画像を巧みに増大させる実験的な正当化を伴って,新しいパイプライン(クリップフリー量子化パイプライン,CFQP)を提案する。
提案したRDパイプラインを用いることで、ほぼすべてのモバイルSRメソッドが、実行時の大きなオーバーヘッドに対してPTQに対してより堅牢なモデルを実現するために、不要なクリップされたアクティベーション層を除去できる。
この方法によるクリップトアクティベーションの除去は、全体的な安定性の向上、srモデルで最大54%の推論ランタイムの低下、int8クリップトモデルと比較して視覚品質の向上、そして、クリップトアクティベーションで再トレーニングする必要なしに、実行時と視覚品質の両方においてfp32非量子化モデルよりも優れています。 Super-resolution (SR) networks have been investigated for a while, with their mobile and lightweight versions gaining noticeable popularity recently. Quantization, the procedure of decreasing the precision of network parameters (mostly FP32 to INT8), is also utilized in SR networks for establishing mobile compatibility. This study focuses on a very important but mostly overlooked post-training quantization (PTQ) step: representative dataset (RD), which adjusts the quantization range for PTQ. We propose a novel pipeline (clip-free quantization pipeline, CFQP) backed up with extensive experimental justifications to cleverly augment RD images by only using outputs of the FP32 model. Using the proposed pipeline for RD, we can successfully eliminate unwanted clipped activation layers, which nearly all mobile SR methods utilize to make the model more robust to PTQ in return for a large overhead in runtime. Removing clipped activations with our method significantly benefits overall increased stability, decreased inference runtime up to 54% on some SR models, better visual quality results compared to INT8 clipped models - and outperforms even some FP32 non-quantized models, both in runtime and visual quality, without the need for retraining with clipped activation. | 翻訳日:2023-08-23 18:21:52 公開日:2023-08-22 |
# アクションセグメンテーションにどのくらいの時間的長期的コンテキストが必要か? How Much Temporal Long-Term Context is Needed for Action Segmentation? ( http://arxiv.org/abs/2308.11358v1 ) ライセンス: Link先を確認 | Emad Bahrami, Gianpiero Francesca, Juergen Gall | (参考訳) ビデオにおける長期コンテキストのモデリングは、時間的アクションセグメンテーションを含む多くのきめ細かいタスクに不可欠である。
まだオープンである興味深い質問は、最適なパフォーマンスにどのくらい長期的な時間的コンテキストが必要なのかである。
トランスフォーマーはビデオの長期的コンテキストをモデル化できるが、長いビデオでは計算が禁じられる。
時間的動作セグメンテーションに関する最近の研究は、時間的畳み込みネットワークと、局所的な時間的ウィンドウに対してのみ計算される自己アテンションを組み合わせたものである。
これらのアプローチは良い結果を示すが、ビデオの全コンテキストをキャプチャできないため、パフォーマンスは制限される。
本研究では,ビデオのフルコンテキストを捉えるために,スパークアテンションを利用するトランスフォーマーモデルを導入することで,時間的動作のセグメンテーションに長時間の時間的コンテキストがどの程度必要かに答えようとする。
このモデルと,50サラド,朝食,アセンブリ101の3つの時間的行動分節化のためのデータセットの現況を比較した。
本実験は,時間的動作セグメンテーションの最適性能を得るためには,ビデオの全コンテキストをモデル化する必要があることを示す。 Modeling long-term context in videos is crucial for many fine-grained tasks including temporal action segmentation. An interesting question that is still open is how much long-term temporal context is needed for optimal performance. While transformers can model the long-term context of a video, this becomes computationally prohibitive for long videos. Recent works on temporal action segmentation thus combine temporal convolutional networks with self-attentions that are computed only for a local temporal window. While these approaches show good results, their performance is limited by their inability to capture the full context of a video. In this work, we try to answer how much long-term temporal context is required for temporal action segmentation by introducing a transformer-based model that leverages sparse attention to capture the full context of a video. We compare our model with the current state of the art on three datasets for temporal action segmentation, namely 50Salads, Breakfast, and Assembly101. Our experiments show that modeling the full context of a video is necessary to obtain the best performance for temporal action segmentation. | 翻訳日:2023-08-23 18:21:25 公開日:2023-08-22 |
# コンボリューション付き外部フリー連続変圧器 Exemplar-Free Continual Transformer with Convolutions ( http://arxiv.org/abs/2308.11357v1 ) ライセンス: Link先を確認 | Anurag Roy, Vinay Kumar Verma, Sravan Voonna, Kripabandhu Ghosh, Saptarshi Ghosh, Abir Das | (参考訳) 継続学習(CL)は、機械学習モデルを逐次的にトレーニングして新しい情報を学ぶとともに、以前のトレーニングデータなしで学習したタスクを保持する。
CLには大きな関心があるが、コンピュータビジョンにおける最近のCLアプローチは畳み込みアーキテクチャのみに焦点を当てている。
しかし、近年のビジョントランスフォーマーの成功により、CLの可能性を探る必要がある。
ビジョントランスフォーマーの最近のCLアプローチはいくつかあるが、以前のタスクのトレーニングインスタンスを格納するか、テスト時にタスク識別子を必要とする。
本稿では,ConTraConと呼ばれる,クラス/タスクの漸進学習のための新しい例のないアプローチを提案する。
提案手法は、トランスアーキテクチャを活用し、同様のタスクでトレーニングされたトランスのマルチヘッド自己保持層のキー、クエリ、値重みを再重み付けする。
再重み付けは畳み込みを使って行われ、このアプローチはタスク毎の低パラメータ要求を維持することができる。
さらに、画像拡張に基づくエントロピー的タスク識別手法を用いて、推論中にタスクIDを必要とせずにタスクを予測する。
4つのベンチマークデータセットにおける実験は、提案手法がいくつかの競合アプローチを上回り、パラメータを少なくすることを示している。 Continual Learning (CL) involves training a machine learning model in a sequential manner to learn new information while retaining previously learned tasks without the presence of previous training data. Although there has been significant interest in CL, most recent CL approaches in computer vision have focused on convolutional architectures only. However, with the recent success of vision transformers, there is a need to explore their potential for CL. Although there have been some recent CL approaches for vision transformers, they either store training instances of previous tasks or require a task identifier during test time, which can be limiting. This paper proposes a new exemplar-free approach for class/task incremental learning called ConTraCon, which does not require task-id to be explicitly present during inference and avoids the need for storing previous training instances. The proposed approach leverages the transformer architecture and involves re-weighting the key, query, and value weights of the multi-head self-attention layers of a transformer trained on a similar task. The re-weighting is done using convolution, which enables the approach to maintain low parameter requirements per task. Additionally, an image augmentation-based entropic task identification approach is used to predict tasks without requiring task-ids during inference. Experiments on four benchmark datasets demonstrate that the proposed approach outperforms several competitive approaches while requiring fewer parameters. | 翻訳日:2023-08-23 18:20:52 公開日:2023-08-22 |
# 意味的RGB-D画像合成 Semantic RGB-D Image Synthesis ( http://arxiv.org/abs/2308.11356v1 ) ライセンス: Link先を確認 | Shijie Li, Rong Li, Juergen Gall | (参考訳) RGB-Dセマンティックイメージセグメンテーションのための多様なトレーニングイメージを収集することは必ずしも不可能である。
特に、ロボットが家のようなプライバシーに敏感な場所で操作する必要がある場合、収集は小さな場所に限定されることが多い。
その結果、注釈付き画像は外観の多様性を欠き、RGB-Dセマンティックイメージセグメンテーションのアプローチはトレーニングデータに過度に適合する傾向にある。
本稿では,この問題に対処する意味的RGB-D画像合成を提案する。
与えられたセマンティックラベルマップのために、現実的なRGB-D画像を合成する必要がある。
しかし、現在のアプローチはユニモーダルであり、マルチモーダルデータに対応できない。
実際、マルチモーダルデータへのユニモーダルアプローチの拡張はうまく機能しないことを示している。
そこで本稿では,RGBと深度画像を生成するために必要なモーダル依存情報から,意味的レイアウトのモーダル非依存情報を分離するマルチモーダルデータ生成器を提案する。
さらに,ラベルマップと生成画像間の意味的一貫性と,実画像と生成画像との知覚的類似性を保証する判別器を提案する。
提案手法は,実画像と生成画像とを混合することにより,従来のユニモーダル法を大きく上回り,rgb-d意味セグメンテーションへのアプローチの精度が大幅に向上することを示す。 Collecting diverse sets of training images for RGB-D semantic image segmentation is not always possible. In particular, when robots need to operate in privacy-sensitive areas like homes, the collection is often limited to a small set of locations. As a consequence, the annotated images lack diversity in appearance and approaches for RGB-D semantic image segmentation tend to overfit the training data. In this paper, we thus introduce semantic RGB-D image synthesis to address this problem. It requires synthesising a realistic-looking RGB-D image for a given semantic label map. Current approaches, however, are uni-modal and cannot cope with multi-modal data. Indeed, we show that extending uni-modal approaches to multi-modal data does not perform well. In this paper, we therefore propose a generator for multi-modal data that separates modal-independent information of the semantic layout from the modal-dependent information that is needed to generate an RGB and a depth image, respectively. Furthermore, we propose a discriminator that ensures semantic consistency between the label maps and the generated images and perceptual similarity between the real and generated images. Our comprehensive experiments demonstrate that the proposed method outperforms previous uni-modal methods by a large margin and that the accuracy of an approach for RGB-D semantic segmentation can be significantly improved by mixing real and generated images during training. | 翻訳日:2023-08-23 18:20:12 公開日:2023-08-22 |
# M3PS:Eコマースにおけるマルチグリッド型マルチモーダル属性対応製品要約 M3PS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product Summarization in E-commerce ( http://arxiv.org/abs/2308.11351v1 ) ライセンス: Link先を確認 | Tao Chen, Ze Lin, Hui Li, Jiayi Ji, Yiyi Zhou, Guanbin Li and Rongrong Ji | (参考訳) 長いテキスト製品情報と製品イメージから、MMPS(Multi-Modal Product Summarization)は、顧客の興味を惹きつけ、短いテキスト要約で商品の特徴を強調して購入意欲を高めることを目的としている。
既存のMMPS手法は有望な性能を達成した。
しかし、いくつかの問題がある。
1)エンドツーエンドの製品要約が欠如している。
2)マルチモーダルモデリングの欠如,および
3)マルチモーダル属性モデリングの欠如。
これらの課題に対処するため,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約法(M3PS)を提案する。
M3PSは共同で製品属性をモデル化し、製品要約を生成する。
一方,M3PSのマルチモーダル学習を指導するために,複数のマルチモーダルタスクを設計する。
さらに,テキストと画像の両方のモダリティに基づいて製品属性をモデル化し,生成した要約にマルチモーダルな製品特性を示す。
実大規模中国のe-commenceデータセットに対する大規模な実験により、我々のモデルは、いくつかの要約指標を用いて、最先端の製品要約手法より優れていることを示した。 Given the long textual product information and the product image, Multi-Modal Product Summarization (MMPS) aims to attract customers' interest and increase their desire to purchase by highlighting product characteristics with a short textual summary. Existing MMPS methods have achieved promising performance. Nevertheless, there still exist several problems: 1) lack end-to-end product summarization, 2) lack multi-grained multi-modal modeling, and 3) lack multi-modal attribute modeling. To address these issues, we propose an end-to-end multi-grained multi-modal attribute-aware product summarization method (M3PS) for generating high-quality product summaries in e-commerce. M3PS jointly models product attributes and generates product summaries. Meanwhile, we design several multi-grained multi-modal tasks to better guide the multi-modal learning of M3PS. Furthermore, we model product attributes based on both text and image modalities so that multi-modal product characteristics can be manifested in the generated summaries. Extensive experiments on a real large-scale Chinese e-commence dataset demonstrate that our model outperforms state-of-the-art product summarization methods w.r.t. several summarization metrics. | 翻訳日:2023-08-23 18:19:25 公開日:2023-08-22 |
# ProAgent: 大規模言語モデルによる積極的な協調AIの構築 ProAgent: Building Proactive Cooperative AI with Large Language Models ( http://arxiv.org/abs/2308.11339v1 ) ライセンス: Link先を確認 | Ceyao Zhang, Kaijie Yang, Siyi Hu, Zihao Wang, Guanghe Li, Yihang Sun, Cheng Zhang, Zhaowei Zhang, Anji Liu, Song-Chun Zhu, Xiaojun Chang, Junge Zhang, Feng Yin, Yitao Liang, Yaodong Yang | (参考訳) 人間とAIの協力の下で適応的な行動を持つAIを構築することは、AGI研究において重要な焦点となっている。
現在の協調エージェントの開発方法は、主に学習に基づく方法に依存しており、政策の一般化は、特定のチームメイトとの過去のやりとりに大きく依存している。
これらのアプローチは、新しいチームメイトと向き合うと、エージェントの戦略を再検討する能力を制限する。
本稿では,チームメイトの今後の決定を予測し,拡張計画の策定を行う能力を備えた,大規模言語モデル(LLM)を活用した,新たなフレームワークである‘textbf{ProAgent}を提案する。
ProAgentは協力的な推論に優れ、その振る舞いを動的に適応し、チームメイトとの共同作業を強化する能力を持つ。
さらに、proagentフレームワークは高度なモジュール性と解釈性を示し、シームレスな統合を容易にし、幅広い協調シナリオに対処する。
textit{Overcook-AI} の枠組みで実施した実験により,ProAgent の卓越した性能向上が明らかになり,AI エージェントと連携して,自己プレイと集団ベーストレーニングに基づく5つの手法が達成された。
さらに、人間のプロキシモデルと協調する場合、その性能は現在の最先端のCOLEに比べて平均10倍以上の改善を示す。
この進歩は、様々な特徴を持つAIエージェントと人間のエージェントとの相互作用を含む様々なシナリオで一貫して観察された。
これらの発見は、人間とロボットのコラボレーションに将来の研究を刺激する。
実演は \url{https://pku-proagent.github.io}を参照。 Building AIs with adaptive behaviors in human-AI cooperation stands as a pivotal focus in AGI research. Current methods for developing cooperative agents predominantly rely on learning-based methods, where policy generalization heavily hinges on past interactions with specific teammates. These approaches constrain the agent's capacity to recalibrate its strategy when confronted with novel teammates. We propose \textbf{ProAgent}, a novel framework that harnesses large language models (LLMs) to fashion a \textit{pro}active \textit{agent} empowered with the ability to anticipate teammates' forthcoming decisions and formulate enhanced plans for itself. ProAgent excels at cooperative reasoning with the capacity to dynamically adapt its behavior to enhance collaborative efforts with teammates. Moreover, the ProAgent framework exhibits a high degree of modularity and interpretability, facilitating seamless integration to address a wide array of coordination scenarios. Experimental evaluations conducted within the framework of \textit{Overcook-AI} unveil the remarkable performance superiority of ProAgent, outperforming five methods based on self-play and population-based training in cooperation with AI agents. Further, when cooperating with human proxy models, its performance exhibits an average improvement exceeding 10\% compared to the current state-of-the-art, COLE. The advancement was consistently observed across diverse scenarios involving interactions with both AI agents of varying characteristics and human counterparts. These findings inspire future research for human-robot collaborations. For a hands-on demonstration, please visit \url{https://pku-proagent.github.io}. | 翻訳日:2023-08-23 18:18:48 公開日:2023-08-22 |
# GrowCLIP:大規模コントラスト言語画像事前学習のためのデータ認識自動モデル GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-training ( http://arxiv.org/abs/2308.11331v1 ) ライセンス: Link先を確認 | Xinchi Deng, Han Shi, Runhui Huang, Changlin Li, Hang Xu, Jianhua Han, James Kwok, Shen Zhao, Wei Zhang, Xiaodan Liang | (参考訳) クロスモーダル事前トレーニングは、インターネットから収集された膨大な画像テキストペアの恩恵を受け、幅広い下流タスクで印象的なパフォーマンスを示している。
実際、オンラインデータは絶えず成長しており、継続的に成長しているデータから学習する事前訓練されたモデルの重要性を強調している。
既存のクロスモーダル事前トレーニングは、主に固定アーキテクチャによるネットワークのトレーニングに焦点を当てている。
しかし、実世界のアプリケーションにおける事前学習データの継続的な増大の性質を考えると、モデル容量を制限することは不可能である。
一方,現行モデルの知識を有効活用して,効率的なトレーニングと性能向上を図ることが重要である。
そこで,本稿では,連続的な画像テキスト対を入力とするコントラスト型言語画像事前学習のためのデータ駆動型自動モデル成長アルゴリズムgroveclipを提案する。
特に、動的な成長空間を採用し、オンライン学習シナリオに適応するための成長ステップごとに最適なアーキテクチャを求めます。
また, 共有エンコーダは, クロスモーダル融合の度合いを高めるために, 成長空間に提案されている。
さらに,クロスモーダルモデルアーキテクチャの設計に関する今後の参考となる,異なる次元における成長の影響についても検討する。
最後に,以前の知識を維持し,局所的最小ジレンマ問題に対処するために,運動量継承パラメータ(pim)を用いる。
既存の手法と比較して、GrowCLIPは9つの下流タスクのゼロショット画像分類における平均トップ1精度を2.3%改善している。
ゼロショット画像検索に関しては、Flickr30Kデータセット上のトップ1画像からテキストへのリコールにおいて、GrowCLIPは1.2%改善できる。 Cross-modal pre-training has shown impressive performance on a wide range of downstream tasks, benefiting from massive image-text pairs collected from the Internet. In practice, online data are growing constantly, highlighting the importance of the ability of pre-trained model to learn from data that is continuously growing. Existing works on cross-modal pre-training mainly focus on training a network with fixed architecture. However, it is impractical to limit the model capacity when considering the continuously growing nature of pre-training data in real-world applications. On the other hand, it is important to utilize the knowledge in the current model to obtain efficient training and better performance. To address the above issues, in this paper, we propose GrowCLIP, a data-driven automatic model growing algorithm for contrastive language-image pre-training with continuous image-text pairs as input. Specially, we adopt a dynamic growth space and seek out the optimal architecture at each growth step to adapt to online learning scenarios. And the shared encoder is proposed in our growth space to enhance the degree of cross-modal fusion. Besides, we explore the effect of growth in different dimensions, which could provide future references for the design of cross-modal model architecture. Finally, we employ parameter inheriting with momentum (PIM) to maintain the previous knowledge and address the issue of the local minimum dilemma. Compared with the existing methods, GrowCLIP improves 2.3% average top-1 accuracy on zero-shot image classification of 9 downstream tasks. As for zero-shot image retrieval, GrowCLIP can improve 1.2% for top-1 image-to-text recall on Flickr30K dataset. | 翻訳日:2023-08-23 18:18:20 公開日:2023-08-22 |
# オブジェクト検出の難しさ:より高速で優れたビデオオブジェクト検出のための過剰集約の抑制 Object Detection Difficulty: Suppressing Over-aggregation for Faster and Better Video Object Detection ( http://arxiv.org/abs/2308.11327v1 ) ライセンス: Link先を確認 | Bingqing Zhang, Sen Wang, Yifan Liu, Brano Kusy, Xue Li and Jiajun Liu | (参考訳) 現在のビデオオブジェクト検出(VOD)モデルは、各フレームで機能集約を行う冗長な集約戦略のため、過剰集約の問題にしばしば遭遇する。
これにより、最適でない性能と計算の複雑さが増す。
本研究では,画像中の物体検出の難しさを定量化するために,画像レベル物体検出難易度(odd)指標を提案する。
得られたORDスコアはVODプロセスでオーバーアグリゲーションを軽減するために使用できる。
具体的には、静止物体検出器の補助ヘッドとしてODD予測器を訓練し、検出結果と接地束縛箱との差に基づいて各画像のODDスコアを算出する。
ODDスコアはVODシステムを2つの方法で強化する。
1)VODシステムは優れたグローバル参照フレームを選択できるため、全体的な精度が向上する。
2) 新たに設計された ODD Scheduler の指標として機能し,検出が容易なフレームの集約を排除し,VOD プロセスの高速化を図る。
包括的実験により、グローバル参照フレームの選択に使用する場合、ODD-VODはグローバルフレームベースのVODモデルの精度を一貫して向上することを示した。
アクセラレーションに使用する場合、odd-vodは8つのvodモデルで平均73.3%のフレーム/秒(fps)を、精度を犠牲にすることなく一貫して改善する。
組み合わせると、ODD-VODは精度と速度の両方で多くのVOD手法と競合するとき、最先端の性能が得られる。
我々の研究は、現実のアプリケーションにVODをより実用的なものにするための大きな進歩を示している。 Current video object detection (VOD) models often encounter issues with over-aggregation due to redundant aggregation strategies, which perform feature aggregation on every frame. This results in suboptimal performance and increased computational complexity. In this work, we propose an image-level Object Detection Difficulty (ODD) metric to quantify the difficulty of detecting objects in a given image. The derived ODD scores can be used in the VOD process to mitigate over-aggregation. Specifically, we train an ODD predictor as an auxiliary head of a still-image object detector to compute the ODD score for each image based on the discrepancies between detection results and ground-truth bounding boxes. The ODD score enhances the VOD system in two ways: 1) it enables the VOD system to select superior global reference frames, thereby improving overall accuracy; and 2) it serves as an indicator in the newly designed ODD Scheduler to eliminate the aggregation of frames that are easy to detect, thus accelerating the VOD process. Comprehensive experiments demonstrate that, when utilized for selecting global reference frames, ODD-VOD consistently enhances the accuracy of Global-frame-based VOD models. When employed for acceleration, ODD-VOD consistently improves the frames per second (FPS) by an average of 73.3% across 8 different VOD models without sacrificing accuracy. When combined, ODD-VOD attains state-of-the-art performance when competing with many VOD methods in both accuracy and speed. Our work represents a significant advancement towards making VOD more practical for real-world applications. | 翻訳日:2023-08-23 18:17:55 公開日:2023-08-22 |
# CiteTracker:ビジュアルトラッキングのための画像とテキストの関係 CiteTracker: Correlating Image and Text for Visual Tracking ( http://arxiv.org/abs/2308.11322v1 ) ライセンス: Link先を確認 | Xin Li, Yuqing Huang, Zhenyu He, Yaowei Wang, Huchuan Lu, Ming-Hsuan Yang | (参考訳) 既存の視覚的追跡手法は、通常、ターゲットの参照としてイメージパッチを使って追跡を行う。
しかし、単一のイメージパッチは、画像が抽象化する能力に制限があり、曖昧であるため、ターゲットの完全な正確な概念を提供できないため、劇的なバリエーションでターゲットを追跡することは困難である。
本稿では、画像とテキストを接続することで、視覚的トラッキングにおけるターゲットモデリングと推論を強化するCiteTrackerを提案する。
具体的には、ターゲット画像パッチを、そのクラスと属性情報を含む記述テキストに変換するテキスト生成モジュールを開発し、ターゲットに対する包括的な参照ポイントを提供する。
さらに、動的記述モジュールは、より効果的なターゲット表現のためにターゲットのバリエーションに適応するように設計されている。
次に、注目に基づく相関モジュールを用いて対象記述と検索画像を関連付け、対象状態参照のための相関特徴を生成する。
提案手法の有効性を実証するために,5つの多種多様なデータセットに関する広範囲な実験を行い,提案手法の有効性を実証した。 Existing visual tracking methods typically take an image patch as the reference of the target to perform tracking. However, a single image patch cannot provide a complete and precise concept of the target object as images are limited in their ability to abstract and can be ambiguous, which makes it difficult to track targets with drastic variations. In this paper, we propose the CiteTracker to enhance target modeling and inference in visual tracking by connecting images and text. Specifically, we develop a text generation module to convert the target image patch into a descriptive text containing its class and attribute information, providing a comprehensive reference point for the target. In addition, a dynamic description module is designed to adapt to target variations for more effective target representation. We then associate the target description and the search image using an attention-based correlation module to generate the correlated features for target state reference. Extensive experiments on five diverse datasets are conducted to evaluate the proposed algorithm and the favorable performance against the state-of-the-art methods demonstrates the effectiveness of the proposed tracking method. | 翻訳日:2023-08-23 18:17:31 公開日:2023-08-22 |
# 複数入力多重出力設定における連続可変量子鍵分布 Continuous Variable Quantum Key Distribution in Multiple-Input Multiple-Output Settings ( http://arxiv.org/abs/2308.11320v1 ) ライセンス: Link先を確認 | Shradhanjali Sahu, Ahmed Lawey, and Mohsen Razavi | (参考訳) 光多重出力(MIMO)設定における量子鍵分布(QKD)について検討する。
このような設定は、例えば衛星ベースのQKDのような厳しいチャネル条件を扱うのに有用である。
連続変数(CV)QKDに対して,ガウスエンコーディングとヘテロダイン検出とリバースコンシリエーションを併用した$2\times2$の設定について検討した。
本稿では,本システムのキーレート分析を行い,単モードおよび多重CVQKDシナリオと比較する。
両チャネル間にクロストークがあっても、複数の送信機と受信機で多重化ゲインを実現できることを示す。
ある場合、受信した2つの信号に非ゼロ相関の余剰ノイズがある場合、多重化ゲインを超越することもできる。 We investigate quantum key distribution (QKD) in optical multiple-input-multiple-output (MIMO) settings. Such settings can prove useful in dealing with harsh channel conditions as in, e.g., satellite-based QKD. We study a $2\times2$ setting for continuous variable (CV) QKD with Gaussian encoding and heterodyne detection and reverse reconciliation. We present our key rate analysis for this system and compare it with single-mode and multiplexed CV QKD scenarios. We show that we can achieve multiplexing gain using multiple transmitters and receivers even if there is some crosstalk between the two channels. In certain cases, when there is nonzero correlated excess noise in the two received signals, we can even surpass the multiplexing gain. | 翻訳日:2023-08-23 18:17:13 公開日:2023-08-22 |
# テンソル回帰 Tensor Regression ( http://arxiv.org/abs/2308.11419v1 ) ライセンス: Link先を確認 | Jiani Liu, Ce Zhu, Zhen Long, and Yipeng Liu | (参考訳) 回帰分析はデータ分析と機械学習の分野における重要な分野であり、しばしばベクトルを用いて変数間の依存関係を探索することに専念している。
ニューロイメージング、コンピュータビジョン、気候学、ソーシャルネットワークなどの技術における高次元データの出現は、従来のデータ表現手法に課題をもたらした。
テンソルはベクトルの高次元拡張として、高次元データの自然な表現と見なされる。
本書では,近年のテンソルベース回帰モデルとその応用について,体系的な研究と分析を行っている。
既存のテンソルベース回帰法をグループ化し、ほとんどのテンソルベース回帰法の基本、基本概念、理論的特徴を網羅する。
さらに、読者は、既存のテンソルベースの回帰手法を使って、マルチウェイデータで特定の回帰タスクを解決する方法、データセットを選択できるもの、可能な限り早く関連作業を開始するためのソフトウェアパッケージを学べる。
Tensor Regressionは、基本的な部分、モチベーション、一般的なアルゴリズム、効率的な実装戦略、関連するアプリケーション、利用可能なデータセット、テンソルベースの回帰分析のためのソフトウェアリソースに関する、最初の完全な概要である。
高次元データを扱うすべての学生、研究者、実践者にとって本質的な読書である。 Regression analysis is a key area of interest in the field of data analysis and machine learning which is devoted to exploring the dependencies between variables, often using vectors. The emergence of high dimensional data in technologies such as neuroimaging, computer vision, climatology and social networks, has brought challenges to traditional data representation methods. Tensors, as high dimensional extensions of vectors, are considered as natural representations of high dimensional data. In this book, the authors provide a systematic study and analysis of tensor-based regression models and their applications in recent years. It groups and illustrates the existing tensor-based regression methods and covers the basics, core ideas, and theoretical characteristics of most tensor-based regression methods. In addition, readers can learn how to use existing tensor-based regression methods to solve specific regression tasks with multiway data, what datasets can be selected, and what software packages are available to start related work as soon as possible. Tensor Regression is the first thorough overview of the fundamentals, motivations, popular algorithms, strategies for efficient implementation, related applications, available datasets, and software resources for tensor-based regression analysis. It is essential reading for all students, researchers and practitioners of working on high dimensional data. | 翻訳日:2023-08-23 18:11:02 公開日:2023-08-22 |
# ScanNet++:3D屋内シーンの高忠実なデータセット ScanNet++: A High-Fidelity Dataset of 3D Indoor Scenes ( http://arxiv.org/abs/2308.11417v1 ) ライセンス: Link先を確認 | Chandan Yeshwanth, Yueh-Cheng Liu, Matthias Nie{\ss}ner, Angela Dai | (参考訳) これは高品質で商品レベルの幾何学と室内シーンの色を結合した大規模データセットである。
各シーンは、デジタル一眼レフカメラからの33メガピクセルの画像とiphoneからのrgb-dストリームとともに、サブミリメートルのハイエンドレーザースキャナーで撮影される。
シーン再構成はさらに意味論のオープンな語彙で注釈付けされ、ラベルとあいまいなシナリオは包括的意味理解のために明示的に注釈付けされる。
scannet++は、高品質なrgbキャプチャと商品レベルのイメージの両方から、新しいビュー合成のための新しい実世界ベンチマークを可能にするとともに、多様であいまいなセマンティックラベリングシナリオを包括的にカプセル化する3dセマンティックシーン理解のための新しいベンチマークも提供する。
現在、ScanNet++には460のシーン、280,000のDSLRイメージと370万以上のiPhone RGBDフレームが含まれている。 We present ScanNet++, a large-scale dataset that couples together capture of high-quality and commodity-level geometry and color of indoor scenes. Each scene is captured with a high-end laser scanner at sub-millimeter resolution, along with registered 33-megapixel images from a DSLR camera, and RGB-D streams from an iPhone. Scene reconstructions are further annotated with an open vocabulary of semantics, with label-ambiguous scenarios explicitly annotated for comprehensive semantic understanding. ScanNet++ enables a new real-world benchmark for novel view synthesis, both from high-quality RGB capture, and importantly also from commodity-level images, in addition to a new benchmark for 3D semantic scene understanding that comprehensively encapsulates diverse and ambiguous semantic labeling scenarios. Currently, ScanNet++ contains 460 scenes, 280,000 captured DSLR images, and over 3.7M iPhone RGBD frames. | 翻訳日:2023-08-23 18:10:40 公開日:2023-08-22 |
# 動的フィードバックフォレストアルゴリズムによるグラフ再帰ニューラルネットワークに基づく関係三重項抽出 Extracting Relational Triples Based on Graph Recursive Neural Network via Dynamic Feedback Forest Algorithm ( http://arxiv.org/abs/2308.11411v1 ) ライセンス: Link先を確認 | Hongyin Zhu | (参考訳) テキストからリレーショナルトリプル(オブジェクト、述語、オブジェクト)を抽出することで、構造化されていないテキストデータの構造化知識への変換が可能になる。
名前付きエンティティ認識(NER)と関係抽出(RE)は、この知識生成パイプラインの2つの基礎的なサブタスクである。
サブタスクの統合は、その異なる性質のため、かなりの困難をもたらす。
本稿では,依存性解析とグラフ再帰ニューラルネットワーク(grnns)の構造情報をもとに,三重抽出タスクをグラフラベリング問題に変換する新しい手法を提案する。
本稿では,モデル学習中の推論操作によってサブタスクの表現を接続する動的フィードバックフォレストアルゴリズムを提案する。
実験の結果,提案手法の有効性が示された。 Extracting relational triples (subject, predicate, object) from text enables the transformation of unstructured text data into structured knowledge. The named entity recognition (NER) and the relation extraction (RE) are two foundational subtasks in this knowledge generation pipeline. The integration of subtasks poses a considerable challenge due to their disparate nature. This paper presents a novel approach that converts the triple extraction task into a graph labeling problem, capitalizing on the structural information of dependency parsing and graph recursive neural networks (GRNNs). To integrate subtasks, this paper proposes a dynamic feedback forest algorithm that connects the representations of subtasks by inference operations during model training. Experimental results demonstrate the effectiveness of the proposed method. | 翻訳日:2023-08-23 18:10:19 公開日:2023-08-22 |
# 手作りとディープラーニングの非冗長な組み合わせ:膵癌の早期発見への応用 Non-Redundant Combination of Hand-Crafted and Deep Learning Radiomics: Application to the Early Detection of Pancreatic Cancer ( http://arxiv.org/abs/2308.11389v1 ) ライセンス: Link先を確認 | Rebeca V\'etil, Cl\'ement Abi-Nader, Alexandre B\^one, Marie-Pierre Vullierme, Marc-Michel Roh\'e, Pietro Gori, Isabelle Bloch | (参考訳) 本稿では,HCR(Hand-Crafted Radiomics)と重複しない深層学習放射線学(DLR)の課題に対処する。
そこで我々は, 相互情報を最小化して, 独立性をHCR特徴で強化しつつ, VAEを用いてDLR特徴を抽出する。
得られたDLR特徴は手作りのものと組み合わせて、分類器でがんの早期マーカーを予測することができる。
本手法は膵癌の早期マーカー4つについて概説し,独立性試験セットで検証した。
以上の結果から,非冗長DLRとHCRの機能の組み合わせは,HCR機能のみに依存したり冗長性に対処しないベースライン手法と比較して,曲線下領域の改善によって証明された。 We address the problem of learning Deep Learning Radiomics (DLR) that are not redundant with Hand-Crafted Radiomics (HCR). To do so, we extract DLR features using a VAE while enforcing their independence with HCR features by minimizing their mutual information. The resulting DLR features can be combined with hand-crafted ones and leveraged by a classifier to predict early markers of cancer. We illustrate our method on four early markers of pancreatic cancer and validate it on a large independent test set. Our results highlight the value of combining non-redundant DLR and HCR features, as evidenced by an improvement in the Area Under the Curve compared to baseline methods that do not address redundancy or solely rely on HCR features. | 翻訳日:2023-08-23 18:10:07 公開日:2023-08-22 |
# バイアス緩和のためのターゲットデータ拡張 Targeted Data Augmentation for bias mitigation ( http://arxiv.org/abs/2308.11386v1 ) ライセンス: Link先を確認 | Agnieszka Miko{\l}ajczyk-Bare{\l}a, Maria Ferlin, Micha{\l} Grochowski | (参考訳) 公平で倫理的なAIシステムの開発には、しばしば見落としや無視される領域であるバイアス緩和の注意を要する。
本研究では,従来のデータ拡張手法を活用し,データとモデルにおけるバイアスの問題に対処し,バイアスに対処するための新しい効率的な手法であるtarget data augmentation (tda)を提案する。
バイアスを取り除く作業と異なり,提案手法ではバイアスを挿入することを提案し,その結果,性能が向上する。
偏見を特定するために,臨床皮膚病変のデータセットと男女の顔のデータセットの2つの多様なデータセットを注釈した。
これらのバイアスアノテーションは、この研究で初めて公開され、将来の研究に貴重なリソースを提供する。
反事実バイアス挿入により,フレーム,定規,眼鏡に関連するバイアスがモデルに大きな影響を与えていることが判明した。
トレーニング中にランダムにバイアスを導入することで、これらのバイアスを緩和し、2倍から50倍以上のバイアス尺度を大幅に減少させ、エラー率の無視できる増加を維持した。 The development of fair and ethical AI systems requires careful consideration of bias mitigation, an area often overlooked or ignored. In this study, we introduce a novel and efficient approach for addressing biases called Targeted Data Augmentation (TDA), which leverages classical data augmentation techniques to tackle the pressing issue of bias in data and models. Unlike the laborious task of removing biases, our method proposes to insert biases instead, resulting in improved performance. To identify biases, we annotated two diverse datasets: a dataset of clinical skin lesions and a dataset of male and female faces. These bias annotations are published for the first time in this study, providing a valuable resource for future research. Through Counterfactual Bias Insertion, we discovered that biases associated with the frame, ruler, and glasses had a significant impact on models. By randomly introducing biases during training, we mitigated these biases and achieved a substantial decrease in bias measures, ranging from two-fold to more than 50-fold, while maintaining a negligible increase in the error rate. | 翻訳日:2023-08-23 18:09:52 公開日:2023-08-22 |
# DALNet:動的アンカーラインに基づく鉄道検出ネットワーク DALNet: A Rail Detection Network Based on Dynamic Anchor Line ( http://arxiv.org/abs/2308.11381v1 ) ライセンス: Link先を確認 | Zichen Yu, Quanli Liu, Wei Wang, Liyong Zhang, Xiaoguang Zhao | (参考訳) レール検出は、インテリジェントトレインの重要な要素の1つである。
本稿では,アンカー線に基づく車線検出手法を動機とし,動的アンカー線に基づくdalnetと呼ばれるレール検出ネットワークを提案する。
予め定義されたアンカー線が画像に依存しないという問題を解決するため,新しい動的アンカー線機構を設計する。
動的アンカーラインジェネレータを用いて、入力画像中のレールの位置と形状に基づいて、各レールインスタンスに対して適切なアンカーラインを動的に生成する。
これらの動的に生成されたアンカー線は、予め定義されたアンカー線よりも正確にレールをローカライズするためのより良い位置参照と見なすことができる。
さらに,高品質なアノテーションとシナリオ多様性を備えた都市レール検出データセットDL-Railを提案する。
DL-Railには7000対のイメージとアノテーションとシーンタグが含まれており、レール検出の開発を促進することが期待されている。
DALNetを多くの競合車線法と比較した。
その結果,dl-railレール検出データセットと一般的なtusimpleおよびllamasレーン検出ベンチマークでdalnetが最先端のパフォーマンスを達成できた。
コードは \url{https://github.com/Yzichen/mmLaneDet} でリリースされる。 Rail detection is one of the key factors for intelligent train. In the paper, motivated by the anchor line-based lane detection methods, we propose a rail detection network called DALNet based on dynamic anchor line. Aiming to solve the problem that the predefined anchor line is image agnostic, we design a novel dynamic anchor line mechanism. It utilizes a dynamic anchor line generator to dynamically generate an appropriate anchor line for each rail instance based on the position and shape of the rails in the input image. These dynamically generated anchor lines can be considered as better position references to accurately localize the rails than the predefined anchor lines. In addition, we present a challenging urban rail detection dataset DL-Rail with high-quality annotations and scenario diversity. DL-Rail contains 7000 pairs of images and annotations along with scene tags, and it is expected to encourage the development of rail detection. We extensively compare DALNet with many competitive lane methods. The results show that our DALNet achieves state-of-the-art performance on our DL-Rail rail detection dataset and the popular Tusimple and LLAMAS lane detection benchmarks. The code will be released at \url{https://github.com/Yzichen/mmLaneDet}. | 翻訳日:2023-08-23 18:09:34 公開日:2023-08-22 |
# 境界RL:TRUS画像における弱教師付き前立腺分割のための強化学習 Boundary-RL: Reinforcement Learning for Weakly-Supervised Prostate Segmentation in TRUS Images ( http://arxiv.org/abs/2308.11376v1 ) ライセンス: Link先を確認 | Weixi Yi, Vasilis Stavrinides, Zachary M.C. Baum, Qianye Yang, Dean C. Barratt, Matthew J. Clarkson, Yipeng Hu, Shaheer U. Saeed | (参考訳) 本稿では,パッチレベルのラベルのみをトレーニングに活用する,弱教師付きセグメンテーション手法であるBoundary-RLを提案する。
従来のようにピクセルレベルの分類ではなく,境界検出問題としてセグメンテーションを想定する。
このセグメンテーションの見通しは、従来のピクセルレベルの分類に基づく弱い監督手法がROIを効果的にセグメンテーションできないような、関心領域(ROI)境界内にノイズアーチファクトが存在するような難易度シナリオにおける境界線化を可能にする。
特に超音波画像では、強度値が境界間の音響インピーダンスの差を表す場合、境界線法も有用である。
本手法は,事前学習された境界プレゼンス分類器から得られる報酬を用いて,ROIの境界をローカライズする制御関数の学習に強化学習を用いる。
コントローラはシーケンシャルなマルコフ決定プロセスにおいてパッチ位置を変更するため、分類器はパッチ内でオブジェクト境界に遭遇した時期を示す。
分類器自体は、境界記述フレームワーク全体のトレーニングで使用される唯一のラベルであるオブジェクト存在のバイナリパッチレベルラベルのみを使用して訓練され、境界記述を知らせる弱い信号として機能する。
コントローラ機能を使用することで、画像全体のスライディングウィンドウが不要になる。
また、境界存在分類器に渡されるパッチの数を最小化することで、偽陽性または-負のケースを防止できる。
経直腸超音波画像における前立腺分節の臨床的意義について検討した。
テストされた他の弱い教師付き手法と比較して性能が向上し、同じラベル(例えば、複数インスタンス学習)を使用する。 We propose Boundary-RL, a novel weakly supervised segmentation method that utilises only patch-level labels for training. We envision the segmentation as a boundary detection problem, rather than a pixel-level classification as in previous works. This outlook on segmentation may allow for boundary delineation under challenging scenarios such as where noise artefacts may be present within the region-of-interest (ROI) boundaries, where traditional pixel-level classification-based weakly supervised methods may not be able to effectively segment the ROI. Particularly of interest, ultrasound images, where intensity values represent acoustic impedance differences between boundaries, may also benefit from the boundary delineation approach. Our method uses reinforcement learning to train a controller function to localise boundaries of ROIs using a reward derived from a pre-trained boundary-presence classifier. The classifier indicates when an object boundary is encountered within a patch, as the controller modifies the patch location in a sequential Markov decision process. The classifier itself is trained using only binary patch-level labels of object presence, which are the only labels used during training of the entire boundary delineation framework, and serves as a weak signal to inform the boundary delineation. The use of a controller function ensures that a sliding window over the entire image is not necessary. It also prevents possible false-positive or -negative cases by minimising number of patches passed to the boundary-presence classifier. We evaluate our proposed approach for a clinically relevant task of prostate gland segmentation on trans-rectal ultrasound images. We show improved performance compared to other tested weakly supervised methods, using the same labels e.g., multiple instance learning. | 翻訳日:2023-08-23 18:09:15 公開日:2023-08-22 |
# 連続スコアの解釈可能な分布不変公平度対策 Interpretable Distribution-Invariant Fairness Measures for Continuous Scores ( http://arxiv.org/abs/2308.11375v1 ) ライセンス: Link先を確認 | Ann-Kristin Becker, Oana Dumitrasc, Klaus Broelemann | (参考訳) アルゴリズム的公平性の尺度は通常二分決定の文脈で議論される。
私たちはこのアプローチを連続スコアに拡張します。
これまでのところ、この目的のためにROCに基づく措置が提案されている。
他の既存の方法はスコアの分布に大きく依存しており、ランク付けタスクには適していない。
本稿では,連続スコアに対するフェアネス測度の分布不変バージョンを提案し,ワッサースタイン距離に基づく合理的解釈を提案する。
我々の測度は計算が容易で、グループ格差の強さを定量化し解釈するのにも適しており、異なるモデル、データセット、タイムポイントのバイアスを比較するのにも適しています。
我々は,既存のスコアに対するフェアネス尺度の異なるファミリー間の関係を導出し,提案した分布不変フェアネス尺度がROCに基づくフェアネス尺度より優れており,ROCに基づくフェアネス尺度が見逃す有意なバイアスを定量化できることを示す。
最後に、最もよく使われるフェアネスベンチマークデータセットの実験を通して、それらの効果を実証する。 Measures of algorithmic fairness are usually discussed in the context of binary decisions. We extend the approach to continuous scores. So far, ROC-based measures have mainly been suggested for this purpose. Other existing methods depend heavily on the distribution of scores, are unsuitable for ranking tasks, or their effect sizes are not interpretable. Here, we propose a distributionally invariant version of fairness measures for continuous scores with a reasonable interpretation based on the Wasserstein distance. Our measures are easily computable and well suited for quantifying and interpreting the strength of group disparities as well as for comparing biases across different models, datasets, or time points. We derive a link between the different families of existing fairness measures for scores and show that the proposed distributionally invariant fairness measures outperform ROC-based fairness measures because they are more explicit and can quantify significant biases that ROC-based fairness measures miss. Finally, we demonstrate their effectiveness through experiments on the most commonly used fairness benchmark datasets. | 翻訳日:2023-08-23 18:08:45 公開日:2023-08-22 |
# クラスタリングに基づくスロット初期化による解釈可能なオブジェクト抽象化の強化 Enhancing Interpretable Object Abstraction via Clustering-based Slot Initialization ( http://arxiv.org/abs/2308.11369v1 ) ライセンス: Link先を確認 | Ning Gao, Bernard Hohmann, Gerhard Neumann | (参考訳) スロットを用いたオブジェクト中心表現は、構成シーンにおける低レベルの知覚的特徴から効率的で柔軟で解釈可能な抽象化への進歩を示している。
カレントアプローチはスロットの初期状態をランダムにし、その後反復的な洗練を行う。
本稿では,ランダムスロット初期化が最終スロット予測の精度に大きく影響することを示す。
さらに、現在のアプローチでは、データの事前知識から所定のスロット数を必要とするため、現実の世界での適用性が制限される。
本研究では,知覚的入力機能に基づくクラスタリングアルゴリズムを用いてスロット表現を初期化する。
これにより、特定されたクラスタのスロットを初期化するために、アーキテクチャの新たなレイヤが必要になる。
我々は、クラスタ化後の交換可能なスロット表現を可能にするために、この層の置換不変および置換同変バージョンを設計する。
さらに,各シーンのスロット数を自動的に識別するために平均シフトクラスタリングを用いる。
さまざまなデータセットを用いたオブジェクト発見と新しいビュー合成タスクの評価を行った。
その結果,本手法は,特に複雑なシーンにおいて,先行手法よりも優れていた。 Object-centric representations using slots have shown the advances towards efficient, flexible and interpretable abstraction from low-level perceptual features in a compositional scene. Current approaches randomize the initial state of slots followed by an iterative refinement. As we show in this paper, the random slot initialization significantly affects the accuracy of the final slot prediction. Moreover, current approaches require a predetermined number of slots from prior knowledge of the data, which limits the applicability in the real world. In our work, we initialize the slot representations with clustering algorithms conditioned on the perceptual input features. This requires an additional layer in the architecture to initialize the slots given the identified clusters. We design permutation invariant and permutation equivariant versions of this layer to enable the exchangeable slot representations after clustering. Additionally, we employ mean-shift clustering to automatically identify the number of slots for a given scene. We evaluate our method on object discovery and novel view synthesis tasks with various datasets. The results show that our method outperforms prior works consistently, especially for complex scenes. | 翻訳日:2023-08-23 18:08:29 公開日:2023-08-22 |
# 任意の量子計算の正しい実現に対する信頼を得る Gaining confidence on the correct realization of arbitrary quantum computations ( http://arxiv.org/abs/2308.11368v1 ) ライセンス: Link先を確認 | Jose Carrasco, Marc Langer, Antoine Neven, Barbara Kraus | (参考訳) 本稿では,任意の普遍量子計算を実現するための検証プロトコルを提案する。
プロトコルの導出は、古典的に効率的にシミュレートできるマッチゲート計算が、追加のリソースを補うと普遍になるという事実に基づいている。
弱シミュレーション,ランダムコンパイル,古典統計などのツールを組み合わせて検証回路を導出する。
これらの回路は、その特性を持つ
(i)オリジナル回路とよく似ている。
(ii) 理想,すなわちエラーフリー,シナリオ,さらにはエラーが存在する現実的な状況において,古典的に効率的にシミュレートすることができない。
実際、プロトコルの1つでは、元の計算と全く同じ回路をわずかに修正された入力状態に適用する。 We present verification protocols to gain confidence in the correct performance of the realization of an arbitrary universal quantum computation. The derivation of the protocols is based on the fact that matchgate computations, which are classically efficiently simulable, become universal if supplemented with additional resources. We combine tools from weak simulation, randomized compiling, and classical statistics to derive verification circuits. These circuits have the property that (i) they strongly resemble the original circuit and (ii) cannot only be classically efficiently simulated in the ideal, i.e. error free, scenario, but also in the realistic situation where errors are present. In fact, in one of the protocols we apply exactly the same circuit as in the original computation, however, to a slightly modified input state. | 翻訳日:2023-08-23 18:08:15 公開日:2023-08-22 |
# リアルタイムUAV追跡のための比較例を用いた識別表現に向けて Towards Discriminative Representations with Contrastive Instances for Real-Time UAV Tracking ( http://arxiv.org/abs/2308.11450v1 ) ライセンス: Link先を確認 | Dan Zeng, Mingliang Zou, Xucheng Wang, Shuiwang Li | (参考訳) 高い効率と高精度を維持することは、コンピュータリソース、バッテリー容量、UAV最大負荷の制約により、UAVトラッキングの基本的な2つの課題である。
識別相関フィルタ(dcf)ベースのトラッカーは単一のcpu上で高い効率をもたらすが、精度は劣る。
軽量ディープラーニング(DL)ベースのトラッカーは効率と精度のバランスが良く,圧縮速度によって性能向上が制限される。
高い圧縮率はしばしば差別的な表現を低下させる。
そこで本研究では,新しい特徴学習の観点から特徴表現の識別能力を高めることを目的としている。
具体的には、手動のアノテーションを必要とせず、軽量なモデルの開発とデプロイが可能な、UAV追跡のための対照的なインスタンスによるより差別的な表現を、シンプルで効果的な方法で学習しようと試みる。
われわれは、UAV追跡のためのコントラスト学習を初めて検討している。
UAV123@10fps、DTB70、UAVDT、VisDrone2018を含む4つのUAVベンチマークの大規模な実験は、提案されたDRCIトラッカーが最先端のUAV追跡方法を大幅に上回っていることを示している。 Maintaining high efficiency and high precision are two fundamental challenges in UAV tracking due to the constraints of computing resources, battery capacity, and UAV maximum load. Discriminative correlation filters (DCF)-based trackers can yield high efficiency on a single CPU but with inferior precision. Lightweight Deep learning (DL)-based trackers can achieve a good balance between efficiency and precision but performance gains are limited by the compression rate. High compression rate often leads to poor discriminative representations. To this end, this paper aims to enhance the discriminative power of feature representations from a new feature-learning perspective. Specifically, we attempt to learn more disciminative representations with contrastive instances for UAV tracking in a simple yet effective manner, which not only requires no manual annotations but also allows for developing and deploying a lightweight model. We are the first to explore contrastive learning for UAV tracking. Extensive experiments on four UAV benchmarks, including UAV123@10fps, DTB70, UAVDT and VisDrone2018, show that the proposed DRCI tracker significantly outperforms state-of-the-art UAV tracking methods. | 翻訳日:2023-08-23 18:00:42 公開日:2023-08-22 |
# ゼロショット意味理解のためのマスクモーメントコントラスト学習 Masked Momentum Contrastive Learning for Zero-shot Semantic Understanding ( http://arxiv.org/abs/2308.11448v1 ) ライセンス: Link先を確認 | Jiantao Wu and Shentong Mo and Muhammad Awais and Sara Atito and Zhenhua Feng and Josef Kittler | (参考訳) 自己教師付き事前学習(SSP)は、ラベル付きデータなしで有意義な特徴表現を抽出できる機械学習の一般的な手法として登場した。
コンピュータビジョンの領域では、事前学習された視覚変換器(ViT)が伝達学習において重要な役割を担っている。
それでも、これらの大型モデルを微調整するコストの高騰は、モデルサイズの爆発による課題を生じさせている。
本研究は、コンピュータビジョンタスクにおける純粋な自己教師あり学習(SSL)技術の有効性を評価し、人間のような能力を一般化・認識する目的で微調整の必要性を回避しようとするものである。
そこで本研究では,プロンプトパッチに基づくゼロショットセグメンテーションの評価プロトコルを提案する。
プロンプトとして対象オブジェクト上のポイントが与えられると、アルゴリズムは選択されたパッチと他のパッチとの類似度マップを計算し、それに基づいて単純なしきい値を適用してターゲットを分割する。
もう一つの評価は、SSP ViTの識別能力とオブジェクト内およびオブジェクト間類似性である。
ゼロショットセグメンテーション(ゼロショットセグメンテーション)によるSSPの促進と識別能力からの洞察は、MCCと呼ばれる単純なSSPアプローチの設計につながった。
このアプローチは、局所特徴の類似性を促進するMaskedイメージモデリング、グローバル特徴から局所特徴への意味の伝達のためのMomentumベースの自己蒸留、グローバル特徴のセマンティクスを促進するグローバルコントラストを組み合わせて、SSP ViTの識別表現を強化する。
提案手法はオブジェクト内およびオブジェクト間類似性の重複を著しく低減し,画像内の効果的なオブジェクト分割を容易にする。
実験の結果,MCCは様々なデータセットにまたがるゼロショットセマンティックセマンティックセマンティックセグメンテーションの上位層を提供することがわかった。 Self-supervised pretraining (SSP) has emerged as a popular technique in machine learning, enabling the extraction of meaningful feature representations without labelled data. In the realm of computer vision, pretrained vision transformers (ViTs) have played a pivotal role in advancing transfer learning. Nonetheless, the escalating cost of finetuning these large models has posed a challenge due to the explosion of model size. This study endeavours to evaluate the effectiveness of pure self-supervised learning (SSL) techniques in computer vision tasks, obviating the need for finetuning, with the intention of emulating human-like capabilities in generalisation and recognition of unseen objects. To this end, we propose an evaluation protocol for zero-shot segmentation based on a prompting patch. Given a point on the target object as a prompt, the algorithm calculates the similarity map between the selected patch and other patches, upon that, a simple thresholding is applied to segment the target. Another evaluation is intra-object and inter-object similarity to gauge discriminatory ability of SSP ViTs. Insights from zero-shot segmentation from prompting and discriminatory abilities of SSP led to the design of a simple SSP approach, termed MMC. This approaches combines Masked image modelling for encouraging similarity of local features, Momentum based self-distillation for transferring semantics from global to local features, and global Contrast for promoting semantics of global features, to enhance discriminative representations of SSP ViTs. Consequently, our proposed method significantly reduces the overlap of intra-object and inter-object similarities, thereby facilitating effective object segmentation within an image. Our experiments reveal that MMC delivers top-tier results in zero-shot semantic segmentation across various datasets. | 翻訳日:2023-08-23 18:00:19 公開日:2023-08-22 |
# アスペクトに基づく感情分類のためのアスペクト指向の意見アライメントネットワーク Aspect-oriented Opinion Alignment Network for Aspect-Based Sentiment Classification ( http://arxiv.org/abs/2308.11447v1 ) ライセンス: Link先を確認 | Xueyi Liu, Rui Hou, Yanglei Gan, Da Luo, Changlin Li, Xiaojun Shi and Qiao Liu | (参考訳) アスペクトベース感情分類(aspect-based sentiment classification)は、与えられた側面の感情極性を予測することを目的とした、きめ細かい感情分析において重要な問題である。
従来の研究は、異なる側面の意見語を抽出するアテンションメカニズムを活用することで顕著な進歩を遂げてきた。
しかし、永続的な課題は意味的ミスマッチの効果的な管理であり、それは多視点文において、適切な意見語と対応する側面を適切に調整する注意機構が不足しているからである。
この問題に対処するために、意見語とそれに対応する側面の文脈的関連を捉える新しいアスペクト指向オピニオンアライメントネットワーク(AOAN)を提案する。
具体的には、まず、隣接する単語と与えられたアスペクトの様々な構成を強調する、隣り合うスパン拡張モジュールを紹介します。
さらに,対象の側面に関連性のある意見情報を一致させる多視点的注意機構を設計する。
3つのベンチマークデータセットに対する大規模な実験は、我々のモデルが最先端の結果を達成することを示す。
ソースコードはhttps://github.com/AONE-NLP/ABSA-AOANで入手できる。 Aspect-based sentiment classification is a crucial problem in fine-grained sentiment analysis, which aims to predict the sentiment polarity of the given aspect according to its context. Previous works have made remarkable progress in leveraging attention mechanism to extract opinion words for different aspects. However, a persistent challenge is the effective management of semantic mismatches, which stem from attention mechanisms that fall short in adequately aligning opinions words with their corresponding aspect in multi-aspect sentences. To address this issue, we propose a novel Aspect-oriented Opinion Alignment Network (AOAN) to capture the contextual association between opinion words and the corresponding aspect. Specifically, we first introduce a neighboring span enhanced module which highlights various compositions of neighboring words and given aspects. In addition, we design a multi-perspective attention mechanism that align relevant opinion information with respect to the given aspect. Extensive experiments on three benchmark datasets demonstrate that our model achieves state-of-the-art results. The source code is available at https://github.com/AONE-NLP/ABSA-AOAN. | 翻訳日:2023-08-23 17:59:50 公開日:2023-08-22 |
# 医療データの説明を支援するラショモンセットの探索 Exploration of Rashomon Set Assists Explanations for Medical Data ( http://arxiv.org/abs/2308.11446v1 ) ライセンス: Link先を確認 | Katarzyna Kobyli\'nska, Mateusz Krzyzi\'nski, Rafa{\l} Machowicz, Mariusz Adamek, Przemys{\l}aw Biecek | (参考訳) 機械学習のモデリングプロセスは、従来、選択されたパフォーマンスメトリックを最大化する単一のモデルを選択することで頂点に達する。
しかし、このアプローチはわずかに劣ったモデルのより深い分析を捨てる結果となる。
特に医学や医療の分野では、目標は予測を超えて価値ある洞察を生み出すことであり、パフォーマンスメトリクスのみに依存することは誤解を招くか不完全な結論をもたらす可能性がある。
この問題は、$\textit{Rashomon set}$として知られる最大値に近いパフォーマンスを持つモデルの集合を扱う場合、特に関係がある。
このような集合は多数あり、異なる方法でデータを記述するモデルを含んでいる可能性がある。
本稿では,従来のモデリング手法を拡張したRashomon集合モデルを探索する新しいプロセスを提案する。
基礎は、導入した$\texttt{Rashomon_DETECT}$アルゴリズムによって促進される、Rashomon集合内の最も異なるモデルの識別である。
このアルゴリズムは、eXplainable Artificial Intelligence (XAI)技術によって生成された可変値の予測依存性を説明できるプロファイルを比較する。
モデル間の変動効果の差を定量化するために,機能的データ解析に基づくプロファイル分散指数(PDI)を導入する。
本手法の有効性を示すため,造血細胞リンパ血球症(hlh)患者の生存率の予測に本手法を応用した基礎的検討を行った。
さらに,我々のアプローチを他の医療データセットにベンチマークし,様々な状況においてその汎用性と有用性を示す。 The machine learning modeling process conventionally culminates in selecting a single model that maximizes a selected performance metric. However, this approach leads to abandoning a more profound analysis of slightly inferior models. Particularly in medical and healthcare studies, where the objective extends beyond predictions to valuable insight generation, relying solely on performance metrics can result in misleading or incomplete conclusions. This problem is particularly pertinent when dealing with a set of models with performance close to maximum one, known as $\textit{Rashomon set}$. Such a set can be numerous and may contain models describing the data in a different way, which calls for comprehensive analysis. This paper introduces a novel process to explore Rashomon set models, extending the conventional modeling approach. The cornerstone is the identification of the most different models within the Rashomon set, facilitated by the introduced $\texttt{Rashomon_DETECT}$ algorithm. This algorithm compares profiles illustrating prediction dependencies on variable values generated by eXplainable Artificial Intelligence (XAI) techniques. To quantify differences in variable effects among models, we introduce the Profile Disparity Index (PDI) based on measures from functional data analysis. To illustrate the effectiveness of our approach, we showcase its application in predicting survival among hemophagocytic lymphohistiocytosis (HLH) patients - a foundational case study. Additionally, we benchmark our approach on other medical data sets, demonstrating its versatility and utility in various contexts. | 翻訳日:2023-08-23 17:59:30 公開日:2023-08-22 |
# リプシッツの規則化と自動ウェイト平均化 Revisiting and Exploring Efficient Fast Adversarial Training via LAW: Lipschitz Regularization and Auto Weight Averaging ( http://arxiv.org/abs/2308.11443v1 ) ライセンス: Link先を確認 | Xiaojun Jia, Yuefeng Chen, Xiaofeng Mao, Ranjie Duan, Jindong Gu, Rong Zhang, Hui Xue and Xiaochun Cao | (参考訳) fast adversarial training (fat)はモデルのロバスト性を向上させるだけでなく、標準のadversarial trainingのトレーニングコストも削減する。
しかし、速い敵の訓練は、しばしばカタストロフィックオーバーフィッティング(CO)に悩まされ、結果として堅牢性が低下する。
カタストロフィックオーバーフィッティング(Caastrophic Overfitting)は、急速対人訓練のトレーニング中に突然かつ顕著に精度が低下する現象を記述している。
カタストロフィックオーバーフィッティングを防ぎ、異なる観点からモデルの堅牢性を改善するために、多くの効果的な技術が開発されている。
しかし、これらのテクニックは一貫性のないトレーニング設定を採用し、トレーニング時間とメモリコストの異なるトレーニングコストを必要とし、不公平な比較につながる。
本稿では,10以上の高速対人訓練手法について,対人ロバスト性とトレーニングコストの観点から総合研究を行った。
我々は,モデル局所非線形性の観点から,破滅的過剰フィッティングを防止するための高速対向訓練手法の有効性と効率を再検討し,高速対向訓練のための効果的なリプシッツ正則化法を提案する。
さらに, 高速対人訓練におけるデータ拡張と平均重量化の効果について検討し, より堅牢性を高めるための簡易かつ効果的な自動重量推定法を提案する。
これらの手法を組み込むことで,FGSM-LAWと略されるリプシッツ正規化とオートウェイト平均化を備えたFGSMベースの高速対向訓練手法を提案する。
4つのベンチマークデータベースにおける実験的評価は、最先端の高速敵訓練法と先進的な標準敵訓練法よりも、提案手法が優れていることを示している。 Fast Adversarial Training (FAT) not only improves the model robustness but also reduces the training cost of standard adversarial training. However, fast adversarial training often suffers from Catastrophic Overfitting (CO), which results in poor robustness performance. Catastrophic Overfitting describes the phenomenon of a sudden and significant decrease in robust accuracy during the training of fast adversarial training. Many effective techniques have been developed to prevent Catastrophic Overfitting and improve the model robustness from different perspectives. However, these techniques adopt inconsistent training settings and require different training costs, i.e, training time and memory costs, leading to unfair comparisons. In this paper, we conduct a comprehensive study of over 10 fast adversarial training methods in terms of adversarial robustness and training costs. We revisit the effectiveness and efficiency of fast adversarial training techniques in preventing Catastrophic Overfitting from the perspective of model local nonlinearity and propose an effective Lipschitz regularization method for fast adversarial training. Furthermore, we explore the effect of data augmentation and weight averaging in fast adversarial training and propose a simple yet effective auto weight averaging method to improve robustness further. By assembling these techniques, we propose a FGSM-based fast adversarial training method equipped with Lipschitz regularization and Auto Weight averaging, abbreviated as FGSM-LAW. Experimental evaluations on four benchmark databases demonstrate the superiority of the proposed method over state-of-the-art fast adversarial training methods and the advanced standard adversarial training methods. | 翻訳日:2023-08-23 17:59:07 公開日:2023-08-22 |
# SDeMorph: 単一形態による顔のデフォーミングの改善 SDeMorph: Towards Better Facial De-morphing from Single Morph ( http://arxiv.org/abs/2308.11442v1 ) ライセンス: Link先を確認 | Nitish Shukla | (参考訳) 顔認識システム(frs)はmorph攻撃に対して脆弱である。
顔形態は、複数のIDとFRSを騙し、その形態と複数のIDとを一致させることにより生成される。
現在のMorph Detection (MAD)は、その形態を検出できるが、良好な結果を得るために使用するアイデンティティを回復できない。
デモーフィングにおける既存の作業は、ほとんどが参照ベースである。
Sudiptaなど。
\cite{ref9} は参照フリーなデモーフィング手法を提案したが、出力の視覚的リアリズムは弱かった。
本研究では, 参照フリーでボナファイドのアイデンティティを復元する新しいデモルファス法であるSDeMorph (Stably Diffused De-morpher)を提案する。
提案手法は,定義や顔の忠実性の観点から,極めて高品質な特徴豊かな出力を生成する。
本手法は,入力されたモルヒド信号を破壊し,分岐UNetを用いて再構成することで拡散確率モデル(DDPM)を利用する。
ASML, FRLL-FaceMorph, FRLL-MorDIFF, SMDDデータセットによる実験は, 提案手法の有効性を支持する。 Face Recognition Systems (FRS) are vulnerable to morph attacks. A face morph is created by combining multiple identities with the intention to fool FRS and making it match the morph with multiple identities. Current Morph Attack Detection (MAD) can detect the morph but are unable to recover the identities used to create the morph with satisfactory outcomes. Existing work in de-morphing is mostly reference-based, i.e. they require the availability of one identity to recover the other. Sudipta et al. \cite{ref9} proposed a reference-free de-morphing technique but the visual realism of outputs produced were feeble. In this work, we propose SDeMorph (Stably Diffused De-morpher), a novel de-morphing method that is reference-free and recovers the identities of bona fides. Our method produces feature-rich outputs that are of significantly high quality in terms of definition and facial fidelity. Our method utilizes Denoising Diffusion Probabilistic Models (DDPM) by destroying the input morphed signal and then reconstructing it back using a branched-UNet. Experiments on ASML, FRLL-FaceMorph, FRLL-MorDIFF, and SMDD datasets support the effectiveness of the proposed method. | 翻訳日:2023-08-23 17:58:31 公開日:2023-08-22 |
# レベルセット投影による符号なし距離場におけるより連続的なゼロレベル集合の学習 Learning a More Continuous Zero Level Set in Unsigned Distance Fields through Level Set Projection ( http://arxiv.org/abs/2308.11441v1 ) ライセンス: Link先を確認 | Junsheng Zhou, Baorui Ma, Shujuan Li, Yu-Shen Liu, Zhizhong Han | (参考訳) 最新の手法は未符号距離関数 (UDF) を用いた開面形状を表す。
ニューラルネットワークをトレーニングしてUDFを学習し、UDFのゼロレベルセットの周囲の勾配で表面を再構築する。
しかし、差分ネットワークはUDFが微分不可能なゼロレベル集合の学習に苦慮し、符号のない距離とゼロレベル集合の勾配に大きな誤差を生じさせ、高度に断片化され不連続な曲面をもたらす。
この問題を解決するため,我々は,udfのより連続的なゼロレベル集合をレベル集合の射影で学ぶことを提案する。
我々の洞察は、プロジェクションプロシージャを通して残りのゼロレベル集合を用いてゼロレベル集合の学習を導くことである。
我々のアイデアは、ゼロでないレベル集合はゼロレベル集合よりもずっと滑らかで連続であるという観測から着想を得ている。
非ゼロレベル集合を、異なるレベル集合上の勾配を調整し、ゼロレベル集合上の無符号距離誤差を正し、より滑らかでより連続的な無符号距離場へと導く勾配制約付きゼロレベル集合に引き寄せる。
ポイントクラウド,実スキャン,奥行きマップの包括的再構成実験を行い,学習したudfを用いた教師なしポイントクラウドアップサンプリングおよび教師なしポイントノーマル推定の性能について検討し,最先端手法に対する非自明な改善を示す。
コードはhttps://github.com/junshengzhou/LevelSetUDFで入手できる。 Latest methods represent shapes with open surfaces using unsigned distance functions (UDFs). They train neural networks to learn UDFs and reconstruct surfaces with the gradients around the zero level set of the UDF. However, the differential networks struggle from learning the zero level set where the UDF is not differentiable, which leads to large errors on unsigned distances and gradients around the zero level set, resulting in highly fragmented and discontinuous surfaces. To resolve this problem, we propose to learn a more continuous zero level set in UDFs with level set projections. Our insight is to guide the learning of zero level set using the rest non-zero level sets via a projection procedure. Our idea is inspired from the observations that the non-zero level sets are much smoother and more continuous than the zero level set. We pull the non-zero level sets onto the zero level set with gradient constraints which align gradients over different level sets and correct unsigned distance errors on the zero level set, leading to a smoother and more continuous unsigned distance field. We conduct comprehensive experiments in surface reconstruction for point clouds, real scans or depth maps, and further explore the performance in unsupervised point cloud upsampling and unsupervised point normal estimation with the learned UDF, which demonstrate our non-trivial improvements over the state-of-the-art methods. Code is available at https://github.com/junshengzhou/LevelSetUDF . | 翻訳日:2023-08-23 17:58:06 公開日:2023-08-22 |
# PoseGraphNet++: オリエンテーション推定による3Dヒューマンポース強化 PoseGraphNet++: Enriching 3D Human Pose with Orientation Estimation ( http://arxiv.org/abs/2308.11440v1 ) ライセンス: Link先を確認 | Soubarna Banik, Edvard Avagyan, Alejandro Mendoza Gracia, Alois Knoll | (参考訳) 既存のキネマティックスケルトンに基づく3次元人間のポーズ推定手法は関節の位置のみを予測する。
これは骨回転のヨーとピッチを計算するのに十分であるが、骨の軸周りのロールはこれらの方法で未解決のままである。
本稿では, 関節位と骨の向きを含む完全な人間のポーズを予測するために, posegraphnet++ という2次元から3次元の浮揚グラフ畳み込みネットワークを提案する。
関節と骨の特徴を利用するために, ノードとエッジの畳み込みを用いる。
我々のモデルは複数のベンチマークデータセットで評価され、その性能は位置測定と回転測定の両方の観点から最先端の手法と同等かそれ以上である。
広範なアブレーション研究を通じて,ponsgraphnet++は関節と骨の相互関係を活用できることを示した。 Existing kinematic skeleton-based 3D human pose estimation methods only predict joint positions. Although this is sufficient to compute the yaw and pitch of the bone rotations, the roll around the axis of the bones remains unresolved by these methods. In this paper, we propose a novel 2D-to-3D lifting Graph Convolution Network named PoseGraphNet++ to predict the complete human pose including the joint positions and the bone orientations. We employ node and edge convolutions to utilize the joint and bone features. Our model is evaluated on multiple benchmark datasets, and its performance is either on par with or better than the state-of-the-art in terms of both position and rotation metrics. Through extensive ablation studies, we show that PoseGraphNet++ benefits from exploiting the mutual relationship between the joints and the bones. | 翻訳日:2023-08-23 17:57:39 公開日:2023-08-22 |
# 大規模言語モデルに基づく自律エージェントに関する調査 A Survey on Large Language Model based Autonomous Agents ( http://arxiv.org/abs/2308.11432v1 ) ライセンス: Link先を確認 | Lei Wang and Chen Ma and Xueyang Feng and Zeyu Zhang and Hao Yang and Jingsen Zhang and Zhiyuan Chen and Jiakai Tang and Xu Chen and Yankai Lin and Wayne Xin Zhao and Zhewei Wei and Ji-Rong Wen | (参考訳) 自律エージェントは長い間、学術界で重要な研究テーマであった。
この分野での以前の研究は、しばしば孤立した環境の中で限られた知識を持つ訓練エージェントに焦点を当てており、それは人間の学習プロセスと大きく異なるため、エージェントが人間のような決定を下すのを困難にしている。
近年,膨大な量のWeb知識の獲得により,人間レベルの知能を実現する上で,大きな言語モデル(LLM)が顕著な可能性を示している。
これにより、llmに基づく自律エージェントの研究が急増した。
LLMの可能性を最大限活用するために、研究者は様々なアプリケーションに適した多様なエージェントアーキテクチャを考案した。
本稿では,これらの研究の包括的調査を行い,総合的な視点から自律エージェントの分野を体系的に検討する。
より具体的には、従来の作業の大部分を包含する統一されたフレームワークを提案するLCMベースのエージェントの構築に重点を置いています。
さらに、社会科学、自然科学、工学の分野におけるLLMベースのAIエージェントの様々な応用について概説する。
最後に,LLMを用いたAIエージェントの評価手法について述べる。
本研究は,本分野における課題と今後の方向性についても述べる。
このフィールドを追跡し、調査を継続的に更新するために、関連するリファレンスのリポジトリをhttps://github.com/paitesanshi/llm-agent-surveyに保持します。 Autonomous agents have long been a prominent research topic in the academic community. Previous research in this field often focuses on training agents with limited knowledge within isolated environments, which diverges significantly from the human learning processes, and thus makes the agents hard to achieve human-like decisions. Recently, through the acquisition of vast amounts of web knowledge, large language models (LLMs) have demonstrated remarkable potential in achieving human-level intelligence. This has sparked an upsurge in studies investigating autonomous agents based on LLMs. To harness the full potential of LLMs, researchers have devised diverse agent architectures tailored to different applications. In this paper, we present a comprehensive survey of these studies, delivering a systematic review of the field of autonomous agents from a holistic perspective. More specifically, our focus lies in the construction of LLM-based agents, for which we propose a unified framework that encompasses a majority of the previous work. Additionally, we provide a summary of the various applications of LLM-based AI agents in the domains of social science, natural science, and engineering. Lastly, we discuss the commonly employed evaluation strategies for LLM-based AI agents. Based on the previous studies, we also present several challenges and future directions in this field. To keep track of this field and continuously update our survey, we maintain a repository for the related references at https://github.com/Paitesanshi/LLM-Agent-Survey. | 翻訳日:2023-08-23 17:57:25 公開日:2023-08-22 |
# TurboViT: 生成アーキテクチャ検索による高速ビジョン変換器の生成 TurboViT: Generating Fast Vision Transformers via Generative Architecture Search ( http://arxiv.org/abs/2308.11421v1 ) ライセンス: Link先を確認 | Alexander Wong, Saad Abbasi, Saeejith Nair | (参考訳) 近年、視覚変換器は様々な視覚認知タスクに取り組む際に、前例のない性能を示した。
しかし、そのようなネットワークアーキテクチャのアーキテクチャと計算の複雑さは、高スループットで低メモリ要求の実際のアプリケーションにデプロイすることを困難にしている。
このように、近年、効率的な視覚トランスフォーマーアーキテクチャの設計に関する研究が盛んである。
本研究では,GAS(Generative Architecture Search)を用いた高速ビジョントランスフォーマーアーキテクチャの設計について検討し,精度とアーキテクチャ,計算効率のバランスを強くする。
この生成的アーキテクチャ探索プロセスを通じて,マスクユニットの注意とQプールの設計パターンに基づいて生成される高効率な階層型視覚トランスフォーマーアーキテクチャであるTurboViTを作成する。
結果のTurboViTアーキテクチャ設計は、ImageNet-1Kデータセットで同様の精度で、他の10の最先端の効率的なビジョントランスフォーマーネットワークアーキテクチャと比較すると、アーキテクチャの複雑さ(=2.47$\times$同じ精度でFasterViT-0より小さい)と計算の複雑さ(→3.4$\times$より小さいFLOPと0.9%高い精度)を著しく低下させる。
さらに、TurboViTは低レイテンシとバッチ処理の両方のシナリオで強い推論レイテンシとスループットを示した(低レイテンシではFasterViT-0に比べて3.21$\times$低レイテンシと3.18$\times$高スループット)。
これらの有望な結果は、高スループットシナリオのための効率的なトランスフォーマーアーキテクチャ設計を生成するために生成的アーキテクチャ探索を利用する効果を示している。 Vision transformers have shown unprecedented levels of performance in tackling various visual perception tasks in recent years. However, the architectural and computational complexity of such network architectures have made them challenging to deploy in real-world applications with high-throughput, low-memory requirements. As such, there has been significant research recently on the design of efficient vision transformer architectures. In this study, we explore the generation of fast vision transformer architecture designs via generative architecture search (GAS) to achieve a strong balance between accuracy and architectural and computational efficiency. Through this generative architecture search process, we create TurboViT, a highly efficient hierarchical vision transformer architecture design that is generated around mask unit attention and Q-pooling design patterns. The resulting TurboViT architecture design achieves significantly lower architectural computational complexity (>2.47$\times$ smaller than FasterViT-0 while achieving same accuracy) and computational complexity (>3.4$\times$ fewer FLOPs and 0.9% higher accuracy than MobileViT2-2.0) when compared to 10 other state-of-the-art efficient vision transformer network architecture designs within a similar range of accuracy on the ImageNet-1K dataset. Furthermore, TurboViT demonstrated strong inference latency and throughput in both low-latency and batch processing scenarios (>3.21$\times$ lower latency and >3.18$\times$ higher throughput compared to FasterViT-0 for low-latency scenario). These promising results demonstrate the efficacy of leveraging generative architecture search for generating efficient transformer architecture designs for high-throughput scenarios. | 翻訳日:2023-08-23 17:57:02 公開日:2023-08-22 |
# 分類木学習のための列生成に基づく数学の再検討 Revisiting column-generation-based matheuristic for learning classification trees ( http://arxiv.org/abs/2308.11477v1 ) ライセンス: Link先を確認 | Krunal Kishor Patel, Guy Desaulniers, Andrea Lodi | (参考訳) 決定木は機械学習(ML)の分類問題を解くための非常に解釈可能なモデルである。
決定木を訓練するための標準的なMLアルゴリズムは高速だが、精度の点で最適木を生成する。
論文の他の離散最適化モデルは最適性問題に対処するが、比較的小さなデータセットでのみうまく機能する。
\cite{firat2020column} は列生成に基づく決定木学習のためのヒューリスティックアプローチを提案した。
このアプローチはスケーラビリティを改善し、大規模なデータセットで動作する。
本稿では,このカラム生成手法の改良について述べる。
まず、サブプロブレムモデルを変更し、マルチクラス分類インスタンスにおけるサブプロブレムの数を大幅に削減する。
次に,マスタ問題におけるデータ依存制約が含意していることを示し,それらを切断平面として用いる。
さらに,線形計画緩和解が対応する制約に違反するデータポイントを生成するための分離モデルについて述べる。
これらの修正によってスケーラビリティが向上することを示す計算結果を提示して結論付ける。 Decision trees are highly interpretable models for solving classification problems in machine learning (ML). The standard ML algorithms for training decision trees are fast but generate suboptimal trees in terms of accuracy. Other discrete optimization models in the literature address the optimality problem but only work well on relatively small datasets. \cite{firat2020column} proposed a column-generation-based heuristic approach for learning decision trees. This approach improves scalability and can work with large datasets. In this paper, we describe improvements to this column generation approach. First, we modify the subproblem model to significantly reduce the number of subproblems in multiclass classification instances. Next, we show that the data-dependent constraints in the master problem are implied, and use them as cutting planes. Furthermore, we describe a separation model to generate data points for which the linear programming relaxation solution violates their corresponding constraints. We conclude by presenting computational results that show that these modifications result in better scalability. | 翻訳日:2023-08-23 17:50:26 公開日:2023-08-22 |
# it3d: 明示的なビュー合成によるテキストから3d生成の改善 IT3D: Improved Text-to-3D Generation with Explicit View Synthesis ( http://arxiv.org/abs/2308.11473v1 ) ライセンス: Link先を確認 | Yiwen Chen, Chi Zhang, Xiaofeng Yang, Zhongang Cai, Gang Yu, Lei Yang, Guosheng Lin | (参考訳) テキストから3dへの技術の進歩は、強力な大規模テキストから画像への拡散モデル(ldms)からの知識を蒸留することで進められている。
それでも、既存のText-to-3Dアプローチは、過飽和、不適切な詳細化、非現実的な出力といった課題に悩まされることが多い。
本研究は,これらの課題に対処するために,明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
提案手法では, 粗い3次元モデルのレンダリングに基づいて高画質な画像を生成するために, LDMによる画像・画像パイプラインを利用する。
生成された画像は、上記の問題をほとんど軽減するが、大きな拡散モデルの固有生成性のため、ビューの不一貫性や重要なコンテンツ分散などの課題は継続し、これらの画像の有効活用に多大な困難が伴う。
このハードルを克服するために,新しいDiffusion-GANデュアルトレーニング戦略とともに,識別器の統合を提唱する。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
我々は,ベースラインアプローチによる手法の有効性を実証する総合的な実験を行う。 Recent strides in Text-to-3D techniques have been propelled by distilling knowledge from powerful large text-to-image diffusion models (LDMs). Nonetheless, existing Text-to-3D approaches often grapple with challenges such as over-saturation, inadequate detailing, and unrealistic outputs. This study presents a novel strategy that leverages explicitly synthesized multi-view images to address these issues. Our approach involves the utilization of image-to-image pipelines, empowered by LDMs, to generate posed high-quality images based on the renderings of coarse 3D models. Although the generated images mostly alleviate the aforementioned issues, challenges such as view inconsistency and significant content variance persist due to the inherent generative nature of large diffusion models, posing extensive difficulties in leveraging these images effectively. To overcome this hurdle, we advocate integrating a discriminator alongside a novel Diffusion-GAN dual training strategy to guide the training of 3D models. For the incorporated discriminator, the synthesized multi-view images are considered real data, while the renderings of the optimized 3D models function as fake data. We conduct a comprehensive set of experiments that demonstrate the effectiveness of our method over baseline approaches. | 翻訳日:2023-08-23 17:50:13 公開日:2023-08-22 |
# 量子支援アダプティブ光学の顕微鏡への応用 Quantum-assisted Adaptive Optics for Microscopy ( http://arxiv.org/abs/2308.11472v1 ) ライセンス: Link先を確認 | Patrick Cameron, Baptiste Courme, Daniele Faccio, Hugo Defienne | (参考訳) アダプティブ光学(AO)は、天文学から顕微鏡まで、光学収差の補正を可能にすることで、イメージングに革命をもたらした。
しかしラベルフリー顕微鏡では、ガイドスターがないため従来のao法が制限されており、サンプルの種類や撮像プロセスに特有の最適化メトリックを選択する必要がある。
本稿では,画像システムの点拡散関数(psf)に直接アクセスし補正するために,絡み合った光子間の相関を利用した量子支援ao手法を提案する。
このガイドスターフリー方法は、検体および撮像モードとは無関係である。
本研究では,空間的に絡み合った光子対の源で操作する明るい視野撮像装置を用いて,収差の存在下での生物試料のイメージングを行う。
提案手法は, ある種の収差の修正において, 従来のaoよりも優れた性能を示す。
我々の研究は、ラベルのない顕微鏡のためのAOを改善し、光収差が絡み合った光子の使用の利点と相反し、実用性を損なうことができる量子顕微鏡の開発において大きな役割を果たす可能性がある。 Adaptive optics (AO) has revolutionized imaging in applications ranging from astronomy to microscopy by enabling the correction of optical aberrations. In label-free microscopes, however, conventional AO methods are limited due to the absence of guidestar and the need to select an optimization metric specific to the type of sample and imaging process being used. Here, we propose a quantum-assisted AO approach that exploits correlations between entangled photons to directly access and correct the point spread function (PSF) of the imaging system. This guidestar-free method is independent of the specimen and imaging modality. We demonstrate the imaging of biological samples in the presence of aberrations using a bright-field imaging setup operating with a source of spatially-entangled photon pairs. We show that our approach performs better than conventional AO in correcting certain types of aberrations, particularly in cases involving significant defocus. Our work improves AO for label-free microscopy, and could play a major role in the development of quantum microscopes, in which optical aberrations can counteract the advantages of using entangled photons and undermine their practical use. | 翻訳日:2023-08-23 17:49:48 公開日:2023-08-22 |
# 動的オープン語彙強化型インテリジェンス付き安全着陸(DOVESEI) Dynamic Open Vocabulary Enhanced Safe-landing with Intelligence (DOVESEI) ( http://arxiv.org/abs/2308.11471v1 ) ライセンス: Link先を確認 | Haechan Mark Bon and Rongge Zhang and Ricardo de Azambuja and Giovanni Beltrame | (参考訳) この作業は、都市空飛ぶロボットの基本的なステップである、安全な着陸を目指しています。
我々の関心は、安全な着陸知覚スタックの最も重要な側面であるセグメンテーション(segmentation)に向けられている。
本稿では,オープンボキャブラリ画像セグメンテーションの能力を生かして,視覚サーボ機能を利用したリアクティブUAVシステムを提案する。
このアプローチは、そのオープンな語彙方法論のおかげで、内部モデルを洗練するための広範なデータ蓄積の必要性を回避し、最小限の調整で様々なシナリオに適応することができる。
地方自治体が課す制限を考えると,我々の主な焦点は高度100メートルを起点とする運用である。
この選択は意図的であり、多くの先行作品が、小型ステレオカメラの能力に合わせて、高度30メートルに対処してきた。
その結果、残りの20mは従来の3次元経路計画法でナビゲートされる。
単眼カメラと画像セグメンテーションを用いて,高度20mの地点での着陸操作を成功させる能力を示した。
しかし,この手法は,映像ストリーム内のフレーム間セグメンテーションにおける断続的かつ時折急激な変動に対して脆弱である。
この課題に対処するために、我々はダイナミックフォーカスと呼ばれる、現在の着陸段階に応じて自己調整するマスキング機構を導入することにより、画像分割出力を強化する。
このダイナミックフォーカスは、地上に投影されたドローンの安全半径を超える領域を避けるよう制御システムを誘導し、ゆらぎの問題を緩和する。
この補助層の実装により,グローバルセグメンテーションと比較して,着陸成功率が約10倍に向上した。
ソースコードはすべてオープンソースでオンラインで入手できる(github.com/MISTLab/DOVESEI)。 This work targets what we consider to be the foundational step for urban airborne robots, a safe landing. Our attention is directed toward what we deem the most crucial aspect of the safe landing perception stack: segmentation. We present a streamlined reactive UAV system that employs visual servoing by harnessing the capabilities of open vocabulary image segmentation. This approach can adapt to various scenarios with minimal adjustments, bypassing the necessity for extensive data accumulation for refining internal models, thanks to its open vocabulary methodology. Given the limitations imposed by local authorities, our primary focus centers on operations originating from altitudes of 100 meters. This choice is deliberate, as numerous preceding works have dealt with altitudes up to 30 meters, aligning with the capabilities of small stereo cameras. Consequently, we leave the remaining 20m to be navigated using conventional 3D path planning methods. Utilizing monocular cameras and image segmentation, our findings demonstrate the system's capability to successfully execute landing maneuvers at altitudes as low as 20 meters. However, this approach is vulnerable to intermittent and occasionally abrupt fluctuations in the segmentation between frames in a video stream. To address this challenge, we enhance the image segmentation output by introducing what we call a dynamic focus: a masking mechanism that self adjusts according to the current landing stage. This dynamic focus guides the control system to avoid regions beyond the drone's safety radius projected onto the ground, thus mitigating the problems with fluctuations. Through the implementation of this supplementary layer, our experiments have reached improvements in the landing success rate of almost tenfold when compared to global segmentation. All the source code is open source and available online (github.com/MISTLab/DOVESEI). | 翻訳日:2023-08-23 17:49:29 公開日:2023-08-22 |
# 文レベルマルチモーダルと言語非依存表現 Sentence-Level Multimodal and Language-Agnostic Representations ( http://arxiv.org/abs/2308.11466v1 ) ライセンス: Link先を確認 | Paul-Ambroise Duquenne, Holger Schwenk, Beno\^it Sagot | (参考訳) 本稿では,新しい多言語および多モーダルな文埋め込み空間であるSONARを紹介する。
200の言語をカバーする当社の単一テキストエンコーダは、xsimおよびxsim++の多言語類似性検索タスクにおける laser3 や labse などの既存の文埋め込みを実質的に上回っている。
音声セグメントを同じSONAR埋め込み空間に埋め込むには、教師が書き起こしデータに基づいて学習した言語固有の音声エンコーダを使用する。
我々のエンコーダは類似検索タスクにおいて既存の音声エンコーダより優れている。
200言語用のテキストデコーダも提供しており、ゼロショット言語とモダリティの組み合わせを含む、テキスト対テキストおよび音声対テキスト機械翻訳が可能です。
テキストからテキストまでの結果は,固定サイズのボトルネック表現にもかかわらず,最先端のNLLB~1Bモデルと競合する。
ゼロショット音声対テキスト翻訳の結果は、whisperのような教師付きベースラインと比較した方が良い。 We introduce SONAR, a new multilingual and multimodal fixed-size sentence embedding space. Our single text encoder, covering 200 languages, substantially outperforms existing sentence embeddings such as LASER3 and LabSE on the xsim and xsim++ multilingual similarity search tasks. Speech segments can be embedded in the same SONAR embedding space using language-specific speech encoders trained in a teacher-student setting on speech transcription data. Our encoders outperform existing speech encoders on similarity search tasks. We also provide a text decoder for 200 languages, which allows us to perform text-to-text and speech-to-text machine translation, including for zero-shot language and modality combinations. Our text-to-text results are competitive compared to the state-of-the-art NLLB~1B model, despite the fixed-size bottleneck representation. Our zero-shot speech-to-text translation results compare favorably with strong supervised baselines such as Whisper. | 翻訳日:2023-08-23 17:49:03 公開日:2023-08-22 |
# フェデレート学習における均質性から不均質性への拡張のための内部層間勾配 Internal Cross-layer Gradients for Extending Homogeneity to Heterogeneity in Federated Learning ( http://arxiv.org/abs/2308.11464v1 ) ライセンス: Link先を確認 | Yun-Hin Chan, Rui Zhou, Running Zhao, Zhihan Jiang, Edith C.-H. Ngai | (参考訳) フェデレートラーニング(FL)は必然的に,実践シナリオにおけるシステム不均一性の課題に直面する。
システム不均一性を扱う場合のモデル同次FL手法の能力を高めるために,本課題に対処する能力を拡張するためのトレーニングスキームを提案する。
本稿では,均質かつ不均質なfl設定を詳細に検討し,(1)クライアントの性能と層間類似度との正の相関,(2)深層とは対照的に浅層間の類似度,(3)より滑らかな勾配分布は層間類似度を示す,という3つの重要な観測結果を得た。
これらの観察に基づいて,サーバモデル内の浅層層と深層層からの勾配を混合したincoアグリゲーションを提案し,クライアント間の追加的な通信を必要とせず,深層間の類似性を高める。
さらに,本手法は,FedAvg,FedProx,FedNova,Scaffold,MOONといったモデル均一なFL法に対応して,システム不均一性を扱う能力を拡張できる。
InCoアグリゲーションの有効性を実験的に検証し, 異種FLの性能を高めるための有望な経路として内部層間勾配のスポットライティングを行った。 Federated learning (FL) inevitably confronts the challenge of system heterogeneity in practical scenarios. To enhance the capabilities of most model-homogeneous FL methods in handling system heterogeneity, we propose a training scheme that can extend their capabilities to cope with this challenge. In this paper, we commence our study with a detailed exploration of homogeneous and heterogeneous FL settings and discover three key observations: (1) a positive correlation between client performance and layer similarities, (2) higher similarities in the shallow layers in contrast to the deep layers, and (3) the smoother gradients distributions indicate the higher layer similarities. Building upon these observations, we propose InCo Aggregation that leverags internal cross-layer gradients, a mixture of gradients from shallow and deep layers within a server model, to augment the similarity in the deep layers without requiring additional communication between clients. Furthermore, our methods can be tailored to accommodate model-homogeneous FL methods such as FedAvg, FedProx, FedNova, Scaffold, and MOON, to expand their capabilities to handle the system heterogeneity. Copious experimental results validate the effectiveness of InCo Aggregation, spotlighting internal cross-layer gradients as a promising avenue to enhance the performance in heterogenous FL. | 翻訳日:2023-08-23 17:48:47 公開日:2023-08-22 |
# 位相依存ハンベリーブラウンとtwiss効果 Phase Dependent Hanbury-Brown and Twiss effect ( http://arxiv.org/abs/2308.11459v1 ) ライセンス: Link先を確認 | Xuan Tang, Yunxiao Zhang, Xueshi Guo, Liang Cui, Xiaoying Li, Z. Y. Ou | (参考訳) ハンベリー・ブラウン・アンド・ツイス効果(HBT)は恒星強度干渉法の基礎となる。
しかし、位相非感受性の2光子干渉効果である。
本稿では,2つの位相コヒーレント入力場とコヒーレント補助場とを混合してHBT干渉計を拡張し,入力場の完全複素二階コヒーレンス関数を測定するために位相感度2光子干渉を実現する。
この実用的な手法は、光学系における天文学的応用のための合成開口イメージングの道を開く。
パルス入力フィールドは、リモートセンシングや測位アプリケーションのためにもテストされている。
本稿では,より現実的なcw広帯域光電界を用いた絡み合い型テレスコピー方式の実装条件について検討する。 Hanbury-Brown and Twiss (HBT) effect is the foundation for stellar intensity interferometry. However, it is a phase insensitive two-photon interference effect. In this paper, we extend the HBT interferometer by mixing two phase-coherent input fields with coherent auxiliary fields before intensity correlation measurement and achieve phase sensitive two-photon interference so as to measure the complete complex second-order coherence function of the input fields. This practical scheme paves the way for synthetic aperture imaging for astronomical applications in optical regime. Pulsed input fields is also tested for potential remote sensing and ranging applications. We discuss the condition to implement recently proposed entanglement-based telescopy scheme with the more realistic cw broadband anti-bunched light fields. | 翻訳日:2023-08-23 17:48:03 公開日:2023-08-22 |
# 自己監督型表現学習に関する調査研究 A Survey on Self-Supervised Representation Learning ( http://arxiv.org/abs/2308.11455v1 ) ライセンス: Link先を確認 | Tobias Uelwer, Jan Robine, Stefan Sylvius Wagner, Marc H\"oftmann, Eric Upschulte, Sebastian Konietzny, Maike Behrendt, Stefan Harmeling | (参考訳) 意味のある表現を学習することは、現代の機械学習分野における多くのタスクの中心である。
近年,監視なしで画像表現を学習できる手法が数多く導入されている。
これらの表現は、分類やオブジェクト検出といった下流タスクで使用できる。
これらの表現の品質は教師あり学習に近いが、ラベル付き画像は必要ない。
本稿では,これらの手法を統一表記法で包括的に検証し,類似点と相違点を指摘し,それらの手法を相互に関連づけた分類法を提案する。
さらに,本研究ではメタスタディとして文献に報告された最近の実験結果を要約した。
我々の調査は、表現学習の分野に飛び込みたい研究者や実践者の出発点となることを意図している。 Learning meaningful representations is at the heart of many tasks in the field of modern machine learning. Recently, a lot of methods were introduced that allow learning of image representations without supervision. These representations can then be used in downstream tasks like classification or object detection. The quality of these representations is close to supervised learning, while no labeled images are needed. This survey paper provides a comprehensive review of these methods in a unified notation, points out similarities and differences of these methods, and proposes a taxonomy which sets these methods in relation to each other. Furthermore, our survey summarizes the most-recent experimental results reported in the literature in form of a meta-study. Our survey is intended as a starting point for researchers and practitioners who want to dive into the field of representation learning. | 翻訳日:2023-08-23 17:47:51 公開日:2023-08-22 |
# 注意に基づく複数インスタンス学習による食品画像の分類とセグメンテーション Food Image Classification and Segmentation with Attention-based Multiple Instance Learning ( http://arxiv.org/abs/2308.11452v1 ) ライセンス: Link先を確認 | Valasia Vlachopoulou, Ioannis Sarafis, Alexandros Papadopoulos | (参考訳) 食品の正確な定量化の需要は近年増加しており、食品モニタリングの応用が求められている。
同時に、コンピュータビジョンのアプローチは、食品領域内でのタスクの自動化に大きな可能性を示した。
従来、これらの問題に対する機械学習モデルの開発は、ピクセルレベルのクラスアノテーションによるデータセットのトレーニングに依存している。
しかし、このアプローチでは、複数の設定や数千のクラスで実行する必要があるため、データ収集や地底真理生成による課題が急速にコストがかかり、エラーが発生しやすい。
これらの課題を克服するため,本稿では,食品画像分類と意味セグメンテーションモデルをピクセルレベルのアノテーションに頼らずに学習するための弱い教師付き手法を提案する。
提案手法は,マルチインスタンス学習手法と注意に基づくメカニズムを組み合わせたものである。
テスト時に、モデルは分類に使用され、同時に、注意機構は食品分類のセグメンテーションに使用されるセマンティックヒートマップを生成する。
本稿では,FoodSeg103データセット内の2つのメタクラスについて実験を行い,提案手法の有効性を検証するとともに,注意機構の機能的特性について検討する。 The demand for accurate food quantification has increased in the recent years, driven by the needs of applications in dietary monitoring. At the same time, computer vision approaches have exhibited great potential in automating tasks within the food domain. Traditionally, the development of machine learning models for these problems relies on training data sets with pixel-level class annotations. However, this approach introduces challenges arising from data collection and ground truth generation that quickly become costly and error-prone since they must be performed in multiple settings and for thousands of classes. To overcome these challenges, the paper presents a weakly supervised methodology for training food image classification and semantic segmentation models without relying on pixel-level annotations. The proposed methodology is based on a multiple instance learning approach in combination with an attention-based mechanism. At test time, the models are used for classification and, concurrently, the attention mechanism generates semantic heat maps which are used for food class segmentation. In the paper, we conduct experiments on two meta-classes within the FoodSeg103 data set to verify the feasibility of the proposed approach and we explore the functioning properties of the attention mechanism. | 翻訳日:2023-08-23 17:47:39 公開日:2023-08-22 |
# 視覚言語モデルのための教師なしプロトタイプアダプタ Unsupervised Prototype Adapter for Vision-Language Models ( http://arxiv.org/abs/2308.11507v1 ) ライセンス: Link先を確認 | Yi Zhang, Ce Zhang, Xueting Hu, Zhihai He | (参考訳) 近年、大規模な事前学習型視覚言語モデル(例えばCLIPやALIGN)は、転送可能な視覚表現の取得において顕著な効果を示している。
下流タスクのためにこれらのモデルに符号化された貴重な知識を活用するために、アクシデントチューニング手法やアダプタベースの手法を含むいくつかの微調整アプローチが開発され、視覚言語モデルに監督を効果的に適応する。
しかし、これらの手法は注釈付きサンプルの可用性に依存しており、それは労働集約的で取得に時間がかかるため、スケーラビリティが制限される。
そこで本研究では,Unsupervised Prototype Adapter (UP-Adapter) と呼ばれる視覚言語モデルの教師なし微調整手法を設計する。
具体的には、アノテーションのないターゲットデータセットに対して、CLIPのテキストイメージ整合機能を活用して、各クラスに対して最も確実なサンプルを自動的に選択する。
これらのサンプルを利用して、学習可能なプロトタイプモデルの初期化に役立つクラスプロトタイプを生成する。
微調整後、プロトタイプモデル予測と、残差接続による原クリップの予測とを組み合わせることで、下流認識タスクを行う。
画像認識と領域一般化に関する広範囲な実験結果から,提案手法は8ショットクープ,8ショットチップ適応,最先端upl法を大きなマージンで上回ることがわかった。 Recently, large-scale pre-trained vision-language models (e.g. CLIP and ALIGN) have demonstrated remarkable effectiveness in acquiring transferable visual representations. To leverage the valuable knowledge encoded within these models for downstream tasks, several fine-tuning approaches, including prompt tuning methods and adapter-based methods, have been developed to adapt vision-language models effectively with supervision. However, these methods rely on the availability of annotated samples, which can be labor-intensive and time-consuming to acquire, thus limiting scalability. To address this issue, in this work, we design an unsupervised fine-tuning approach for vision-language models called Unsupervised Prototype Adapter (UP-Adapter). Specifically, for the unannotated target datasets, we leverage the text-image aligning capability of CLIP to automatically select the most confident samples for each class. Utilizing these selected samples, we generate class prototypes, which serve as the initialization for the learnable prototype model. After fine-tuning, the prototype model prediction is combined with the original CLIP's prediction by a residual connection to perform downstream recognition tasks. Our extensive experimental results on image recognition and domain generalization show that the proposed unsupervised method outperforms 8-shot CoOp, 8-shot Tip-Adapter, and also the state-of-the-art UPL method by large margins. | 翻訳日:2023-08-23 17:39:32 公開日:2023-08-22 |
# LCCo:CLIPを共同セグメンテーションに貸す LCCo: Lending CLIP to Co-Segmentation ( http://arxiv.org/abs/2308.11506v1 ) ライセンス: Link先を確認 | Xin Duan, Yan Yang, Liyuan Pan, Xiabi Liu | (参考訳) 本稿では,画像の集合における共通意味オブジェクトの分離について検討する。
既存の作業は、視覚的特徴の暗黙的な意味情報をマイニングするために、慎重に設計されたネットワークに依存するか、またはトレーニングのために追加のデータ(分類ラベル)を必要とする。
本稿では,言語画像事前学習フレームワーク(CLIP)を課題に活用する。
各イメージをセットから独立して処理するバックボーンセグメンテーションネットワークを用いて,クリップからバックボーン機能にセマンティクスを導入して,3つのキーモジュールによる粗雑な粒度調整を行う。
一 画像集合のグローバルに一貫した意味情報を符号化する画像集合の特徴対応モジュール
二 背骨の特徴を洗練させるために、画像セットの共通意味論を用いて、CLIPの相互作用モジュール
iii) CLIP正規化モジュールで、このコセグメンテーションタスクに向けてCLIPを描画し、最高のCLIPセマンティクスを特定し、バックボーン機能を正規化する。
4つの標準コセグメンテーションベンチマークデータセットの実験により、我々の手法の性能は最先端の手法よりも優れていることが示された。 This paper studies co-segmenting the common semantic object in a set of images. Existing works either rely on carefully engineered networks to mine the implicit semantic information in visual features or require extra data (i.e., classification labels) for training. In this paper, we leverage the contrastive language-image pre-training framework (CLIP) for the task. With a backbone segmentation network that independently processes each image from the set, we introduce semantics from CLIP into the backbone features, refining them in a coarse-to-fine manner with three key modules: i) an image set feature correspondence module, encoding global consistent semantic information of the image set; ii) a CLIP interaction module, using CLIP-mined common semantics of the image set to refine the backbone feature; iii) a CLIP regularization module, drawing CLIP towards this co-segmentation task, identifying the best CLIP semantic and using it to regularize the backbone feature. Experiments on four standard co-segmentation benchmark datasets show that the performance of our method outperforms state-of-the-art methods. | 翻訳日:2023-08-23 17:39:06 公開日:2023-08-22 |
# 著者表現学習はスティリスティックな特徴を捉えることができるか? Can Authorship Representation Learning Capture Stylistic Features? ( http://arxiv.org/abs/2308.11490v1 ) ライセンス: Link先を確認 | Andrew Wang, Cristina Aggazzotti, Rebecca Kotula, Rafael Rivera Soto, Marcus Bishop, Nicholas Andrews | (参考訳) 著者のスタイルを執筆内容から自動的に切り離すことは、計算言語学において長く、おそらくは不可能な問題である。
同時に、著者のラベルを付けた大きなテキストコーポラが利用可能になり、著者の帰属のために純粋にデータ駆動の方法で著者の表現を学習できるようになった。
しかし、このサロゲートタスクの成功は、著者がトピックのような他の潜在変数と関連付けられるので、そのような表現が書き込みスタイルをキャプチャすることを保証するものではない。
これらの表現が伝達する情報の性質をよりよく理解し、特に筆記スタイルを主にエンコードする仮説を検証するために、我々は一連の標的実験を通じてこれらの表現を体系的に調査する。
これらの実験の結果,サロゲートオーサシップ予測タスクで学んだ表現は書体に敏感であることが示唆された。
その結果、著者シップ表現は、トピックドリフトのような特定の種類のデータシフトに対して堅牢であることが期待できる。
さらに,スタイル転送のようなスタイル表現を必要とする下流アプリケーションへの扉を開く可能性も示唆した。 Automatically disentangling an author's style from the content of their writing is a longstanding and possibly insurmountable problem in computational linguistics. At the same time, the availability of large text corpora furnished with author labels has recently enabled learning authorship representations in a purely data-driven manner for authorship attribution, a task that ostensibly depends to a greater extent on encoding writing style than encoding content. However, success on this surrogate task does not ensure that such representations capture writing style since authorship could also be correlated with other latent variables, such as topic. In an effort to better understand the nature of the information these representations convey, and specifically to validate the hypothesis that they chiefly encode writing style, we systematically probe these representations through a series of targeted experiments. The results of these experiments suggest that representations learned for the surrogate authorship prediction task are indeed sensitive to writing style. As a consequence, authorship representations may be expected to be robust to certain kinds of data shift, such as topic drift over time. Additionally, our findings may open the door to downstream applications that require stylistic representations, such as style transfer. | 翻訳日:2023-08-23 17:38:46 公開日:2023-08-22 |
# 自己中心型ビデオ認識のためのマルチビューのセマンティックアライメントからの学習 Learning from Semantic Alignment between Unpaired Multiviews for Egocentric Video Recognition ( http://arxiv.org/abs/2308.11489v1 ) ライセンス: Link先を確認 | Qitong Wang, Long Zhao, Liangzhe Yuan, Ting Liu, Xi Peng | (参考訳) 非ペア型マルチビュービデオ学習における難易度シナリオについて考察した。
この場合、クロスビューのセマンティック情報が変動を示す一方で、包括的なマルチビュー表現を学習することを目的としている。
本稿では,セマンティックスをベースとしたUnpaired Multiview Learning (SUM-L)を提案する。
重要なアイデアは、クロスビューの擬似ペアを作り、ビデオの意味情報を活用してビュー不変のアライメントを行うことである。
マルチビュー学習のデータ効率を向上させるため,一対一及び三対一のビデオに対してビデオテキストアライメントを行い,セマンティック知識をフル活用して映像表現を改善する。
複数のベンチマークデータセットに対する大規模な実験は、我々のフレームワークの有効性を検証する。
また,従来のマルチモーダル学習やマルチビュー学習よりも難易度が高く,既存のビューアライメント手法よりも優れていた。
私たちのコードはhttps://github.com/wqtwjt1996/SUM-Lで公開されています。 We are concerned with a challenging scenario in unpaired multiview video learning. In this case, the model aims to learn comprehensive multiview representations while the cross-view semantic information exhibits variations. We propose Semantics-based Unpaired Multiview Learning (SUM-L) to tackle this unpaired multiview learning problem. The key idea is to build cross-view pseudo-pairs and do view-invariant alignment by leveraging the semantic information of videos. To facilitate the data efficiency of multiview learning, we further perform video-text alignment for first-person and third-person videos, to fully leverage the semantic knowledge to improve video representations. Extensive experiments on multiple benchmark datasets verify the effectiveness of our framework. Our method also outperforms multiple existing view-alignment methods, under the more challenging scenario than typical paired or unpaired multimodal or multiview learning. Our code is available at https://github.com/wqtwjt1996/SUM-L. | 翻訳日:2023-08-23 17:38:27 公開日:2023-08-22 |
# エゴセントリックアクションの語彙を開く Opening the Vocabulary of Egocentric Actions ( http://arxiv.org/abs/2308.11488v1 ) ライセンス: Link先を確認 | Dibyadip Chatterjee, Fadime Sener, Shugao Ma, Angela Yao | (参考訳) エゴセントリックなビデオにおける人間の行動は、しばしば、オブジェクトに適用される動詞(手によって実行される)からなる手動オブジェクトの相互作用である。
大規模なスケールアップにもかかわらず、エゴセントリックデータセットは、アクションコンポジションの2つの制限と、相互作用するオブジェクトのクローズドセットに直面している。
本稿では,オープンな語彙認識タスクを提案する。
訓練中に観察される動詞とオブジェクトのセットが与えられた場合、目標は、動詞を、目に見えるものや新しいものを含む行動のオープンな語彙に一般化することである。
この目的のために、オブジェクトに依存しない動詞エンコーダとプロンプトベースのオブジェクトエンコーダを用いて、動詞とオブジェクトの予測を分離する。
このプロンプトはCLIP表現を利用して、対話するオブジェクトのオープンな語彙を予測する。
EPIC-KITCHENS-100およびアセンブリ101データセット上にオープンな語彙ベンチマークを作成するが、クローズドアクション法は一般化に失敗するが、提案手法は有効である。
さらに,提案するオブジェクトエンコーダは,既存のオープンボキャブラリー視覚認識手法を大きく上回っている。 Human actions in egocentric videos are often hand-object interactions composed from a verb (performed by the hand) applied to an object. Despite their extensive scaling up, egocentric datasets still face two limitations - sparsity of action compositions and a closed set of interacting objects. This paper proposes a novel open vocabulary action recognition task. Given a set of verbs and objects observed during training, the goal is to generalize the verbs to an open vocabulary of actions with seen and novel objects. To this end, we decouple the verb and object predictions via an object-agnostic verb encoder and a prompt-based object encoder. The prompting leverages CLIP representations to predict an open vocabulary of interacting objects. We create open vocabulary benchmarks on the EPIC-KITCHENS-100 and Assembly101 datasets; whereas closed-action methods fail to generalize, our proposed method is effective. In addition, our object encoder significantly outperforms existing open-vocabulary visual recognition methods in recognizing novel interacting objects. | 翻訳日:2023-08-23 17:38:13 公開日:2023-08-22 |
# 歩行認識のためのフリーランチ:新しい関係記述子 Free Lunch for Gait Recognition: A Novel Relation Descriptor ( http://arxiv.org/abs/2308.11487v1 ) ライセンス: Link先を確認 | Jilong Wang, Saihui Hou, Yan Huang, Chunshui Cao, Xu Liu, Yongzhen Huang, Liang Wang | (参考訳) 歩行認識は、個人が長距離で独自の歩行パターンでクエリする際の正しいマッチングを求めることである。
しかし、現在の方法は、個人間の関係を無視して、個々の歩行特性のみに焦点を当てている。
本稿では,歩行表現を再考し,歩行は個々の特徴の集約であるだけでなく,基準歩行が確立された後に異なる被験者の歩行特徴の関係性も示す。
この観点から、分類子重みを基準アンカーの歩容として再定義し、各人の歩容をそれらの参照との関係で記述できるようにする。
本稿では、この小説をRelation Descriptor (RD)と呼ぶ。
この関係記述子は、有意義な特徴を強調し、堅牢性を高めるという2つの利点を提供します。
具体的に言うと、歩行特徴と分類子重みの間の正規化ドット積は、各次元が各トレーニングidの歩行プロトタイプとテストサンプルの類似性を示す類似度関係を示す。
その可能性にもかかわらず、関係記述子の直接的な使用は、RDの次元がトレーニングセットのアイデンティティ数に依存するため、次元的課題を引き起こす。
そこで本研究では,歩行認識性能を向上させるために,Farthest Anchored Gaits Selectionアルゴリズムと次元削減手法を提案する。
我々の手法は、余分なパラメータを伴わずに、既訓練の分類モデルの上に構築することができる。
RDは抽出した特徴を直接利用するよりも高い認識性能が得られることを示す。
我々は,GREW,Gait3D,CASIA-B,OU-MVLPに対する提案手法の有効性を評価し,本手法がベースラインを一貫して上回り,最先端の性能を達成することを示す。 Gait recognition is to seek correct matches for query individuals by their unique walking patterns at a long distance. However, current methods focus solely on individual gait features, disregarding inter-personal relationships. In this paper, we reconsider gait representation, asserting that gait is not just an aggregation of individual features, but also the relationships among different subjects' gait features once reference gaits are established. From this perspective, we redefine classifier weights as reference-anchored gaits, allowing each person's gait to be described by their relationship with these references. In our work, we call this novel descriptor Relationship Descriptor (RD). This Relationship Descriptor offers two benefits: emphasizing meaningful features and enhancing robustness. To be specific, The normalized dot product between gait features and classifier weights signifies a similarity relation, where each dimension indicates the similarity between the test sample and each training ID's gait prototype, respectively. Despite its potential, the direct use of relationship descriptors poses dimensionality challenges since the dimension of RD depends on the training set's identity count. To address this, we propose a Farthest Anchored gaits Selection algorithm and a dimension reduction method to boost gait recognition performance. Our method can be built on top of off-the-shelf pre-trained classification-based models without extra parameters. We show that RD achieves higher recognition performance than directly using extracted features. We evaluate the effectiveness of our method on the popular GREW, Gait3D, CASIA-B, and OU-MVLP, showing that our method consistently outperforms the baselines and achieves state-of-the-art performances. | 翻訳日:2023-08-23 17:37:55 公開日:2023-08-22 |
# コントラスト学習とタスク指向のクリップベース特徴を用いた合成画像検索 Composed Image Retrieval using Contrastive Learning and Task-oriented CLIP-based Features ( http://arxiv.org/abs/2308.11485v1 ) ライセンス: Link先を確認 | Alberto Baldrati, Marco Bertini, Tiberio Uricchio, Alberto del Bimbo | (参考訳) 参照画像と相対キャプションからなるクエリが与えられた場合、コンポジション画像検索目標は、キャプションで表現された修正を統合する参照画像と視覚的に類似した画像を取得することである。
最近の研究は、様々なタスクにおける大規模ビジョンと言語事前訓練(VLP)モデルの有効性を実証しているので、検討されたタスクに対処するために、OpenAI CLIPモデルの特徴に頼っている。
視覚的特徴とテキスト的特徴の要素的和を用いて,CLIPエンコーダのタスク指向の微調整を行う。
そして,第2段階では,バイモーダル情報の統合と検索に使用される複合機能の提供により,画像テキスト機能を組み合わせたコンバインタネットワークを訓練する。
私たちは両段階の訓練で対照的な学習を使う。
ベースラインとして裸のCLIP機能から、タスク指向の微調整と慎重に構築されたコンバインダーネットワークは、FashionIQとCIRRの2つの人気かつ挑戦的なデータセットである、より複雑な最先端のアプローチより優れていることを示す実験結果が得られた。
コードと事前トレーニングされたモデルはhttps://github.com/ABaldrati/CLIP4Cirで入手できる。 Given a query composed of a reference image and a relative caption, the Composed Image Retrieval goal is to retrieve images visually similar to the reference one that integrates the modifications expressed by the caption. Given that recent research has demonstrated the efficacy of large-scale vision and language pre-trained (VLP) models in various tasks, we rely on features from the OpenAI CLIP model to tackle the considered task. We initially perform a task-oriented fine-tuning of both CLIP encoders using the element-wise sum of visual and textual features. Then, in the second stage, we train a Combiner network that learns to combine the image-text features integrating the bimodal information and providing combined features used to perform the retrieval. We use contrastive learning in both stages of training. Starting from the bare CLIP features as a baseline, experimental results show that the task-oriented fine-tuning and the carefully crafted Combiner network are highly effective and outperform more complex state-of-the-art approaches on FashionIQ and CIRR, two popular and challenging datasets for composed image retrieval. Code and pre-trained models are available at https://github.com/ABaldrati/CLIP4Cir | 翻訳日:2023-08-23 17:37:29 公開日:2023-08-22 |
# Pose2Gait:認知症患者の単眼映像から歩行特徴を抽出する Pose2Gait: Extracting Gait Features from Monocular Video of Individuals with Dementia ( http://arxiv.org/abs/2308.11484v1 ) ライセンス: Link先を確認 | Caroline Malin-Mayor, Vida Adeli, Andrea Sabo, Sergey Noritsyn, Carolina Gorodetsky, Alfonso Fasano, Andrea Iaboni, Babak Taati | (参考訳) 認知症高齢者に対するビデオベースの歩行環境モニタリングは、健康の悪変化を検知し、臨床医や介護者が早期に介入して転倒や入院を防ぐ可能性を秘めている。
コンピュータビジョンに基づくポーズ追跡モデルは、ビデオデータを自動処理して関節の位置を抽出することができるが、一般のモデルは高齢者や臨床患者に対する歩行分析に最適化されていない。
本研究では,2次元のポーズシーケンスから,廊下を歩いた個人が壁面カメラに向かって歩く様子から抽出した映像から,歩行シーケンス上で平均される3次元時空間的歩行特徴のセットにマッピングする深層ニューラルネットワークを訓練する。
本研究で用いた認知症者のデータは,壁面搭載システムを用いて2箇所で撮影され,トレーニングおよび評価に用いた映像と深度情報を収集した。
我々のPose2Gaitモデルは、深度カメラの特徴と相関する映像から速度と歩幅の値を取り出すことができ、Spearmanの相関係数は .83 と .60 であり、3次元の時空間的特徴をモノクロビデオから予測できることを示している。
今後,歩幅や歩幅などの他の特徴の精度向上や,縦断的環境モニタリングにおける歩行の有意義な変化を検出するための予測値の有用性の検証が図られる。 Video-based ambient monitoring of gait for older adults with dementia has the potential to detect negative changes in health and allow clinicians and caregivers to intervene early to prevent falls or hospitalizations. Computer vision-based pose tracking models can process video data automatically and extract joint locations; however, publicly available models are not optimized for gait analysis on older adults or clinical populations. In this work we train a deep neural network to map from a two dimensional pose sequence, extracted from a video of an individual walking down a hallway toward a wall-mounted camera, to a set of three-dimensional spatiotemporal gait features averaged over the walking sequence. The data of individuals with dementia used in this work was captured at two sites using a wall-mounted system to collect the video and depth information used to train and evaluate our model. Our Pose2Gait model is able to extract velocity and step length values from the video that are correlated with the features from the depth camera, with Spearman's correlation coefficients of .83 and .60 respectively, showing that three dimensional spatiotemporal features can be predicted from monocular video. Future work remains to improve the accuracy of other features, such as step time and step width, and test the utility of the predicted values for detecting meaningful changes in gait during longitudinal ambient monitoring. | 翻訳日:2023-08-23 17:37:05 公開日:2023-08-22 |
# 大規模言語モデルにおける選択肢の順序に対する感性 Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions ( http://arxiv.org/abs/2308.11483v1 ) ライセンス: Link先を確認 | Pouya Pezeshkpour, Estevam Hruschka | (参考訳) 大規模言語モデル(llm)は様々なnlpタスクにおいて顕著な能力を示している。
しかし、以前の研究では、これらのモデルが素早い言い回し、数発のデモとその順序に敏感であることを示し、これらのモデルの公正な評価に挑戦している。
これらのモデルがより強力になると、これらの制限を理解し、対処することが不可欠になる。
本稿では,LLMの推論と事実検索能力の研究に広く採用されている課題である,複数選択質問のタスクに対するLLMの堅牢性に着目した。
複数選択質問における選択肢の順序に対するLLMの感度を調べたところ,数ショット設定で実演する場合であっても,異なるベンチマーク上でのLLMの約13%から75%のパフォーマンス差が見られた。
詳細な分析を通じて,上位2/3選択間の予測についてllmが不確実である場合にこの感度が生じると推測し,特定の選択肢配置は位置バイアスによって生じる問題に応じて,上位選択間の特定の予測を好む可能性がある。
また、オプション配置に対するモデルのバイアスを増幅または緩和するトップ2の選択パターンも特定します。
バイアスを増幅するために、最適な戦略は、上位2つの選択肢を第一と最後の選択肢として位置づけることです。
逆に、バイアスを軽減するために、隣接する選択肢にこれらの選択肢を置くことを推奨する。
予測を検証するために,様々な実験を行い,llmsの予測を校正する方法を2つ導入し,各モデルとベンチマークで最大8ポイント改善した。 Large Language Models (LLMs) have demonstrated remarkable capabilities in various NLP tasks. However, previous works have shown these models are sensitive towards prompt wording, and few-shot demonstrations and their order, posing challenges to fair assessment of these models. As these models become more powerful, it becomes imperative to understand and address these limitations. In this paper, we focus on LLMs robustness on the task of multiple-choice questions -- commonly adopted task to study reasoning and fact-retrieving capability of LLMs. Investigating the sensitivity of LLMs towards the order of options in multiple-choice questions, we demonstrate a considerable performance gap of approximately 13% to 75% in LLMs on different benchmarks, when answer options are reordered, even when using demonstrations in a few-shot setting. Through a detailed analysis, we conjecture that this sensitivity arises when LLMs are uncertain about the prediction between the top-2/3 choices, and specific options placements may favor certain prediction between those top choices depending on the question caused by positional bias. We also identify patterns in top-2 choices that amplify or mitigate the model's bias toward option placement. We found that for amplifying bias, the optimal strategy involves positioning the top two choices as the first and last options. Conversely, to mitigate bias, we recommend placing these choices among the adjacent options. To validate our conjecture, we conduct various experiments and adopt two approaches to calibrate LLMs' predictions, leading to up to 8 percentage points improvement across different models and benchmarks. | 翻訳日:2023-08-23 17:36:40 公開日:2023-08-22 |
# 予想外の予測:広範囲な分布検出に向けて Expecting The Unexpected: Towards Broad Out-Of-Distribution Detection ( http://arxiv.org/abs/2308.11480v1 ) ライセンス: Link先を確認 | Charles Guille-Escuret and Pierre-Andr\'e No\"el and Ioannis Mitliagkas and David Vazquez and Joao Monteiro | (参考訳) デプロイされた機械学習システムの信頼性を向上させるには、しばしばood(out-of-distribution)入力を検出する方法の開発が必要となる。
しかし、既存の研究では、トレーニングセットから外れたクラスからのサンプルに焦点を合わせ、他のタイプの可算分布シフトを無視していることが多い。
この制限により、システムは様々な異常な入力に遭遇する現実のシナリオにおいて、これらのメソッドの適用性が低下する。
本研究では,5つの異なる分布シフトを分類し,それらに対する最近のood検出法の性能を批判的に評価した。
BROAD(Benchmarking Resilience Over Anomaly Diversity)という名でベンチマークを公開しています。
その結果,これらの手法は未知のクラスの検出に優れるが,他のタイプの分散シフトに遭遇する場合には不整合であることがわかった。
言い換えれば、彼らは、期待するように特別に設計された予期せぬ入力を確実に検出するだけである。
広帯域OOD検出に向けた第一歩として,ガウス混合を用いた既存の検出スコアの生成モデルを学習する。
これにより、より一貫性があり、より包括的なOOD検出ソリューションを提供するアンサンブルアプローチを提案し、既存の方法と比較して優れた性能を示す。
BROADをダウンロードして実験を再現するコードは公開されています。 Improving the reliability of deployed machine learning systems often involves developing methods to detect out-of-distribution (OOD) inputs. However, existing research often narrowly focuses on samples from classes that are absent from the training set, neglecting other types of plausible distribution shifts. This limitation reduces the applicability of these methods in real-world scenarios, where systems encounter a wide variety of anomalous inputs. In this study, we categorize five distinct types of distribution shifts and critically evaluate the performance of recent OOD detection methods on each of them. We publicly release our benchmark under the name BROAD (Benchmarking Resilience Over Anomaly Diversity). Our findings reveal that while these methods excel in detecting unknown classes, their performance is inconsistent when encountering other types of distribution shifts. In other words, they only reliably detect unexpected inputs that they have been specifically designed to expect. As a first step toward broad OOD detection, we learn a generative model of existing detection scores with a Gaussian mixture. By doing so, we present an ensemble approach that offers a more consistent and comprehensive solution for broad OOD detection, demonstrating superior performance compared to existing methods. Our code to download BROAD and reproduce our experiments is publicly available. | 翻訳日:2023-08-23 17:36:13 公開日:2023-08-22 |
# 難民クレームとその弁護士の力--機械学習を用いた難民法における意思決定-- Empowering Refugee Claimants and their Lawyers: Using Machine Learning to Examine Decision-Making in Refugee Law ( http://arxiv.org/abs/2308.11531v1 ) ライセンス: Link先を確認 | Claire Barale | (参考訳) 本研究の目的は, 弁護士, 裁判官, 行政機関, 債権者等の難民状況判断の利害関係者を支援し, 支援することであり, データ駆動知性を通じてよりよい意思決定を行い, 関係者全員の難民申請プロセスの理解と透明性を高めることにある。
このPhDプロジェクトは,(1)過去の事例を検索すること,(2)カナダの事例のデータセット上での法的意思決定プロセスを分析すること,の2つの目的を有する。
本稿では,本研究の現状について述べる。その内容は,第1部における完成実験と,第2部に関する継続的な取り組みを含む。
nlpベースのソリューションはこれらの課題に対処するのに適しており、すべてのステップを自動化できる可能性について調査する。
さらに,難民法における今後のNLP研究のための新しいベンチマークを導入する。
当社の方法論は,意思決定までの時間短縮,公平で透明性の高い成果,意思決定品質の向上など,すべてのエンドユーザとステークホルダに包括的であることを目標としています。 Our project aims at helping and supporting stakeholders in refugee status adjudications, such as lawyers, judges, governing bodies, and claimants, in order to make better decisions through data-driven intelligence and increase the understanding and transparency of the refugee application process for all involved parties. This PhD project has two primary objectives: (1) to retrieve past cases, and (2) to analyze legal decision-making processes on a dataset of Canadian cases. In this paper, we present the current state of our work, which includes a completed experiment on part (1) and ongoing efforts related to part (2). We believe that NLP-based solutions are well-suited to address these challenges, and we investigate the feasibility of automating all steps involved. In addition, we introduce a novel benchmark for future NLP research in refugee law. Our methodology aims to be inclusive to all end-users and stakeholders, with expected benefits including reduced time-to-decision, fairer and more transparent outcomes, and improved decision quality. | 翻訳日:2023-08-23 17:31:30 公開日:2023-08-22 |
# 地域再編成 Redistricting for Proportionality ( http://arxiv.org/abs/2308.11529v1 ) ライセンス: Link先を確認 | Moon Duchin and Gabe Schoenbach | (参考訳) 現在、アメリカの民主主義は選挙制度として複数の選挙区(PSMD)に大きく依存している。
しかし、公正に対する大衆の認識は、しばしば党派の比例性や、各党の票のシェアと代表のシェアの一致度に鍵を握る。
psmdは、ゲリーマンデリング(gerrymandering)によって、歴史的に比例的な結果を確保する傾向が無かった。
しかし、現在、盲目のPSMDでさえしばしば不均等であり、地元の政治地理学に依存している予測不可能な方法では明らかになっている。
本稿では,地域設計と選定における比例的な成果を目標として,PSMDを比例規範に適合させることが可能であるかを検討する。
我々は、主に2021年の草案法で提案された再分権改革である「投票試験の自由」の綿密な審査を通じて実施する。
比例目標によるテストの適用は,法的な戦場状態において良好に機能し,比例が到達できないエッジケースを扱うための有効な例外がある,という健全なポリシを実現する。 American democracy is currently heavily reliant on plurality in single-member districts, or PSMD, as a system of election. But public perceptions of fairness are often keyed to partisan proportionality, or the degree of congruence between each party's share of the the vote and its share of representation. PSMD has not tended to secure proportional outcomes historically, partially due to gerrymandering, where line-drawers intentionally extract more advantage for their side. But it is now increasingly clear that even blind PSMD is frequently disproportional, and in unpredictable ways that depend on local political geography. In this paper we consider whether it is feasible to bring PSMD into alignment with a proportionality norm by targeting proportional outcomes in the design and selection of districts. We do this mainly through a close examination of the "Freedom to Vote Test," a redistricting reform proposed in draft legislation in 2021. We find that applying the test with a proportionality target makes for sound policy: it performs well in legal battleground states and has a workable exception to handle edge cases where proportionality is out of reach. | 翻訳日:2023-08-23 17:31:11 公開日:2023-08-22 |
# relicada --線形セルオートマトン設計アルゴリズムを用いた貯留層計算 ReLiCADA -- Reservoir Computing using Linear Cellular Automata Design Algorithm ( http://arxiv.org/abs/2308.11522v1 ) ライセンス: Link先を確認 | Jonas Kantic and Fabian C. Legl and Walter Stechele and Jakob Hermann | (参考訳) 本稿では,時系列アプリケーションのためのセルオートマトンモデルを用いた貯留層計算の設計を最適化する新しいアルゴリズムを提案する。
モデルのハイパーパラメータの選択に加えて、提案アルゴリズムは特に線形セルオートマトン規則の選択のオープンな問題を解く。
選択方法は、指数的に増加する規則空間から、有望なルールをほんの数個だけ事前選択する。
関連するベンチマークデータセットに適用すると、選択されたルールは低いエラーを発生し、最高のルールはルール全体の上位5%に入る。
このアルゴリズムは線形セルラーオートマトン特性の数学的解析に基づいて開発され、100万近い実験によって支援され、1年近い計算ランタイムが加わった。
他の最先端の時系列モデルと比較すると、セルラーオートマタモデルを用いたReservoir Computingは計算複雑性が低く、同時にエラーも低いことが示されている。
したがって、トレーニングやハイパーパラメータ最適化に要する時間を最大数桁削減できる。 In this paper, we present a novel algorithm to optimize the design of Reservoir Computing using Cellular Automata models for time series applications. Besides selecting the models' hyperparameters, the proposed algorithm particularly solves the open problem of linear Cellular Automaton rule selection. The selection method pre-selects only a few promising candidate rules out of an exponentially growing rule space. When applied to relevant benchmark datasets, the selected rules achieve low errors, with the best rules being among the top 5% of the overall rule space. The algorithm was developed based on mathematical analysis of linear Cellular Automaton properties and is backed by almost one million experiments, adding up to a computational runtime of nearly one year. Comparisons to other state-of-the-art time series models show that the proposed Reservoir Computing using Cellular Automata models have lower computational complexity, at the same time, achieve lower errors. Hence, our approach reduces the time needed for training and hyperparameter optimization by up to several orders of magnitude. | 翻訳日:2023-08-23 17:30:07 公開日:2023-08-22 |
# クラスタデータと線形回帰の混合のためのEM EM for Mixture of Linear Regression with Clustered Data ( http://arxiv.org/abs/2308.11518v1 ) ライセンス: Link先を確認 | Amirhossein Reisizadeh, Khashayar Gatmiry, Asuman Ozdaglar | (参考訳) 現代のデータ駆動および分散学習フレームワークは、異種環境にまたがるクライアントによって生成される多様な大量のデータを扱う。
実際、多くの分散学習パラダイムをスケールアップする上で、データの多様性は大きなボトルネックです。
しかし、多くの環境では、共通潜在変数がクライアントが生成するすべてのサンプルの分布を支配するフェデレート学習のようないくつかのアプリケーションのように、共有構造を持つクラスタで異種データが生成される可能性がある。
したがって、分散データ内の基盤となるクラスタ構造をどのように活用して学習スキームを改善するのかを問うのは自然である。
本稿では,各$m$ノードが共有潜在変数を持つ$n$サンプルを生成する2成分の線形回帰問題において,$d$次元パラメータを推定する特別なケースにおいて,この問題に取り組む。
我々は,よく知られた期待最大化(em)法を用いて,n$測定値を含む従属サンプルの$m$バッチから最大度パラメータを推定する。
混合モデルにおけるクラスタ構造を識別すると、EMは$O(\log(mn/d))$反復を必要とすることが知られ、$O(\sqrt{d/(mn)})$の統計的精度に達する。
対照的に、構造化データ上のEMが適切に初期化されると、$m$が$e^{o(n)}$に成長する限り、同じ統計的精度に達するためには、O(1)$反復しか必要としない。
本分析は, 新規な漸近的最適化と人口と経験的EMの一般化の保証を, 独立性のある依存型サンプルと組み合わせたものである。 Modern data-driven and distributed learning frameworks deal with diverse massive data generated by clients spread across heterogeneous environments. Indeed, data heterogeneity is a major bottleneck in scaling up many distributed learning paradigms. In many settings however, heterogeneous data may be generated in clusters with shared structures, as is the case in several applications such as federated learning where a common latent variable governs the distribution of all the samples generated by a client. It is therefore natural to ask how the underlying clustered structures in distributed data can be exploited to improve learning schemes. In this paper, we tackle this question in the special case of estimating $d$-dimensional parameters of a two-component mixture of linear regressions problem where each of $m$ nodes generates $n$ samples with a shared latent variable. We employ the well-known Expectation-Maximization (EM) method to estimate the maximum likelihood parameters from $m$ batches of dependent samples each containing $n$ measurements. Discarding the clustered structure in the mixture model, EM is known to require $O(\log(mn/d))$ iterations to reach the statistical accuracy of $O(\sqrt{d/(mn)})$. In contrast, we show that if initialized properly, EM on the structured data requires only $O(1)$ iterations to reach the same statistical accuracy, as long as $m$ grows up as $e^{o(n)}$. Our analysis establishes and combines novel asymptotic optimization and generalization guarantees for population and empirical EM with dependent samples, which may be of independent interest. | 翻訳日:2023-08-23 17:28:21 公開日:2023-08-22 |
# TrackFlow: 正規化フローによるマルチオブジェクトトラッキング TrackFlow: Multi-Object Tracking with Normalizing Flows ( http://arxiv.org/abs/2308.11513v1 ) ライセンス: Link先を確認 | Gianluca Mancusi, Aniello Panariello, Angelo Porrello, Matteo Fabbri, Simone Calderara, Rita Cucchiara | (参考訳) マルチオブジェクトトラッキングの分野は、トラッキング・バイ・アテンションアプローチの複雑な設計と苦痛を伴うベビーシッターから、そのシンプルさと強い先行性から、トラッキング・バイ・アテンションという古き良きスキーマに再び関心を寄せている。
これを踏まえて,2次元運動手がかり,視覚的外観,ポーズ推定などの異種情報から総合的なコストを計算しなければならないマルチモーダル環境への追跡・バイ・プローブの拡張を目標としている。
より正確には、3D情報の大まかな見積も利用可能であり、他の伝統的なメトリクス(例えばIoU)とマージする必要があるケーススタディに従う。
これを達成するために、最近のアプローチでは、各コストの貢献のバランスをとるために、単純なルールまたは複雑なヒューリスティックを利用する。
しかし、
一 留置セットの調整された過度パラメータの慎重なチューニングが必要であること。
二 これらの費用が独立したものであることを暗示し、現実には成立しない。
本稿では, 正解の条件付き結合確率分布をモデル化するために, 密度推定器によって得られる負の対数類似度として, 候補関係のコストを考慮し, エレガントな確率的定式化を基礎として, この問題に対処する。
シミュレーションと実測値の両方を用いて実験を行った結果,本手法は複数の追従検出アルゴリズムの性能を一貫して向上させることがわかった。 The field of multi-object tracking has recently seen a renewed interest in the good old schema of tracking-by-detection, as its simplicity and strong priors spare it from the complex design and painful babysitting of tracking-by-attention approaches. In view of this, we aim at extending tracking-by-detection to multi-modal settings, where a comprehensive cost has to be computed from heterogeneous information e.g., 2D motion cues, visual appearance, and pose estimates. More precisely, we follow a case study where a rough estimate of 3D information is also available and must be merged with other traditional metrics (e.g., the IoU). To achieve that, recent approaches resort to either simple rules or complex heuristics to balance the contribution of each cost. However, i) they require careful tuning of tailored hyperparameters on a hold-out set, and ii) they imply these costs to be independent, which does not hold in reality. We address these issues by building upon an elegant probabilistic formulation, which considers the cost of a candidate association as the negative log-likelihood yielded by a deep density estimator, trained to model the conditional joint probability distribution of correct associations. Our experiments, conducted on both simulated and real benchmarks, show that our approach consistently enhances the performance of several tracking-by-detection algorithms. | 翻訳日:2023-08-23 17:27:53 公開日:2023-08-22 |
# SwinFace: 顔認識, 表情認識, 年齢推定, 属性推定のためのマルチタスク変換器 SwinFace: A Multi-task Transformer for Face Recognition, Expression Recognition, Age Estimation and Attribute Estimation ( http://arxiv.org/abs/2308.11509v1 ) ライセンス: Link先を確認 | Lixiong Qin, Mei Wang, Chao Deng, Ke Wang, Xi Chen, Jiani Hu, Weihong Deng | (参考訳) 近年、視覚変換器が顔認識と分析に導入され、性能のブレークスルーが達成されている。
しかし,従来の手法では,各タスク間の相乗効果を無視し,予測精度の向上,データ効率の向上,トレーニング時間の短縮に失敗する単一モデルやモデルのアンサンブルを訓練することが多い。
本稿では,Swin Transformerを用いた顔認識,表情認識,年齢推定,顔属性推定(性別を含む40の属性)を同時に行うための多目的アルゴリズムを提案する。
私たちのデザインであるSwinFaceは、単一の共有バックボーンと関連するタスクセットのサブネットで構成されています。
複数のタスク間の競合に対処し、異なるタスクの要求を満たすために、Multi-Level Channel Attention (MLCA)モジュールを各タスク固有の分析サブネットに統合し、最適なレベルとチャネルから機能を適応的に選択し、望ましいタスクを実行する。
大規模な実験により,提案モデルでは顔の理解が向上し,全てのタスクに優れた性能が得られた。
特に、RAF-DBでは90.97%の精度、CLAP2015では0.22$\epsilon$-errorを実現している。
コードとモデルはhttps://github.com/lxq1000/swinfaceで公開される予定だ。 In recent years, vision transformers have been introduced into face recognition and analysis and have achieved performance breakthroughs. However, most previous methods generally train a single model or an ensemble of models to perform the desired task, which ignores the synergy among different tasks and fails to achieve improved prediction accuracy, increased data efficiency, and reduced training time. This paper presents a multi-purpose algorithm for simultaneous face recognition, facial expression recognition, age estimation, and face attribute estimation (40 attributes including gender) based on a single Swin Transformer. Our design, the SwinFace, consists of a single shared backbone together with a subnet for each set of related tasks. To address the conflicts among multiple tasks and meet the different demands of tasks, a Multi-Level Channel Attention (MLCA) module is integrated into each task-specific analysis subnet, which can adaptively select the features from optimal levels and channels to perform the desired tasks. Extensive experiments show that the proposed model has a better understanding of the face and achieves excellent performance for all tasks. Especially, it achieves 90.97% accuracy on RAF-DB and 0.22 $\epsilon$-error on CLAP2015, which are state-of-the-art results on facial expression recognition and age estimation respectively. The code and models will be made publicly available at https://github.com/lxq1000/SwinFace. | 翻訳日:2023-08-23 17:27:24 公開日:2023-08-22 |
# SPANet:スペクトルプール凝集変調を用いた周波数バランストケミキサ SPANet: Frequency-balancing Token Mixer using Spectral Pooling Aggregation Modulation ( http://arxiv.org/abs/2308.11568v1 ) ライセンス: Link先を確認 | Guhnoo Yun, Juhan Yoo, Kijung Kim, Jeongho Lee, Dong Hwan Kim | (参考訳) 近年の研究では、自己注意は(畳み込みとは対照的に)ローパスフィルタのように振る舞うことが示されており、そのハイパスフィルタリング能力はモデル性能を向上させる。
これに対し,既存の畳み込みモデルとスペクトル解析を併用して検討し,畳み込み操作における低パスフィルタの改善が性能向上につながることを観察する。
この観測から,高周波数成分と低周波数成分のバランス表現を捕捉する最適なトークンミキサーを用いることで,モデルの性能を向上させることができると仮定する。
視覚的特徴を周波数領域に分解し、それらをバランスよく組み合わせて検証する。
これに対応するために、周波数領域におけるバランス問題をマスクフィルタリング問題に置き換える。
そこで,SPAMと呼ばれる新しいトークンミキサーを導入し,SPANetと呼ばれるMetaFormerモデルを導出する。
実験の結果,提案手法はこのバランスを実現する方法を提供し,高周波数成分と低周波成分のバランスの取れた表現により,複数のコンピュータビジョンタスクにおけるモデルの性能が向上することが示された。
私たちのコードは$\href{https://doranlyong.github.io/projects/spanet/}{\text{https://doranlyong.github.io/projects/spanet/}}$で入手できる。 Recent studies show that self-attentions behave like low-pass filters (as opposed to convolutions) and enhancing their high-pass filtering capability improves model performance. Contrary to this idea, we investigate existing convolution-based models with spectral analysis and observe that improving the low-pass filtering in convolution operations also leads to performance improvement. To account for this observation, we hypothesize that utilizing optimal token mixers that capture balanced representations of both high- and low-frequency components can enhance the performance of models. We verify this by decomposing visual features into the frequency domain and combining them in a balanced manner. To handle this, we replace the balancing problem with a mask filtering problem in the frequency domain. Then, we introduce a novel token-mixer named SPAM and leverage it to derive a MetaFormer model termed as SPANet. Experimental results show that the proposed method provides a way to achieve this balance, and the balanced representations of both high- and low-frequency components can improve the performance of models on multiple computer vision tasks. Our code is available at $\href{https://doranlyong.github.io/projects/spanet/}{\text{https://doranlyong.github.io/projects/spanet/}}$. | 翻訳日:2023-08-23 17:19:01 公開日:2023-08-22 |
# ニューラルダイナミクスの低テンソルランク学習 Low Tensor Rank Learning of Neural Dynamics ( http://arxiv.org/abs/2308.11567v1 ) ライセンス: Link先を確認 | Arthur Pellegrino, N Alex Cayco-Gajic, Angus Chadwick | (参考訳) 学習は神経細胞の繰り返し連結された集団における協調シナプス変化に依存する。
したがって、学習によるシナプス接続の集団的進化を理解することは、神経科学と機械学習の重要な課題である。
特に、最近の研究では、タスク訓練されたrnnの重み行列は一般的に低ランクであるが、この低ランク構造が学習上でどのように展開するかは不明である。
そこで本研究では,学習を通して重み行列によって形成される3-テンソルのランクについて検討する。
運動学習タスク中に様々なランクのRNNを大規模ニューラル記録に合わせることで、推定重みは低テンソルランクであり、したがって学習過程全体を通して一定の低次元部分空間で進化することがわかった。
次に、基礎真理重みで直接低テンソル級分解を行うことにより、同じ課題を解決するために訓練されたrnnにおける低テンソル級学習の観察を検証し、この低ランク構造を忠実に復元する手法を示す。
最後に,低次元課題を解くために訓練されたRNNにおいて,低テンソルランクの重みが自然に現れることを示す勾配勾配勾配学習ダイナミクスの行列とテンソルランクの数学的結果を示す。
本研究は,生物と人工ニューラルネットワークの双方での学習よりも集団接続の進化に新たな制約を与え,大規模ニューラル記録からの学習誘起ネットワークダイナミクスの変化のリバースエンジニアリングを可能にした。 Learning relies on coordinated synaptic changes in recurrently connected populations of neurons. Therefore, understanding the collective evolution of synaptic connectivity over learning is a key challenge in neuroscience and machine learning. In particular, recent work has shown that the weight matrices of task-trained RNNs are typically low rank, but how this low rank structure unfolds over learning is unknown. To address this, we investigate the rank of the 3-tensor formed by the weight matrices throughout learning. By fitting RNNs of varying rank to large-scale neural recordings during a motor learning task, we find that the inferred weights are low-tensor-rank and therefore evolve over a fixed low-dimensional subspace throughout the entire course of learning. We next validate the observation of low-tensor-rank learning on an RNN trained to solve the same task by performing a low-tensor-rank decomposition directly on the ground truth weights, and by showing that the method we applied to the data faithfully recovers this low rank structure. Finally, we present a set of mathematical results bounding the matrix and tensor ranks of gradient descent learning dynamics which show that low-tensor-rank weights emerge naturally in RNNs trained to solve low-dimensional tasks. Taken together, our findings provide novel constraints on the evolution of population connectivity over learning in both biological and artificial neural networks, and enable reverse engineering of learning-induced changes in recurrent network dynamics from large-scale neural recordings. | 翻訳日:2023-08-23 17:18:36 公開日:2023-08-22 |
# 簡単な翻訳におけるCATツールとしてのChatGPTの利用 Using ChatGPT as a CAT tool in Easy Language translation ( http://arxiv.org/abs/2308.11563v1 ) ライセンス: Link先を確認 | Silvana Deilen, Sergio Hern\'andez Garrido, Ekaterina Lapshinova-Koltunski, Christiane Maa{\ss} | (参考訳) 本研究は,chatgpt を用いて市民指向の行政用テキストをドイツ・イージー言語に翻訳する可能性を検討することを目的としている。
我々はChatGPTを使用して、言語と全体主義という2つの戦略を用いて、ドイツの公共機関のウェブサイトから選ばれたテキストを翻訳する。
生成したテキストの品質を,正確性,可読性,構文的複雑性などの異なる基準に基づいて分析する。
その結果, 生成したテキストは標準テキストよりも容易であるが, 確立された Easy Language 標準を十分に満たしていないことがわかった。
さらに、コンテンツは常に正しくレンダリングされるわけではない。 This study sets out to investigate the feasibility of using ChatGPT to translate citizen-oriented administrative texts into German Easy Language, a simplified, controlled language variety that is adapted to the needs of people with reading impairments. We use ChatGPT to translate selected texts from websites of German public authorities using two strategies, i.e. linguistic and holistic. We analyse the quality of the generated texts based on different criteria, such as correctness, readability, and syntactic complexity. The results indicated that the generated texts are easier than the standard texts, but that they still do not fully meet the established Easy Language standards. Additionally, the content is not always rendered correctly. | 翻訳日:2023-08-23 17:18:09 公開日:2023-08-22 |
# 航空ビジョン・ダイアログナビゲーションのための目標位置グラフ認識トランスフォーマ Target-Grounded Graph-Aware Transformer for Aerial Vision-and-Dialog Navigation ( http://arxiv.org/abs/2308.11561v1 ) ライセンス: Link先を確認 | Yifei Su, Dong An, Yuan Xu, Kehan Chen, Yan Huang | (参考訳) 本報告では,ICCV 2023におけるAVDNチャレンジの入賞方法について詳述する。
このコンペティションは、ドローンエージェントが対話履歴と空中観測を関連づけて目的地に到達する必要がある、ANDH(Aerial Navigation from Dialog History)タスクに対処する。
ドローンエージェントのクロスモーダルグラウンド機能を改善するため,TG-GAT(Target-Grounded Graph-Aware Transformer)フレームワークを提案する。
具体的には、TG-GATはまずグラフ対応トランスフォーマーを利用して時空間依存性を捕捉し、ナビゲーション状態の追跡とロバストなアクションプランニングに有用である。
TG-GATはまずグラフ対応トランスフォーマーを利用して、より堅牢なアクション計画のための時空間依存性をキャプチャする。
加えて、エージェントが参照するランドマークに対する認識を高めるために補助的な視覚接地タスクが考案されている。
さらに,大規模言語モデルに基づくハイブリッド拡張戦略を用いて,データ不足の軽減を図る。
我々のTG-GATフレームワークは2023年のAVDNチャレンジで優勝し、それぞれSPLとSRの基準よりも2.2%と3.0%の絶対的な改善があった。
コードはhttps://github.com/yifeisu/avdn-challengeで入手できる。 This report details the method of the winning entry of the AVDN Challenge in ICCV 2023. The competition addresses the Aerial Navigation from Dialog History (ANDH) task, which requires a drone agent to associate dialog history with aerial observations to reach the destination. For better cross-modal grounding abilities of the drone agent, we propose a Target-Grounded Graph-Aware Transformer (TG-GAT) framework. Concretely, TG-GAT first leverages a graph-aware transformer to capture spatiotemporal dependency, which is beneficial for navigation state tracking and robust action planning. TG-GAT first leverages a graph-aware transformer to capture spatiotemporal dependencies for more robust action planning. In addition, an auxiliary visual grounding task is devised to boost the agent's awareness of referred landmarks. Moreover, a hybrid augmentation strategy based on large language models is utilized to mitigate data scarcity limitations. Our TG-GAT framework won the AVDN Challenge 2023, with 2.2% and 3.0% absolute improvements over the baseline on SPL and SR metrics, respectively. The code is available at https://github.com/yifeisu/avdn-challenge. | 翻訳日:2023-08-23 17:17:59 公開日:2023-08-22 |
# マルチイベントビデオテキスト検索 Multi-event Video-Text Retrieval ( http://arxiv.org/abs/2308.11551v1 ) ライセンス: Link先を確認 | Gengyuan Zhang, Jisen Ren, Jindong Gu, Volker Tresp | (参考訳) Video-Text Retrieval(VTR)は、インターネット上の大量のビデオテキストデータの時代において重要なマルチモーダルタスクである。
映像テキスト対の結合表現を学習する2ストリームの視覚言語モデルアーキテクチャを特徴とする多彩な作品がvtrタスクの際立ったアプローチとなっている。
しかしながら、これらのモデルは、客観的なビデオテキスト対応の仮定の下で動作し、ビデオコンテンツが通常複数のイベントを含むというより実践的なシナリオを無視している。
これは、以前のトレーニング目標と実世界のアプリケーションとのギャップを確立し、推論中に以前のモデルのパフォーマンスが低下する可能性がある。
本研究では,従来のビデオテキスト検索タスクのニッチなシナリオとして,各映像が複数の異なるイベントを含むシナリオに対処するマルチイベントビデオテキスト検索タスク(mevtr)を導入する。
本稿では,MeVTRタスクにキーイベント映像表現とMeVTRロスを付加したシンプルなモデルMe-Retrieverを提案する。
包括的な実験により、この簡単なフレームワークは、mevtrタスクの堅牢なベースラインを確立するために、ビデオ対テキストおよびテキスト対ビデオタスクにおいて、他のモデルよりも優れています。
この研究が将来の研究の基盤となると信じている。
コードはhttps://github.com/gengyuanmax/MeVTRで入手できる。 Video-Text Retrieval (VTR) is a crucial multi-modal task in an era of massive video-text data on the Internet. A plethora of work characterized by using a two-stream Vision-Language model architecture that learns a joint representation of video-text pairs has become a prominent approach for the VTR task. However, these models operate under the assumption of bijective video-text correspondences and neglect a more practical scenario where video content usually encompasses multiple events, while texts like user queries or webpage metadata tend to be specific and correspond to single events. This establishes a gap between the previous training objective and real-world applications, leading to the potential performance degradation of earlier models during inference. In this study, we introduce the Multi-event Video-Text Retrieval (MeVTR) task, addressing scenarios in which each video contains multiple different events, as a niche scenario of the conventional Video-Text Retrieval Task. We present a simple model, Me-Retriever, which incorporates key event video representation and a new MeVTR loss for the MeVTR task. Comprehensive experiments show that this straightforward framework outperforms other models in the Video-to-Text and Text-to-Video tasks, effectively establishing a robust baseline for the MeVTR task. We believe this work serves as a strong foundation for future studies. Code is available at https://github.com/gengyuanmax/MeVTR. | 翻訳日:2023-08-23 17:17:39 公開日:2023-08-22 |
# 難民の状況決定:機械学習ツールとの連携がいかにして正義に結びつくか Refugee status determination: how cooperation with machine learning tools can lead to more justice ( http://arxiv.org/abs/2308.11541v1 ) ライセンス: Link先を確認 | Claire Barale | (参考訳) 難民状況判断に関する以前の研究は、アプリケーションの結果の予測は、極めて少数の特徴を満足のいく精度で導き出すことができることを示した。
最近の研究は、難民状況判定を行う様々な法律分野のテキスト分析を用いて、70~90%の精度で達成されている。
いくつかの研究は、裁判官のアイデンティティのみに由来する予測を報告している。
さらに、予測に使用されるほとんどの機能は、ニュースレポート、聴覚や天気の日時など、非実体的かつ外部的な特徴である。
一方、文献では、騒音は人間の判断においてユビキタスであり、決定の結果に大きく影響している。
騒音が法的決定に影響を及ぼす重要な要因であることが示されている。
我々は、D. Kahnemanによって記述された意味での「ノイズ」という用語を、人間が決定を下す際の外部要因によって不可避的に影響されるかの尺度として用いている。
難民状況決定の文脈では、例えば、2人の裁判官が同一のアプリケーションで提示された場合、異なる決定を下すことを意味する。
この記事では、難民法決定におけるノイズ低減に機械学習が役立つ方法について説明する。
提案手法は,意思決定者のトレーニングやスキル獲得,判断集約など,他のアプローチから排他的に実施されるべきではなく,探究する価値のある道であることを示唆している。
我々は,人工知能,特にデータ駆動型アプリケーションを用いて難民状況判断に関わるすべての関係者の利益を得る方法について検討する。
具体的には、カナダと米国での意思決定に目を向けます。
本研究は, 2つの事例やアプリケーションが類似している場合, 同じ方法で扱われ, 同じ結果をもたらすべきだという仮定に基づいて, ノイズの多い決定から生じる任意性と不公平さを低減することを目的とする。 Previous research on refugee status adjudications has shown that prediction of the outcome of an application can be derived from very few features with satisfactory accuracy. Recent research work has achieved between 70 and 90% accuracy using text analytics on various legal fields among which refugee status determination. Some studies report predictions derived from the judge identity only. Additionally most features used for prediction are non-substantive and external features ranging from news reports, date and time of the hearing or weather. On the other hand, literature shows that noise is ubiquitous in human judgments and significantly affects the outcome of decisions. It has been demonstrated that noise is a significant factor impacting legal decisions. We use the term "noise" in the sense described by D. Kahneman, as a measure of how human beings are unavoidably influenced by external factors when making a decision. In the context of refugee status determination, it means for instance that two judges would take different decisions when presented with the same application. This article explores ways that machine learning can help reduce noise in refugee law decision making. We are not suggesting that this proposed methodology should be exclusive from other approaches to improve decisions such as training of decision makers, skills acquisition or judgment aggregation, but rather that it is a path worth exploring. We investigate how artificial intelligence and specifically data-driven applications can be used to benefit all parties involved in refugee status adjudications. We specifically look at decisions taken in Canada and in the United States. Our research aims at reducing arbitrariness and unfairness that derive from noisy decisions, based on the assumption that if two cases or applications are alike they should be treated in the same way and induce the same outcome. | 翻訳日:2023-08-23 17:17:15 公開日:2023-08-22 |
# belb: バイオメディカルなエンティティリンクベンチマーク BELB: a Biomedical Entity Linking Benchmark ( http://arxiv.org/abs/2308.11537v1 ) ライセンス: Link先を確認 | Samuele Garda, Leon Weber-Genzel, Robert Martin, Ulf Leser | (参考訳) バイオメディカル・エンティティ・リンク(英: Biomedical entity Linking、BEL)は、知識ベースに言及するエンティティの基盤となるタスクである。
生命科学文学における情報抽出パイプラインにおいて重要な役割を担っている。
そこで本研究では, バイオメディカルテキストマイニングのための既存のベンチマークが欠落しているため, 異なる実験装置を用いて, 論文数に基づいて比較を行った。
さらに、ニューラルシステムは、主に広範囲にわたる知識ベースUMLSにリンクされたインスタンスでテストされ、そのパフォーマンスは、例えば遺伝子や変異など、より専門的なものに委ねられている。
そこで我々は, バイオメディカルエンティティリンクベンチマークであるBELBを開発し, 7つの知識ベースにリンクした11のコーパスに統一されたフォーマットでアクセスし, 遺伝子, 疾患, 化学, 種, 細胞株, 変異の6つのエンティティタイプにまたがった。
BELBは、再現可能な実験のための標準化されたテストベッドを提供する複数のコーパス上でのBELシステムの前処理オーバーヘッドを大幅に削減する。
BELBを用いて、6つのルールベースのエンティティ固有システムと、事前訓練された言語モデルを活用する3つのニューラルアプローチを広範囲に評価する。
以上の結果から,ニューラルアプローチがエンティティタイプ間で一貫して機能しないことを示す混合画像が明らかとなり,エンティティ非依存モデルへのさらなる研究の必要性が浮き彫りになった。 Biomedical entity linking (BEL) is the task of grounding entity mentions to a knowledge base. It plays a vital role in information extraction pipelines for the life sciences literature. We review recent work in the field and find that, as the task is absent from existing benchmarks for biomedical text mining, different studies adopt different experimental setups making comparisons based on published numbers problematic. Furthermore, neural systems are tested primarily on instances linked to the broad coverage knowledge base UMLS, leaving their performance to more specialized ones, e.g. genes or variants, understudied. We therefore developed BELB, a Biomedical Entity Linking Benchmark, providing access in a unified format to 11 corpora linked to 7 knowledge bases and spanning six entity types: gene, disease, chemical, species, cell line and variant. BELB greatly reduces preprocessing overhead in testing BEL systems on multiple corpora offering a standardized testbed for reproducible experiments. Using BELB we perform an extensive evaluation of six rule-based entity-specific systems and three recent neural approaches leveraging pre-trained language models. Our results reveal a mixed picture showing that neural approaches fail to perform consistently across entity types, highlighting the need of further studies towards entity-agnostic models. | 翻訳日:2023-08-23 17:16:46 公開日:2023-08-22 |
# GRIP:潜時一貫性と空間的手がかりを用いたインタラクションポーザ生成 GRIP: Generating Interaction Poses Using Latent Consistency and Spatial Cues ( http://arxiv.org/abs/2308.11617v1 ) ライセンス: Link先を確認 | Omid Taheri, Yi Zhou, Dimitrios Tzionas, Yang Zhou, Duygu Ceylan, Soren Pirk, Michael J. Black | (参考訳) 手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
したがって、個々の指の微妙な動きを含む現実的な手と物体の相互作用のモデリングは、コンピュータグラフィックス、コンピュータビジョン、混合現実のアプリケーションにとって重要である。
3dで物体と相互作用する人間を捉えてモデリングする以前の仕事は、身体と物体の動きに焦点を当て、しばしば手のポーズを無視していた。
対照的に,物体と物体の3次元運動を入力とし,物体の相互作用前後における両手の現実的な動きを合成する学習ベース手法であるグリップを提案する。
手の動きを合成する前段階として、まず腕の動きを認知するためにネットワークANetを使用します。
次に, 物体と物体の時空間的関係を利用して2種類の新しい時間的相互作用の手がかりを抽出し, 2段階の推論パイプラインで手の動きを生成する。
第1段階では、潜伏空間(LTC)における動き時間一貫性を強制し、一貫した相互作用運動を生成する新しいアプローチを導入する。
第2段階では、GRIPは手荷物の侵入を避けるために洗練された手ポーズを生成する。
ノイズのある体と物体の動きのシーケンスが与えられたら、GRIPはそれらを手動物体の相互作用を含むようにアップグレードする。
定量的実験と知覚的研究により、GRIPはベースライン法を上回り、異なるモーションキャプチャーデータセットから見えない物体や動きに一般化することを示した。 Hands are dexterous and highly versatile manipulators that are central to how humans interact with objects and their environment. Consequently, modeling realistic hand-object interactions, including the subtle motion of individual fingers, is critical for applications in computer graphics, computer vision, and mixed reality. Prior work on capturing and modeling humans interacting with objects in 3D focuses on the body and object motion, often ignoring hand pose. In contrast, we introduce GRIP, a learning-based method that takes, as input, the 3D motion of the body and the object, and synthesizes realistic motion for both hands before, during, and after object interaction. As a preliminary step before synthesizing the hand motion, we first use a network, ANet, to denoise the arm motion. Then, we leverage the spatio-temporal relationship between the body and the object to extract two types of novel temporal interaction cues, and use them in a two-stage inference pipeline to generate the hand motion. In the first stage, we introduce a new approach to enforce motion temporal consistency in the latent space (LTC), and generate consistent interaction motions. In the second stage, GRIP generates refined hand poses to avoid hand-object penetrations. Given sequences of noisy body and object motion, GRIP upgrades them to include hand-object interaction. Quantitative experiments and perceptual studies demonstrate that GRIP outperforms baseline methods and generalizes to unseen objects and motions from different motion-capture datasets. | 翻訳日:2023-08-23 17:11:26 公開日:2023-08-22 |
# 量子マジックによるゼロ温度および有限温度量子シミュレーション Zero and Finite Temperature Quantum Simulations Powered by Quantum Magic ( http://arxiv.org/abs/2308.11616v1 ) ライセンス: Link先を確認 | Andi Gu, Hong-Ye Hu, Di Luo, Taylor L. Patti, Nicholas C. Rubin, Susanne F. Yelin | (参考訳) 我々は、ゼロ温度と有限温度の両方の量子シミュレーションに対する包括的アプローチを示し、量子情報理論的な視点とclifford + $k$rz変換を利用した。
本稿では,Rzゲートの追加によりクリフォード変換を体系的に拡張した自然な階層である「量子魔法のはしご」を紹介する。
これらの古典的にシミュレート可能な類似性変換は、システムの量子性を減らし、重要な量子資源を保存できる。
この量子性の減少は、ハミルトニアンを単純化し、物理回路深度を短縮し、限られた誤差補正によって課される制約を克服するため、不可欠である。
我々は、基底状態と有限温度分子シミュレーションにおけるデジタルおよびアナログ量子コンピュータの性能を改善し、Hartree-Fock法より優れているだけでなく、量子魔法のはしごを上昇するにつれて一貫した改善を実現する。
より効率的な量子シミュレーションを促進することで、短期および早期のフォールトトレラント量子コンピュータが量子化学における新たな課題に対処することができる。 We present a comprehensive approach to quantum simulations at both zero and finite temperatures, employing a quantum information theoretic perspective and utilizing the Clifford + $k$Rz transformations. We introduce the "quantum magic ladder", a natural hierarchy formed by systematically augmenting Clifford transformations with the addition of Rz gates. These classically simulable similarity transformations allow us to reduce the quantumness of our system, conserving vital quantum resources. This reduction in quantumness is essential, as it simplifies the Hamiltonian and shortens physical circuit-depth, overcoming constraints imposed by limited error correction. We improve the performance of both digital and analog quantum computers on ground state and finite temperature molecular simulations, not only outperforming the Hartree-Fock solution, but also achieving consistent improvements as we ascend the quantum magic ladder. By facilitating more efficient quantum simulations, our approach enables near-term and early fault-tolerant quantum computers to address novel challenges in quantum chemistry. | 翻訳日:2023-08-23 17:10:59 公開日:2023-08-22 |
# モノクロ3次元物体追跡のための動き認識マッチング Delving into Motion-Aware Matching for Monocular 3D Object Tracking ( http://arxiv.org/abs/2308.11607v1 ) ライセンス: Link先を確認 | Kuan-Chih Huang, Ming-Hsuan Yang, Yi-Hsuan Tsai | (参考訳) 単眼3次元物体検出の最近の進歩は、低コストカメラセンサに基づく3次元多物体追跡作業を容易にする。
本稿では,異なる時間軸に沿った物体の動きの手がかりが3次元マルチオブジェクト追跡において重要であることを見出した。
本稿では,モノクル3次元MOTのための動き認識フレームワークを提案する。
そこで本稿では,3つのモーションアウェアコンポーネントからなるフレームワークであるmoma-m3tを提案する。
まず,特徴空間内のすべての対象トラックレットに関連する物体の動きを運動特徴として表現する。
次に,移動変換器を用いて時間軸に沿った時間的視点で過去の物体追跡をモデル化する。
最後に、過去の物体追跡と現在の観測結果を最終追跡結果として関連付ける動き認識モジュールを提案する。
我々はnuScenesとKITTIデータセットに関する広範な実験を行い、MoMA-M3Tが最先端の手法と競合する性能を発揮することを示した。
さらに,提案するトラッカーは柔軟で,既存の画像ベース3Dオブジェクト検出器に再学習することなく簡単に接続できる。
コードとモデルはhttps://github.com/kuanchihhuang/moma-m3tで入手できる。 Recent advances of monocular 3D object detection facilitate the 3D multi-object tracking task based on low-cost camera sensors. In this paper, we find that the motion cue of objects along different time frames is critical in 3D multi-object tracking, which is less explored in existing monocular-based approaches. In this paper, we propose a motion-aware framework for monocular 3D MOT. To this end, we propose MoMA-M3T, a framework that mainly consists of three motion-aware components. First, we represent the possible movement of an object related to all object tracklets in the feature space as its motion features. Then, we further model the historical object tracklet along the time frame in a spatial-temporal perspective via a motion transformer. Finally, we propose a motion-aware matching module to associate historical object tracklets and current observations as final tracking results. We conduct extensive experiments on the nuScenes and KITTI datasets to demonstrate that our MoMA-M3T achieves competitive performance against state-of-the-art methods. Moreover, the proposed tracker is flexible and can be easily plugged into existing image-based 3D object detectors without re-training. Code and models are available at https://github.com/kuanchihhuang/MoMA-M3T. | 翻訳日:2023-08-23 17:10:40 公開日:2023-08-22 |
# storybench: 継続的ストーリー可視化のための多面ベンチマーク StoryBench: A Multifaceted Benchmark for Continuous Story Visualization ( http://arxiv.org/abs/2308.11606v1 ) ライセンス: Link先を確認 | Emanuele Bugliarello, Hernan Moraldo, Ruben Villegas, Mohammad Babaeizadeh, Mohammad Taghi Saffar, Han Zhang, Dumitru Erhan, Vittorio Ferrari, Pieter-Jan Kindermans, Paul Voigtlaender | (参考訳) テキストプロンプトからビデオストーリーを生成するのは複雑な作業です。
映像の品質の高さに加えて、ビデオはフレーム全体に一貫性を持ちながら、テキストプロンプトのシーケンスに現実的に固執する必要がある。
ビデオ生成のためのベンチマークを作成するには、時間とともに注釈付けされるデータが必要である。
このギャップを埋めるため、3つの既存のデータセットに包括的なヒューマンアノテーションを収集し、 storybench: 来るテキストからビデオモデルを確実に評価する、新しい挑戦的なマルチタスクベンチマークを紹介します。
私たちのベンチマークでは,難易度が高まる3つのビデオ生成タスク,つまり,次のアクションがコンディショニングビデオから生成されなければならないアクション実行,コンディショニングビデオから実行すべきアクションのシーケンスがコンディショニングビデオから実行されなければならないストーリー継続,テキストプロンプトのみからビデオを生成するストーリー生成の3つが含まれている。
従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小規模ながら強力に評価した。
最後に,映像の人的評価のためのガイドラインを確立し,映像生成のためのより良い自動メトリクスの必要性を再確認する。
StoryBenchは、このエキサイティングな新しい領域における将来の研究活動を促進することを目指している。 Generating video stories from text prompts is a complex task. In addition to having high visual quality, videos need to realistically adhere to a sequence of text prompts whilst being consistent throughout the frames. Creating a benchmark for video generation requires data annotated over time, which contrasts with the single caption used often in video datasets. To fill this gap, we collect comprehensive human annotations on three existing datasets, and introduce StoryBench: a new, challenging multi-task benchmark to reliably evaluate forthcoming text-to-video models. Our benchmark includes three video generation tasks of increasing difficulty: action execution, where the next action must be generated starting from a conditioning video; story continuation, where a sequence of actions must be executed starting from a conditioning video; and story generation, where a video must be generated from only text prompts. We evaluate small yet strong text-to-video baselines, and show the benefits of training on story-like data algorithmically generated from existing video captions. Finally, we establish guidelines for human evaluation of video stories, and reaffirm the need of better automatic metrics for video generation. StoryBench aims at encouraging future research efforts in this exciting new area. | 翻訳日:2023-08-23 17:10:23 公開日:2023-08-22 |
# GOPro: 自己教師型学習によるCLIPのプロンプトの生成と最適化 GOPro: Generate and Optimize Prompts in CLIP using Self-Supervised Learning ( http://arxiv.org/abs/2308.11605v1 ) ライセンス: Link先を確認 | Mainak Singha, Ankit Jha, Biplab Banerjee | (参考訳) CLIPのような大規模ファンデーションモデルは、セマンティックにリッチな空間にイメージを埋め込むことによって、視覚認識タスクにおいて顕著な成功を収めている。
自己教師付き学習(SSL)もまた、不変機能を学ぶことで視覚的認識を改善することを約束している。
しかし、CLIPとSSLの組み合わせは、CLIPの対照的な損失とSSLの損失をブレンドするマルチタスクフレームワークによる課題に直面している。
このような課題を克服するため,我々はGOProという,CLIP上の学習可能な画像とテキストプロジェクタのペアを用いて,共有画像-テキスト埋め込み空間における入力画像の様々な拡張ビューの類似性を保証する統一フレームワークを提案する。
このようなプロンプトを自動的に学習するために,事前学習したクリップから抽出したビジュアルコンテンツとスタイルプリミティブを活用して,対象タスクに適応する。
clipのクロスドメインコントラスト損失に加えて、画像の異なるビューを考慮して、視覚的コントラスト損失と新しいプロンプト一貫性損失を導入する。
GOProは、CLIPとSSLの長所を原則的に組み合わせて、3つの損失目標すべてに対してエンドツーエンドでトレーニングされている。
経験的評価は、goproが複数のベンチマークで挑戦的な3つのドメイン一般化タスクで最先端のプロンプト技術を上回ることを証明している。
私たちのコードはhttps://github.com/mainaksingha01/GOProで利用可能です。 Large-scale foundation models, such as CLIP, have demonstrated remarkable success in visual recognition tasks by embedding images in a semantically rich space. Self-supervised learning (SSL) has also shown promise in improving visual recognition by learning invariant features. However, the combination of CLIP with SSL is found to face challenges due to the multi-task framework that blends CLIP's contrastive loss and SSL's loss, including difficulties with loss weighting and inconsistency among different views of images in CLIP's output space. To overcome these challenges, we propose a prompt learning-based model called GOPro, which is a unified framework that ensures similarity between various augmented views of input images in a shared image-text embedding space, using a pair of learnable image and text projectors atop CLIP, to promote invariance and generalizability. To automatically learn such prompts, we leverage the visual content and style primitives extracted from pre-trained CLIP and adapt them to the target task. In addition to CLIP's cross-domain contrastive loss, we introduce a visual contrastive loss and a novel prompt consistency loss, considering the different views of the images. GOPro is trained end-to-end on all three loss objectives, combining the strengths of CLIP and SSL in a principled manner. Empirical evaluations demonstrate that GOPro outperforms the state-of-the-art prompting techniques on three challenging domain generalization tasks across multiple benchmarks by a significant margin. Our code is available at https://github.com/mainaksingha01/GOPro. | 翻訳日:2023-08-23 17:09:58 公開日:2023-08-22 |
# Tryage: 大規模言語モデルに対するユーザプロンプトのリアルタイムかつインテリジェントなルーティング Tryage: Real-time, intelligent Routing of User Prompts to Large Language Model ( http://arxiv.org/abs/2308.11601v1 ) ライセンス: Link先を確認 | Surya Narayanan Hari, Matt Thomson | (参考訳) トランスフォーマーアーキテクチャとセルフアテンション機構の導入は、特定のダウンストリームタスクとデータドメインでトレーニングされた言語モデルの爆発的な生産につながった。
Hugging Faceエコシステムには20万以上のモデルがあり、ユーザは、計算、セキュリティ、リプライの懸念に対処しながら、多面的なワークフローとデータドメインに適したモデルを選択し、最適化する。
モデル選択とカスタマイズの負担を排除し、エンドユーザのための巨大な新興モデルライブラリの驚くべきパワーを解き放つ、機械学習フレームワークが緊急に必要である。
本稿では,個々の入力プロンプトの分析に基づいて,モデルライブラリからエキスパートモデルの最適選択を行うための言語モデルルータを利用する,コンテキスト対応ルーティングシステムであるtryageを提案する。
脳の視床ルータにインスパイアされたtryageは、プロンプトでダウンストリームモデルのパフォーマンスを予測するための知覚的ルータを使用して、パフォーマンス予測とユーザ目標とフラグ(モデルサイズ、モデルレジェンシーなど)によって組み込まれた制約を統合する客観的関数を使用してルーティングを決定する。
tryageを使えば,paretoフロントを探索して,モデルサイズやレジェンシ,セキュリティ,冗長性,可読性といった2次目標とタスクの正確性を自動的にトレードオフすることが可能になります。
コード、テキスト、臨床データ、特許を含む異種データセット全体にわたって、TryageフレームワークはゴリラとGPT3.5ターボを上回り、最適モデルを50.9%の精度で識別し、GPT3.5ターボは23.6%、ゴリラは10.8%である。
概念的に、tryageは、拡張および進化する言語モデルエコシステムの効率的な利用を最大化するために、マルチモデルllmシステムの動作をプログラムおよび制御するためにルーティングモデルをどのように適用できるかを実証する。 The introduction of the transformer architecture and the self-attention mechanism has led to an explosive production of language models trained on specific downstream tasks and data domains. With over 200, 000 models in the Hugging Face ecosystem, users grapple with selecting and optimizing models to suit multifaceted workflows and data domains while addressing computational, security, and recency concerns. There is an urgent need for machine learning frameworks that can eliminate the burden of model selection and customization and unleash the incredible power of the vast emerging model library for end users. Here, we propose a context-aware routing system, Tryage, that leverages a language model router for optimal selection of expert models from a model library based on analysis of individual input prompts. Inspired by the thalamic router in the brain, Tryage employs a perceptive router to predict down-stream model performance on prompts and, then, makes a routing decision using an objective function that integrates performance predictions with user goals and constraints that are incorporated through flags (e.g., model size, model recency). Tryage allows users to explore a Pareto front and automatically trade-off between task accuracy and secondary goals including minimization of model size, recency, security, verbosity, and readability. Across heterogeneous data sets that include code, text, clinical data, and patents, the Tryage framework surpasses Gorilla and GPT3.5 turbo in dynamic model selection identifying the optimal model with an accuracy of 50.9% , compared to 23.6% by GPT 3.5 Turbo and 10.8% by Gorilla. Conceptually, Tryage demonstrates how routing models can be applied to program and control the behavior of multi-model LLM systems to maximize efficient use of the expanding and evolving language model ecosystem. | 翻訳日:2023-08-23 17:09:29 公開日:2023-08-22 |
# シームレスM4T-多言語・多モーダル機械翻訳 SeamlessM4T-Massively Multilingual & Multimodal Machine Translation ( http://arxiv.org/abs/2308.11596v1 ) ライセンス: Link先を確認 | Seamless Communication, Lo\"ic Barrault, Yu-An Chung, Mariano Cora Meglioli, David Dale, Ning Dong, Paul-Ambroise Duquenne, Hady Elsahar, Hongyu Gong, Kevin Heffernan, John Hoffman, Christopher Klaiber, Pengwei Li, Daniel Licht, Jean Maillard, Alice Rakotoarison, Kaushik Ram Sadagopan, Guillaume Wenzek, Ethan Ye, Bapi Akula, Peng-Jen Chen, Naji El Hachem, Brian Ellis, Gabriel Mejia Gonzalez, Justin Haaheim, Prangthip Hansanti, Russ Howes, Bernie Huang, Min-Jae Hwang, Hirofumi Inaguma, Somya Jain, Elahe Kalbassi, Amanda Kallet, Ilia Kulikov, Janice Lam, Daniel Li, Xutai Ma, Ruslan Mavlyutov, Benjamin Peloquin, Mohamed Ramadan, Abinesh Ramakrishnan, Anna Sun, Kevin Tran, Tuan Tran, Igor Tufanov, Vish Vogeti, Carleigh Wood, Yilin Yang, Bokai Yu, Pierre Andrews, Can Balioglu, Marta R. Costa-juss\`a, Onur Celebi, Maha Elbayad, Cynthia Gao, Francisco Guzm\'an, Justine Kao, Ann Lee, Alexandre Mourachko, Juan Pino, Sravya Popuri, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Paden Tomasello, Changhan Wang, Jeff Wang, Skyler Wang | (参考訳) Babel Fishは、個人が2つの言語間で音声を翻訳するのを助けるツールだ。
最近のテキストベースのモデルにおけるブレークスルーにより、200言語を超える機械翻訳のカバレッジが押し上げられたが、音声音声翻訳の統一モデルは、まだ同様の進歩を遂げていない。
より具体的には、従来の音声音声翻訳システムは、段階的に翻訳を行うカスケードシステムに依存しており、高い性能の統一システムは到達できない。
これらのギャップに対処するため,SamlessM4Tは音声音声翻訳,音声音声翻訳,テキスト音声翻訳,テキスト音声翻訳,最大100言語の自動音声認識をサポートする単一モデルである。
そこで我々は,w2v-BERT 2.0を用いて,100万時間のオープン音声データを用いて自己教師型音声表現を学習した。
その後,自動アライメント音声翻訳のマルチモーダルコーパスを作成した。
人間のラベルデータと疑似ラベルデータとを合成し,音声とテキストの両方を英語に翻訳可能な最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
強いカスケードモデルと比較すると、seamlessm4tは英語内翻訳の品質を音声対テキストの1.3点、音声対音声の2.2.6点向上させる。
強靭性テストにより,従来のSOTAモデルと比較して,背景雑音や話者の変動に優れた性能を示す。
本研究は, ジェンダーバイアスに関するシームレスm4tを評価し, 翻訳の安全性を評価するために毒性を付加した。
最後に、この作業へのすべてのコントリビューションは、このhttps https://github.com/facebookresearch/seamless_communicationでオープンソース化される。 What does it take to create the Babel Fish, a tool that can help individuals translate speech between any two languages? While recent breakthroughs in text-based models have pushed machine translation coverage beyond 200 languages, unified speech-to-speech translation models have yet to achieve similar strides. More specifically, conventional speech-to-speech translation systems rely on cascaded systems that perform translation progressively, putting high-performing unified systems out of reach. To address these gaps, we introduce SeamlessM4T, a single model that supports speech-to-speech translation, speech-to-text translation, text-to-speech translation, text-to-text translation, and automatic speech recognition for up to 100 languages. To build this, we used 1 million hours of open speech audio data to learn self-supervised speech representations with w2v-BERT 2.0. Subsequently, we created a multimodal corpus of automatically aligned speech translations. Filtered and combined with human-labeled and pseudo-labeled data, we developed the first multilingual system capable of translating from and into English for both speech and text. On FLEURS, SeamlessM4T sets a new standard for translations into multiple target languages, achieving an improvement of 20% BLEU over the previous SOTA in direct speech-to-text translation. Compared to strong cascaded models, SeamlessM4T improves the quality of into-English translation by 1.3 BLEU points in speech-to-text and by 2.6 ASR-BLEU points in speech-to-speech. Tested for robustness, our system performs better against background noises and speaker variations in speech-to-text tasks compared to the current SOTA model. Critically, we evaluated SeamlessM4T on gender bias and added toxicity to assess translation safety. Finally, all contributions in this work are open-sourced at this https https://github.com/facebookresearch/seamless_communication. | 翻訳日:2023-08-23 17:08:54 公開日:2023-08-22 |
# セルフトレーニング:調査 Self-Training: A Survey ( http://arxiv.org/abs/2202.12040v3 ) ライセンス: Link先を確認 | Massih-Reza Amini, Vasilii Feofanov, Loic Pauletto, Emilie Devijver, Yury Maximov | (参考訳) 半教師付きアルゴリズムは、小さなラベル付き観測と大きなラベル付き観測から予測関数を学習することを目的としている。
このフレームワークは多くのアプリケーションに関係しているため、学術と産業の両方に多くの関心が寄せられている。
近年,自己学習手法が注目されていることは確かである。
これらのモデルは、データ分布について追加の仮定をすることなく、低密度領域における決定境界を見つけ、学習された分類器の符号なし出力スコアまたはそのマージンを信頼の指標として用いるように設計されている。
自己学習アルゴリズムの動作原理は、ある閾値より大きいラベル付きトレーニングサンプルの集合に擬似ラベルを割り当てることで、分類器を反復的に学習することである。
次に、擬似ラベル付きサンプルを使用してラベル付きトレーニングデータを強化し、ラベル付きトレーニングセットと組み合わせて新しい分類器をトレーニングする。
本稿では,二進分類と多クラス分類のための自己学習法と,それらの変種と関連する2つのアプローチ,すなわち一貫性に基づくアプローチとトランスダクティブ学習について述べる。
我々は,様々な手法における重要な自己学習機能の影響について,一般および画像分類ベンチマークを用いて検討し,今後の自己学習研究に向けての考え方について考察する。
私たちの知る限りでは、この問題に関する完全な調査はこれが初めてです。 Semi-supervised algorithms aim to learn prediction functions from a small set of labeled observations and a large set of unlabeled observations. Because this framework is relevant in many applications, they have received a lot of interest in both academia and industry. Among the existing techniques, self-training methods have undoubtedly attracted greater attention in recent years. These models are designed to find the decision boundary on low density regions without making additional assumptions about the data distribution, and use the unsigned output score of a learned classifier, or its margin, as an indicator of confidence. The working principle of self-training algorithms is to learn a classifier iteratively by assigning pseudo-labels to the set of unlabeled training samples with a margin greater than a certain threshold. The pseudo-labeled examples are then used to enrich the labeled training data and to train a new classifier in conjunction with the labeled training set. In this paper, we present self-training methods for binary and multi-class classification; as well as their variants and two related approaches, namely consistency-based approaches and transductive learning. We examine the impact of significant self-training features on various methods, using different general and image classification benchmarks, and we discuss our ideas for future research in self-training. To the best of our knowledge, this is the first thorough and complete survey on this subject. | 翻訳日:2023-08-23 15:22:39 公開日:2023-08-22 |
# グラフコントラスト学習の校正と改善 Calibrating and Improving Graph Contrastive Learning ( http://arxiv.org/abs/2101.11525v2 ) ライセンス: Link先を確認 | Kaili Ma, Haochen Yang, Han Yang, Yongqiang Chen, James Cheng | (参考訳) グラフ対照的学習アルゴリズムは、ノード分類、リンク予測、グラフクラスタリングなどの様々なアプリケーションで顕著な成功を収めている。
しかし、教師なしグラフの対照的な学習では、いくつかの対照的なペアは下流タスクの真相と矛盾する可能性があるため、これらのペアの損失の減少は下流タスクのパフォーマンスを好ましくは損なう。
これらのコントラストペアの下流タスクにおける予測値と基底値との差を評価するために,期待校正誤差(ece)をグラフコントラスト学習に適用する。
ECEの分析は、コントラスト-Regという新しい正規化手法を提案する動機となり、コントラスト損失の減少が下流タスクの性能向上につながることを確実にする。
プラグイン正規化器として、con contrast-regは既存のグラフコントラスト学習アルゴリズムのパフォーマンスを効果的に改善する。
本稿では,グラフニューラルネットワーク(gnn)モデルの一般化性向上と,異なる類似性定義とエンコーダバックボーンを持つグラフコントラストアルゴリズムの性能向上におけるコントラストレグの有効性を示すために,理論的および実証的な結果を提供する。 Graph contrastive learning algorithms have demonstrated remarkable success in various applications such as node classification, link prediction, and graph clustering. However, in unsupervised graph contrastive learning, some contrastive pairs may contradict the truths in downstream tasks and thus the decrease of losses on these pairs undesirably harms the performance in the downstream tasks. To assess the discrepancy between the prediction and the ground-truth in the downstream tasks for these contrastive pairs, we adapt the expected calibration error (ECE) to graph contrastive learning. The analysis of ECE motivates us to propose a novel regularization method, Contrast-Reg, to ensure that decreasing the contrastive loss leads to better performance in the downstream tasks. As a plug-in regularizer, Contrast-Reg effectively improves the performance of existing graph contrastive learning algorithms. We provide both theoretical and empirical results to demonstrate the effectiveness of Contrast-Reg in enhancing the generalizability of the Graph Neural Network(GNN) model and improving the performance of graph contrastive algorithms with different similarity definitions and encoder backbones across various downstream tasks. | 翻訳日:2023-08-23 15:22:18 公開日:2023-08-22 |
# MMD規則化不均衡最適輸送 MMD-Regularized Unbalanced Optimal Transport ( http://arxiv.org/abs/2011.05001v7 ) ライセンス: Link先を確認 | Piyushi Manupriya (IIT Hyderabad, INDIA), J. Saketha Nath (IIT Hyderabad, INDIA), Pratik Jawanpuria (Microsoft IDC, INDIA) | (参考訳) 最大平均離散化(MMD)正則化を用いて限界制約を強制する不均衡最適輸送(UOT)問題について検討する。
我々の研究は、UOTに関する文献が$\phi$-divergence(例えばKLの発散)に基づく正規化に焦点を当てているという観察に動機づけられている。
MMDの人気にもかかわらず、UOTの文脈における正則化者としての役割は理解されていないようである。
まず、mmd正規化uot(mmd-uot)の双対を導出し、他の有用な性質を証明する。
この双対性の結果の1つの興味深い結果は、MDD-UOTがワッサーシュタインのような基底測度を持ち上げるだけでなく、MDDのように効率的に推定できる新しい測度を誘導することである。
また,MMD-UOTと対応するバリセンタを,輸送中の測定値からのみ推定する有限次元凸プログラムを提案する。
穏やかな条件下では、我々の凸計画に基づく推定器は一貫性があり、推定誤差は$\mathcal{o}\left(m^{-\frac{1}{2}}\right)$で減少し、ここで$m$はサンプル数である。
私たちが知る限り、次元の呪いのないそのようなエラー境界は、$\phi$-divergence regularized UOTでは知られていない。
最後に,提案した凸プログラムを高速化された勾配勾配勾配を用いて効率的に解く方法について述べる。
実験によれば、mmd-uotはkl正規化uotとmmdを含む一般的なベースラインを、さまざまな機械学習アプリケーションにおいて一貫して上回っている。 We study the unbalanced optimal transport (UOT) problem, where the marginal constraints are enforced using Maximum Mean Discrepancy (MMD) regularization. Our work is motivated by the observation that the literature on UOT is focused on regularization based on $\phi$-divergence (e.g., KL divergence). Despite the popularity of MMD, its role as a regularizer in the context of UOT seems less understood. We begin by deriving the dual of MMD-regularized UOT (MMD-UOT), which helps us prove other useful properties. One interesting outcome of this duality result is that MMD-UOT induces novel metrics, which not only lift the ground metric like the Wasserstein but are also efficient to estimate like the MMD. Further, we present finite-dimensional convex programs for estimating MMD-UOT and the corresponding barycenter solely based on the samples from the measures being transported. Under mild conditions, we prove that our convex-program-based estimators are consistent and the estimation error decays at a rate $\mathcal{O}\left(m^{-\frac{1}{2}}\right)$, where $m$ is the number of samples. As far as we know, such error bounds that are free from the curse of dimensionality are not known for $\phi$-divergence regularized UOT. Finally, we discuss how the proposed convex programs can be solved efficiently using accelerated projected gradient descent. Our experiments show that MMD-UOT consistently outperforms popular baselines, including KL-regularized UOT and MMD, in diverse machine learning applications. | 翻訳日:2023-08-23 15:21:55 公開日:2023-08-22 |
# 量子ゲート忠実度推定のための半導体スピン量子ビットのモデル化とその電荷ノイズ環境 Modelling semiconductor spin qubits and their charge noise environment for quantum gate fidelity estimation ( http://arxiv.org/abs/2210.04539v2 ) ライセンス: Link先を確認 | M. Mohamed El Kordy Shehata, George Simion, Ruoyu Li, Fahd A. Mohiyaddin, Danny Wan, Massimo Mongillo, Bogdan Govoreanu, Iuliana Radu, Kristiaan De Greve and Pol Van Dorpe | (参考訳) 半導体量子ドットに閉じ込められた電子のスピンは、量子ビット(量子ビット)実装の有望な候補である。
既存のCMOS統合技術を利用して、そのようなデバイスは大規模量子計算のためのプラットフォームを提供することができる。
しかし、デバイスの物理的設計と動作パラメータを量子ビットエネルギー空間にブリッジする量子力学的フレームワークは不足している。
さらに、固有または誘導スピン軌道相互作用(soi)によって導入されたスピン対電荷結合は、量子ビットがコヒーレンス特性を妥協し量子ゲートエラーを誘発するノイズを電荷化する。
本稿では,二重量子ドット(dqd)デバイスとその帯電雑音環境のためのコモデリングフレームワークを提案する。
本研究では,静電ポテンシャル解法,フルコンフィグレーション相互作用量子力学的手法,および2レベル変動モデルを組み合わせて,現実的なデバイス設計と動作条件における量子ゲート性能の研究を行う。
我々は、量子ドットの単一電子溶液とともに開発されたモデルを用いて、電荷ノイズの存在下で1ビットと2ビットのゲートをシミュレートする。
量子ゲート誤差と量子ドット閉じ込め周波数の逆相関を求める。
シミュレーションしたSi-MOSデバイスにおいて, 典型的なTLF密度のXゲート忠実度>97%を算出する。
また,交換駆動型2量子ビットスワップゲートは,tlfの密度が同じ場合,音質が91%まで低下するほど高い感度を示すことがわかった。
さらに,TLF密度の異なる1および2ビットゲートの忠実度について検討した。
量子ドットの大きさが小さいと、ノイズ源と量子ドットの間の距離に対する量子ゲートの感度は、量子ゲートの忠実度に強いばらつきをもたらし、スケールした量子ビット技術におけるデバイス収率を損なうことができる。 The spin of an electron confined in semiconductor quantum dots is currently a promising candidate for quantum bit (qubit) implementations. Taking advantage of existing CMOS integration technologies, such devices can offer a platform for large scale quantum computation. However, a quantum mechanical framework bridging a device's physical design and operational parameters to the qubit energy space is lacking. Furthermore, the spin to charge coupling introduced by intrinsic or induced Spin-Orbit-Interaction (SOI) exposes the qubits to charge noise compromising their coherence properties and inducing quantum gate errors. We present here a co-modelling framework for double quantum dot (DQD) devices and their charge noise environment. We use a combination of an electrostatic potential solver, full configuration interaction quantum mechanical methods and two-level-fluctuator models to study the quantum gate performance in realistic device designs and operation conditions. We utilize the developed models together alongside the single electron solutions of the quantum dots to simulate one- and two- qubit gates in the presence of charge noise. We find an inverse correlation between quantum gate errors and quantum dot confinement frequencies. We calculate X-gate fidelities >97% in the simulated Si-MOS devices at a typical TLF densities. We also find that exchange driven two-qubit SWAP gates show higher sensitivity to charge noise with fidelities down to 91% in the presence of the same density of TLFs. We further investigate the one- and two- qubit gate fidelities at different TLF densities. We find that given the small size of the quantum dots, sensitivity of a quantum gate to the distance between the noise sources and the quantum dot creates a strong variability in the quantum gate fidelities which can compromise the device yields in scaled qubit technologies. | 翻訳日:2023-08-23 15:20:16 公開日:2023-08-22 |
# 対称擬ブール関数について:因子化、カーネルおよび応用 On Symmetric Pseudo-Boolean Functions: Factorization, Kernels and Applications ( http://arxiv.org/abs/2209.15009v2 ) ライセンス: Link先を確認 | Richik Sengupta and Jacob Biamonte | (参考訳) 対称pseudo-boolean関数は、ブールタプルから実数への写像であり、入力変数交換の下で不変である。
そのような関数が任意のべき級数や分解として同値に表現できることを証明する。
擬ブール関数の核は、関数が同一に消える原因となる全ての入力の集合である。
n$-variable symmetric pseudo-boolean function $f(x_1, x_2, \dots, x_n)$ は少なくとも 1 つの $n$-affine hyperplane に対応するカーネルを持ち、各超平面は $\sum_{l=1}^n x_l = \lambda$ for $\lambda\in \mathbb{c}$ constant によって与えられる。
これらの結果を用いて、スピングラスエネルギー関数(アイシングモデル)、量子情報およびテンソルネットワークの文献に現れる対称擬ブール関数を解析する。 A symmetric pseudo-Boolean function is a map from Boolean tuples to real numbers which is invariant under input variable interchange. We prove that any such function can be equivalently expressed as a power series or factorized. The kernel of a pseudo-Boolean function is the set of all inputs that cause the function to vanish identically. Any $n$-variable symmetric pseudo-Boolean function $f(x_1, x_2, \dots, x_n)$ has a kernel corresponding to at least one $n$-affine hyperplane, each hyperplane is given by a constraint $\sum_{l=1}^n x_l = \lambda$ for $\lambda\in \mathbb{C}$ constant. We use these results to analyze symmetric pseudo-Boolean functions appearing in the literature of spin glass energy functions (Ising models), quantum information and tensor networks. | 翻訳日:2023-08-23 15:19:29 公開日:2023-08-22 |
# 最適輸送とマニフォールド学習による保存法則の発見 Discovering Conservation Laws using Optimal Transport and Manifold Learning ( http://arxiv.org/abs/2208.14995v2 ) ライセンス: Link先を確認 | Peter Y. Lu, Rumen Dangovski, Marin Solja\v{c}i\'c | (参考訳) 保存法則は非線形力学系を理解し、特徴づけ、モデル化するための重要な理論的および実践的なツールである。
しかし、多くの複雑なシステムでは、対応する保存量を特定するのが難しく、そのダイナミクスを分析して安定した予測モデルを構築するのが困難である。
現在の保存則の発見のアプローチは、しばしば詳細な力学情報に依存するか、ブラックボックスのパラメトリック深層学習法に依存する。
代わりに、この課題を多様体学習問題として再構成し、保存量の発見に非パラメトリックなアプローチを提案する。
我々はこの新しいアプローチを様々な物理システムでテストし、保存された量の数を識別し、それらの値を抽出できることを実証する。
最適輸送理論と多様体学習のツールを用いて,提案手法は,システムの明示的なモデルや正確な時間情報を必要としない,頑健かつ解釈可能な保存則を同定するための直接幾何学的アプローチを提供する。 Conservation laws are key theoretical and practical tools for understanding, characterizing, and modeling nonlinear dynamical systems. However, for many complex systems, the corresponding conserved quantities are difficult to identify, making it hard to analyze their dynamics and build stable predictive models. Current approaches for discovering conservation laws often depend on detailed dynamical information or rely on black box parametric deep learning methods. We instead reformulate this task as a manifold learning problem and propose a non-parametric approach for discovering conserved quantities. We test this new approach on a variety of physical systems and demonstrate that our method is able to both identify the number of conserved quantities and extract their values. Using tools from optimal transport theory and manifold learning, our proposed method provides a direct geometric approach to identifying conservation laws that is both robust and interpretable without requiring an explicit model of the system nor accurate time information. | 翻訳日:2023-08-23 15:18:46 公開日:2023-08-22 |
# 位相項を持つファン・ロスブローク方程式:ワイル半金属の場合 Van Roosbroeck's equations with topological terms: the case of Weyl semimetals ( http://arxiv.org/abs/2208.03379v2 ) ライセンス: Link先を確認 | Pierre-Antoine Graham, Simon Bertrand, Micha\"el B\'edard, Robin Durand, Ion Garate | (参考訳) ヴァン・ロスブロークの方程式は、時間と空間に依存した摂動の下での電子のダイナミクスを決定する汎用的なツールを構成する。
通常の半導体で広く使われているが、トポロジカルな材料から作られるデバイスへのポテンシャルは未解明である。
ここで、ファン・ロスブロークの方程式を理論上、量子化磁場の存在下で、ワイル半金属のバルク応答を超高速かつ空間局在化された光パルスに応用する。
キラルな異常から生じる過渡的な振動光電圧を予測する。
振動はプラズマ周波数(THz範囲)で発生し、インターバルリー散乱と誘電緩和によって減衰する。
以上より,ファン・ロスブロークの方程式がマイクロエレクトロニクスデバイスにおける電子バンドトポロジーと高速キャリアダイナミクスの相互作用を明らかにした。 Van Roosbroeck's equations constitute a versatile tool to determine the dynamics of electrons under time- and space-dependent perturbations. Extensively utilized in ordinary semiconductors, their potential to model devices made from topological materials remains untapped. Here, we adapt van Roosbroeck's equations to theoretically study the bulk response of a Weyl semimetal to an ultrafast and spatially localized light pulse in the presence of a quantizing magnetic field. We predict a transient oscillatory photovoltage that originates from the chiral anomaly. The oscillations take place at the plasma frequency (THz range) and are damped by intervalley scattering and dielectric relaxation. Our results illustrate the ability of van Roosbroeck's equations to unveil the interplay between electronic band topology and fast carrier dynamics in microelectronic devices. | 翻訳日:2023-08-23 15:18:07 公開日:2023-08-22 |
# 統計モデル選択によるベル不平等違反の異なる因果関係の実験的調整」について Comment on "Experimentally adjudicating between different causal accounts of Bell-inequality violations via statistical model selection" ( http://arxiv.org/abs/2206.10619v3 ) ライセンス: Link先を確認 | Jonte R. Hance and Sabine Hossenfelder | (参考訳) 最近の論文で(Phys)。
A 105, 042220 (2022), Daleyらによれば、超決定論的モデルは標準量子力学には不利である。
我々は、これらの主張は超決定論的モデルが何であるかの誤解に基づいていると論じている。 In a recent paper (Phys. Rev. A 105, 042220 (2022)), Daley et al claim that superdeterministic models are disfavoured against standard quantum mechanics, because such models overfit the statistics of a Bell-type experiment which the authors conducted. We argue here that their claim is based on a misunderstanding of what superdeterministic models are. | 翻訳日:2023-08-23 15:17:37 公開日:2023-08-22 |
# 格子シュウィンガー模型の変分熱量子シミュレーション Variational thermal quantum simulation of the lattice Schwinger model ( http://arxiv.org/abs/2205.12767v3 ) ライセンス: Link先を確認 | Xu-Dan Xie, Xingyu Guo, Hongxi Xing, Zheng-Yuan Xue, Dan-Bo Zhang and Shi-Liang Zhu | (参考訳) 強い相互作用と高温と高密度での分解によるクォークの閉じ込めは、核物質を理解するための基本的なパラダイムである。
しかし、そのシミュレーションは有限温度量子色力学系の平衡状態を有限密度で解くというサイン問題のため、古典コンピュータにとって非常に難しい。
本稿では,格子シュウィンガーモデルを用いて,弦張力の調査により拘束や分解をシミュレートする変分法を提案する。
我々は、自由エネルギーのエントロピーを測定する量子プロトコルを参照せずに弦張力を評価することができるアンサッツを採用する。
数値シミュレーションの結果, 弦張力は温度の増加とともに減少し, 化学ポテンシャルはqcdの相図に類似することが明らかとなった。
我々の研究は、核物質の有限温度および有限密度の位相図を調べるために、短期量子コンピュータを利用する方法である。 Confinement of quarks due to the strong interaction and the deconfinement at high temperatures and high densities are a basic paradigm for understanding the nuclear matter. Their simulation, however, is very challenging for classical computers due to the sign problem of solving equilibrium states of finite-temperature quantum chromodynamical systems at finite density. In this paper, we propose a variational approach, using the lattice Schwinger model, to simulate the confinement or deconfinement by investigating the string tension. We adopt an ansatz that the string tension can be evaluated without referring to quantum protocols for measuring the entropy in the free energy. Results of numeral simulation show that the string tension decreases both along the increasing of the temperature and the chemical potential, which can be an analog of the phase diagram of QCD. Our work paves a way for exploiting near-term quantum computers for investigating the phase diagram of finite-temperature and finite density for nuclear matters. | 翻訳日:2023-08-23 15:17:27 公開日:2023-08-22 |
# メモリ拡張型多レベルクロスアテンショナルマスクオートエンコーダを用いた医用画像の教師なし異常検出 Unsupervised Anomaly Detection in Medical Images with a Memory-augmented Multi-level Cross-attentional Masked Autoencoder ( http://arxiv.org/abs/2203.11725v2 ) ライセンス: Link先を確認 | Yu Tian and Guansong Pang and Yuyuan Liu and Chong Wang and Yuanhong Chen and Fengbei Liu and Rajvinder Singh and Johan W Verjans and Mengyu Wang and Gustavo Carneiro | (参考訳) 教師なし異常検出(unsupervised anomaly detection, uad)は、通常画像のみを含むトレーニングセットを使用して検出器を最適化することで異常画像を見つけることを目的としている。
UADアプローチは、再構成方法、自己教師付きアプローチ、およびImagenet事前訓練モデルに基づくことができる。
画像再構成誤差から異常を検出するリコンストラクション手法は、自己監督的アプローチが必要とする問題固有のプリテキストタスクや、非医学的データセットから事前訓練されたモデルの信頼できない翻訳に依存しないため、有利である。
しかし, 異常画像においても再構成誤差が低いため, 再構成手法は失敗する可能性がある。
本稿では,この低再構成誤差問題に対処する再構成に基づく新しいUDA手法を提案する。
マルチレベルクロスアテンション・マスク・オートエンコーダ(memmc-mae, memory-augmented multi-level cross-attentional masked autoencoder, memmc-mae)は、エンコーダ用の新しいメモリアテンション・セルフ・アテンション・オペレータと、デコーダ用の新しいマルチレベル・クロス・アテンション・オペレータから構成されるトランスフォーマー方式である。
MemMCMAEは、その再構築中に入力画像の大部分をマスクし、異常が隠蔽され、再構成できないため、低い再構成エラーが発生するリスクを低減する。
しかし、異常が隠蔽されていない場合、エンコーダのメモリに格納される通常のパターンとデコーダの複数レベルのクロスアテンションが組み合わさって、異常の正確な再構築を制約する。
本手法は,大腸内視鏡,肺炎,コビッド19胸部X線データセットのSOTA異常検出と局在化を実現する。 Unsupervised anomaly detection (UAD) aims to find anomalous images by optimising a detector using a training set that contains only normal images. UAD approaches can be based on reconstruction methods, self-supervised approaches, and Imagenet pre-trained models. Reconstruction methods, which detect anomalies from image reconstruction errors, are advantageous because they do not rely on the design of problem-specific pretext tasks needed by self-supervised approaches, and on the unreliable translation of models pre-trained from non-medical datasets. However, reconstruction methods may fail because they can have low reconstruction errors even for anomalous images. In this paper, we introduce a new reconstruction-based UAD approach that addresses this low-reconstruction error issue for anomalous images. Our UAD approach, the memory-augmented multi-level cross-attentional masked autoencoder (MemMC-MAE), is a transformer-based approach, consisting of a novel memory-augmented self-attention operator for the encoder and a new multi-level cross-attention operator for the decoder. MemMCMAE masks large parts of the input image during its reconstruction, reducing the risk that it will produce low reconstruction errors because anomalies are likely to be masked and cannot be reconstructed. However, when the anomaly is not masked, then the normal patterns stored in the encoder's memory combined with the decoder's multi-level cross attention will constrain the accurate reconstruction of the anomaly. We show that our method achieves SOTA anomaly detection and localisation on colonoscopy, pneumonia, and covid-19 chest x-ray datasets. | 翻訳日:2023-08-23 15:17:13 公開日:2023-08-22 |
# 超伝導量子ハードウェア上での量子エネルギーテレポーテーションの実証 Demonstration of Quantum Energy Teleportation on Superconducting Quantum Hardware ( http://arxiv.org/abs/2301.02666v5 ) ライセンス: Link先を確認 | Kazuki Ikeda | (参考訳) 物理量を遠隔地へテレポートすることは、量子情報科学と技術にとって依然として重要な課題である。
量子テレポーテーションは量子情報の転送を可能にしたが、量子物理量のテレポーテーションはまだ実現されていない。
本稿では,実超伝導量子ハードウェア上での量子エネルギーテレポーテーションの実現と観察について報告する。
我々は、IBMの超伝導量子コンピュータを用いてこれを実現する。
結果は理論の厳密な解と一致し、測定誤差の軽減によって改善される。
量子エネルギーテレポーテーションは局所的な操作と古典的な通信のみを必要とする。
したがって、現在の量子コンピューティングと通信技術で完全に実現可能な現実的なベンチマークを提供する。 Teleporting physical quantities to remote locations is a remaining key challenge for quantum information science and technology. Quantum teleportation has enabled the transfer of quantum information, but teleportation of quantum physical quantities has not yet been realized. Here we report the realization and observation of quantum energy teleportation on real superconducting quantum hardware. We achieve this by using several IBM's superconducting quantum computers. The results are consistent with the exact solution of the theory and are improved by the mitigation of measurement error. Quantum energy teleportation requires only local operations and classical communication. Therefore our results provide a realistic benchmark that is fully achievable with current quantum computing and communication technologies. | 翻訳日:2023-08-23 15:09:10 公開日:2023-08-22 |
# 固体コヒーレントスピン-光子界面としての結晶中の遷移金属イオンアンサンブル:酸化マグネシウムのニッケルの場合 Transition metal ion ensembles in crystals as solid-state coherent spin-photon interfaces: The case of nickel in magnesium oxide ( http://arxiv.org/abs/2212.14827v2 ) ライセンス: Link先を確認 | E. Poem, S. Gupta, I. Morris, K. Klink, L. Singh, T. Zhong, J. N. Becker, and O. Firstenberg | (参考訳) フォノンが豊富だが冷却が容易な比較的高温でもコヒーレントな電子スピン光子界面として機能する固体系を見つけるための一般的なガイドラインを提案し, 種々の結晶中の遷移金属イオンがこれらのガイドラインに従うことを示す。
例示として,酸化マグネシウム中の二価ニッケルイオンに着目した。
電子スピン共鳴分光法およびこれらのイオンの高密度アンサンブルの偏光感光性光蛍光分光法を実行し、それを見つける。
(i)基底状態の電子スピンは数マイクロ秒間液体ヘリウム温度でコヒーレントであり、
(II) 直交偏光の光学遷移によって2つの基底状態スピン準位に対向できるエネルギー的によく分離された励起状態が存在する。
後者は、電子スピンに対する高速でコヒーレントな光制御が可能であることを意味する。
次に、偏光パルスを用いた基底状態電子スピンの光初期化と制御のためのスキームと、この材料系における近テレコム波長の雑音のない広帯域量子光学メモリを実現するための2つのスキームを提案する。 We present general guidelines for finding solid-state systems that could serve as coherent electron spin-photon interfaces even at relatively high temperatures, where phonons are abundant but cooling is easier, and show that transition metal ions in various crystals could comply with these guidelines. As an illustrative example, we focus on divalent nickel ions in magnesium oxide. We perform electron spin resonance spectroscopy and polarization-sensitive magneto-optical fluorescence spectroscopy of a dense ensemble of these ions and find that (i) the ground-state electron spin stays coherent at liquid-helium temperatures for several microseconds, and (ii) there exists energetically well-isolated excited states which can couple to two ground state spin sub-levels via optical transitions of orthogonal polarizations. The latter implies that fast, coherent optical control over the electron spin is possible. We then propose schemes for optical initialization and control of the ground-state electron spin using polarized optical pulses, as well as two schemes for implementing a noise-free, broadband quantum-optical memory at near-telecom wavelengths in this material system. | 翻訳日:2023-08-23 15:08:59 公開日:2023-08-22 |
# テンソル主成分分析 Tensor Principal Component Analysis ( http://arxiv.org/abs/2212.12981v2 ) ライセンス: Link先を確認 | Andrii Babii, Eric Ghysels, Junsu Pan | (参考訳) 本稿では,高次元テンソルデータセットの解析手法を提案する。
テンソル因子モデルでは、高次元データセットを低ランク成分と慣性ノイズの和として記述し、パネルデータの従来の因子モデルを一般化する。
パネルデータに適用可能な従来のPCAを一般化したテンソル主成分分析(TPCA)と呼ばれる推定アルゴリズムを提案する。
このアルゴリズムは、テンソルを異なる次元に沿って行列列に展開し、展開された行列にPCAを適用する。
負荷および要因のTPCA推定器の整合性と漸近分布に関する理論的結果を提供する。
また,テンソル因子モデルにおける因子数の新しい検定法を提案する。
TPCAとテストはモンテカルロの実験で優れたパフォーマンスを示し、分類されたポートフォリオに適用されます。 In this paper, we develop new methods for analyzing high-dimensional tensor datasets. A tensor factor model describes a high-dimensional dataset as a sum of a low-rank component and an idiosyncratic noise, generalizing traditional factor models for panel data. We propose an estimation algorithm, called tensor principal component analysis (TPCA), which generalizes the traditional PCA applicable to panel data. The algorithm involves unfolding the tensor into a sequence of matrices along different dimensions and applying PCA to the unfolded matrices. We provide theoretical results on the consistency and asymptotic distribution for the TPCA estimator of loadings and factors. We also introduce a novel test for the number of factors in a tensor factor model. The TPCA and the test feature good performance in Monte Carlo experiments and are applied to sorted portfolios. | 翻訳日:2023-08-23 15:08:39 公開日:2023-08-22 |
# セマンティックスを駆使したコミュニケーション:テュートリアル・クム・サーベイ Semantics-Empowered Communication: A Tutorial-cum-Survey ( http://arxiv.org/abs/2212.08487v4 ) ライセンス: Link先を確認 | Zhilin Lu, Rongpeng Li, Kun Lu, Xianfu Chen, Ekram Hossain, Zhifeng Zhao, and Honggang Zhang | (参考訳) セマンティクス・エミュレーション・コミュニケーション(semcom, semantics-empowered communication, semcom)研究の興隆とともに、学界と産業の両方において、幅広い側面(理論、応用、メトリクス、実装など)に対する前例のない関心が高まっている。
本研究の目的は,背景分類学と研究分類学の両方に関する総合的な調査と,詳細な技術チュートリアルを提供することである。
具体的には、文献をレビューし、意味伝達における「何」と「なぜ」の質問に答えることから始める。
その後,semcomのエコシステムとして,歴史,理論,メトリクス,データセット,ツールキットを提示し,その上で研究の方向性を分類する。
さらに, 明示的かつ暗黙的な推論に基づく手法により, 重要な実現手法を分類し, それらがどのように進化し, 現代的コンテントとチャネルセマンティクスを用いたコミュニケーションに寄与するかを詳述する。
セムコムにおける最新の取り組みの見直しと要約に加えて、包括的で統一された視点から他のコミュニケーションレベル(例えば、従来のコミュニケーション)との関係について論じる。
その後、今後の開発や工業的応用を促進するために、セマンティックな正確性、堅牢性、大規模スケーラビリティを高めるための先進的な実践技術を強調します。
最後に,今後の研究機会に光を当てた技術的課題について論じる。 Along with the springing up of the semantics-empowered communication (SemCom) research, it is now witnessing an unprecedentedly growing interest towards a wide range of aspects (e.g., theories, applications, metrics and implementations) in both academia and industry. In this work, we primarily aim to provide a comprehensive survey on both the background and research taxonomy, as well as a detailed technical tutorial. Specifically, we start by reviewing the literature and answering the "what" and "why" questions in semantic transmissions. Afterwards, we present the ecosystems of SemCom, including history, theories, metrics, datasets and toolkits, on top of which the taxonomy for research directions is presented. Furthermore, we propose to categorize the critical enabling techniques by explicit and implicit reasoning-based methods, and elaborate on how they evolve and contribute to modern content & channel semantics-empowered communications. Besides reviewing and summarizing the latest efforts in SemCom, we discuss the relations with other communication levels (e.g., conventional communications) from a holistic and unified viewpoint. Subsequently, in order to facilitate future developments and industrial applications, we also highlight advanced practical techniques for boosting semantic accuracy, robustness, and large-scale scalability, just to mention a few. Finally, we discuss the technical challenges that shed light on future research opportunities. | 翻訳日:2023-08-23 15:08:28 公開日:2023-08-22 |
# LEAGUE:長距離マニピュレーションのための指導的スキル学習と抽象化 LEAGUE: Guided Skill Learning and Abstraction for Long-Horizon Manipulation ( http://arxiv.org/abs/2210.12631v2 ) ライセンス: Link先を確認 | Shuo Cheng and Danfei Xu | (参考訳) 日常的な人間の活動を支援するためには、ロボットは複雑な長距離タスクを解決し、新しい設定に一般化する必要がある。
近年の深層強化学習(RL)手法は完全自律学習において有望であるが,大規模環境における長期的な目標達成に苦慮している。
一方、タスク・アンド・モーション・プランニング(TAMP)のアプローチは、その強力な状態とアクションの抽象化のおかげで、長期にわたるタスクの解決と一般化に優れています。
しかし、彼らは事前に定義されたスキルセットを仮定し、現実のアプリケーションを制限する。
本研究では,これら2つのパラダイムのメリットを組み合わせて,LEAGUE(Learning and Abstraction with Guidance)というタスク計画とスキル学習フレームワークを提案する。
LEAGUEは、タスクプランナの象徴的なインターフェースを活用して、RLベースのスキル学習をガイドし、スキル再利用を可能にする抽象状態空間を作成する。
さらに重要なこととして、LEAGUEはタスク計画システムの操作スキルを学び、その能力と解決可能なタスクセットを継続的に拡大する。
LEAGUEを4つの課題領域上で評価し、LEAGUEがベースラインを大きなマージンで上回ることを示す。
また、学習スキルを再利用して、新しいタスク領域での学習を加速し、物理的なロボットプラットフォームに移行できることも示します。 To assist with everyday human activities, robots must solve complex long-horizon tasks and generalize to new settings. Recent deep reinforcement learning (RL) methods show promise in fully autonomous learning, but they struggle to reach long-term goals in large environments. On the other hand, Task and Motion Planning (TAMP) approaches excel at solving and generalizing across long-horizon tasks, thanks to their powerful state and action abstractions. But they assume predefined skill sets, which limits their real-world applications. In this work, we combine the benefits of these two paradigms and propose an integrated task planning and skill learning framework named LEAGUE (Learning and Abstraction with Guidance). LEAGUE leverages the symbolic interface of a task planner to guide RL-based skill learning and creates abstract state space to enable skill reuse. More importantly, LEAGUE learns manipulation skills in-situ of the task planning system, continuously growing its capability and the set of tasks that it can solve. We evaluate LEAGUE on four challenging simulated task domains and show that LEAGUE outperforms baselines by large margins. We also show that the learned skills can be reused to accelerate learning in new tasks domains and transfer to a physical robot platform. | 翻訳日:2023-08-23 15:07:48 公開日:2023-08-22 |
# 切断法によるフェルミオンガウス状態間のトレース距離 Trace distance between fermionic Gaussian states from a truncation method ( http://arxiv.org/abs/2210.11865v3 ) ライセンス: Link先を確認 | Jiaju Zhang and M. A. Rajabpour | (参考訳) 本稿では,フェルミオン系における2つのガウス状態間のトレース距離を決定する新しい切断法を提案する。
相関行列を特徴とする2つのフェルミオンガウス状態について、フォン・ノイマンのエントロピーとそれらの相関行列の相似性を考察し、相関行列を切断してトレース距離計算を容易にする。
本手法は2つの異なるシナリオにおいて顕著な有効性を示す。
第1のシナリオでは、状態はフォン・ノイマンのエントロピーが小さく、有限あるいは対数則エントロピーを示し、相関行列は、系の大きさに対して相関行列可換子のトレースノルムの有限または漸次非線形な増加によって特徴づけられる近交換挙動を示す。
第2のシナリオは、2つの状態がほぼ直交している状況を含み、最大正準値差は2に近づく。
本手法の性能を評価するために,様々な説得力のある例に適用する。
特に,iingとxxスピンチェーンの低振動固有状態間のサブシステムトレース距離を,非常に大きなサブシステムサイズでもうまく計算できた。
これは、サブシステムトレース距離がおよそ10のサブシステムに限られている既存の文献とは対照的である。
本手法では,数百のサイトからなるサブシステムに解析を拡張し,この分野の研究範囲を拡大する。 In this paper, we propose a novel truncation method for determining the trace distance between two Gaussian states in fermionic systems. For two fermionic Gaussian states, characterized by their correlation matrices, we consider the von Neumann entropies and dissimilarities between their correlation matrices and truncate the correlation matrices to facilitate trace distance calculations. Our method exhibits notable efficacy in two distinct scenarios. In the first scenario, the states have small von Neumann entropies, indicating finite or logarithmic-law entropy, while their correlation matrices display near-commuting behavior, characterized by a finite or gradual nonlinear increase in the trace norm of the correlation matrix commutator relative to the system size. The second scenario encompasses situations where the two states are nearly orthogonal, with a maximal canonical value difference approaching 2. To evaluate the performance of our method, we apply it to various compelling examples. Notably, we successfully compute the subsystem trace distances between low lying eigenstates of Ising and XX spin chains, even for significantly large subsystem sizes. This is in stark contrast to existing literature, where subsystem trace distances are limited to subsystems of approximately ten sites. With our truncation method, we extend the analysis to subsystems comprising several hundred sites, thus expanding the scope of research in this field. | 翻訳日:2023-08-23 15:07:27 公開日:2023-08-22 |
# CrowdGuard: フェデレーションラーニングにおけるフェデレーションバックドア検出 CrowdGuard: Federated Backdoor Detection in Federated Learning ( http://arxiv.org/abs/2210.07714v3 ) ライセンス: Link先を確認 | Phillip Rieger (1), Torsten Krau{\ss} (2), Markus Miettinen (1), Alexandra Dmitrienko (2), Ahmad-Reza Sadeghi (1) ((1) Technical University Darmstadt, (2) University of W\"urzburg) | (参考訳) Federated Learning(FL)は、複数のクライアントがローカルトレーニングデータを共有することなく、ディープニューラルネットワーク(DNN)を協調的にトレーニングできる、有望なアプローチである。
しかし、FLはバックドア(もしくは標的の毒殺)の攻撃を受けやすい。
これらの攻撃は、注意深い入力によって引き起こされる学習モデルに特定の行動を導入することで学習プロセスを妥協しようとする悪意のあるクライアントによって開始される。
既存のFLセーフガードには、さまざまな制限がある: それらは、特定のデータ分布に限定されるか、良質なモデルを除外したり、ノイズを追加したりすることで、グローバルモデル精度を低下させる。
本稿では,FLにおけるバックドア攻撃を効果的に軽減し,既存の手法の欠陥を克服する新しい防御機構であるCrowdGuardを提案する。
個々のモデルに対するクライアントのフィードバックを活用し、隠れた層におけるニューロンの挙動を分析し、反復的な刈り取りによって有毒なモデルを排除する。
CrowdGuardでは、サーバロケーションのスタッククラスタリングスキームを使用して、クライアントからのフィードバックに対するレジリエンスを高めている。
評価の結果、crowdguardは、iidおよび非iidデータ分布を含む様々なシナリオで100%真正率および真負率を達成した。
さらにcrowdguardは、保護されたモデルのオリジナルのパフォーマンスを維持しながら、適応的な敵に立ち向かう。
機密性を確保するため、CrowdGuardはクライアントとサーバの両方でTrusted Execution Environments(TEEs)を活用するセキュアでプライバシ保護アーキテクチャを使用している。 Federated Learning (FL) is a promising approach enabling multiple clients to train Deep Neural Networks (DNNs) collaboratively without sharing their local training data. However, FL is susceptible to backdoor (or targeted poisoning) attacks. These attacks are initiated by malicious clients who seek to compromise the learning process by introducing specific behaviors into the learned model that can be triggered by carefully crafted inputs. Existing FL safeguards have various limitations: They are restricted to specific data distributions or reduce the global model accuracy due to excluding benign models or adding noise, are vulnerable to adaptive defense-aware adversaries, or require the server to access local models, allowing data inference attacks. This paper presents a novel defense mechanism, CrowdGuard, that effectively mitigates backdoor attacks in FL and overcomes the deficiencies of existing techniques. It leverages clients' feedback on individual models, analyzes the behavior of neurons in hidden layers, and eliminates poisoned models through an iterative pruning scheme. CrowdGuard employs a server-located stacked clustering scheme to enhance its resilience to rogue client feedback. The evaluation results demonstrate that CrowdGuard achieves a 100% True-Positive-Rate and True-Negative-Rate across various scenarios, including IID and non-IID data distributions. Additionally, CrowdGuard withstands adaptive adversaries while preserving the original performance of protected models. To ensure confidentiality, CrowdGuard uses a secure and privacy-preserving architecture leveraging Trusted Execution Environments (TEEs) on both client and server sides. | 翻訳日:2023-08-23 15:06:23 公開日:2023-08-22 |
# 多孔質結晶材料の等価ネットワーク Equivariant Networks for Porous Crystalline Materials ( http://arxiv.org/abs/2304.01628v2 ) ライセンス: Link先を確認 | Marko Petkovi\'c, Pablo Romero-Marimon, Vlado Menkovski and Sofia Calero | (参考訳) 多孔質結晶材料は、分子貯蔵、ガス分離、炭素吸着のソリューションの開発において重要な役割を果たす可能性がある。
これらのソリューションには、特定の特性を持つ新しい材料を開発する必要がある。
このような多孔質材料の特性の推定には、古典的分子シミュレーションを用いた第一原理シミュレーションが用いられる。
これらの手法の計算複雑性は、潜在的素材の空間が広大なため、潜在的材料を高いスループットでスクリーニングする障壁となる。
データ駆動型手法、特にディープニューラルネットワークに基づく機械学習手法は、これらの物質の挙動のシミュレーションを著しくスケールする重要な機会を提供する。
しかし、これを効果的に実現するためには、深層学習モデルは結晶に存在する対称性を利用する必要がある。
結晶は、空間群に存在する特定の対称性を示す。
既存の結晶特性予測法は、制限的すぎる対称性の制約を持つか、単位セル間で対称性を組み込むのみである。
さらに、これらのモデルは結晶の多孔質構造を明示的にモデル化していない。
本稿では,結晶の単位セルの対称性をその構造に組み込んだモデルを開発し,その多孔質構造を明示的にモデル化する。
モルデナイトおよびZSM-5ゼオライトの異なる構成に対して,CO$_2$の吸着熱を予測し,本モデルを評価する。
本手法は, 既存の結晶特性予測法よりも優れた性能を示し, 細孔の内包によりより効率的なモデルが得られることを確認した。 Porous crystalline materials have the potential to play a key role in developing solutions for molecular storage, gas separation and carbon adsorption. For these solutions, we need to develop new materials with specific properties. Estimating the properties of such porous materials involves first principle simulation using classical molecular simulations. The computational complexity of these methods can be a barrier to high throughput screening of the potential materials as the space of possible materials is vast. Data-driven methods, specifically machine learning methods based on deep neural networks offer a significant opportunity to significantly scale the simulation of the behavior of these materials. However, to effectively achieve this the Deep Learning models need to utilize the symmetries present in the crystals. Crystals pose specific symmetries that are present in their space group. Existing methods for crystal property prediction either have symmetry constraints that are too restrictive or only incorporate symmetries between unit cells. In addition, these models do not explicitly model the porous structure of the crystal. In this paper, we develop a model which incorporates the symmetries of the unit cell of a crystal in its architecture and explicitly models the porous structure. We evaluate our model by predicting the heat of adsorption of CO$_2$ for different configurations of the Mordenite and ZSM-5 zeolites. Our results confirm that our method performs better than existing methods for crystal property prediction and that the inclusion of pores results in a more efficient model. | 翻訳日:2023-08-23 14:59:33 公開日:2023-08-22 |
# 振動交換相互作用を持つ量子ゲート Quantum Gates with Oscillating Exchange Interaction ( http://arxiv.org/abs/2303.18015v3 ) ライセンス: Link先を確認 | Daniel Q. L. Nguyen, Irina Heinz and Guido Burkard | (参考訳) スピン量子ビット間の2量子ビットゲートはしばしば長方形または断熱交換相互作用パルスを使用して行われ、czゲートとなる。
発振交換パルスは、CZゲートを実行するだけでなく、量子アルゴリズムを実行するための柔軟性を提供するiSWAPゲートも可能にする。
共振およびオフ共振交換パルスを用いた2量子ビットゲートの詳細な記述と、各ゲートの実行条件を与え、その性能を最先端の静的ゲートと比較する。
比較的低電荷雑音の場合、ゲートは依然として確実に動作し、従来のCZゲートと比較する。 Two-qubit gates between spin qubits are often performed using a rectangular or an adiabatic exchange interaction pulse resulting in a CZ gate. An oscillating exchange pulse not only performs a CZ gate, but also enables the iSWAP gate, which offers more flexibility to perform quantum algorithms. We provide a detailed description for two-qubit gates using resonant and off-resonant exchange pulses, give conditions for performing the respective gates, and compare their performance to the state-of-the-art static counterpart. We find that for relatively low charge noise the gates still perform reliably and compare to the conventional CZ gate. | 翻訳日:2023-08-23 14:59:14 公開日:2023-08-22 |
# adamおよびadamwオプティマイザによる深層ニューラルネットワークの一般化性能に及ぼす損失関数のリプシッツ性の影響 Lipschitzness Effect of a Loss Function on Generalization Performance of Deep Neural Networks Trained by Adam and AdamW Optimizers ( http://arxiv.org/abs/2303.16464v3 ) ライセンス: Link先を確認 | Mohammad Lashkari and Amin Gheibi | (参考訳) 最適化アルゴリズムに関するディープニューラルネットワークの一般化性能は、機械学習における主要な関心事の一つである。
このパフォーマンスはさまざまな要因に影響を受けます。
本稿では,損失関数のリプシッツ定数がAdamやAdamWによって得られた出力モデルの一般化誤差を減少させる重要な要因であることを理論的に証明する。
この結果は、最適化アルゴリズムがAdamまたはAdamWであるときに損失関数を選択するためのガイドラインとして使用できる。
また,現実的な環境下での理論的境界を評価するために,コンピュータビジョンにおける年齢推定問題を選択する。
一般化をよりよく評価するために、トレーニングとテストデータセットは異なる分布から引き出される。
実験により,リプシッツ定数が低く最大値の損失関数はadamやadamwによって訓練されたモデルの一般化を改善できることを示した。 The generalization performance of deep neural networks with regard to the optimization algorithm is one of the major concerns in machine learning. This performance can be affected by various factors. In this paper, we theoretically prove that the Lipschitz constant of a loss function is an important factor to diminish the generalization error of the output model obtained by Adam or AdamW. The results can be used as a guideline for choosing the loss function when the optimization algorithm is Adam or AdamW. In addition, to evaluate the theoretical bound in a practical setting, we choose the human age estimation problem in computer vision. For assessing the generalization better, the training and test datasets are drawn from different distributions. Our experimental evaluation shows that the loss function with a lower Lipschitz constant and maximum value improves the generalization of the model trained by Adam or AdamW. | 翻訳日:2023-08-23 14:59:00 公開日:2023-08-22 |
# 園芸ロボットの果実完成とポーズ推定を用いたパンオプティカルマッピング Panoptic Mapping with Fruit Completion and Pose Estimation for Horticultural Robots ( http://arxiv.org/abs/2303.08923v2 ) ライセンス: Link先を確認 | Yue Pan, Federico Magistri, Thomas L\"abe, Elias Marks, Claus Smitt, Chris McCool, Jens Behley and Cyrill Stachniss | (参考訳) 植物や果実の高分解能モニタリングは、農業の未来において重要な役割を担っている。
正確な3d情報は、自律収穫から正確な収量推定まで、農業における多様なロボット応用への道を開くことができる。
このような3D情報を取得することは、しばしば農業環境が繰り返し、散らかされ、果実や植物の部分的な観察可能性を考慮する必要があるため、簡単ではない。
本稿では,移動ロボットが構築した3次元マルチ解像度マップにおいて,果実の完全な3次元形状とそのポーズを共同で推定する問題に対処する。
そこで本研究では,関心領域を高解像度で表現するオンライン多解像度パノプティカルマッピングシステムを提案する。
本研究では,推定時に使用する一般的な果形表現をオクルージョン認識による微分可能レンダリングパイプラインと共に学習し,部分的な果形観察を完了させ,各果の7つのdofポーズを推定する。
本稿では,制御された環境と商業用温室の両方で評価した結果,提案アルゴリズムは既存手法よりも高い完成率とポーズ推定精度を示し,精度は41%,ポーズ推定精度は52%向上し,平均0.6秒の低い推定時間を維持した。
コードは、https://github.com/PRBonn/HortiMapping.comで入手できる。 Monitoring plants and fruits at high resolution play a key role in the future of agriculture. Accurate 3D information can pave the way to a diverse number of robotic applications in agriculture ranging from autonomous harvesting to precise yield estimation. Obtaining such 3D information is non-trivial as agricultural environments are often repetitive and cluttered, and one has to account for the partial observability of fruit and plants. In this paper, we address the problem of jointly estimating complete 3D shapes of fruit and their pose in a 3D multi-resolution map built by a mobile robot. To this end, we propose an online multi-resolution panoptic mapping system where regions of interest are represented with a higher resolution. We exploit data to learn a general fruit shape representation that we use at inference time together with an occlusion-aware differentiable rendering pipeline to complete partial fruit observations and estimate the 7 DoF pose of each fruit in the map. The experiments presented in this paper evaluated both in the controlled environment and in a commercial greenhouse, show that our novel algorithm yields higher completion and pose estimation accuracy than existing methods, with an improvement of 41% in completion accuracy and 52% in pose estimation accuracy while keeping a low inference time of 0.6s in average. Codes are available at: https://github.com/PRBonn/HortiMapping. | 翻訳日:2023-08-23 14:58:49 公開日:2023-08-22 |
# 適応Denoisingを用いたモンテカルロ経路追跡を用いたイベントベースカメラシミュレーション Event-based Camera Simulation using Monte Carlo Path Tracing with Adaptive Denoising ( http://arxiv.org/abs/2303.02608v2 ) ライセンス: Link先を確認 | Yuta Tsuji, Tatsuya Yatagawa, Hiroyuki Kubo, Shigeo Morishima | (参考訳) 本稿では, 合成3Dシーン上でのモンテカルロ経路追跡によるノイズの多いフレームからイベントベース映像を得るアルゴリズムを提案する。
ダイナミックビジョンセンサ(dvs)の性質を考えると、イベントベースのビデオのレンダリングは、ノイズの多い明るさ値から変化を検出するプロセスと見なすことができる。
重み付き局所回帰(wlr)に基づくデノイジング法を拡張し,各画素にデノイジングを適用するのではなく,輝度変化を検出する。
具体的には、事象発生の可能性を判定し、回帰を行うための回数を減らす閾値を導出する。
提案手法は,数個のパストレーシングサンプルから得られたノイズの多いビデオフレームに対して頑健である。
その効率にもかかわらず、本手法は全フレームを網羅的に denoise するアプローチと同等かそれ以上に機能する。 This paper presents an algorithm to obtain an event-based video from noisy frames given by physics-based Monte Carlo path tracing over a synthetic 3D scene. Given the nature of dynamic vision sensor (DVS), rendering event-based video can be viewed as a process of detecting the changes from noisy brightness values. We extend a denoising method based on a weighted local regression (WLR) to detect the brightness changes rather than applying denoising to every pixel. Specifically, we derive a threshold to determine the likelihood of event occurrence and reduce the number of times to perform the regression. Our method is robust to noisy video frames obtained from a few path-traced samples. Despite its efficiency, our method performs comparably to or even better than an approach that exhaustively denoises every frame. | 翻訳日:2023-08-23 14:58:27 公開日:2023-08-22 |
# 車両通信におけるqos予測のための機械学習:課題とソリューションアプローチ Machine Learning for QoS Prediction in Vehicular Communication: Challenges and Solution Approaches ( http://arxiv.org/abs/2302.11966v2 ) ライセンス: Link先を確認 | Alexandros Palaios, Christian L. Vielhaus, Daniel F. K\"ulzer, Cara Watermann, Rodrigo Hernangomez, Sanket Partani, Philipp Geuer, Anton Krause, Raja Sattiraju, Martin Kasparick, Gerhard Fettweis, Frank H. P. Fitzek, Hans D. Schotten, and Slawomir Stanczak | (参考訳) セルラーネットワークが第6世代へと進化するにつれて、機械学習はネットワークの能力を改善するための鍵となる技術と見なされる。
機械学習は予測システムの方法論を提供し、ネットワークを積極的にすることができる。
このネットワークの積極的な振る舞いは、例えばサービス要求の特定の品質を維持するために利用することができる。
サービスの予測品質では、特に自動車部門において、安全性とエンターテイメントに関連するさまざまな新しいユースケースが出現している。
そこで本研究では,ストリーミングアプリケーションや高精細度マッピングアプリケーションなど,スループットの最大予測について考察する。
本稿では、詳細なサンプリング手順、データセット特性の詳細な分析、提供結果の分割の影響、データ可用性など、あまり考慮されていない側面を強調する機械学習ワークフロー全体について論じる。
信頼できる機械学習モデルは、ライフサイクル中に多くの課題に直面する必要がある。
我々は、収集したデータの基盤となる特性をよりよく理解することで、機械学習技術に自信を構築することができることを強調する。
特徴工学と異なる分割がトレーニングプロセスに与える影響について論じ、ランダムな分割が2倍以上の性能を過大評価することを示した。
さらに,ネットワーク情報が最も有効であることが判明した多様な入力特徴集合を調査し,誤りを半分に削減した。
私たちの貢献の一部は、さまざまなシナリオにおける複数の機械学習モデルの検証です。
また、説明可能なAIを使用して、機械学習が明示的にプログラムされることなく、無線ネットワークの基本原理を学習できることを示す。
私たちのデータは、計測チームの完全なコントロール下にあるデプロイネットワークから収集され、さまざまな車両シナリオと無線環境をカバーしています。 As cellular networks evolve towards the 6th generation, machine learning is seen as a key enabling technology to improve the capabilities of the network. Machine learning provides a methodology for predictive systems, which can make networks become proactive. This proactive behavior of the network can be leveraged to sustain, for example, a specific quality of service requirement. With predictive quality of service, a wide variety of new use cases, both safety- and entertainment-related, are emerging, especially in the automotive sector. Therefore, in this work, we consider maximum throughput prediction enhancing, for example, streaming or high-definition mapping applications. We discuss the entire machine learning workflow highlighting less regarded aspects such as the detailed sampling procedures, the in-depth analysis of the dataset characteristics, the effects of splits in the provided results, and the data availability. Reliable machine learning models need to face a lot of challenges during their lifecycle. We highlight how confidence can be built on machine learning technologies by better understanding the underlying characteristics of the collected data. We discuss feature engineering and the effects of different splits for the training processes, showcasing that random splits might overestimate performance by more than twofold. Moreover, we investigate diverse sets of input features, where network information proved to be most effective, cutting the error by half. Part of our contribution is the validation of multiple machine learning models within diverse scenarios. We also use explainable AI to show that machine learning can learn underlying principles of wireless networks without being explicitly programmed. Our data is collected from a deployed network that was under full control of the measurement team and covered different vehicular scenarios and radio environments. | 翻訳日:2023-08-23 14:58:16 公開日:2023-08-22 |
# DTAAD:多変量時系列データにおける異常検出のためのデュアルTcnアテンションネットワーク DTAAD: Dual Tcn-Attention Networks for Anomaly Detection in Multivariate Time Series Data ( http://arxiv.org/abs/2302.10753v2 ) ライセンス: Link先を確認 | Lingrui Yu | (参考訳) 異常検出技術は、今日の産業用途において重要な多変量時系列データにおける効果的な異常検出と診断を可能にする。
しかしながら、異常タグの欠如、データの高次元の複雑さ、実際のハードウェアにおけるメモリボトルネック、高速な推論の必要性などにより、迅速かつ正確な位置決めが可能な異常検出システムの構築は難しい課題である。
本稿では,Transformer と Dual Temporal Convolutional Network (TCN) に基づく異常検出および診断モデル DTAAD を提案する。
我々の全体モデルは自己回帰モデル(AR)がオートエンコーダ(AE)構造を結合した統合設計であり、予測精度の向上と相関性の向上のためにスケーリング手法とフィードバック機構が導入される。
当社が開発したデュアルtcn-attention network(dta)は、超軽量モデルに属するベースライン実験において、トランスフォーマーエンコーダの1層のみを使用する。
6つの公開データセットに関する広範な実験により、DTAADは検出と診断の両方のパフォーマンスにおいて、現在の最先端のベースラインメソッドを超えていることが確認された。
具体的には、DTAADはF1スコアを8.38 %$に改善し、トレーニング時間をベースラインと比較して99 %$に短縮した。
コードとトレーニングスクリプトはGitHubでhttps://github.com/Yu-Lingrui/DTAADで公開されている。 Anomaly detection techniques enable effective anomaly detection and diagnosis in multi-variate time series data, which are of major significance for today's industrial applications. However, establishing an anomaly detection system that can be rapidly and accurately located is a challenging problem due to the lack of outlier tags, the high dimensional complexity of the data, memory bottlenecks in the actual hardware, and the need for fast reasoning. We have proposed an anomaly detection and diagnosis model -- DTAAD in this paper, based on Transformer, and Dual Temporal Convolutional Network(TCN). Our overall model will be an integrated design in which autoregressive model(AR) combines autoencoder(AE) structures, and scaling methods and feedback mechanisms are introduced to improve prediction accuracy and expand correlation differences. Constructed by us, the Dual TCN-Attention Network (DTA) only uses a single layer of Transformer encoder in our baseline experiment, that belongs to an ultra-lightweight model. Our extensive experiments on six publicly datasets validate that DTAAD exceeds current most advanced baseline methods in both detection and diagnostic performance. Specifically, DTAAD improved F1 scores by $8.38\%$, and reduced training time by $99\%$ compared to baseline. The code and training scripts are publicly on GitHub at https://github.com/Yu-Lingrui/DTAAD. | 翻訳日:2023-08-23 14:57:51 公開日:2023-08-22 |
# トンネル接合におけるジョセフソン高調波の観測 Observation of Josephson Harmonics in Tunnel Junctions ( http://arxiv.org/abs/2302.09192v2 ) ライセンス: Link先を確認 | Dennis Willsch, Dennis Rieger, Patrick Winkel, Madita Willsch, Christian Dickel, Jonas Krause, Yoichi Ando, Rapha\"el Lescanne, Zaki Leghtas, Nicholas T. Bronn, Pratiti Deb, Olivia Lanes, Zlatko K. Minev, Benedikt Dennig, Simon Geisert, Simon G\"unzler, S\"oren Ihssen, Patrick Paluch, Thomas Reisinger, Roudy Hanna, Jin Hee Bae, Peter Sch\"uffelgen, Detlev Gr\"utzmacher, Luiza Buimaga-Iarinca, Cristian Morari, Wolfgang Wernsdorfer, David P. DiVincenzo, Kristel Michielsen, Gianluigi Catelani, Ioan M. Pop | (参考訳) 超伝導量子プロセッサは、フォールトトレラント量子コンピューティングに到達するための長い道のりがある。
最も厄介な課題の1つは、固体デバイスにおいてユビキタスな多数の微小な自由度を変化させることである。
世界最大の量子プロセッサを含む最先端の技術は、酸化アルミニウム (alo$_x$) トンネルジョセフソン接合 (jjs) を非線形の源とし、理想化された純粋な$\sin\varphi$電流相関係 (c$\varphi$r) を仮定している。
しかし、この祝福された$\sin\varphi$ C$\varphi$RはAlO$_x$障壁における驚くほど低い透過性チャネルの極限でしか発生しない。
ここで、標準 c$\varphi$r は、様々なサンプルや実験室におけるトランスモン人工原子のエネルギースペクトルを正確に記述できないことを示す。
代わりに、不均一な alo$_x$ 障壁を通るトンネルのメソスコピックモデルは、より高いジョセフソン高調波からの%レベルの寄与を予測する。
これらをトランスモンハミルトニアンに含めることで、計算されたエネルギースペクトルと測定されたエネルギースペクトルの間で、桁違いに良い一致が得られる。
ジョセフソン調和の現実は量子ビットの設計を変換し、量子ゲートと読み出し、パラメトリック増幅と混合、フロッケ量子ビット、保護ジョセフソン量子ビットなどのモデルの再評価を促す。
例えば、技術者のジョセフソン・ハーモニクスは、非調和性を保ちながら、トランスモン量子ビットにおける電荷分散と関連する誤差を桁違いに低減できることを示す。 Superconducting quantum processors have a long road ahead to reach fault-tolerant quantum computing. One of the most daunting challenges is taming the numerous microscopic degrees of freedom ubiquitous in solid-state devices. State-of-the-art technologies, including the world's largest quantum processors, employ aluminum oxide (AlO$_x$) tunnel Josephson junctions (JJs) as sources of nonlinearity, assuming an idealized pure $\sin\varphi$ current-phase relation (C$\varphi$R). However, this celebrated $\sin\varphi$ C$\varphi$R is only expected to occur in the limit of vanishingly low-transparency channels in the AlO$_x$ barrier. Here we show that the standard C$\varphi$R fails to accurately describe the energy spectra of transmon artificial atoms across various samples and laboratories. Instead, a mesoscopic model of tunneling through an inhomogeneous AlO$_x$ barrier predicts %-level contributions from higher Josephson harmonics. By including these in the transmon Hamiltonian, we obtain orders of magnitude better agreement between the computed and measured energy spectra. The reality of Josephson harmonics transforms qubit design and prompts a reevaluation of models for quantum gates and readout, parametric amplification and mixing, Floquet qubits, protected Josephson qubits, etc. As an example, we show that engineered Josephson harmonics can reduce the charge dispersion and the associated errors in transmon qubits by an order of magnitude, while preserving anharmonicity. | 翻訳日:2023-08-23 14:57:28 公開日:2023-08-22 |
# h-解析とデータ並列物理インフォームドニューラルネットワーク h-analysis and data-parallel physics-informed neural networks ( http://arxiv.org/abs/2302.08835v2 ) ライセンス: Link先を確認 | Paul Escapil-Inchausp\'e and Gonzalo A. Ruz | (参考訳) 本稿では,複数のgpu(graphics processing unit)アーキテクチャを対象とした物理インフォーマントニューラルネットワーク(pinns)に着目し,物理インフォーマント機械学習(piml)スキームのデータ並列加速度について検討する。
多くのトレーニングポイントを必要とする高度なアプリケーション(例えば、複雑な高次元ドメインや非線形演算子、マルチフィジカルなど)のためのスケールロバストで高スループットなpimlモデルを開発するために、horovodトレーニングフレームワークによる$h$解析とデータ並列加速度に基づく新しいプロトコルを詳述する。
このプロトコルは、一般化エラーとトレインテストギャップに対する新しい収束境界によって裏付けられている。
高速化は実装が簡単で、トレーニングを損なわず、高効率で制御可能であることを証明し、汎用的なスケール・ロバストPIMLへの道を開いた。
複雑化を伴う広範な数値実験は、その頑健さと一貫性を示し、現実世界のシミュレーションに幅広い可能性をもたらす。 We explore the data-parallel acceleration of physics-informed machine learning (PIML) schemes, with a focus on physics-informed neural networks (PINNs) for multiple graphics processing units (GPUs) architectures. In order to develop scale-robust and high-throughput PIML models for sophisticated applications which may require a large number of training points (e.g., involving complex and high-dimensional domains, non-linear operators or multi-physics), we detail a novel protocol based on $h$-analysis and data-parallel acceleration through the Horovod training framework. The protocol is backed by new convergence bounds for the generalization error and the train-test gap. We show that the acceleration is straightforward to implement, does not compromise training, and proves to be highly efficient and controllable, paving the way towards generic scale-robust PIML. Extensive numerical experiments with increasing complexity illustrate its robustness and consistency, offering a wide range of possibilities for real-world simulations. | 翻訳日:2023-08-23 14:56:58 公開日:2023-08-22 |
# 導波路量子電磁力学における位相逆バンド理論 Topological inverse band theory in waveguide quantum electrodynamics ( http://arxiv.org/abs/2301.05481v2 ) ライセンス: Link先を確認 | Yongguan Ke, Jiaxuan Huang, Wenjie Liu, Yuri Kivshar, Chaohong Lee | (参考訳) 位相相は光-物質相互作用の基礎物理学と量子技術の新たな応用において重要な役割を果たす。
しかし、導波路QED系のトポロジカルバンド理論はエネルギーバンドが切断されるため、崩壊することが知られている。
本稿では、逆エネルギーバンドの概念を導入し、量子エミッタの配列を持つ導波路における解析的トポロジカル散乱を探索する。
位相相転移のリッチな構造、対称なスケールフリー局在、完全に平坦なバンド、対応するダークワニエ状態を明らかにする。
バルクエッジ対応は放射崩壊により部分的に破壊されているが、スケールフリーな局所状態は位相相の1つの逆エネルギー帯と自明な相の2つの逆バンドに分布していることが解析的に証明される。
驚くべきことに、散乱テクスチャの巻線数は、逆ラジアントバンドの位相位相と細胞数のオードビティの両方に依存する。
我々の研究は位相逆バンドの分野を解明し、光間相互作用の位相相に新しいビジョンをもたらす。 Topological phases play a crucial role in the fundamental physics of light-matter interaction and emerging applications of quantum technologies. However, the topological band theory of waveguide QED systems is known to break down, because the energy bands become disconnected. Here, we introduce a concept of the inverse energy band and explore analytically topological scattering in a waveguide with an array of quantum emitters. We uncover a rich structure of topological phase transitions, symmetric scale-free localization, completely flat bands, and the corresponding dark Wannier states. Although bulk-edge correspondence is partially broken because of radiative decay, we prove analytically that the scale-free localized states are distributed in a single inverse energy band in the topological phase and in two inverse bands in the trivial phase. Surprisingly, the winding number of the scattering textures depends on both the topological phase of inverse subradiant band and the odevity of the cell number. Our work uncovers the field of the topological inverse bands, and it brings a novel vision to topological phases in light-matter interactions. | 翻訳日:2023-08-23 14:56:39 公開日:2023-08-22 |
# SMT 2.0:階層および混合変数ガウスプロセスに焦点を当てた代理モデリングツールボックス SMT 2.0: A Surrogate Modeling Toolbox with a focus on Hierarchical and Mixed Variables Gaussian Processes ( http://arxiv.org/abs/2305.13998v2 ) ライセンス: Link先を確認 | Paul Saves and Remi Lafage and Nathalie Bartoli and Youssef Diouane and Jasper Bussemaker and Thierry Lefebvre and John T. Hwang and Joseph Morlier and Joaquim R. R. A. Martins | (参考訳) Surrogate Modeling Toolbox (SMT)はオープンソースのPythonパッケージで、一連のサロゲートモデリングメソッド、サンプリング技術、サンプル問題の集合を提供する。
本稿では、ツールボックスに大幅なアップグレードと新機能を導入したSMT 2.0について述べる。
このリリースには、混合変数サロゲートモデルと階層変数を扱う機能が追加されている。
これらのタイプの変数は、いくつかの代理モデリングアプリケーションでますます重要になっている。
SMT 2.0はサンプリング方法を拡張し、新しいサロゲートモデルを追加し、分散計算とKrigingのカーネルデリバティブを演算することでSMTを改善した。
このリリースには、ノイズを処理し、マルチフィデリティデータを使用する新しい機能も含まれている。
我々の知る限り、SMT 2.0は階層的および混合的な入力に対するサロゲートモデルを提案する最初のオープンソースサロゲートライブラリである。
このオープンソースソフトウェアは、新しいbsdライセンスの下で配布される。 The Surrogate Modeling Toolbox (SMT) is an open-source Python package that offers a collection of surrogate modeling methods, sampling techniques, and a set of sample problems. This paper presents SMT 2.0, a major new release of SMT that introduces significant upgrades and new features to the toolbox. This release adds the capability to handle mixed-variable surrogate models and hierarchical variables. These types of variables are becoming increasingly important in several surrogate modeling applications. SMT 2.0 also improves SMT by extending sampling methods, adding new surrogate models, and computing variance and kernel derivatives for Kriging. This release also includes new functions to handle noisy and use multifidelity data. To the best of our knowledge, SMT 2.0 is the first open-source surrogate library to propose surrogate models for hierarchical and mixed inputs. This open-source software is distributed under the New BSD license. | 翻訳日:2023-08-23 14:48:48 公開日:2023-08-22 |
# 因果性に基づく機械学習フェアネスのトレードオフ分析 Causality-Aided Trade-off Analysis for Machine Learning Fairness ( http://arxiv.org/abs/2305.13057v2 ) ライセンス: Link先を確認 | Zhenlan Ji, Pingchuan Ma, Shuai Wang, Yanhui Li | (参考訳) 機械学習(ML)の公正性向上への関心が高まっている。
公平性改善手法が増えているにもかかわらず、公平性改善手法を適用する際にmlパイプラインで考慮される要因間のトレードオフの体系的な理解が欠如している。
この理解は、開発者が公正なMLサービスの提供に関して情報的な決定をする上で不可欠である。
それでも、複数のフェアネスパラメータやその他の重要なメトリクスが絡み合っていて、互いに衝突している場合、トレードオフを分析することは極めて困難です。
本稿では,MLパイプラインにおける公平度パラメータと他の重要な指標とのトレードオフを分析するための原理的手法として因果解析を用いる。
因果関係分析を実際的かつ効果的に行うために, 正確な因果関係の発見を容易にする一連のドメイン固有最適化と, 確立された因果関係推論法に基づくトレードオフ解析のための統一的インターフェースを提案する。
本研究では,3つの実世界のデータセットを用いて,フェアネス改善手法を用いた総合的な実証研究を行う。
本研究は,fair mlのユーザおよび開発者に対して有効な提案を行う。
さらに,より倫理的かつ社会的に責任を負うai技術への道を開くために,最適公平性向上手法を選択するためのアプローチの多岐にわたる利用方法を示す。 There has been an increasing interest in enhancing the fairness of machine learning (ML). Despite the growing number of fairness-improving methods, we lack a systematic understanding of the trade-offs among factors considered in the ML pipeline when fairness-improving methods are applied. This understanding is essential for developers to make informed decisions regarding the provision of fair ML services. Nonetheless, it is extremely difficult to analyze the trade-offs when there are multiple fairness parameters and other crucial metrics involved, coupled, and even in conflict with one another. This paper uses causality analysis as a principled method for analyzing trade-offs between fairness parameters and other crucial metrics in ML pipelines. To ractically and effectively conduct causality analysis, we propose a set of domain-specific optimizations to facilitate accurate causal discovery and a unified, novel interface for trade-off analysis based on well-established causal inference methods. We conduct a comprehensive empirical study using three real-world datasets on a collection of widelyused fairness-improving techniques. Our study obtains actionable suggestions for users and developers of fair ML. We further demonstrate the versatile usage of our approach in selecting the optimal fairness-improving method, paving the way for more ethical and socially responsible AI technologies. | 翻訳日:2023-08-23 14:48:34 公開日:2023-08-22 |
# DClEVerNet:大規模ネットワーク施設における効率的なEV充電スケジューリングのためのDeep Combinatorial Learning DClEVerNet: Deep Combinatorial Learning for Efficient EV Charging Scheduling in Large-scale Networked Facilities ( http://arxiv.org/abs/2305.11195v2 ) ライセンス: Link先を確認 | Bushra Alshehhi, Areg Karapetyan, Khaled Elbassioni, Sid Chi-Kin Chau, and Majid Khonji | (参考訳) 輸送の電化により、電気自動車(EV)の上昇は配電網を著しく圧迫し、性能が低下し安定性が損なわれる可能性がある。
これらの新しい負荷を低コストで処理するために、現代の電力グリッドは、スケーラブルで効率的な方法でEV充電スケジューリングを最適化できるコーディネートまたは'smart''の充電戦略を必要とする。
この観点から,本研究は大規模ネットワーク型ev充電ステーションの予約管理プログラムに焦点を当てている。
ネットワークの利用可能な電力容量とステーションの占有限度を考慮しつつ、EV利用者の総福祉利益を最大化する時間結合二元最適化問題を定式化する。
解の質を高く保ちながら大規模に課題に取り組むために,ディープラーニングと近似アルゴリズムの分野からのテクニックを組み合わせたデータ駆動最適化フレームワークを導入する。
このフレームワークの重要な要素は、トレーニングセットに含まれるものよりもはるかに大きい問題サイズへの直接外挿を可能にするニューラルネットワークの新しい入出力処理スキームである。
合成および実世界のデータトレースに基づく大規模数値シミュレーションにより、2つの代表的なスケジューリングアルゴリズムに対する提案手法の有効性と優位性を検証する。
最後に、提案フレームワークの即時拡張をいくつかリストアップし、さらなる調査の展望を概説することで、コントリビューションをまとめます。 With the electrification of transportation, the rising uptake of electric vehicles (EVs) might stress distribution networks significantly, leaving their performance degraded and stability jeopardized. To accommodate these new loads cost-effectively, modern power grids require coordinated or ``smart'' charging strategies capable of optimizing EV charging scheduling in a scalable and efficient fashion. With this in view, the present work focuses on reservation management programs for large-scale, networked EV charging stations. We formulate a time-coupled binary optimization problem that maximizes EV users' total welfare gain while accounting for the network's available power capacity and stations' occupancy limits. To tackle the problem at scale while retaining high solution quality, a data-driven optimization framework combining techniques from the fields of Deep Learning and Approximation Algorithms is introduced. The framework's key ingredient is a novel input-output processing scheme for neural networks that allows direct extrapolation to problem sizes substantially larger than those included in the training set. Extensive numerical simulations based on synthetic and real-world data traces verify the effectiveness and superiority of the presented approach over two representative scheduling algorithms. Lastly, we round up the contributions by listing several immediate extensions to the proposed framework and outlining the prospects for further exploration. | 翻訳日:2023-08-23 14:48:14 公開日:2023-08-22 |
# 2d/3d医用画像登録のためのパラメータ初期化による埋め込み特徴類似度最適化 Embedded Feature Similarity Optimization with Specific Parameter Initialization for 2D/3D Medical Image Registration ( http://arxiv.org/abs/2305.06252v3 ) ライセンス: Link先を確認 | Minheng Chen, Zhirun Zhang, Shuheng Gu, Youyong Kong | (参考訳) 2次元/3次元医用画像登録のための組込みパラメータ初期化(SOPI)による特徴類似性最適化は、次元ミスマッチ、重計算負荷、黄金評価基準の欠如など、最も困難な問題である。
我々が設計したフレームワークには、初期化ポーズパラメータを効率的に選択するパラメータ仕様モジュールと、画像を整列する微登録モジュールが含まれる。
提案フレームワークは, 特殊な訓練手法を用いた新しい複合接続エンコーダを用いて, マルチスケールの特徴を抽出する。
本手法を社内のct/x線データを用いた学習法と最適化法の両方と比較し,性能評価を行う。
本実験により,本手法は登録性能を向上し,既存の手法よりも精度と実行時間に優れることを示した。
また,初期ポーズ推定器として提案手法の可能性を示す。
コードはhttps://github.com/m1nhengChen/SOPIで公開されている。 We present a novel deep learning-based framework: Embedded Feature Similarity Optimization with Specific Parameter Initialization (SOPI) for 2D/3D medical image registration which is a most challenging problem due to the difficulty such as dimensional mismatch, heavy computation load and lack of golden evaluation standard. The framework we design includes a parameter specification module to efficiently choose initialization pose parameter and a fine-registration module to align images. The proposed framework takes extracting multi-scale features into consideration using a novel composite connection encoder with special training techniques. We compare the method with both learning-based methods and optimization-based methods on a in-house CT/X-ray dataset as well as simulated data to further evaluate performance. Our experiments demonstrate that the method in this paper has improved the registration performance, and thereby outperforms the existing methods in terms of accuracy and running time. We also show the potential of the proposed method as an initial pose estimator. The code is available at https://github.com/m1nhengChen/SOPI | 翻訳日:2023-08-23 14:47:33 公開日:2023-08-22 |
# 事前学習されたコード言語モデルにおける分散一般化のための連続学習の利用について On the Usage of Continual Learning for Out-of-Distribution Generalization in Pre-trained Language Models of Code ( http://arxiv.org/abs/2305.04106v2 ) ライセンス: Link先を確認 | Martin Weyssow, Xin Zhou, Kisub Kim, David Lo and Houari Sahraoui | (参考訳) 事前学習型言語モデル (PLM) は、2段階の事前学習と微調整の手法を利用して、コードに関する一般的な知識を取得し、様々な下流タスクを専門化する。
しかし、ソフトウェアコードベースの動的な性質は、plmの有効性と堅牢性に挑戦する。
特に、現実的なシナリオでは、事前トレーニングとテストデータの分散、すなわち分散シフトの間に大きな違いが生じ、下流タスクにおけるPLMのパフォーマンスが低下する可能性がある。
本稿では,時間とともに分散が変化するソフトウェアデータにコードのPLMを適用することの必要性を強調する。
この研究の動機は、ソフトウェア進化シナリオに従って微調整データが時間とともに進化する非定常環境におけるPLMを考えることである。
具体的には、新しい、目に見えないAPIを含むプログラムのストリームからモデルを学習する必要があるシナリオを設計する。
GPT2デコーダとRoBERTaエンコーダという2つの広く使われているPLMアーキテクチャを,APIコールとAPI使用率予測という2つの下流タスクで検討した。
先行研究で最も一般的に使用される微調整テクニックは,apiの動的な性質を扱うのに十分な堅牢性がないため,事前に獲得した知識,すなわち破滅的な忘れ方を失うことを実証する。
これらの課題に対処するため,リプレイベースおよび正規化ベースの手法を含む5つの連続学習手法を実装した。
以上より,これらの簡易な手法を用いることで,下流タスクにおけるplmの破壊的欠落を効果的に軽減し,同等あるいは優れた性能を実現できることを示す。 Pre-trained language models (PLMs) have become a prevalent technique in deep learning for code, utilizing a two-stage pre-training and fine-tuning procedure to acquire general knowledge about code and specialize in a variety of downstream tasks. However, the dynamic nature of software codebases poses a challenge to the effectiveness and robustness of PLMs. In particular, world-realistic scenarios potentially lead to significant differences between the distribution of the pre-training and test data, i.e., distribution shift, resulting in a degradation of the PLM's performance on downstream tasks. In this paper, we stress the need for adapting PLMs of code to software data whose distribution changes over time, a crucial problem that has been overlooked in previous works. The motivation of this work is to consider the PLM in a non-stationary environment, where fine-tuning data evolves over time according to a software evolution scenario. Specifically, we design a scenario where the model needs to learn from a stream of programs containing new, unseen APIs over time. We study two widely used PLM architectures, i.e., a GPT2 decoder and a RoBERTa encoder, on two downstream tasks, API call and API usage prediction. We demonstrate that the most commonly used fine-tuning technique from prior work is not robust enough to handle the dynamic nature of APIs, leading to the loss of previously acquired knowledge i.e., catastrophic forgetting. To address these issues, we implement five continual learning approaches, including replay-based and regularization-based methods. Our findings demonstrate that utilizing these straightforward methods effectively mitigates catastrophic forgetting in PLMs across both downstream tasks while achieving comparable or superior performance. | 翻訳日:2023-08-23 14:47:15 公開日:2023-08-22 |
# クロノシンボリック学習:シンボリック推論と帰納的学習を用いた効率的なchc解法 Chronosymbolic Learning: Efficient CHC Solving with Symbolic Reasoning and Inductive Learning ( http://arxiv.org/abs/2305.01206v3 ) ライセンス: Link先を確認 | Ziyan Luo and Xujie Si | (参考訳) Solving Constrained Horn Clauses (CHCs)は、幅広い検証と分析タスクの背後にある根本的な課題である。
データ駆動型アプローチは、さまざまなヒューリスティックを作成、チューニングする手作業で苦労することなく、CHC解決を改善する上で非常に有望である。
しかし、データ駆動型CHCソルバとシンボリック推論ベースのソルバの間には大きなパフォーマンスギャップが存在する。
本研究では,記号情報と数値データポイントを統一し,CHCシステムを効率的に解くための,シンプルで効果的なフレームワークであるChronosymbolic Learningを開発する。
また、データ駆動学習とBMCスタイルの推論を併用したクロノシンボリック学習の簡単な例を示す。
その単純さにもかかわらず、実験結果はツールの有効性と堅牢性を示している。
これは288のベンチマークからなるデータセット上で、非線形整数演算を持つ多くのインスタンスを含む最先端のCHCソルバより優れている。 Solving Constrained Horn Clauses (CHCs) is a fundamental challenge behind a wide range of verification and analysis tasks. Data-driven approaches show great promise in improving CHC solving without the painstaking manual effort of creating and tuning various heuristics. However, a large performance gap exists between data-driven CHC solvers and symbolic reasoning-based solvers. In this work, we develop a simple but effective framework, "Chronosymbolic Learning", which unifies symbolic information and numerical data points to solve a CHC system efficiently. We also present a simple instance of Chronosymbolic Learning with a data-driven learner and a BMC-styled reasoner. Despite its great simplicity, experimental results show the efficacy and robustness of our tool. It outperforms state-of-the-art CHC solvers on a dataset consisting of 288 benchmarks, including many instances with non-linear integer arithmetics. | 翻訳日:2023-08-23 14:46:44 公開日:2023-08-22 |
# SAFE: Shard Graphsを使った機械学習 SAFE: Machine Unlearning With Shard Graphs ( http://arxiv.org/abs/2304.13169v2 ) ライセンス: Link先を確認 | Yonatan Dukler, Benjamin Bowman, Alessandro Achille, Aditya Golatkar, Ashwin Swaminathan, Stefano Soatto | (参考訳) 本稿では,学習モデルからトレーニングサンプルの影響を最小化しつつ,さまざまなデータ集合に大規模モデルを適応させる手法であるSynergy Aware Forgetting Ensemble (SAFE)を提案する。
このプロセスは選択的忘れまたはアンラーニングとしても知られ、データセットをシャードに分割し、それぞれに完全に独立したモデルをトレーニングし、結果のモデルをアンセンブルすることで実行されることが多い。
シャード数の増加は、期待されるコストを減少させるが、独立したモデルトレーニング中にサンプル間の相乗的情報が失われるため、推論コストを増加させ、モデルの最終的な精度を低下させる。
個々のシャードを独立したものとして扱うのではなく、SAFEはシャードグラフの概念を導入し、これは訓練中に他のシャードから限られた情報を取り込むことを可能にし、予想される忘れるコストをわずかに増加させ、精度を著しく向上させる。
SAFEは軽量なアダプタシステムを使用し、ほとんどの計算を再利用しながらトレーニングすることができる。
これにより、SAFEは現在の最先端の方法(つまり、忘れることのコストを削減)よりも小さなシャードでトレーニングできると同時に、精密なコンピュータビジョンデータセットで実証的に示すように、高い精度を維持することができる。 We present Synergy Aware Forgetting Ensemble (SAFE), a method to adapt large models on a diverse collection of data while minimizing the expected cost to remove the influence of training samples from the trained model. This process, also known as selective forgetting or unlearning, is often conducted by partitioning a dataset into shards, training fully independent models on each, then ensembling the resulting models. Increasing the number of shards reduces the expected cost to forget but at the same time it increases inference cost and reduces the final accuracy of the model since synergistic information between samples is lost during the independent model training. Rather than treating each shard as independent, SAFE introduces the notion of a shard graph, which allows incorporating limited information from other shards during training, trading off a modest increase in expected forgetting cost with a significant increase in accuracy, all while still attaining complete removal of residual influence after forgetting. SAFE uses a lightweight system of adapters which can be trained while reusing most of the computations. This allows SAFE to be trained on shards an order-of-magnitude smaller than current state-of-the-art methods (thus reducing the forgetting costs) while also maintaining high accuracy, as we demonstrate empirically on fine-grained computer vision datasets. | 翻訳日:2023-08-23 14:46:12 公開日:2023-08-22 |
# 物理制約深層学習によるsipmモジュール型検出器のラベルフリータイミング解析 Label-free timing analysis of SiPM-based modularized detectors with physics-constrained deep learning ( http://arxiv.org/abs/2304.11930v3 ) ライセンス: Link先を確認 | Pengcheng Ai, Le Xiao, Zhi Deng, Yi Wang, Xiangming Sun, Guangming Huang, Dong Wang, Yulei Li, Xinchi Ran | (参考訳) パルスタイミングは核実験において重要な話題であり、高エネルギー物理学から放射線イメージングまで幅広い応用がある。
高速アナログ-デジタルコンバータはますます発展し、アクセスしやすくなっているが、核検出器信号処理におけるその潜在的な用途とメリットは、部分的には十分に理解され、利用されていないタイミングアルゴリズムのため、まだ不明である。
本稿では,イベントデータのラベル付けを必要とせず,モジュール化検出器のタイミング解析を行うための深層学習に基づく新しい手法を提案する。
固有時間相関を利用して、特別に設計された正規化器を用いたラベルフリー損失関数を形成し、ニューラルネットワークの有意義かつ正確なマッピング関数へのトレーニングを監督する。
本手法が求める最適関数の存在を数学的に証明し,モデルの学習と校正のための体系的アルゴリズムを与える。
提案手法はシリコン光増倍器(sipm)を主トランスデューサとして2つの実験データセットで検証する。
玩具実験では、ニューラルネットワークモデルは8.8 psの単一チャネル時間分解能を達成し、データセットのコンセプトドリフトに対して堅牢性を示す。
電磁カロリメータ実験では、いくつかのニューラルネットワークモデル(fc、cnn、lstm)が基礎となる物理的制約への適合性を示し、従来の手法に対する性能を判定するためにテストされている。
総じて,提案手法は理想的あるいはうるさい実験条件において良好に動作し,波形サンプルからの時間情報を良好かつ正確に回収する。 Pulse timing is an important topic in nuclear instrumentation, with far-reaching applications from high energy physics to radiation imaging. While high-speed analog-to-digital converters become more and more developed and accessible, their potential uses and merits in nuclear detector signal processing are still uncertain, partially due to associated timing algorithms which are not fully understood and utilized. In this paper, we propose a novel method based on deep learning for timing analysis of modularized detectors without explicit needs of labelling event data. By taking advantage of the intrinsic time correlations, a label-free loss function with a specially designed regularizer is formed to supervise the training of neural networks towards a meaningful and accurate mapping function. We mathematically demonstrate the existence of the optimal function desired by the method, and give a systematic algorithm for training and calibration of the model. The proposed method is validated on two experimental datasets based on silicon photomultipliers (SiPM) as main transducers. In the toy experiment, the neural network model achieves the single-channel time resolution of 8.8 ps and exhibits robustness against concept drift in the dataset. In the electromagnetic calorimeter experiment, several neural network models (FC, CNN and LSTM) are tested to show their conformance to the underlying physical constraint and to judge their performance against traditional methods. In total, the proposed method works well in either ideal or noisy experimental condition and recovers the time information from waveform samples successfully and precisely. | 翻訳日:2023-08-23 14:45:44 公開日:2023-08-22 |
# エンタングルフェルミオン対の崩壊とポストセレクション Decay of entangled fermion pairs with post-selection ( http://arxiv.org/abs/2308.07412v2 ) ライセンス: Link先を確認 | J. A. Aguilar-Saavedra | (参考訳) スピンエンタングル状態における1対の不安定フェルミオンを考える。
あるフェルミオン上のスピン測定は、スターン・ゲルラッハの実験または同様の方法で、既に崩壊したとしても、そのパートナーのスピン状態を決定する。
この後選択効果は、スカラー粒子の崩壊または広い角度での衝突によって生じる、最大エンタングル状態のミューオン対を用いて実験的にアクセスすることができる。 We consider a pair of unstable fermions in a spin-entangled state. A spin measurement on one fermion, with a Stern-Gerlach experiment or similar, determines the spin state of its partner - even if it already has decayed. This post-selection effect would be experimentally accessible using muon pairs in a maximally-entangled state, produced either in the decay of a scalar particle, or in $e^+ e^-$ collisions at wide angles. | 翻訳日:2023-08-23 14:38:27 公開日:2023-08-22 |
# 変圧器を用いた大規模ヘテロジニアス・フェデレーション・ラーニングの展開 The Prospect of Enhancing Large-Scale Heterogeneous Federated Learning with Transformers ( http://arxiv.org/abs/2308.03945v2 ) ライセンス: Link先を確認 | Yulan Gao, Zhaoxiang Hou, Chengyi Yang, Zengxiang Li, Han Yu | (参考訳) フェデレーション学習(FL)は、分散データ所有者間でAIモデルの協調トレーニングを可能にすることで、データプライバシの懸念に対処する。
FLの広範な採用は、データ不均一性と大量のデータ所有者が関与する基本的な課題に直面します。
本稿では, 変圧器を用いたflモデルの一般化とパーソナライゼーションを実現するための展望について検討する。
FLとTransformer、ResNet、パーソナライズされたResNetベースのFLアプローチを様々なシナリオで比較実験する。
これらの実験では、大規模なヘテロジニアスFLタスクにおいて、トランスフォーマーがディープニューラルネットワークよりも有利であることを示すために、データ所有者の数が異なる。
さらに,cka(centered kernel alignment)表現の異なるレイヤとflモデル間の類似性を比較することにより,トランスフォーマティブの性能を解析し,その実現可能性の背景にある理由について考察する。 Federated learning (FL) addresses data privacy concerns by enabling collaborative training of AI models across distributed data owners. Wide adoption of FL faces the fundamental challenges of data heterogeneity and the large scale of data owners involved. In this paper, we investigate the prospect of Transformer-based FL models for achieving generalization and personalization in this setting. We conduct extensive comparative experiments involving FL with Transformers, ResNet, and personalized ResNet-based FL approaches under various scenarios. These experiments consider varying numbers of data owners to demonstrate Transformers' advantages over deep neural networks in large-scale heterogeneous FL tasks. In addition, we analyze the superior performance of Transformers by comparing the Centered Kernel Alignment (CKA) representation similarity across different layers and FL models to gain insight into the reasons behind their promising capabilities. | 翻訳日:2023-08-23 14:38:18 公開日:2023-08-22 |
# ボース=アインシュタイン統計の古典的導出 Classical derivation of Bose-Einstein statistics ( http://arxiv.org/abs/2308.02069v2 ) ライセンス: Link先を確認 | Paul Tangney | (参考訳) 量子力学を起こさなくても、熱平衡では、相互作用しない調和振動子の集合におけるエネルギーの観測分布はボース=アインシュタイン分布であり、未知の定数である${h_?
は、Planckの定数の代わりに$h$である。
私は、ボース・アインシュタイン分布の導出を可能にする古典的独立オスシレーター・ハミルトニアンの特性を同定し、理想気体のような他の古典的物理系は、これらの特徴で標準的に変換できるハミルトニアンを持っていることを指摘した。
もし${h_?
=h}$ は、この作品の暗示の1つとして、
(i)黒体の実験的に観測されたスペクトルと、光が有界媒質の機械的波動であった場合の期待とに差はない。
(ii)結晶の熱容量の実験的に観測された温度依存性と古典格子波の期待値との間には差がない。
(iii) 質量粒子のクラスターが十分に冷たくなれば、その振動エネルギーのほとんどが最低周波の正常モードによって保持されるという古典的な期待が持たれる。
したがって、ある温度以下では、その自由度のうちの1つ以外はほとんど活動せず、ボース=アインシュタイン凝縮体である。 Without invoking quantum mechanics I prove that, at thermal equilibrium, the observed distribution of energy among any set of non-interacting harmonic oscillators is a Bose-Einstein distribution, albeit with an unknown constant, ${h_?}$, in place of Planck's constant, $h$. I identify characteristics of the classical independent-oscillator Hamiltonian that make my derivation of the Bose-Einstein distribution possible, and I point out that other classical physical systems, such as an ideal gas, have Hamiltonians that can be transformed canonically into forms with these characteristics. If ${h_?=h}$, among the implications of this work are that (i) there is no discrepancy between the experimentally-observed spectrum of a blackbody and what should be expected if light was a mechanical wave in a bounded medium; (ii) there is no discrepancy between the experimentally-observed temperature dependence of a crystal's heat capacity and what should be expected of classical lattice waves; and (iii) when a cluster of massive particles is cold enough, the classical expectation should be that almost all of its vibrational energy is possessed by its lowest-frequency normal mode. Therefore, below a certain temperature, all but one of its degrees of freedom are almost inactive and it is a Bose-Einstein condensate. | 翻訳日:2023-08-23 14:37:59 公開日:2023-08-22 |
# 多くの体局在系におけるエルゴード包含 Ergodic inclusions in many body localized systems ( http://arxiv.org/abs/2308.01350v2 ) ライセンス: Link先を確認 | Luis Colmenarez, David J. Luitz and Wojciech De Roeck | (参考訳) 本研究では,多体局所化システムにおけるエルゴード包有物の効果について検討する。
この目的のために、強障害において多体局所化されるランダム場ハイゼンベルク連鎖を考察し、ランダム行列ハミルトンによりモデル化されたエルゴードバブルに結合する。
最近の理論的研究は、エルゴード気泡が中間障害強度と有限サイズで明らかな局所化位相を不安定化することを示唆している。
我々は, 気泡の挿入に対する局所的な熱の応答を数値的に解析することにより, これを暫定的に確認する。
様々な中間障害強度に対して、この反応は泡までの距離が増加するにつれて非常にゆっくり、あるいは全く崩壊する。
これは、これらの障害強度において、システムは熱力学の限界で非局在化されていることを示唆している。
しかし、残念ながら数値は曖昧ではなく、アーティファクトを除外することはできない。 We investigate the effect of ergodic inclusions in putative many-body localized systems. To this end, we consider the random field Heisenberg chain, which is many-body localized at strong disorder and we couple it to an ergodic bubble, modeled by a random matrix Hamiltonian. Recent theoretical work suggests that the ergodic bubble destabilizes the apparent localized phase at intermediate disorder strength and finite sizes. We tentatively confirm this by numerically analyzing the response of the local thermality, quantified by one-site purities, to the insertion of the bubble. For a range of intermediate disorder strengths, this response decays very slowly, or not at all, with increasing distance to the bubble. This suggests that at those disorder strengths, the system is delocalized in the thermodynamic limit. However, the numerics is unfortunately not unambiguous and we cannot definitely rule out artefacts. | 翻訳日:2023-08-23 14:37:36 公開日:2023-08-22 |
# 自律ペイロード熱制御 Autonomous Payload Thermal Control ( http://arxiv.org/abs/2307.15438v2 ) ライセンス: Link先を確認 | Alejandro D. Mousist | (参考訳) 小さな衛星では、熱制御機器、科学機器、電子部品のスペースは少ない。
さらに、電子機器の近さは、温度を適切に制御できず、部品寿命とミッション性能を低下させるリスクを伴い、電力散逸を困難にする。
この課題に対処するために, ソフト・アクター・クリティカル・アルゴリズムを用いた深層強化学習ベースのフレームワークである, ボード衛星のインテリジェンス向上を生かして, 搭載した熱制御ポリシーを学習する手法を提案する。
このフレームワークは、単純でシミュレートされた環境と、将来のIMAGIN-eミッションでISSにホストされる実際のスペースエッジ処理コンピュータの両方で評価される。
実験の結果,提案フレームワークは従来の熱制御システムを補完して,運用範囲の温度を維持するためにペイロード処理能力の制御を学べることがわかった。 In small satellites there is less room for heat control equipment, scientific instruments, and electronic components. Furthermore, the near proximity of the electronics makes power dissipation difficult, with the risk of not being able to control the temperature appropriately, reducing component lifetime and mission performance. To address this challenge, taking advantage of the advent of increasing intelligence on board satellites, a deep reinforcement learning based framework that uses Soft Actor-Critic algorithm is proposed for learning the thermal control policy onboard. The framework is evaluated both in a naive simulated environment and in a real space edge processing computer that will be shipped in the future IMAGIN-e mission and hosted in the ISS. The experiment results show that the proposed framework is able to learn to control the payload processing power to maintain the temperature under operational ranges, complementing traditional thermal control systems. | 翻訳日:2023-08-23 14:37:23 公開日:2023-08-22 |
# 生成インパインティングによる高画質画像再構成のための表現型保存メトリック設計 Phenotype-preserving metric design for high-content image reconstruction by generative inpainting ( http://arxiv.org/abs/2307.14436v3 ) ライセンス: Link先を確認 | Vaibhav Sharma, Artur Yakimovich | (参考訳) 過去数十年間、高濃度自動顕微鏡は、表現型薬物スクリーニングとシステム生物学応用の汎用性を活用した大量の画像ベースのデータを提供する能力を示した。
しかし、画像に基づくデータセットのサイズが大きくなるにつれて、画像中の画像やサンプル作成物の存在を人間が制御、回避、克服することは不可能になった。
機械学習やディープラーニングのような新しい技術は、生成的画像のインペイントによってこれらの欠点に対処する可能性があるが、センシティブな研究データに適用すると、望ましくない画像操作のコストがかかる可能性がある。
望ましくない操作は、いくつかの人工的なニューラルネットワークが引き起こされる神経幻覚のような現象によって引き起こされる可能性がある。
そこで本研究では, ラベル付き培養細胞の高濃度蛍光顕微鏡による画像修復法の評価を行った。
deepfill v2やedge connectのようなアーキテクチャは、比較的少ないデータで微調整することで顕微鏡画像を忠実に復元できる。
以上の結果から,復元すべき領域は形状よりも重要であることが示唆された。
さらに,復元の質を制御するために,新しい表現型保存メトリックデザイン戦略を提案する。
この戦略では、細胞核のような修復された生物学的表現型のサイズと数を定量化し、望ましくない操作を罰する。
このアプローチの設計原則は、他のアプリケーションにも一般化するかもしれません。 In the past decades, automated high-content microscopy demonstrated its ability to deliver large quantities of image-based data powering the versatility of phenotypic drug screening and systems biology applications. However, as the sizes of image-based datasets grew, it became infeasible for humans to control, avoid and overcome the presence of imaging and sample preparation artefacts in the images. While novel techniques like machine learning and deep learning may address these shortcomings through generative image inpainting, when applied to sensitive research data this may come at the cost of undesired image manipulation. Undesired manipulation may be caused by phenomena such as neural hallucinations, to which some artificial neural networks are prone. To address this, here we evaluate the state-of-the-art inpainting methods for image restoration in a high-content fluorescence microscopy dataset of cultured cells with labelled nuclei. We show that architectures like DeepFill V2 and Edge Connect can faithfully restore microscopy images upon fine-tuning with relatively little data. Our results demonstrate that the area of the region to be restored is of higher importance than shape. Furthermore, to control for the quality of restoration, we propose a novel phenotype-preserving metric design strategy. In this strategy, the size and count of the restored biological phenotypes like cell nuclei are quantified to penalise undesirable manipulation. We argue that the design principles of our approach may also generalise to other applications. | 翻訳日:2023-08-23 14:37:06 公開日:2023-08-22 |
# 光コヒーレンストモグラフィにおけるコロイドの効率的かつ完全自動解析のためのオープンソース深層学習アルゴリズム An open-source deep learning algorithm for efficient and fully-automatic analysis of the choroid in optical coherence tomography ( http://arxiv.org/abs/2307.00904v2 ) ライセンス: Link先を確認 | Jamie Burke, Justin Engelmann, Charlene Hamid, Megan Reid-Schachter, Tom Pearson, Dan Pugh, Neeraj Dhaun, Stuart King, Tom MacGillivray, Miguel O. Bernabeu, Amos Storkey, Ian J.C. MacCormick | (参考訳) 目的:光コヒーレンストモグラフィー(OCT)データにおける脈絡膜領域分割のためのオープンソースの完全自動ディープラーニングアルゴリズムであるDeepGPETを開発すること。
方法: 全身疾患に関連する3つの臨床研究から, 715 oct b-scans (82名, 115眼) のデータセットを用いた。
臨床的に検証された半自動コロイドセグメンテーション法であるガウスプロセスエッジトレーシング(GPET)を用いて,地中真実セグメンテーションを作成した。
ImageNetで事前トレーニングされたMobileNetV3バックボーンでUNetを微調整した。
臨床眼科医からの質的評価とともに,標準セグメンテーション合意尺度,および脈絡膜厚と面積の導出指標を用いてDeepGPETの評価を行った。
結果: deepgpetは3つの臨床研究(auc=0.9994, dice=0.9664; pearson correlation of 0.8908 (choroidal thickness), 0.9082 (choroidal area)))のデータをgpetとよく一致させ、標準ラップトップcpu上の画像あたりの平均処理時間を34.49s (\pm$15.09) からdeepgpetを使用した1.25s (\pm$0.10) に短縮した。
GPETとDeepGPETによるセグメンテーションのサブセットを、スムーズさと精度に基づいて定性的に判断した臨床眼科医にも同様に行われた。
結論:deepgpetは、コーロイダルセグメンテーションのための完全に自動的なオープンソースアルゴリズムであり、大規模なデータセットであっても、効率的にコーロイダル計測を抽出できる。
手動による介入は必要ないため、deepgpetは半自動的な方法よりも主観的ではなく、訓練されたオペレーターを必要とせずに臨床に展開できる。
deepgpetは、オープンソースで完全に自動化され、臨床的に関連のあるコロイドセグメンテーションアルゴリズムの欠如に対処し、その後の公開リリースは、眼科と全身の健康に関する将来の脈絡膜研究を促進するだろう。 Purpose: To develop an open-source, fully-automatic deep learning algorithm, DeepGPET, for choroid region segmentation in optical coherence tomography (OCT) data. Methods: We used a dataset of 715 OCT B-scans (82 subjects, 115 eyes) from 3 clinical studies related to systemic disease. Ground truth segmentations were generated using a clinically validated, semi-automatic choroid segmentation method, Gaussian Process Edge Tracing (GPET). We finetuned a UNet with MobileNetV3 backbone pre-trained on ImageNet. Standard segmentation agreement metrics, as well as derived measures of choroidal thickness and area, were used to evaluate DeepGPET, alongside qualitative evaluation from a clinical ophthalmologist. Results: DeepGPET achieves excellent agreement with GPET on data from 3 clinical studies (AUC=0.9994, Dice=0.9664; Pearson correlation of 0.8908 for choroidal thickness and 0.9082 for choroidal area), while reducing the mean processing time per image on a standard laptop CPU from 34.49s ($\pm$15.09) using GPET to 1.25s ($\pm$0.10) using DeepGPET. Both methods performed similarly according to a clinical ophthalmologist, who qualitatively judged a subset of segmentations by GPET and DeepGPET, based on smoothness and accuracy of segmentations. Conclusions :DeepGPET, a fully-automatic, open-source algorithm for choroidal segmentation, will enable researchers to efficiently extract choroidal measurements, even for large datasets. As no manual interventions are required, DeepGPET is less subjective than semi-automatic methods and could be deployed in clinical practice without necessitating a trained operator. DeepGPET addresses the lack of open-source, fully-automatic and clinically relevant choroid segmentation algorithms, and its subsequent public release will facilitate future choroidal research both in ophthalmology and wider systemic health. | 翻訳日:2023-08-23 14:36:13 公開日:2023-08-22 |
# 最大エントロピー不均質ミラー学習 Maximum Entropy Heterogeneous-Agent Mirror Learning ( http://arxiv.org/abs/2306.10715v2 ) ライセンス: Link先を確認 | Jiarong Liu, Yifan Zhong, Siyi Hu, Haobo Fu, Qiang Fu, Xiaojun Chang, Yaodong Yang | (参考訳) 近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
しかしながら、既存の最先端の手法では、サンプルの非効率性、ハイパーパラメータに関する脆性、および準最適ナッシュ平衡への収束の危険性に関する課題に直面している。
本稿では,この問題を解決するために,最大エントロピー不均質エージェントミラー学習(mehaml)という,最大エントロピー原理を活用し,最大エントロピーマールアクタ-クリティックアルゴリズムを設計する新しい理論的枠組みを提案する。
我々は,MEHAMLフレームワークから派生したアルゴリズムが,結合最大エントロピー目標の単調改善と量子応答平衡(QRE)への収束の望ましい特性を享受できることを証明した。
MEHAMLの実用性は、広く使われているRLアルゴリズムであるHASAC(ソフトアクター・クリティカル)のMEHAML拡張を開発することで実証され、Multi-Agent MuJoCo、StarCraftII、Google Research Footballの3つの挑戦的ベンチマークにおいて、探索と堅牢性に大きな改善が示されている。
以上の結果から,HASACはHATD3,HAPPO,QMIX,MAPPOといった強力なベースライン手法よりも優れており,新たな技術が確立された。
プロジェクトページはhttps://sites.google.com/view/mehaml。 Multi-agent reinforcement learning (MARL) has been shown effective for cooperative games in recent years. However, existing state-of-the-art methods face challenges related to sample inefficiency, brittleness regarding hyperparameters, and the risk of converging to a suboptimal Nash Equilibrium. To resolve these issues, in this paper, we propose a novel theoretical framework, named Maximum Entropy Heterogeneous-Agent Mirror Learning (MEHAML), that leverages the maximum entropy principle to design maximum entropy MARL actor-critic algorithms. We prove that algorithms derived from the MEHAML framework enjoy the desired properties of the monotonic improvement of the joint maximum entropy objective and the convergence to quantal response equilibrium (QRE). The practicality of MEHAML is demonstrated by developing a MEHAML extension of the widely used RL algorithm, HASAC (for soft actor-critic), which shows significant improvements in exploration and robustness on three challenging benchmarks: Multi-Agent MuJoCo, StarCraftII, and Google Research Football. Our results show that HASAC outperforms strong baseline methods such as HATD3, HAPPO, QMIX, and MAPPO, thereby establishing the new state of the art. See our project page at https://sites.google.com/view/mehaml. | 翻訳日:2023-08-23 14:35:28 公開日:2023-08-22 |
# グラフニューラルネットワークにおける局所ホモフィリーレベルの性能差について On Performance Discrepancies Across Local Homophily Levels in Graph Neural Networks ( http://arxiv.org/abs/2306.05557v2 ) ライセンス: Link先を確認 | Donald Loveland, Jiong Zhu, Mark Heimann, Benjamin Fish, Michael T. Shaub, Danai Koutra | (参考訳) graph neural network(gnn)の研究は、高い相同性(つまり同じクラスのノードが接続する傾向)とノード分類における強力な予測性能との関係を強調している。
しかし、最近の研究は、単純なGNNがある種の異好的な設定で学習できることを実証し、よりニュアンスな関係を見出した。
これらの矛盾を解消し、実世界のデータセットに近づき、グローバルグラフのホモフィリーレベルの仮定を超えて、ノードの局所ホモフィリーレベルがグローバルなホモフィリーレベルから逸脱した場合にGNNの性能を研究する。
理論的および実証的分析により,局所ホモフィリのシフトが性能低下をもたらすことを体系的に実証し,局所ホモフィリレベルにおける性能のばらつきを明らかにした。
我々は,この研究の実践的意味を,グローバルなホモフィリーレベルの異なる5つの実世界のデータセットの粒度解析により明らかにした。
(a)GNNは、グラフのグローバルなホモフィリエから逸脱するテストノードに一般化に失敗する可能性がある。
(b)高局所ホモフィリーは必ずしもノードの高性能を期待するとは限らない。
さらに、グローバルな異種グラフ用に設計されたGNNは、局所的ホモフィリーレベルのパフォーマンスを改善することにより、パフォーマンスの相違を緩和し、これらのGNNがより強力なグローバルパフォーマンスを実現するための新たな視点を提供する。 Graph Neural Network (GNN) research has highlighted a relationship between high homophily (i.e., the tendency of nodes of the same class to connect) and strong predictive performance in node classification. However, recent work has found the relationship to be more nuanced, demonstrating that simple GNNs can learn in certain heterophilous settings. To resolve these conflicting findings and align closer to real-world datasets, we go beyond the assumption of a global graph homophily level and study the performance of GNNs when the local homophily level of a node deviates from the global homophily level. Through theoretical and empirical analysis, we systematically demonstrate how shifts in local homophily can introduce performance degradation, leading to performance discrepancies across local homophily levels. We ground the practical implications of this work through granular analysis on five real-world datasets with varying global homophily levels, demonstrating that (a) GNNs can fail to generalize to test nodes that deviate from the global homophily of a graph, and (b) high local homophily does not necessarily confer high performance for a node. We further show that GNNs designed for globally heterophilous graphs can alleviate performance discrepancy by improving performance across local homophily levels, offering a new perspective on how these GNNs achieve stronger global performance. | 翻訳日:2023-08-23 14:35:01 公開日:2023-08-22 |
# モンテカルロから見た化学・物理学応用のための量子コンピューティング Quantum computing for chemistry and physics applications from a Monte Carlo perspective ( http://arxiv.org/abs/2308.07964v3 ) ライセンス: Link先を確認 | Guglielmo Mazzola | (参考訳) この観点は、物理学と化学の分野における量子アルゴリズムとモンテカルロ法の間の重複に焦点をあてる。
我々は、確立された量子モンテカルロ解を量子アルゴリズムに統合する課題と可能性を分析する。
これには、洗練されたエネルギー推定器、パラメータ最適化、実時間および虚数時間ダイナミクス、変動回路が含まれる。
逆に、量子ハードウェアを利用して統計古典モデルのサンプリングを加速する新しいアイデアを、物理学、化学、最適化、機械学習への応用とともにレビューする。
このレビューは,量子コンピューティングとモンテカルロ法の交点における,さらなるアルゴリズム開発を促進することを目的としている。
この視点で議論された研究の多くは過去2年以内に現れており、この将来性のある研究分野への関心が急速に高まっていることを示している。 This Perspective focuses on the several overlaps between quantum algorithms and Monte Carlo methods in the domains of physics and chemistry. We will analyze the challenges and possibilities of integrating established quantum Monte Carlo solutions in quantum algorithms. These include refined energy estimators, parameter optimization, real and imaginary-time dynamics, and variational circuits. Conversely, we will review new ideas in utilizing quantum hardware to accelerate the sampling in statistical classical models, with applications in physics, chemistry, optimization, and machine learning. This review aims to be accessible to both communities and intends to foster further algorithmic developments at the intersection of quantum computing and Monte Carlo methods. Most of the works discussed in this Perspective have emerged within the last two years, indicating a rapidly growing interest in this promising area of research. | 翻訳日:2023-08-23 14:23:43 公開日:2023-08-22 |
# 深層強化学習を用いたswarm roboticsのモビリティアウェア計算オフロード Mobility-Aware Computation Offloading for Swarm Robotics using Deep Reinforcement Learning ( http://arxiv.org/abs/2308.11154v1 ) ライセンス: Link先を確認 | Xiucheng Wang, Hongzhi Guo | (参考訳) swarm roboticsは、大量の汚い、危険な、退屈なタスクを自動化することを想定している。
ロボットはエネルギー、計算能力、通信資源が限られている。
したがって、現在のswarm roboticsは、限られた時空間情報しか提供できない少数のロボットを持っている。
本稿では,モバイルエッジコンピューティングを利用して計算負荷を軽減することを提案する。
我々は,エッジサーバ側における移動性を考慮した深層強化学習モデルに基づいて,スケジューリングと資源の計算に有効なソリューションを開発した。
提案手法は遅延条件を満たし,最小ロボットエネルギーを用いて計算精度を保証できることを示す。 Swarm robotics is envisioned to automate a large number of dirty, dangerous, and dull tasks. Robots have limited energy, computation capability, and communication resources. Therefore, current swarm robotics have a small number of robots, which can only provide limited spatio-temporal information. In this paper, we propose to leverage the mobile edge computing to alleviate the computation burden. We develop an effective solution based on a mobility-aware deep reinforcement learning model at the edge server side for computing scheduling and resource. Our results show that the proposed approach can meet delay requirements and guarantee computation precision by using minimum robot energy. | 翻訳日:2023-08-23 13:57:50 公開日:2023-08-22 |
# ニューロモルフィックコンピューティングによる衛星通信のためのエネルギー効率の高いオンボード無線資源管理 Energy-Efficient On-Board Radio Resource Management for Satellite Communications via Neuromorphic Computing ( http://arxiv.org/abs/2308.11152v1 ) ライセンス: Link先を確認 | Flor Ortiz, Nicolas Skatchkovsky, Eva Lagunas, Wallace A. Martins, Geoffrey Eappen, Saed Daoud, Osvaldo Simeone, Bipin Rajendran and Symeon Chatzinotas | (参考訳) 最新の衛星通信(SatCom)ミッションは、完全に再構成可能なソフトウェア定義ペイロードによって特徴付けられ、システムトラフィックの時間的および空間的変動に無線リソースを適応させることができる。
純粋に最適化ベースのソリューションは計算が面倒で柔軟性が欠けていることが示され、機械学習(ML)ベースの手法が有望な代替手段として登場した。
エネルギー効率の高い脳誘発MLモデルのオンボード無線リソース管理への適用について検討する。
ソフトウェアシミュレーションとは別に,最近リリースされたintel loihi 2チップを用いた広範な実験結果を報告する。
提案モデルの性能をベンチマークするために,従来の畳み込みニューラルネットワーク(cnn)をxilinx versal vck5000上で実装し,異なる交通需要に対する精度,精度,リコール,エネルギー効率の詳細な比較を行った。
特に、関連するワークロードでは、Loihi 2に実装されたニューラルネットワーク(SNN)をスパイクすることで、CNNベースのリファレンスプラットフォームと比較して、消費電力を100ドル以上削減できる。
本研究は,将来のSatComシステムにおいて,ニューロモルフィックコンピューティングとSNNがSatCom操作をサポートし,効率と持続可能性を高めるための道を開くことの意義を指摘する。 The latest satellite communication (SatCom) missions are characterized by a fully reconfigurable on-board software-defined payload, capable of adapting radio resources to the temporal and spatial variations of the system traffic. As pure optimization-based solutions have shown to be computationally tedious and to lack flexibility, machine learning (ML)-based methods have emerged as promising alternatives. We investigate the application of energy-efficient brain-inspired ML models for on-board radio resource management. Apart from software simulation, we report extensive experimental results leveraging the recently released Intel Loihi 2 chip. To benchmark the performance of the proposed model, we implement conventional convolutional neural networks (CNN) on a Xilinx Versal VCK5000, and provide a detailed comparison of accuracy, precision, recall, and energy efficiency for different traffic demands. Most notably, for relevant workloads, spiking neural networks (SNNs) implemented on Loihi 2 yield higher accuracy, while reducing power consumption by more than 100$\times$ as compared to the CNN-based reference platform. Our findings point to the significant potential of neuromorphic computing and SNNs in supporting on-board SatCom operations, paving the way for enhanced efficiency and sustainability in future SatCom systems. | 翻訳日:2023-08-23 13:57:40 公開日:2023-08-22 |
# 光子トポロジー Photon topology ( http://arxiv.org/abs/2308.11147v1 ) ライセンス: Link先を確認 | Eric Palmerduca, Hong Qin | (参考訳) 真空中の光子の位相は、$\boldsymbol{k}=0$を持つ光子が存在しないため興味深い。
すべての光子の集合がこの運動量空間上の自明なベクトル束$\gamma$を形成する一方で、$R$-と$L$-光子は位相的に非自明な部分バンドル$\gamma_\pm$と最初のチャーン数$\pm2$を形成する。
対照的に$\gamma$ は線型偏極部分バンドルを持たず、線型偏極に関連するチャーン数は存在しない。
ウィグナーの小群法の標準的なバージョンが質量を持たない粒子に対してポアンカル(poincar\'{e})群の特異表現を生成することは知られている。
ベクトルバンドル上の Poincar\'{e} 群の表現を考慮し、これらの特異点を避ける無質量粒子に対するウィグナーの小さな群法のバージョンを得る。
我々は、Poincar\'{e} 群の任意の無質量バンドル表現が、ヘリシティによってラベル付けされた既約バンドル表現にカノニカルに分解可能であることを示す。
これにより、r$- と $l$-photons は世界的に粒子としてよく定義され、光子波動関数は一意に $r$ と $l$-components に分割される。
この形式化は、伝統的なスキームのように不連続な分極ベクトルを呼び出すことなくem場を量子化する方法を提供する。
また、光子のスピンチャーン数は純粋に位相量ではないことも示している。
最後に、光子角運動量はスピン部分と軌道部分に分けられるかという議論が広がっている。
私たちの研究は、この分裂を妨げる正確な問題を説明します。
フォトンは、ポインカル群(英語版)の質量のない既約バンドル表現として、スピン作用素を許さない。
代わりに、光子の内部自由度に関連する角運動量は、ヘリシティによって引き起こされる3次元および可換な部分代数によって記述され、これは$\gamma$の翻訳対称性に対応する。 The topology of photons in vacuum is interesting because there are no photons with $\boldsymbol{k}=0$, creating a hole in momentum space. We show that while the set of all photons forms a trivial vector bundle $\gamma$ over this momentum space, the $R$- and $L$-photons form topologically nontrivial subbundles $\gamma_\pm$ with first Chern numbers $\pm2$. In contrast, $\gamma$ has no linearly polarized subbundles, and there is no Chern number associated with linear polarizations. It is a known difficulty that the standard version of Wigner's little group method produces singular representations of the Poincar\'{e} group for massless particles. By considering representations of the Poincar\'{e} group on vector bundles we obtain a version of Wigner's little group method for massless particles which avoids these singularities. We show that any massless bundle representation of the Poincar\'{e} group can be canonically decomposed into irreducible bundle representations labeled by helicity. This proves that the $R$- and $L$-photons are globally well-defined as particles and that the photon wave function can be uniquely split into $R$- and $L$-components. This formalism offers a method of quantizing the EM field without invoking discontinuous polarization vectors as in the traditional scheme. We also demonstrate that the spin-Chern number of photons is not a purely topological quantity. Lastly, there has been an extended debate on whether photon angular momentum can be split into spin and orbital parts. Our work explains the precise issues that prevent this splitting. Photons, as massless irreducible bundle representations of the Poincar\'{e} group, do not admit a spin operator. Instead, the angular momentum associated with photons' internal degree of freedom is described by a helicity-induced subalgebra, which is 3D and commuting, corresponding to the translational symmetry of $\gamma$. | 翻訳日:2023-08-23 13:57:17 公開日:2023-08-22 |
# バレーボールアナリティクスのためのグラフ符号化とニューラルネットワークアプローチ:ゲーム結果から個々のプレイ予測まで Graph Encoding and Neural Network Approaches for Volleyball Analytics: From Game Outcome to Individual Play Predictions ( http://arxiv.org/abs/2308.11142v1 ) ライセンス: Link先を確認 | Rhys Tracy, Haotian Xia, Alex Rasla, Yuan-Fang Wang, Ambuj Singh | (参考訳) 本研究の目的は,バレーボールの複雑な予測の精度の向上と,コーチや選手に対してより有意義な洞察を提供することである。
我々は,すでに利用可能なバレーボールデータセットにコンタクトバイコンタクトバレーボールコンテキストを追加するための特殊なグラフ符号化手法を導入する。
我々は,この強化データセットにグラフニューラルネットワーク(GNN)を用いた3つのバレーボール予測課題(ラリー結果予測,セット位置予測,ヒット型予測)の潜在的な利点を実証する。
グラフモデルの性能をベースラインモデルと比較し、その結果を分析してバレーボールラリーの基盤となる関係をよりよく理解する。
その結果,gnnをグラフエンコーディングに使用することで,より高度なデータ解析が可能となり,予測結果の全体的な改善が期待できることがわかった。
また,ブロックヒットの除去などの簡単な調整によって,これらのベースラインタスクを大幅に改善できることを示す。
最後に、あるタスクにおいて重要な情報をよりよく抽出するモデルアーキテクチャを選択することの重要性を示す。
全体的に、スポーツデータ分析におけるグラフエンコーディングの利用の強みと弱みを示し、グラフベースのエンコーディングを使用することで、スポーツやアプリケーション全体での機械学習戦略の今後の改善を促すことを願っている。 This research aims to improve the accuracy of complex volleyball predictions and provide more meaningful insights to coaches and players. We introduce a specialized graph encoding technique to add additional contact-by-contact volleyball context to an already available volleyball dataset without any additional data gathering. We demonstrate the potential benefits of using graph neural networks (GNNs) on this enriched dataset for three different volleyball prediction tasks: rally outcome prediction, set location prediction, and hit type prediction. We compare the performance of our graph-based models to baseline models and analyze the results to better understand the underlying relationships in a volleyball rally. Our results show that the use of GNNs with our graph encoding yields a much more advanced analysis of the data, which noticeably improves prediction results overall. We also show that these baseline tasks can be significantly improved with simple adjustments, such as removing blocked hits. Lastly, we demonstrate the importance of choosing a model architecture that will better extract the important information for a certain task. Overall, our study showcases the potential strengths and weaknesses of using graph encodings in sports data analytics and hopefully will inspire future improvements in machine learning strategies across sports and applications by using graphbased encodings. | 翻訳日:2023-08-23 13:56:41 公開日:2023-08-22 |
# インタラクティブレコメンデーションシステムにおける長期ユーザフィードバックの検証 Towards Validating Long-Term User Feedbacks in Interactive Recommendation Systems ( http://arxiv.org/abs/2308.11137v1 ) ライセンス: Link先を確認 | Hojoon Lee, Dongyoon Hwang, Kyushik Min, Jaegul Choo | (参考訳) 対話型レコメンダシステム(IRS)は,ユーザとレコメンダシステム間の対話的プロセスをモデル化する能力から,多くの注目を集めている。
多数のアプローチが強化学習(RL)アルゴリズムを採用しており、ユーザの累積報酬を直接最大化することができる。
IRSでは、研究者は一般に利用可能なレビューデータセットを使用してアルゴリズムを比較し、評価する。
しかしながら、公開データセットで提供されるユーザフィードバックには、遅延応答(例えば、寿命と居住時間)を含まない、即時応答(例えば、レーティング)のみが含まれる。
したがって、これらのレビューデータセットがIRSの長期的影響を評価する適切な選択であるかどうかについては疑問が残る。
本研究では,IRS実験をレビューデータセットで再検討し,RLモデルと単純な報酬モデルとの比較を行った。
まず、単純なグリーディ報酬モデルが、累積報酬を最大化するためにRLベースのモデルより一貫して優れていることを明らかにする。
第二に、長期的な報酬により高い重み付けを適用すると、推奨性能が低下する。
第3に、ユーザからのフィードバックは、ベンチマークデータセットに長く影響します。
以上の結果から,RLベースのIRSアプローチを適切に評価するには,データセットを慎重に検証し,簡単なグリーディベースラインを含める必要があると結論付けた。 Interactive Recommender Systems (IRSs) have attracted a lot of attention, due to their ability to model interactive processes between users and recommender systems. Numerous approaches have adopted Reinforcement Learning (RL) algorithms, as these can directly maximize users' cumulative rewards. In IRS, researchers commonly utilize publicly available review datasets to compare and evaluate algorithms. However, user feedback provided in public datasets merely includes instant responses (e.g., a rating), with no inclusion of delayed responses (e.g., the dwell time and the lifetime value). Thus, the question remains whether these review datasets are an appropriate choice to evaluate the long-term effects of the IRS. In this work, we revisited experiments on IRS with review datasets and compared RL-based models with a simple reward model that greedily recommends the item with the highest one-step reward. Following extensive analysis, we can reveal three main findings: First, a simple greedy reward model consistently outperforms RL-based models in maximizing cumulative rewards. Second, applying higher weighting to long-term rewards leads to a degradation of recommendation performance. Third, user feedbacks have mere long-term effects on the benchmark datasets. Based on our findings, we conclude that a dataset has to be carefully verified and that a simple greedy baseline should be included for a proper evaluation of RL-based IRS approaches. | 翻訳日:2023-08-23 13:56:19 公開日:2023-08-22 |
# ReLLa:レコメンデーションにおける生涯連続行動理解のための検索強化大言語モデル ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation ( http://arxiv.org/abs/2308.11131v1 ) ライセンス: Link先を確認 | Jianghao Lin, Rong Shan, Chenxu Zhu, Kounianhua Du, Bo Chen, Shigang Quan, Ruiming Tang, Yong Yu, Weinan Zhang | (参考訳) 大規模言語モデル (LLM) が自然言語処理 (NLP) 領域で顕著なブレークスルーを達成しているため、LLM強化レコメンデータシステムは注目され、現在積極的に研究されている。
本稿では,ゼロショットと少数ショットのレコメンデーションタスクに純粋に大きな言語モデルを適用することに焦点を当てる。
まず第一に,提案領域におけるllmsの生涯連続的行動理解問題,すなわち,コンテキストの長さがllmsのコンテキスト制限に達していない場合でも,長いユーザ行動シーケンスのテキスト的文脈から有用な情報を抽出できないことを特定し,定式化する。
このような問題に対処し、LLMのレコメンデーション性能を向上させるために、ゼロショットと少数ショットの両方の設定でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
ゼロショットレコメンデーションのために,テストサンプルのデータ品質を向上させるためにセマンティックユーザ行動検索(SUBR)を実施し,ユーザ行動シーケンスから本質的な知識を抽出することの難しさを大幅に軽減する。
本稿では,サンプルデータ拡張手法としてSUBRを採用することで,検索強化型インストラクションチューニング(ReiT)をさらに設計する。
具体的には,オリジナルデータと検索対象データの両方からなる混合学習データセットを開発した。
我々は,実世界の公開データセット(すなわち movielens-1m)を用いて,rella の既存ベースラインモデルと比較して優れていることや,生涯連続的な動作理解能力を示す実験を行った。 With large language models (LLMs) achieving remarkable breakthroughs in natural language processing (NLP) domains, LLM-enhanced recommender systems have received much attention and have been actively explored currently. In this paper, we focus on adapting and empowering a pure large language model for zero-shot and few-shot recommendation tasks. First and foremost, we identify and formulate the lifelong sequential behavior incomprehension problem for LLMs in recommendation domains, i.e., LLMs fail to extract useful information from a textual context of long user behavior sequence, even if the length of context is far from reaching the context limitation of LLMs. To address such an issue and improve the recommendation performance of LLMs, we propose a novel framework, namely Retrieval-enhanced Large Language models (ReLLa) for recommendation tasks in both zero-shot and few-shot settings. For zero-shot recommendation, we perform semantic user behavior retrieval (SUBR) to improve the data quality of testing samples, which greatly reduces the difficulty for LLMs to extract the essential knowledge from user behavior sequences. As for few-shot recommendation, we further design retrieval-enhanced instruction tuning (ReiT) by adopting SUBR as a data augmentation technique for training samples. Specifically, we develop a mixed training dataset consisting of both the original data samples and their retrieval-enhanced counterparts. We conduct extensive experiments on a real-world public dataset (i.e., MovieLens-1M) to demonstrate the superiority of ReLLa compared with existing baseline models, as well as its capability for lifelong sequential behavior comprehension. | 翻訳日:2023-08-23 13:55:57 公開日:2023-08-22 |
# グラフニューラルネットワークはどのように推奨されるか? How Expressive are Graph Neural Networks in Recommendation? ( http://arxiv.org/abs/2308.11127v1 ) ライセンス: Link先を確認 | Xuheng Cai, Lianghao Xia, Xubin Ren, Chao Huang | (参考訳) グラフニューラルネットワーク(GNN)は、グラフの協調フィルタリング信号を活用するレコメンデーションを含む、さまざまなグラフ学習タスクにおいて、優れたパフォーマンスを示している。
しかし、その能力の理論的定式化は、最先端のレコメンデータモデルにおける経験的有効性にもかかわらず、ほとんどない。
近年, メッセージパッシングGNNはWeisfeiler-Lehmanテストと同じくらい強力であり, ランダムノードの初期化と組み合わせたGNNは普遍的であることを示す。
それでも、GNNの「表現性」という概念はあいまいに定義されている。
既存のほとんどの作品ではグラフ同型テストが表現力の指標として採用されているが、このグラフレベルのタスクはモデルが推奨する能力を効果的に評価するものではない。
本稿では,グラフ同型(グラフレベル),ノード自己同型(ノードレベル),位相的近接性(リンクレベル)の3段階の表現性指標を考慮して,gnnの表現性に関する総合的な理論的解析を行う。
本稿では,GNNがノード間の構造的距離を捉える能力を評価するための位相的近接度尺度を提案する。
そこで本研究では,提案手法の有効性を検証するために,新しい基準に最適であり,ノードレベルの基準に最適な学習レスgnnアルゴリズムを提案する。
本稿では,提案手法を各種の最先端GNNモデルと比較し,提案課題における新しい指標の説明可能性について検討する。
再現性のために実装コードはhttps://github.com/HKUDS/GTEで公開されている。 Graph Neural Networks (GNNs) have demonstrated superior performance on various graph learning tasks, including recommendation, where they leverage user-item collaborative filtering signals in graphs. However, theoretical formulations of their capability are scarce, despite their empirical effectiveness in state-of-the-art recommender models. Recently, research has explored the expressiveness of GNNs in general, demonstrating that message passing GNNs are at most as powerful as the Weisfeiler-Lehman test, and that GNNs combined with random node initialization are universal. Nevertheless, the concept of "expressiveness" for GNNs remains vaguely defined. Most existing works adopt the graph isomorphism test as the metric of expressiveness, but this graph-level task may not effectively assess a model's ability in recommendation, where the objective is to distinguish nodes of different closeness. In this paper, we provide a comprehensive theoretical analysis of the expressiveness of GNNs in recommendation, considering three levels of expressiveness metrics: graph isomorphism (graph-level), node automorphism (node-level), and topological closeness (link-level). We propose the topological closeness metric to evaluate GNNs' ability to capture the structural distance between nodes, which aligns closely with the objective of recommendation. To validate the effectiveness of this new metric in evaluating recommendation performance, we introduce a learning-less GNN algorithm that is optimal on the new metric and can be optimal on the node-level metric with suitable modification. We conduct extensive experiments comparing the proposed algorithm against various types of state-of-the-art GNN models to explore the explainability of the new metric in the recommendation task. For reproducibility, implementation codes are available at https://github.com/HKUDS/GTE. | 翻訳日:2023-08-23 13:55:24 公開日:2023-08-22 |
# おい それは 拡散生成出力で 地雷を感知できない透かしが 保存されている。 Hey That's Mine Imperceptible Watermarks are Preserved in Diffusion Generated Outputs ( http://arxiv.org/abs/2308.11123v1 ) ライセンス: Link先を確認 | Luke Ditria, Tom Drummond | (参考訳) 生成モデルは、MidjourneyやStable Diffusionのような巨大な生成拡散モデルが一般に公開されたことで、人気が高まっている。
この新しいアクセスの容易さのため、データの自動収集やコンテンツの所有に関する問題に関する疑問が生まれ始めている。
本稿では,公開時にコンテンツを保護する方法を提供することを目的とした新しい研究について述べる。
そこで本研究では, 透かしのあるデータに基づいて学習した生成拡散モデルを用いて, 透かしが存在する新しい画像を生成することを示す。
さらに、与えられた透かしがトレーニングデータの特定の特徴と相関している場合、生成された画像もこの相関を持つことを示す。
統計的テストを用いて、モデルがマークされたデータでトレーニングされたかどうか、どのデータがマークされたかを決定することができることを示す。
その結果,オンラインコンテンツ共有における知的財産権保護のソリューションが提供された。 Generative models have seen an explosion in popularity with the release of huge generative Diffusion models like Midjourney and Stable Diffusion to the public. Because of this new ease of access, questions surrounding the automated collection of data and issues regarding content ownership have started to build. In this paper we present new work which aims to provide ways of protecting content when shared to the public. We show that a generative Diffusion model trained on data that has been imperceptibly watermarked will generate new images with these watermarks present. We further show that if a given watermark is correlated with a certain feature of the training data, the generated images will also have this correlation. Using statistical tests we show that we are able to determine whether a model has been trained on marked data, and what data was marked. As a result our system offers a solution to protect intellectual property when sharing content online. | 翻訳日:2023-08-23 13:54:55 公開日:2023-08-22 |
# 超伝導量子ビットを用いた実験シミュレーションによるパリティ磁気効果の探索 Exploring Parity Magnetic Effects through Experimental Simulation with Superconducting Qubits ( http://arxiv.org/abs/2308.11115v1 ) ライセンス: Link先を確認 | Yu Zhang, Yan-Qing Zhu, Jianwen Xu, Wen Zheng, Dong Lan, Giandomenico Palumbo, Nathan Goldman, Shi-Liang Zhu, Xinsheng Tan, Z.D.Wang, Yang Yu | (参考訳) 超伝導量子回路を用いたテンソルモノポールを用いた4次元(4D)セミメタルバンドの実現に成功した。
実験では、4つの結合トランスモンを持つ高度に調整可能なダイヤモンドエネルギーダイアグラムの作成と、それらの調整可能なカプラのパラメトリック変調を行い、運動量空間をパラメータ空間に効果的にマッピングする。
このアプローチにより、4次元縮退点を持つ4次元ディラック様ハミルトニアンを確立することができる。
さらに, テンソルモノポールのエネルギーを, 追加のポンプマイクロ波場を導入し, 有効磁場および擬電界を生成し, パリティ異常から生じるトポロジカルパリティ磁気効果をシミュレーションすることによって操作する。
非断熱反応法を用いて, 5次元yangモノポールに接続された非自明な位相相転移を示す, 異なる質量項を持つディラック谷の分数次第2チャーン数を測定する。
我々の研究は、物質の高次元トポロジー状態に関するさらなる調査の基礎を築いており、トポロジー現象の理解を深めている。 We present the successful realization of four-dimensional (4D) semimetal bands featuring tensor monopoles, achieved using superconducting quantum circuits. Our experiment involves the creation of a highly tunable diamond energy diagram with four coupled transmons, and the parametric modulation of their tunable couplers, effectively mapping momentum space to parameter space. This approach enables us to establish a 4D Dirac-like Hamiltonian with fourfold degenerate points. Moreover, we manipulate the energy of tensor monopoles by introducing an additional pump microwave field, generating effective magnetic and pseudo-electric fields and simulating topological parity magnetic effects emerging from the parity anomaly. Utilizing non-adiabatic response methods, we measure the fractional second Chern number for a Dirac valley with a varying mass term, signifying a nontrivial topological phase transition connected to a 5D Yang monopole. Our work lays the foundation for further investigations into higher-dimensional topological states of matter and enriches our comprehension of topological phenomena. | 翻訳日:2023-08-23 13:54:42 公開日:2023-08-22 |
# 自動変調分類における早期イグジットを用いた高速推論 Using Early Exits for Fast Inference in Automatic Modulation Classification ( http://arxiv.org/abs/2308.11100v1 ) ライセンス: Link先を確認 | Elsayed Mohammed, Omar Mashaal and Hatem Abou-Zeid | (参考訳) 自動変調分類(AMC)は、無線スペクトルを介して送信される信号を自律的に分類することで、無線通信において重要な役割を果たす。
深層学習(DL)技術は、複雑な無線信号の特徴を抽出する能力のため、AMCにますます使われている。
しかし、DLモデルは計算集約的であり、高い推論遅延をもたらす。
本稿では,AMC が推論を高速化するために利用する DL モデルに対する早期終了(EE) 手法の適用を提案する。
この問題に対して,4つの早期エグジットアーキテクチャとカスタマイズしたマルチブランチトレーニングアルゴリズムを提案する。
広汎な実験により、中程度の信号対雑音比(SNR)を持つ信号は分類が容易であり、深いアーキテクチャを必要としないため、提案したEEアーキテクチャを利用することができることを示す。
実験の結果,EE技術は分類精度を犠牲にすることなく,ディープニューラルネットワークの推論速度を大幅に削減できることが示された。
また,これらのアーキテクチャを用いた場合の分類精度と推定時間とのトレードオフを徹底的に検討する。
私たちの知る限りでは、この研究はamcに早期の退社方法を適用する最初の試みであり、この分野における将来の研究の基盤を提供する。 Automatic modulation classification (AMC) plays a critical role in wireless communications by autonomously classifying signals transmitted over the radio spectrum. Deep learning (DL) techniques are increasingly being used for AMC due to their ability to extract complex wireless signal features. However, DL models are computationally intensive and incur high inference latencies. This paper proposes the application of early exiting (EE) techniques for DL models used for AMC to accelerate inference. We present and analyze four early exiting architectures and a customized multi-branch training algorithm for this problem. Through extensive experimentation, we show that signals with moderate to high signal-to-noise ratios (SNRs) are easier to classify, do not require deep architectures, and can therefore leverage the proposed EE architectures. Our experimental results demonstrate that EE techniques can significantly reduce the inference speed of deep neural networks without sacrificing classification accuracy. We also thoroughly study the trade-off between classification accuracy and inference time when using these architectures. To the best of our knowledge, this work represents the first attempt to apply early exiting methods to AMC, providing a foundation for future research in this area. | 翻訳日:2023-08-23 13:54:23 公開日:2023-08-22 |
# ソフトウェアエディタSMEのためのオンプレミスAIOpsインフラストラクチャ:エクスペリエンスレポート On-Premise AIOps Infrastructure for a Software Editor SME: An Experience Report ( http://arxiv.org/abs/2308.11225v1 ) ライセンス: Link先を確認 | Anes Bendimerad, Youcef Remil, Romain Mathonat, Mehdi Kaytoue | (参考訳) 情報技術は様々な産業において重要な要素となり、ソフトウェアのメンテナンスとモニタリングに重点を置いている。
現代のソフトウェアシステムの複雑さにより、従来のメンテナンスアプローチは不十分になっている。
AIOpsの概念は、ビッグデータと機械学習機能を使用した予測メンテナンスを強化するために登場した。
しかし、AIOpsを利用するには、データとインシデント管理の複雑さに関連するいくつかの課題に対処する必要がある。
商用ソリューションは存在するが、高いコスト、データガバナンスの問題、プライベートソフトウェアをカバーする制限のために、特定の企業には適さないかもしれない。
本稿では,オープンソースツールを活用したオンプレミスAIOpsソリューションの実現の可能性を検討する。
当社にデプロイに成功した包括的なaiopsインフラストラクチャを導入し、さまざまなコンポーネントを構築するためのさまざまな選択の根拠を提供します。
特に、データ管理システムを選択するためのアプローチや基準に関する洞察を提供し、その統合を説明する。
私たちの経験は、最新のAIOpsアプローチでソフトウェアメンテナンスプロセスを内部で管理したい企業にとって有益です。 Information Technology has become a critical component in various industries, leading to an increased focus on software maintenance and monitoring. With the complexities of modern software systems, traditional maintenance approaches have become insufficient. The concept of AIOps has emerged to enhance predictive maintenance using Big Data and Machine Learning capabilities. However, exploiting AIOps requires addressing several challenges related to the complexity of data and incident management. Commercial solutions exist, but they may not be suitable for certain companies due to high costs, data governance issues, and limitations in covering private software. This paper investigates the feasibility of implementing on-premise AIOps solutions by leveraging open-source tools. We introduce a comprehensive AIOps infrastructure that we have successfully deployed in our company, and we provide the rationale behind different choices that we made to build its various components. Particularly, we provide insights into our approach and criteria for selecting a data management system and we explain its integration. Our experience can be beneficial for companies seeking to internally manage their software maintenance processes with a modern AIOps approach. | 翻訳日:2023-08-23 13:46:26 公開日:2023-08-22 |
# LDP-Feat: ローカル差分プライバシーを持つ画像機能 LDP-Feat: Image Features with Local Differential Privacy ( http://arxiv.org/abs/2308.11223v1 ) ライセンス: Link先を確認 | Francesco Pittaluga and Bingbing Zhuang | (参考訳) 現代のコンピュータビジョンサービスでは、ユーザーは生の機能記述子を信頼できないサーバと共有する必要がある。
これは、生のディスクリプタが抽出されたソースイメージの復元に使用できるため、固有のプライバシリスクをもたらす。
この問題に対処するため、研究者らは最近、元の特徴を含むアフィン部分空間と敵対的な特徴サンプルを埋め込むことで、画像特徴を民営化することを提案した。
本稿では,これらの埋め込みから元の画像特徴を復元し,プライバシクリティカルな画像コンテンツを復元できることを示すために,2つの新しい逆転攻撃を提案する。
このような成功と、既存の視覚的プライバシ手法による理論的プライバシ保証の欠如を踏まえ、従来のアプローチとは異なり、攻撃の強みに関わらず、プライバシリークの保証を提供するローカルディファレンシャルプライバシを通じて、画像特徴を民営化する最初の方法を提案する。
さらに,提案手法は,プライバシ保証を享受しながら,ダウンストリームタスクとしての視覚的ローカライズ性能が向上する。 Modern computer vision services often require users to share raw feature descriptors with an untrusted server. This presents an inherent privacy risk, as raw descriptors may be used to recover the source images from which they were extracted. To address this issue, researchers recently proposed privatizing image features by embedding them within an affine subspace containing the original feature as well as adversarial feature samples. In this paper, we propose two novel inversion attacks to show that it is possible to (approximately) recover the original image features from these embeddings, allowing us to recover privacy-critical image content. In light of such successes and the lack of theoretical privacy guarantees afforded by existing visual privacy methods, we further propose the first method to privatize image features via local differential privacy, which, unlike prior approaches, provides a guaranteed bound for privacy leakage regardless of the strength of the attacks. In addition, our method yields strong performance in visual localization as a downstream task while enjoying the privacy guarantee. | 翻訳日:2023-08-23 13:46:11 公開日:2023-08-22 |
# ハミルトンガン Hamiltonian GAN ( http://arxiv.org/abs/2308.11216v1 ) ライセンス: Link先を確認 | Christine Allen-Blanchette | (参考訳) 成長する仕事の体は、物理的に可視なニューラルネットワークベースのビデオ生成の誘導バイアスとしてハミルトン形式を利用する。
ハミルトニアンの構造は、学習した量(例えばエネルギー)の保存を保証し、入力ビデオの下の低次元多様体に位相空間解釈を課す。
この解釈は、下流タスクにおける学習された表現の統合を促進する可能性があるが、既存のメソッドは、設計時に構成空間に構造的事前を必要とするため、適用性に制限がある。
本研究では,データから構成空間の表現を学習するために,学習した構成空間マップとハミルトニアンニューラルネットワーク動作モデルを備えたGANベースのビデオ生成パイプラインを提案する。
我々は, 構成空間の最小表現を奨励し, 解釈性を向上させる物理にインスパイアされた循環冷却損失関数を用いて, モデルを訓練する。
ハミルトン・ダイナミクス・スイート・トイ物理データセットに対するアプローチの有効性と利点を実証する。 A growing body of work leverages the Hamiltonian formalism as an inductive bias for physically plausible neural network based video generation. The structure of the Hamiltonian ensures conservation of a learned quantity (e.g., energy) and imposes a phase-space interpretation on the low-dimensional manifold underlying the input video. While this interpretation has the potential to facilitate the integration of learned representations in downstream tasks, existing methods are limited in their applicability as they require a structural prior for the configuration space at design time. In this work, we present a GAN-based video generation pipeline with a learned configuration space map and Hamiltonian neural network motion model, to learn a representation of the configuration space from data. We train our model with a physics-inspired cyclic-coordinate loss function which encourages a minimal representation of the configuration space and improves interpretability. We demonstrate the efficacy and advantages of our approach on the Hamiltonian Dynamics Suite Toy Physics dataset. | 翻訳日:2023-08-23 13:45:52 公開日:2023-08-22 |
# 線形および二次一般化不確かさ原理における重力波の共振検出器 Resonant detectors of gravitational wave in the linear and quadratic generalized uncertainty principle framework ( http://arxiv.org/abs/2308.11215v1 ) ライセンス: Link先を確認 | Sukanta Bhattacharyya, Soham Sen, and Sunandan Gangopadhyay | (参考訳) 本研究では,線形および二次運動量不確かさを持つ一般化不確かさ原理(GUP)フレームワークにおける重力波の共振バー検出器について考察する。
これらの検出器のフォノンモードは、入ってくる重力波との相互作用によって振動する。
この不確かさ原理の枠組みでは、これらの検出器の入射重力波によって引き起こされる共鳴周波数と遷移速度を計算する。
エネルギー固有状態と固有値が GUP パラメータによって修正されるのを観察する。
また, 二次GUP解析に存在しない一般化不確実性関係において, 線形次数モーメント補正の存在により, 隣り合う2つのエネルギー準位間の非消滅遷移確率を観測した。
量子グラブ。
37 (2020) 195006}].
最後に,この解析で得られた遷移率の形式を用いて,無次元gupパラメータの境界を求める。 In this work, we consider a resonant bar detector of gravitational wave in the generalized uncertainty principle (GUP) framework with linear and quadratic momentum uncertainties. The phonon modes in these detectors vibrate due to the interaction with the incoming gravitational wave. In this uncertainty principle framework, we calculate the resonant frequencies and transition rates induced by the incoming gravitational waves on these detectors. We observe that the energy eigenstates and the eigenvalues get modified by the GUP parameters. We also observe non-vanishing transition probabilities between two adjacent energy levels due to the existence of the linear order momentum correction in the generalized uncertainty relation which was not present in the quadratic GUP analysis [\href{http://dx.doi.org/10.1088/1361-6382/abac45}{Class. Quantum Grav. 37 (2020) 195006}]. We finally obtain bounds on the dimensionless GUP parameters using the form of the transition rates obtained during this analysis. | 翻訳日:2023-08-23 13:45:38 公開日:2023-08-22 |
# 多モード空間時間データモデリングのための簡易フレームワーク A Simple Framework for Multi-mode Spatial-Temporal Data Modeling ( http://arxiv.org/abs/2308.11204v1 ) ライセンス: Link先を確認 | Zihang Liu, Le Yu, Tongyu Zhu, Leiei Sun | (参考訳) 空間時間データモデリングは、システム内のオブジェクトの空間的関係と時間的依存関係をマイニングすることを目的としている。
しかし、既存の手法のほとんどは、複数のモードの理解を欠いた単一のモードでの空間-時間データのモデリングに焦点を当てている。
近年、マルチモード関係を学習する手法はほとんど提示されていないが、より高度なモデル複雑度を持つ複雑なコンポーネントの上に構築されている。
本稿では,実効性と効率性を兼ね備えたマルチモード空間-時間データモデリングのための簡易なフレームワークを提案する。
具体的には、複数のモード間の接続を適応的に確立し、学習された接続に沿って情報を伝達する一般的なモード空間関係学習コンポーネントを設計する。
さらに,概念的かつ技術的に簡潔な時間依存性とチャネル相関を捉えるために,多層パーセプトロンを用いる。
3つの実世界のデータセットの実験により、我々のモデルは、空間と時間の複雑さの低いベースラインを一貫して上回り、空間時間データをモデル化するための有望な方向を開くことができる。
クロスモード空間関係学習モジュールの一般化可能性も検証した。 Spatial-temporal data modeling aims to mine the underlying spatial relationships and temporal dependencies of objects in a system. However, most existing methods focus on the modeling of spatial-temporal data in a single mode, lacking the understanding of multiple modes. Though very few methods have been presented to learn the multi-mode relationships recently, they are built on complicated components with higher model complexities. In this paper, we propose a simple framework for multi-mode spatial-temporal data modeling to bring both effectiveness and efficiency together. Specifically, we design a general cross-mode spatial relationships learning component to adaptively establish connections between multiple modes and propagate information along the learned connections. Moreover, we employ multi-layer perceptrons to capture the temporal dependencies and channel correlations, which are conceptually and technically succinct. Experiments on three real-world datasets show that our model can consistently outperform the baselines with lower space and time complexity, opening up a promising direction for modeling spatial-temporal data. The generalizability of the cross-mode spatial relationships learning module is also validated. | 翻訳日:2023-08-23 13:45:22 公開日:2023-08-22 |
# SegRNN: 長期連続予測のためのセグメントリカレントニューラルネットワーク SegRNN: Segment Recurrent Neural Network for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2308.11200v1 ) ライセンス: Link先を確認 | Shengsheng Lin, Weiwei Lin, Wentai Wu, Feiyu Zhao, Ruichao Mo, Haotong Zhang | (参考訳) RNNベースの手法は、過度に長い振り返りウィンドウや予測水平線を扱う場合、LTSFドメインで困難に直面している。
その結果、この領域の優位性はTransformer、MLP、CNNアプローチへと移行した。
かなりの数の反復がltsfにおけるrnnの制限の背後にある基本的な理由である。
これらの課題に対処するため、我々はLTSFタスクにおけるRNNの反復回数を減らすための2つの新しい戦略を提案している。
これらの戦略を組み合わせたRNN、すなわちSegRNNはLTSFに必要な繰り返しイテレーションを大幅に削減し、予測精度と推論速度が大幅に向上した。
大規模な実験では、SegRNNはSOTA Transformerベースのモデルを上回るだけでなく、ランタイムとメモリ使用量を78%以上削減している。
これらの成果は、RNNがLTSFタスクを継続し続け、よりRNNベースのアプローチでこのドメインのさらなる探索を奨励する強い証拠となる。
ソースコードは近く公開される。 RNN-based methods have faced challenges in the Long-term Time Series Forecasting (LTSF) domain when dealing with excessively long look-back windows and forecast horizons. Consequently, the dominance in this domain has shifted towards Transformer, MLP, and CNN approaches. The substantial number of recurrent iterations are the fundamental reasons behind the limitations of RNNs in LTSF. To address these issues, we propose two novel strategies to reduce the number of iterations in RNNs for LTSF tasks: Segment-wise Iterations and Parallel Multi-step Forecasting (PMF). RNNs that combine these strategies, namely SegRNN, significantly reduce the required recurrent iterations for LTSF, resulting in notable improvements in forecast accuracy and inference speed. Extensive experiments demonstrate that SegRNN not only outperforms SOTA Transformer-based models but also reduces runtime and memory usage by more than 78%. These achievements provide strong evidence that RNNs continue to excel in LTSF tasks and encourage further exploration of this domain with more RNN-based approaches. The source code is coming soon. | 翻訳日:2023-08-23 13:45:02 公開日:2023-08-22 |
# 音声・言語・聴覚科学における一般化可能な機械学習モデルに向けて:パワー分析とサンプルサイズ推定 Toward Generalizable Machine Learning Models in Speech, Language, and Hearing Sciences: Power Analysis and Sample Size Estimation ( http://arxiv.org/abs/2308.11197v1 ) ライセンス: Link先を確認 | Hamzeh Ghasemzadeh, Robert E. Hillman, Daryush D. Mehta | (参考訳) この研究の第一の目的は、研究者がより堅牢なネストクロスバリデーション法を使う動機となる定量的証拠を提供することである。
第2の目的は,MLに基づく解析のための電力分析を行うための方法とMATLABコードを提供することである。
モンテカルロシミュレーションは、使用済みのクロスバリデーション法、特徴の判別力、特徴空間の次元、モデルの次元の間の相互作用を定量化するために用いられた。
MLモデルの統計力と統計的信頼度に基づいて,4種類のクロスバリデーション(シングルホールトアウト,10倍,列車バリデーションテスト,ネスト10倍)を比較した。
統計学的に有意な結果を得るために最小のサンプルサイズを決定するためにヌル仮説と代替仮説の分布を用いた({\alpha}=0.05, 1-\b{eta}=0.8)。
モデルの統計的信頼度は、正しい特徴が選択され、最終モデルに含まれる確率として定義された。
分析の結果,単一ホールドアウト法に基づくモデルは非常に低い統計的パワーと統計的信頼性を示し,精度を著しく過大評価した。
逆に、ネストした10倍のクロスバリデーションは、最も高い統計信頼と最も高い統計力をもたらし、その正確さの偏りのない推定を提供した。
単一のホールドアウトで必要なサンプルサイズは、ネストされたクロスバリデーションを使用する場合に必要なものよりも50%高い。
ネストされたクロスバリデーションに基づくモデルの信頼度は、単一のホールドアウトベースのモデルの信頼度より4倍も高かった。
計算モデル、MATLAB符号およびルックアップテーブルは、将来の研究の設計において、サンプルサイズを推定する研究者を支援するために提供される。 This study's first purpose is to provide quantitative evidence that would incentivize researchers to instead use the more robust method of nested cross-validation. The second purpose is to present methods and MATLAB codes for doing power analysis for ML-based analysis during the design of a study. Monte Carlo simulations were used to quantify the interactions between the employed cross-validation method, the discriminative power of features, the dimensionality of the feature space, and the dimensionality of the model. Four different cross-validations (single holdout, 10-fold, train-validation-test, and nested 10-fold) were compared based on the statistical power and statistical confidence of the ML models. Distributions of the null and alternative hypotheses were used to determine the minimum required sample size for obtaining a statistically significant outcome ({\alpha}=0.05, 1-\b{eta}=0.8). Statistical confidence of the model was defined as the probability of correct features being selected and hence being included in the final model. Our analysis showed that the model generated based on the single holdout method had very low statistical power and statistical confidence and that it significantly overestimated the accuracy. Conversely, the nested 10-fold cross-validation resulted in the highest statistical confidence and the highest statistical power, while providing an unbiased estimate of the accuracy. The required sample size with a single holdout could be 50% higher than what would be needed if nested cross-validation were used. Confidence in the model based on nested cross-validation was as much as four times higher than the confidence in the single holdout-based model. A computational model, MATLAB codes, and lookup tables are provided to assist researchers with estimating the sample size during the design of their future studies. | 翻訳日:2023-08-23 13:44:43 公開日:2023-08-22 |
# ML/DLモデルにおけるデータフローグラフの自動タスク並列化 Automatic Task Parallelization of Dataflow Graphs in ML/DL models ( http://arxiv.org/abs/2308.11192v1 ) ライセンス: Link先を確認 | Srinjoy Das, Lawrence Rauchwerger | (参考訳) トレーニングと推論のための機械学習(ml)またはディープラーニング(dl)モデルのパフォーマンスを加速するいくつかの方法が現在存在している。
しかし、様々なグラフや演算子並列化手法に依存する現代的な手法は、電力とハードウェアのコストのかかる探索空間の最適化に依存している。
特に推論の場合、バッチサイズが1でCPUや電力制約のあるエッジデバイス上での実行の場合、現在の技術はコストがかかり、複雑、あるいは適用不能になる可能性がある。
これを改善するために、MLデータフローグラフに固有の並列パスを利用するクリティカルパスベースの線形クラスタリング手法を提案する。
タスク並列化手法は, グラフのクローン化による構造を最適化し, 一定の伝播とデッドコード除去を施す。
他の作業とは対照的に、我々は"bf ramiel"と呼ばれる新しいツールを使って、入力mlモデルからonnxフォーマットで読みやすく実行可能な並列pytorch+pythonコードを生成する。
これにより、オプト内並列性やパイプライン並列性など、他のダウンストリームアクセラレーション技術の恩恵を受けることができます。
いくつかのmlグラフの予備結果は、シリアル実行よりも最大1.9$\times$ speedupを示し、コンパイルと実行の両方で現在のメカニズムを上回っています。
最後に,本手法は軽量かつ高速であり,電力・資源制約のあるデバイスに効果的に利用でき,下流での最適化も可能である。 Several methods exist today to accelerate Machine Learning(ML) or Deep-Learning(DL) model performance for training and inference. However, modern techniques that rely on various graph and operator parallelism methodologies rely on search space optimizations which are costly in terms of power and hardware usage. Especially in the case of inference, when the batch size is 1 and execution is on CPUs or for power-constrained edge devices, current techniques can become costly, complicated or inapplicable. To ameliorate this, we present a Critical-Path-based Linear Clustering approach to exploit inherent parallel paths in ML dataflow graphs. Our task parallelization approach further optimizes the structure of graphs via cloning and prunes them via constant propagation and dead-code elimination. Contrary to other work, we generate readable and executable parallel Pytorch+Python code from input ML models in ONNX format via a new tool that we have built called {\bf Ramiel}. This allows us to benefit from other downstream acceleration techniques like intra-op parallelism and potentially pipeline parallelism. Our preliminary results on several ML graphs demonstrate up to 1.9$\times$ speedup over serial execution and outperform some of the current mechanisms in both compile and runtimes. Lastly, our methods are lightweight and fast enough so that they can be used effectively for power and resource-constrained devices, while still enabling downstream optimizations. | 翻訳日:2023-08-23 13:44:13 公開日:2023-08-22 |
# MISSRec:レコメンデーションのためのマルチモーダルな関心認識シーケンスの事前学習と転送 MISSRec: Pre-training and Transferring Multi-modal Interest-aware Sequence Representation for Recommendation ( http://arxiv.org/abs/2308.11175v1 ) ライセンス: Link先を確認 | Jinpeng Wang, Ziyun Zeng, Yunxiao Wang, Yuting Wang, Xingyu Lu, Tianxiang Li, Jun Yuan, Rui Zhang, Hai-Tao Zheng, Shu-Tao Xia | (参考訳) シーケンシャルレコメンデーション(SR)の目標は、ユーザが興味を持つ可能性のある項目を、履歴的なインタラクションシーケンスに基づいて予測することである。
既存のシーケンシャルレコメンデータは、広く使われているにもかかわらず、スパースIDが不足し、コールドスタート問題に苦慮することが多いID機能に基づいて開発されている。
さらに、一貫性のないIDマッピングはモデルの転送可能性を妨げるため、共最適化可能な類似のレコメンデーションドメインを分離する。
本稿では,多モード情報の可能性を探り,頑健で一般化可能なシーケンス表現を学習することを目的としている。
SRのためのマルチモーダル事前学習および転送学習フレームワークであるMISSRecを提案する。
ユーザ側では、コンテクストエンコーダがシーケンスレベルのマルチモーダルシナジーをキャプチャするために学習するトランスフォーマティブベースのエンコーダ-デコーダモデルを設計するとともに、より優れたシーケンス表現のためにアイテムモダリティ-対話関係を把握すべく、新たな関心認識デコーダを開発した。
候補項目側では動的融合モジュールを用いてユーザ適応アイテム表現を生成し,ユーザとアイテム間のより正確なマッチングを実現する。
コントラスト学習目標を用いてモデルを事前学習し,効率的に微調整する。
広範囲な実験がmissrecの有効性と柔軟性を示し、実世界のレコメンデーションシナリオのための実用的なソリューションを約束している。 The goal of sequential recommendation (SR) is to predict a user's potential interested items based on her/his historical interaction sequences. Most existing sequential recommenders are developed based on ID features, which, despite their widespread use, often underperform with sparse IDs and struggle with the cold-start problem. Besides, inconsistent ID mappings hinder the model's transferability, isolating similar recommendation domains that could have been co-optimized. This paper aims to address these issues by exploring the potential of multi-modal information in learning robust and generalizable sequence representations. We propose MISSRec, a multi-modal pre-training and transfer learning framework for SR. On the user side, we design a Transformer-based encoder-decoder model, where the contextual encoder learns to capture the sequence-level multi-modal synergy while a novel interest-aware decoder is developed to grasp item-modality-interest relations for better sequence representation. On the candidate item side, we adopt a dynamic fusion module to produce user-adaptive item representation, providing more precise matching between users and items. We pre-train the model with contrastive learning objectives and fine-tune it in an efficient manner. Extensive experiments demonstrate the effectiveness and flexibility of MISSRec, promising an practical solution for real-world recommendation scenarios. | 翻訳日:2023-08-23 13:43:50 公開日:2023-08-22 |
# 分散と機械学習を用いたインフレーション予測 Forecasting inflation using disaggregates and machine learning ( http://arxiv.org/abs/2308.11173v1 ) ライセンス: Link先を確認 | Gilberto Boaretto and Marcelo C. Medeiros | (参考訳) 本稿では, ボトムアップ手法として文献で知られている非凝集予測の集約に着目し, インフレ予測手法の有効性を検討する。
ブラジルのケースを応用として、インフレーションの異なる分散レベルを検討し、線形および非線形機械学習(ML)モデルと同様に、様々な伝統的な時系列技術を用いて、より多くの予測子を扱う。
多くの予測地平線において、集計された予測の集約は、集計から直接予測を生成する調査ベースの予測やモデルと同様に実行される。
総じて、ML法は従来の時系列モデルを予測精度で上回り、デアグリゲートの予測性能に優れていた。
本研究は,主に揮発期におけるML手法からの非凝集予測の集約を含む,インフレ予測のためのデータ豊富な環境におけるモデルの利用のメリットを裏付けるものである。
新型コロナウイルス(COVID-19)のパンデミック(パンデミック)から始まり、集合的・非凝集的なインフレーションに基づくランダムな森林モデルは、中間地平線とより長い地平線において顕著な予測性能を達成する。 This paper examines the effectiveness of several forecasting methods for predicting inflation, focusing on aggregating disaggregated forecasts - also known in the literature as the bottom-up approach. Taking the Brazilian case as an application, we consider different disaggregation levels for inflation and employ a range of traditional time series techniques as well as linear and nonlinear machine learning (ML) models to deal with a larger number of predictors. For many forecast horizons, the aggregation of disaggregated forecasts performs just as well survey-based expectations and models that generate forecasts using the aggregate directly. Overall, ML methods outperform traditional time series models in predictive accuracy, with outstanding performance in forecasting disaggregates. Our results reinforce the benefits of using models in a data-rich environment for inflation forecasting, including aggregating disaggregated forecasts from ML techniques, mainly during volatile periods. Starting from the COVID-19 pandemic, the random forest model based on both aggregate and disaggregated inflation achieves remarkable predictive performance at intermediate and longer horizons. | 翻訳日:2023-08-23 13:43:21 公開日:2023-08-22 |
# 人気バイアス軽減のためのテスト時間埋め込み正規化 Test Time Embedding Normalization for Popularity Bias Mitigation ( http://arxiv.org/abs/2308.11288v1 ) ライセンス: Link先を確認 | Dain Kim, Jinhyeok Park, Dongwoo Kim | (参考訳) 人気度バイアスはレコメンデーションシステムにおいて広く問題であり、人気のあるアイテムがレコメンデーション結果を支配する傾向にある。
本研究では,従来の緩和アプローチの性能を大幅に上回る人気バイアスを緩和するための,単純かつ効果的な戦略として「テスト時間埋め込み正規化」を提案する。
提案手法は, 推定段階での正規化アイテム埋め込みを利用して, アイテムの人気度と高い相関性を有する埋め込みサイズの影響を制御している。
実験により,本手法とサンプルソフトマックス損失を組み合わせることで,従来のバイアス緩和手法と比較して,人気バイアスを効果的に低減できることを示した。
ユーザとアイテムの埋め込みの関係をさらに調査し,その人気に関わらず,埋め込み間の角相似性が望ましい項目と予測できない項目を区別できることを見出した。
この分析は、人気バイアスの影響を排除するためのアプローチの成功のメカニズムを説明する。
私たちのコードはhttps://github.com/ml-postech/ttenで利用可能です。 Popularity bias is a widespread problem in the field of recommender systems, where popular items tend to dominate recommendation results. In this work, we propose 'Test Time Embedding Normalization' as a simple yet effective strategy for mitigating popularity bias, which surpasses the performance of the previous mitigation approaches by a significant margin. Our approach utilizes the normalized item embedding during the inference stage to control the influence of embedding magnitude, which is highly correlated with item popularity. Through extensive experiments, we show that our method combined with the sampled softmax loss effectively reduces popularity bias compare to previous approaches for bias mitigation. We further investigate the relationship between user and item embeddings and find that the angular similarity between embeddings distinguishes preferable and non-preferable items regardless of their popularity. The analysis explains the mechanism behind the success of our approach in eliminating the impact of popularity bias. Our code is available at https://github.com/ml-postech/TTEN. | 翻訳日:2023-08-23 13:38:43 公開日:2023-08-22 |
# PCMC-T1: 運動補正による自由呼吸心筋T1マッピング PCMC-T1: Free-breathing myocardial T1 mapping with Physically-Constrained Motion Correction ( http://arxiv.org/abs/2308.11281v1 ) ライセンス: Link先を確認 | Eyal Hanania, Ilya Volovik, Lilach Barkat, Israel Cohen and Moti Freiman | (参考訳) T1マッピングは、拡散性心筋疾患の診断に有用なツールとして登場した定量的磁気共鳴イメージング(qMRI)技術である。
しかし、一般的なアプローチは呼吸運動アーティファクトを除去するために呼吸保持配列に大きく依存している。
この制限は、呼吸保持を許容できない患者のアクセシビリティと有効性を妨げる。
画像登録は、無料のT1マッピングを可能にするために使用できる。
しかし、異なる時間ポイント間の固有の強度差は、登録タスクを難しくする。
自由呼吸T1マッピングにおける動作補正のための物理制約付きディープラーニングモデルであるPCMC-T1を紹介する。
信号減衰モデルをネットワークアーキテクチャに組み込んで、縦方向緩和軸に沿った物理的に楽観的な変形を促す。
210名の患者を対象に,5倍の実験セットアップを用いて,pcmc-t1をベースラインディープラーニングに基づく画像登録手法と比較した。
PCMC-T1は、ベースライン法(0.941, 0.946, 3.34, 3.62)と比較して、優れたモデル適合性(R2: 0.955)を示し、最も高い臨床効果(臨床スコア: 3.93)を達成した。
解剖学的アライメントの結果は同等であった(Dice score: 0.9835 vs. 0.984, 0.988)。
私たちのコードとトレーニングされたモデルはhttps://github.com/eyalhana/pcmc-t1で利用可能です。 T1 mapping is a quantitative magnetic resonance imaging (qMRI) technique that has emerged as a valuable tool in the diagnosis of diffuse myocardial diseases. However, prevailing approaches have relied heavily on breath-hold sequences to eliminate respiratory motion artifacts. This limitation hinders accessibility and effectiveness for patients who cannot tolerate breath-holding. Image registration can be used to enable free-breathing T1 mapping. Yet, inherent intensity differences between the different time points make the registration task challenging. We introduce PCMC-T1, a physically-constrained deep-learning model for motion correction in free-breathing T1 mapping. We incorporate the signal decay model into the network architecture to encourage physically-plausible deformations along the longitudinal relaxation axis. We compared PCMC-T1 to baseline deep-learning-based image registration approaches using a 5-fold experimental setup on a publicly available dataset of 210 patients. PCMC-T1 demonstrated superior model fitting quality (R2: 0.955) and achieved the highest clinical impact (clinical score: 3.93) compared to baseline methods (0.941, 0.946 and 3.34, 3.62 respectively). Anatomical alignment results were comparable (Dice score: 0.9835 vs. 0.984, 0.988). Our code and trained models are available at https://github.com/eyalhana/PCMC-T1. | 翻訳日:2023-08-23 13:38:26 公開日:2023-08-22 |
# FoX:マルチエージェント強化学習における構成認識探索 FoX: Formation-aware exploration in multi-agent reinforcement learning ( http://arxiv.org/abs/2308.11272v1 ) ライセンス: Link先を確認 | Yonghyeon Jo, Sunwoo Lee, Junghyuk Yum, Seungyul Han | (参考訳) 近年,様々な協調型マルチエージェントタスクの成功により,マルチエージェント強化学習(marl)が注目されている。
しかし、MARLではエージェントの部分的な観測可能性や、エージェントの数が増加するにつれて指数関数的に増加する探索空間が問題となっている。
まず,探索空間のスケーラビリティ問題に対処するため,探索空間における構成に基づく等価性関係を定義し,異なる構成の有意義な状態のみを探索することによって探索空間の縮小を目指す。
そこで本研究では, 様々な形態において, 部分的に観察可能なエージェントに対して, 自らの観察に基づいてのみ, 現形成をよく認識するように指導する, 新たな形成認識探索(fox)フレームワークを提案する。
Google Research Football (GRF) とSparse Starcraft II multi-agent Challenge (SMAC) のタスクにおいて,提案したFoXフレームワークは最先端のMARLアルゴリズムよりも大幅に優れていた。 Recently, deep multi-agent reinforcement learning (MARL) has gained significant popularity due to its success in various cooperative multi-agent tasks. However, exploration still remains a challenging problem in MARL due to the partial observability of the agents and the exploration space that can grow exponentially as the number of agents increases. Firstly, in order to address the scalability issue of the exploration space, we define a formation-based equivalence relation on the exploration space and aim to reduce the search space by exploring only meaningful states in different formations. Then, we propose a novel formation-aware exploration (FoX) framework that encourages partially observable agents to visit the states in diverse formations by guiding them to be well aware of their current formation solely based on their own observations. Numerical results show that the proposed FoX framework significantly outperforms the state-of-the-art MARL algorithms on Google Research Football (GRF) and sparse Starcraft II multi-agent challenge (SMAC) tasks. | 翻訳日:2023-08-23 13:38:02 公開日:2023-08-22 |
# 陰謀のない超決定論 Superdeterminism Without Conspirary ( http://arxiv.org/abs/2308.11262v1 ) ライセンス: Link先を確認 | Tim Palmer | (参考訳) ベルの定理における測定-独立性の仮定が破られる超決定論は、通常、測定される特性の lambda$ と、名目上正確な測定設定 $x$ と $y$ の相補的相関を暗示しているように見えるため、決定論で扱われる。
x$ と y$ が自由変数であるかどうかを決定するのに必要なペルシャの介入の分析に基づいて、陰謀は超決定論を意味するが、超決定論は共謀を含まないことを示す。
共振超決定論では、これらの介入は物理理論と一致し、非共振超決定論ではそれらは矛盾する。
カオス的アトラクタの汎用的性質と、複素ヒルベルト空間の任意に微妙な離散化に基づく非共謀的局所-陰極超決定論的モデルを開発した。
ここで必要な介入は、正確な測定設定の有理数制約である$x$と$y$と矛盾する。
このモデルでは、隠れた変数 $\lambda$ は情報として定義され、自由に選ばれた行列式 $x$ と $y$ の前後で、$x$ と $y$ が決定される。
これらの合理性制約は、$x$と$y$が$\lambda$を固定する自由を制限する。
これらの制約は、$\lambda$と$X$の粗いグレーニングで消える。
量子力学がヒルベルト空間の超決定論的離散化の特異連続体極限として ‘glorily explained and derived’ される可能性を示す。
ベルの定理の背後にある真のメッセージは、基礎物理学(特に重力物理学)のより包括的な理論を開発する必要性であると主張している。 Superdeterminism -- where the Measurement-Independence assumption in Bell's Theorem is violated -- is typically treated with derision as it appears to imply contrived conspiratorial correlations between properties $\lambda$ of particles being measured, and nominally accurate measurement settings $x$ and $y$. Based on an analysis of Pearlean interventions needed to determine whether $x$ and $y$ are free variables, we show that whilst conspiracy implies superdeterminism, superdeterminism does not imply conspiracy. In conspiratorial superdeterminism these interventions are consistent with physical theory; in non-conspiratorial superdeterminism they are inconsistent. A non-conspiratorial locally-causal superdeterministic model is developed, based in part on the generic properties of chaotic attractors and in part on an arbitrarily fine discretisation of complex Hilbert Space. Here the required interventions are inconsistent with rational-number constraints on exact measurement settings $X$ and $Y$. In this model, hidden variables $\lambda$ are defined as the information, over and above the freely chosen determinants of $x$ and $y$, which determine $X$ and $Y$. These rationality constraints limit the freedom to vary $x$ and $y$ keeping $\lambda$ fixed. These constraints disappear with any coarse-graining of $\lambda$ and hence $X$. We show how quantum mechanics might be `gloriously explained and derived' as the singular continuum limit of a superdeterministic discretisation of Hilbert Space. We argue that the real message behind Bell's Theorem is the need to develop more holistic theories of fundamental physics -- notably gravitational physics -- some ideas for moving in this direction are discussed. | 翻訳日:2023-08-23 13:37:30 公開日:2023-08-22 |
# 階層を爆発させるSグラフの高速最適化 Faster Optimization in S-Graphs Exploiting Hierarchy ( http://arxiv.org/abs/2308.11242v1 ) ライセンス: Link先を確認 | Hriday Bavle, Jose Luis Sanchez-Lopez, Javier Civera, Holger Voos | (参考訳) 3次元シーングラフは、様々な層に異なる環境エンティティを適切に整理する環境を階層的に表現する。
状況グラフに関するこれまでの研究は、3Dシーングラフの概念をSLAMに拡張し、ロボットのポーズをシーングラフエンティティと密結合させ、最先端の結果を得る。
しかし、Sグラフの限界の1つは、時間とともにグラフのサイズが増大し、計算の複雑さが増大するため、本当に大きな環境におけるスケーラビリティである。
本研究では,この制限を克服するために,冗長なロボットのポーズと同一構造体の観察との関係を疎外することにより,グラフサイズを小さくするため,階層構造を利用したSグラフの改良版を最初に提案する。
まず,部屋構造内のすべてのグラフエンティティを包含するルームローカルグラフの生成と最適化を提案する。
これらの部屋局所グラフは、部屋内の冗長なロボットキーフレームを疎外するSグラフを圧縮するために使用される。
次に,一定時間間隔で圧縮グラフの窓付き局所最適化を行う。
ループクロージャが検出される度に圧縮グラフのグローバル最適化を行う。
ベースラインに対する計算時間を39.81%削減しながら,ベースラインと同等の精度を示す。 3D scene graphs hierarchically represent the environment appropriately organizing different environmental entities in various layers. Our previous work on situational graphs extends the concept of 3D scene graph to SLAM by tightly coupling the robot poses with the scene graph entities, achieving state-of-the-art results. Though, one of the limitations of S-Graphs is scalability in really large environments due to the increased graph size over time, increasing the computational complexity. To overcome this limitation in this work we present an initial research of an improved version of S-Graphs exploiting the hierarchy to reduce the graph size by marginalizing redundant robot poses and their connections to the observations of the same structural entities. Firstly, we propose the generation and optimization of room-local graphs encompassing all graph entities within a room-like structure. These room-local graphs are used to compress the S-Graphs marginalizing the redundant robot keyframes within the given room. We then perform windowed local optimization of the compressed graph at regular time-distance intervals. A global optimization of the compressed graph is performed every time a loop closure is detected. We show similar accuracy compared to the baseline while showing a 39.81% reduction in the computation time with respect to the baseline. | 翻訳日:2023-08-23 13:36:25 公開日:2023-08-22 |
# 話者識別のための効果的な変圧器型文脈モデルと時間ゲートプーリング An Effective Transformer-based Contextual Model and Temporal Gate Pooling for Speaker Identification ( http://arxiv.org/abs/2308.11241v1 ) ライセンス: Link先を確認 | Harunori Kawano and Sota Shimizu | (参考訳) Wav2vec2はトランスフォーマーアーキテクチャと自己教師型学習を音声認識に適用することに成功した。
近年,これらは音声認識だけでなく,音声処理全般にも利用されるようになった。
本稿では,トランスフォーマーに基づく文脈モデルを適用した,効果的なエンドツーエンド話者識別モデルを提案する。
実効モデルの構造を明らかにするために,パラメータと性能の関係について検討した。
さらに,話者識別のための強力な学習能力を有するプール方式であるtemporal gate poolingを提案する。
コーダとしてconformerを適用し,事前学習にbest-rqを適用し,voxceleb1の話者識別を用いた評価を行った。
提案手法は28.5Mパラメータで85.9%の精度を達成し、317.7Mパラメータでwav2vec2に匹敵する精度を示した。
コードはhttps://github.com/HarunoriKawano/speaker-identification-with-tgpで入手できる。 Wav2vec2 has achieved success in applying Transformer architecture and self-supervised learning to speech recognition. Recently, these have come to be used not only for speech recognition but also for the entire speech processing. This paper introduces an effective end-to-end speaker identification model applied Transformer-based contextual model. We explored the relationship between the parameters and the performance in order to discern the structure of an effective model. Furthermore, we propose a pooling method, Temporal Gate Pooling, with powerful learning ability for speaker identification. We applied Conformer as encoder and BEST-RQ for pre-training and conducted an evaluation utilizing the speaker identification of VoxCeleb1. The proposed method has achieved an accuracy of 85.9% with 28.5M parameters, demonstrating comparable precision to wav2vec2 with 317.7M parameters. Code is available at https://github.com/HarunoriKawano/speaker-identification-with-tgp. | 翻訳日:2023-08-23 13:35:51 公開日:2023-08-22 |
# 特徴の挿入と削除を伴うマイナー非依存的な置換 Minwise-Independent Permutations with Insertion and Deletion of Features ( http://arxiv.org/abs/2308.11240v1 ) ライセンス: Link先を確認 | Rameshwar Pratap and Raghav Kulkarni | (参考訳) 独創的な著作では、broder \textit{et。
アル
}~\citep{brodercfm98} は$\mathrm{minhash}$アルゴリズムを導入し、ペアワイズジャッカーの類似性に密接に近い高次元バイナリデータの低次元スケッチを計算する。
その発明以来、$\mathrm{minhash}$は様々なビッグデータアプリケーションで実践者が一般的に使用してきた。
さらに、データは現実のシナリオの多くで動的であり、その機能セットは時間とともに進化します。
この機能がデータセットに動的に挿入され、削除される場合を考える。
この問題に対するナイーブな解決策は、更新された次元に関して繰り返し$\mathrm{minhash}$を再計算することである。
しかし、新しいランダムな置換を生成する必要があるため、これは高価なタスクである。
我々の知る限りでは、$\mathrm{minHash}$の体系的な研究は、機能の動的挿入と削除という文脈で記録されていない。
本研究では,この研究を開始し,特徴の動的挿入と削除に適応する$\mathrm{minHash}$スケッチを実現するアルゴリズムを提案する。
アルゴリズムの厳密な理論的解析を行い、実世界の複数のデータセットに関する広範な実験を補完する。
経験的に、実行時の大幅なスピードアップを観察しながら、スクラッチから$\mathrm{minHash}$の実行に対して同等のパフォーマンスを提供する。
私たちの提案は効率的で正確で、実践が容易です。 In their seminal work, Broder \textit{et. al.}~\citep{BroderCFM98} introduces the $\mathrm{minHash}$ algorithm that computes a low-dimensional sketch of high-dimensional binary data that closely approximates pairwise Jaccard similarity. Since its invention, $\mathrm{minHash}$ has been commonly used by practitioners in various big data applications. Further, the data is dynamic in many real-life scenarios, and their feature sets evolve over time. We consider the case when features are dynamically inserted and deleted in the dataset. We note that a naive solution to this problem is to repeatedly recompute $\mathrm{minHash}$ with respect to the updated dimension. However, this is an expensive task as it requires generating fresh random permutations. To the best of our knowledge, no systematic study of $\mathrm{minHash}$ is recorded in the context of dynamic insertion and deletion of features. In this work, we initiate this study and suggest algorithms that make the $\mathrm{minHash}$ sketches adaptable to the dynamic insertion and deletion of features. We show a rigorous theoretical analysis of our algorithms and complement it with extensive experiments on several real-world datasets. Empirically we observe a significant speed-up in the running time while simultaneously offering comparable performance with respect to running $\mathrm{minHash}$ from scratch. Our proposal is efficient, accurate, and easy to implement in practice. | 翻訳日:2023-08-23 13:35:36 公開日:2023-08-22 |
# ROSGPT_Vision:言語モデルのみを用いたロボットの指令 ROSGPT_Vision: Commanding Robots Using Only Language Models' Prompts ( http://arxiv.org/abs/2308.11236v1 ) ライセンス: Link先を確認 | Bilel Benjdira, Anis Koubaa, Anas M. Ali | (参考訳) 本稿では,次世代ロボットは言語モデルのみのプロンプトで操作可能であることを論じる。
各プロンプトは、そのモダリティ言語モデル(MLM)を介して、特定のロボットモダリティを個別に問う。
中央タスクモダリティは、大きな言語モデル(LLM)を介してロボットミッションを実行するための通信全体を仲介する。
本稿では,新しいロボットデザインパターンであるpromping robot modalities (prm) について述べる。
さらに,このPRM設計パターンをROSGPT_Visionという新しいロボットフレームワークの構築に適用する。
ROSGPT_Visionは、ビジュアルプロンプトとLCMプロンプトの2つのプロンプトのみを使用して、ロボットタスクの実行を可能にする。
視覚的なプロンプトは、自然言語において、検討中のタスク(視覚ロボットモダリティ)に関連する視覚的な意味的特徴を抽出する。
一方、LLM Promptは視覚的記述(Task Modality)に対するロボット反応を規制している。
このフレームワークは、2つのプロンプトの背後にあるすべてのメカニズムを自動化する。
このフレームワークは、視覚データを処理し、情報的決定を行い、自動的にアクションを実行することで、複雑な現実世界のシナリオに対処することができる。
このフレームワークは1つのジェネリックビジョンモジュールと2つの独立したROSノードから構成される。
テストアプリケーションとして ROSGPT_Vision を用いたCarMate の開発を行った。
ROSGPT_Visionは従来の手法に比べて開発コストを大幅に削減した。
我々は、プロンプト戦略を最適化することで、技術的な詳細を掘り下げることなく、アプリケーションの品質を改善する方法を示した。
ROSGPT_Visionはコミュニティ(リンク:https://github.com/bilel-bj/ROSGPT_Vision)と共有されており、この方向にロボットの研究を進め、PRMデザインパターンを実装し、プロンプトのみを使用してロボットを制御できるようにする。 In this paper, we argue that the next generation of robots can be commanded using only Language Models' prompts. Every prompt interrogates separately a specific Robotic Modality via its Modality Language Model (MLM). A central Task Modality mediates the whole communication to execute the robotic mission via a Large Language Model (LLM). This paper gives this new robotic design pattern the name of: Prompting Robotic Modalities (PRM). Moreover, this paper applies this PRM design pattern in building a new robotic framework named ROSGPT_Vision. ROSGPT_Vision allows the execution of a robotic task using only two prompts: a Visual and an LLM prompt. The Visual Prompt extracts, in natural language, the visual semantic features related to the task under consideration (Visual Robotic Modality). Meanwhile, the LLM Prompt regulates the robotic reaction to the visual description (Task Modality). The framework automates all the mechanisms behind these two prompts. The framework enables the robot to address complex real-world scenarios by processing visual data, making informed decisions, and carrying out actions automatically. The framework comprises one generic vision module and two independent ROS nodes. As a test application, we used ROSGPT_Vision to develop CarMate, which monitors the driver's distraction on the roads and makes real-time vocal notifications to the driver. We showed how ROSGPT_Vision significantly reduced the development cost compared to traditional methods. We demonstrated how to improve the quality of the application by optimizing the prompting strategies, without delving into technical details. ROSGPT_Vision is shared with the community (link: https://github.com/bilel-bj/ROSGPT_Vision) to advance robotic research in this direction and to build more robotic frameworks that implement the PRM design pattern and enables controlling robots using only prompts. | 翻訳日:2023-08-23 13:35:13 公開日:2023-08-22 |
# ディープニューラルネットワークにおける自己相互チェックパラメータを用いた適応型ホワイトボックス透かし Adaptive White-Box Watermarking with Self-Mutual Check Parameters in Deep Neural Networks ( http://arxiv.org/abs/2308.11235v1 ) ライセンス: Link先を確認 | Zhenzhe Gao, Zhaoxia Yin, Hongjian Zhan, Heng Yin, Yue Lu | (参考訳) 人工知能(AI)は広く応用されているが、デプロイ中に意図しない、悪意のない改ざんによってリスクも生じる。
したがって、このようなリスクを検出し防止するには定期的なチェックが必要である。
フレージル透かし(Fragile watermarking)は、AIモデルの改ざんを識別する技法である。
しかし, 従来の手法では, 脱落リスク, 追加情報伝送, 改ざんの正確な検出が困難であった。
本稿では,改ざんパラメータやビットを検出する手法を提案し,改ざんパラメータを検出・発見・復元する手法を提案する。
また,モデル精度を維持しながら情報容量を最大化する適応埋め込み手法を提案する。
提案手法は,重みパラメータを修正した攻撃を受ける複数のニューラルネットワーク上でテストし,修正率が20%未満であった場合,本手法が高い回復性を示した。
さらに,透かしが精度に大きく影響したモデルに対して,適応ビット法を用いてモデルの精度損失の15%以上を復元した。 Artificial Intelligence (AI) has found wide application, but also poses risks due to unintentional or malicious tampering during deployment. Regular checks are therefore necessary to detect and prevent such risks. Fragile watermarking is a technique used to identify tampering in AI models. However, previous methods have faced challenges including risks of omission, additional information transmission, and inability to locate tampering precisely. In this paper, we propose a method for detecting tampered parameters and bits, which can be used to detect, locate, and restore parameters that have been tampered with. We also propose an adaptive embedding method that maximizes information capacity while maintaining model accuracy. Our approach was tested on multiple neural networks subjected to attacks that modified weight parameters, and our results demonstrate that our method achieved great recovery performance when the modification rate was below 20%. Furthermore, for models where watermarking significantly affected accuracy, we utilized an adaptive bit technique to recover more than 15% of the accuracy loss of the model. | 翻訳日:2023-08-23 13:34:41 公開日:2023-08-22 |
# 生涯多エージェント経路探索のための交通流最適化 Traffic Flow Optimisation for Lifelong Multi-Agent Path Finding ( http://arxiv.org/abs/2308.11234v1 ) ライセンス: Link先を確認 | Zhe Chen, Daniel Harabor, Jioyang Li, Peter J. Stuckey | (参考訳) Multi-Agent Path Finding (MAPF)は、ロボット工学の基本的問題であり、エージェントのチームが衝突のない経路を計算し、全員が共有マップを横切るように要求する。
この話題には多くの研究があるが、エージェントの数が増えるにつれて、現在のアルゴリズムはすべて苦労している。
主な理由は、既存のアプローチが通常、渋滞を引き起こす自由フロー最適経路を計画しているからである。
この問題に取り組むため,我々は,エージェントが混雑回避経路をたどって目的地へ誘導する新しい手法を提案する。
各エージェントがひとつの宛先を持つワンショットMAPFと,エージェントが常に新しいタスクを割り当てる生涯MAPFの2つの大規模設定でこのアイデアを評価する。
MAPFの場合、我々のアプローチはソリューションの品質を大幅に改善する。
Lifelong MAPF ではスループットに大きな改善が報告されている。 Multi-Agent Path Finding (MAPF) is a fundamental problem in robotics that asks us to compute collision-free paths for a team of agents, all moving across a shared map. Although many works appear on this topic, all current algorithms struggle as the number of agents grows. The principal reason is that existing approaches typically plan free-flow optimal paths, which creates congestion. To tackle this issue we propose a new approach for MAPF where agents are guided to their destination by following congestion-avoiding paths. We evaluate the idea in two large-scale settings: one-shot MAPF, where each agent has a single destination, and lifelong MAPF, where agents are continuously assigned new tasks. For one-shot MAPF we show that our approach substantially improves solution quality. For Lifelong MAPF we report large improvements in overall throughput. | 翻訳日:2023-08-23 13:34:25 公開日:2023-08-22 |
# 完全渦ビームを用いたリングコアファイバーによる光通信信号の伝送 Transmission of optical communication signals through ring core fiber using perfect vortex beams ( http://arxiv.org/abs/2308.11354v1 ) ライセンス: Link先を確認 | Nelson Villalba, Crist\'obal Melo, Sebasti\'an Ayala, Christopher Mancilla, Wladimir Valenzuela, Miguel Figueroa, Erik Baradit, Riu Lin, Ming Tang, Stephen P. Walborn, Gustavo Lima, Gabriel Saavedra, Gustavo Ca\~nas | (参考訳) 軌道角運動量は、古典的および量子通信に適用可能な高容量のデータ伝送システムの実装に使用できる。
本稿では,リングコア光ファイバにおける完全渦ビームとラゲール・ガウスビームの発生と伝送特性について実験的に検討する。
以上の結果から, 単一調製段階では, 完全な渦ビームはリングラジウスの変動が少なく, 高い光学パワーをリングコアファイバーに結合できることがわかった。
これらの結果は、軌道角運動量を用いたファイバーベースの通信リンクを確立するための電力要件を低下させ、空間分割多重ファイバ上の高次元量子通信の将来の実装の舞台を定めている。 Orbital angular momentum can be used to implement high capacity data transmission systems that can be applied for classical and quantum communications. Here we experimentally study the generation and transmission properties of the so-called perfect vortex beams and the Laguerre-Gaussian beams in ring-core optical fibers. Our results show that when using a single preparation stage, the perfect vortex beams present less ring-radius variation that allows coupling of higher optical power into a ring core fiber. These results lead to lower power requirements to establish fiber-based communications links using orbital angular momentum and set the stage for future implementations of high-dimensional quantum communication over space division multiplexing fibers. | 翻訳日:2023-08-23 13:26:34 公開日:2023-08-22 |
# 探査における評価と曲げの注意 Careful at Estimation and Bold at Exploration ( http://arxiv.org/abs/2308.11348v1 ) ライセンス: Link先を確認 | Xing Chen, Yijun Liu, Zhaogeng Liu, Hechang Chen, Hengshuai Yao, Yi Chang | (参考訳) 連続的な行動空間における探索戦略は無限の作用のためにしばしばヒューリスティックであり、この種の方法は一般的な結論を引き出すことができない。
従来,政策に基づく探索は決定論的政策強化学習(DPRL)において連続的な行動空間に有用であることが示されている。
しかし、DPRLにおける政策に基づく探索には、目的のない探索と政策のばらつきという2つの大きな問題がある。
二重Q関数の枠組みに基づき、政策勾配とは別に、これらの問題を緩和するための新たな探索戦略を導入する。
まず、Q値更新のためのgreedy Q softmax update schemaを提案する。
期待Q値は、動作よりも保守Q値を合計した重み付けにより導出され、重みは対応する欲求Q値である。
グレディ Q は二つの Q 関数の最大値をとり、保守 Q は二つの異なる Q 関数の最小値を取る。
実用上、この理論的基盤は、この探索方針のように振る舞う代理政策があるという前提を除いて、行動探索とQ値の更新を組み合わせられるように拡張される。
実際には,いくつかのサンプル化された行動を伴う探索政策を構築し,その前提を満たすために,目標政策と保守的qで構築された探索政策とのklの相違を最小限に抑えることにより,このような代理政策を学習する。 Exploration strategies in continuous action space are often heuristic due to the infinite actions, and these kinds of methods cannot derive a general conclusion. In prior work, it has been shown that policy-based exploration is beneficial for continuous action space in deterministic policy reinforcement learning(DPRL). However, policy-based exploration in DPRL has two prominent issues: aimless exploration and policy divergence, and the policy gradient for exploration is only sometimes helpful due to inaccurate estimation. Based on the double-Q function framework, we introduce a novel exploration strategy to mitigate these issues, separate from the policy gradient. We first propose the greedy Q softmax update schema for Q value update. The expected Q value is derived by weighted summing the conservative Q value over actions, and the weight is the corresponding greedy Q value. Greedy Q takes the maximum value of the two Q functions, and conservative Q takes the minimum value of the two different Q functions. For practicality, this theoretical basis is then extended to allow us to combine action exploration with the Q value update, except for the premise that we have a surrogate policy that behaves like this exploration policy. In practice, we construct such an exploration policy with a few sampled actions, and to meet the premise, we learn such a surrogate policy by minimizing the KL divergence between the target policy and the exploration policy constructed by the conservative Q. We evaluate our method on the Mujoco benchmark and demonstrate superior performance compared to previous state-of-the-art methods across various environments, particularly in the most complex Humanoid environment. | 翻訳日:2023-08-23 13:26:20 公開日:2023-08-22 |
# Google Earth Engineに実装された機械学習アルゴリズムを用いた地球表面分類のためのSentinel-1とSentinel-2データの統合 Integration of Sentinel-1 and Sentinel-2 data for Earth surface classification using Machine Learning algorithms implemented on Google Earth Engine ( http://arxiv.org/abs/2308.11340v1 ) ライセンス: Link先を確認 | Francesca Razzano and Mariapia Rita Iandolo and Chiara Zarro and G. S. Yogesh and Silvia Liberata Ullo | (参考訳) 本研究では, 合成開口レーダ (sar) と光学データを用いて地球表面の分類を行った。
具体的には、特定の関心領域の分類のためにGoogle Earth Engine(GEE)プラットフォーム上に実装された教師あり機械学習(ML)アルゴリズムを用いて、Sentinel-1(S-1)とSentinel-2(S-2)のデータの統合を行う。
その結果, レーダーと光リモート検出が補完的情報を提供し, 表面被覆分類の利点を享受し, マッピング精度の向上に繋がることを示した。
さらに,本論文は,大量の衛星データを扱う効果的なクラウドベースのツールとして,GEEの出現する役割を証明する方向に進む。 In this study, Synthetic Aperture Radar (SAR) and optical data are both considered for Earth surface classification. Specifically, the integration of Sentinel-1 (S-1) and Sentinel-2 (S-2) data is carried out through supervised Machine Learning (ML) algorithms implemented on the Google Earth Engine (GEE) platform for the classification of a particular region of interest. Achieved results demonstrate how in this case radar and optical remote detection provide complementary information, benefiting surface cover classification and generally leading to increased mapping accuracy. In addition, this paper works in the direction of proving the emerging role of GEE as an effective cloud-based tool for handling large amounts of satellite data. | 翻訳日:2023-08-23 13:25:54 公開日:2023-08-22 |
# 推薦システムにおけるオフライン強化学習の機会と課題 On the Opportunities and Challenges of Offline Reinforcement Learning for Recommender Systems ( http://arxiv.org/abs/2308.11336v1 ) ライセンス: Link先を確認 | Xiaocong Chen, Siyu Wang, Julian McAuley, Dietmar Jannach and Lina Yao | (参考訳) 強化学習は、レコメンダシステム内の動的ユーザの関心をモデリングするための強力なツールとなり、研究の注目を集めている。
しかし、データ効率が悪く、インタラクティブな性質が原因で、大きな欠点が続いている。
強化学習ベースのレコメンダシステムのトレーニングは、エージェントがユーザの好みを学ぶのに必須の、適切な軌道を蓄積するために、高価なオンラインインタラクションを要求する。
この非効率さは、強化学習に基づくレコメンデータシステムに、潜在的ソリューションの探索を必要とする、恐ろしい作業を与える。
オフライン強化学習の最近の進歩は、新しい視点を示している。
オフライン強化学習は、オフラインデータセットからの洞察を収集し、オンライン設定で学習ポリシーをデプロイするエージェントに権限を与える。
推奨システムは広範なオフラインデータセットを持つため、オフライン強化学習のフレームワークはシームレスに整列する。
急成長する分野であるにもかかわらず、オフラインの強化学習を利用したレコメンダシステムを中心とした作品は限られている。
本調査は,レコメンダシステムにおけるオフライン強化学習の導入と展開を目標とし,既存の文献の包括的レビューを提供する。
さらに、我々は、この発展途上の分野の研究を推進すべく、普及する課題、機会、そして将来の道筋を浮き彫りにしようと努めている。 Reinforcement learning serves as a potent tool for modeling dynamic user interests within recommender systems, garnering increasing research attention of late. However, a significant drawback persists: its poor data efficiency, stemming from its interactive nature. The training of reinforcement learning-based recommender systems demands expensive online interactions to amass adequate trajectories, essential for agents to learn user preferences. This inefficiency renders reinforcement learning-based recommender systems a formidable undertaking, necessitating the exploration of potential solutions. Recent strides in offline reinforcement learning present a new perspective. Offline reinforcement learning empowers agents to glean insights from offline datasets and deploy learned policies in online settings. Given that recommender systems possess extensive offline datasets, the framework of offline reinforcement learning aligns seamlessly. Despite being a burgeoning field, works centered on recommender systems utilizing offline reinforcement learning remain limited. This survey aims to introduce and delve into offline reinforcement learning within recommender systems, offering an inclusive review of existing literature in this domain. Furthermore, we strive to underscore prevalent challenges, opportunities, and future pathways, poised to propel research in this evolving field. | 翻訳日:2023-08-23 13:25:44 公開日:2023-08-22 |
# データフリートリガー生成によるバックドア攻撃に対するフェデレーション学習の保護 Protect Federated Learning Against Backdoor Attacks via Data-Free Trigger Generation ( http://arxiv.org/abs/2308.11333v1 ) ライセンス: Link先を確認 | Yanxin Yang, Ming Hu, Yue Cao, Jun Xia, Yihao Huang, Yang Liu, Mingsong Chen | (参考訳) 分散機械学習パラダイムとして、フェデレーション学習(fl)は、大規模クライアントが生のデータを共有することなく、協調的にモデルをトレーニングできるようにする。
しかし、信頼できないクライアントのデータ監査が欠如しているため、FLは特にバックドアアタックに対する攻撃に対して脆弱である。
ローカルトレーニングやモデルパラメータを直接変更するために汚染されたデータを使用することで、攻撃者は簡単にモデルにバックドアを注入することができる。
これらの課題に対処するために,バックドア攻撃の2つの特徴に基づくデータフリートリガ生成に基づく防衛手法を提案する。
i)トリガーは通常の知識より早く学習され
二 トリガーパターンは、通常のクラスパターンよりも画像分類に大きな影響を及ぼす。
提案手法は,旧世界モデルと新世界モデルの違いを識別することで,新たな学習知識を持つ画像を生成し,これらの画像の効果を評価することによってトリガー画像をフィルタする。
これらのトリガー画像を使用することで,本手法は有害なモデルを取り除き,更新されたグローバルモデルが良性であることを保証する。
総合的な実験により、我々のアプローチは既存のバックドア攻撃のほとんどすべてに対して防御でき、IIDと非IIDの両方のシナリオで、最先端の7つの防御方法よりも優れることが示された。
特に,クライアントの80%が悪意のある場合でも,バックドア攻撃に対する防御に成功しています。 As a distributed machine learning paradigm, Federated Learning (FL) enables large-scale clients to collaboratively train a model without sharing their raw data. However, due to the lack of data auditing for untrusted clients, FL is vulnerable to poisoning attacks, especially backdoor attacks. By using poisoned data for local training or directly changing the model parameters, attackers can easily inject backdoors into the model, which can trigger the model to make misclassification of targeted patterns in images. To address these issues, we propose a novel data-free trigger-generation-based defense approach based on the two characteristics of backdoor attacks: i) triggers are learned faster than normal knowledge, and ii) trigger patterns have a greater effect on image classification than normal class patterns. Our approach generates the images with newly learned knowledge by identifying the differences between the old and new global models, and filters trigger images by evaluating the effect of these generated images. By using these trigger images, our approach eliminates poisoned models to ensure the updated global model is benign. Comprehensive experiments demonstrate that our approach can defend against almost all the existing types of backdoor attacks and outperform all the seven state-of-the-art defense methods with both IID and non-IID scenarios. Especially, our approach can successfully defend against the backdoor attack even when 80\% of the clients are malicious. | 翻訳日:2023-08-23 13:25:24 公開日:2023-08-22 |
# ガッピンググラフェン被覆ナノ粒子と基板との非平衡カシミール-ポルダー相互作用 Nonequilibrium Casimir-Polder Interaction Between Nanoparticles and Substrates Coated with Gapped Graphene ( http://arxiv.org/abs/2308.11306v1 ) ライセンス: Link先を確認 | Galina L. Klimchitskaya, Constantine C. Korikov, Vladimir M. Mostepanenko and Oleg Yu. Tsybin | (参考訳) ナノ粒子とガッピンググラフェンを被覆した誘電体基板との間の熱平衡カシミール-ポルダー力は、偏光テンソルの形式を用いてディラック模型の枠組みで考慮される。
これは時間反転対称性に反する物理現象の例である。
使用法の主なポイントを提示した後、ガッピンググラフェンでコーティングされた溶融シリカガラス基板の原料側にあるナノ粒子に作用するカシミール・ポルダー力に対する2つの寄与を計算した。
総非平衡力等級はエネルギーギャップの異なる値の分離関数として計算され、未被覆板およびグラフェンコーティングの存在下での平衡力と比較される。
その結果, 基板の存在は非平衡力の大きさを増加させることがわかった。
環境温度における平衡力と比較して, グラフェン被覆基板の温度が低くなるほど, 力の大きさは大きくなる。
エネルギーギャップが大きくなると非平衡力の大きさが小さくなり、グラフェンコーティングは非被覆基板からナノ粒子に作用する力により少ない影響を与えることが示されている。
得られた結果の応用可能性について論じる。 The out-of-thermal-equilibrium Casimir-Polder force between nanoparticles and dielectric substrates coated with gapped graphene is considered in the framework of the Dirac model using the formalism of the polarization tensor. This is an example of physical phenomena violating the time-reversal symmetry. After presenting the main points of the used formalism, we calculate two contributions to the Casimir-Polder force acting on a nanoparticle on the source side of a fused silica glass substrate coated with gapped graphene, which is either cooler or hotter than the environment. The total nonequilibrium force magnitudes are computed as a function of separation for different values of the energy gap and compared with those from an uncoated plate and with the equilibrium force in the presence of graphene coating. According to our results, the presence of a substrate increases the magnitude of the nonequlibrium force. The force magnitude becomes larger with higher and smaller with lower temperature of the graphene-coated substrate as compared to the equilibrium force at the environmental temperature. It is shown that with increasing energy gap the magnitude of the nonequilibrium force becomes smaller, and the graphene coating makes a lesser impact on the force acting on a nanoparticle from the uncoated substrate. Possible applications of the obtained results are discussed. | 翻訳日:2023-08-23 13:24:59 公開日:2023-08-22 |
# MundaneからMeaningfulへ - AIのワークダイナミクスへの影響 - ChatGPTとStack Overflowの証拠 From Mundane to Meaningful: AI's Influence on Work Dynamics -- evidence from ChatGPT and Stack Overflow ( http://arxiv.org/abs/2308.11302v1 ) ライセンス: Link先を確認 | Quentin Gallea | (参考訳) 本稿は、ジェネレーティブAIが大きな生産性向上の機会を与えるだけでなく、新しい強力な技術が私たちの働き方や知識の共有に与える影響についても疑問を呈する。
より具体的には、ChatGPTがコーディングの基本的な側面、すなわち問題解決をどのように変えたのかを探求する。
そのために、2022年11月30日のChatGPTの突然のリリースが、プログラマにとって最大のオンラインコミュニティであるStack Overflowの利用に与える影響を利用した。
疑似実験法(Difference-in-Difference)を用いることで,質問の数が大幅に減少した。
さらに、質問はChatGPTのリリース後によりうまく文書化されている。
最後に、残りの質問がより複雑であることを示す。
これらの発見は、生産性の向上だけでなく、人間がより複雑なタスクに集中できるようにAIによって日常的な問い合わせを解決する方法の根本的な変化も示唆している。 This paper illustrates how generative AI could give opportunities for big productivity gains but also opens up questions about the impact of these new powerful technologies on the way we work and share knowledge. More specifically, we explore how ChatGPT changed a fundamental aspect of coding: problem-solving. To do so, we exploit the effect of the sudden release of ChatGPT on the 30th of November 2022 on the usage of the largest online community for coders: Stack Overflow. Using quasi-experimental methods (Difference-in-Difference), we find a significant drop in the number of questions. In addition, the questions are better documented after the release of ChatGPT. Finally, we find evidence that the remaining questions are more complex. These findings suggest not only productivity gains but also a fundamental change in the way we work where routine inquiries are solved by AI allowing humans to focus on more complex tasks. | 翻訳日:2023-08-23 13:24:37 公開日:2023-08-22 |
# ニューラルマップモデルによる3次元形状知覚へのアプローチ Approaching human 3D shape perception with neurally mappable models ( http://arxiv.org/abs/2308.11300v1 ) ライセンス: Link先を確認 | Thomas P. O'Connell, Tyler Bonnen, Yoni Friedman, Ayush Tewari, Josh B. Tenenbaum, Vincent Sitzmann, Nancy Kanwisher | (参考訳) 人間は力ずくで物体の3次元形状を推測する。
この能力を支える計算は何か?
様々な計算モデルが提案されているが、いずれも視点によって物体の形状にマッチする人間の能力を捉えていない。
ここでは、このギャップが閉ざされるかどうかと、その方法について尋ねる。
深層ニューラルネットワーク(dnn)における古典的解析・合成の基本原理をカプセル化した,比較的新しい計算モデルである3次元ニューラルフィールドから始める。
まず、3次元光場ネットワーク(3D-LFN)は、標準DNNモデルの3次元故障事例をアクセントする逆定義比較と、アルゴリズムが生成する形状の逆定義比較を、カテゴリー内比較のために人間に適切に整合した3次元マッチング判断をサポートする。
次に,3D-LFNが人間に適応できる能力の源泉について,一連の計算実験を通して検討する。
トレーニング中のオブジェクトの複数の視点への露出と、マルチビュー学習の目的が、モデルと人間のアライメントの背後にある主要な要因である。
最後に、多視点学習目標で訓練されたモデルは、新しい対象カテゴリに部分的に一般化できるが、人間のアライメントに欠けることがわかった。
この研究は、ニューラルマップ可能な計算アーキテクチャ内で人間の形状推論を理解するための基礎を提供し、将来の作業において重要な質問を強調する。 Humans effortlessly infer the 3D shape of objects. What computations underlie this ability? Although various computational models have been proposed, none of them capture the human ability to match object shape across viewpoints. Here, we ask whether and how this gap might be closed. We begin with a relatively novel class of computational models, 3D neural fields, which encapsulate the basic principles of classic analysis-by-synthesis in a deep neural network (DNN). First, we find that a 3D Light Field Network (3D-LFN) supports 3D matching judgments well aligned to humans for within-category comparisons, adversarially-defined comparisons that accentuate the 3D failure cases of standard DNN models, and adversarially-defined comparisons for algorithmically generated shapes with no category structure. We then investigate the source of the 3D-LFN's ability to achieve human-aligned performance through a series of computational experiments. Exposure to multiple viewpoints of objects during training and a multi-view learning objective are the primary factors behind model-human alignment; even conventional DNN architectures come much closer to human behavior when trained with multi-view objectives. Finally, we find that while the models trained with multi-view learning objectives are able to partially generalize to new object categories, they fall short of human alignment. This work provides a foundation for understanding human shape inferences within neurally mappable computational architectures and highlights important questions for future work. | 翻訳日:2023-08-23 13:24:22 公開日:2023-08-22 |
# 注意行列のトポロジカル解析による変圧器の予測の不確かさの推定 Uncertainty Estimation of Transformers' Predictions via Topological Analysis of the Attention Matrices ( http://arxiv.org/abs/2308.11295v1 ) ライセンス: Link先を確認 | Elizaveta Kostenok, Daniil Cherniavskii, Alexey Zaytsev | (参考訳) ディープラーニングモデルの予測における信頼度の決定は、自然言語処理の分野におけるオープンな問題である。
不確実性推定の古典的手法のほとんどは、テキスト分類モデルにおいて非常に弱い。
そこで我々は,Transformerアーキテクチャに基づくニューラルネットワークの不確実性推定を行うタスクを設定した。
このようなモデルの重要な特徴は、ニューラルネットワーク内のトークンの隠された表現間の情報フローをサポートするアテンションメカニズムである。
トポロジカルなデータ分析手法を用いて,内部表現間の関係を探索し,モデルの信頼度を予測する。
本稿では,注意機構の位相的性質に基づく不確実性推定法を提案し,古典的手法と比較する。
その結果,提案手法は既存の品質評価手法を超越し,注意機構の新たな適用領域を開くが,位相的特徴の選択が必要となる。 Determining the degree of confidence of deep learning model in its prediction is an open problem in the field of natural language processing. Most of the classical methods for uncertainty estimation are quite weak for text classification models. We set the task of obtaining an uncertainty estimate for neural networks based on the Transformer architecture. A key feature of such mo-dels is the attention mechanism, which supports the information flow between the hidden representations of tokens in the neural network. We explore the formed relationships between internal representations using Topological Data Analysis methods and utilize them to predict model's confidence. In this paper, we propose a method for uncertainty estimation based on the topological properties of the attention mechanism and compare it with classical methods. As a result, the proposed algorithm surpasses the existing methods in quality and opens up a new area of application of the attention mechanism, but requires the selection of topological features. | 翻訳日:2023-08-23 13:23:56 公開日:2023-08-22 |
# 資産クラス間のネットワークモーメント Network Momentum across Asset Classes ( http://arxiv.org/abs/2308.11294v1 ) ライセンス: Link先を確認 | Xingyue (Stacy) Pu, Stephen Roberts, Xiaowen Dong, and Stefan Zohren | (参考訳) 資産間のモーメントの流出から導かれる新しい取引信号であるネットワークモーメントの概念を考察する。
当初、同じ会社の株式結合やサプライ・デマンド・チェーンを通じて結ばれた株式など、経済・基本関係の両面において、モーメントの流出は、ある資産から別の資産へのモーメントリスクプレミアムの伝播を意味する。
運動量リスクプレミアム(momentum risk premium)の類似性は、コモディティ、株式、債券、通貨を含む複数の資産クラスで確認されている。
しかし,これらのクラス間での運動量流出のネットワーク効果の研究は,企業レベルを超えて容易に利用できる共通特性や経済的な結びつきが欠如していることから,課題となっている。
本稿では,これら4つのクラスにまたがる64の連続的将来契約を多岐にわたる運動量特徴の相互接続について検討する。
最小仮定で線形かつ解釈可能なグラフ学習モデルを用いて,運動量流出ネットワークの複雑さを明らかにする。
学習したネットワークを活用することで,2000年から2022年までのボラティリティ・スケーリングにより,シャープ比1.5,年間リターン22%のネットワークモメンタム戦略を構築した。
本稿では,価格データのみを用いて,複数の資産クラスにまたがるモメンタム流出の検証を行い,ネットワークモメンタムに基づくマルチアセット投資戦略を提示し,ロバストな実証分析により,この戦略の有効性を実証する。 We investigate the concept of network momentum, a novel trading signal derived from momentum spillover across assets. Initially observed within the confines of pairwise economic and fundamental ties, such as the stock-bond connection of the same company and stocks linked through supply-demand chains, momentum spillover implies a propagation of momentum risk premium from one asset to another. The similarity of momentum risk premium, exemplified by co-movement patterns, has been spotted across multiple asset classes including commodities, equities, bonds and currencies. However, studying the network effect of momentum spillover across these classes has been challenging due to a lack of readily available common characteristics or economic ties beyond the company level. In this paper, we explore the interconnections of momentum features across a diverse range of 64 continuous future contracts spanning these four classes. We utilise a linear and interpretable graph learning model with minimal assumptions to reveal the intricacies of the momentum spillover network. By leveraging the learned networks, we construct a network momentum strategy that exhibits a Sharpe ratio of 1.5 and an annual return of 22%, after volatility scaling, from 2000 to 2022. This paper pioneers the examination of momentum spillover across multiple asset classes using only pricing data, presents a multi-asset investment strategy based on network momentum, and underscores the effectiveness of this strategy through robust empirical analysis. | 翻訳日:2023-08-23 13:23:41 公開日:2023-08-22 |
# モード結合性: 置換整合モデルの凸結合を探索する Mode Combinability: Exploring Convex Combinations of Permutation Aligned Models ( http://arxiv.org/abs/2308.11511v1 ) ライセンス: Link先を確認 | Adri\'an Csisz\'arik, Melinda F. Kiss, P\'eter K\H{o}r\"osi-Szab\'o, M\'arton Muntag, Gergely Papp, D\'aniel Varga | (参考訳) 置換整列型ニューラルネットワークパラメータベクトル$\Theta_A$と$\Theta_B$ of size $d$の要素対凸結合について検討する。
超キューブ $[0,1]^{d}$ とその近傍の要素によってパラメトリ化されたモデルの組み合わせの様々な分布を調べることにより、広範な実験を行う。
その結果, ハイパーキューブの広い領域は損失値の低い表面を形成しており, 線形モード接続の概念は, 我々がモード結合性と呼ぶより一般的な現象にまで拡張していることがわかった。
また,線形モード接続とモデル再ベースに関する新しい観測を行った。
移動性特性を示す: 共通の3番目のモデルに再基づいた2つのモデルもまた線形モードに接続され、ロバスト性特性: ニューロンの大きな摂動があっても、結果として得られる組み合わせは動作モデルを形成し続ける。
さらに, モデル組み合わせの機能的および重量的類似性を解析し, モデル間に有意な機能的差異があるという意味で, それらの組み合わせは空でないことを示す。 We explore element-wise convex combinations of two permutation-aligned neural network parameter vectors $\Theta_A$ and $\Theta_B$ of size $d$. We conduct extensive experiments by examining various distributions of such model combinations parametrized by elements of the hypercube $[0,1]^{d}$ and its vicinity. Our findings reveal that broad regions of the hypercube form surfaces of low loss values, indicating that the notion of linear mode connectivity extends to a more general phenomenon which we call mode combinability. We also make several novel observations regarding linear mode connectivity and model re-basin. We demonstrate a transitivity property: two models re-based to a common third model are also linear mode connected, and a robustness property: even with significant perturbations of the neuron matchings the resulting combinations continue to form a working model. Moreover, we analyze the functional and weight similarity of model combinations and show that such combinations are non-vacuous in the sense that there are significant functional differences between the resulting models. | 翻訳日:2023-08-23 13:17:38 公開日:2023-08-22 |
# 高分子統計力学:ガウス分布からマクスウェル・ボルツマン分布からフェルミ・ディラック分布へ On Polymer Statistical Mechanics: From Gaussian Distribution to Maxwell-Boltzmann Distribution to Fermi-Dirac Distribution ( http://arxiv.org/abs/2308.11482v1 ) ライセンス: Link先を確認 | Lixiang Yang | (参考訳) 高分子のマクロ力学特性は、その分子鎖の微視的分布によって決定される。
これらの分子鎖のランダム性のため、確率理論はそれらのマイクロ状態とエネルギー分布を見つけるために用いられる。
本稿では, 中央極限定理と混合ベイズ則を用いて, ガウス分布に基づくエントロピー弾性性が疑わしいことを示した。
共役鎖の仮定を自由に解放することで、分子鎖の各結合がその長さを変えるときにエネルギーの再分配があることを発見した。
したがって、高分子弾性に使用されるガウス分布をマクスウェル・ボルツマン分布に変更する必要がある。
マクスウェル・ボルツマン分布はガス分子のよいエネルギー記述であるため、分子鎖構造に基づいてマクスウェル・ボルツマン分布をフェルミ・ディラック分布に変える数学的経路を見出した。
分子鎖は共有電子で接着された多くのモノマーと見ることができるため、フェルミ・ディラック分布は高分子のような固体のマイクロ状態における共有電子占有の確率を記述する。
フェルミ・ディラック分布の数学的形式はロジスティック関数である。
フェルミ・ディラック分布の数学的単純性と美しさは、多くのハードメカニクスの問題を理解しやすくする。
一般化ロジスティック関数やフェルミ・ディラック分布関数は, 粘弾性度[1], 粘塑性[2], せん断帯, ネッキング[3], 超音波接合など多くの高分子力学問題を理解することができた [4]。 Macroscopic mechanical properties of polymers are determined by their microscopic molecular chain distribution. Due to randomness of these molecular chains, probability theory has been used to find their micro-states and energy distribution. In this paper, aided by central limit theorem and mixed Bayes rule, we showed that entropy elasticity based on Gaussian distribution is questionable. By releasing freely jointed chain assumption, we found that there is energy redistribution when each bond of a molecular chain changes its length. Therefore, we have to change Gaussian distribution used in polymer elasticity to Maxwell-Boltzmann distribution. Since Maxwell-Boltzmann distribution is only a good energy description for gas molecules, we found a mathematical path to change Maxwell-Boltzmann distribution to Fermi-Dirac distribution based on molecular chain structures. Because a molecular chain can be viewed as many monomers glued by covalent electrons, Fermi-Dirac distribution describes the probability of covalent electron occupancy in micro-states for solids such as polymers. Mathematical form of Fermi-Dirac distribution is logistic function. Mathematical simplicity and beauty of Fermi-Dirac distribution make many hard mechanics problems easy to understand. Generalized logistic function or Fermi-Dirac distribution function was able to understand many polymer mechanics problems such as viscoelasticity [1], viscoplasticity [2], shear band and necking [3], and ultrasonic bonding [4]. | 翻訳日:2023-08-23 13:17:21 公開日:2023-08-22 |
# オプティカルデータと機械学習アルゴリズムを用いたGoogle Earth Engineによる都市変動検出のためのマルチテンポラル解析 Multitemporal analysis in Google Earth Engine for detecting urban changes using optical data and machine learning algorithms ( http://arxiv.org/abs/2308.11468v1 ) ライセンス: Link先を確認 | Mariapia Rita Iandolo and Francesca Razzano and Chiara Zarro and G. S. Yogesh and Silvia Liberata Ullo | (参考訳) 本研究の目的は,google earth engine (gee) プラットフォームを用いて,光データと機械学習 (ml) アルゴリズムを用いた都市域の変化検出のための多時間解析を行うことである。
ケーススタディとして、カイロ市はエジプトの国で、過去10年間で最も人口の多い5つの大都市の1つとして認識されている。
2013年7月から2021年7月まで、関心領域(ROI)の分類と変更検出分析を行った。
提案手法が選択された期間における変遷・変遷市街地の同定に有効であることを示す。
さらに、この研究は、大量の衛星データを管理するための効率的なクラウドベースのソリューションとして、GEEの重要性の高まりを示すことを目的としている。 The aim of this work is to perform a multitemporal analysis using the Google Earth Engine (GEE) platform for the detection of changes in urban areas using optical data and specific machine learning (ML) algorithms. As a case study, Cairo City has been identified, in Egypt country, as one of the five most populous megacities of the last decade in the world. Classification and change detection analysis of the region of interest (ROI) have been carried out from July 2013 to July 2021. Results demonstrate the validity of the proposed method in identifying changed and unchanged urban areas over the selected period. Furthermore, this work aims to evidence the growing significance of GEE as an efficient cloud-based solution for managing large quantities of satellite data. | 翻訳日:2023-08-23 13:16:54 公開日:2023-08-22 |
# 位相フロケ共鳴による明るい量子光子源 Bright quantum photon sources from a topological Floquet resonance ( http://arxiv.org/abs/2308.11451v1 ) ライセンス: Link先を確認 | Shirin Afzal, Tyler J. Zimmerling, Mahdi Rizvandi, Majid Taghavi, Taras Hrushevskyi, Manpreet Kaur, Vien Van, and Shabir Barzanjeh | (参考訳) 量子力学の基本的な概念である絡み合いは、量子技術における貴重な資源として重要な役割を果たす。
絡み合った光子源の実践的な実装は、物理的システムやマイクロチップに固有の欠陥や欠陥から生じる障害に遭遇し、絡み合いの喪失または悪化をもたらす。
しかし、トポロジカルフォトニック絶縁体は有望な候補として現れ、欠陥誘起散乱に抵抗する異常な能力を示し、堅牢な絡み合った源の開発を可能にした。
その固有の利点にもかかわらず、明るくプログラム可能なトポロジカルに保護された絡み合ったソースを構築することは、複雑なデバイス設計と弱い物質的非線形性のために困難である。
本稿では,光自発的4波混合プロセスを用いた非磁性・可変共振系異常フロッケ絶縁体による絡み合い発生の進展について述べる。
本実験は, トポロジカルエッジ状態のみに依存し, スペクトルレジリエンスにおいて自明なフォトニックデバイスより優れるデバイスと比較して, 絡み合った光子ペア生成の大幅な向上を示す。
この研究は、カスケード量子装置の探索と量子状態の工学のための道を開くことができる欠陥破壊と明るい絡み合った源の追求の一歩となる。
この結果は、量子技術に応用可能な回復力のある量子源の開発に繋がる可能性がある。 Entanglement, a fundamental concept in quantum mechanics, plays a crucial role as a valuable resource in quantum technologies. The practical implementation of entangled photon sources encounters obstacles arising from imperfections and defects inherent in physical systems and microchips, resulting in a loss or degradation of entanglement. The topological photonic insulators, however, have emerged as promising candidates, demonstrating an exceptional capability to resist defect-induced scattering, thus enabling the development of robust entangled sources. Despite their inherent advantages, building bright and programmable topologically protected entangled sources remains challenging due to intricate device designs and weak material nonlinearity. Here we present an advancement in entanglement generation achieved through a non-magnetic and tunable resonance-based anomalous Floquet insulator, utilizing an optical spontaneous four-wave mixing process. Our experiment demonstrates a substantial enhancement in entangled photon pair generation compared to devices reliant solely on topological edge states and outperforming trivial photonic devices in spectral resilience. This work marks a step forward in the pursuit of defect-robust and bright entangled sources that can open avenues for the exploration of cascaded quantum devices and the engineering of quantum states. Our result could lead to the development of resilient quantum sources with potential applications in quantum technologies. | 翻訳日:2023-08-23 13:16:42 公開日:2023-08-22 |
# 一貫性モデルに対する収束保証 Convergence guarantee for consistency models ( http://arxiv.org/abs/2308.11449v1 ) ライセンス: Link先を確認 | Junlong Lyu, Zhitang Chen, Shoubo Feng | (参考訳) 拡散モデルによって生成されたものと同等のサンプルを生成できる新しい1ステップ生成モデルのタイプである、一貫性モデル(cms)に対する最初の収束保証を提供する。
我々の主な成果は、スコアマッチングエラー、一貫性エラー、データ分布の滑らかさに関する基本的な前提の下で、CMはW_2$誤差を小さくして、任意の現実的なデータ分布から効率的にサンプリングできるということである。
その結果,(1)$L^2$-accurateスコアと整合性仮定($L^\infty$-accurateではなく),(2)log-Sobelev不等式などのデータ分布に強い仮定を必要とすること,(3)すべてのパラメータで多項式的にスケールすること,(4)スコアベース生成モデル(SGM)の最先端収束保証に適合すること,などが得られた。
また,マルチステップ一貫性サンプリング手法は,1ステップサンプリングに比べて誤差を更に低減し,その結果,「一貫性モデル,yang song 2023」の原文をサポートする。
出力分布にランゲヴィンに基づく修正を加えると,テレビのエラーが保証される。 We provide the first convergence guarantees for the Consistency Models (CMs), a newly emerging type of one-step generative models that can generate comparable samples to those generated by Diffusion Models. Our main result is that, under the basic assumptions on score-matching errors, consistency errors and smoothness of the data distribution, CMs can efficiently sample from any realistic data distribution in one step with small $W_2$ error. Our results (1) hold for $L^2$-accurate score and consistency assumption (rather than $L^\infty$-accurate); (2) do note require strong assumptions on the data distribution such as log-Sobelev inequality; (3) scale polynomially in all parameters; and (4) match the state-of-the-art convergence guarantee for score-based generative models (SGMs). We also provide the result that the Multistep Consistency Sampling procedure can further reduce the error comparing to one step sampling, which support the original statement of "Consistency Models, Yang Song 2023". Our result further imply a TV error guarantee when take some Langevin-based modifications to the output distributions. | 翻訳日:2023-08-23 13:16:19 公開日:2023-08-22 |
# AIxArtist:創造的ブロックをエスケープする人工知能と対話する最初の個人物語 AIxArtist: A First-Person Tale of Interacting with Artificial Intelligence to Escape Creative Block ( http://arxiv.org/abs/2308.11424v1 ) ライセンス: Link先を確認 | Makayla Lewis | (参考訳) 芸術と人工知能(AI)の将来は、技術の進歩とともに期待されている。
デザインにおけるAIの利用が広まるにつれ、アートプラクティスは人間だけのアートフォームではなく、デジタル統合されたエクスペリエンスになる可能性がある。
クリエイティビティとコラボレーションの強化により、アートとaiは、視覚的にアピールし、アーティストと視聴者のニーズを満たす芸術的アウトプットを作成するために協力することができる。
統合がどこまで進むかは不明だが、芸術とAIは互いに影響を及ぼす可能性が高い。
このワークショップは、HCI研究者とAIが創造的ブロックから逃れようとするときのインタラクションを共有する、一人称研究を前進させる。
AIはアーティストの創造性をどのようにサポートするのか、この文脈で説明できることは何を意味するのか?
HIs、ChatGPT、Midjourneyは関与し、XAIxArtsコミュニティにおけるさらなる議論と調査を必要とする一連のリフレクション:帰属の透明性、創造過程、質問の倫理、インスピレーションとコピー。 The future of the arts and artificial intelligence (AI) is promising as technology advances. As the use of AI in design becomes more widespread, art practice may not be a human-only art form and could instead become a digitally integrated experience. With enhanced creativity and collaboration, arts and AI could work together towards creating artistic outputs that are visually appealing and meet the needs of the artist and viewer. While it is uncertain how far the integration will go, arts and AI will likely influence one another. This workshop pictorial puts forward first-person research that shares interactions between an HCI researcher and AI as they try to escape the creative block. The pictorial paper explores two questions: How can AI support artists' creativity, and what does it mean to be explainable in this context? HIs, ChatGPT and Midjourney were engaged; the result was a series of reflections that require further discussion and explorations in the XAIxArts community: Transparency of attribution, the creation process, ethics of asking, and inspiration vs copying. | 翻訳日:2023-08-23 13:15:51 公開日:2023-08-22 |
# MatFuse:拡散モデルによる制御可能な材料生成 MatFuse: Controllable Material Generation with Diffusion Models ( http://arxiv.org/abs/2308.11408v1 ) ライセンス: Link先を確認 | Giuseppe Vecchio, Renato Sortino, Simone Palazzo, Concetto Spampinato | (参考訳) コンピュータグラフィックスで高品質でリアルな素材を作るのは困難で時間を要する作業であり、優れた専門知識を必要とする。
本稿では,svbrdfマップの作成を単純化するために,拡散モデルの生成力(dm)を利用する新しい統一的手法であるmatfuseを提案する。
我々のDMベースのパイプラインは、カラーパレット、スケッチ、画像などの複数の条件付け源を統合し、材料合成におけるきめ細かい制御と柔軟性を実現する。
この設計により、多様な情報ソース(スケッチ+画像埋め込みなど)を組み合わせることができ、構成性の原則に従って創造性を高めることができる。
本稿では,svbrdf推定タスクにおいて,提案手法が定性的かつ定量的に,最先端の手法に匹敵する性能をもたらすことを示す。 Creating high quality and realistic materials in computer graphics is a challenging and time-consuming task, which requires great expertise. In this paper, we present MatFuse, a novel unified approach that harnesses the generative power of diffusion models (DM) to simplify the creation of SVBRDF maps. Our DM-based pipeline integrates multiple sources of conditioning, such as color palettes, sketches, and pictures, enabling fine-grained control and flexibility in material synthesis. This design allows for the combination of diverse information sources (e.g., sketch + image embedding), enhancing creative possibilities in line with the principle of compositionality. We demonstrate the generative capabilities of the proposed method under various conditioning settings; on the SVBRDF estimation task, we show that our method yields performance comparable to state-of-the-art approaches, both qualitatively and quantitatively. | 翻訳日:2023-08-23 13:15:32 公開日:2023-08-22 |
# 攻撃防御ゲームの設計:競争を通じて金融取引モデルの堅牢性を高める方法 Designing an attack-defense game: how to increase robustness of financial transaction models via a competition ( http://arxiv.org/abs/2308.11406v1 ) ライセンス: Link先を確認 | Alexey Zaytsev, Alex Natekin, Evgeni Vorsin, Valerii Smirnov, Oleg Sidorshin, Alexander Senin, Alexander Dudin, Dmitry Berestnev | (参考訳) 金融セクターにおける悪意ある攻撃のエスカレートリスクとそれに伴う深刻な損害を考えると、敵対的戦略の徹底的な理解と、機械学習モデルに対する堅牢な防御機構が不可欠である。
この脅威はさらに深刻になり、銀行の採用がより正確だが、脆弱なニューラルネットワークが採用される可能性がある。
我々は、逐次金融データを入力として使用するニューラルネットワークモデルの敵攻撃と防御の現状とダイナミクスを調査することを目的としている。
この目的を達成するために、現代金融取引データにおける問題の現実的かつ詳細な調査を可能にする競争を設計した。
参加者は直接対決するので、攻撃や防御の可能性は実生活に近い状況で調べられる。
主なコントリビューションは、悪意のあるユーザからモデルを隠すことがどれほど重要か、それを壊すのにどのくらいかかるか、モデルをより堅牢にするためにどんなテクニックを使うべきか、そしてモデルを攻撃する追加の方法を導入すること、といった疑問に答える競合のダイナミクスの分析です。
分析は, 使用方法, 数値実験, アブレーション研究のメタスタディとともに継続した。
開発した攻撃と防御は,実行の面では実用的でありながら,既存の代替案よりも優れており,機械学習モデルの脆弱性を解明し,さまざまな領域で緩和するためのツールとしての競争の有効性が証明されている。 Given the escalating risks of malicious attacks in the finance sector and the consequential severe damage, a thorough understanding of adversarial strategies and robust defense mechanisms for machine learning models is critical. The threat becomes even more severe with the increased adoption in banks more accurate, but potentially fragile neural networks. We aim to investigate the current state and dynamics of adversarial attacks and defenses for neural network models that use sequential financial data as the input. To achieve this goal, we have designed a competition that allows realistic and detailed investigation of problems in modern financial transaction data. The participants compete directly against each other, so possible attacks and defenses are examined in close-to-real-life conditions. Our main contributions are the analysis of the competition dynamics that answers the questions on how important it is to conceal a model from malicious users, how long does it take to break it, and what techniques one should use to make it more robust, and introduction additional way to attack models or increase their robustness. Our analysis continues with a meta-study on the used approaches with their power, numerical experiments, and accompanied ablations studies. We show that the developed attacks and defenses outperform existing alternatives from the literature while being practical in terms of execution, proving the validity of the competition as a tool for uncovering vulnerabilities of machine learning models and mitigating them in various domains. | 翻訳日:2023-08-23 13:15:17 公開日:2023-08-22 |
# Convoifilter : カクテルパーティー音声認識の事例 Convoifilter: A case study of doing cocktail party speech recognition ( http://arxiv.org/abs/2308.11380v1 ) ライセンス: Link先を確認 | Thai-Binh Nguyen and Alexander Waibel | (参考訳) 本稿では、混み合った雑音環境下で、特定の話者に対する音声認識(ASR)を改善するために設計されたエンドツーエンドモデルを提案する。
このモデルは、ASRモジュールとともに、話者の声を背景雑音から分離する単一チャンネル音声強調モジュールを使用する。
このアプローチにより、このモデルはASRの単語誤り率(WER)を80%から26.4%に下げることができる。
通常、これらの2つのコンポーネントはデータ要求の変化のために独立して調整される。
しかし、音声強調は、ASR効率を低下させる異常を引き起こす可能性がある。
ジョイントファインチューニング戦略を実装することで、WERを26.4%の個別チューニングから14.5%のジョイントチューニングに削減することができる。 This paper presents an end-to-end model designed to improve automatic speech recognition (ASR) for a particular speaker in a crowded, noisy environment. The model utilizes a single-channel speech enhancement module that isolates the speaker's voice from background noise, along with an ASR module. Through this approach, the model is able to decrease the word error rate (WER) of ASR from 80% to 26.4%. Typically, these two components are adjusted independently due to variations in data requirements. However, speech enhancement can create anomalies that decrease ASR efficiency. By implementing a joint fine-tuning strategy, the model can reduce the WER from 26.4% in separate tuning to 14.5% in joint tuning. | 翻訳日:2023-08-23 13:14:50 公開日:2023-08-22 |
# affine deligne-lusztig多様体の機械学習による探索 Machine learning assisted exploration for affine Deligne-Lusztig varieties ( http://arxiv.org/abs/2308.11355v1 ) ライセンス: Link先を確認 | Bin Dong, Xuhua He, Pengfei Jin, Felix Schremmer, Qingchao Yu | (参考訳) 本稿では,ADLV (Affine Deligne-Lusztig variety) の幾何学を探索するために,機械学習支援フレームワークを活用した新しい学際研究を提案する。
主な目的は, ADLVの既約成分の空白パターン, 寸法, 列挙について検討することである。
提案フレームワークは,データ生成,モデルトレーニング,パターン解析,人体検査といった再帰的なパイプラインを示し,MLと純粋数学的研究の複雑な相互作用を示す。
特に、データ生成プロセスはニュアンスに富み、意味のあるサブセットと適切な特徴セットの選択を強調します。
我々は、このフレームワークが純粋に数学的研究を加速する可能性を実証し、新しい予想の発見と、それ以外は発見にかなりの時間を要する有望な研究方向を導いた。
仮想次元公式を再発見し、次元の特定の下界に関する新たに特定された問題の完全な数学的証明を提供する。
さらに,adlv と ml モデルを計算するためのソースコードを提供し,さらなる探索を促進することで,読者へのオープン招待を広げる。
本稿は、このコラボレーションから学んだ貴重な経験と教訓を強調することで締めくくります。 This paper presents a novel, interdisciplinary study that leverages a Machine Learning (ML) assisted framework to explore the geometry of affine Deligne-Lusztig varieties (ADLV). The primary objective is to investigate the nonemptiness pattern, dimension and enumeration of irreducible components of ADLV. Our proposed framework demonstrates a recursive pipeline of data generation, model training, pattern analysis, and human examination, presenting an intricate interplay between ML and pure mathematical research. Notably, our data-generation process is nuanced, emphasizing the selection of meaningful subsets and appropriate feature sets. We demonstrate that this framework has a potential to accelerate pure mathematical research, leading to the discovery of new conjectures and promising research directions that could otherwise take significant time to uncover. We rediscover the virtual dimension formula and provide a full mathematical proof of a newly identified problem concerning a certain lower bound of dimension. Furthermore, we extend an open invitation to the readers by providing the source code for computing ADLV and the ML models, promoting further explorations. This paper concludes by sharing valuable experiences and highlighting lessons learned from this collaboration. | 翻訳日:2023-08-23 13:14:39 公開日:2023-08-22 |
# 急冷・熱前量子多体スカー状態のファントムエネルギー Phantom energy of a quenched, prethermal quantum many-body scar state ( http://arxiv.org/abs/2308.11615v1 ) ライセンス: Link先を確認 | Kangning Yang, Yicheng Zhang, Kuan-Yu Li, Kuan-Yu Lin, Sarang Gopalakrishnan, Marcos Rigol, Benjamin L. Lev | (参考訳) 強い相互作用を持つ量子系は、その微視的な自由度と質的に異なる創発的な励起を示す。
ここでは, 平衡から遠く離れた系に内在する創発現象, すなわち, 魅力的な相互作用の反発的相互作用への変換について検討する。
相互作用するボースガスを高励起・相関性非熱状態で初期化し, 閉じ込めポテンシャルを緩和し, キネティックおよび全エネルギーがクエンチ後にどのように変化するかを測定する。
素の相互作用は魅力的であるが、低エネルギーの自由度は互いに反発するように進化し、気体が圧縮されると運動エネルギーはパラドックス的に減少する。
一般流体力学(GHD)計算に対して実験結果をベンチマークすることで, 「ファントム」エネルギーの不足を定量化する。
運動エネルギーの不足が非常に高モメンタムモードで保存されていることを示す。 Strongly interacting quantum systems can exhibit emergent excitations that differ qualitatively from their microscopic degrees of freedom. Here we study an emergent phenomenon that is intrinsic to such systems far from equilibrium: Namely, the transmutation of attractive interactions into repulsive interactions. We initialize an attractively interacting Bose gas in a highly excited and correlated nonthermal state, quench the confining potential, and measure how the kinetic and total energies evolve after the quench. Although the bare interactions are attractive, the low-energy degrees of freedom evolve as if they repel each other: Thus, their kinetic energy paradoxically decreases as the gas is compressed. We quantify the missing ``phantom'' energy by benchmarking our experimental results against generalized hydrodynamics (GHD) calculations. We present evidence that the missing kinetic energy is stored in very high-momentum modes. | 翻訳日:2023-08-23 13:06:04 公開日:2023-08-22 |
# セマンティック多解通信 Semantic Multi-Resolution Communications ( http://arxiv.org/abs/2308.11604v1 ) ライセンス: Link先を確認 | Matin Mortaheb, Mohammad A. Amir Khojastepour, Srimat T. Chakradhar, Sennur Ulukus | (参考訳) 深層学習に基づくjscc(joint source-channel coding)は,sscc(source-channel coding)と比べ,データ再構成の大幅な進歩を示している。
この優越性は有限ブロック長データを扱う際のssccの準最適性から生じる。
さらに、SSCCは、最悪のチャネルおよび/または最高品質のデータのみを満足させようとするため、マルチユーザおよび/またはマルチ解像度の方法でデータの再構成に不足する。
これらの制約を克服するために,マルチタスク学習(MTL)の概念に触発された,新しい深層学習マルチ解像度JSCCフレームワークを提案する。
このフレームワークは階層的な層を通して異なる解像度のデータを符号化し、現在の層と過去の層のエンコードデータを活用することで効果的にデコードする。
さらに、このフレームワークは、データ再構成を超えて、コミュニケーションプロセス全体を通して特定のセマンティック属性を保存するために、セマンティックコミュニケーションに大きな可能性を秘めている。
これらのセマンティクス機能は、クラスラベル、分類タスクに不可欠な要素、保存を必要とする他の重要な属性といった重要な要素になり得る。
このフレームワーク内では、各レベルのエンコードされたデータは、特定のデータセマンティクスを保持するように慎重に設計することができる。
その結果、セマンティック分類器の精度は、エンコーディングおよび復号段階を通してターゲットセマンティクスの保存を強調することによって、連続する層間で徐々に向上することができる。
MNISTとCIFAR10データセットの実験を行った。
両データセットを用いた実験により,提案手法は,解像度の異なるデータ再構成においてSSCC法を超越し,連続層における信頼性を高めたセマンティック特徴の抽出を可能にした。
この機能は、データセット内のより重要なセマンティクス機能を優先順位付けし、保存する上で特に有利です。 Deep learning based joint source-channel coding (JSCC) has demonstrated significant advancements in data reconstruction compared to separate source-channel coding (SSCC). This superiority arises from the suboptimality of SSCC when dealing with finite block-length data. Moreover, SSCC falls short in reconstructing data in a multi-user and/or multi-resolution fashion, as it only tries to satisfy the worst channel and/or the highest quality data. To overcome these limitations, we propose a novel deep learning multi-resolution JSCC framework inspired by the concept of multi-task learning (MTL). This proposed framework excels at encoding data for different resolutions through hierarchical layers and effectively decodes it by leveraging both current and past layers of encoded data. Moreover, this framework holds great potential for semantic communication, where the objective extends beyond data reconstruction to preserving specific semantic attributes throughout the communication process. These semantic features could be crucial elements such as class labels, essential for classification tasks, or other key attributes that require preservation. Within this framework, each level of encoded data can be carefully designed to retain specific data semantics. As a result, the precision of a semantic classifier can be progressively enhanced across successive layers, emphasizing the preservation of targeted semantics throughout the encoding and decoding stages. We conduct experiments on MNIST and CIFAR10 dataset. The experiment with both datasets illustrates that our proposed method is capable of surpassing the SSCC method in reconstructing data with different resolutions, enabling the extraction of semantic features with heightened confidence in successive layers. This capability is particularly advantageous for prioritizing and preserving more crucial semantic features within the datasets. | 翻訳日:2023-08-23 13:05:49 公開日:2023-08-22 |
# オープン量子系をモデル化した変換マスター方程式に対するNIPG-DGスキーム NIPG-DG schemes for transformed master equations modeling open quantum systems ( http://arxiv.org/abs/2308.11580v1 ) ライセンス: Link先を確認 | Jose A. Morales Escalante | (参考訳) 本稿では,オープン量子システムの特定の文脈における雑音環境とシステムの相互作用をモデル化するマスタ方程式の数値解析を行う。
この変換されたマスター方程式は、任意のポテンシャルの一般の場合において、同じ系のウィグナー・フォッカー・プランクモデルと比較して計算コストが小さくなることを示した。
次に、対流拡散システムに適したNIPG-DG数値スキームの詳細を示す。
これにより、オープン量子系をモデル化する関心の変換系を計算的に解くことができる。
次に、高調波ポテンシャルの場合のベンチマーク問題を提示し、この問題の解析的定常解と比較する。 This work presents a numerical analysis of a master equation modeling the interaction of a system with a noisy environment in the particular context of open quantum systems. It is shown that our transformed master equation has a reduced computational cost in comparison to a Wigner-Fokker-Planck model of the same system for the general case of any potential. Specifics of a NIPG-DG numerical scheme adequate for the convection-diffusion system obtained are then presented. This will let us solve computationally the transformed system of interest modeling our open quantum system. A benchmark problem, the case of a harmonic potential, is then presented, for which the numerical results are compared against the analytical steady-state solution of this problem. | 翻訳日:2023-08-23 13:05:04 公開日:2023-08-22 |
# G3Reg:ガウス楕円体モデルを用いたピラミッドグラフによるグローバルレジストレーション G3Reg: Pyramid Graph-based Global Registration using Gaussian Ellipsoid Model ( http://arxiv.org/abs/2308.11573v1 ) ライセンス: Link先を確認 | Zhijian Qiao, Zehuan Yu, Binqian Jiang, Huan Yin, and Shaojie Shen | (参考訳) 本研究では,LiDAR点雲の高速かつ堅牢なグローバル登録のための新しいフレームワークであるG3Regを紹介する。
従来の複雑なキーポイントやディスクリプタとは対照的に,原点雲から平面,クラスタ,線(PCL)を含む基本的な幾何学的プリミティブを抽出し,低レベルのセマンティックセグメントを得る。
各セグメントは、基底真理中心をある程度の確率で包含するように、確率楕円体を用いて統一ガウス楕円体モデル(GEM)として定式化される。
これらのGEMを利用することで、グローバル登録のためのピラミッド適合性グラフ(PAGOR)に基づく不信・検証方式を提案する。
具体的には、ピラミッドグラフを構築するための互換性テストの信頼性レベルに基づいて、上界を横断することができる。
グラフの各レベルに対する複数の最大傾き(MAC)を徐々に解き、多数の変換候補を生成する。
検証フェーズでは,幾何学的プリミティブに基づくポイントクラウドアライメント品質の高精度かつ効率的な指標を採用し,最適候補を同定する。
アルゴリズムの性能は、実験評価でパラメータの設定を変更することなく、3つの公開データセットと自己収集されたマルチセッションデータセットで広範囲に検証される。
その結果,G3Regフレームワークの高剛性と実時間性能は最先端の手法と比較して優れていた。
さらに,個々のGEMおよびPAGORコンポーネントを他のアルゴリズムフレームワークに統合して有効性を高める可能性を示す。
さらなる研究を進め、コミュニティの理解を促進するため、ソースコードを公開しました。 This study introduces a novel framework, G3Reg, for fast and robust global registration of LiDAR point clouds. In contrast to conventional complex keypoints and descriptors, we extract fundamental geometric primitives including planes, clusters, and lines (PCL) from the raw point cloud to obtain low-level semantic segments. Each segment is formulated as a unified Gaussian Ellipsoid Model (GEM) by employing a probability ellipsoid to ensure the ground truth centers are encompassed with a certain degree of probability. Utilizing these GEMs, we then present a distrust-and-verify scheme based on a Pyramid Compatibility Graph for Global Registration (PAGOR). Specifically, we establish an upper bound, which can be traversed based on the confidence level for compatibility testing to construct the pyramid graph. Gradually, we solve multiple maximum cliques (MAC) for each level of the graph, generating numerous transformation candidates. In the verification phase, we adopt a precise and efficient metric for point cloud alignment quality, founded on geometric primitives, to identify the optimal candidate. The performance of the algorithm is extensively validated on three publicly available datasets and a self-collected multi-session dataset, without changing any parameter settings in the experimental evaluation. The results exhibit superior robustness and real-time performance of the G3Reg framework compared to state-of-the-art methods. Furthermore, we demonstrate the potential for integrating individual GEM and PAGOR components into other algorithmic frameworks to enhance their efficacy. To advance further research and promote community understanding, we have publicly shared the source code. | 翻訳日:2023-08-23 13:04:56 公開日:2023-08-22 |
# EndoNet: 組織スライド上のHスコアの自動計算モデル EndoNet: model for automatic calculation of H-score on histological slides ( http://arxiv.org/abs/2308.11562v1 ) ライセンス: Link先を確認 | Egor Ushakov, Anton Naumov, Vladislav Fomberg, Polina Vishnyakova, Aleksandra Asaturova, Alina Badlaeva, Anna Tregubova, Evgeny Karpulevich, Gennady Sukhikh, Timur Fatkhudinov | (参考訳) Hスコア(H-score)は、染色強度と染色核の割合を組み合わせて組織試料中のタンパク質の存在と分布を評価するための半定量的手法である。
広く使われているが、時間がかかり、精度と精度に制限がある。
コンピュータ支援手法はこれらの制限を克服し、病理学者のワークフローの効率化に役立つ。
本研究では,h-scoreの自動計算のためのモデルエンドネットを開発した。
提案手法はニューラルネットワークを用いて2つの主要部分からなる。
1つ目は核中心のキーポイントを予測する検出モデルである。
2つ目は、予測キーポイントの平均画素値を用いてHスコアの値を算出するHスコアモジュールである。
我々のモデルは,100×100$\mu m$のアノテートタイルで1780年にトレーニング,検証を行い,テストデータセットで0.77 mAPを実行した。
さらに、モデルを特定の専門家や研究室全体に調整して、Hスコアの計算方法を再現することができる。
したがって、EndoNetは病理学のスライドの解析に有効で堅牢であり、病理学者の作業を改善し、著しく加速することができる。 H-score is a semi-quantitative method used to assess the presence and distribution of proteins in tissue samples by combining the intensity of staining and percentage of stained nuclei. It is widely used but time-consuming and can be limited in accuracy and precision. Computer-aided methods may help overcome these limitations and improve the efficiency of pathologists' workflows. In this work, we developed a model EndoNet for automatic calculation of H-score on histological slides. Our proposed method uses neural networks and consists of two main parts. The first is a detection model which predicts keypoints of centers of nuclei. The second is a H-score module which calculates the value of the H-score using mean pixel values of predicted keypoints. Our model was trained and validated on 1780 annotated tiles with a shape of 100x100 $\mu m$ and performed 0.77 mAP on a test dataset. Moreover, the model can be adjusted to a specific specialist or whole laboratory to reproduce the manner of calculating the H-score. Thus, EndoNet is effective and robust in the analysis of histology slides, which can improve and significantly accelerate the work of pathologists. | 翻訳日:2023-08-23 13:04:28 公開日:2023-08-22 |
# Open Set Synthetic Image Source Attribution Open Set Synthetic Image Source Attribution ( http://arxiv.org/abs/2308.11557v1 ) ライセンス: Link先を確認 | Shengbang Fang, Tai D. Nguyen, Matthew C. Stamm | (参考訳) AI生成画像はますます現実的になり、大衆の注目を集めている。
合成画像は現実主義によって興味をそそられる一方で、重要な誤報の脅威も生じている。
この新たな脅威に対処するため、研究者は合成画像を検出し、ソースジェネレータを識別する複数のアルゴリズムを開発した。
しかし、既存のほとんどのソース属性技術はクローズドセットのシナリオで動作するように設計されており、既知の画像生成装置を識別するためにのみ使用できる。
対照的に、新しい画像生成技術が急速に発展しつつある。
これに対抗するために、新しい未知のジェネレータから合成画像がいつ発生したかを識別できるオープンセットのソース属性技術が必要である。
この問題に対処するために,新しいメトリック学習に基づくアプローチを提案する。
本手法は,訓練中に見当たらない場合でも,ジェネレータ間の識別が可能な転送可能な組込みを学習することで動作する。
画像はまず候補生成器に割り当てられ、その後、既知の生成器の学習基準点からの埋め込み空間における距離に基づいて受理または拒否される。
重要なことは、画像カメラの識別に事前トレーニングすることで、ソース属性の埋め込みネットワークを初期化することで、埋め込みの転送性が向上することである。
一連の実験を通じて,オープンセットのシナリオにおいて合成画像のソースを識別する手法の能力を実証した。 AI-generated images have become increasingly realistic and have garnered significant public attention. While synthetic images are intriguing due to their realism, they also pose an important misinformation threat. To address this new threat, researchers have developed multiple algorithms to detect synthetic images and identify their source generators. However, most existing source attribution techniques are designed to operate in a closed-set scenario, i.e. they can only be used to discriminate between known image generators. By contrast, new image-generation techniques are rapidly emerging. To contend with this, there is a great need for open-set source attribution techniques that can identify when synthetic images have originated from new, unseen generators. To address this problem, we propose a new metric learning-based approach. Our technique works by learning transferrable embeddings capable of discriminating between generators, even when they are not seen during training. An image is first assigned to a candidate generator, then is accepted or rejected based on its distance in the embedding space from known generators' learned reference points. Importantly, we identify that initializing our source attribution embedding network by pretraining it on image camera identification can improve our embeddings' transferability. Through a series of experiments, we demonstrate our approach's ability to attribute the source of synthetic images in open-set scenarios. | 翻訳日:2023-08-23 13:04:11 公開日:2023-08-22 |
# 量子グラフモデルの代数幾何学 Algebraic Geometry of Quantum Graphical Models ( http://arxiv.org/abs/2308.11538v1 ) ライセンス: Link先を確認 | Eliana Duarte, Dmitrii Pavlov, Maximilian Wiesmann | (参考訳) アルゲブロ幾何法は統計学におけるグラフィカルモデルの研究において非常に成功したことが証明されている。
本稿では、それらの量子対応に関する同様の研究を行うための基礎を紹介する。
これらの量子グラフィックモデルは、グラフによって符号化された特定の局所性または相関条件を満たす量子状態の族である。
代数多様体を量子グラフィックモデルに関連付けるいくつかの方法を考案した。
古典的なグラフィカルモデルは、対角行列で表される量子状態を制限することで、これらの多様体のほとんどから回復することができる。
我々は,これらの多様体の基本的な性質を研究し,それらの定義式を計算するアルゴリズムを提供する。
さらに、グラフで定義される量子指数族への量子情報投影を研究し、バーチの定理の量子類似性を証明した。 Algebro-geometric methods have proven to be very successful in the study of graphical models in statistics. In this paper we introduce the foundations to carry out a similar study of their quantum counterparts. These quantum graphical models are families of quantum states satisfying certain locality or correlation conditions encoded by a graph. We lay out several ways to associate an algebraic variety to a quantum graphical model. The classical graphical models can be recovered from most of these varieties by restricting to quantum states represented by diagonal matrices. We study fundamental properties of these varieties and provide algorithms to compute their defining equations. Moreover, we study quantum information projections to quantum exponential families defined by graphs and prove a quantum analogue of Birch's Theorem. | 翻訳日:2023-08-23 13:03:49 公開日:2023-08-22 |
# 回帰型MLPニューラルネットワークの学習のための局所最小解法 A free from local minima algorithm for training regressive MLP neural networks ( http://arxiv.org/abs/2308.11532v1 ) ライセンス: Link先を確認 | Augusto Montisci | (参考訳) 本稿では,局所最小限ではない回帰型MLPネットワークを学習するための革新的な手法を提案する。
William-Hinton-Rummelhart が提案したError-Back-Propagationアルゴリズムは、1980年代半ばからすべての研究と技術の分野に浸透した機械学習技術の開発を好んだ。
この異常な成功は主にブラックボックスのアプローチによるものであるが、この同じ要因も制限と見なされ、すぐにより困難な問題にアプローチされた。
トレーニングアルゴリズムの最も重要な側面の1つは、損失関数の局所最小値(典型的にはトレーニングセットの出力の平均2乗誤差)である。
実際、最も一般的なトレーニングアルゴリズムは損失関数の導関数によって駆動されるため、到達した最小限が局所的かグローバル的かを評価することはできない。
本論文で提示するアルゴリズムは,トレーニングセットの分布特性に基づくか,あるいはニューラルネットワークの内部イメージに基づくため,局所的ミニマの問題を回避している。
アルゴリズムの性能はよく知られたベンチマークで示される。 In this article an innovative method for training regressive MLP networks is presented, which is not subject to local minima. The Error-Back-Propagation algorithm, proposed by William-Hinton-Rummelhart, has had the merit of favouring the development of machine learning techniques, which has permeated every branch of research and technology since the mid-1980s. This extraordinary success is largely due to the black-box approach, but this same factor was also seen as a limitation, as soon more challenging problems were approached. One of the most critical aspects of the training algorithms was that of local minima of the loss function, typically the mean squared error of the output on the training set. In fact, as the most popular training algorithms are driven by the derivatives of the loss function, there is no possibility to evaluate if a reached minimum is local or global. The algorithm presented in this paper avoids the problem of local minima, as the training is based on the properties of the distribution of the training set, or better on its image internal to the neural network. The performance of the algorithm is shown for a well-known benchmark. | 翻訳日:2023-08-23 13:03:39 公開日:2023-08-22 |
# 言語モデル能力を考慮した消音イベント検出 Furnishing Sound Event Detection with Language Model Abilities ( http://arxiv.org/abs/2308.11530v1 ) ライセンス: Link先を確認 | Hualei Wang, Jianguo Mao, Zhifang Guo, Jiarui Wan, Hong Liu, Xiangdong Wang | (参考訳) 近年,言語モデル(LM)の能力は視覚的横断性において注目を集めている。
本稿では,視覚領域を超えて,音イベント検出(sed)のためのlmsの生成能力について検討する。
具体的には,音声特徴とテキスト特徴を整合させ,音声イベントの分類と時間的位置を実現するエレガントな手法を提案する。
このフレームワークは、音響エンコーダと、対応するテキストと音声の表現を整合させるコントラストモジュールと、オーディオ特性から時間的および事象のシーケンスを生成する分離言語デコーダで構成されている。
複雑な処理を要し、限られた音声特徴をほとんど利用しない従来の手法と比較して、言語モデルは、その意味的能力を直接利用してシーケンスを生成するため、より簡潔で包括的である。
我々は,タイムスタンプキャプチャとイベント分類の有効性を示すために,異なるデカップリングモジュールを調査した。
評価の結果,提案手法は音響イベント検出の精度が向上した。 Recently, the ability of language models (LMs) has attracted increasing attention in visual cross-modality. In this paper, we further explore the generation capacity of LMs for sound event detection (SED), beyond the visual domain. Specifically, we propose an elegant method that aligns audio features and text features to accomplish sound event classification and temporal location. The framework consists of an acoustic encoder, a contrastive module that align the corresponding representations of the text and audio, and a decoupled language decoder that generates temporal and event sequences from the audio characteristic. Compared with conventional works that require complicated processing and barely utilize limited audio features, our model is more concise and comprehensive since language model directly leverage its semantic capabilities to generate the sequences. We investigate different decoupling modules to demonstrate the effectiveness for timestamps capture and event classification. Evaluation results show that the proposed method achieves accurate sequences of sound event detection. | 翻訳日:2023-08-23 13:03:21 公開日:2023-08-22 |
# 人工知能における意識:意識科学からの洞察 Consciousness in Artificial Intelligence: Insights from the Science of Consciousness ( http://arxiv.org/abs/2308.08708v3 ) ライセンス: Link先を確認 | Patrick Butlin, Robert Long, Eric Elmoznino, Yoshua Bengio, Jonathan Birch, Axel Constant, George Deane, Stephen M. Fleming, Chris Frith, Xu Ji, Ryota Kanai, Colin Klein, Grace Lindsay, Matthias Michel, Liad Mudrik, Megan A. K. Peters, Eric Schwitzgebel, Jonathan Simon, Rufin VanRullen | (参考訳) 現在または近い将来のaiシステムが意識されるかどうかは、科学的な関心と公衆の関心の高まりのトピックである。
このレポートは、AI意識に対する厳密で実証的なアプローチ、すなわち既存のAIシステムを詳細に評価し、私たちの最も支持された意識の神経科学理論を考慮し、それを実証している。
我々は,リカレント処理理論,グローバルワークスペース理論,高次理論,予測処理,注意スキーマ理論など,いくつかの著名な科学的意識理論を調査した。
これらの理論から、これらの特性に対してAIシステムを評価することができる計算用語で解明された意識の「指標特性」を導出する。
これらの指標特性を最近のAIシステムの評価に利用し、将来のシステムがどのように実装されるかについて議論する。
我々の分析は、現在のAIシステムは意識していないことを示唆しているが、これらの指標を満たすAIシステムを構築するための明らかな技術的障壁はないことを示唆している。 Whether current or near-term AI systems could be conscious is a topic of scientific interest and increasing public concern. This report argues for, and exemplifies, a rigorous and empirically grounded approach to AI consciousness: assessing existing AI systems in detail, in light of our best-supported neuroscientific theories of consciousness. We survey several prominent scientific theories of consciousness, including recurrent processing theory, global workspace theory, higher-order theories, predictive processing, and attention schema theory. From these theories we derive "indicator properties" of consciousness, elucidated in computational terms that allow us to assess AI systems for these properties. We use these indicator properties to assess several recent AI systems, and we discuss how future systems might implement them. Our analysis suggests that no current AI systems are conscious, but also suggests that there are no obvious technical barriers to building AI systems which satisfy these indicators. | 翻訳日:2023-08-23 11:16:41 公開日:2023-08-22 |
# 具体化エージェントの指示のための文脈認識計画と環境認識メモリ Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents ( http://arxiv.org/abs/2308.07241v3 ) ライセンス: Link先を確認 | Byeonghwi Kim, Jinyeon Kim, Yuyeong Kim, Cheolhong Min, Jonghyun Choi | (参考訳) 家庭のタスクを達成するには、前回のアクションの結果を考慮してステップバイステップのアクションを計画する必要がある。
しかし、最先端の具体化エージェントは、知識のない専門家やアルゴリズムプランナーを真似て、不完全な学習によって、環境のナビゲートや適切なオブジェクトとのインタラクションに誤りを犯すことが多い。
視覚的ナビゲーションとオブジェクトインタラクションの両面を改善するために,動作の順序に意味的コンテキスト(例えば,対話する適切なオブジェクト)を組み込んだCAPEAM(Context-Aware Planning and Environment-Aware Memory)による行動結果と,その後の動作の推測における相互作用対象(例えば,オブジェクトが移動した場所)の空間配置と状態を検討することを提案する。
実験により,提案手法を用いたエージェントは,実環境における対話型命令追従ベンチマーク(最大で10.70%)を用いて,様々な測定値において最先端のパフォーマンスを達成できることを実証した。 Accomplishing household tasks requires to plan step-by-step actions considering the consequences of previous actions. However, the state-of-the-art embodied agents often make mistakes in navigating the environment and interacting with proper objects due to imperfect learning by imitating experts or algorithmic planners without such knowledge. To improve both visual navigation and object interaction, we propose to consider the consequence of taken actions by CAPEAM (Context-Aware Planning and Environment-Aware Memory) that incorporates semantic context (e.g., appropriate objects to interact with) in a sequence of actions, and the changed spatial arrangement and states of interacted objects (e.g., location that the object has been moved to) in inferring the subsequent actions. We empirically show that the agent with the proposed CAPEAM achieves state-of-the-art performance in various metrics using a challenging interactive instruction following benchmark in both seen and unseen environments by large margins (up to +10.70% in unseen env.). | 翻訳日:2023-08-23 11:16:24 公開日:2023-08-22 |
# 量子符号からのnaranin cftとその$\mathbb{z}_2$ gauging Narain CFTs from quantum codes and their $\mathbb{Z}_2$ gauging ( http://arxiv.org/abs/2308.01579v3 ) ライセンス: Link先を確認 | Kohki Kawabata, Tatsuma Nishioka and Takuya Okuda | (参考訳) ナライン共形場理論 (cfts) における qudit 安定化符号を用いた $\mathbb{z}_2$ 対称性の観測について検討した。
オービフォールドとフェルミオン化の両方を考えると、$\mathbb{z}_2$ ゲージ手順と$\mathbb{z}_2$ 対称性を特徴づけるベクトルによる運動量格子の修正との接続を確立する。
また、対称位相場理論として作用するアーベル・チャーン・サイモンズ理論を通じて、{\mathbb{z}_2$ gaugings の三次元的解釈も提供する。 We investigate the gauging of a $\mathbb{Z}_2$ symmetry in Narain conformal field theories (CFTs) constructed from qudit stabilizer codes. Considering both orbifold and fermionization, we establish a connection between $\mathbb{Z}_2$ gauging procedures and modifications of the momentum lattice by vectors characterizing the $\mathbb{Z}_2$ symmetry. We also provide three-dimensional interpretations of $\mathbb{Z}_2$ gaugings through abelian Chern-Simons theories, which act as symmetry topological field theories. | 翻訳日:2023-08-23 11:16:02 公開日:2023-08-22 |
# 自然言語処理研究の展望を探る Exploring the Landscape of Natural Language Processing Research ( http://arxiv.org/abs/2307.10652v3 ) ライセンス: Link先を確認 | Tim Schopf, Karim Arabi, Florian Matthes | (参考訳) 自然言語テキストを理解し,生成し,処理するための効率的なアプローチとして,近年,自然言語処理(NLP)の研究が急速に広まり,広く採用されている。
この分野での研究が増加していることを踏まえ、NLP関連のいくつかのアプローチが研究コミュニティで調査されている。
しかし、確立したトピックを分類し、傾向を特定し、今後の研究分野を概説する総合的な研究は残っていない。
このギャップを埋めるため,aclアンソロジーにおける研究論文を体系的に分類・分析した。
その結果,研究景観の構造化的概観,nlpにおける研究分野の分類,nlpにおける最近の展開の分析,知見の要約,今後の課題の方向性を強調する。 As an efficient approach to understand, generate, and process natural language texts, research in natural language processing (NLP) has exhibited a rapid spread and wide adoption in recent years. Given the increasing research work in this area, several NLP-related approaches have been surveyed in the research community. However, a comprehensive study that categorizes established topics, identifies trends, and outlines areas for future research remains absent. Contributing to closing this gap, we have systematically classified and analyzed research papers in the ACL Anthology. As a result, we present a structured overview of the research landscape, provide a taxonomy of fields of study in NLP, analyze recent developments in NLP, summarize our findings, and highlight directions for future work. | 翻訳日:2023-08-23 11:15:49 公開日:2023-08-22 |
# 統計ジャコビ近似によるフェルミの黄金律を超えて Beyond Fermi's golden rule with the statistical Jacobi approximation ( http://arxiv.org/abs/2306.16457v3 ) ライセンス: Link先を確認 | David M. Long, Dominik Hahn, Marin Bukov, Anushya Chandran | (参考訳) 量子力学における多くの問題は、単一量子状態の連続体への崩壊として考えられる。
時間に依存した初期状態との重なりは忠実性と呼ばれ、この崩壊を特徴づける。
エルゴード・ハミルトニアンへのクエンチ後の忠実性の解析的表現を導出する。
この表現は弱クエンチェと強クエンチェの両方で有効であり、ヒルベルト空間の有限性以前の時間スケールは忠実性を制限する。
初期の二次的崩壊と漸近的指数的崩壊を再現し、強いクエンチェではフェルミの黄金律とは異なる速度で再現する。
この分析は、もともとほぼ局所的なシステムに応用された統計的ヤコビ近似(SJA)に依存しており、ここでは熱処理系に適応する。
本結果は,SJAが量子力学の異なる状態において予測可能であることを示す。 Many problems in quantum dynamics can be cast as the decay of a single quantum state into a continuum. The time-dependent overlap with the initial state, called the fidelity, characterizes this decay. We derive an analytic expression for the fidelity after a quench to an ergodic Hamiltonian. The expression is valid for both weak and strong quenches, and timescales before finiteness of the Hilbert space limits the fidelity. It reproduces initial quadratic decay and asymptotic exponential decay with a rate which, for strong quenches, differs from Fermi's golden rule. The analysis relies on the statistical Jacobi approximation (SJA), which was originally applied in nearly localized systems, and which we here adapt to well-thermalizing systems. Our results demonstrate that the SJA is predictive in disparate regimes of quantum dynamics. | 翻訳日:2023-08-23 11:15:36 公開日:2023-08-22 |
# 透かしを用いたAI生成コンテンツの検出 Evading Watermark based Detection of AI-Generated Content ( http://arxiv.org/abs/2305.03807v3 ) ライセンス: Link先を確認 | Zhengyuan Jiang, Jinghuai Zhang, Neil Zhenqiang Gong | (参考訳) 生成可能なAIモデルは、極めて現実的なコンテンツを生成することができ、情報の信頼性に対する課題が増大する。
この課題に対処するために、透かしを利用してAI生成コンテンツを検出する。
具体的には、リリース前にAI生成コンテンツに透かしを埋め込む。
類似の透かしをデコードできれば、コンテンツはAI生成として検出される。
本研究では,このような透かしに基づくAI生成コンテンツ検出の堅牢性に関する系統的研究を行う。
AI生成画像に焦点を当てる。
本研究は,視覚品質を維持したまま検出を回避できるような,人間に知覚できない小さな摂動を加えることで,後処理が可能なことを示す。
理論的にも経験的にも攻撃の有効性を示す。
さらに,検出を回避するために,AI生成画像の摂動をはるかに小さくし,JPEG圧縮やガウスアンボケ,明度/コントラストといった一般的な後処理方法よりも視覚的品質を向上する。
我々の研究は、既存の透かしに基づくAI生成コンテンツの検出が不十分であることを示し、新しい方法の緊急性を強調している。
私たちのコードは、https://github.com/zhengyuan-jiang/WEvade.comで公開されています。 A generative AI model can generate extremely realistic-looking content, posing growing challenges to the authenticity of information. To address the challenges, watermark has been leveraged to detect AI-generated content. Specifically, a watermark is embedded into an AI-generated content before it is released. A content is detected as AI-generated if a similar watermark can be decoded from it. In this work, we perform a systematic study on the robustness of such watermark-based AI-generated content detection. We focus on AI-generated images. Our work shows that an attacker can post-process a watermarked image via adding a small, human-imperceptible perturbation to it, such that the post-processed image evades detection while maintaining its visual quality. We show the effectiveness of our attack both theoretically and empirically. Moreover, to evade detection, our adversarial post-processing method adds much smaller perturbations to AI-generated images and thus better maintain their visual quality than existing popular post-processing methods such as JPEG compression, Gaussian blur, and Brightness/Contrast. Our work shows the insufficiency of existing watermark-based detection of AI-generated content, highlighting the urgent needs of new methods. Our code is publicly available: https://github.com/zhengyuan-jiang/WEvade. | 翻訳日:2023-08-23 11:15:02 公開日:2023-08-22 |
# 協調低光画像強調のためのインプシットニューラル表現 Implicit Neural Representation for Cooperative Low-light Image Enhancement ( http://arxiv.org/abs/2303.11722v3 ) ライセンス: Link先を確認 | Shuzhou Yang and Moxuan Ding and Yanmin Wu and Zihan Li and Jian Zhang | (参考訳) 以下の3つの要素は、既存の低照度画像強調法の適用を制限するものである: 予測不能な明るさ劣化とノイズ、メートル法と視覚に優しいバージョン間の固有のギャップ、限られたペアトレーニングデータ。
これらの制約に対処するため,NeRCoと呼ばれる協調低光画像強調のための暗黙的ニューラル表現法を提案する。
知覚に優しい結果を教師なしの方法でロバストに復元する。
具体的には、NeRCoは現実世界のシーンの多様な劣化要因を制御可能なフィッティング機能で統一し、ロバスト性が向上する。
また,この結果に対して,事前学習された視覚言語モデルから先行した意味指向の監督を導入する。
単に参照イメージに従うのではなく、結果が主観的な期待を満たすように促し、より視覚的フレンドリなソリューションを見つける。
さらに,ペアデータへの依存を緩和し,解空間を減らすため,双閉ループ制約付き拡張モジュールを開発した。
自制的な方法で他の関連モジュールと協調的に訓練される。
最後に,提案したNeRCoの堅牢性と優れた有効性を示す。
私たちのコードはhttps://github.com/Ysz2022/NeRCoで公開されています。 The following three factors restrict the application of existing low-light image enhancement methods: unpredictable brightness degradation and noise, inherent gap between metric-favorable and visual-friendly versions, and the limited paired training data. To address these limitations, we propose an implicit Neural Representation method for Cooperative low-light image enhancement, dubbed NeRCo. It robustly recovers perceptual-friendly results in an unsupervised manner. Concretely, NeRCo unifies the diverse degradation factors of real-world scenes with a controllable fitting function, leading to better robustness. In addition, for the output results, we introduce semantic-orientated supervision with priors from the pre-trained vision-language model. Instead of merely following reference images, it encourages results to meet subjective expectations, finding more visual-friendly solutions. Further, to ease the reliance on paired data and reduce solution space, we develop a dual-closed-loop constrained enhancement module. It is trained cooperatively with other affiliated modules in a self-supervised manner. Finally, extensive experiments demonstrate the robustness and superior effectiveness of our proposed NeRCo. Our code is available at https://github.com/Ysz2022/NeRCo. | 翻訳日:2023-08-23 11:14:43 公開日:2023-08-22 |
# H4VDM:H.264
ビデオ装置マッチング H4VDM: H.264 Video Device Matching ( http://arxiv.org/abs/2210.11549v3 ) ライセンス: Link先を確認 | Ziyue Xiang, Paolo Bestagini, Stefano Tubaro, Edward J. Delp | (参考訳) 与えられた2つのビデオシーケンスが同じデバイス(例えば携帯電話やデジタルカメラ)でキャプチャされるかどうかを判断する手法は、多くの法医学的タスクで利用できる。
本稿では,これを「ビデオデバイスマッチング」と呼ぶ。
オープンセットビデオ法医学のシナリオでは、2つのビデオシーケンスが同一デバイスでキャプチャされたかどうかを特定できる。
本稿では,オープンセットビデオデバイスマッチング手法を提案する。
2つのH.264圧縮ビデオシーケンスが与えられた場合、トレーニング中にこのデバイスに遭遇したことがない場合でも、同一デバイスでキャプチャされたかどうかを判定できる。
提案手法を h.264 と表現します
ビデオデバイスマッチング(h4vdm)。
H4VDMはビデオシーケンスから抽出したH.264圧縮情報を用いて意思決定を行う。
カメラセンサーの指紋を変えるアーティファクトに対してより堅牢であり、H.264配列の比較的小さな断片を分析するために使用できる。
提案手法は,提案手法が優れた性能を示した35のデバイスからなる,公開可能なビデオインフォメーションデータセット上でトレーニングおよびテストを行った。 Methods that can determine if two given video sequences are captured by the same device (e.g., mobile telephone or digital camera) can be used in many forensics tasks. In this paper we refer to this as "video device matching". In open-set video forensics scenarios it is easier to determine if two video sequences were captured with the same device than identifying the specific device. In this paper, we propose a technique for open-set video device matching. Given two H.264 compressed video sequences, our method can determine if they are captured by the same device, even if our method has never encountered the device in training. We denote our proposed technique as H.264 Video Device Matching (H4VDM). H4VDM uses H.264 compression information extracted from video sequences to make decisions. It is more robust against artifacts that alter camera sensor fingerprints, and it can be used to analyze relatively small fragments of the H.264 sequence. We trained and tested our method on a publicly available video forensics dataset consisting of 35 devices, where our proposed method demonstrated good performance. | 翻訳日:2023-08-23 11:14:22 公開日:2023-08-22 |
# LibriSQA: 新しいデータセットとフレームワークによるフリーフォームとオープンエンドの回答の改善 LibriSQA: Advancing Free-form and Open-ended Spoken Question Answering with a Novel Dataset and Framework ( http://arxiv.org/abs/2308.10390v2 ) ライセンス: Link先を確認 | Zihan Zhao, Yiyang Jiang, Heyang Liu, Yanfeng Wang, Yu Wang | (参考訳) LLM(Large Language Models)は、多数のドメインやタスクにまたがる可換性を示す一方で、既存のLLMは、特に音声とテキストの特徴間の正確なアライメントと深い相互作用を必要とするSQA(Spoke Question Answering)タスクにおいて、マルチモーダル機能を扱うのに相応しい欠点を示している。
LLMにおけるSQA問題に対処するため、まずLibrispeechから自由形式のオープンエンドLibriSQAデータセットをキュレートした。
どちらの部分も、様々なトピックをカバーする107kのSQAペアを含んでいる。
既存の音声テキストLLMの明快さを考慮し,SQAタスクをLibriSQA上で実行するための軽量なエンドツーエンドフレームワークを提案する。
ASRをSQAフォーマットに書き換えることで、ASRタスクの処理におけるフレームワークの機能をさらに裏付ける。
実験の結果,マルチモーダル情報の整合と理解に対するllmsの適性が高まり,汎用マルチモーダルllmの開発への道筋が開けた。
データセットとデモはhttps://github.com/ZihanZhaoSJTU/LibriSQAで見ることができる。 While Large Language Models (LLMs) have demonstrated commendable performance across a myriad of domains and tasks, existing LLMs still exhibit a palpable deficit in handling multimodal functionalities, especially for the Spoken Question Answering (SQA) task which necessitates precise alignment and deep interaction between speech and text features. To address the SQA challenge on LLMs, we initially curated the free-form and open-ended LibriSQA dataset from Librispeech, comprising Part I with natural conversational formats and Part II encompassing multiple-choice questions followed by answers and analytical segments. Both parts collectively include 107k SQA pairs that cover various topics. Given the evident paucity of existing speech-text LLMs, we propose a lightweight, end-to-end framework to execute the SQA task on the LibriSQA, witnessing significant results. By reforming ASR into the SQA format, we further substantiate our framework's capability in handling ASR tasks. Our empirical findings bolster the LLMs' aptitude for aligning and comprehending multimodal information, paving the way for the development of universal multimodal LLMs. The dataset and demo can be found at https://github.com/ZihanZhaoSJTU/LibriSQA. | 翻訳日:2023-08-23 10:50:52 公開日:2023-08-22 |
# テスト時間周波数領域プロンプトによるマスキングオートエンコーダの対向ロバスト性向上 Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain Prompting ( http://arxiv.org/abs/2308.10315v2 ) ライセンス: Link先を確認 | Qidong Huang, Xiaoyi Dong, Dongdong Chen, Yinpeng Chen, Lu Yuan, Gang Hua, Weiming Zhang, Nenghai Yu | (参考訳) 本稿では,BERT事前訓練(BEiT,MAEなど)を備えた視覚変換器の対角ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
この観察により、これらのBERT事前学習方法の基本的な相違と、これらの相違が敵の摂動に対する堅牢性に与える影響を再考する。
実験結果から,bertプリトレーニングの敵対的ロバスト性は,画像の中・高頻度成分に集中するように誘導されるため,マスキング画像パッチの生画素を予測すれば,意味的文脈を予測するよりも,モデルの敵対的ロバスト性が低下することが明らかとなった。
解析結果から,mae の敵対的ロバスト性を高めるための簡便かつ効果的な方法を提案する。
基本的な考え方は、データセット抽出されたドメイン知識を用いて画像の中・高頻度を占有し、対向摂動の最適化空間を狭めることである。
具体的には、プリトレーニングデータの分布をグループ化し、周波数領域でクラスタ固有の視覚的プロンプトのセットを最適化する。
これらのプロンプトは、テスト期間中にプロトタイプベースのプロンプト選択によって入力画像に組み込まれる。
本手法は,ImageNet-1k分類におけるクリーンな性能を維持しつつ,MAEの対向ロバスト性を向上することを示す。
私たちのコードは、https://github.com/shikiw/RobustMAE.comで利用可能です。 In this paper, we investigate the adversarial robustness of vision transformers that are equipped with BERT pretraining (e.g., BEiT, MAE). A surprising observation is that MAE has significantly worse adversarial robustness than other BERT pretraining methods. This observation drives us to rethink the basic differences between these BERT pretraining methods and how these differences affect the robustness against adversarial perturbations. Our empirical analysis reveals that the adversarial robustness of BERT pretraining is highly related to the reconstruction target, i.e., predicting the raw pixels of masked image patches will degrade more adversarial robustness of the model than predicting the semantic context, since it guides the model to concentrate more on medium-/high-frequency components of images. Based on our analysis, we provide a simple yet effective way to boost the adversarial robustness of MAE. The basic idea is using the dataset-extracted domain knowledge to occupy the medium-/high-frequency of images, thus narrowing the optimization space of adversarial perturbations. Specifically, we group the distribution of pretraining data and optimize a set of cluster-specific visual prompts on frequency domain. These prompts are incorporated with input images through prototype-based prompt selection during test period. Extensive evaluation shows that our method clearly boost MAE's adversarial robustness while maintaining its clean performance on ImageNet-1k classification. Our code is available at: https://github.com/shikiw/RobustMAE. | 翻訳日:2023-08-23 10:50:28 公開日:2023-08-22 |
# ブロックシャッフルと回転による対向移動性の向上 Boosting Adversarial Transferability by Block Shuffle and Rotation ( http://arxiv.org/abs/2308.10299v2 ) ライセンス: Link先を確認 | Kunyu Wang, Xuanran He, Wenxuan Wang and Xiaosen Wang | (参考訳) 逆行例 知覚不能な摂動を伴う深層ニューラルネットワークを誤解し、ディープラーニングに重大な脅威をもたらした。
重要な側面は、転送可能性であり、他のモデルをだましてブラックボックス設定で攻撃を可能にする能力を指す。
転送可能性を高めるために様々な方法が提案されているが、ホワイトボックス攻撃に比べて性能は低い。
本研究では,従来の入力変換に基づく攻撃が主流の転送ベース攻撃の1つであり,様々なモデルに対する注意熱マップが異なる結果となり,転送可能性の制限が生じることを観察する。
また、本画像の本質的な関係を断ち切ることで、原画像の注目熱マップを乱すことがある。
そこで本研究では,ブロックシャッフル・アンド・ローテーション(BSR)と呼ばれる新しい入力変換に基づく攻撃を提案する。
特に、bsrは入力画像を複数のブロックに分割し、ランダムにシャッフルしてこれらのブロックを回転させ、勾配計算のための新しい画像群を構築する。
ImageNetデータセットの実証的な評価により、BSRはシングルモデルとアンサンブルモデル設定の下で既存の入力変換ベースの方法よりもはるかに優れた転送性が得られることが示された。
bsrと現在の入力変換法を組み合わせることで、転送性がさらに向上し、最先端の方法を大きく上回る。 Adversarial examples mislead deep neural networks with imperceptible perturbations and have brought significant threats to deep learning. An important aspect is their transferability, which refers to their ability to deceive other models, thus enabling attacks in the black-box setting. Though various methods have been proposed to boost transferability, the performance still falls short compared with white-box attacks. In this work, we observe that existing input transformation based attacks, one of the mainstream transfer-based attacks, result in different attention heatmaps on various models, which might limit the transferability. We also find that breaking the intrinsic relation of the image can disrupt the attention heatmap of the original image. Based on this finding, we propose a novel input transformation based attack called block shuffle and rotation (BSR). Specifically, BSR splits the input image into several blocks, then randomly shuffles and rotates these blocks to construct a set of new images for gradient calculation. Empirical evaluations on the ImageNet dataset demonstrate that BSR could achieve significantly better transferability than the existing input transformation based methods under single-model and ensemble-model settings. Combining BSR with the current input transformation method can further improve the transferability, which significantly outperforms the state-of-the-art methods. | 翻訳日:2023-08-23 10:50:01 公開日:2023-08-22 |
# FedSIS: プライバシ保存型汎用顔提示攻撃検出のための中間表現サンプリングによるフェデレーションスプリット学習 FedSIS: Federated Split Learning with Intermediate Representation Sampling for Privacy-preserving Generalized Face Presentation Attack Detection ( http://arxiv.org/abs/2308.10236v2 ) ライセンス: Link先を確認 | Naif Alkhunaizi, Koushik Srivatsan, Faris Almalik, Ibrahim Almakky, Karthik Nandakumar | (参考訳) unseen domain/attacksへの一般化の欠如は、ほとんどのface presentation attack detection (facepad)アルゴリズムのアキレス腱である。
FacePADソリューションの一般化性を高めるための既存の試みは、複数のソースドメインからのデータが単一のエンティティで利用可能であることを前提としている。
実際には、異なるソースドメインからのデータは、法律やプライバシーの制約により共有できないさまざまなエンティティによって収集される可能性がある。
フェデレートラーニング(FL)のような協調学習パラダイムはこの問題を克服できるが、標準的なFLメソッドは、トレーニング中に非IDクライアントデータ分散を処理し、推論中に見知らぬドメインに一般化するという2つの課題を克服するのに苦労するため、ドメインの一般化に不適である。
本稿では,プライバシ保護ドメインの一般化のために,中間表現サンプリング(fedsis)を用いたフェデレーション分割学習(federated split learning)と呼ばれる新しいフレームワークを提案する。
フェデシスでは、ハイブリッドビジョントランスフォーマー(vit)アーキテクチャをflとスプリットラーニングの組み合わせを用いて学習し、生データを共有することなく(プライバシーを保ちながら)クライアントデータ分布の統計的不均一性に対する堅牢性を達成する。
未検出領域の一般化をさらに改善するため、中間表現サンプリングと呼ばれる新しい特徴増強戦略を採用し、共有アダプタネットワークを用いてvitの中間ブロックからの判別情報を蒸留する。
FedSISのアプローチは、クロスドメインFacePADのよく知られた2つのベンチマークで評価され、データ共有なしで最先端の一般化性能を達成可能であることを示した。
コード:https://github.com/Naiftt/FedSIS Lack of generalization to unseen domains/attacks is the Achilles heel of most face presentation attack detection (FacePAD) algorithms. Existing attempts to enhance the generalizability of FacePAD solutions assume that data from multiple source domains are available with a single entity to enable centralized training. In practice, data from different source domains may be collected by diverse entities, who are often unable to share their data due to legal and privacy constraints. While collaborative learning paradigms such as federated learning (FL) can overcome this problem, standard FL methods are ill-suited for domain generalization because they struggle to surmount the twin challenges of handling non-iid client data distributions during training and generalizing to unseen domains during inference. In this work, a novel framework called Federated Split learning with Intermediate representation Sampling (FedSIS) is introduced for privacy-preserving domain generalization. In FedSIS, a hybrid Vision Transformer (ViT) architecture is learned using a combination of FL and split learning to achieve robustness against statistical heterogeneity in the client data distributions without any sharing of raw data (thereby preserving privacy). To further improve generalization to unseen domains, a novel feature augmentation strategy called intermediate representation sampling is employed, and discriminative information from intermediate blocks of a ViT is distilled using a shared adapter network. The FedSIS approach has been evaluated on two well-known benchmarks for cross-domain FacePAD to demonstrate that it is possible to achieve state-of-the-art generalization performance without data sharing. Code: https://github.com/Naiftt/FedSIS | 翻訳日:2023-08-23 10:49:36 公開日:2023-08-22 |
# WMFormer++: 命令型共同学習による可視な透かし除去のためのNested Transformer WMFormer++: Nested Transformer for Visible Watermark Removal via Implict Joint Learning ( http://arxiv.org/abs/2308.10195v2 ) ライセンス: Link先を確認 | Dongjian Huo, Zehong Zhang, Hanjing Su, Guanbin Li, Chaowei Fang, Qingyao Wu | (参考訳) ウォーターマーキングはメディア著作権を保護するために広く採用されているアプローチである。
並行して、研究の焦点は透かし除去技術にまで拡張され、透かしの堅牢性を高め、透かし分野の進歩を促進するための敵対手段が提供された。
既存のウォーターマーク除去方法は、主にタスク固有のデコーダブランチを持つunetに依存している。
しかし, 水標定位と背景復元は孤立した作業ではなく, 正確な水標定位は, 本質的には部分的修復を必要とすることを示し, 背景復元過程はより正確な水標定位に寄与する。
両分野の情報を包括的に統合するために,暗黙的な共同学習パラダイムを導入する。
これによってネットワークは、ゲート機構を介して暗黙のブランチ間の情報の流れを自律的にナビゲートできるようになる。
さらに,マルチスケール情報の統合にネスト構造を活用しつつ,局所的詳細復元と全体構造理解を容易にするために,クロスチャネルに着目した。
提案手法の有効性を検証するため,様々な試行錯誤試験を行った。
その結果,既存の最先端手法を大差で上回って,このアプローチの卓越性が実証された。 Watermarking serves as a widely adopted approach to safeguard media copyright. In parallel, the research focus has extended to watermark removal techniques, offering an adversarial means to enhance watermark robustness and foster advancements in the watermarking field. Existing watermark removal methods mainly rely on UNet with task-specific decoder branches--one for watermark localization and the other for background image restoration. However, watermark localization and background restoration are not isolated tasks; precise watermark localization inherently implies regions necessitating restoration, and the background restoration process contributes to more accurate watermark localization. To holistically integrate information from both branches, we introduce an implicit joint learning paradigm. This empowers the network to autonomously navigate the flow of information between implicit branches through a gate mechanism. Furthermore, we employ cross-channel attention to facilitate local detail restoration and holistic structural comprehension, while harnessing nested structures to integrate multi-scale information. Extensive experiments are conducted on various challenging benchmarks to validate the effectiveness of our proposed method. The results demonstrate our approach's remarkable superiority, surpassing existing state-of-the-art methods by a large margin. | 翻訳日:2023-08-23 10:49:07 公開日:2023-08-22 |
# シーン認識機能マッチング Scene-Aware Feature Matching ( http://arxiv.org/abs/2308.09949v2 ) ライセンス: Link先を確認 | Xiaoyong Lu, Yaping Yan, Tong Wei, Songlin Du | (参考訳) 現在の特徴マッチング手法は、個々の特徴のより良い表現学習を追求するが、シーンのさらなる理解は欠如している。
これにより、視点の広いシーンや照明の変化といった困難なシーンを扱う場合のパフォーマンスが大幅に低下する。
この問題に対処するために,Scene-Aware機能マッチングのガイドに注目グルーピングを適用したSAMという新しいモデルを提案する。
SAMは、画像トークンとグループトークンのマルチレベル機能をアテンション層で処理し、提案されたトークングループ化モジュールでイメージトークンをグループ化する。
我々のモデルは、地道一致のみで訓練でき、合理的なグループ化結果が得られる。
センスアウェアなグループ化ガイダンスでは、SAMは従来の特徴マッチングモデルよりも正確で堅牢であり、解釈性も高い。
ホモグラフィー推定,ポーズ推定,画像マッチングなど,様々な応用に関する十分な実験により,我々のモデルが最先端の性能を達成することを示す。 Current feature matching methods focus on point-level matching, pursuing better representation learning of individual features, but lacking further understanding of the scene. This results in significant performance degradation when handling challenging scenes such as scenes with large viewpoint and illumination changes. To tackle this problem, we propose a novel model named SAM, which applies attentional grouping to guide Scene-Aware feature Matching. SAM handles multi-level features, i.e., image tokens and group tokens, with attention layers, and groups the image tokens with the proposed token grouping module. Our model can be trained by ground-truth matches only and produce reasonable grouping results. With the sense-aware grouping guidance, SAM is not only more accurate and robust but also more interpretable than conventional feature matching models. Sufficient experiments on various applications, including homography estimation, pose estimation, and image matching, demonstrate that our model achieves state-of-the-art performance. | 翻訳日:2023-08-23 10:48:44 公開日:2023-08-22 |
# コードLLMのための高リソースから低リソースプログラミング言語への知識伝達 Knowledge Transfer from High-Resource to Low-Resource Programming Languages for Code LLMs ( http://arxiv.org/abs/2308.09895v2 ) ライセンス: Link先を確認 | Federico Cassano, John Gouwar, Francesca Lucchetti, Claire Schlesinger, Carolyn Jane Anderson, Michael Greenberg, Abhinav Jangda, Arjun Guha | (参考訳) ここ数年、Large Language Models of Code (Code LLM) はプログラミングの実践に大きな影響を与え始めています。
コードLLMは、プログラミング言語やソフトウェア工学の研究のためのビルディングブロックとしても登場しています。
しかし、コードLLMが生成するコードの品質はプログラミング言語によって大きく異なる。
コードLLMは、トレーニングデータ(Java、Python、JavaScriptなど)でよく表現されているが、OCamlやRacketのような低リソースの言語と競合するプログラミング言語に対して印象的な結果をもたらす。
本稿では,半合成データを用いた低リソース言語におけるコードLLMの性能向上に有効な手法を提案する。
提案手法では,低リソース言語に対して高品質なデータセットを生成し,事前学習したコードLLMを微調整することができる。
我々のアプローチはMultiPL-Tと呼ばれ、高リソース言語からのトレーニングデータを低リソース言語のトレーニングデータに変換する。
我々は、PythonからRacket、OCaml、Luaの新しい数万のトレーニングアイテムを生成するために、我々のアプローチを適用します。
さらに、オープンデータセット(スタック)とモデル(starcoderbase)を使用して、モデルライセンスに違反することなく、このデータ上のベンチマークやモデルのトレーニングを解除できます。
また,MultiPL-T生成データを用いて,ベンチマーク問題に対するRacket,OCaml,Luaの最先端性能を実現するStarCoderBaseの微調整版を提案する。
Lua氏にとって、当社の微調整モデルは、MultiPL-Eベンチマーク上で、非常に高ソースのPythonであるStarCoderBaseと同じパフォーマンスを実現しています。
RacketとOCamlでは、MultiPL-Eのパフォーマンスを2倍にし、RubyやC#のような高リソース言語にそのパフォーマンスを近づけます。 Over the past few years, Large Language Models of Code (Code LLMs) have started to have a significant impact on programming practice. Code LLMs are also emerging as a building block for research in programming languages and software engineering. However, the quality of code produced by a Code LLM varies significantly by programming languages. Code LLMs produce impressive results on programming languages that are well represented in their training data (e.g., Java, Python, or JavaScript), but struggle with low-resource languages, like OCaml and Racket. This paper presents an effective approach for boosting the performance of Code LLMs on low-resource languages using semi-synthetic data. Our approach generates high-quality datasets for low-resource languages, which can then be used to fine-tune any pretrained Code LLM. Our approach, called MultiPL-T, translates training data from high-resource languages into training data for low-resource languages. We apply our approach to generate tens of thousands of new, validated training items for Racket, OCaml, and Lua from Python. Moreover, we use an open dataset (The Stack) and model (StarCoderBase), which allow us to decontaminate benchmarks and train models on this data without violating the model license. With MultiPL-T generated data, we present fine-tuned versions of StarCoderBase that achieve state-of-the-art performance for Racket, OCaml, and Lua on benchmark problems. For Lua, our fine-tuned model achieves the same performance as StarCoderBase as Python -- a very high-resource language -- on the MultiPL-E benchmarks. For Racket and OCaml, we double their performance on MultiPL-E, bringing their performance close to higher-resource languages such as Ruby and C#. | 翻訳日:2023-08-23 10:48:27 公開日:2023-08-22 |
# datasetequity: すべてのサンプルは平等か?
データセット内のエクイティを求めて DatasetEquity: Are All Samples Created Equal? In The Quest For Equity Within Datasets ( http://arxiv.org/abs/2308.09878v2 ) ライセンス: Link先を確認 | Shubham Shrivastava, Xianling Zhang, Sushruth Nagesh, Armin Parchami | (参考訳) データ不均衡は、機械学習の分野でよく知られた問題であり、データ収集のコスト、ラベル付けの難しさ、データの地理的分布に起因する。
コンピュータビジョンでは、画像の出現によるデータ分布の偏りは未解明のままである。
クラスラベルを用いたカテゴリ分布と比較すると、画像の外観はクラスラベルが提供するもの以上のオブジェクト間の複雑な関係を示す。
生のピクセルから抽出した深い知覚特徴をクラスタリングすることで、データのよりリッチな表現が可能になる。
本稿では,機械学習におけるデータ不均衡に対処する新しい手法を提案する。
本手法は, 深い知覚埋め込みとクラスタリングを用いて, 画像の外観に基づくサンプル確率を算出する。
次に、これらの可能性を使って、提案された$\textbf{ Generalized Focal Loss}$関数を使って、トレーニング中にサンプルを異なる量にする。
この損失は、ディープラーニングアルゴリズムと容易に統合できる。
実験では、KITTIやnuScenesを含む自律走行視覚データセット間で、この手法の有効性を検証する。
損失関数は最先端の3dオブジェクト検出方法を改善し、kittiデータセットの未表示クラス(cyclist)で200〜%のapゲインを達成する。
その結果、この手法は一般化可能であり、既存の手法を補完し、より小さなデータセットやレアクラスに特に有用であることが示されている。
コードは、https://github.com/towardsautonomy/DatasetEquityで入手できる。 Data imbalance is a well-known issue in the field of machine learning, attributable to the cost of data collection, the difficulty of labeling, and the geographical distribution of the data. In computer vision, bias in data distribution caused by image appearance remains highly unexplored. Compared to categorical distributions using class labels, image appearance reveals complex relationships between objects beyond what class labels provide. Clustering deep perceptual features extracted from raw pixels gives a richer representation of the data. This paper presents a novel method for addressing data imbalance in machine learning. The method computes sample likelihoods based on image appearance using deep perceptual embeddings and clustering. It then uses these likelihoods to weigh samples differently during training with a proposed $\textbf{Generalized Focal Loss}$ function. This loss can be easily integrated with deep learning algorithms. Experiments validate the method's effectiveness across autonomous driving vision datasets including KITTI and nuScenes. The loss function improves state-of-the-art 3D object detection methods, achieving over $200\%$ AP gains on under-represented classes (Cyclist) in the KITTI dataset. The results demonstrate the method is generalizable, complements existing techniques, and is particularly beneficial for smaller datasets and rare classes. Code is available at: https://github.com/towardsautonomy/DatasetEquity | 翻訳日:2023-08-23 10:47:58 公開日:2023-08-22 |
# EAVL:画像セグメンテーションを参照するための視覚と言語 EAVL: Explicitly Align Vision and Language for Referring Image Segmentation ( http://arxiv.org/abs/2308.09779v2 ) ライセンス: Link先を確認 | Yichen Yan, Xingjian He, Wenxuan Wang, Sihan Chen, Jing Liu | (参考訳) 画像セグメント化の参照は、自然言語で言及されたオブジェクトを画像からセグメントすることを目的としている。
主な課題は言語に関連したローカライゼーションである。
従来のアプローチは主に、言語関連のローカライゼーションを完全に解決することなく、視覚と言語機能の融合に焦点を当てていた。
従来のアプローチでは、融合した視覚言語機能はデコーダに直接入力され、固定されたカーネルとの畳み込みを通過して結果を得る。
このアプローチは、セグメンテーション段階における言語と視覚の特徴を明示的に調整するものではない。
従来の手法とは違って,画像セグメンテーション(EAVL)のための視覚と言語を明示的にアライメントする手法を提案する。
固定畳み込みカーネルの代わりに,セグメント化段階における視覚と言語の特徴を明確に整列する Aligner を提案する。
具体的には、一連の固定されていない畳み込みカーネルが入力lに基づいて生成され、視覚と言語の特徴を明示的に整列するために使用される。
これを実現するために、言語表現の異なる相を表す複数のクエリを生成する。
これらのクエリは、一連のクエリベースの畳み込みカーネルに変換される。
次に,これらのカーネルを用いてセグメンテーション段階の畳み込みを行い,一連のセグメンテーションマスクを得る。
最終結果はすべてのマスクの集合によって得られる。
本手法は視覚と言語機能を効果的に融合できるだけでなく,セグメンテーション段階でその潜在能力を活用できる。
そして、最も重要なことは、異なる位相の言語特徴を画像特徴と明示的に整合させ、言語関連ローカライゼーションを実現することである。
提案手法は,RefCOCO,RefCOCO+,G-Refにおける従来の最先端手法を大きなマージンで上回る。 Referring image segmentation aims to segment an object mentioned in natural language from an image. A main challenge is language-related localization, which means locating the object with the relevant language. Previous approaches mainly focus on the fusion of vision and language features without fully addressing language-related localization. In previous approaches, fused vision-language features are directly fed into a decoder and pass through a convolution with a fixed kernel to obtain the result, which follows a similar pattern as traditional image segmentation. This approach does not explicitly align language and vision features in the segmentation stage, resulting in a suboptimal language-related localization. Different from previous methods, we propose Explicitly Align the Vision and Language for Referring Image Segmentation (EAVL). Instead of using a fixed convolution kernel, we propose an Aligner which explicitly aligns the vision and language features in the segmentation stage. Specifically, a series of unfixed convolution kernels are generated based on the input l, and then are use to explicitly align the vision and language features. To achieve this, We generate multiple queries that represent different emphases of the language expression. These queries are transformed into a series of query-based convolution kernels. Then, we utilize these kernels to do convolutions in the segmentation stage and obtain a series of segmentation masks. The final result is obtained through the aggregation of all masks. Our method can not only fuse vision and language features effectively but also exploit their potential in the segmentation stage. And most importantly, we explicitly align language features of different emphases with the image features to achieve language-related localization. Our method surpasses previous state-of-the-art methods on RefCOCO, RefCOCO+, and G-Ref by large margins. | 翻訳日:2023-08-23 10:47:38 公開日:2023-08-22 |
# 驚きによって取られる:類似度スコアのコントラスト効果 Taken by Surprise: Contrast effect for Similarity Scores ( http://arxiv.org/abs/2308.09765v2 ) ライセンス: Link先を確認 | Thomas C. Bachlechner, Mario Martone and Marjorie Schillo | (参考訳) オブジェクトベクトル埋め込みの類似性を正確に評価することは、自然言語処理、情報検索、分類タスクにおいて重要である。
一般的な類似度スコア(例えばコサイン類似度)は埋め込みベクトルのペアに基づいており、オブジェクトが描画されるアンサンブルの分布を無視している。
オブジェクトの類似性に対する人間の認識は、オブジェクトが現れるコンテキストに大きく依存する。
本研究では,人間の知覚のコントラスト効果をカプセル化したアンサンブル正規化類似度尺度である$\textit{surprise score}$を提案する。
このスコアは、ペアワイズアンサンブルの類似性に対する2つの要素間の与えられた類似性を見つけることに驚きを定量化する。
0/fewショットの分類とクラスタリングのタスクでこのメトリクスを評価し、通常、生のコサインの類似性よりも10~15%優れたパフォーマンスを見出す。
私たちのコードはhttps://github.com/MeetElise/surprise-similarity.comで利用可能です。 Accurately evaluating the similarity of object vector embeddings is of critical importance for natural language processing, information retrieval and classification tasks. Popular similarity scores (e.g cosine similarity) are based on pairs of embedding vectors and disregard the distribution of the ensemble from which objects are drawn. Human perception of object similarity significantly depends on the context in which the objects appear. In this work we propose the $\textit{surprise score}$, an ensemble-normalized similarity metric that encapsulates the contrast effect of human perception and significantly improves the classification performance on zero- and few-shot document classification tasks. This score quantifies the surprise to find a given similarity between two elements relative to the pairwise ensemble similarities. We evaluate this metric on zero/few shot classification and clustering tasks and typically find 10-15 % better performance compared to raw cosine similarity. Our code is available at https://github.com/MeetElise/surprise-similarity. | 翻訳日:2023-08-23 10:47:09 公開日:2023-08-22 |
# AI/MLアプリケーションのためのMajorana Demonstratorデータリリース Majorana Demonstrator Data Release for AI/ML Applications ( http://arxiv.org/abs/2308.10856v2 ) ライセンス: Link先を確認 | I.J. Arnquist, F.T. Avignone III, A.S. Barabash, C.J. Barton, K.H. Bhimani, E. Blalock, B. Bos, M. Busch, M. Buuck, T.S. Caldwell, Y.-D. Chan, C.D. Christofferson, P.-H. Chu, M.L. Clark, C. Cuesta, J.A. Detwiler, Yu. Efremenko, H. Ejiri, S.R. Elliott, N. Fuad, G.K. Giovanetti, M.P. Green, J. Gruszko, I.S. Guinn, V.E. Guiseppe, C.R. Haufe, R. Henning, D. Hervas Aguilar, E.W. Hoppe, A. Hostiuc, M.F. Kidd, I. Kim, R.T. Kouzes, T.E. Lannen V, A. Li, J.M. Lopez-Castano, R.D. Martin, R. Massarczyk, S.J. Meijer, S. Mertens, T.K. Oli, L.S. Paudel, W. Pettus, A.W.P. Poon, B. Quenallata, D.C. Radford, A.L. Reine, K. Rielage, N.W. Ruof, D.C. Schaper, S.J. Schleich, D. Tedeschi, R.L. Varner, S. Vasilyev, S.L. Watkins, J.F. Wilkerson, C. Wiseman, W. Xu, C.-H. Yu, and B.X. Zhu | (参考訳) 囲われたデータリリースは、Majorana Demonstrator実験のキャリブレーションデータのサブセットで構成されている。
各マヨラナイベントには、生のゲルマニウム検出器波形、パルス形状識別カット、校正された最終エネルギーが伴い、全てhdf5ファイルフォーマットで共有される。
このリリースは、データに対する人工知能(AI)と機械学習(ML)アルゴリズムのトレーニングとテストをサポートするように設計されている。
この文書は次のように構成されている。
第1節ではデータセットの内容とフォーマットの概要、第2節ではデータセットの位置とアクセス方法の概要、第3節ではデータセットに関連するNPML機械学習チャレンジ、第4節ではデータセットの使用に関するMajoranaのコラボレーションからの報告、第A節ではこのデータリリースに関する技術的な詳細が記載されている。
このリリースで提供される資料については、liaobo77@ucsd.edu (A. Li)に直接質問してください。 The enclosed data release consists of a subset of the calibration data from the Majorana Demonstrator experiment. Each Majorana event is accompanied by raw Germanium detector waveforms, pulse shape discrimination cuts, and calibrated final energies, all shared in an HDF5 file format along with relevant metadata. This release is specifically designed to support the training and testing of Artificial Intelligence (AI) and Machine Learning (ML) algorithms upon our data. This document is structured as follows. Section I provides an overview of the dataset's content and format; Section II outlines the location of this dataset and the method for accessing it; Section III presents the NPML Machine Learning Challenge associated with this dataset; Section IV contains a disclaimer from the Majorana collaboration regarding the use of this dataset; Appendix A contains technical details of this data release. Please direct questions about the material provided within this release to liaobo77@ucsd.edu (A. Li). | 翻訳日:2023-08-23 10:25:14 公開日:2023-08-22 |
# 学習者による教師なし環境設計の安定化 Stabilizing Unsupervised Environment Design with a Learned Adversary ( http://arxiv.org/abs/2308.10797v2 ) ライセンス: Link先を確認 | Ishita Mediratta, Minqi Jiang, Jack Parker-Holder, Michael Dennis, Eugene Vinitsky, Tim Rockt\"aschel | (参考訳) 汎用エージェントの訓練における重要な課題は、環境変動に対する広範な一般化と堅牢性を促進する訓練タスクの設計である。
この課題は教師エージェントが提案するタスクの適応分布を学習する非教師環境設計 (unsupervised environment design, ued) の課題設定を動機付ける。
UEDの先駆的なアプローチは、強化学習(RL)を使用して、スクラッチからタスクを設計するための教師のポリシーを訓練し、エージェントの現在の能力に適応したタスクを直接生成できるようにする、PAIREDである。
PAIREDは理論上の強い支持にもかかわらず、実用性能を妨げる様々な課題に悩まされている。
したがって、現在最先端の手法は、新しいタスクを生成するのではなく、キュレーションと突然変異に依存している。
本研究では,PAIREDのいくつかの重要な欠点を調査し,各欠点に対する解決策を提案する。
その結果、ペアリングによる最先端の手法の一致や超過が可能となり、部分的に監視された迷路ナビゲーションタスクや連続制御カーレース環境など、いくつかの確立された手続き的生成環境において頑健なエージェントを生成できる。
この研究は、よりオープンなRLトレーニングを開放し、結果としてより一般的なエージェントを解放する可能性のある、挑戦的な環境を直接生成する学習モデルに基づく、UEDメソッドへの新たな重点を動機付けていると考えています。 A key challenge in training generally-capable agents is the design of training tasks that facilitate broad generalization and robustness to environment variations. This challenge motivates the problem setting of Unsupervised Environment Design (UED), whereby a student agent trains on an adaptive distribution of tasks proposed by a teacher agent. A pioneering approach for UED is PAIRED, which uses reinforcement learning (RL) to train a teacher policy to design tasks from scratch, making it possible to directly generate tasks that are adapted to the agent's current capabilities. Despite its strong theoretical backing, PAIRED suffers from a variety of challenges that hinder its practical performance. Thus, state-of-the-art methods currently rely on curation and mutation rather than generation of new tasks. In this work, we investigate several key shortcomings of PAIRED and propose solutions for each shortcoming. As a result, we make it possible for PAIRED to match or exceed state-of-the-art methods, producing robust agents in several established challenging procedurally-generated environments, including a partially-observed maze navigation task and a continuous-control car racing environment. We believe this work motivates a renewed emphasis on UED methods based on learned models that directly generate challenging environments, potentially unlocking more open-ended RL training and, as a result, more general agents. | 翻訳日:2023-08-23 10:24:55 公開日:2023-08-22 |
# wanjuan: 英語と中国語の大規模モデルの総合的マルチモーダルデータセット WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models ( http://arxiv.org/abs/2308.10755v2 ) ライセンス: Link先を確認 | Conghui He, Zhenjiang Jin, Chao Xu, Jiantao Qiu, Bin Wang, Wei Li, Hang Yan, Jiaqi Wang, Dahua Lin | (参考訳) ChatGPTとGPT-4の人気が高まり、大きなモデルの開発が大幅に加速し、多数の大きな言語モデル(LLM)とマルチモーダルな言語モデル(MLLM)が作成された。
これらの最先端モデルは、高品質なデータに優れた性能を与えている。
しかしながら、主要なパラダイムで使用されるトレーニングデータの詳細は、しばしば秘密にされる。
この透明性の欠如と、オープンソースデータの不足は、コミュニティ内のさらなる発展を妨げている。
そこで本研究では、中国語と英語のデータからなる大規模マルチモーダルデータセットであるWan Juanについて、幅広いWebソースから収集した。
データセットにはテキスト、画像テキスト、ビデオモダリティが含まれており、総ボリュームは2TBを超える。
同様のスケールのモデルと比較して,多次元評価において有意なアドバンテージを示したモデルであるinternlmのトレーニングに活用した。
すべてのデータはhttps://opendatalab.org.cn/WanJuan1.0でアクセスできる。 The rise in popularity of ChatGPT and GPT-4 has significantly accelerated the development of large models, leading to the creation of numerous impressive large language models(LLMs) and multimodal large language models (MLLMs). These cutting-edge models owe their remarkable performance to high-quality data. However, the details of the training data used in leading paradigms are often kept confidential. This lack of transparency, coupled with the scarcity of open-source data, impedes further developments within the community. As a response, this paper presents "Wan Juan", a large-scale multimodal dataset composed of both Chinese and English data, collected from a wide range of web sources. The dataset incorporates text, image-text, and video modalities, with a total volume exceeding 2TB. It was utilized in the training of InternLM, a model that demonstrated significant advantages in multi-dimensional evaluations when compared to models of a similar scale. All data can be accessed at https://opendatalab.org.cn/WanJuan1.0. | 翻訳日:2023-08-23 10:24:32 公開日:2023-08-22 |
# HOLのフラグメントとしての規範的条件推論 Normative Conditional Reasoning as a Fragment of HOL ( http://arxiv.org/abs/2308.10686v2 ) ライセンス: Link先を確認 | Xavier Parent and Christoph Benzm\"uller | (参考訳) 本稿では,規範的条件推論の機械化について報告する。
我々は条件付き義務(およびその拡張)に対する aqvist の system e に焦点を当てている。
我々の機械化は、Isabelle/HOLに浅いセマンティックな埋め込みを通して達成される。
フレームワークの利用は2つ考えられる。
1つ目は、考慮されたロジックについてメタ推論するためのツールである。
本手法は, モーダル論理立方体で以前に達成されたものと類似したデオン対応(広義に考えられた)および関連事項の自動検証に応用する。
第二の用途は倫理的議論を評価するためのツールである。
我々は、人口倫理においてよく知られたパラドックスを符号化するコンピュータを提供する。
提示された符号化が強引な結論の魅力と説得力を高めるかは、我々が哲学と倫理に伝えたい質問である。 We report some results regarding the mechanization of normative (preference-based) conditional reasoning. Our focus is on Aqvist's system E for conditional obligation (and its extensions). Our mechanization is achieved via a shallow semantical embedding in Isabelle/HOL. We consider two possible uses of the framework. The first one is as a tool for meta-reasoning about the considered logic. We employ it for the automated verification of deontic correspondences (broadly conceived) and related matters, analogous to what has been previously achieved for the modal logic cube. The second use is as a tool for assessing ethical arguments. We provide a computer encoding of a well-known paradox in population ethics, Parfit's repugnant conclusion. Whether the presented encoding increases or decreases the attractiveness and persuasiveness of the repugnant conclusion is a question we would like to pass on to philosophy and ethics. | 翻訳日:2023-08-23 10:24:15 公開日:2023-08-22 |
# bbOCR: BengaliドキュメントのためのオープンソースのマルチドメインOCRパイプライン bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents ( http://arxiv.org/abs/2308.10647v2 ) ライセンス: Link先を確認 | Imam Mohammad Zulkarnain, Shayekh Bin Islam, Md. Zami Al Zunaed Farabe, Md. Mehedi Hasan Shawon, Jawaril Munshad Abedin, Beig Rajibul Hasan, Marsia Haque, Istiak Shihab, Syed Mobassir, MD. Nazmuddoha Ansary, Asif Sushmit, Farig Sadeque | (参考訳) 多数のocr(optical character recognition)ツールが存在するにもかかわらず、包括的なオープンソースシステムの欠如は、ベンガルを含む様々な低リソース言語におけるドキュメントのデジタル化の進展を妨げている。
低リソース言語、特にアルファ音節記述システムを持つ言語は、ワードレベルOCR、文書レイアウト抽出、歪み補正など、様々な文書OCRコンポーネントのための大規模なデータセットが不足している。
本稿では,Bengali$を紹介する。
$AI-BRACU-OCR (bbOCR): オープンソースのスケーラブルなドキュメントOCRシステムで、ベンガルの文書を構造化可能なデジタル化フォーマットに再構築することができる。
本稿では, 多様な評価データセットと総合評価指標を用いて, コンポーネントレベルおよびシステムレベルの評価を行う。
広範な評価から,提案手法は現在のベンガルocrシステムよりも好適であることが示唆された。
ソースコードとデータセットは以下の通りである。 Despite the existence of numerous Optical Character Recognition (OCR) tools, the lack of comprehensive open-source systems hampers the progress of document digitization in various low-resource languages, including Bengali. Low-resource languages, especially those with an alphasyllabary writing system, suffer from the lack of large-scale datasets for various document OCR components such as word-level OCR, document layout extraction, and distortion correction; which are available as individual modules in high-resource languages. In this paper, we introduce Bengali$.$AI-BRACU-OCR (bbOCR): an open-source scalable document OCR system that can reconstruct Bengali documents into a structured searchable digitized format that leverages a novel Bengali text recognition model and two novel synthetic datasets. We present extensive component-level and system-level evaluation: both use a novel diversified evaluation dataset and comprehensive evaluation metrics. Our extensive evaluation suggests that our proposed solution is preferable over the current state-of-the-art Bengali OCR systems. The source codes and datasets are available here: https://bengaliai.github.io/bbocr. | 翻訳日:2023-08-23 10:24:03 公開日:2023-08-22 |
# FocalDreamer: Focal-fusion Assemblyによるテキスト駆動3D編集 FocalDreamer: Text-driven 3D Editing via Focal-fusion Assembly ( http://arxiv.org/abs/2308.10608v2 ) ライセンス: Link先を確認 | Yuhan Li, Yishun Dou, Yue Shi, Yu Lei, Xuanhong Chen, Yi Zhang, Peng Zhou, Bingbing Ni | (参考訳) テキスト3d編集は、スコア蒸留サンプリングを活用する上で大きな進歩を遂げているが、コンテンツ作成に不可欠な分離可能で正確で一貫性のある結果を提供するための新しいアプローチはまだ不足している。
これに対し,FocalDreamerはテキストプロンプトに従って編集可能な部分とベース形状をマージし,所望の領域内できめ細かい編集を行うフレームワークである。
具体的には、幾何結合とデュアルパスレンダリングを備え、FocalDreamerは独立した3D部品を完全なオブジェクトに組み立て、便利なインスタンスの再利用と部分的な制御のために調整する。
本稿では,focal fusion と congruent 全体の外観を促進する幾何学的焦点損失とスタイル一貫性の規則化を提案する。
さらに、FocalDreamerは、広く使われているグラフィックスエンジンと互換性のある高忠実度幾何とPBRテクスチャを生成する。
広範な実験により、focaldreamerの量的および質的評価において優れた編集能力が強調された。 While text-3D editing has made significant strides in leveraging score distillation sampling, emerging approaches still fall short in delivering separable, precise and consistent outcomes that are vital to content creation. In response, we introduce FocalDreamer, a framework that merges base shape with editable parts according to text prompts for fine-grained editing within desired regions. Specifically, equipped with geometry union and dual-path rendering, FocalDreamer assembles independent 3D parts into a complete object, tailored for convenient instance reuse and part-wise control. We propose geometric focal loss and style consistency regularization, which encourage focal fusion and congruent overall appearance. Furthermore, FocalDreamer generates high-fidelity geometry and PBR textures which are compatible with widely-used graphics engines. Extensive experiments have highlighted the superior editing capabilities of FocalDreamer in both quantitative and qualitative evaluations. | 翻訳日:2023-08-23 10:23:40 公開日:2023-08-22 |
# 情報理論に基づくヒューリスティック・プログレッシブ・マルチビュー符号化 Information Theory-Guided Heuristic Progressive Multi-View Coding ( http://arxiv.org/abs/2308.10522v2 ) ライセンス: Link先を確認 | Jiangmeng Li, Hang Gao, Wenwen Qiang, Changwen Zheng | (参考訳) マルチビュー表現学習は、共有コンテキストの複数のビューから包括的情報をキャプチャすることを目的としている。
ビュー固有のノイズは、ビュー共有表現の学習においてフィルタリングされない; 否定的な用語が実際には正と同じクラス内にあり、実際の否定的なペアが等しく扱われる偽の否定的なペア; 用語間の類似性を測定することは最適化に支障をきたすかもしれない。
特に2つ以上の視点で、一般化された自己教師型多視点学習の理論的枠組みを研究する研究はほとんどない。
そこで我々は,情報理論の観点から既存の多視点学習パラダイムを再考し,一般化多視点学習のための新しい情報理論フレームワークを提案する。
そこで,我々は情報理論に基づく階層型階層型多視点符号化 (ipmc) という,3層プログレッシブアーキテクチャを用いたマルチビュー符号化手法を構築した。
分散層では、IPMCはビュー間の分散を調整し、ビュー固有のノイズを減らす。
セット層では、IPMCは自己調整型コントラストプールを構築し、ビューフィルタによって適応的に修正される。
最後に、インスタンス層では、表現を学習し、勾配干渉を減らすために設計された統一的損失を採用します。
理論上,実証的に,ipmcが最先端手法よりも優れていることを示す。 Multi-view representation learning aims to capture comprehensive information from multiple views of a shared context. Recent works intuitively apply contrastive learning to different views in a pairwise manner, which is still scalable: view-specific noise is not filtered in learning view-shared representations; the fake negative pairs, where the negative terms are actually within the same class as the positive, and the real negative pairs are coequally treated; evenly measuring the similarities between terms might interfere with optimization. Importantly, few works study the theoretical framework of generalized self-supervised multi-view learning, especially for more than two views. To this end, we rethink the existing multi-view learning paradigm from the perspective of information theory and then propose a novel information theoretical framework for generalized multi-view learning. Guided by it, we build a multi-view coding method with a three-tier progressive architecture, namely Information theory-guided hierarchical Progressive Multi-view Coding (IPMC). In the distribution-tier, IPMC aligns the distribution between views to reduce view-specific noise. In the set-tier, IPMC constructs self-adjusted contrasting pools, which are adaptively modified by a view filter. Lastly, in the instance-tier, we adopt a designed unified loss to learn representations and reduce the gradient interference. Theoretically and empirically, we demonstrate the superiority of IPMC over state-of-the-art methods. | 翻訳日:2023-08-23 10:23:24 公開日:2023-08-22 |
# ベンガル文書レイアウト解析におけるマスク-RCNNの性能向上 Performance Enhancement Leveraging Mask-RCNN on Bengali Document Layout Analysis ( http://arxiv.org/abs/2308.10511v2 ) ライセンス: Link先を確認 | Shrestha Datta and Md Adith Mollah and Raisa Fairooz and Tariful Islam Fahim | (参考訳) デジタル文書を理解することは、パズル、特に歴史的な問題を解くようなものだ。
Document Layout Analysis (DLA)は、文書を段落、画像、テーブルなどのセクションに分割することで、このパズルを支援する。
これは機械がこれらの文書を読んで理解する上で重要である。
DL Sprint 2.0コンペティションでは、Banglaドキュメントの理解に取り組んだ。
多数のサンプルでBaDLADというデータセットを使用しました。
私たちはこの理解を支援するために、Mask R-CNNと呼ばれる特別なモデルをトレーニングしました。
このモデルをステップバイステップのハイパーパラメータチューニングにより改善し,良好なサイススコア0.889を得た。
しかし、すべてが完璧ではなかった。
英語の文書のために訓練されたモデルを試したが、それはBanglaに合わなかった。
これは各言語が独自の課題を持っていることを示している。
DL Sprint 2.0のソリューションは、ノートブック、ウェイト、推論ノートとともにhttps://www.kaggle.com/competitions/dlsprint2/discussion/432201で公開されています。 Understanding digital documents is like solving a puzzle, especially historical ones. Document Layout Analysis (DLA) helps with this puzzle by dividing documents into sections like paragraphs, images, and tables. This is crucial for machines to read and understand these documents. In the DL Sprint 2.0 competition, we worked on understanding Bangla documents. We used a dataset called BaDLAD with lots of examples. We trained a special model called Mask R-CNN to help with this understanding. We made this model better by step-by-step hyperparameter tuning, and we achieved a good dice score of 0.889. However, not everything went perfectly. We tried using a model trained for English documents, but it didn't fit well with Bangla. This showed us that each language has its own challenges. Our solution for the DL Sprint 2.0 is publicly available at https://www.kaggle.com/competitions/dlsprint2/discussion/432201 along with notebooks, weights, and inference notebook. | 翻訳日:2023-08-23 10:23:00 公開日:2023-08-22 |
# ニューラルマシン翻訳におけるフレーズ機構の有効利用法 An Effective Method using Phrase Mechanism in Neural Machine Translation ( http://arxiv.org/abs/2308.10482v2 ) ライセンス: Link先を確認 | Phuong Minh Nguyen, Le Minh Nguyen | (参考訳) 機械翻訳は、自然言語処理(nlp)において重要なタスクの1つであり、実生活における膨大な応用と、nlp研究コミュニティにおける他のタスクへの貢献を持っている。
近年、Transformerベースの手法はこの分野の多くの研究者を惹きつけ、ほとんどのペア言語で最先端の結果を得た。
本稿では,パラレルコーパス・ベトナム語中国語のためのニューラル機械翻訳(NMT)システムを構築する際に,フレーズ機構であるPhrase Transformerを用いて,強力なベースラインモデルトランスフォーマを改善する方法を提案する。
VLSP 2022コンペティションのMTデータセットに関する我々の実験は、ベトナム対中国語で35.3点、中国対ベトナムで33.2点のBLEUスコアを達成した。
私たちのコードはhttps://github.com/phuongnm94/PhraseTransformerで利用可能です。 Machine Translation is one of the essential tasks in Natural Language Processing (NLP), which has massive applications in real life as well as contributing to other tasks in the NLP research community. Recently, Transformer -based methods have attracted numerous researchers in this domain and achieved state-of-the-art results in most of the pair languages. In this paper, we report an effective method using a phrase mechanism, PhraseTransformer, to improve the strong baseline model Transformer in constructing a Neural Machine Translation (NMT) system for parallel corpora Vietnamese-Chinese. Our experiments on the MT dataset of the VLSP 2022 competition achieved the BLEU score of 35.3 on Vietnamese to Chinese and 33.2 BLEU scores on Chinese to Vietnamese data. Our code is available at https://github.com/phuongnm94/PhraseTransformer. | 翻訳日:2023-08-23 10:22:45 公開日:2023-08-22 |
# 時空間適応埋め込みによる交通予測のためのバニラ変圧器soma Spatio-Temporal Adaptive Embedding Makes Vanilla Transformer SOTA for Traffic Forecasting ( http://arxiv.org/abs/2308.10425v2 ) ライセンス: Link先を確認 | Hangchen Liu, Zheng Dong, Renhe Jiang, Jiewen Deng, Jinliang Deng, Quanjun Chen and Xuan Song | (参考訳) インテリジェントトランスポーテーションシステム(ITS)の急速な発展に伴い、正確な交通予測が重要な課題となっている。
重要なボトルネックは、複雑な時空間的トラフィックパターンを捉えることだ。
近年、この問題に対処するために複雑なアーキテクチャを持つ多数のニューラルネットワークが提案されている。
しかし、ネットワークアーキテクチャの進歩は性能向上に遭遇している。
本研究では,バニラ変圧器において優れた結果が得られる時空間適応埋め込みと呼ばれる新しい成分を提案する。
提案した時空間適応型エンベディングトランス (STAEformer) は, 5つの実世界の交通予測データセットに対して最先端の性能を実現する。
さらに,交通時系列の時空間関係と時系列情報を効果的に把握することにより,時空間適応埋め込みが交通予測において重要な役割を果たすことを示した。 With the rapid development of the Intelligent Transportation System (ITS), accurate traffic forecasting has emerged as a critical challenge. The key bottleneck lies in capturing the intricate spatio-temporal traffic patterns. In recent years, numerous neural networks with complicated architectures have been proposed to address this issue. However, the advancements in network architectures have encountered diminishing performance gains. In this study, we present a novel component called spatio-temporal adaptive embedding that can yield outstanding results with vanilla transformers. Our proposed Spatio-Temporal Adaptive Embedding transformer (STAEformer) achieves state-of-the-art performance on five real-world traffic forecasting datasets. Further experiments demonstrate that spatio-temporal adaptive embedding plays a crucial role in traffic forecasting by effectively capturing intrinsic spatio-temporal relations and chronological information in traffic time series. | 翻訳日:2023-08-23 10:22:29 公開日:2023-08-22 |