このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231216となっている論文です。

PDF登録状況(公開日: 20231216)

TitleAuthorsAbstract論文公表日・翻訳日
# WiFiフラグメンテーションと省電力モードのセグメントベース形式検証

Segment-Based Formal Verification of WiFi Fragmentation and Power Save Mode ( http://arxiv.org/abs/2312.07877v2 )

ライセンス: Link先を確認
Zilin Shen, Imtiaz Karim, Elisa Bertino, (参考訳) IEEE 802.11ファミリ(英: IEEE 802.11 family of standards)は、何十億ものユーザーが広く使用しているプロトコルである。 WiFiの形式的検証に関するこれまでの研究は、主に4方向ハンドシェイクやその他のセキュリティ面に重点を置いていた。 しかし、最近の研究でWiFiの機能面で深刻な脆弱性が発見され、何十億ものデバイスに情報漏洩を引き起こす可能性がある。 WiFiプロトコルの機能的側面を推論できる形式的解析手法は存在しない。 本稿では,このギャップに対処する第一歩として,WiFiプロトコルの機能的側面,具体的にはフラグメンテーションと省電力モードプロセスの広範な形式的解析について述べる。 そこで本研究では,新たなセグメントベース形式検証プロセスを設計し,タマリンにおける攻撃者の多様な能力の解明を目的とした実用的脅威モデル(MACスプーフィング)を導入する。 この目的のために、WiFiプロトコル仕様から抽出された68のプロパティを検証し、検証から3つの脆弱性を発見し、3つの既知の攻撃を検証し、2つの新しい問題を発見する。 これらの脆弱性と問題は17の試験ケースのうち14の商用デバイスに影響を与える。 これとは別に,提案した対策が問題に対処するのに十分であることを示す。 弊社の結果と分析は、ベンダーが対策を取り入れ、WiFiプロトコルの機能的側面の検証に関するさらなる研究を動機付けることを願っている。

The IEEE 802.11 family of standards, better known as WiFi, is a widely used protocol utilized by billions of users. Previous works on WiFi formal verification have mostly focused on the four-way handshake and other security aspects. However, recent works have uncovered severe vulnerabilities in functional aspects of WiFi, which can cause information leakage for billions of devices. No formal analysis method exists able to reason on the functional aspects of the WiFi protocol. In this paper, we take the first steps in addressing this gap and present an extensive formal analysis of the functional aspects of the WiFi protocol, more specifically, the fragmentation and the power-save-mode process. To achieve this, we design a novel segment-based formal verification process and introduce a practical threat model (i.e. MAC spoofing) in Tamarin to reason about the various capabilities of the attacker. To this end, we verify 68 properties extracted from WiFi protocol specification, find 3 vulnerabilities from the verification, verify 3 known attacks, and discover 2 new issues. These vulnerabilities and issues affect 14 commercial devices out of 17 tested cases, showing the prevalence and impact of the issues. Apart from this, we show that the proposed countermeasures indeed are sufficient to address the issues. We hope our results and analysis will help vendors adopt the countermeasures and motivate further research into the verification of the functional aspects of the WiFi protocol.
翻訳日:2024-03-18 12:26:52 公開日:2023-12-16
# マウス軌跡類似度測定によるユーザ認証と識別不整合検出

User Authentication and Identity Inconsistency Detection via Mouse-trajectory Similarity Measurement ( http://arxiv.org/abs/2312.10273v1 )

ライセンス: Link先を確認
Rui Jin, Yong Liao, Pengyuan Zhou, (参考訳) CAPTCHA(英: Completely Automated Public Turing Test to Tell Computers and Humans Apart)は、認証システムで広く使われているチャレンジ応答テストの一種である。 CAPTCHAファームでは、労働者が手動でCAPTCHAを解決するために雇われている。 本研究では,CAPTCHAファーム検出をアイデンティティ不整合検出に変換することによって,認証プロセスとなる新しい視点から,この課題に取り組むことを提案する。 具体的には,セッション中およびCAPTCHAの登録・解決時に収集されたマウス軌跡の類似性を計測し,同一性不整合を認証・検出する新しい埋め込みモデルを開発する。 さらに,各ユーザに対して個別のマウス動作分類器を用いた既存の作業とは異なり,本モデルでは,全ユーザに対して1つの分類器のみを用いて検出タスクを行ない,コストを大幅に削減する。 その結果,AUCの94.3%,97.7%を認証不整合検出で達成した。

Completely Automated Public Turing Test To Tell Computers and Humans Apart (CAPTCHA) is a type of challenge-response test widely used in authentication systems. A well-known challenge it faces is the CAPTCHA farm, where workers are hired to solve CAPTCHAs manually. In this work, we propose to tackle this challenge from a novel perspective, converting CAPTCHA farm detection to identity inconsistency detection, which essentially becomes an authentication process. Specifically, we develop a novel embedding model, which measures the similarity between mouse trajectories collected during the session and when registering/solving CAPTCHA, to authenticate and detect identity inconsistency. Moreover, unlike most existing works that employ a separate mouse movement classifier for each individual user, which brings in considerable costs when serving a large number of users, our model performs detection tasks using only one classifier for all users, significantly reducing the cost. Experiment results validate the superiority of our method over the state-of-the-art time series classification methods, achieving 94.3% and 97.7% of AUC in identity and authentication inconsistency detection, respectively.
翻訳日:2024-03-18 12:07:24 公開日:2023-12-16
# 量子後暗号の現状と課題

A Survey on Post-Quantum Cryptography: State-of-the-Art and Challenges ( http://arxiv.org/abs/2312.10430v1 )

ライセンス: Link先を確認
Marel Alvarado, Luke Gayler, Alex Seals, Tao Wang, Tao Hou, (参考訳) この論文は、量子コンピューティングの導入によって特定のアルゴリズムが壊れてしまうため、量子後暗号が必要であることを説明している。 我々は、量子後暗号、量子暗号、および量子抵抗暗号の様々なタイプを分析し、問題とその制限に対する現在の解決策を徹底的に理解する。 量子コンピューティングの現状と、量子後暗号の2種類の攻撃の可能性について論じながら、時間とともにどのように変化したかを説明する。 次に、現在の量子後アルゴリズムについて論じ、実装について述べる。 最後に、量子暗号の現在の限界のため、しばしば提示されるような実現可能な解決策ではなく、現在、量子耐性暗号を使用する方がよいと結論付けている。

The paper explains that post-quantum cryptography is necessary due to the introduction of quantum computing causing certain algorithms to be broken. We analyze the different types of post-quantum cryptography, quantum cryptography and quantum-resistant cryptography, to provide a thorough understanding of the current solutions to the problems and their limitations. We explain the current state of quantum computing and how it has changed over time while discussing possible attacks on both types of post-quantum cryptography. Next, current post-quantum algorithms are discussed, and implementations are demonstrated. Lastly, we conclude that due to quantum cryptography's present limitations it is not a viable solution like it is often presented to be and that it is currently better to use quantum-resistant cryptography.
翻訳日:2024-03-18 12:07:24 公開日:2023-12-16
# データベース支援プログラムの解法

Disjunctive Policies for Database-Backed Programs ( http://arxiv.org/abs/2312.10441v1 )

ライセンス: Link先を確認
Amir M. Ahmadian, Matvey Soloviev, Musard Balliu, (参考訳) データベースのセキュリティポリシーを規定する場合、情報の一部が2つの依存関係 P1 または P2 の少なくとも1つに依存するが両方ではないような、解離的依存関係を定式化するのが自然であることが多い。 このような解離的依存関係の形式的意味モデルであるQuantale of Informationは、情報格子の一般化として、Hunt and Sandsによって最近導入された。 本稿では,データベース支援プログラムにおける解離的依存関係の理解に寄与し,静的に解離的セキュリティポリシーを実施するための実践的枠組みを提案する。 そこで本研究では,データベースにおける解離情報の順序付けをキャプチャする,新しいクエリベースの構造であるDeterminacy Quantaleを紹介する。 この構造は、Quantale of Informationに匹敵するクエリベースの構造として理解することができる。 この構造に基づいて,データベース支援プログラムの解離ポリシーをチェックするための音響強制機構を設計する。 このメカニズムは、データベースクエリによる単純な命令型言語に対する型ベースの解析に基づいており、制御フローによる解離の追跡を保ちながら、様々な行および列レベルのデータベースポリシーを柔軟に適合させるのに十分な精度である。 ツールであるDiVerTに実装することで、そのメカニズムを検証し、多くのユースケースでその実現可能性を示す。

When specifying security policies for databases, it is often natural to formulate disjunctive dependencies, where a piece of information may depend on at most one of two dependencies P1 or P2, but not both. A formal semantic model of such disjunctive dependencies, the Quantale of Information, was recently introduced by Hunt and Sands as a generalization of the Lattice of Information. In this paper, we seek to contribute to the understanding of disjunctive dependencies in database-backed programs and introduce a practical framework to statically enforce disjunctive security policies. To that end, we introduce the Determinacy Quantale, a new query-based structure which captures the ordering of disjunctive information in databases. This structure can be understood as a query-based counterpart to the Quantale of Information. Based on this structure, we design a sound enforcement mechanism to check disjunctive policies for database-backed programs. This mechanism is based on a type-based analysis for a simple imperative language with database queries, which is precise enough to accommodate a variety of row- and column-level database policies flexibly while keeping track of disjunctions due to control flow. We validate our mechanism by implementing it in a tool, DiVerT, and demonstrate its feasibility on a number of use cases.
翻訳日:2024-03-18 12:07:24 公開日:2023-12-16
# キーロガー技術の進化 : 歴史的起源から新たな機会へ

The Evolution of Keylogger Technologies: A Survey from Historical Origins to Emerging Opportunities ( http://arxiv.org/abs/2312.10445v1 )

ライセンス: Link先を確認
Marco Salas-Nino, Grant Ritter, Daniel Hamdan, Tao Wang, Tao Hou, (参考訳) デジタル世界が進化するにつれて、セキュリティに対する脅威も起こります。 キーロガーはかつてサイバー世界にとって大きな脅威だった。 今日の技術進歩とともに多くの変革が進んでいるが、サイバーセキュリティの現状におけるアンチキーブロガーの重要性に関する疑問を提起することが重要である。 この調査は、キーロガーの歴史的進化を掘り下げ、現在の形を調査している。 キーロガーのこの検査の中では、アンチキーロガーが我々の前に変化し続けるこの状況に役立っているのか、それとも新たな戦略がそれらを時代遅れにしたのかを議論する必要がある。

As the digital world evolves, so do the threats to our security do too. Keyloggers were once a large threat to the cyber world. Though undergoing many transformations alongside the technological advancements of today, it is important to raise questions about the importance of Anti-Keyloggers in our current state of cyber security. This survey dives into the historical evolution of Keyloggers and investigates their current day forms. Within this inspection of Keyloggers, we must propose whether Anti-Keyloggers serve a purpose to this ever-changing landscape before us or if emerging strategies have rendered them obsolete.
翻訳日:2024-03-18 11:57:39 公開日:2023-12-16
# 平面アンテナ設計のための画像分類器に基づく生成法

Image Classifier Based Generative Method for Planar Antenna Design ( http://arxiv.org/abs/2401.06149v1 )

ライセンス: Link先を確認
Yang Zhong, Weiping Dou, Andrew Cohen, Dia'a Bisharat, Yuandong Tian, Jiang Zhu, Qing Huo Liu(参考訳) プリント回路基板(PCB)のアンテナ設計をもっと興味を引くために,PCBアンテナをいくつかの基本部品でモデル化する簡単な手法を提案する。 幾何学的次元と位置を決定するために2つの異なるステップを踏むことで、アンテナのプロトタイプは経験を必要とせずに容易化することができる。 ランダムサンプリング統計は、次元の質が次元候補の選択に使用されることに関連する。 畳み込みニューラルネットワーク(CNN)を用いた新しい画像ベース分類器を導入し、これらの固定次元成分の位置をさらに決定する。 ウェアラブル製品の2つの例がワークフロー全体を調べるために選ばれている。 最終的な設計は現実的であり、パフォーマンス指標は経験豊富なエンジニアが設計したものに劣らない。

To extend the antenna design on printed circuit boards (PCBs) for more engineers of interest, we propose a simple method that models PCB antennas with a few basic components. By taking two separate steps to decide their geometric dimensions and positions, antenna prototypes can be facilitated with no experience required. Random sampling statistics relate to the quality of dimensions are used in selecting among dimension candidates. A novel image-based classifier using a convolutional neural network (CNN) is introduced to further determine the positions of these fixed-dimension components. Two examples from wearable products have been chosen to examine the entire workflow. Their final designs are realistic and their performance metrics are not inferior to the ones designed by experienced engineers.
翻訳日:2024-01-22 13:06:10 公開日:2023-12-16
# 生成人工知能が社会経済的不平等と政策形成に及ぼす影響

The impact of generative artificial intelligence on socioeconomic inequalities and policy making ( http://arxiv.org/abs/2401.05377v1 )

ライセンス: Link先を確認
Valerio Capraro, Austin Lentsch, Daron Acemoglu, Selin Akgun, Aisel Akhmedova, Ennio Bilancini, Jean-Fran\c{c}ois Bonnefon, Pablo Bra\~nas-Garza, Luigi Butera, Karen M. Douglas, Jim A.C. Everett, Gerd Gigerenzer, Christine Greenhow, Daniel A. Hashimoto, Julianne Holt-Lunstad, Jolanda Jetten, Simon Johnson, Chiara Longoni, Pete Lunn, Simone Natale, Iyad Rahwan, Neil Selwyn, Vivek Singh, Siddharth Suri, Jennifer Sutcliffe, Joe Tomlinson, Sander van der Linden, Paul A. M. Van Lange, Friederike Wall, Jay J. Van Bavel, Riccardo Viale(参考訳) ChatGPTのようなチャットボットを含む生成人工知能は、既存の社会経済的不平等を悪化させ、改善する可能性がある。 本稿では、生産型AIが4つの重要な領域(仕事、教育、健康、情報)に与える影響について、最先端の学際的な概要を述べる。 私たちのゴールは、AIが普及する社会問題を解決するためにAIを使用する方法を示しながら、生成的AIが既存の不平等を悪化させる可能性があることを警告することです。 職場で生成するAIは生産性を高め、新しい仕事を生み出すことができるが、その利点は不均一に分配される可能性が高い。 教育ではパーソナライズされた学習を提供するが、デジタルディビジョンを広げる可能性がある。 医療においては、診断とアクセシビリティを改善するが、既存の不平等をより深める可能性がある。 情報に関しては、コンテンツ作成とアクセスを民主化すると同時に、誤情報の生成と拡散を劇的に拡大する。 各セクションは特定のトピックをカバーし、既存の研究を評価し、重要なギャップを特定し、研究の方向性を推奨する。 我々は、有害な影響を緩和しつつ、不平等を軽減できる生成AIの可能性を最大化する政策決定の役割を強調した。 我々は、欧州連合、米国、英国における既存の政策枠組みの強みと弱みを議論し、それぞれが我々が特定した社会経済的課題に完全に直面することに失敗していることを観察する。 これらの政策は、生成AIの進歩を通じて共有繁栄を促進するべきであると我々は主張する。 さらなる研究と議論を促進するための具体的な政策をいくつか提案する。 本稿では、生成AIの複雑な課題を理解し、対処するための学際的なコラボレーションの必要性を強調する。

Generative artificial intelligence, including chatbots like ChatGPT, has the potential to both exacerbate and ameliorate existing socioeconomic inequalities. In this article, we provide a state-of-the-art interdisciplinary overview of the probable impacts of generative AI on four critical domains: work, education, health, and information. Our goal is to warn about how generative AI could worsen existing inequalities while illuminating directions for using AI to resolve pervasive social problems. Generative AI in the workplace can boost productivity and create new jobs, but the benefits will likely be distributed unevenly. In education, it offers personalized learning but may widen the digital divide. In healthcare, it improves diagnostics and accessibility but could deepen pre-existing inequalities. For information, it democratizes content creation and access but also dramatically expands the production and proliferation of misinformation. Each section covers a specific topic, evaluates existing research, identifies critical gaps, and recommends research directions. We conclude with a section highlighting the role of policymaking to maximize generative AI's potential to reduce inequalities while mitigating its harmful effects. We discuss strengths and weaknesses of existing policy frameworks in the European Union, the United States, and the United Kingdom, observing that each fails to fully confront the socioeconomic challenges we have identified. We contend that these policies should promote shared prosperity through the advancement of generative AI. We suggest several concrete policies to encourage further research and debate. This article emphasizes the need for interdisciplinary collaborations to understand and address the complex challenges of generative AI.
翻訳日:2024-01-15 08:59:55 公開日:2023-12-16
# 量子複雑性が古典的複雑さを

Where Quantum Complexity Helps Classical Complexity ( http://arxiv.org/abs/2312.14075v1 )

ライセンス: Link先を確認
Arash Vaezi, Seyed Mohammad Hussein Kazemi, Negin Bagheri Noghrehy, Seyed Mohsen Kazemi, Mohammad Ghodsi, Ali Movaghar(参考訳) 科学者は、量子コンピューティングが計算課題に対処するための新しいアプローチを提示したことを実証している。 量子コンピューティングの潜在能力を最大限活用するためには、問題解決戦略の適応が不可欠である。 それでも、量子コンピューティングの能力には境界が定義されている。 本稿では,量子コンピューティングによる複雑な古典的計算問題を解くための先行研究の集約に着目する。 目的は、これらのソリューションの徹底したインベントリを体系的にコンパイルし、さらなる探索を待つ要求される問題のコレクションを分類することである。

Scientists have demonstrated that quantum computing has presented novel approaches to address computational challenges, each varying in complexity. Adapting problem-solving strategies is crucial to harness the full potential of quantum computing. Nonetheless, there are defined boundaries to the capabilities of quantum computing. This paper concentrates on aggregating prior research efforts dedicated to solving intricate classical computational problems through quantum computing. The objective is to systematically compile an exhaustive inventory of these solutions and categorize a collection of demanding problems that await further exploration.
翻訳日:2023-12-24 23:12:09 公開日:2023-12-16
# ディジタルスカラー場理論のためのブートストラップ法

Bootstrap methods for digitized scalar field theory ( http://arxiv.org/abs/2312.10559v1 )

ライセンス: Link先を確認
Zane Ozzello, Yannick Meurice(参考訳) エネルギー固有状態における観測可能な様々なパワーを連結する一般の帰納的制約は、効率的な再帰的手法が行列要素を計算するために利用できる限り、エネルギー固有値の許容領域を鋭く見つけるのに使うことができる。 これらの再帰的手法は、可観測系とハミルトニアンとの可換関係を見ることによって導かれる。 この自己整合(ブートストラップ)アプローチが、調和基底におけるデジタルスカラー場理論の研究にどのように適用できるかを考察する。 既知の結果を用いて、高調波および無調波発振器を含む量子システム上での試験法を開発した。 最大4つのアンハーモニック発振器の数値計算結果について報告する。 ここから, 1+1次元における相転移の研究手段として, 本手法の基盤となる応用の可能性を検討する。

General positivity constraints linking various powers of observables in energy eigenstates can be used to sharply locate acceptable regions for the energy eigenvalues, provided that efficient recursive methods are available to calculate the matrix elements. These recursive methods are derived by looking at the commutation relations of the observables with the Hamiltonian. We discuss how this self-consistent (bootstrap) approach can be applied to the study of digitized scalar field theory in the harmonic basis. Using known results, we develop the method by testing on quantum systems, including the harmonic and anharmonic oscillators. We report recent numerical results for up to four coupled anharmonic oscillators. From here, we consider the possibility of using the groundwork of this method as a means of studying phase transitions in 1+1 dimensions.
翻訳日:2023-12-24 23:12:00 公開日:2023-12-16
# AIがあなたに入り込む: ジェネレーティブAIとリジェクションサンプリングによるユーザエンゲージメントの向上

Let AI Entertain You: Increasing User Engagement with Generative AI and Rejection Sampling ( http://arxiv.org/abs/2312.12457v1 )

ライセンス: Link先を確認
Jingying Zeng, Jaewon Yang, Waleed Malik, Xiao Yan, Richard Huang, Qi He(参考訳) 生成AIはコンテンツ生成に優れているが、ユーザーエンゲージメントを常に増加させるわけではない。 これは2つの主要な要因に起因する。 まず、生成AIはユーザーインタラクションに関する明示的あるいは暗黙的なフィードバックを取り入れずにコンテンツを生成する。 生成されたコンテンツがより情報的あるいはよく書かれていたとしても、クリックのようなユーザーアクティビティの増加につながるとは限らない。 第二に、コンテンツ生成aiが生み出すコンテンツの品質に懸念がある。 これらの2つの要因は、ユーザーの特定のニーズや好みを満たさないコンテンツにつながり、最終的にはエンゲージメントの可能性を減少させる。 本稿では、ユーザフィードバックを活用して、生成AIによるユーザエンゲージメントを改善するための一般的なフレームワークを提案する。 我々のソリューションは、エンゲージメント指標を高めるために強化学習に使用される手法である拒絶サンプリングを採用する。 我々は,オンラインソーシャルネットワークのメール通知対象ライン生成の文脈において,このフレームワークを活用し,+1%セッション,+0.4%アクティブユーザなど,重要なエンゲージメント基準を達成した。 私たちの仕事は、生成AIへのユーザエンゲージメントを高める普遍的なフレームワークを提供する、と私たちは信じています。 私たちの知る限りでは、これは、ユーザーエンゲージメントを高めるために生成AIを業界で成功させた初期のマイルストーンである。

While generative AI excels in content generation, it does not always increase user engagement. This can be attributed to two main factors. First, generative AI generates content without incorporating explicit or implicit feedback about user interactions. Even if the generated content seems to be more informative or well-written, it does not necessarily lead to an increase in user activities, such as clicks. Second, there is a concern with the quality of the content generative AI produces, which often lacks the distinctiveness and authenticity that human-created content possesses. These two factors can lead to content that fails to meet specific needs and preferences of users, ultimately reducing its potential to be engaging. This paper presents a generic framework of how to improve user engagement with generative AI by leveraging user feedback. Our solutions employ rejection sampling, a technique used in reinforcement learning, to boost engagement metrics. We leveraged the framework in the context of email notification subject lines generation for an online social network, and achieved significant engagement metric lift including +1% Session and +0.4% Weekly Active Users. We believe our work offers a universal framework that enhances user engagement with generative AI, particularly when standard generative AI reaches its limits in terms of enhancing content to be more captivating. To the best of our knowledge, this represents an early milestone in the industry's successful use of generative AI to enhance user engagement.
翻訳日:2023-12-21 18:53:29 公開日:2023-12-16
# ケアの民主化: ユーザインターフェースベースのオープンソースAutoMLツールにおける公平性固有の機能の必要性

Democratize with Care: The need for fairness specific features in user-interface based open source AutoML tools ( http://arxiv.org/abs/2312.12460v1 )

ライセンス: Link先を確認
Sundaraparipurnan Narayanan(参考訳) AIは企業や組織においてますます重要な役割を担い、人間の成果や関心に影響を与えている。 自動機械学習(automl)は、反復的なタスクを自動化し、データ駆動の意思決定を行うことで、機械学習モデル開発プロセスを合理化する。 この民主化により、多くのユーザー(非専門家を含む)が最先端の機械学習の専門知識にアクセスし利用できるようになる。 しかし、automlツールは、これらのツールがデータを扱う方法やモデルの選択、採用される最適化アプローチにバイアスを伝播する可能性がある。 ユーザインターフェースに基づくオープンソースのautomlツール(datarobot、h2o studio、dataiku、rapidminer studio)の実験研究を行い、公正な機械学習モデルの開発を支援する機能がユーザにあるかどうかについて検討した。 ユースケースコンテキストの理解、データ表現、特徴の関連性と感度、データバイアスと前処理技術、データハンドリング機能、トレーニング-テスト分割、ハイパーパラメータハンドリングと制約、公正指向モデル開発、説明可能性とユーザによるモデルのダウンロードと編集能力。 その結果,公正なモデル開発を支援する機能に不整合が認められた。 さらに、結果はAutoMLツールの公正性を促進するために不可欠な機能を確立する必要性も強調している。

AI is increasingly playing a pivotal role in businesses and organizations, impacting the outcomes and interests of human users. Automated Machine Learning (AutoML) streamlines the machine learning model development process by automating repetitive tasks and making data-driven decisions, enabling even non-experts to construct high-quality models efficiently. This democratization allows more users (including non-experts) to access and utilize state-of-the-art machine-learning expertise. However, AutoML tools may also propagate bias in the way these tools handle the data, model choices, and optimization approaches adopted. We conducted an experimental study of User-interface-based open source AutoML tools (DataRobot, H2O Studio, Dataiku, and Rapidminer Studio) to examine if they had features to assist users in developing fairness-aware machine learning models. The experiments covered the following considerations for the evaluation of features: understanding use case context, data representation, feature relevance and sensitivity, data bias and preprocessing techniques, data handling capabilities, training-testing split, hyperparameter handling, and constraints, fairness-oriented model development, explainability and ability to download and edit models by the user. The results revealed inadequacies in features that could support in fairness-aware model development. Further, the results also highlight the need to establish certain essential features for promoting fairness in AutoML tools.
翻訳日:2023-12-21 18:39:48 公開日:2023-12-16
# フロリダ州州間高速道路95号線における衝突損傷の予測

Prediction of Crash Injury Severity in Florida's Interstate-95 ( http://arxiv.org/abs/2312.12459v1 )

ライセンス: Link先を確認
B M Tazbiul Hassan Anik, Md Mobasshir Rashid and Md Jamil Ahsan(参考訳) ドライバーは交通事故で重傷を負うことがある。 本研究では,2016年から2021年にかけてフロリダ州州間高速道路95号線の交通事故を調査し,交通事故の重症度を推定するためにいくつかの分類法を用いた。 特徴選択法では,ロジスティック回帰を適用した。 モデル性能を比較するために,精度,リコール,曲線下面積(AUC)などのモデル評価行列を開発した。 AdaboostアルゴリズムはリコールとAUCの点で他より優れていた。 分類モデルの結果を説明するためにSHAP値も生成した。 この分析研究は、事故時の運転者の重傷の重症度に寄与する要因を調べるために用いられる。

Drivers can sustain serious injuries in traffic accidents. In this study, traffic crashes on Florida's Interstate-95 from 2016 to 2021 were gathered, and several classification methods were used to estimate the severity of driver injuries. In the feature selection method, logistic regression was applied. To compare model performances, various model assessment matrices such as accuracy, recall, and area under curve (AUC) were developed. The Adaboost algorithm outperformed the others in terms of recall and AUC. SHAP values were also generated to explain the classification model's results. This analytical study can be used to examine factors that contribute to the severity of driver injuries in crashes.
翻訳日:2023-12-21 18:39:24 公開日:2023-12-16
# 汎用視覚言語モデルを用いたパラメータ効率チューニング

When Parameter-efficient Tuning Meets General-purpose Vision-language Models ( http://arxiv.org/abs/2312.12458v1 )

ライセンス: Link先を確認
Yihang Zhai, Haixin Wang, Jianlong Chang, Xinlong Yang, Jinan Sun, Shikun Zhang, Qi Tian(参考訳) インストラクションチューニングは、大規模な事前学習モデルを使用することで、汎用AI機能を開発する上で有望な可能性を示し、創造的なアプリケーションにマルチモーダル情報を統合するために、成長する研究を促進する。 しかし、既存の作品にはまだ2つの大きな制限がある: トレーニングコストの高さと、フルモデルの微調整の重い計算リソース依存、そして命令における意味情報の欠如であり、マルチモーダルアライメントを妨げる。 そこで本稿では,汎用視覚言語モデルであるペタルに対してパラメータ効率の良いチューニングを行うための新しい手法を提案する。 PETALは、トレーニングコストと重コンピューティングリソースへの依存を著しく低減するユニークなモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。 さらにPETALは2つの革新的な方法で命令の意味深度を高める。 1) 適応型命令混合法(moes)を導入することで 2) パラメータ効率調整と相互情報とのスコアベースリンクを強化した。 5つのマルチモーダルダウンストリームベンチマークの広範な実験により、PETALは現在の最先端の手法をほとんどのシナリオで上回るだけでなく、完全な微調整モデルよりも有効であることがわかった。 さらに本手法は,包括的可視化分析を背景として,数ショット設定で顕著な優位性を示す。 私たちのソースコードは以下の通りです。 melonking32/petal.com/melonking32/petal.comの略。

Instruction tuning has shown promising potential for developing general-purpose AI capabilities by using large-scale pre-trained models and boosts growing research to integrate multimodal information for creative applications. However, existing works still face two main limitations: the high training costs and heavy computing resource dependence of full model fine-tuning, and the lack of semantic information in instructions, which hinders multimodal alignment. Addressing these challenges, this paper proposes a novel approach to utilize Parameter-Efficient Tuning for generAl-purpose vision-Language models, namely PETAL. PETAL revolutionizes the training process by requiring only 0.5% of the total parameters, achieved through a unique mode approximation technique, which significantly reduces the training costs and reliance on heavy computing resources. Furthermore, PETAL enhances the semantic depth of instructions in two innovative ways: 1) by introducing adaptive instruction mixture-of-experts(MOEs), and 2) by fortifying the score-based linkage between parameter-efficient tuning and mutual information. Our extensive experiments across five multimodal downstream benchmarks reveal that PETAL not only outperforms current state-of-the-art methods in most scenarios but also surpasses full fine-tuning models in effectiveness. Additionally, our approach demonstrates remarkable advantages in few-shot settings, backed by comprehensive visualization analyses. Our source code is available at: https://github. com/melonking32/PETAL.
翻訳日:2023-12-21 18:39:12 公開日:2023-12-16
# PowerInfer: コンシューマグレードGPUを使用した高速大規模言語モデル

PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU ( http://arxiv.org/abs/2312.12456v1 )

ライセンス: Link先を確認
Yixin Song, Zeyu Mi, Haotong Xie, Haibo Chen(参考訳) 本稿では,1つのコンシューマグレードGPUを備えたパーソナルコンピュータ(PC)上での高速大言語モデル(LLM)推論エンジンであるPowerInferを紹介する。 powerinferの設計の根底にある鍵は、llm推論に固有の高い局所性を利用しており、ニューロンの活性化におけるパワーロー分布が特徴である。 この分布は、熱いニューロンと呼ばれるニューロンの小さなサブセットが入力間で一貫して活性化されていることを示しているが、大多数の冷いニューロンは特定の入力に基づいて異なる。 ホットアクティベートされたニューロンはGPUにプリロードされ、コールドアクティベートされたニューロンはCPU上で計算され、GPUメモリ要求とCPU-GPUデータ転送が大幅に削減される。 PowerInferはさらに適応予測器とニューロン認識スパース演算子を統合し、ニューロン活性化と計算空間の効率を最適化する。 評価によると、PowerInferは平均トークン生成レートが13.20トークン/秒に達し、ピークは29.08トークン/秒であり、1つのNVIDIA RTX 4090 GPU上の様々なLCM(OPT-175Bを含む)で、トップレベルのサーバグレードのA100 GPUよりもわずか18%低い。 これはモデルの精度を維持しつつ、最大で11.69倍のllama.cppを上回る。

This paper introduces PowerInfer, a high-speed Large Language Model (LLM) inference engine on a personal computer (PC) equipped with a single consumer-grade GPU. The key underlying the design of PowerInfer is exploiting the high locality inherent in LLM inference, characterized by a power-law distribution in neuron activation. This distribution indicates that a small subset of neurons, termed hot neurons, are consistently activated across inputs, while the majority, cold neurons, vary based on specific inputs. PowerInfer exploits such an insight to design a GPU-CPU hybrid inference engine: hot-activated neurons are preloaded onto the GPU for fast access, while cold-activated neurons are computed on the CPU, thus significantly reducing GPU memory demands and CPU-GPU data transfers. PowerInfer further integrates adaptive predictors and neuron-aware sparse operators, optimizing the efficiency of neuron activation and computational sparsity. Evaluation shows that PowerInfer attains an average token generation rate of 13.20 tokens/s, with a peak of 29.08 tokens/s, across various LLMs (including OPT-175B) on a single NVIDIA RTX 4090 GPU, only 18% lower than that achieved by a top-tier server-grade A100 GPU. This significantly outperforms llama.cpp by up to 11.69x while retaining model accuracy.
翻訳日:2023-12-21 18:38:46 公開日:2023-12-16
# FengWu-4DVar:4次元変分同化によるデータ駆動型気象予報モデルの結合

FengWu-4DVar: Coupling the Data-driven Weather Forecasting Model with 4D Variational Assimilation ( http://arxiv.org/abs/2312.12455v1 )

ライセンス: Link先を確認
Yi Xiao, Lei Bai, Wei Xue, Kang Chen, Tao Han, Wanli Ouyang(参考訳) 天気予報は極めて重要な課題である。 人工知能(AI)の成熟に伴い、データ駆動型天気予報モデルの出現により、気象予報システムの開発のための新しいパラダイムが開かれた。 達成された大きな成功にもかかわらず(例えば、グローバルな中距離予測のための高度な物理モデルを上回る)、既存のデータ駆動天気予報モデルは、計算コストと予測精度の両方に関して、データ駆動天気予報モデルの重要性を損なう従来の同化予測システムによって生成された分析分野に依存している。 本研究では,グローバルなAI天気予報モデルであるFengWuと,最も一般的な同化アルゴリズムである4次元変分法(4DVar)とを組み合わせることで,データ駆動型天気予報モデルとデータ同化を結合し,AIに基づく循環気象予報システムFengWu-4DVarを開発する可能性を検討する。 fengwu-4dvarは観測データをデータ駆動型気象予報モデルに組み込むことができ、大気力学の時間発展を考慮に入れ、物理モデルなしでサイクリング方法で予測を行うための正確な解析場を得ることができる。 深層学習モデルの自己微分能力を持つfengwu-4dvarは、4dvarアルゴリズムの従来の実装で通常必要とされる面倒な随伴モデルを開発する必要性をなくす。 シミュレーションされた観測データセットの実験により、FengWu-4DVarは正確かつ効率的な反復予測を行うための合理的な解析場を生成することができることが示された。

Weather forecasting is a crucial yet highly challenging task. With the maturity of Artificial Intelligence (AI), the emergence of data-driven weather forecasting models has opened up a new paradigm for the development of weather forecasting systems. Despite the significant successes that have been achieved (e.g., surpassing advanced traditional physical models for global medium-range forecasting), existing data-driven weather forecasting models still rely on the analysis fields generated by the traditional assimilation and forecasting system, which hampers the significance of data-driven weather forecasting models regarding both computational cost and forecasting accuracy. In this work, we explore the possibility of coupling the data-driven weather forecasting model with data assimilation by integrating the global AI weather forecasting model, FengWu, with one of the most popular assimilation algorithms, Four-Dimensional Variational (4DVar) assimilation, and develop an AI-based cyclic weather forecasting system, FengWu-4DVar. FengWu-4DVar can incorporate observational data into the data-driven weather forecasting model and consider the temporal evolution of atmospheric dynamics to obtain accurate analysis fields for making predictions in a cycling manner without the help of physical models. Owning to the auto-differentiation ability of deep learning models, FengWu-4DVar eliminates the need of developing the cumbersome adjoint model, which is usually required in the traditional implementation of the 4DVar algorithm. Experiments on the simulated observational dataset demonstrate that FengWu-4DVar is capable of generating reasonable analysis fields for making accurate and efficient iterative predictions.
翻訳日:2023-12-21 18:38:22 公開日:2023-12-16
# mvdiffusion:対応認識拡散を用いた総合的多視点画像生成の実現

MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion ( http://arxiv.org/abs/2307.01097v6 )

ライセンス: Link先を確認
Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa(参考訳) 本稿では,画素間対応が与えられたテキストプロンプト(例えば,パノラマからの視点作物や深度マップやポーズが与えられたマルチビュー画像など)から一貫したマルチビュー画像を生成する,単純かつ効果的な手法であるmvdiffusionを提案する。 反復的な画像ワープや塗装に依存する従来の方法とは異なり、MVDiffusionはグローバルな認識で全ての画像を同時に生成する。 MVDiffusionのコアとなるのは、事前訓練されたテキスト-画像拡散モデルと平行に視点画像を処理し、新しい対応対応型アテンション層を統合して、クロスビューインタラクションを容易にすることである。 パノラマ生成では、10kパノラマでしか訓練されていないが、MVDiffusionは任意のテキストに対して高解像度のフォトリアリスティック画像を生成することができる。 多視点深度画像生成では、MVDiffusionはシーンメッシュのテクスチャ化のための最先端性能を示す。 プロジェクトページはhttps://mvdiffusion.github.io/にある。

This paper introduces MVDiffusion, a simple yet effective method for generating consistent multi-view images from text prompts given pixel-to-pixel correspondences (e.g., perspective crops from a panorama or multi-view images given depth maps and poses). Unlike prior methods that rely on iterative image warping and inpainting, MVDiffusion simultaneously generates all images with a global awareness, effectively addressing the prevalent error accumulation issue. At its core, MVDiffusion processes perspective images in parallel with a pre-trained text-to-image diffusion model, while integrating novel correspondence-aware attention layers to facilitate cross-view interactions. For panorama generation, while only trained with 10k panoramas, MVDiffusion is able to generate high-resolution photorealistic images for arbitrary texts or extrapolate one perspective image to a 360-degree view. For multi-view depth-to-image generation, MVDiffusion demonstrates state-of-the-art performance for texturing a scene mesh. The project page is at https://mvdiffusion.github.io/.
翻訳日:2023-12-21 00:05:34 公開日:2023-12-16
# TriplaneがGussian Splattingを発表:高速で汎用的なトランスフォーマーによるシングルビュー3D再構成

Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers ( http://arxiv.org/abs/2312.09147v2 )

ライセンス: Link先を確認
Zi-Xin Zou, Zhipeng Yu, Yuan-Chen Guo, Yangguang Li, Ding Liang, Yan-Pei Cao and Song-Hai Zhang(参考訳) 単一画像からの3次元再構成の最近の進歩は、生成モデルの進化によって引き起こされている。 代表的なものは、スコア蒸留サンプリング(SDS)に基づく手法と、3D領域における拡散モデルの適応である。 それらの進歩にもかかわらず、これらの技術は、遅い最適化やレンダリングプロセスのためにしばしば制限に直面する。 本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率的に生成する一視点再構成手法を提案する。 提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。 このハイブリッド表現は、暗黙の表現よりも高速なレンダリング速度を実現すると同時に、明示的な表現よりも優れたレンダリング品質を提供する。 ポイントデコーダは単一画像から点雲を生成するように設計されており、各点のガウス的特徴を問うためにトリプレーンデコーダによって使用される明示的な表現を提供する。 この設計選択は、その非構造的性質を特徴とする明示的な3次元ガウス特性を直接回帰する問題に対処する。 その後、3dガウスはmlpでデコードされ、スプラッティングによる高速レンダリングを可能にする。 どちらのデコーダもスケーラブルでトランスフォーマーベースのアーキテクチャ上に構築されており、大規模な3Dデータセットで効率的にトレーニングされている。 合成データセットと実世界画像の両方で実施した評価結果から,本手法は高品質なだけでなく,従来の最先端技術よりも高速なランタイムを実現する。 プロジェクトページはhttps://zouzx.github.io/TriplaneGaussian/。

Recent advancements in 3D reconstruction from single images have been driven by the evolution of generative models. Prominent among these are methods based on Score Distillation Sampling (SDS) and the adaptation of diffusion models in the 3D domain. Despite their progress, these techniques often face limitations due to slow optimization or rendering processes, leading to extensive training and optimization times. In this paper, we introduce a novel approach for single-view reconstruction that efficiently generates a 3D model from a single image via feed-forward inference. Our method utilizes two transformer-based networks, namely a point decoder and a triplane decoder, to reconstruct 3D objects using a hybrid Triplane-Gaussian intermediate representation. This hybrid representation strikes a balance, achieving a faster rendering speed compared to implicit representations while simultaneously delivering superior rendering quality than explicit representations. The point decoder is designed for generating point clouds from single images, offering an explicit representation which is then utilized by the triplane decoder to query Gaussian features for each point. This design choice addresses the challenges associated with directly regressing explicit 3D Gaussian attributes characterized by their non-structural nature. Subsequently, the 3D Gaussians are decoded by an MLP to enable rapid rendering through splatting. Both decoders are built upon a scalable, transformer-based architecture and have been efficiently trained on large-scale 3D datasets. The evaluations conducted on both synthetic datasets and real-world images demonstrate that our method not only achieves higher quality but also ensures a faster runtime in comparison to previous state-of-the-art techniques. Please see our project page at https://zouzx.github.io/TriplaneGaussian/.
翻訳日:2023-12-20 21:37:53 公開日:2023-12-16
# グラフの組合せ最適化のための統一事前学習適応フレームワーク

A Unified Pre-training and Adaptation Framework for Combinatorial Optimization on Graphs ( http://arxiv.org/abs/2312.11547v1 )

ライセンス: Link先を確認
Ruibin Zeng, Minglong Lei, Lingfeng Niu, Lan Cheng(参考訳) グラフ上の組合せ最適化(CO)は古典的なトピックであり、多くの科学や産業分野で広く研究されている。 近年,学習手法によるグラフ上のCO問題の解法が注目されている。 グラフニューラルネットワーク(GNN)のような先進的なディープラーニング手法は、COの解決プロセスを効果的に支援するために使われてきた。 しかしながら、GNNに基づく現在のフレームワークは、主に特定のCO問題のために設計されており、グラフ上の異なるCO間の転送可能で一般化可能な能力を考慮できない。 さらに、COsをモデル化するためにオリジナルのグラフを使うだけでは、COsの数学的論理性と性質を考慮しないオブジェクト間の直接的な相関を捉えるだけである。 本稿では,最大満足度問題(Max-SAT)の助けを借りて,グラフ上のCOの統一事前学習・適応フレームワークを提案する。 最初にMax-SATを用いてグラフ上の異なるCOをブリッジする。これは、標準的な公式や論理情報を持つ節で表されるMax-SAT問題に変換できるからである。 さらに,事前学習とドメイン適応のためのフレームワークを設計し,異なるCOがそれらの利点を享受できるように,転送可能で一般化可能な特徴を抽出する。 事前トレーニングの段階では、モデルのパラメータを初期化するためにMax-SATインスタンスが生成される。 微調整段階では、COおよびMax-SAT問題のインスタンスを適応するために使用することにより、転送能力をさらに向上することができる。 いくつかのデータセットの数値実験により,我々のフレームワークが抽出した特徴は優れた転送性を示し,Max-SATはグラフ上のCOを解く能力を向上できることが示された。

Combinatorial optimization (CO) on graphs is a classic topic that has been extensively studied across many scientific and industrial fields. Recently, solving CO problems on graphs through learning methods has attracted great attention. Advanced deep learning methods, e.g., graph neural networks (GNNs), have been used to effectively assist the process of solving COs. However, current frameworks based on GNNs are mainly designed for certain CO problems, thereby failing to consider their transferable and generalizable abilities among different COs on graphs. Moreover, simply using original graphs to model COs only captures the direct correlations among objects, which does not consider the mathematical logicality and properties of COs. In this paper, we propose a unified pre-training and adaptation framework for COs on graphs with the help of the maximum satisfiability (Max-SAT) problem. We first use Max-SAT to bridge different COs on graphs since they can be converted to Max-SAT problems represented by standard formulas and clauses with logical information. Then, we further design a pre-training and domain adaptation framework to extract the transferable and generalizable features so that different COs can benefit from them. In the pre-training stage, Max-SAT instances are generated to initialize the parameters of the model. In the fine-tuning stage, instances from CO and Max-SAT problems are used for adaptation so that the transferable ability can be further improved. Numerical experiments on several datasets show that features extracted by our framework exhibit superior transferability and Max-SAT can boost the ability to solve COs on graphs.
翻訳日:2023-12-20 18:48:24 公開日:2023-12-16
# アクティブディフェンスを用いたロバスト通信多エージェント強化学習

Robust Communicative Multi-Agent Reinforcement Learning with Active Defense ( http://arxiv.org/abs/2312.11545v1 )

ライセンス: Link先を確認
Lebin Yu, Yunbo Qiu, Quanming Yao, Yuan Shen, Xudong Zhang and Jian Wang(参考訳) マルチエージェント強化学習(MARL)におけるコミュニケーションは,エージェント間の協調を効果的に促進することが証明されている。 実世界のシナリオにおけるコミュニケーションはノイズや敵対的な攻撃に弱いため、堅牢な通信的marl手法を開発することが重要である。 しかし、この領域における既存の研究は受動的防御戦略に重点を置いており、エージェントが全てのメッセージを等しく受信することで、パフォーマンスと堅牢性のバランスが困難になっている。 エージェントは、潜在的に有害なメッセージが最終決定に与える影響を自動的に軽減するアクティブ・ディフェンス戦略を提案する。 信頼できないメッセージを定義し、信頼できないメッセージが最終決定に与える影響を適切に調整する、この戦略を実装するには2つの課題があります。 そこで我々は、受信したメッセージの信頼性を推定し、分解可能な決定構造の助けを借りて最終決定への影響を調整するアクティブディフェンス・マルチエージェント通信フレームワーク(ADMAC)を設計する。 既存の手法に対するadmacの優位性は、4種類の攻撃の下で3つのコミュニケーションクリティカルなタスクにおける実験によって検証される。

Communication in multi-agent reinforcement learning (MARL) has been proven to effectively promote cooperation among agents recently. Since communication in real-world scenarios is vulnerable to noises and adversarial attacks, it is crucial to develop robust communicative MARL technique. However, existing research in this domain has predominantly focused on passive defense strategies, where agents receive all messages equally, making it hard to balance performance and robustness. We propose an active defense strategy, where agents automatically reduce the impact of potentially harmful messages on the final decision. There are two challenges to implement this strategy, that are defining unreliable messages and adjusting the unreliable messages' impact on the final decision properly. To address them, we design an Active Defense Multi-Agent Communication framework (ADMAC), which estimates the reliability of received messages and adjusts their impact on the final decision accordingly with the help of a decomposable decision structure. The superiority of ADMAC over existing methods is validated by experiments in three communication-critical tasks under four types of attacks.
翻訳日:2023-12-20 18:48:02 公開日:2023-12-16
# FER-C: 表情認識のための分布外ソフトキャリブレーションのベンチマーク

FER-C: Benchmarking Out-of-Distribution Soft Calibration for Facial Expression Recognition ( http://arxiv.org/abs/2312.11542v1 )

ライセンス: Link先を確認
Dexter Neo, Tsuhan Chen(参考訳) 顔表情認識(FER)の校正のためのソフトベンチマークを提案する。 以前の研究では感情状態の同定に焦点が当てられていたが、FERモデルは校正されていない。 これは、out-of-distribution(ood)が顔のあいまいさをさらに悪化させる場合に特に当てはまる。 ほとんどのOODベンチマークはハードラベルを提供するが、顔の振る舞いのあいまいさをよりよく反映するために、FERモデルを評価するための基礎的真実ラベルはソフトであるべきだと我々は主張する。 本フレームワークは,OODシフトの異なるタイプに基づいて,平均情報損失を近似したソフトラベルを提案する。 最後に、ベンチマークでテストした5つの最先端FERアルゴリズムのキャリブレーションの利点を示す。

We present a soft benchmark for calibrating facial expression recognition (FER). While prior works have focused on identifying affective states, we find that FER models are uncalibrated. This is particularly true when out-of-distribution (OOD) shifts further exacerbate the ambiguity of facial expressions. While most OOD benchmarks provide hard labels, we argue that the ground-truth labels for evaluating FER models should be soft in order to better reflect the ambiguity behind facial behaviours. Our framework proposes soft labels that closely approximates the average information loss based on different types of OOD shifts. Finally, we show the benefits of calibration on five state-of-the-art FER algorithms tested on our benchmark.
翻訳日:2023-12-20 18:47:44 公開日:2023-12-16
# CLIPSyntel: 医療におけるマルチモーダル質問要約のためのCLIPとLCMの相乗効果

CLIPSyntel: CLIP and LLM Synergy for Multimodal Question Summarization in Healthcare ( http://arxiv.org/abs/2312.11541v1 )

ライセンス: Link先を確認
Akash Ghosh, Arkadeep Acharya, Raghav Jain, Sriparna Saha, Aman Chadha, Setu Sinha(参考訳) 現代医療の時代には、情報的かつタイムリーな患者医療には、素早く医療質問要約を生成することが不可欠である。 医療データの複雑さと量の増加にもかかわらず、既存の研究はテキストベースの要約にのみ焦点を合わせており、視覚情報の統合は無視されている。 テキストクエリと医療条件の視覚的表現を組み合わせた未解決の可能性を認識し,MMQS(Multimodal Medical Question Summarization)データセットを提案する。 このデータセットは、我々の研究に大きく貢献し、医用クエリと視覚支援を組み合わせ、患者のニーズに対するより豊かでニュアンスな理解を促進する。 また、医学的障害を識別し、関連するコンテキストを生成し、医療概念をフィルタリングし、視覚的に認識された要約を製作する4つのモジュールからなる、CLIP(Contrastive Language Image Pretraining)とLLM(Large Language Models)のパワーを利用するフレームワークを提案する。 包括的フレームワークは,CLIP,マルチモーダル基礎モデル,および各種汎用LCMの力を活用し,医療障害識別モジュール,関連コンテキスト生成モジュール,関連する医療概念や知識を蒸留するためのコンテキストフィルタリングモジュール,そして最後に,視覚的に認識される医療質問要約を生成する汎用LCMの4つの主要モジュールからなる。 MMQSデータセットを活用することで、画像からの視覚的手がかりが、医学的なニュアンスを持つ要約の生成をいかに促進するかを示す。 このマルチモーダルアプローチは、医療における意思決定プロセスを強化するだけでなく、患者の質問に対するよりきめ細やかな理解を促進し、パーソナライズド・レスポンシブ医療における今後の研究の基盤となる。

In the era of modern healthcare, swiftly generating medical question summaries is crucial for informed and timely patient care. Despite the increasing complexity and volume of medical data, existing studies have focused solely on text-based summarization, neglecting the integration of visual information. Recognizing the untapped potential of combining textual queries with visual representations of medical conditions, we introduce the Multimodal Medical Question Summarization (MMQS) Dataset. This dataset, a major contribution to our work, pairs medical queries with visual aids, facilitating a richer and more nuanced understanding of patient needs. We also propose a framework, utilizing the power of Contrastive Language Image Pretraining(CLIP) and Large Language Models(LLMs), consisting of four modules that identify medical disorders, generate relevant context, filter medical concepts, and craft visually aware summaries. Our comprehensive framework harnesses the power of CLIP, a multimodal foundation model, and various general-purpose LLMs, comprising four main modules: the medical disorder identification module, the relevant context generation module, the context filtration module for distilling relevant medical concepts and knowledge, and finally, a general-purpose LLM to generate visually aware medical question summaries. Leveraging our MMQS dataset, we showcase how visual cues from images enhance the generation of medically nuanced summaries. This multimodal approach not only enhances the decision-making process in healthcare but also fosters a more nuanced understanding of patient queries, laying the groundwork for future research in personalized and responsive medical care
翻訳日:2023-12-20 18:47:32 公開日:2023-12-16
# ランダム林におけるノード数と樹木数とのトレードオフについて

On the Trade-off between the Number of Nodes and the Number of Trees in a Random Forest ( http://arxiv.org/abs/2312.11540v1 )

ライセンス: Link先を確認
Tatsuya Akutsu, Avraham A. Melkman, Atsuhiro Takasu(参考訳) 本稿では,ランダム林の予測フェーズに着目し,二分領域上の二分決定問題と,内部ノードが1つの変数のブール値のクエリに制限される単純な決定木についてのみ考慮した,より小さな決定木を用いて決定木の袋を表現する問題を考察する。 主な結果として、$n$変数の多数関数は、多項式サイズの$T$$$<n$)決定ツリーのバッグで表され、$n-T$が定数であれば、$n$と$T$は奇数でなければならない(タイブレークを避けるために)。 また、n$決定木の袋は、n-t$が定数であり、小さな分類誤差が許容される場合に多項式サイズでそれぞれ$t$決定ツリーの袋で表現できることを示した。 k$-out-of-n$関数に関する関連する結果も提示される。

In this paper, we focus on the prediction phase of a random forest and study the problem of representing a bag of decision trees using a smaller bag of decision trees, where we only consider binary decision problems on the binary domain and simple decision trees in which an internal node is limited to querying the Boolean value of a single variable. As a main result, we show that the majority function of $n$ variables can be represented by a bag of $T$ ($< n$) decision trees each with polynomial size if $n-T$ is a constant, where $n$ and $T$ must be odd (in order to avoid the tie break). We also show that a bag of $n$ decision trees can be represented by a bag of $T$ decision trees each with polynomial size if $n-T$ is a constant and a small classification error is allowed. A related result on the $k$-out-of-$n$ functions is presented too.
翻訳日:2023-12-20 18:46:59 公開日:2023-12-16
# 情報探索による説明可能な画像分類のための解釈可能なクエリの学習

Learning Interpretable Queries for Explainable Image Classification with Information Pursuit ( http://arxiv.org/abs/2312.11548v1 )

ライセンス: Link先を確認
Stefan Kolek, Aditya Chattopadhyay, Kwan Ho Ryan Chan, Hector Andrade-Loarca, Gitta Kutyniok, R\'ene Vidal(参考訳) Information Pursuit (IP) は、情報ゲインの順にデータに関する解釈可能なクエリのシーケンスをグレードに選択し、観測されたクエリと問い合わせのペアに基づいて各ステップの後方を更新する説明可能な予測アルゴリズムである。 標準パラダイムは、人間のプロンプトの後、ドメインの専門家または大きな言語モデルによって計算された潜在的なデータクエリの手作り辞書を使用する。 しかし実際には、手作り辞書はキュレーターの専門知識と急進的な工学のヒューリスティックによって制限されている。 本稿では,データセットから直接解釈可能なクエリの辞書を学習する,新しいアプローチを提案する。 学習可能な辞書パラメータを用いたipの変分定式化を補強することにより,クエリ辞書学習問題を最適化問題として定式化する。 学習可能なクエリと解釈可能なクエリを定式化するために、大きなビジョンとCLIPのような言語モデルの潜時空間を活用する。 そこで本研究では,従来のスパース辞書学習にヒントを得たクエリ辞書学習アルゴリズムを提案する。 実験の結果,学習辞書は大規模言語モデルで生成した手作り辞書よりも有意に優れていた。

Information Pursuit (IP) is an explainable prediction algorithm that greedily selects a sequence of interpretable queries about the data in order of information gain, updating its posterior at each step based on observed query-answer pairs. The standard paradigm uses hand-crafted dictionaries of potential data queries curated by a domain expert or a large language model after a human prompt. However, in practice, hand-crafted dictionaries are limited by the expertise of the curator and the heuristics of prompt engineering. This paper introduces a novel approach: learning a dictionary of interpretable queries directly from the dataset. Our query dictionary learning problem is formulated as an optimization problem by augmenting IP's variational formulation with learnable dictionary parameters. To formulate learnable and interpretable queries, we leverage the latent space of large vision and language models like CLIP. To solve the optimization problem, we propose a new query dictionary learning algorithm inspired by classical sparse dictionary learning. Our experiments demonstrate that learned dictionaries significantly outperform hand-crafted dictionaries generated with large language models.
翻訳日:2023-12-20 18:30:19 公開日:2023-12-16
# インド亜大陸(NavIC)における航法用光流NSS

Optical flow GNSS for navigation in the Indian subcontinent (NavIC) ( http://arxiv.org/abs/2204.05980v2 )

ライセンス: Link先を確認
Sunit Shantanu Digamber Fulari(参考訳) 本稿では,インド亜大陸における航法(navic)として知られるインド亜大陸におけるグローバル航法衛星システムgssについて,光フロー追跡グローバル航法システム(optical flow tracking global navigation system, gnss)と呼ばれる新しい手法のモデル化を試みた。 微分方程式を用いたこの方法は、インド亜大陸衛星の1500kmの範囲で地球表面の非常に小さな距離において非常に正確である。 gpsシステムの精度について語るとき、地球軌道上に位置する衛星による地上に対する移動物体の座標の変化を示すために使用する場合、地球表面において非常に正確であるべきである。 オプティカルフロー(optical flow)は、x軸とy軸の運動を座標の無限小変化に利用し、このアルゴリズムを大域的な測位系で使用し、地上測位に関して衛星座標の正確な位置を求める。 また,地球表面の座標の変化を観測するために衛星からモデル化された無限小のフレームを含むため,現代の微分フレーム法は非常に正確であり,本論文では,その代替となる光流GNSSシステムに新たなアルゴリズムを設計し,これらのアルゴリズムを応用分野において設計する際の研究を改善することができる。

This paper reveals about global navigation satellite system GNSS in the indian subcontinent known as the navigation in the indian subcontinent(NavIC) We have tried to model a new technique in GNSS known as the optical flow tracking global navigation system (OF GNSS). This method using differential equations is very accurate for very small distances on the surface of the earth in the 1500km range of the Indian subcontinent satellite coverage. When we talk of accuracy of the GPS system it should be very accurate on the surface of the earth when used to show changes in coordinate of the moving body with respect to the ground by the satellite which is situated on the earths orbit. Optical flow is a method which uses movements with respect to x and y axis for infinitesimal changes in its coordinates and then uses this algorithm to use it in global positioning system to find accurate position of the body with respect to the satellite coordinates with respect to ground positioning. The modern method of differential frames is also very accurate as it involves infinitesimal frames which are modelled together from the satellite to find changes in the coordinates on the earths surface, so we have designed a new algorithm in this paper on the Optical flow GNSS system which is an alternative and can improve the study done in the design of these algorithms in this field of applications.
翻訳日:2023-12-19 21:44:11 公開日:2023-12-16
# 競合エージェントによる政策学習

Policy Learning with Competing Agents ( http://arxiv.org/abs/2204.01884v3 )

ライセンス: Link先を確認
Roshni Sahoo, Stefan Wager(参考訳) 意思決定者は多くの場合、治療できるエージェントの数に対する能力制限の下で、治療割り当てポリシーを学ぶことを目指している。 エージェントがこのようなポリシーに戦略的に対応できる場合、最適なポリシーの見積もりを複雑にする競合が発生する。 本稿では,このような干渉の存在下での容量制限された治療課題について検討する。 我々は, 意思決定者が各段階の処置を割り当てる動的モデルを検討し, 異種エージェントが前回の処置割り当て方針に最もよく反応することを示す。 エージェント数が大きいが有限であれば、与えられたポリシーの下で治療を受けるための閾値が、ポリシーの平均場平衡閾値に収束することを示す。 この結果に基づき,政策勾配の一貫した推定器を開発した。 1988年の国立教育縦断研究のデータを用いたシミュレーションと半合成実験において,この推定器が戦略行動の有無で能力制約のある政策の学習に利用できることを示した。

Decision makers often aim to learn a treatment assignment policy under a capacity constraint on the number of agents that they can treat. When agents can respond strategically to such policies, competition arises, complicating estimation of the optimal policy. In this paper, we study capacity-constrained treatment assignment in the presence of such interference. We consider a dynamic model where the decision maker allocates treatments at each time step and heterogeneous agents myopically best respond to the previous treatment assignment policy. When the number of agents is large but finite, we show that the threshold for receiving treatment under a given policy converges to the policy's mean-field equilibrium threshold. Based on this result, we develop a consistent estimator for the policy gradient. In simulations and a semi-synthetic experiment with data from the National Education Longitudinal Study of 1988, we demonstrate that this estimator can be used for learning capacity-constrained policies in the presence of strategic behavior.
翻訳日:2023-12-19 21:43:53 公開日:2023-12-16
# ディープ・フィーチャー・スクリーニング:ディープ・ニューラルネットワークによる超高次元データの特徴選択

Deep Feature Screening: Feature Selection for Ultra High-Dimensional Data via Deep Neural Networks ( http://arxiv.org/abs/2204.01682v3 )

ライセンス: Link先を確認
Kexuan Li, Fangfang Wang, Lingli Yang, Ruiqi Liu(参考訳) 従来の統計特徴選択法の高次元・低サンプルサイズデータへの応用は、しばしば過剰フィッティング、次元の呪い、計算不可能性、強いモデル仮定といった困難な問題に直面する。 本稿では,これらの問題を克服し,超高次元・低サンプルサイズのデータに対して高精度で重要な特徴を識別可能な,深層特徴スクリーニング(deep feature screening, deepfs)と呼ばれる新しい2段階非パラメトリック手法を提案する。 このアプローチはまず入力データの低次元表現を抽出し,Deb と Sen (2021) によって最近開発された多変量階差相関に基づく特徴スクリーニングを適用する。 本手法はディープニューラルネットワークと特徴スクリーニングの長所を併せ持つものであり,(1)モデルフリーで分布自由な,(2)教師なしと教師なしの両方の特徴選択に使用できる,(3)元の入力データを復元できるといった,超高次元データを少数のサンプルで処理する能力に加えて,次のような魅力的な特徴を有する。 DeepFSの優位性は、広範なシミュレーション研究と実データ分析によって実証される。

The applications of traditional statistical feature selection methods to high-dimension, low sample-size data often struggle and encounter challenging problems, such as overfitting, curse of dimensionality, computational infeasibility, and strong model assumption. In this paper, we propose a novel two-step nonparametric approach called Deep Feature Screening (DeepFS) that can overcome these problems and identify significant features with high precision for ultra high-dimensional, low-sample-size data. This approach first extracts a low-dimensional representation of input data and then applies feature screening based on multivariate rank distance correlation recently developed by Deb and Sen (2021). This approach combines the strengths of both deep neural networks and feature screening, and thereby has the following appealing features in addition to its ability of handling ultra high-dimensional data with small number of samples: (1) it is model free and distribution free; (2) it can be used for both supervised and unsupervised feature selection; and (3) it is capable of recovering the original input data. The superiority of DeepFS is demonstrated via extensive simulation studies and real data analyses.
翻訳日:2023-12-19 21:43:38 公開日:2023-12-16
# ワンショット参照による自己監督顔画像復元

Self-Supervised Face Image Restoration with a One-Shot Reference ( http://arxiv.org/abs/2203.03005v4 )

ライセンス: Link先を確認
Yanhui Guo, Fangzhou Luo, Shaoyuan Xu(参考訳) 画像復元のために, 生成モデルから先行情報を活用する手法が提案され, 光現実性と高品質な結果を確実に復元する有望な能力を示した。 しかし、これらの手法は、特に顔画像のような明らかに正しい意味を持つ画像において、意味曖昧さの影響を受けやすい。 本稿では,画像復元のための意味認識型潜在空間探索手法(sair)を提案する。 与えられた参照画像からセマンティック情報を明示的にモデル化することにより、sairは、高度で高精細な外観だけでなく、セマンティクスの修正も確実に行うことができる。 定量的および定性的な実験は、提案したSAIRの優れた性能を総合的に示す。 私たちのコードはhttps://github.com/liamkuo/sairで利用可能です。

For image restoration, methods leveraging priors from generative models have been proposed and demonstrated a promising capacity to robustly restore photorealistic and high-quality results. However, these methods are susceptible to semantic ambiguity, particularly with images that have obviously correct semantics such as facial images. In this paper, we propose a semantic-aware latent space exploration method for image restoration (SAIR). By explicitly modeling semantics information from a given reference image, SAIR is able to reliably restore severely degraded images not only to high-resolution and highly realistic looks but also to correct semantics. Quantitative and qualitative experiments collectively demonstrate the superior performance of the proposed SAIR. Our code is available at https://github.com/Liamkuo/SAIR.
翻訳日:2023-12-19 21:43:16 公開日:2023-12-16
# 情報規則化による逆グラフコントラスト学習

Adversarial Graph Contrastive Learning with Information Regularization ( http://arxiv.org/abs/2202.06491v5 )

ライセンス: Link先を確認
Shengyu Feng, Baoyu Jing, Yada Zhu, Hanghang Tong(参考訳) コントラスト学習はグラフ表現学習において効果的な教師なし手法である。 近年,データ拡張に基づくコントラスト学習法が画像からグラフに拡張されている。 しかし、ほとんどの先行作品は、画像用に設計されたモデルから直接適応している。 画像上のデータ拡張とは異なり、グラフ上のデータ拡張は直感的ではなく、高い品質の対照的なサンプルを提供することがはるかに難しく、これは対照的な学習モデルの性能の鍵である。 これにより、既存のグラフコントラスト学習フレームワークよりも多くの改善の余地がある。 本研究では, 逆グラフビューと情報正規化器を導入することで, 合理的な制約の中で情報的コントラストを抽出する簡易かつ効果的な手法, 逆グラフコントラスト学習(ARIEL)を提案する。 様々な実世界のデータセット上で、ノード分類タスクにおける現在のグラフコントラスト学習手法を一貫して上回り、さらにグラフコントラスト学習のロバスト性を向上させる。 コードはhttps://github.com/Shengyu-Feng/ARIELにある。

Contrastive learning is an effective unsupervised method in graph representation learning. Recently, the data augmentation based contrastive learning method has been extended from images to graphs. However, most prior works are directly adapted from the models designed for images. Unlike the data augmentation on images, the data augmentation on graphs is far less intuitive and much harder to provide high-quality contrastive samples, which are the key to the performance of contrastive learning models. This leaves much space for improvement over the existing graph contrastive learning frameworks. In this work, by introducing an adversarial graph view and an information regularizer, we propose a simple but effective method, Adversarial Graph Contrastive Learning (ARIEL), to extract informative contrastive samples within a reasonable constraint. It consistently outperforms the current graph contrastive learning methods in the node classification task over various real-world datasets and further improves the robustness of graph contrastive learning. The code is at https://github.com/Shengyu-Feng/ARIEL.
翻訳日:2023-12-19 21:43:04 公開日:2023-12-16
# IoTGAN: マシンラーニングベースのIoTデバイス識別に対するGANパワーのカモフラージュ

IoTGAN: GAN Powered Camouflage Against Machine Learning Based IoT Device Identification ( http://arxiv.org/abs/2201.03281v2 )

ライセンス: Link先を確認
Tao Hou, Tao Wang, Zhuo Lu, Yao Liu and Yalin Sagduyu(参考訳) IoTデバイスの普及に伴い、研究者は機械学習の助けを借りて、さまざまなIoTデバイス識別方法を開発した。 それでも、これらの識別方法のセキュリティは、収集されたトレーニングデータに大きく依存する。 本研究では,IoTデバイスのトラフィックを操作するために,IoTGANという新たな攻撃戦略を提案する。 IoTGANの開発には,2つの大きな技術的課題があります。 (i)ブラックボックス設定における識別モデル取得方法、及び (ii)IoTデバイスの機能に影響を与えることなく、識別を回避するために、マニピュティブモデルを通じてIoTトラフィックに摂動を加える方法。 これらの課題に対処するために、ニューラルネットワークベースの代替モデルを使用して、ターゲットモデルをブラックボックス設定に適合させ、IoTGANの識別モデルとして機能する。 操作モデルは、代替モデルを回避するために、IoTデバイスのトラフィックに敵の摂動を追加するように訓練される。 実験の結果、IoTGANは攻撃目標を達成することができた。 また、機械学習に基づくIoTデバイス識別がIoTGANによって損なわれないようにする効率的な対策も開発している。

With the proliferation of IoT devices, researchers have developed a variety of IoT device identification methods with the assistance of machine learning. Nevertheless, the security of these identification methods mostly depends on collected training data. In this research, we propose a novel attack strategy named IoTGAN to manipulate an IoT device's traffic such that it can evade machine learning based IoT device identification. In the development of IoTGAN, we have two major technical challenges: (i) How to obtain the discriminative model in a black-box setting, and (ii) How to add perturbations to IoT traffic through the manipulative model, so as to evade the identification while not influencing the functionality of IoT devices. To address these challenges, a neural network based substitute model is used to fit the target model in black-box settings, it works as a discriminative model in IoTGAN. A manipulative model is trained to add adversarial perturbations into the IoT device's traffic to evade the substitute model. Experimental results show that IoTGAN can successfully achieve the attack goals. We also develop efficient countermeasures to protect machine learning based IoT device identification from been undermined by IoTGAN.
翻訳日:2023-12-19 21:42:20 公開日:2023-12-16
# 非局在状態からの量子ウォークによる高忠実状態伝達

High-fidelity state transfer via quantum walks from delocalized states ( http://arxiv.org/abs/2112.03429v2 )

ライセンス: Link先を確認
Jo\~ao P. Engster, Rafael Vieira, Eduardo I. Duzzioni, Edgard P. M. Amorim(参考訳) 有界な一次元経路上に置かれた量子ウォークによる状態伝達について検討する。 まず、ガウス状態から連続時間量子ウォークを考える。 開始位置と反足脚位置を中心に重畳することで,長期間にわたって高い忠実度を保ち,また大きな円グラフで送出する場合には,そのような状態が生じる。 さらに、これはヌル群速度で広がる。 また、離散時間量子ウォークを探索し、ウォークを通して量子ビットの忠実度を評価する。 この場合、初期状態は、立方体とガウス的位置状態の重ね合わせの間の状態の積である。 次に、2つの$\sigma_x$ゲートを加えて、この非局在化キュービットを閉じ込めます。 また、この有界系は初期分離状態の周期的回復を動的に行うことができる。 我々は,この結果の応用を動的グラフで概説し,利用可能な文献に基づいて実装するための量子回路を提案する。

We study the state transfer through quantum walks placed on a bounded one-dimensional path. We first consider continuous-time quantum walks from a Gaussian state. We find such a state when superposing centered on the starting and antipodal positions preserves a high fidelity for a long time and when sent on large circular graphs. Furthermore, it spreads with a null group velocity. We also explore discrete-time quantum walks to evaluate the qubit fidelity throughout the walk. In this case, the initial state is a product of states between a qubit and a Gaussian superposition of position states. Then, we add two $\sigma_x$ gates to confine this delocalized qubit. We also find that this bounded system dynamically enables periodic recovery of the initial separable state. We outline some applications of our results in dynamic graphs and propose quantum circuits to implement them based on the available literature.
翻訳日:2023-12-19 21:42:04 公開日:2023-12-16
# 動作認識に注意を向けた高次テンソルプーリング

High-order Tensor Pooling with Attention for Action Recognition ( http://arxiv.org/abs/2110.05216v4 )

ライセンス: Link先を確認
Lei Wang and Ke Sun and Piotr Koniusz(参考訳) 本稿では,ニューラルネットワークによって形成される特徴ベクトルの高次統計を捉え,エンドツーエンドの2次・高次プーリングを提案し,テンソルディスクリプタを構成する。 テンソルディスクリプタは、集約ベクトルの少ない数と、与えられた特徴が統計的に予想されるよりも頻繁に現れるバーストネス現象のために、堅牢な類似度尺度を必要とする。 グラフラプラシアン上の熱拡散過程(HDP)は、逆がループグラフラプラシアンを形成する共分散自己相関行列の固有値パワー正規化(EPN)と密接に関係している。 我々は,HDPとEPNが同一の役割を担っていること,すなわち固有スペクトルの大きさを増大または減衰させることにより,バーストの防止を図っている。 我々は、高次発生のスペクトル検出器として作用するepnに高次テンソルを装備し、バーストネスを防止する。 また、d次元特徴記述子から構築された位数 r のテンソルに対して、そのような検出器は、少なくとも1つの高次発生がテンソルで表されるbinom(d,r)部分空間の1つに「射影」される可能性を示し、したがってそのような「detectors」のようなbinom(d,r)で導かれるテンソルパワー正規化計量を形成する。 実験的なコントリビューションとして,2次および高次プール変種をアクション認識に適用し,これまでに提示されていないプール変種の比較を行い,HMDB-51,YUP++,MPII調理活動の最先端結果を示す。

We aim at capturing high-order statistics of feature vectors formed by a neural network, and propose end-to-end second- and higher-order pooling to form a tensor descriptor. Tensor descriptors require a robust similarity measure due to low numbers of aggregated vectors and the burstiness phenomenon, when a given feature appears more/less frequently than statistically expected. The Heat Diffusion Process (HDP) on a graph Laplacian is closely related to the Eigenvalue Power Normalization (EPN) of the covariance/autocorrelation matrix, whose inverse forms a loopy graph Laplacian. We show that the HDP and the EPN play the same role, i.e., to boost or dampen the magnitude of the eigenspectrum thus preventing the burstiness. We equip higher-order tensors with EPN which acts as a spectral detector of higher-order occurrences to prevent burstiness. We also prove that for a tensor of order r built from d dimensional feature descriptors, such a detector gives the likelihood if at least one higher-order occurrence is 'projected' into one of binom(d,r) subspaces represented by the tensor; thus forming a tensor power normalization metric endowed with binom(d,r) such 'detectors'. For experimental contributions, we apply several second- and higher-order pooling variants to action recognition, provide previously not presented comparisons of such pooling variants, and show state-of-the-art results on HMDB-51, YUP++ and MPII Cooking Activities.
翻訳日:2023-12-19 21:41:51 公開日:2023-12-16
# 医用画像分類のための転帰学習の再考

Rethinking Transfer Learning for Medical Image Classification ( http://arxiv.org/abs/2106.05152v7 )

ライセンス: Link先を確認
Le Peng, Hengyue Liang, Gaoxiang Luo, Taihui Li, Ju Sun(参考訳) 事前訓練された深層モデルからの伝達学習(TL)は、現代の医用画像分類(MIC)における標準的実践である。 しかしながら、再利用すべき機能のレベルは問題に依存しており、事前訓練されたモデルのすべての層を均一に微調整することは、最適ではないかもしれない。 この知見は、TransFusion (TF) やLayer-wise Finetuning (LWFT) のような最近の微分TL戦略を部分的に動機付け、事前訓練されたモデルの層を微分的に扱う。 本稿では,TruncatedTLという,適切なボトム層を再利用・微調整し,残りの層を直接破棄する,新たな戦略をこのファミリーに追加する。 これにより、他の微分TL法と比較して、優れたMIC性能だけでなく、効率的な推論のためのコンパクトモデルが得られる。 私たちのコードは、https://github.com/sun-umn/TTLで利用可能です。

Transfer learning (TL) from pretrained deep models is a standard practice in modern medical image classification (MIC). However, what levels of features to be reused are problem-dependent, and uniformly finetuning all layers of pretrained models may be suboptimal. This insight has partly motivated the recent differential TL strategies, such as TransFusion (TF) and layer-wise finetuning (LWFT), which treat the layers in the pretrained models differentially. In this paper, we add one more strategy into this family, called TruncatedTL, which reuses and finetunes appropriate bottom layers and directly discards the remaining layers. This yields not only superior MIC performance but also compact models for efficient inference, compared to other differential TL methods. Our code is available at: https://github.com/sun-umn/TTL
翻訳日:2023-12-19 21:40:55 公開日:2023-12-16
# Half-Truth: 部分的にフェイクなオーディオ検出データセット

Half-Truth: A Partially Fake Audio Detection Dataset ( http://arxiv.org/abs/2104.03617v2 )

ライセンス: Link先を確認
Jiangyan Yi, Ye Bai, Jianhua Tao, Haoxin Ma, Zhengkun Tian, Chenglong Wang, Tao Wang, Ruibo Fu(参考訳) 多様な有望なデータセットは、ASVspoofデータベースのような偽オーディオ検出の開発を支えているように設計されている。 しかし、以前のデータセットは攻撃的な状況を無視しており、ハッカーは実際の音声に小さな偽のクリップを隠している。 これは、小さな偽のクリップをスピーチ全体の発話と区別することが難しいため、深刻な脅威となる。 そこで本稿では,半真実音声検出(had)のためのデータセットを開発した。 hadデータセットの一部のフェイクオーディオは、発話中の数単語だけを変更し、その単語の音声は最新の最先端の音声合成技術で生成される。 我々は、偽のユトランを検知するだけでなく、このデータセットを用いて音声中の操作された領域をローカライズする。 いくつかのベンチマーク結果は、このデータセットで示される。 その結果、一部の偽オーディオは、偽オーディオ検出のための完全偽オーディオよりもはるかに難しいことが判明した。 hadデータセットは、https://zenodo.org/records/10377492。

Diverse promising datasets have been designed to hold back the development of fake audio detection, such as ASVspoof databases. However, previous datasets ignore an attacking situation, in which the hacker hides some small fake clips in real speech audio. This poses a serious threat since that it is difficult to distinguish the small fake clip from the whole speech utterance. Therefore, this paper develops such a dataset for half-truth audio detection (HAD). Partially fake audio in the HAD dataset involves only changing a few words in an utterance.The audio of the words is generated with the very latest state-of-the-art speech synthesis technology. We can not only detect fake uttrances but also localize manipulated regions in a speech using this dataset. Some benchmark results are presented on this dataset. The results show that partially fake audio presents much more challenging than fully fake audio for fake audio detection. The HAD dataset is publicly available: https://zenodo.org/records/10377492.
翻訳日:2023-12-19 21:39:55 公開日:2023-12-16
# 影響関数による任意の階層グラフニューラルネットへのブラックボックスグラフの効率的・直接的・制限的侵入攻撃

Efficient, Direct, and Restricted Black-Box Graph Evasion Attacks to Any-Layer Graph Neural Networks via Influence Function ( http://arxiv.org/abs/2009.00203v3 )

ライセンス: Link先を確認
Binghui Wang, Tianxiang Zhou, Minhua Lin, Pan Zhou, Ang Li, Meng Pang, Hai Li, Yiran Chen(参考訳) グラフデータから学習する主流の方法であるグラフニューラルネットワーク(gnn)は、グラフ回避攻撃(graph evasion attack)に脆弱である。 既存の作業には、以下の欠点がある。 1) 2層GNNの直接攻撃に制限。 2)非効率,及び 3) GNNモデルパラメータの完全あるいは一部を知る必要があるため、実用的ではない。 我々は,上記の欠点に対処し,影響に基づくemph{ efficient, direct, and restricted black-box} 回避攻撃を \emph{any-layer} gnns に提案する。 具体的には、まず、GNNとラベル伝搬(LP)に定義された2つの影響関数、すなわち特徴ラベルの影響とラベルの影響を導入する。 そして、GNNとLPは、定義された影響の観点から強く結びついていることを観察する。 これに基づいて, 内部GNNモデルに関する情報を必要とせず, 任意の層 GNN に適用可能な LP に対するラベルの影響を計算した上で, GNN への回避攻撃を再構築することができる。 最後に,ラベルの影響を計算するアルゴリズムを提案する。 各種グラフデータセットによる実験結果から,最先端のホワイトボックス攻撃と比較して,攻撃性能は同等であるが,2層GNN攻撃時の5-50倍の高速化が得られた。 さらに、攻撃はマルチレイヤのGNNs\footnote{Sourceコードを攻撃するのに効果的で、完全なバージョンはリンクにある。

Graph neural network (GNN), the mainstream method to learn on graph data, is vulnerable to graph evasion attacks, where an attacker slightly perturbing the graph structure can fool trained GNN models. Existing work has at least one of the following drawbacks: 1) limited to directly attack two-layer GNNs; 2) inefficient; and 3) impractical, as they need to know full or part of GNN model parameters. We address the above drawbacks and propose an influence-based \emph{efficient, direct, and restricted black-box} evasion attack to \emph{any-layer} GNNs. Specifically, we first introduce two influence functions, i.e., feature-label influence and label influence, that are defined on GNNs and label propagation (LP), respectively. Then we observe that GNNs and LP are strongly connected in terms of our defined influences. Based on this, we can then reformulate the evasion attack to GNNs as calculating label influence on LP, which is \emph{inherently} applicable to any-layer GNNs, while no need to know information about the internal GNN model. Finally, we propose an efficient algorithm to calculate label influence. Experimental results on various graph datasets show that, compared to state-of-the-art white-box attacks, our attack can achieve comparable attack performance, but has a 5-50x speedup when attacking two-layer GNNs. Moreover, our attack is effective to attack multi-layer GNNs\footnote{Source code and full version is in the link: \url{https://github.com/ventr1c/InfAttack}}.
翻訳日:2023-12-19 21:39:07 公開日:2023-12-16
# 対称情報完全測定による古典系と量子系との既約差の同定

Symmetric Informationally Complete Measurements Identify the Irreducible Difference between Classical and Quantum Systems ( http://arxiv.org/abs/1805.08721v4 )

ライセンス: Link先を確認
John B. DeBrota, Christopher A. Fuchs, Blake C. Stacey(参考訳) 本稿では,最小限の情報完全量子測度(MIC)と線形独立なポスト測定量子状態の集合をボルンルールの純粋確率的表現で関連付けるための一般的な手順について述べる。 このような表現はQB主義によって動機付けられ、ボルンルールは、ある実験の結果に割り当てられた確率と、他の実験の結果に割り当てられた確率との整合条件として理解される。 この設定では、量子物理学と古典物理学の違いは、それらの物理仮定が素確率理論を増大させる方法である:古典物理学は自明な拡張に対応する -- シナリオ間でトータル確率法(LTP)を適用するだけであり、一方、量子理論は我々の一般的な手順の1つまたは別の形式で表されるボルンルールを利用する。 量子と古典の既約差を示すためには、表現間の格差を最小限に抑える表現を求める必要がある。 我々は、対称情報完全測定(SIC)から得られるボルンルールの表現が、少なくとも2つの意味でこの区別を最小化することを証明している。 どちらも大きな大成の結果から生じるものである。 この研究は、LTPからのボルンルールの偏差をウィグナー関数の負性の観点から測定する量子計算における最近の研究を補完する。

We describe a general procedure for associating a minimal informationally-complete quantum measurement (or MIC) and a set of linearly independent post-measurement quantum states with a purely probabilistic representation of the Born Rule. Such representations are motivated by QBism, where the Born Rule is understood as a consistency condition between probabilities assigned to the outcomes of one experiment in terms of the probabilities assigned to the outcomes of other experiments. In this setting, the difference between quantum and classical physics is the way their physical assumptions augment bare probability theory: Classical physics corresponds to a trivial augmentation -- one just applies the Law of Total Probability (LTP) between the scenarios -- while quantum theory makes use of the Born Rule expressed in one or another of the forms of our general procedure. To mark the irreducible difference between quantum and classical, one should seek the representations that minimize the disparity between the expressions. We prove that the representation of the Born Rule obtained from a symmetric informationally-complete measurement (or SIC) minimizes this distinction in at least two senses -- the first to do with unitarily invariant distance measures between the rules, and the second to do with available volume in a reference probability simplex (roughly speaking a new kind of uncertainty principle). Both of these arise from a significant majorization result. This work complements recent studies in quantum computation where the deviation of the Born Rule from the LTP is measured in terms of negativity of Wigner functions.
翻訳日:2023-12-19 21:38:37 公開日:2023-12-16
# テキスト対実説明生成のための一般検索型フレームワーク

A General Search-based Framework for Generating Textual Counterfactual Explanations ( http://arxiv.org/abs/2211.00369v2 )

ライセンス: Link先を確認
Daniel Gilo and Shaul Markovitch(参考訳) 機械学習分類器の決定を説明する重要な方法の1つは、逆実例である。 テキスト領域でそのような例を生成するアルゴリズムのほとんどは、生成言語モデルに基づいている。 しかし生成モデルは、生成されたテキストに対する特定の要求を満たすために、特定の損失関数を最小化するように訓練される。 要件の変更は、コストのかかる再トレーニングを必要とする可能性があるため、適用性を制限する可能性がある。 本稿では,テキスト領域における対実的説明を生成する汎用的な検索ベースフレームワークを提案する。 私たちのフレームワークはモデル非依存で、ドメイン非依存で、いつでも、ユーザ要件の変更に対応するために再トレーニングを必要としません。 我々は,初期状態が分類されたテキストである空間における探索問題としてタスクをモデル化し,目標状態が与えられたターゲットクラスのテキストである。 我々のフレームワークはドメインに依存しない修正演算子を含むが、専門演算子を通してドメイン固有の知識を活用できる。 探索アルゴリズムは、本来の分類対象からユーザ指定距離が最小限のターゲットクラスからテキストを見つけようとする。

One of the prominent methods for explaining the decision of a machine-learning classifier is by a counterfactual example. Most current algorithms for generating such examples in the textual domain are based on generative language models. Generative models, however, are trained to minimize a specific loss function in order to fulfill certain requirements for the generated texts. Any change in the requirements may necessitate costly retraining, thus potentially limiting their applicability. In this paper, we present a general search-based framework for generating counterfactual explanations in the textual domain. Our framework is model-agnostic, domain-agnostic, anytime, and does not require retraining in order to adapt to changes in the user requirements. We model the task as a search problem in a space where the initial state is the classified text, and the goal state is a text in a given target class. Our framework includes domain-independent modification operators, but can also exploit domain-specific knowledge through specialized operators. The search algorithm attempts to find a text from the target class with minimal user-specified distance from the original classified object.
翻訳日:2023-12-19 21:31:58 公開日:2023-12-16
# 浅層ニューラルネットワークにおける近平均場学習

Proximal Mean Field Learning in Shallow Neural Networks ( http://arxiv.org/abs/2210.13879v3 )

ライセンス: Link先を確認
Alexis Teter, Iman Nodozi, Abhishek Halder(参考訳) 本研究では,浅い過パラメータニューラルネットワーク,すなわち無限幅の単一の隠蔽層を持つネットワークに対する独自の学習アルゴリズムを提案する。 隠蔽層の無限幅は、過パラメータ化の抽象化として機能する。 浅層ニューラルネットワークにおける学習力学の最近の平均場解釈に基づいて,解析ツールとしてではなく,計算アルゴリズムとして平均場学習を実現する。 具体的には、重み付き点雲上の学習力学の分布流を近似するシンクホーン正規化近似アルゴリズムを設計する。 この設定では、収縮的不動点再帰は時間変化重みを計算し、神経アンサンブル上で支持されるパラメータ分布の相互作用するワッサースタイン勾配流れを数値的に認識する。 提案アルゴリズムの魅力は、測度値再帰がメッシュレス計算を可能にすることである。 重み付き粒子進化をバイナリ分類とマルチクラス分類で相互作用させる計算枠組みを提示する。 本アルゴリズムは,リスク汎関数に関連する自由エネルギーの勾配降下を行う。

We propose a custom learning algorithm for shallow over-parameterized neural networks, i.e., networks with single hidden layer having infinite width. The infinite width of the hidden layer serves as an abstraction for the over-parameterization. Building on the recent mean field interpretations of learning dynamics in shallow neural networks, we realize mean field learning as a computational algorithm, rather than as an analytical tool. Specifically, we design a Sinkhorn regularized proximal algorithm to approximate the distributional flow for the learning dynamics over weighted point clouds. In this setting, a contractive fixed point recursion computes the time-varying weights, numerically realizing the interacting Wasserstein gradient flow of the parameter distribution supported over the neuronal ensemble. An appealing aspect of the proposed algorithm is that the measure-valued recursions allow meshless computation. We demonstrate the proposed computational framework of interacting weighted particle evolution on binary and multi-class classification. Our algorithm performs gradient descent of the free energy associated with the risk functional.
翻訳日:2023-12-19 21:31:21 公開日:2023-12-16
# ファクトフェアネスに対する因果制約付き不整合表現

Disentangled Representation with Causal Constraints for Counterfactual Fairness ( http://arxiv.org/abs/2208.09147v2 )

ライセンス: Link先を確認
Ziqi Xu and Jixue Liu and Debo Cheng and Jiuyong Li and Lin Liu and Ke Wang(参考訳) 多くの研究は公平表現を学ぶ問題に費やされてきたが、潜在表現間の関係を明示的には示していない。 多くの実世界のアプリケーションでは、潜在表現の間に因果関係があるかもしれない。 さらに、ほとんどの公正表現学習手法は、グループレベルの公平さに焦点をあて、データに基づく因果関係を無視して相関に基づく。 本研究では,構築された表現を使用することで,下流の予測モデルが反ファクトフェアネスを実現することを理論的に実証し,ドメイン知識に関する構造化表現を得るための対実フェアネス変動自動エンコーダ(CF-VAE)を提案する。 実験の結果,本手法はベンチマークフェアネス法よりもフェアネスと精度が良好であることが判明した。

Much research has been devoted to the problem of learning fair representations; however, they do not explicitly the relationship between latent representations. In many real-world applications, there may be causal relationships between latent representations. Furthermore, most fair representation learning methods focus on group-level fairness and are based on correlations, ignoring the causal relationships underlying the data. In this work, we theoretically demonstrate that using the structured representations enable downstream predictive models to achieve counterfactual fairness, and then we propose the Counterfactual Fairness Variational AutoEncoder (CF-VAE) to obtain structured representations with respect to domain knowledge. The experimental results show that the proposed method achieves better fairness and accuracy performance than the benchmark fairness methods.
翻訳日:2023-12-19 21:29:33 公開日:2023-12-16
# 重力波信号のファジィ同定のための新しい多層モジュラー手法

A novel multi-layer modular approach for real-time fuzzy-identification of gravitational-wave signals ( http://arxiv.org/abs/2206.06004v4 )

ライセンス: Link先を確認
Francesco Pio Barone, Daniele Dell'Aquila, Marco Russo(参考訳) 高度ligoおよび高度virgo地中干渉計(advanced virgo ground-based interferometers)は、高度レーザー干渉計技術を利用した重力波信号を検出できる機器である。 基礎となるデータ分析タスクは、ノイズの多い時間帯における特定のパターンを特定することであるが、ターゲット信号の驚くほど小さな振幅によって非常に複雑になる。 このシナリオでは、効果的な重力波検出アルゴリズムの開発が重要である。 本稿では,音声処理技術に触発された重力波のリアルタイム検出のための新しい階層化フレームワークを提案し,その実装において,遺伝的プログラミングとニューラルネットワークのハイブリッド化を含む最先端の機械学習アプローチに基づく。 新しく提案されたフレームワークの重要な側面は、よく構造化された、階層化されたアプローチと低い計算複雑性である。 本稿では,フレームワークの基本概念と,最初の3つのレイヤの導出について述べる。 階層が機械学習アプローチを用いて導出されたモデルに基づいているとしても、提案した階層構造は普遍的な性質を持つ。 数mbのパラメータセットで構成され、固定長データサンプルのみを対象としてテストされた畳み込みニューラルネットワークのようなより複雑なアプローチと比較すると、このフレームワークは精度が低く(例えば、低信号対雑音重力波信号の45%を、最先端の65%に対して10^{-2}$という誤ったアラーム確率で識別する)、計算複雑性がはるかに低く、モジュール性が高い。 さらに、短期的な特徴の活用により、新しい枠組みは重力波信号の時間配置と実質的に独立し、新しい世代の干渉計による重力波検出のためのリアルタイム多層パイプラインの将来の利用を単純化する。

Advanced LIGO and Advanced Virgo ground-based interferometers are instruments capable to detect gravitational wave signals exploiting advanced laser interferometry techniques. The underlying data analysis task consists in identifying specific patterns in noisy timeseries, but it is made extremely complex by the incredibly small amplitude of the target signals. In this scenario, the development of effective gravitational wave detection algorithms is crucial. We propose a novel layered framework for real-time detection of gravitational waves inspired by speech processing techniques and, in the present implementation, based on a state-of-the-art machine learning approach involving a hybridization of genetic programming and neural networks. The key aspects of the newly proposed framework are: the well structured, layered approach, and the low computational complexity. The paper describes the basic concepts of the framework and the derivation of the first three layers. Even if the layers are based on models derived using a machine learning approach, the proposed layered structure has a universal nature. Compared to more complex approaches, such as convolutional neural networks, which comprise a parameter set of several tens of MB and were tested exclusively for fixed length data samples, our framework has lower accuracy (e.g., it identifies 45% of low signal-to-noise-ration gravitational wave signals, against 65% of the state-of-the-art, at a false alarm probability of $10^{-2}$), but has a much lower computational complexity and a higher degree of modularity. Furthermore, the exploitation of short-term features makes the results of the new framework virtually independent against time-position of gravitational wave signals, simplifying its future exploitation in real-time multi-layer pipelines for gravitational-wave detection with new generation interferometers.
翻訳日:2023-12-19 21:28:38 公開日:2023-12-16
# 因果メディエーション分析のためのアンタングル表現

Disentangled Representation for Causal Mediation Analysis ( http://arxiv.org/abs/2302.09694v2 )

ライセンス: Link先を確認
Ziqi Xu, Debo Cheng, Jiuyong Li, Jixue Liu, Lin Liu, Ke Wang(参考訳) 観察データから直接的および間接的因果効果を推定することは、因果メカニズムを理解し、異なる介入下での行動を予測する上で重要である。 因果媒介分析は直接的および間接的な効果を明らかにするためにしばしば用いられる方法である。 深層学習は調停分析に有望性を示しているが、現在の手法では、治療、調停、結果に影響を及ぼす潜在性共起者を仮定し、異なるタイプの潜在性共起者を識別できない(例えば、仲介者または結果にのみ影響を及ぼす共同設立者)。 さらに、現在の手法は、複数のタイプの潜在的共同設立者を扱うには不可能な逐次的無知の仮定に基づいている。 本研究は, 逐次的無知の仮定を回避し, 代替として断片的分解仮定を適用することを目的とする。 そこで本研究では,助成金の表現を3つのタイプに分けて,自然的直接効果,自然間接効果,および全効果を正確に推定する,ディスタングル・メディエーション分析変分自動エンコーダ(DMAVAE)を提案する。 実験の結果,提案手法は既存の手法よりも優れ,高い一般化能力を有することがわかった。 さらに本手法を実世界のデータセットに適用し,その可能性を示す。

Estimating direct and indirect causal effects from observational data is crucial to understanding the causal mechanisms and predicting the behaviour under different interventions. Causal mediation analysis is a method that is often used to reveal direct and indirect effects. Deep learning shows promise in mediation analysis, but the current methods only assume latent confounders that affect treatment, mediator and outcome simultaneously, and fail to identify different types of latent confounders (e.g., confounders that only affect the mediator or outcome). Furthermore, current methods are based on the sequential ignorability assumption, which is not feasible for dealing with multiple types of latent confounders. This work aims to circumvent the sequential ignorability assumption and applies the piecemeal deconfounding assumption as an alternative. We propose the Disentangled Mediation Analysis Variational AutoEncoder (DMAVAE), which disentangles the representations of latent confounders into three types to accurately estimate the natural direct effect, natural indirect effect and total effect. Experimental results show that the proposed method outperforms existing methods and has strong generalisation ability. We further apply the method to a real-world dataset to show its potential application.
翻訳日:2023-12-19 21:20:11 公開日:2023-12-16
# 未知要素への一般化:知識グラフの知識外挿に関する調査

Generalizing to Unseen Elements: A Survey on Knowledge Extrapolation for Knowledge Graphs ( http://arxiv.org/abs/2302.01859v2 )

ライセンス: Link先を確認
Mingyang Chen, Wen Zhang, Yuxia Geng, Zezhong Xu, Jeff Z. Pan, Huajun Chen(参考訳) 知識グラフ(KG)は様々なアプリケーションにおいて貴重な知識資源となり、知識グラフ埋め込み(KGE)手法は近年注目を集めている。 しかしながら、従来のKGEメソッドは、モデルテスト中に見えないエンティティや関係を扱う場合、依然として課題に直面している。 この問題に対処するため、KGの様々な分野に多くの努力が注がれている。 本稿では,これらの手法を統一するために一連の一般用語を使用し,それらを総合的に知識外挿と呼ぶ。 我々はこれらの手法を包括的に要約し,提案した分類法で分類し,それらの相互関係について述べる。 さらに、分類学では捉えられない側面に基づいて、ベンチマークを導入し、これらの手法の比較を行う。 最後に,今後の研究の方向性を提案する。

Knowledge graphs (KGs) have become valuable knowledge resources in various applications, and knowledge graph embedding (KGE) methods have garnered increasing attention in recent years. However, conventional KGE methods still face challenges when it comes to handling unseen entities or relations during model testing. To address this issue, much effort has been devoted to various fields of KGs. In this paper, we use a set of general terminologies to unify these methods and refer to them collectively as Knowledge Extrapolation. We comprehensively summarize these methods, classified by our proposed taxonomy, and describe their interrelationships. Additionally, we introduce benchmarks and provide comparisons of these methods based on aspects that are not captured by the taxonomy. Finally, we suggest potential directions for future research.
翻訳日:2023-12-19 21:19:47 公開日:2023-12-16
# 深層学習による空間データの半パラメトリック回帰

Semiparametric Regression for Spatial Data via Deep Learning ( http://arxiv.org/abs/2301.03747v2 )

ライセンス: Link先を確認
Kexuan Li, Jun Zhu, Anthony R. Ives, Volker C. Radeloff, Fangfang Wang(参考訳) 本研究では,空間依存データに対する半パラメトリック回帰分析を行う深層学習に基づく手法を提案する。 具体的には、整流線形単位(relu)活性化関数を有する疎結合深層ニューラルネットワークを用いて、空間依存の存在下での応答と共変量の関係を記述する未知回帰関数を推定する。 いくつかの穏やかな条件下では、推定器の一貫性が証明され、収束速度は、(1)ニューラルネットワーククラスのアーキテクチャ、(2)真の平均関数の滑らかさと(内在的な)次元、(3)空間依存の大きさの3つの要因によって決定される。 本手法は,確率勾配勾配勾配最適化アルゴリズムにより,大きなデータセットを扱うことができる。 合成データのシミュレーション実験を行い, 実験結果から, 反応と共変量との複雑な関係を把握できることが示唆された。 最後に,提案手法の有効性と有効性を示すために,実データ解析を行う。

In this work, we propose a deep learning-based method to perform semiparametric regression analysis for spatially dependent data. To be specific, we use a sparsely connected deep neural network with rectified linear unit (ReLU) activation function to estimate the unknown regression function that describes the relationship between response and covariates in the presence of spatial dependence. Under some mild conditions, the estimator is proven to be consistent, and the rate of convergence is determined by three factors: (1) the architecture of neural network class, (2) the smoothness and (intrinsic) dimension of true mean function, and (3) the magnitude of spatial dependence. Our method can handle well large data set owing to the stochastic gradient descent optimization algorithm. Simulation studies on synthetic data are conducted to assess the finite sample performance, the results of which indicate that the proposed method is capable of picking up the intricate relationship between response and covariates. Finally, a real data analysis is provided to demonstrate the validity and effectiveness of the proposed method.
翻訳日:2023-12-19 21:19:36 公開日:2023-12-16
# PauliComposer: Pauli行列の計算テンソル製品は効率的

PauliComposer: Compute Tensor Products of Pauli Matrices Efficiently ( http://arxiv.org/abs/2301.00560v2 )

ライセンス: Link先を確認
Sebasti\'an V. Romero and Juan Santos-Su\'arez(参考訳) パウリ行列のテンソル積を効率的に計算する簡単なアルゴリズムを導入する。 これは計算をこの特定のケースに合わせることで行われ、不要な計算を避けることができる。 この戦略の強さは最先端技術と比較され、顕著な加速を示している。 副産物として,ハミルトニアンのポーリ基底分解(pauli basis decomposition of hamiltonian)という,量子シミュレーションにおける1つの鍵計算の最適化手法を提案する。

We introduce a simple algorithm that efficiently computes tensor products of Pauli matrices. This is done by tailoring the calculations to this specific case, which allows to avoid unnecessary calculations. The strength of this strategy is benchmarked against state-of-the-art techniques, showing a remarkable acceleration. As a side product, we provide an optimized method for one key calculus in quantum simulations: the Pauli basis decomposition of Hamiltonians.
翻訳日:2023-12-19 21:18:31 公開日:2023-12-16
# 建築情報のマイニング:システムマッピング研究

Mining Architectural Information: A Systematic Mapping Study ( http://arxiv.org/abs/2212.13179v3 )

ライセンス: Link先を確認
Musengamana Jean de Dieu, Peng Liang, Mojtaba Shahin, Chen Yang, Zengyang Li(参考訳) 建築の復元や理解といった建築活動を支援するための建築情報マイニングは近年注目を集めている。 しかし、建築情報マイニングに関する文献がどのような形で入手可能であるかは明確ではない。 結果として、アーキテクト活動を支援するためにどのようなアーキテクチャ情報をマイニングするためにどのようなアプローチを採用するべきかなど、実践者が最先端の研究結果を理解し、採用することが困難になる可能性がある。 また、研究者が特定された研究ギャップの課題や改善に気付くのを妨げる。 ソフトウェアリポジトリ内のアーキテクチャ情報マイニングに関する文献を,アーキテクチャ情報やソースマイニング,サポート対象のアーキテクチャ活動,使用するアプローチやツール,直面する課題などの観点から識別,分析,統合することを目的としています。 2006年1月から2022年12月までの文献の体系的マッピング研究が行われている。 Of the 104 primary studies finally selected, 7 categories of architectural information have been mined, among which architectural description is the most mined architectural information; 11 categories of sources have been leveraged for mining architectural information, among which version control system (e.g., GitHub) is the most popular source; 11 architecting activities can be supported by the mined architectural information, among which architecture understanding is the most supported activity; 95 approaches and 56 tools were proposed and employed in mining architectural information; and 4 types of challenges in mining architectural information were identified. このSMSは、将来有望な方向性を研究者たちに提供するとともに、実践者がどのようなアーキテクチャ情報を使ってさまざまなアーキテクチャ活動を支援するかを知るのに役立つ。

Mining architectural information to support architecting activities, such as architecture recovery and understanding, has received significant attention in recent years. However, there is a lack of clarity on what literature on mining architectural information is available. Consequently, this may create difficulty for practitioners to understand and adopt the state-of-the-art research results, such as what approaches should be adopted to mine what architectural information in order to support architecting activities. It also hinders researchers from being aware of the challenges and remedies for the identified research gaps. We aim to identify, analyze, and synthesize the literature on mining architectural information in software repositories in terms of architectural information and sources mined, architecting activities supported, approaches and tools used, and challenges faced. A Systematic Mapping Study has been conducted on the literature published between January 2006 and December 2022. Of the 104 primary studies finally selected, 7 categories of architectural information have been mined, among which architectural description is the most mined architectural information; 11 categories of sources have been leveraged for mining architectural information, among which version control system (e.g., GitHub) is the most popular source; 11 architecting activities can be supported by the mined architectural information, among which architecture understanding is the most supported activity; 95 approaches and 56 tools were proposed and employed in mining architectural information; and 4 types of challenges in mining architectural information were identified. This SMS provides researchers with promising future directions and help practitioners be aware of what approaches and tools can be used to mine what architectural information from what sources to support various architecting activities.
翻訳日:2023-12-19 21:18:24 公開日:2023-12-16
# 連続学習におけるロバスト一般化の役割--転校の促進と忘れの軽減

The Role of Robust Generalization in Continual Learning: Better Transfer and Less Forgetting ( http://arxiv.org/abs/2211.11174v4 )

ライセンス: Link先を確認
Zenglin Shi, Ying Sun, Joo Hwee Lim, Mengmi Zhang(参考訳) 本稿では,その分布によらず,目に見えないデータを一般化し,知識を蓄積し,タスク間で知識を伝達するという目的から,タスクの連続を継続的に学習することを検討する。 私たちの知る限りでは、これらのすべての目的を同時に達成できる既存のテクニックはありません。 本稿では,連続学習(CL)におけるロバストな一般化の役割を解明する手法を提案する。 近年の研究では、頑健な一般化を示すために訓練されたモデルは、より一般化されるだけでなく、伝達性も向上し、より平坦な局所ミニマを見つける傾向にあることが示された。 これにより、CLにおける各タスクの堅牢な一般化を実現し、新しいタスクの学習を容易にし、以前に学習したタスクを忘れるリスクを減らすことができる。 そこで本研究では,各タスクの形状とテクスチャ表現の両方を学習し,堅牢な一般化を向上する,新しいオンライン形状・テクスチャ自己蒸留法を提案する。 大規模な実験により,本手法を既存のCL手法と簡単に組み合わせることで,一般化の促進,知識伝達の促進,忘れの軽減が図られた。 また,我々のアプローチはより平坦な局所的ミニマを見出し,clにおけるロバスト一般化の改善の重要性をさらに強調する。 提案手法は,上記のCL目標を同時に達成するための重要な一歩である。

This paper considers learning a sequence of tasks continually with the objectives of generalizing over unseen data regardless of its distribution, accumulating knowledge and transferring knowledge across tasks. To the best of our knowledge, no existing technique can accomplish all of these objectives simultaneously. This paper proposes such a technique by investigating the role of robust generalization in Continual Learning (CL). Recent findings show that models trained to exhibit robust generalization not only generalize better, but also demonstrate improved transferability and tend to find flatter local minima. This motivates us to achieve robust generalization in each task in CL, facilitating learning a new task and reducing the risk of forgetting previously learned tasks. To achieve this, we propose a new online shape-texture self-distillation (STSD) method that learns both shape and texture representations for each task, improving robust generalization. Extensive experiments demonstrate that our approach can be easily combined with existing CL methods to improve generalization, encourage knowledge transfer, and reduce forgetting. We also show that our approach finds flatter local minima, further highlighting the importance of improving robust generalization in CL. Our proposed technique is a significant step forward in achieving the aforementioned CL objectives simultaneously.
翻訳日:2023-12-19 21:16:51 公開日:2023-12-16
# 注意機構を用いた操舵角予測の精度向上とロバスト性

Enhancing Accuracy and Robustness of Steering Angle Prediction with Attention Mechanism ( http://arxiv.org/abs/2211.11133v3 )

ライセンス: Link先を確認
Swetha Nadella, Pramiti Barua, Jeremy C. Hagler, David J. Lamb, Qing Tian(参考訳) 本稿では,操舵角予測の自律運転タスクにおいて,ディープニューラルアーキテクチャ(resnetsとinceptionnets)の2つの最もポピュラーなファミリーについて検討する。 包括的に比較するため,kaggle sap データセットとカスタムデータセットの実験を行い,resnet と inceptionnet ファミリの両方の異なるモデルサイズについて慎重に検討した。 我々の導出したモデルは、操舵角度MSEの観点で最先端の結果を得ることができる。 この分析に加えて, ステアリング角度予測のためのアテンション機構を導入した。 この注意機構は、入力データの本質的要素にモデルの選択的焦点を深く掘り下げる助けとなった。 さらに,自律運転における安全性と堅牢性の重要性を認識し,攻撃に対するモデルのレジリエンスを評価した。

In this paper, we investigate the two most popular families of deep neural architectures (i.e., ResNets and InceptionNets) for the autonomous driving task of steering angle prediction. To ensure a comprehensive comparison, we conducted experiments on the Kaggle SAP dataset and custom dataset and carefully examined a range of different model sizes within both the ResNet and InceptionNet families. Our derived models can achieve state-of-the-art results in terms of steering angle MSE. In addition to this analysis, we introduced the attention mechanism to enhance steering angle prediction. This attention mechanism facilitated an in-depth exploration of the model's selective focus on essential elements within the input data. Furthermore, recognizing the importance of security and robustness in autonomous driving assessed the resilience of our models to adversarial attacks.
翻訳日:2023-12-19 21:16:27 公開日:2023-12-16
# NeighborTrack: 隣のトラックレットとのマッチングによる単一オブジェクト追跡の改善

NeighborTrack: Improving Single Object Tracking by Bipartite Matching with Neighbor Tracklets ( http://arxiv.org/abs/2211.06663v3 )

ライセンス: Link先を確認
Yu-Hsi Chen, Chien-Yao Wang, Cheng-Yun Yang, Hung-Shuo Chang, Youn-Long Lin, Yung-Yu Chuang, and Hong-Yuan Mark Liao(参考訳) 本研究では,追従対象の周辺情報を利用して単一対象追跡(SOT)結果の検証と改善を行う,NeighborTrackというポストプロセッサを提案する。 追加のデータやリトレーニングは不要だ。 代わりに、バックボーンSOTネットワークによって予測される信頼スコアを使用して、近隣情報を自動的に導き、この情報を使用して追跡結果を改善する。 隠されたターゲットを追跡する場合、その外観は信頼できない。 しかし,一般的なサイムズネットワークでは,高い信頼度を持つ隣人によって誤解される可能性があるため,信頼度を単独で読み取るだけで追跡対象が隠蔽されているかどうかを判断できないことが多い。 提案したNeighborTrackは、非閉鎖の隣人の情報を利用して、追跡対象を再確認し、対象が閉鎖された場合の偽追跡を低減する。 閉塞による影響を減少させるだけでなく、オブジェクトの出現変化によるトラッキング問題も修正する。 NeighborTrackは、SOTネットワークやポストプロセッシングメソッドに依存しない。 短期オブジェクト追跡で一般的に使用されるVOTチャレンジデータセットでは、Ocean、TransT、OSTrackの3つの有名なSOTネットワークを平均${1.92\%}$EAOと${2.11\%}$ロバストネスで改善する。 OSTrackをベースとした中長期追跡実験では、最先端の${72.25\%}$AUC on LaSOTと${75.7\%}$AO on GOT-10Kを実現している。 コードの重複はhttps://github.com/franktpmvu/neighbortrackにある。

We propose a post-processor, called NeighborTrack, that leverages neighbor information of the tracking target to validate and improve single-object tracking (SOT) results. It requires no additional data or retraining. Instead, it uses the confidence score predicted by the backbone SOT network to automatically derive neighbor information and then uses this information to improve the tracking results. When tracking an occluded target, its appearance features are untrustworthy. However, a general siamese network often cannot tell whether the tracked object is occluded by reading the confidence score alone, because it could be misled by neighbors with high confidence scores. Our proposed NeighborTrack takes advantage of unoccluded neighbors' information to reconfirm the tracking target and reduces false tracking when the target is occluded. It not only reduces the impact caused by occlusion, but also fixes tracking problems caused by object appearance changes. NeighborTrack is agnostic to SOT networks and post-processing methods. For the VOT challenge dataset commonly used in short-term object tracking, we improve three famous SOT networks, Ocean, TransT, and OSTrack, by an average of ${1.92\%}$ EAO and ${2.11\%}$ robustness. For the mid- and long-term tracking experiments based on OSTrack, we achieve state-of-the-art ${72.25\%}$ AUC on LaSOT and ${75.7\%}$ AO on GOT-10K. Code duplication can be found in https://github.com/franktpmvu/NeighborTrack.
翻訳日:2023-12-19 21:15:48 公開日:2023-12-16
# fairgen: 公正グラフ生成に向けて

FairGen: Towards Fair Graph Generation ( http://arxiv.org/abs/2303.17743v3 )

ライセンス: Link先を確認
Lecheng Zheng, Dawei Zhou, Hanghang Tong, Jiejun Xu, Yada Zhu, Jingrui He(参考訳) 過去数十年にわたり、ソーシャルネットワークからコンピュータネットワーク、遺伝子規制ネットワークからオンライントランザクションネットワークまで、さまざまなドメインにおける現実的なグラフの生成に力を入れてきた。 顕著な成功にもかかわらず、これらの作品の大部分は本質的に教師なしであり、通常、期待されたグラフ再構成の損失を最小限に抑えるように訓練されており、結果として生成されたグラフにおける表現格差、すなわち保護されたグループ(少数派)は目的にあまり貢献せず、体系的に高いエラーに苦しむことになる。 本稿では,ラベル情報とユーザの予測したパリティ制約を利用して,下流のマイニングタスクにグラフ生成を合わせることを目的とする。 特に,グラフ生成モデルの文脈における表現格差の研究から始める。 この格差を軽減するために,FairGen というグラフ生成モデルを提案する。 本モデルでは,'easy'概念から'hard'概念まで,保護群と非保護群の振る舞いを段階的に学習することにより,ラベル付きグラフ生成モジュールと公平表現学習モジュールを共同で学習する。 さらに,グラフ生成モデルに対する一般的なコンテキストサンプリング戦略を提案し,高い確率で各グループのコンテキスト情報を正確に把握できることが証明された。 ウェブベースのグラフを含む7つの実世界のデータセットの実験結果から、FairGen(1)は、9つのネットワーク特性にわたる最先端グラフ生成モデルに匹敵する性能、(2)生成されたグラフにおける表現格差の問題を軽減すること、(3)データ拡張による下流タスクの最大17%の性能向上を示す。

There have been tremendous efforts over the past decades dedicated to the generation of realistic graphs in a variety of domains, ranging from social networks to computer networks, from gene regulatory networks to online transaction networks. Despite the remarkable success, the vast majority of these works are unsupervised in nature and are typically trained to minimize the expected graph reconstruction loss, which would result in the representation disparity issue in the generated graphs, i.e., the protected groups (often minorities) contribute less to the objective and thus suffer from systematically higher errors. In this paper, we aim to tailor graph generation to downstream mining tasks by leveraging label information and user-preferred parity constraints. In particular, we start from the investigation of representation disparity in the context of graph generative models. To mitigate the disparity, we propose a fairness-aware graph generative model named FairGen. Our model jointly trains a label-informed graph generation module and a fair representation learning module by progressively learning the behaviors of the protected and unprotected groups, from the `easy' concepts to the `hard' ones. In addition, we propose a generic context sampling strategy for graph generative models, which is proven to be capable of fairly capturing the contextual information of each group with a high probability. Experimental results on seven real-world data sets, including web-based graphs, demonstrate that FairGen (1) obtains performance on par with state-of-the-art graph generative models across nine network properties, (2) mitigates the representation disparity issues in the generated graphs, and (3) substantially boosts the model performance by up to 17% in downstream tasks via data augmentation.
翻訳日:2023-12-19 21:07:38 公開日:2023-12-16
# よりソフトなクロスモーダルアライメントでCLIPが強化

SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger ( http://arxiv.org/abs/2303.17561v2 )

ライセンス: Link先を確認
Yuting Gao, Jinfeng Liu, Zihan Xu, Tong Wu Enwei Zhang, Wei Liu, Jie Yang, Ke Li, Xing Sun(参考訳) 前年のビエンニアムの間、視覚言語の事前学習はいくつかの下流タスクで注目すべき成功を収めた。 それでも、ペアが完全に排他的な高品質な画像テキストペアを取得することは難しい課題であり、一般的に使用されるデータセットにはノイズが存在する。 この問題に対処するために,厳密な1対1制約を緩和し,細粒なモード内自己相似性から生じる軟化ターゲットを導入することで,軟化した相互アライメントを実現する,新しいアプローチであるSoftCLIPを提案する。 モード内指導は、2つのペアがいくつかの局所的な類似点を持ち、2つのモダリティ間の多対多関係をモデル化できることを示す。 さらに, ソフト化対象分布において正の静止が支配的であるため, 分布中の負を解離させ, クロスモーダル学習における負の関係性をさらに高める。 大規模な実験はSoftCLIPの有効性を示す。 特にImageNetのゼロショット分類タスクでは、CC3M/CC12Mを事前トレーニングデータセットとして使用することで、CLIPベースラインよりも6.8%/7.2%の精度向上を実現している。

During the preceding biennium, vision-language pre-training has achieved noteworthy success on several downstream tasks. Nevertheless, acquiring high-quality image-text pairs, where the pairs are entirely exclusive of each other, remains a challenging task, and noise exists in the commonly used datasets. To address this issue, we propose SoftCLIP, a novel approach that relaxes the strict one-to-one constraint and achieves a soft cross-modal alignment by introducing a softened target, which is generated from the fine-grained intra-modal self-similarity. The intra-modal guidance is indicative to enable two pairs have some local similarities and model many-to-many relationships between the two modalities. Besides, since the positive still dominates in the softened target distribution, we disentangle the negatives in the distribution to further boost the relation alignment with the negatives in the cross-modal learning. Extensive experiments demonstrate the effectiveness of SoftCLIP. In particular, on ImageNet zero-shot classification task, using CC3M/CC12M as pre-training dataset, SoftCLIP brings a top-1 accuracy improvement of 6.8%/7.2% over the CLIP baseline.
翻訳日:2023-12-19 21:07:08 公開日:2023-12-16
# UPRISE: ゼロショット評価を改善するユニバーサルプロンプト検索

UPRISE: Universal Prompt Retrieval for Improving Zero-Shot Evaluation ( http://arxiv.org/abs/2303.08518v4 )

ライセンス: Link先を確認
Daixuan Cheng, Shaohan Huang, Junyu Bi, Yuefeng Zhan, Jianfeng Liu, Yujing Wang, Hao Sun, Furu Wei, Denvy Deng, Qi Zhang(参考訳) 大きな言語モデル(LLM)はその優れた能力で人気があるが、モデル固有の微調整やタスク固有のプロンプトエンジニアリングの必要性は、その一般化を妨げる可能性がある。 本稿では,与えられたゼロショットタスク入力のプロンプトを自動的に取得する軽量で多目的なレトリバーをチューニングするUPRISE(Universal Prompt Retrieval for Improving zero-Shot Evaluation)を提案する。 具体的には、クロスタスクおよびクロスモデルシナリオにおいて普遍性を実証する: 検索者は多様なタスクセットに基づいてチューニングされるが、見知らぬタスクタイプでテストされる; 小さな凍結LDM, GPT-Neo-2.7Bを使用して、検索をチューニングするが、BLOOM-7.1B, OPT-66B, GPT3-175B など、はるかに大きなスケールで検索する。 さらに, UPRISEはChatGPT実験において幻覚障害を緩和し, 最強のLDMでも改善する可能性が示唆された。 私たちのモデルとコードはhttps://github.com/microsoft/LMOps.comで公開されています。

Large Language Models (LLMs) are popular for their impressive abilities, but the need for model-specific fine-tuning or task-specific prompt engineering can hinder their generalization. We propose UPRISE (Universal Prompt Retrieval for Improving zero-Shot Evaluation), which tunes a lightweight and versatile retriever that automatically retrieves prompts for a given zero-shot task input. Specifically, we demonstrate universality in a cross-task and cross-model scenario: the retriever is tuned on a diverse set of tasks, but tested on unseen task types; we use a small frozen LLM, GPT-Neo-2.7B, for tuning the retriever, but test the retriever on different LLMs of much larger scales, such as BLOOM-7.1B, OPT-66B and GPT3-175B. Additionally, we show that UPRISE mitigates the hallucination problem in our experiments with ChatGPT, suggesting its potential to improve even the strongest LLMs. Our model and code are available at https://github.com/microsoft/LMOps.
翻訳日:2023-12-19 21:05:39 公開日:2023-12-16
# モーメントベース正定値部分多様体最適化の簡易化とディープラーニングへの応用

Simplifying Momentum-based Positive-definite Submanifold Optimization with Applications to Deep Learning ( http://arxiv.org/abs/2302.09738v9 )

ライセンス: Link先を確認
Wu Lin, Valentin Duruisseaux, Melvin Leok, Frank Nielsen, Mohammad Emtiyaz Khan, Mark Schmidt(参考訳) 運動量を持つリーマン部分多様体の最適化は、イテレートが部分多様体上に残ることを保証するために、しばしば難しい微分方程式を解く必要があるため、計算的に難しい。 ここでは、アフィン不変距離を持つスパースあるいは構造化対称正定行列のクラスに対するそのような困難を単純化する。 我々は、計量を動的に正規化するリーマン正規座標の一般化バージョンを提案し、その問題をユークリッド空間の非拘束問題へと局所的に変換する。 提案手法は,行列乗算のみを用いることで,構造化共分散の既存手法を単純化し,低精度深層学習のための行列逆フリー2ドル^\text{nd}$-orderオプティマイザを開発する。 コード: https://github.com/yorkerlin/structuredngd-dl

Riemannian submanifold optimization with momentum is computationally challenging because, to ensure that the iterates remain on the submanifold, we often need to solve difficult differential equations. Here, we simplify such difficulties for a class of sparse or structured symmetric positive-definite matrices with the affine-invariant metric. We do so by proposing a generalized version of the Riemannian normal coordinates that dynamically orthonormalizes the metric and locally converts the problem into an unconstrained problem in the Euclidean space. We use our approach to simplify existing approaches for structured covariances and develop matrix-inverse-free $2^\text{nd}$-order optimizers for deep learning with low precision by using only matrix multiplications. Code: https://github.com/yorkerlin/StructuredNGD-DL
翻訳日:2023-12-19 21:04:02 公開日:2023-12-16
# 因果推論による事前知識によるポイントクラウド補完

Point Cloud Completion Guided by Prior Knowledge via Causal Inference ( http://arxiv.org/abs/2305.17770v2 )

ライセンス: Link先を確認
Songxue Gao, Chuanqi Jiao, Ruidong Chen, Weijie Wang, Weizhi Nie(参考訳) ポイント・クラウド・コンプリート(point cloud completion)は、閉塞と視野角の制限による部分的観察からスキャナーが捉えた生のポイント・クラウドを回復することを目的としている。 これにより、グローバル機能が欠落している部分の完全な詳細を捉えられないため、詳細を復元することが難しくなる。 本稿では,記憶ネットワークを用いて形状先行を検索し,欠落した形状情報を補足幾何情報としてフィルタリングし,ポイントクラウド完成を支援するために因果推論モデルを設計するpoint-pcという,ポイントクラウド完成タスクに対する新しいアプローチを提案する。 具体的には,完全な形状特徴と対応する形状を ``key-value''' ペアの形式で格納するメモリ操作機構を提案する。 部分入力から類似した形状を取り出すために,不完全形状の特徴を完全形状特徴の領域に伝達するために,コントラスト学習に基づく事前学習手法を適用する。 ShapeNet-55、PCN、KITTIデータセットの実験結果から、Point-PCは最先端の手法よりも優れていることが示された。

Point cloud completion aims to recover raw point clouds captured by scanners from partial observations caused by occlusion and limited view angles. This makes it hard to recover details because the global feature is unlikely to capture the full details of all missing parts. In this paper, we propose a novel approach to point cloud completion task called Point-PC, which uses a memory network to retrieve shape priors and designs a causal inference model to filter missing shape information as supplemental geometric information to aid point cloud completion. Specifically, we propose a memory operating mechanism where the complete shape features and the corresponding shapes are stored in the form of ``key-value'' pairs. To retrieve similar shapes from the partial input, we also apply a contrastive learning-based pre-training scheme to transfer the features of incomplete shapes into the domain of complete shape features. Experimental results on the ShapeNet-55, PCN, and KITTI datasets demonstrate that Point-PC outperforms the state-of-the-art methods.
翻訳日:2023-12-19 20:57:51 公開日:2023-12-16
# キャッシュ対応スパース拡散推論によるテキスト・画像編集の高速化

Accelerating Text-to-image Editing via Cache-enabled Sparse Diffusion Inference ( http://arxiv.org/abs/2305.17423v2 )

ライセンス: Link先を確認
Zihao Yu, Haoyang Li, Fangcheng Fu, Xupeng Miao, Bin Cui(参考訳) 近年の拡散モデルの成功により,テキスト・画像生成が普及し,幅広い応用が達成されている。 その中でも、テキスト・ツー・イメージの編集や連続的なテキスト・ツー・イメージ生成は、多くの注目を集め、生成した画像の品質を向上させる可能性がある。 ユーザは、何ラウンドかの拡散推論のために入力テキスト記述を微調整することで、生成した画像をわずかに編集したいと考えるのが一般的です。 しかし、そのような画像編集プロセスは、GPUアクセラレーターを使用しても、既存の多くの拡散モデルの低推論効率に悩まされる。 この問題を解決するために,キャッシュ型スパース拡散モデル推論エンジンであるFast Image Semantically Edit (FISEdit)を導入する。 このアプローチの背後にある重要な直感は、入力テキストのマイナーな変更と出力画像の影響を受ける領域の間のセマンティックマッピングを利用することです。 テキスト編集ステップ毎に、FISEditは影響を受ける画像領域を自動で識別し、キャッシュされた未変更領域の特徴マップを利用して推論プロセスを高速化する。 大規模な実験結果によると、FISEditはNVIDIA TITAN RTXとA100 GPUの既存の方法よりも3.4\times$と4.4\times$で、より満足できる画像を生成することができる。

Due to the recent success of diffusion models, text-to-image generation is becoming increasingly popular and achieves a wide range of applications. Among them, text-to-image editing, or continuous text-to-image generation, attracts lots of attention and can potentially improve the quality of generated images. It's common to see that users may want to slightly edit the generated image by making minor modifications to their input textual descriptions for several rounds of diffusion inference. However, such an image editing process suffers from the low inference efficiency of many existing diffusion models even using GPU accelerators. To solve this problem, we introduce Fast Image Semantically Edit (FISEdit), a cached-enabled sparse diffusion model inference engine for efficient text-to-image editing. The key intuition behind our approach is to utilize the semantic mapping between the minor modifications on the input text and the affected regions on the output image. For each text editing step, FISEdit can automatically identify the affected image regions and utilize the cached unchanged regions' feature map to accelerate the inference process. Extensive empirical results show that FISEdit can be $3.4\times$ and $4.4\times$ faster than existing methods on NVIDIA TITAN RTX and A100 GPUs respectively, and even generates more satisfactory images.
翻訳日:2023-12-19 20:57:31 公開日:2023-12-16
# union subgraphニューラルネットワーク

Union Subgraph Neural Networks ( http://arxiv.org/abs/2305.15747v2 )

ライセンス: Link先を確認
Jiaxing Xu, Aihu Zhang, Qingtian Bian, Vijay Prakash Dwivedi and Yiping Ke(参考訳) グラフニューラルネットワーク(GNN)は多くのアプリケーション領域でグラフ表現学習に広く使われている。 バニラGNNの表現性は、1次元のWeisfeiler-Leman (1-WL) テストによって上界化され、反復的なメッセージパッシングを通じてルート木に作用する。 本稿では,新しいタイプのサブ構造から抽出した近接接続情報を注入することにより,GNNの強化を図る。 まず, 周辺地域に存在する様々な接続性を調査し, エッジの1ホップ近傍の全体像を捉えることができるunion subgraphと呼ばれるサブ構造を同定する。 次に、3つの優れた特性を持ち、結合部分グラフの高次接続性を効果的にエンコードできる最短パスベースの部分構造記述子を設計する。 エンコードされた隣接コネクティビティを注入することにより、非同型グラフの識別において、1-wlよりも厳密に強力であることが証明された、union subgraph neural network (unionsnn) という新しいモデルを提案する。 さらに、ユニオンサブグラフからのローカルエンコーディングは、任意のメッセージパッシングニューラルネットワーク(MPNN)やTransformerベースのモデルにプラグインとして注入することもできる。 グラフレベルとノードレベルの両方のタスクの18のベンチマークに関する広範な実験は、unionsnnが最先端のベースラインモデルよりも優れた計算効率を示している。 既存のモデルにローカルエンコーディングを注入することで、パフォーマンスを最大11.09\%向上させることができる。 私たちのコードはhttps://github.com/AngusMonroe/UnionSNNで利用可能です。

Graph Neural Networks (GNNs) are widely used for graph representation learning in many application domains. The expressiveness of vanilla GNNs is upper-bounded by 1-dimensional Weisfeiler-Leman (1-WL) test as they operate on rooted subtrees through iterative message passing. In this paper, we empower GNNs by injecting neighbor-connectivity information extracted from a new type of substructure. We first investigate different kinds of connectivities existing in a local neighborhood and identify a substructure called union subgraph, which is able to capture the complete picture of the 1-hop neighborhood of an edge. We then design a shortest-path-based substructure descriptor that possesses three nice properties and can effectively encode the high-order connectivities in union subgraphs. By infusing the encoded neighbor connectivities, we propose a novel model, namely Union Subgraph Neural Network (UnionSNN), which is proven to be strictly more powerful than 1-WL in distinguishing non-isomorphic graphs. Additionally, the local encoding from union subgraphs can also be injected into arbitrary message-passing neural networks (MPNNs) and Transformer-based models as a plugin. Extensive experiments on 18 benchmarks of both graph-level and node-level tasks demonstrate that UnionSNN outperforms state-of-the-art baseline models, with competitive computational efficiency. The injection of our local encoding to existing models is able to boost the performance by up to 11.09\%. Our code is available at https://github.com/AngusMonroe/UnionSNN.
翻訳日:2023-12-19 20:56:23 公開日:2023-12-16
# 負のフィードバックトレーニング:NVCIM DNN加速器のロバスト性向上のための新しい概念

Negative Feedback Training: A Novel Concept to Improve Robustness of NVCIM DNN Accelerators ( http://arxiv.org/abs/2305.14561v3 )

ライセンス: Link先を確認
Yifan Qin, Zheyu Yan, Wujie Wen, Xiaobo Sharon Hu and Yiyu Shi(参考訳) 非揮発性メモリ(NVM)デバイス上に構築されたCIM(Compute-in-Memory)アクセラレータは、そのデータ処理能力のおかげで、Deep Neural Network(DNN)推論の実行時のエネルギー効率とレイテンシが優れている。 しかしながら、NVMデバイスの確率的性質と固有のバリエーションは、しばしばDNN推論の性能劣化をもたらす。 DNNトレーニング中のこれらの非理想的デバイス動作の導入は、堅牢性を高めるが、欠点には、精度の向上、予測信頼性の低減、収束問題が含まれる。 これは、決定論的トレーニングと非決定論的デバイスバリエーションのミスマッチから生じており、そのようなトレーニングは、バリエーションを考慮してはいるものの、モデルの最終的なアウトプットのみに依存している。 本研究では,制御理論から着想を得て,ネットワークから取得したマルチスケールノイズ情報を活用した負フィードバックトレーニング(nft)という新しい学習概念を提案する。 我々は、OVF(Oriented Variational Forward)とIRS(Intermediate Representation Snapshot)の2つの特定NFTインスタンスを開発する。 広範な実験により,提案手法は推定精度が最大46.71%向上し,認識的不確実性が低減され,出力信頼度が向上し,収束確率が向上した。 その効果は,デバイス変動に対するdnnロバスト性向上におけるnftの概念の汎用性と実用性を強調している。

Compute-in-memory (CIM) accelerators built upon non-volatile memory (NVM) devices excel in energy efficiency and latency when performing Deep Neural Network (DNN) inference, thanks to their in-situ data processing capability. However, the stochastic nature and intrinsic variations of NVM devices often result in performance degradation in DNN inference. Introducing these non-ideal device behaviors during DNN training enhances robustness, but drawbacks include limited accuracy improvement, reduced prediction confidence, and convergence issues. This arises from a mismatch between the deterministic training and non-deterministic device variations, as such training, though considering variations, relies solely on the model's final output. In this work, we draw inspiration from the control theory and propose a novel training concept: Negative Feedback Training (NFT) leveraging the multi-scale noisy information captured from network. We develop two specific NFT instances, Oriented Variational Forward (OVF) and Intermediate Representation Snapshot (IRS). Extensive experiments show that our methods outperform existing state-of-the-art methods with up to a 46.71% improvement in inference accuracy while reducing epistemic uncertainty, boosting output confidence, and improving convergence probability. Their effectiveness highlights the generality and practicality of our NFT concept in enhancing DNN robustness against device variations.
翻訳日:2023-12-19 20:55:56 公開日:2023-12-16
# imad:画像提示マルチモーダル対話

IMAD: IMage-Augmented multi-modal Dialogue ( http://arxiv.org/abs/2305.10512v2 )

ライセンス: Link先を確認
Viktor Moskvoretskii, Anton Frolov, Denis Kuznetsov(参考訳) 現在,対話システムはテキストベースの通信処理において高い性能を達成している。 しかし、視覚情報を効果的に組み込んでいないため、大きな課題となっている。 さらに,対話生成にイメージを取り入れた既存のモデルは,画像自体の議論に重点を置いている。 提案手法は,対話の文脈でイメージを解釈するマルチモーダル対話システムにおいて,新たな視点を示す。 これにより、現在の対話システムの能力を拡張し、単一のモダリティ(テキスト)からマルチモダリティへ移行することを目指している。 しかし、このタスクには画像と対話コンテキストの両方を含む検証された英語データセットが欠如している。 そこで本研究では,マルチモーダル対話データセットを自動構築する2段階アプローチを提案する。 最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。 第2段階では、関連画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。 我々は、このアプローチと追加のラベル付けを使用して、画像拡張マルチモーダル対話データセット(imad: image augmented multi-modal dialogue dataset)を作成しました。 さらに,このデータセットに基づいてトレーニングされたベースラインモデルを提案する。

Currently, dialogue systems have achieved high performance in processing text-based communication. However, they have not yet effectively incorporated visual information, which poses a significant challenge. Furthermore, existing models that incorporate images in dialogue generation focus on discussing the image itself. Our proposed approach presents a novel perspective on multi-modal dialogue systems, which interprets the image in the context of the dialogue. By doing so, we aim to expand the capabilities of current dialogue systems and transition them from single modality (text) to multi-modality. However, there is a lack of validated English datasets that contain both images and dialogue contexts for this task. Thus, we propose a two-stage approach to automatically construct a multi-modal dialogue dataset. In the first stage, we utilize text-to-image similarity and sentence similarity to identify which utterances could be replaced with an image. In the second stage, we replace those utterances by selecting a subset of relevant images and filtering them with a visual question answering model. We used this approach, along with additional labeling, to create the IMage Augmented multi-modal Dialogue dataset (IMAD), which can serve as a validated dataset for this task. Furthermore, we propose a baseline model trained on this dataset, which outperforms model trained on the same data without images and BlenderBot.
翻訳日:2023-12-19 20:54:48 公開日:2023-12-16
# スパースグラフに対するメッセージパッシングアーキテクチャの最適性

Optimality of Message-Passing Architectures for Sparse Graphs ( http://arxiv.org/abs/2305.10391v2 )

ライセンス: Link先を確認
Aseem Baranwal and Kimon Fountoulakis and Aukosh Jagannath(参考訳) 本研究では,ノード数においてノードの期待度が$o(1)$である場合,固定次元漸近的構造,すなわちノード数が大きい間に特徴データの次元が固定される場合,特徴分割グラフのノード分類問題について検討する。 このようなグラフは通常、木のような局所的に知られている。 本稿では,ノード分類タスクにおけるベイズ最適性の概念を漸近的ベイズ最適性(asymptotic local bayes optimality)と呼び,ノード特徴とエッジ接続の任意の分布を持つ比較的一般的な統計データモデルに対するこの基準に従って最適分類器を計算する。 最適な分類器は、メッセージパスグラフニューラルネットワークアーキテクチャを用いて実装可能である。 次に,この分類器の一般化誤差を計算し,データ中の自然同定可能な信号対雑音比 (snrs) とよく検討された統計モデルを用いて,既存の学習法との比較を行った。 メッセージパッシングの最適なアーキテクチャは、低グラフ信号のレジームにおける標準mlpと高グラフ信号のレジームにおける典型的な畳み込みの間で補間される。 さらに,非漸近的な結果を示す。

We study the node classification problem on feature-decorated graphs in the sparse setting, i.e., when the expected degree of a node is $O(1)$ in the number of nodes, in the fixed-dimensional asymptotic regime, i.e., the dimension of the feature data is fixed while the number of nodes is large. Such graphs are typically known to be locally tree-like. We introduce a notion of Bayes optimality for node classification tasks, called asymptotic local Bayes optimality, and compute the optimal classifier according to this criterion for a fairly general statistical data model with arbitrary distributions of the node features and edge connectivity. The optimal classifier is implementable using a message-passing graph neural network architecture. We then compute the generalization error of this classifier and compare its performance against existing learning methods theoretically on a well-studied statistical model with naturally identifiable signal-to-noise ratios (SNRs) in the data. We find that the optimal message-passing architecture interpolates between a standard MLP in the regime of low graph signal and a typical convolution in the regime of high graph signal. Furthermore, we prove a corresponding non-asymptotic result.
翻訳日:2023-12-19 20:54:27 公開日:2023-12-16
# artgpt-4: 拡張アダプタを用いた視覚言語モデルの構築

ArtGPT-4: Towards Artistic-understanding Large Vision-Language Models with Enhanced Adapter ( http://arxiv.org/abs/2305.07490v3 )

ライセンス: Link先を確認
Zhengqing Yuan, Xinyi Wang, Kun Wang, Lichao Sun, Yanyang Ye(参考訳) 近年、大規模な言語モデルの進歩は目覚ましいもので、chatgptのようなモデルは多様な言語タスクにおいて非常に熟練している。 数十億のパラメータを持つ大規模なモデルの事前トレーニングは、主に効果的なトレーニングのための包括的スケールのデータセットが不足しているため、非常に難しい課題となる。 しかし、MiniGPT-4やLLaVAのようなモデルによって証明されたように、より少ないパラメータセットを用いて事前訓練されたモデルを微調整する方法を含む革新的な戦略が出現した。 様々な領域においてその可能性にもかかわらず、これらのモデルは芸術的イメージの理解に限られている。 彼らはまだ、アートイメージの複雑なニュアンスを完全に把握していないし、人間の知覚に類似した方法で、彼らが誘発した感情を客観的に表現している。 artgpt-4は、現代モデルの芸術的理解の欠如に対処するために考案されたビジョン言語モデルである。 ArtGPT-4は、わずか2時間でTesla A100デバイスを使用して画像テキストペアのトレーニングを受けた。 印象的なことに、モデルは芸術的理解で画像を描画し、それらが刺激する感情を伝え、人間の解釈を反映することができる。 さらに,視覚言語モデルの有効性を評価するために設計されたユニークなデータセットを提案する。 その後の評価では、artgpt-4はartemisおよびartemis-v2.0データセットで最先端のパフォーマンスを達成しただけでなく、本研究で導入された既存のベンチマークを上回り、プロのアーティストの記述を6ポイントスケールで0.15ポイント遅れている。 コードと事前訓練されたモデルはhttps://huggingface.co/Tyrannosaurus/ArtGPT-4でアクセス可能である。

In recent years, advancements in large language models have been remarkable, with models such as ChatGPT demonstrating exceptional proficiency in diverse linguistic tasks. The pre-training of large models with billions of parameters, poses a formidable challenge, primarily due to the scarcity of datasets of a commensurate scale for effective training. Nevertheless, innovative strategies have emerged, including methods to fine-tune these pre-trained models using fewer parameters set, as evidenced by models like MiniGPT-4 and LLaVA. Despite their potential in various domains, these models remain limited in their understanding of artistic imagery. They have yet to fully grasp the intricate nuances of art images or to provide an objective articulation of the emotions they evoke, in a manner akin to human perception. This work introduces ArtGPT-4, a pioneering large vision-language model tailored to address the deficiencies of contemporary models in artistic comprehension. ArtGPT-4 underwent training on image-text pairs utilizing a Tesla A100 device in a mere 2 hours, with a dataset comprising approximately 0.52M entries. Impressively, the model can render images with an artistic-understanding and convey the emotions they inspire, mirroring human interpretation. Additionally, this work presents a unique dataset designed to evaluate the efficacy of vision-language models. In subsequent evaluations, ArtGPT-4 not only achieved state-of-the-art performance on the ArtEmis and ArtEmis-v2.0 datasets but also exceeded the established benchmarks introduced in This study, lagging behind professional artists' descriptions by a negligible 0.15 points on a 6-point scale. The code and the pre-trained model are accessible in https://huggingface.co/Tyrannosaurus/ArtGPT-4.
翻訳日:2023-12-19 20:54:08 公開日:2023-12-16
# 意味:ゼロショットセマンティックセマンティックセグメンテーションのマルチドメイン評価

What a MESS: Multi-Domain Evaluation of Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2306.15521v3 )

ライセンス: Link先を確認
Benedikt Blumenstiel, Johannes Jakubik, Hilde K\"uhne and Michael V\"ossing(参考訳) セマンティックセグメンテーションは過去にも大幅に改善されてきたが、いまだに重要なラベル付けの取り組みがあり、訓練中に存在しないクラスへの限定的な一般化の問題がある。 この問題を解決するために、ゼロショットセマンティックセグメンテーションは大きな自己教師付き視覚言語モデルを使用し、ゼロショットを見えないクラスに転送することができる。 本研究では、医学、工学、地球観測、生物学、農業など、幅広い分野にまたがるデータセットを対象とした総合的なパフォーマンス分析を可能にする意味セグメンテーション(mess)の多領域評価のためのベンチマークを構築した。 そこで我々は,120のデータセットをレビューし,分類法を開発し,開発した分類法に従ってデータセットを分類した。 我々は、22のデータセットからなる代表サブセットを選択し、MESSベンチマークとして提案する。 本研究では,提案するメッセベンチマークの8つのモデルを評価し,ゼロショット転送モデルの性能特性を解析した。 ツールキットはhttps://github.com/blumenstiel/MESSで入手できる。

While semantic segmentation has seen tremendous improvements in the past, there are still significant labeling efforts necessary and the problem of limited generalization to classes that have not been present during training. To address this problem, zero-shot semantic segmentation makes use of large self-supervised vision-language models, allowing zero-shot transfer to unseen classes. In this work, we build a benchmark for Multi-domain Evaluation of Semantic Segmentation (MESS), which allows a holistic analysis of performance across a wide range of domain-specific datasets such as medicine, engineering, earth monitoring, biology, and agriculture. To do this, we reviewed 120 datasets, developed a taxonomy, and classified the datasets according to the developed taxonomy. We select a representative subset consisting of 22 datasets and propose it as the MESS benchmark. We evaluate eight recently published models on the proposed MESS benchmark and analyze characteristics for the performance of zero-shot transfer models. The toolkit is available at https://github.com/blumenstiel/MESS.
翻訳日:2023-12-19 20:45:59 公開日:2023-12-16
# 生成検索におけるランクの学習

Learning to Rank in Generative Retrieval ( http://arxiv.org/abs/2306.15222v2 )

ライセンス: Link先を確認
Yongqi Li, Nan Yang, Liang Wang, Furu Wei, Wenjie Li(参考訳) 生成的検索は、関連する節の識別子文字列を検索対象として生成することを目的とした、テキスト検索における有望な新しいパラダイムとして際立っている。 この生成パラダイムは、従来のスパースや密度の高い検索方法とは異なる、強力な生成言語モデルを利用する。 しかし、生成する学習のみが生成的検索に不十分である。 生成検索は、中間目標として関連する通路の識別子を生成し、予測された識別子を最終通過ランクリストに変換する。 自己回帰モデルの学習目標と所望のパスランキング目標との切り離しは学習ギャップにつながる。 このギャップを埋めるために,LTRGRと呼ばれる生成検索のための学習 to ランクフレームワークを提案する。 LTRGRは、生成的検索が通路を直接ランク付けすることを学び、階数損失により最終通路ランク付け対象に向かって自己回帰モデルを最適化する。 このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とし、推論段階に負担を加えることはない。 筆者らは3つの公開ベンチマーク実験を行い,LTRGRが生成的検索手法の最先端性能を達成することを示した。 コードとチェックポイントはhttps://github.com/liyongqi67/LTRGRで公開されている。

Generative retrieval stands out as a promising new paradigm in text retrieval that aims to generate identifier strings of relevant passages as the retrieval target. This generative paradigm taps into powerful generative language models, distinct from traditional sparse or dense retrieval methods. However, only learning to generate is insufficient for generative retrieval. Generative retrieval learns to generate identifiers of relevant passages as an intermediate goal and then converts predicted identifiers into the final passage rank list. The disconnect between the learning objective of autoregressive models and the desired passage ranking target leads to a learning gap. To bridge this gap, we propose a learning-to-rank framework for generative retrieval, dubbed LTRGR. LTRGR enables generative retrieval to learn to rank passages directly, optimizing the autoregressive model toward the final passage ranking target via a rank loss. This framework only requires an additional learning-to-rank training phase to enhance current generative retrieval systems and does not add any burden to the inference stage. We conducted experiments on three public benchmarks, and the results demonstrate that LTRGR achieves state-of-the-art performance among generative retrieval methods. The code and checkpoints are released at https://github.com/liyongqi67/LTRGR.
翻訳日:2023-12-19 20:45:40 公開日:2023-12-16
# エレファントとアルゴリズム: エレファントモニタリングにおけるAIの現状と今後の役割

Elephants and Algorithms: A Review of the Current and Future Role of AI in Elephant Monitoring ( http://arxiv.org/abs/2306.13803v2 )

ライセンス: Link先を確認
Leandra Brickson, Fritz Vollrath, Alexander J. Titus(参考訳) 人工知能(AI)と機械学習(ML)は、動物行動と保全戦略の理解を深める革命的な機会を提供する。 アフリカ保護地域の重要な種であるゾウを焦点として、我々はAIとMLの保護における役割を掘り下げる。 カメラ、マイク、ジオフォン、ドローン、衛星など、さまざまなセンサーから収集されるデータ量の増加を考えると、この膨大なデータの管理と解釈には課題がある。 新しいaiとml技術は、このプロセスを合理化するソリューションを提供し、見過ごされる可能性のある重要な情報を抽出するのに役立ちます。 本稿では,異なるAIによるモニタリング手法とゾウ保護改善の可能性に焦点を当てる。 AIの専門家と生態研究者の協力は、これらの革新的な技術を野生生物保護の強化に活用するために不可欠である。

Artificial intelligence (AI) and machine learning (ML) present revolutionary opportunities to enhance our understanding of animal behavior and conservation strategies. Using elephants, a crucial species in Africa's protected areas, as our focal point, we delve into the role of AI and ML in their conservation. Given the increasing amounts of data gathered from a variety of sensors like cameras, microphones, geophones, drones, and satellites, the challenge lies in managing and interpreting this vast data. New AI and ML techniques offer solutions to streamline this process, helping us extract vital information that might otherwise be overlooked. This paper focuses on the different AI-driven monitoring methods and their potential for improving elephant conservation. Collaborative efforts between AI experts and ecological researchers are essential in leveraging these innovative technologies for enhanced wildlife conservation, setting a precedent for numerous other species.
翻訳日:2023-12-19 20:45:22 公開日:2023-12-16
# 定常エッジバースト:自由粒子系から相互作用誘起現象へ

Steady-state edge burst: From free-particle systems to interaction-induced phenomena ( http://arxiv.org/abs/2306.08676v2 )

ライセンス: Link先を確認
Yu-Min Hu, Wen-Tan Xue, Fei Song, Zhong Wang(参考訳) 非エルミート皮膚効果と損失格子の想像的ギャップとの相互作用は、境界誘起力学現象であるエッジバーストをもたらす。 ここでは、この興味深い非エルミート力学現象が対応する開量子系の定常密度分布に正確にマッピングできることが分かる。 その結果、エッジバーストにおける損失確率のバルクエッジスケーリング関係は定常密度のそれと一致する。 さらに,二体損失が相互作用誘発性非エルミート皮膚効果を引き起こす多体オープンシステムモデルを提案する。 正の$p$法を用いて定常相関器のスケーリング関係の有効性を示す。 これらの結果は、相互作用によって引き起こされる多体非エルミート皮膚効果に特有の視点を与える。 我々の予測は最先端の実験プラットフォームで検証可能である。

The interplay between the non-Hermitian skin effect and the imaginary gap of lossy lattices results in the edge burst, a boundary-induced dynamical phenomenon in which an exceptionally large portion of particle loss occurs at the edge. Here, we find that this intriguing non-Hermitian dynamical phenomenon can be exactly mapped into the steady-state density distribution of a corresponding open quantum system. Consequently, the bulk-edge scaling relation of loss probability in the edge burst maps to that of steady-state density. Furthermore, we introduce a many-body open-system model in which the two-body loss generates an interaction-induced non-Hermitian skin effect. Using the positive-$P$ method, we demonstrate the validity of the scaling relation for steady-state correlators. These results provide a unique perspective on the interaction-induced many-body non-Hermitian skin effect. Our predictions are testable in state-of-the-art experimental platforms.
翻訳日:2023-12-19 20:44:01 公開日:2023-12-16
# Mesogeos: 地中海におけるデータ駆動型山火事モデリングのための多目的データセット

Mesogeos: A multi-purpose dataset for data-driven wildfire modeling in the Mediterranean ( http://arxiv.org/abs/2306.05144v2 )

ライセンス: Link先を確認
Spyros Kondylatos, Ioannis Prapas, Gustau Camps-Valls, Ioannis Papoutsis(参考訳) 地中海における山火事モデリングのための大規模多目的データセットであるMesogeosを紹介した。 メソゲオスは、山火事の運転者(気象学、植生、人的活動)を表す変数と、山火事の発火の歴史記録と17年間(2006-2022年)の火災地域を統合している。 クラウドフレンドリーな時空間データセット、すなわちデータキューブとして設計され、1km x 1km x 1日解像度のグリッド内のすべての変数を調和させる。 Datacube構造は、さまざまな山火事モデリングタスクで機械学習(ML)の使用を評価する機会を提供する。 この可能性を示すために,(1)短期的山火事危険予測と(2)着火点を考慮した最終焼損面積推定という2つのml対応データセットを抽出した。 各トラックにおけるモデルのパフォーマンスを評価するために、適切なメトリクスとベースラインを定義します。 データキューブを公開し、MLデータセットとモデルを作成するためのコードとともに、地中海における山火事の脅威の増大を緩和するための追加のトラックの実装を促進することをコミュニティに奨励します。

We introduce Mesogeos, a large-scale multi-purpose dataset for wildfire modeling in the Mediterranean. Mesogeos integrates variables representing wildfire drivers (meteorology, vegetation, human activity) and historical records of wildfire ignitions and burned areas for 17 years (2006-2022). It is designed as a cloud-friendly spatio-temporal dataset, namely a datacube, harmonizing all variables in a grid of 1km x 1km x 1-day resolution. The datacube structure offers opportunities to assess machine learning (ML) usage in various wildfire modeling tasks. We extract two ML-ready datasets that establish distinct tracks to demonstrate this potential: (1) short-term wildfire danger forecasting and (2) final burned area estimation given the point of ignition. We define appropriate metrics and baselines to evaluate the performance of models in each track. By publishing the datacube, along with the code to create the ML datasets and models, we encourage the community to foster the implementation of additional tracks for mitigating the increasing threat of wildfires in the Mediterranean.
翻訳日:2023-12-19 20:42:56 公開日:2023-12-16
# BetaZero:学習近似を用いた長距離PMDPの信頼状態計画

BetaZero: Belief-State Planning for Long-Horizon POMDPs using Learned Approximations ( http://arxiv.org/abs/2306.00249v3 )

ライセンス: Link先を確認
Robert J. Moss, Anthony Corso, Jef Caers, Mykel J. Kochenderfer(参考訳) 自律走行や炭素貯蔵や資源探査といった持続可能なエネルギー応用を含む現実的な計画問題は、最近部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化され、近似手法を用いて解決されている。 高次元のPOMDPを現実的に解くために、最先端の手法では、問題固有のヒューリスティックを用いたオンラインプランニングを用いて、計画の地平線を小さくし、問題を抽出できるようにする。 ヒューリスティックスを置き換える近似を学習するアルゴリズムは、最近、大規模な完全可観測領域で成功を収めている。 重要な洞察は、オンラインモンテカルロ木探索と、最適ポリシーと値関数のオフラインニューラルネットワーク近似の組み合わせである。 本研究では,この知見を部分的に観察した領域に持ち込み,高次元pomdpに対する信念状態計画アルゴリズムであるbetazeroを提案する。 BetaZeroは、時間軸問題におけるオンライン意思決定を可能にするために、ヒューリスティックスを置き換えるオフライン近似を学習する。 大規模部分観測可能な領域に固有の課題として,確率的環境への移行,検索予算の制限による行動分岐の優先順位付け,ネットワークへの入力としての信念の表現,などがあげられる。 限定的な検索情報の利用を形式化するために、我々は新しいQ重み付けポリシーベクターターゲットに対して訓練を行う。 文献および臨界鉱物探査における実世界の高次元問題に見いだされた様々な確立されたベンチマークPMDP上でBetaZeroをテストする。 実験によれば、betazeroは様々なタスクで最先端のpomdpソルバを上回っている。

Real-world planning problems, including autonomous driving and sustainable energy applications like carbon storage and resource exploration, have recently been modeled as partially observable Markov decision processes (POMDPs) and solved using approximate methods. To solve high-dimensional POMDPs in practice, state-of-the-art methods use online planning with problem-specific heuristics to reduce planning horizons and make the problems tractable. Algorithms that learn approximations to replace heuristics have recently found success in large-scale fully observable domains. The key insight is the combination of online Monte Carlo tree search with offline neural network approximations of the optimal policy and value function. In this work, we bring this insight to partially observed domains and propose BetaZero, a belief-state planning algorithm for high-dimensional POMDPs. BetaZero learns offline approximations that replace heuristics to enable online decision making in long-horizon problems. We address several challenges inherent in large-scale partially observable domains; namely challenges of transitioning in stochastic environments, prioritizing action branching with a limited search budget, and representing beliefs as input to the network. To formalize the use of all limited search information we train against a novel Q-weighted policy vector target. We test BetaZero on various well-established benchmark POMDPs found in the literature and a real-world, high-dimensional problem of critical mineral exploration. Experiments show that BetaZero outperforms state-of-the-art POMDP solvers on a variety of tasks.
翻訳日:2023-12-19 20:42:05 公開日:2023-12-16
# ゲームにおける学習は学習者に良いか?

Is Learning in Games Good for the Learners? ( http://arxiv.org/abs/2305.19496v2 )

ライセンス: Link先を確認
William Brown, Jon Schneider, Kiran Vodrahalli(参考訳) 2つのエージェント間の繰り返しゲームプレイにおける報酬と後悔のトレードオフに関する多くの質問について考察した。 これを容易にするために、非対称な後悔の制約を許容する$\textit{generalized equilibrium}$の概念を導入し、それぞれのエージェントと後悔の制約のペアに対して実現可能な値のポリトープを与える。 中心となる例として、あるエージェントがno-swapであり、もう一方のエージェントの後悔が制約されていない場合を挙げる。 これは、最適な値が一致する$\textit{stackelberg}$ equilibriaの拡張をキャプチャし、プレイヤーが非swap-regretアルゴリズムから非swap学習者(実際には、純粋なnash平衡を持たないゲームは、この形式である)に切り換えることで、その有用性を大幅に向上できる幅広いゲームが存在することを示す。 さらに,対戦相手のアルゴリズム選択の観点からのトレードオフを考えるために,一般化された平衡を用いる。 我々は、$\textit{some}$ no-regret学習者に対して得られる最大報酬の厳密な特徴を与えるが、これは一般的な「平均ベース」非regretアルゴリズムのクラスに対して取得可能な値から境界付けられたゲームクラスを示す。 最後に,ゲーム開始当初不明のエージェントによる繰り返しプレイによる報酬最適戦略の学習について考察する。 また、相手の学習アルゴリズムによるトレードオフを示す: stackelberg戦略は、クエリによって学習可能な任意のゲームに対して、任意のno-regretエージェント(および任意のno-$\textit{adaptive}$-regretエージェントで多項式時間で学習可能であり、任意のno-swap-regretエージェントに対して多項式時間で学習可能なゲームがあるが、平均ベースのno-regretエージェントに対して指数時間を必要とする。

We consider a number of questions related to tradeoffs between reward and regret in repeated gameplay between two agents. To facilitate this, we introduce a notion of $\textit{generalized equilibrium}$ which allows for asymmetric regret constraints, and yields polytopes of feasible values for each agent and pair of regret constraints, where we show that any such equilibrium is reachable by a pair of algorithms which maintain their regret guarantees against arbitrary opponents. As a central example, we highlight the case one agent is no-swap and the other's regret is unconstrained. We show that this captures an extension of $\textit{Stackelberg}$ equilibria with a matching optimal value, and that there exists a wide class of games where a player can significantly increase their utility by deviating from a no-swap-regret algorithm against a no-swap learner (in fact, almost any game without pure Nash equilibria is of this form). Additionally, we make use of generalized equilibria to consider tradeoffs in terms of the opponent's algorithm choice. We give a tight characterization for the maximal reward obtainable against $\textit{some}$ no-regret learner, yet we also show a class of games in which this is bounded away from the value obtainable against the class of common "mean-based" no-regret algorithms. Finally, we consider the question of learning reward-optimal strategies via repeated play with a no-regret agent when the game is initially unknown. Again we show tradeoffs depending on the opponent's learning algorithm: the Stackelberg strategy is learnable in exponential time with any no-regret agent (and in polynomial time with any no-$\textit{adaptive}$-regret agent) for any game where it is learnable via queries, and there are games where it is learnable in polynomial time against any no-swap-regret agent but requires exponential time against a mean-based no-regret agent.
翻訳日:2023-12-19 20:41:43 公開日:2023-12-16
# 普遍量子コンピューティングの能力決定:次元表現性による制御可能性の検証

Determining the ability for universal quantum computing: Testing controllability via dimensional expressivity ( http://arxiv.org/abs/2308.00606v2 )

ライセンス: Link先を確認
Fernando Gago-Encinas, Tobias Hartung, Daniel M. Reich, Karl Jansen, and Christiane P. Koch(参考訳) 演算子制御性(Operator Controllability)は、SU(N) において任意のユニタリを実装する能力であり、普遍量子コンピューティングの前提条件である。 制御可能性テストは、外部制御の数を減らすために量子デバイスの設計に使用できる。 しかし、その実用性は、量子ビット数に対する数値的な取り組みの指数的スケーリングによって妨げられている。 本稿では,パラメタライズド量子回路に基づくハイブリッド量子古典アルゴリズムを提案する。 制御性は,次元的表現性解析によって得られる独立パラメータの数に関連していることを示す。 最寄りの結合と局所制御を持つキュービットアレイへのアルゴリズムの適用を例示する。 本研究は,量子チップの資源効率設計への系統的アプローチを提供する。

Operator controllability refers to the ability to implement an arbitrary unitary in SU(N) and is a prerequisite for universal quantum computing. Controllability tests can be used in the design of quantum devices to reduce the number of external controls. Their practical use is hampered, however, by the exponential scaling of their numerical effort with the number of qubits. Here, we devise a hybrid quantum-classical algorithm based on a parametrized quantum circuit. We show that controllability is linked to the number of independent parameters, which can be obtained by dimensional expressivity analysis. We exemplify the application of the algorithm to qubit arrays with nearest-neighbour couplings and local controls. Our work provides a systematic approach to the resource-efficient design of quantum chips.
翻訳日:2023-12-19 20:34:34 公開日:2023-12-16
# ニューラルブラッドリー・テリーレーティング:比較による特性の定量化

Neural Bradley-Terry Rating: Quantifying Properties from Comparisons ( http://arxiv.org/abs/2307.13709v4 )

ライセンス: Link先を確認
Satoru Fujii(参考訳) 現実世界の多くのプロパティはメトリクスを持っておらず、数値的に観察できないため、学習が困難です。 この課題に対処するために、先行研究は主に、トレーニングのターゲットラベルとしてグレードされた人間のスコアを用いて、それらの特性を推定することに焦点を当てている。 一方,Bradley-Terryモデルに基づく評価アルゴリズムは,試合履歴に基づく選手の競争性を評価するために広く研究されている。 本稿では,未知アイテムの特性の定量化と評価を目的とした機械学習フレームワークであるNeural Bradley-Terry Rating (NBTR)を紹介する。 我々はBradley-Terryモデルをニューラルネットワーク構造にシームレスに統合する。 さらに,このアーキテクチャを不公平な非対称環境に一般化する。 実験により,NBTRが望ましい特性の定量化と推定に成功していることを示す。

Many properties in the real world doesn't have metrics and can't be numerically observed, making them difficult to learn. To deal with this challenging problem, prior works have primarily focused on estimating those properties by using graded human scores as the target label in the training. Meanwhile, rating algorithms based on the Bradley-Terry model are extensively studied to evaluate the competitiveness of players based on their match history. In this paper, we introduce the Neural Bradley-Terry Rating (NBTR), a novel machine learning framework designed to quantify and evaluate properties of unknown items. Our method seamlessly integrates the Bradley-Terry model into the neural network structure. Moreover, we generalize this architecture further to asymmetric environments with unfairness, a condition more commonly encountered in real-world settings. Through experimental analysis, we demonstrate that NBTR successfully learns to quantify and estimate desired properties.
翻訳日:2023-12-19 20:33:51 公開日:2023-12-16
# 古典ニューラルネットワークを用いた変分量子回路による絡み合いエントロピーの推定

Estimating Entanglement Entropy via Variational Quantum Circuits with Classical Neural Networks ( http://arxiv.org/abs/2307.13511v2 )

ライセンス: Link先を確認
Sangyun Lee, Hyukjoon Kwon, Jae Sung Lee(参考訳) エントロピーは、古典的領域と量子的領域を含む物理学と情報科学の両方において重要な役割を果たす。 本稿では,量子状態のフォン・ノイマンとレーニのエントロピーを推定するために,古典的ニューラルネットワーク(NN)と変分量子回路を組み合わせた新しいアプローチである量子ニューラルエントロピー推定器(QNEE)を提案する。 QNEEはエントロピーの正確な推定を提供し、入力密度行列の固有値と固有状態も得られる。 古典的NNの能力を活用して、QNEEは絡み合いエントロピーの変化に伴う量子系の異なる位相を分類することができる。 数値シミュレーションにより1D XXZ Heisenbergモデルに適用し,QNEEの有効性を示した。 特に、QNEEは相転移点付近のエンタングルメントエントロピーの推定において高い感度を示す。 我々はQNEEが量子エントロピー推定と位相分類の貴重なツールになることを期待している。

Entropy plays a crucial role in both physics and information science, encompassing classical and quantum domains. In this work, we present the Quantum Neural Entropy Estimator (QNEE), a novel approach that combines classical neural network (NN) with variational quantum circuits to estimate the von Neumann and Renyi entropies of a quantum state. QNEE provides accurate estimates of entropy while also yielding the eigenvalues and eigenstates of the input density matrix. Leveraging the capabilities of classical NN, QNEE can classify different phases of quantum systems that accompany the changes of entanglement entropy. Our numerical simulation demonstrates the effectiveness of QNEE by applying it to the 1D XXZ Heisenberg model. In particular, QNEE exhibits high sensitivity in estimating entanglement entropy near the phase transition point. We expect that QNEE will serve as a valuable tool for quantum entropy estimation and phase classification.
翻訳日:2023-12-19 20:33:35 公開日:2023-12-16
# 視覚前訓練はエンドツーエンド推論に役立つか?

Does Visual Pretraining Help End-to-End Reasoning? ( http://arxiv.org/abs/2307.08506v2 )

ライセンス: Link先を確認
Chen Sun, Calvin Luo, Xingyi Zhou, Anurag Arnab, Cordelia Schmid(参考訳) 我々は,視覚前訓練の助けを借りて,汎用ニューラルネットワークを用いて視覚推論のエンドツーエンド学習を実現することができるかを検討することを目的とする。 肯定的な結果は、明示的な視覚的抽象化(オブジェクト検出など)が視覚的推論の合成一般化に不可欠であるという共通の信念を否定し、視覚的認識と推論タスクを解決するニューラルネットワーク「ジェネラリスト」の可能性を確認する。 本稿では,各ビデオフレームをトランスフォーマーネットワークで小さなトークン集合に圧縮し,圧縮された時間文脈に基づいて残りのフレームを再構成する,シンプルで汎用的な自己教師型フレームワークを提案する。 再構成損失を最小限に抑えるため、ネットワークは各画像のコンパクトな表現を学習し、時間的文脈から時間的ダイナミクスとオブジェクト永続性を捉える必要がある。 視覚的推論のベンチマークであるCATERとACREで評価を行った。 終末視覚推論のための合成一般化を実現するためには,事前学習が不可欠である。 提案するフレームワークは,画像分類や明示的な物体検出を含む従来の教師付き事前学習を大きなマージンで上回っている。

We aim to investigate whether end-to-end learning of visual reasoning can be achieved with general-purpose neural networks, with the help of visual pretraining. A positive result would refute the common belief that explicit visual abstraction (e.g. object detection) is essential for compositional generalization on visual reasoning, and confirm the feasibility of a neural network "generalist" to solve visual recognition and reasoning tasks. We propose a simple and general self-supervised framework which "compresses" each video frame into a small set of tokens with a transformer network, and reconstructs the remaining frames based on the compressed temporal context. To minimize the reconstruction loss, the network must learn a compact representation for each image, as well as capture temporal dynamics and object permanence from temporal context. We perform evaluation on two visual reasoning benchmarks, CATER and ACRE. We observe that pretraining is essential to achieve compositional generalization for end-to-end visual reasoning. Our proposed framework outperforms traditional supervised pretraining, including image classification and explicit object detection, by large margins.
翻訳日:2023-12-19 20:33:20 公開日:2023-12-16
# 金融取引決済最適化における指数ビット削減

Exponential Qubit Reduction in Optimization for Financial Transaction Settlement ( http://arxiv.org/abs/2307.07193v2 )

ライセンス: Link先を確認
Elias X. Huber, Benjamin Y. L. Tan, Paul R. Griffin, Dimitris G. Angelakis(参考訳) 我々は, [tan et al., quantum 5, 454 (2021)] で提示されるクビット効率のよいエンコーディングを拡張し,規制された金融取引所が提供するデータから構築された金融取引決済問題に適用する。 本手法は線形不等式制約のある任意のqubo問題に直接適用できる。 従来提案した手法の拡張は,相関を符号化する量子ビット数の変化の単純化と,対称性を組み込んだ新しい種類の変分回路により,サンプリングオーバーヘッドを低減し,数値安定性を向上し,Hermitianオブザーバブルとしてのコスト目標表現を回復する。 また,実世界のデータの分散を低減し,連続スラック変数を置換する最適保存法を提案する。 16のトランザクションからなる問題に対して,本手法を標準QAOAに対してベンチマークし,競争結果を得た。 提案する変分 ansatz は全体として最適である。 実量子ハードウェア上で128トランザクションを扱う問題に対して,nisqハードウェアがバウンドした従来の結果よりも約2桁大きく対処することを示す。

We extend the qubit-efficient encoding presented in [Tan et al., Quantum 5, 454 (2021)] and apply it to instances of the financial transaction settlement problem constructed from data provided by a regulated financial exchange. Our methods are directly applicable to any QUBO problem with linear inequality constraints. Our extension of previously proposed methods consists of a simplification in varying the number of qubits used to encode correlations as well as a new class of variational circuits which incorporate symmetries, thereby reducing sampling overhead, improving numerical stability and recovering the expression of the cost objective as a Hermitian observable. We also propose optimality-preserving methods to reduce variance in real-world data and substitute continuous slack variables. We benchmark our methods against standard QAOA for problems consisting of 16 transactions and obtain competitive results. Our newly proposed variational ansatz performs best overall. We demonstrate tackling problems with 128 transactions on real quantum hardware, exceeding previous results bounded by NISQ hardware by almost two orders of magnitude.
翻訳日:2023-12-19 20:32:59 公開日:2023-12-16
# 効率的な逆トーンマッピングのための軽量改良残差ネットワーク

Lightweight Improved Residual Network for Efficient Inverse Tone Mapping ( http://arxiv.org/abs/2307.03998v2 )

ライセンス: Link先を確認
Liqi Xue, Tianyi Xu, Yongbao Song, Yan Liu, Lei Zhang, Xiantong Zhen, and Jun Xu(参考訳) HDR10テレビのようなディスプレイデバイスは、高ダイナミックレンジ(HDR)画像を可視化するために、私たちの日常生活でますます普及している。 しかし、インターネット上のメディア画像の大半は8ビット標準ダイナミックレンジ(SDR)フォーマットのままである。 したがって,SDR画像のHDR画像への逆トーンマッピング(ITM)による変換は,豊富なメディア画像の潜在能力を最大限に活用するために重要である。 しかし、既存のitm手法は通常、膨大な計算コストを必要とする複雑なネットワークアーキテクチャで開発されている。 本稿では,効率的なitmを実現するために,人気のある残差ブロックのパワーを高めることで,軽量な改良残差ネットワーク(irnet)を提案する。 具体的には,高精細HDR画像再構成のための多層構造を抽出・融合する改良された残留ブロック(IRB)を提案する。 3つのベンチマークデータセットの実験により、我々のIRNetはIMMタスクとSR-ITMタスクの両方で最先端のパフォーマンスを達成した。 コード、モデル、データはhttps://github.com/ThisisVikki/ITMベースラインで公開される。

The display devices like HDR10 televisions are increasingly prevalent in our daily life for visualizing high dynamic range (HDR) images. But the majority of media images on the internet remain in 8-bit standard dynamic range (SDR) format. Therefore, converting SDR images to HDR ones by inverse tone mapping (ITM) is crucial to unlock the full potential of abundant media images. However, existing ITM methods are usually developed with complex network architectures requiring huge computational costs. In this paper, we propose a lightweight Improved Residual Network (IRNet) by enhancing the power of popular residual block for efficient ITM. Specifically, we propose a new Improved Residual Block (IRB) to extract and fuse multi-layer features for fine-grained HDR image reconstruction. Experiments on three benchmark datasets demonstrate that our IRNet achieves state-of-the-art performance on both the ITM and joint SR-ITM tasks. The code, models and data will be publicly available at https://github.com/ThisisVikki/ITM-baseline.
翻訳日:2023-12-19 20:32:08 公開日:2023-12-16
# 非ガウス演算をもつ長距離高忠実連続可変量子鍵分布:正確な閉解

Long-distance high-fidelity continuous-variable quantum key distribution with non-Gaussian operations: An exact closed form solution ( http://arxiv.org/abs/2308.13859v2 )

ライセンス: Link先を確認
Khatereh Jafari, Mojtaba Golshani and Alireza Bahrampour(参考訳) 本稿では,ゼロ光子触媒 (ZPC) と量子シザー (QS) の存在下でのCV-QKDプロトコルの出力状態に対する閉形式式を導出する。 そして、この閉形式解に基づいて、直接探索アルゴリズムを用いて入力状態とQSパラメータの適切な値を求め、CV-QKDプロトコルの範囲と忠実度を大幅に向上させる。 純粋損失チャネルの特殊な場合、プロトコルの最大の範囲は、リピータレス量子通信の基本的な限界よりわずか6.5%少ない。 さらに, 余剰雑音の異なる値に対するプロトコルの検証により, 範囲と忠実度のトレードオフであり, プロトコル範囲をわずかに削減するコストで, 忠実度の高い値が得られることがわかった。

In this paper, we derive a closed form expression for the output state of a CV-QKD protocol in the presence of zero-photon catalysis (ZPC) and quantum scissor (QS). Then, based on this closed form solution, we use direct search algorithm to find the appropriate values of input state and QS parameters, which considerably enhance the range and the fidelity of a CV-QKD protocol. In the special case of pure loss channel, the largest range of the protocol is only 6.5% less than the fundamental limit of repeaterless quantum communication. In addition, examination of the protocol for different values of excess noise, reveals that their is a trade-off between range and fidelity, and high value of fidelity can be obtained at the cost of a slight reduction in protocol range.
翻訳日:2023-12-19 20:23:17 公開日:2023-12-16
# RIS-Enabled mmWave無線システムにおけるチャネル推定:変分推論手法

Channel Estimation in RIS-Enabled mmWave Wireless Systems: A Variational Inference Approach ( http://arxiv.org/abs/2308.13616v2 )

ライセンス: Link先を確認
Firas Fredj, Amal Feriani, Amine Mezghani, Ekram Hossain(参考訳) 再構成可能なインテリジェントサーフェス(RIS)支援システムにおけるチャネル推定は、RISの最適構成とユーザローカライゼーションなどの下流タスクに不可欠である。 RIS支援システムでは、ユーザ-RIS (UE-RIS) と RIS-BS (RIS-BS) の2つのチャネルを推定する。 文献では2つのアプローチが提案されている。 (i)BSでのトレーニング信号を用いて、2つのチャンネルを1つのチャンネルに分解して推定するカスケードチャネル推定 (II)各チャネルを受動的または半パッシブRIS設定で別々に推定する個別チャネル推定法。 本研究では,完全受動RIS支援ミリ波(mmWave)単一ユーザシングルインプットマルチアウトプット(SIMO)通信システムにおける個別チャネル推定問題について検討する。 まず, UE-RIS と RIS-BS の同時チャネル状態情報 (I-CSI) を共同で推定するために, 変動推論 (VI) アプローチを採用する。 特に、I-CSIの後続分布は、証拠の下位境界の最大化によって学習される。 しかし、各コヒーレンスブロック内の両方のリンクに対してI-CSIを推定すると、高いモバイルユーザを持つシナリオでRISを制御するためのシグナルのオーバーヘッドが高くなる。 そこで本研究では,i-csiを克服するue-risリンクの遅い統計量csiを推定する最初の手法を拡張する。 本手法では, RIS-BSチャネルのI-CSIとUE-RISチャネル共分散行列(CCM)を, 完全受動RIS支援システムにおけるアップリンク学習信号から直接推定する。 シミュレーションの結果,最大後方チャネル推定値を用いることで,完全なcsiでキャパシティに接近するキャパシティが得られることがわかった。

Channel estimation in reconfigurable intelligent surfaces (RIS)-aided systems is crucial for optimal configuration of the RIS and various downstream tasks such as user localization. In RIS-aided systems, channel estimation involves estimating two channels for the user-RIS (UE-RIS) and RIS-base station (RIS-BS) links. In the literature, two approaches are proposed: (i) cascaded channel estimation where the two channels are collapsed into a single one and estimated using training signals at the BS, and (ii) separate channel estimation that estimates each channel separately either in a passive or semi-passive RIS setting. In this work, we study the separate channel estimation problem in a fully passive RIS-aided millimeter-wave (mmWave) single-user single-input multiple-output (SIMO) communication system. First, we adopt a variational-inference (VI) approach to jointly estimate the UE-RIS and RIS-BS instantaneous channel state information (I-CSI). In particular, auxiliary posterior distributions of the I-CSI are learned through the maximization of the evidence lower bound. However, estimating the I-CSI for both links in every coherence block results in a high signaling overhead to control the RIS in scenarios with highly mobile users. Thus, we extend our first approach to estimate the slow-varying statistical CSI of the UE-RIS link overcoming the highly variant I-CSI. Precisely, our second method estimates the I-CSI of RIS-BS channel and the UE-RIS channel covariance matrix (CCM) directly from the uplink training signals in a fully passive RIS-aided system. The simulation results demonstrate that using maximum a posteriori channel estimation using the auxiliary posteriors can provide a capacity that approaches the capacity with perfect CSI.
翻訳日:2023-12-19 20:22:43 公開日:2023-12-16
# 双曲音声-視覚ゼロショット学習

Hyperbolic Audio-visual Zero-shot Learning ( http://arxiv.org/abs/2308.12558v2 )

ライセンス: Link先を確認
Jie Hong, Zeeshan Hayder, Junlin Han, Pengfei Fang, Mehrtash Harandi and Lars Petersson(参考訳) オーディオ視覚ゼロショット学習は、トレーニング中に存在しないクラスから、対応するオーディオシーケンスとビデオシーケンスのペアからなるサンプルを分類することを目的としている。 音声・視覚データの解析により,双曲変換を用いて曲率を考慮した幾何学的学習を行うことの潜在的な利点が示され,より複雑な階層的データ構造を探索することを目的とした。 提案手法では,双曲空間における映像特徴と音声特徴のクロスモダリティアライメントを組み込んだ新しい損失関数を用いる。 さらに,双曲射影に対する多重適応曲率の利用について検討する。 この課題に対する実験結果から, ゼロショット学習の双曲的アプローチは, VGGSound-GZSL, UCF-GZSL, ActivityNet-GZSLの3つのデータセットにおいて, それぞれ約3.0%, 7.0%, 5.3%の高調波平均(HM)改善を実現していることがわかった。

Audio-visual zero-shot learning aims to classify samples consisting of a pair of corresponding audio and video sequences from classes that are not present during training. An analysis of the audio-visual data reveals a large degree of hyperbolicity, indicating the potential benefit of using a hyperbolic transformation to achieve curvature-aware geometric learning, with the aim of exploring more complex hierarchical data structures for this task. The proposed approach employs a novel loss function that incorporates cross-modality alignment between video and audio features in the hyperbolic space. Additionally, we explore the use of multiple adaptive curvatures for hyperbolic projections. The experimental results on this very challenging task demonstrate that our proposed hyperbolic approach for zero-shot learning outperforms the SOTA method on three datasets: VGGSound-GZSL, UCF-GZSL, and ActivityNet-GZSL achieving a harmonic mean (HM) improvement of around 3.0%, 7.0%, and 5.3%, respectively.
翻訳日:2023-12-19 20:21:54 公開日:2023-12-16
# 授業増分学習についての一考察

Few-shot Class-incremental Learning: A Survey ( http://arxiv.org/abs/2308.06764v2 )

ライセンス: Link先を確認
Jinghua Zhang and Li Liu and Olli Silv\'en and Matti Pietik\"ainen and Dewen Hu(参考訳) 少数ショットのクラスインクリメンタルラーニング(fscil)は、機械学習(ml)において、以前の知識を忘れずにラベル付けされたトレーニングサンプルから新しいクラスのインクリメンタルラーニング(il)を必要とするため、ユニークな課題を示している。 この領域は近年進歩しているが、現在も活発な探検地である。 本稿では,FSCILの総合的かつ体系的なレビューを行うことを目的とする。 本研究は, FSCILの様々な側面を掘り下げ, 問題定義, 信頼性の低い経験的リスク最小化の課題, 安定性・可塑性ジレンマ, 一般的なスキーム, ILとFew-shot Learning(FSL)の関連問題について考察した。 さらに、ベンチマークデータセットと評価指標の概要も提供する。 さらに,Few-shot Class-incremental Classification (FSCIC)法と,Few-shot Class-incremental Object Detection (FSCIOD)法を,アンカーフリーおよびアンカーベースアプローチから導入する。 さらに, FSCIL の今後の研究の方向性として, さらなる研究の成果を挙げる。

Few-shot Class-Incremental Learning (FSCIL) presents a unique challenge in Machine Learning (ML), as it necessitates the Incremental Learning (IL) of new classes from sparsely labeled training samples without forgetting previous knowledge. While this field has seen recent progress, it remains an active exploration area. This paper aims to provide a comprehensive and systematic review of FSCIL. In our in-depth examination, we delve into various facets of FSCIL, encompassing the problem definition, the discussion of the primary challenges of unreliable empirical risk minimization and the stability-plasticity dilemma, general schemes, and relevant problems of IL and Few-shot Learning (FSL). Besides, we offer an overview of benchmark datasets and evaluation metrics. Furthermore, we introduce the Few-shot Class-incremental Classification (FSCIC) methods from data-based, structure-based, and optimization-based approaches and the Few-shot Class-incremental Object Detection (FSCIOD) methods from anchor-free and anchor-based approaches. Beyond these, we present several promising research directions within FSCIL that merit further investigation.
翻訳日:2023-12-19 20:18:45 公開日:2023-12-16
# コパイロットのユーザ中心セキュリティ評価

A User-centered Security Evaluation of Copilot ( http://arxiv.org/abs/2308.06587v2 )

ライセンス: Link先を確認
Owura Asare, Meiyappan Nagappan, N. Asokan(参考訳) 人工知能によって駆動されるコード生成ツールは、ディープラーニングと自然言語処理の進歩により、最近人気が高まっている。 これらのツールの普及は、コードの記述を容易にすることで開発者の生産性を向上させることができるため、二重刃の剣である可能性がある。 本稿では,コードセキュリティに関する強みと弱みをよりよく理解するために,githubのcopilotをユーザ中心で評価する。 我々は、潜在的に脆弱なソリューションを持つプログラミング問題(Copilotアシストなしで)を参加者が解決するユーザスタディを実施します。 ユーザ調査の主な目標は,copilotの使用が参加者のセキュリティパフォーマンスに与える影響を決定することだ。 参加者のセット(n=25)では、難しい問題に取り組む際に、Copilotへのアクセスがよりセキュアなソリューションであることがわかった。 より簡単な問題として、Copilotアクセスがソリューションのセキュリティに与える影響は見つからない。 また、特定の種類の脆弱性に対するCopilotの使用による不当な影響も観測しません。 結果から,Copilotには潜在的なセキュリティ上のメリットがあることが示唆されるが,セキュリティ要件に関する技術的に複雑な問題に対するコード生成ツールの使用の影響について,さらなる研究が保証されている。

Code generation tools driven by artificial intelligence have recently become more popular due to advancements in deep learning and natural language processing that have increased their capabilities. The proliferation of these tools may be a double-edged sword because while they can increase developer productivity by making it easier to write code, research has shown that they can also generate insecure code. In this paper, we perform a user-centered evaluation GitHub's Copilot to better understand its strengths and weaknesses with respect to code security. We conduct a user study where participants solve programming problems (with and without Copilot assistance) that have potentially vulnerable solutions. The main goal of the user study is to determine how the use of Copilot affects participants' security performance. In our set of participants (n=25), we find that access to Copilot accompanies a more secure solution when tackling harder problems. For the easier problem, we observe no effect of Copilot access on the security of solutions. We also observe no disproportionate impact of Copilot use on particular kinds of vulnerabilities. Our results indicate that there are potential security benefits to using Copilot, but more research is warranted on the effects of the use of code generation tools on technically complex problems with security requirements.
翻訳日:2023-12-19 20:18:21 公開日:2023-12-16
# ゲージ量子力学による量子行列幾何学の生成

Generating Quantum Matrix Geometry from Gauged Quantum Mechanics ( http://arxiv.org/abs/2310.01051v3 )

ライセンス: Link先を確認
Kazuki Hasebe(参考訳) 量子行列幾何学は、M(atrix)理論の基礎となる幾何学である。 レベル射影の概念を拡張して、コセット空間 $g/h$ の行列幾何学を生成する量子指向非可換スキームを提案する。 本手法は,高次元球面上のゲージ量子力学を応用し,未探索行列幾何学を披露するものである。 結果として生じる行列幾何学は$\it{pure}$ quantum Nambu geometriesとして表される: それらの非可換構造は、リー代数の従来の可換形式を通して捕獲し、量子ナムブ代数の導入を必要とする。 この行列幾何学は、ネストしたファジィ構造を特徴とする1次元より低い量子内部幾何学を具現化する。 この量子幾何の連続体極限は重なり合う古典多様体によって表されるが、それらの融合は元の量子幾何学を再現することはできない。 これらの量子ナムブ測地がヤン・ミルズ行列モデルにおいて新しい解を生み出し、既知のファジィ球解とは異なる物理的性質を示すことを示す。

Quantum matrix geometry is the underlying geometry of M(atrix) theory. Expanding upon the idea of level projection, we propose a quantum-oriented non-commutative scheme for generating the matrix geometry of the coset space $G/H$. We employ this novel scheme to unveil unexplored matrix geometries by utilizing gauged quantum mechanics on higher dimensional spheres. The resultant matrix geometries manifest as $\it{pure}$ quantum Nambu geometries: Their non-commutative structures elude capture through the conventional commutator formalism of Lie algebra, necessitating the introduction of the quantum Nambu algebra. This matrix geometry embodies a one-dimension-lower quantum internal geometry featuring nested fuzzy structures. While the continuum limit of this quantum geometry is represented by overlapping classical manifolds, their fuzzification cannot reproduce the original quantum geometry. We demonstrate how these quantum Nambu geometries give rise to novel solutions in Yang-Mills matrix models, exhibiting distinct physical properties from the known fuzzy sphere solutions.
翻訳日:2023-12-19 20:11:00 公開日:2023-12-16
# adarefiner: 適応フィードバックによる言語モデルの意思決定の洗練

AdaRefiner: Refining Decisions of Language Models with Adaptive Feedback ( http://arxiv.org/abs/2309.17176v2 )

ライセンス: Link先を確認
Wanpeng Zhang, Zongqing Lu(参考訳) 大規模言語モデル(LLM)は様々な領域で大きな成功を収めている。 しかし、複雑な意思決定タスクへのそれらの適用は、しばしば複雑なエンジニアリングや微調整を必要とするため、下流タスクの見当たらない問題と計算資源に対する厳しい要求に繋がる。 一方、強化学習(rl)は意思決定問題において有効であると認識されているが、オープンワールドゲームのような少ない報酬を伴う環境では苦戦している。 これらの課題を克服するために,LLMとRLフィードバックの相乗効果を高めるために設計された新しいフレームワークであるAdaRefinerを紹介する。 AdaRefinerの重要なコンポーネントは軽量なAdapter Language Model (LM)であり、RLエージェントからのフィードバックに基づいてタスクの理解を自動的に洗練する。 本手法は,LLMの一般化能力を維持し,下流タスクにおける意思決定能力を高めつつ,複雑な迅速なエンジニアリングと集中的なLLM微調整の必要性を軽減する。 オープンワールドゲームCrafterの22のタスクに対するAdaRefinerの実証的な評価は、特に高レベルで常識的なスキルを導くエージェントにおいて、その優れた効果を示している。 我々の研究は、RLフィードバックによるLLMの自動自己修正に貢献し、複雑な意思決定問題に対してより適応的で効率的なソリューションを提供する。

Large Language Models (LLMs) have demonstrated significant success across various domains. However, their application in complex decision-making tasks frequently necessitates intricate prompt engineering or fine-tuning, leading to challenges in unseen downstream tasks and heavy demands on computational resources. Meanwhile, Reinforcement Learning (RL) has been recognized as effective in decision-making problems but struggles in environments with sparse rewards, such as open-world games. To overcome these challenges, we introduce AdaRefiner, a novel framework designed to enhance the synergy between LLMs and RL feedback. The key component of AdaRefiner is a lightweight Adapter Language Model (LM), which automatically refines task comprehension based on feedback from RL agents. This method mitigates the need for intricate prompt engineering and intensive LLM fine-tuning while maintaining the LLMs' generalization abilities and enhancing their decision-making capabilities in downstream tasks. Empirical evaluations of AdaRefiner on 22 diverse tasks within the open-world game Crafter have demonstrated its superior effectiveness, especially in guiding agents towards higher-level and common-sense skills. Our work makes contributions to the automatic self-refinement of LLMs with RL feedback, offering a more adaptable and efficient solution for complex decision-making problems.
翻訳日:2023-12-19 20:10:40 公開日:2023-12-16
# マルチモーダル学習の計算的便益について

On the Computational Benefit of Multimodal Learning ( http://arxiv.org/abs/2309.13782v2 )

ライセンス: Link先を確認
Zhou Lu(参考訳) 人間の知覚は本質的に多様である。 同様に、機械は経験的世界を解釈するので、学習プロセスはマルチモーダルでなければならない。 最近の経験的マルチモーダル学習の成功は、このパラダイムを理解することの重要性を強調している。 しかし、マルチモーダル学習の堅固な理論基盤は、しばらくの間この分野を脱却してきた。 Lu (2023) による最近の研究は、マルチモーダル学習の非モーダル学習と比較して、より優れたサンプル複雑さを示しているが、別の基本的な疑問が残る。 この研究は、マルチモーダル学習の計算的利点に関する研究を開始する。 特定の条件下では、マルチモーダル学習は計算量で指数関数的に一助学習を上回ることが示される。 具体的には,マルチモーダルアルゴリズムによって多項式時間で解ける一様学習のためのnpハードな学習タスクを提案する。 我々の構成は、2つの半空間問題の交点に対する新しい修正に基づいている。

Human perception inherently operates in a multimodal manner. Similarly, as machines interpret the empirical world, their learning processes ought to be multimodal. The recent, remarkable successes in empirical multimodal learning underscore the significance of understanding this paradigm. Yet, a solid theoretical foundation for multimodal learning has eluded the field for some time. While a recent study by Lu (2023) has shown the superior sample complexity of multimodal learning compared to its unimodal counterpart, another basic question remains: does multimodal learning also offer computational advantages over unimodal learning? This work initiates a study on the computational benefit of multimodal learning. We demonstrate that, under certain conditions, multimodal learning can outpace unimodal learning exponentially in terms of computation. Specifically, we present a learning task that is NP-hard for unimodal learning but is solvable in polynomial time by a multimodal algorithm. Our construction is based on a novel modification to the intersection of two half-spaces problem.
翻訳日:2023-12-19 20:09:33 公開日:2023-12-16
# ウィグナーの友情シナリオと非古典的因果適合性, モノガミー関係, 微調整との関係

Relating Wigner's Friend scenarios to Nonclassical Causal Compatibility, Monogamy Relations, and Fine Tuning ( http://arxiv.org/abs/2309.12987v2 )

ライセンス: Link先を確認
Y\`il\`e Y\=ing, Marina Maciel Ansanelli, Andrea Di Biagio, Elie Wolfe, Eric Gama Cavalcanti(参考訳) 非古典的因果モデリングは、相対論的因果構造と忠実性に固執しながらベルの不平等の違反を説明するために開発された。 近年、ベルの定理より強いノーゴー定理が導出され、ウィグナーの友人の思考実験であるローカルフレンドリネス(LF)のノーゴー定理の拡張に基づいている。 ここでは、LFのノーゴー定理は、非古典的あるいは循環的因果的説明が考慮されたとしても、因果的モデリングの分野において重大な課題をもたらすことを示す。 まず,lf no-go 定理の重要な要素の一つである lf の不等式を統計的辺縁問題から生じる単元関係の特別な場合として再キャストし,非古典的因果的辺縁問題から生じる因果的不等式として lf 不等式を再キャストした。 一般に確率論(GPT)やさらにエキゾチックな理論のように、観測された事象の潜伏原因がポスト量子記述を許容している場合でも、LF不等式は因果モデリングの観点から現れる。 さらに、非古典的因果モデルでは、No Fine-Tuning原則に違反することなくLF不平等の違反を説明できないことを示す。 最後に、循環因果モデルに訴えても、これらの障害は克服できないことに留意する。

Nonclassical causal modeling was developed in order to explain violations of Bell inequalities while adhering to relativistic causal structure and faithfulness -- that is, avoiding fine-tuned causal explanations. Recently, a no-go theorem stronger than Bell's theorem has been derived, based on extensions of Wigner's friend thought experiment: the Local Friendliness (LF) no-go theorem. Here we show that the LF no-go theorem poses formidable challenges for the field of causal modeling, even when nonclassical and/or cyclic causal explanations are considered. We first recast the LF inequalities, one of the key elements of the LF no-go theorem, as special cases of monogamy relations stemming from a statistical marginal problem; we then further recast LF inequalities as causal compatibility inequalities stemming from a nonclassical causal marginal problem, for a causal structure implied by well-motivated causal-metaphysical assumptions. We find that the LF inequalities emerge from the causal modeling perspective even when allowing the latent causes of observed events to admit post-quantum descriptions, such as Generalised Probabilistic Theories (GPT) or even more exotic theories. We further prove that no nonclassical causal model can explain violations of LF inequalities without violating the No Fine-Tuning principle. Finally, we note that these obstacles cannot be overcome even if one were to appeal to cyclic causal models.
翻訳日:2023-12-19 20:09:16 公開日:2023-12-16
# マルチモーダル学習の理論

A Theory of Multimodal Learning ( http://arxiv.org/abs/2309.12458v2 )

ライセンス: Link先を確認
Zhou Lu(参考訳) 経験的世界に対する人間の知覚は、基礎となる物体の多様な外観や「モダリティ」を認識することを伴う。 哲学と認知科学におけるこの観点の長年の考察にもかかわらず、マルチモーダリティの研究は機械学習の分野において比較的過小評価されている。 しかし、現在のマルチモーダル機械学習の研究は経験的な実践に限られており、ヒューリスティックな議論以外の理論的な基礎を欠いている。 マルチモーダル学習の実践から興味深い発見は、複数のモーダルで訓練されたモデルが、単調なタスクであっても、微調整された単調なモデルよりも優れていることである。 本稿では,マルチモーダル学習アルゴリズムの一般化特性を研究することにより,この現象を説明する理論的枠組みを提案する。 マルチモーダル学習は、ユニモーダル学習に比べて優れた一般化が可能であり、最大で$o(\sqrt{n})$であり、ここでは$n$がサンプルサイズを表す。 このような利点は、モダリティ間の接続と不均一性の両方が存在するときに生じる。

Human perception of the empirical world involves recognizing the diverse appearances, or 'modalities', of underlying objects. Despite the longstanding consideration of this perspective in philosophy and cognitive science, the study of multimodality remains relatively under-explored within the field of machine learning. Nevertheless, current studies of multimodal machine learning are limited to empirical practices, lacking theoretical foundations beyond heuristic arguments. An intriguing finding from the practice of multimodal learning is that a model trained on multiple modalities can outperform a finely-tuned unimodal model, even on unimodal tasks. This paper provides a theoretical framework that explains this phenomenon, by studying generalization properties of multimodal learning algorithms. We demonstrate that multimodal learning allows for a superior generalization bound compared to unimodal learning, up to a factor of $O(\sqrt{n})$, where $n$ represents the sample size. Such advantage occurs when both connection and heterogeneity exist between the modalities.
翻訳日:2023-12-19 20:08:43 公開日:2023-12-16
# 信頼性のある皮膚科評価ベンチマークに向けて

Towards Reliable Dermatology Evaluation Benchmarks ( http://arxiv.org/abs/2309.06961v2 )

ライセンス: Link先を確認
Fabian Gr\"oger, Simone Lionetti, Philippe Gottfrois, Alvaro Gonzalez-Jimenez, Matthew Groh, Roxana Daneshjou, Labelling Consortium, Alexander A. Navarini, Marc Pouly(参考訳) デジタル皮膚学のベンチマークデータセットには、モデルパフォーマンス推定の信頼性を低下させる不正確性が含まれている。 我々は,以前のキュレーションから逃れた問題を特定するために,リソース効率の良いデータクリーニングプロトコルを提案する。 このプロトコルは既存のアルゴリズムクリーニング戦略を利用しており、直感的な停止基準によって終了する確認プロセスが続く。 複数の皮膚科医による確認に基づき,本研究は無関係なサンプルとほぼ重複を除去し,国際皮膚画像コラボレーションによるモデル評価のための6つの皮膚画像データセットにおけるラベル誤差の割合を推定する。 本稿では,モデル評価に使用すべきデータセット毎のファイルリストを改訂して公開する。 我々の研究は、デジタル皮膚科におけるより信頼できるパフォーマンス評価の道を開いた。

Benchmark datasets for digital dermatology unwittingly contain inaccuracies that reduce trust in model performance estimates. We propose a resource-efficient data-cleaning protocol to identify issues that escaped previous curation. The protocol leverages an existing algorithmic cleaning strategy and is followed by a confirmation process terminated by an intuitive stopping criterion. Based on confirmation by multiple dermatologists, we remove irrelevant samples and near duplicates and estimate the percentage of label errors in six dermatology image datasets for model evaluation promoted by the International Skin Imaging Collaboration. Along with this paper, we publish revised file lists for each dataset which should be used for model evaluation. Our work paves the way for more trustworthy performance assessment in digital dermatology.
翻訳日:2023-12-19 20:07:45 公開日:2023-12-16
# 停止に同意する: スパイクニューラルネットワークのアンサンブルによる信頼性の高いレイテンシ適応的意思決定

Agreeing to Stop: Reliable Latency-Adaptive Decision Making via Ensembles of Spiking Neural Networks ( http://arxiv.org/abs/2310.16675v2 )

ライセンス: Link先を確認
Jiechen Chen, Sangwoo Park, and Osvaldo Simeone(参考訳) スパイキングニューラルネットワーク(SNN)は、入力時系列の間隔を利用して分類などのタスクを効率的に実行できる反復モデルである。 入力時系列の複雑さの関数としてできるだけ早く決定が取られれば、さらなる効率向上が得られる。 推論を中止して意思決定を行う際の決定は、その決定の現在の正確さの見積に依存する必要がある。 先行研究は、不確実性を定量化し、SNNにおける適応レイテンシ決定をサポートするための原則的な方法として、共形予測(CP)の使用を実証した。 本稿では,停止決定の信頼性向上を目的としたアンサンブルモデルを実装することにより,SNNの不確実性定量化能力の向上を提案する。 直感的には、複数のモデルのアンサンブルは、現在の精度レベルが十分であることをほとんどのモデルが合意する時間を選択することで、いつより確実に停止するかを決定することができる。 提案手法は,アンサンブルモデルと異なる形式の情報プールに依存し,理論的信頼性を保証する。 特に,p変数プーリングによる変分推論に基づくアンサンブルは,信頼性を確保しつつ,最先端手法の平均遅延を著しく低減することを示す。

Spiking neural networks (SNNs) are recurrent models that can leverage sparsity in input time series to efficiently carry out tasks such as classification. Additional efficiency gains can be obtained if decisions are taken as early as possible as a function of the complexity of the input time series. The decision on when to stop inference and produce a decision must rely on an estimate of the current accuracy of the decision. Prior work demonstrated the use of conformal prediction (CP) as a principled way to quantify uncertainty and support adaptive-latency decisions in SNNs. In this paper, we propose to enhance the uncertainty quantification capabilities of SNNs by implementing ensemble models for the purpose of improving the reliability of stopping decisions. Intuitively, an ensemble of multiple models can decide when to stop more reliably by selecting times at which most models agree that the current accuracy level is sufficient. The proposed method relies on different forms of information pooling from ensemble models, and offers theoretical reliability guarantees. We specifically show that variational inference-based ensembles with p-variable pooling significantly reduce the average latency of state-of-the-art methods, while maintaining reliability guarantees.
翻訳日:2023-12-19 20:00:51 公開日:2023-12-16
# トポロジーアウェア不均質フェデレーションエッジ学習におけるノイズチャネル上の情報理論一般化解析

Information-Theoretic Generalization Analysis for Topology-aware Heterogeneous Federated Edge Learning over Noisy Channels ( http://arxiv.org/abs/2310.16407v2 )

ライセンス: Link先を確認
Zheshun Wu, Zenglin Xu, Hongfang Yu, Jie Liu(参考訳) エッジインテリジェンス(エッジインテリジェンス)の急速な成長に伴い、無線ネットワーク上でのフェデレーション学習(FL)の展開は、フェデレーションエッジラーニング(FEEL)と呼ばれる注目度が高まっている。 モバイル機器がノイズの多いチャネル上でモデルパラメータを送信し、多様な環境でデータを集めることは、トレーニングされたモデルの一般化に困難をもたらす。 さらに、デバイスはデバイス間通信を介して分散flを行うことができ、接続されたデバイスの通信トポロジーはモデルの一般化にも影響を及ぼす。 最近の理論的研究は、一般化分析を開発する際にこれらすべての効果をFEELに組み込むことを見落としている。 対照的に本研究は,データの不均一性とノイズチャネルの存在下でのトポロジー認識に対する情報論的一般化解析を提案する。 さらに,FedGMIR(Federated Global Mutual Information Reduction)と呼ばれる新たな正規化手法を提案する。 数値実験により,提案手法の有効性を検証し,その検証を行った。

With the rapid growth of edge intelligence, the deployment of federated learning (FL) over wireless networks has garnered increasing attention, which is called Federated Edge Learning (FEEL). In FEEL, both mobile devices transmitting model parameters over noisy channels and collecting data in diverse environments pose challenges to the generalization of trained models. Moreover, devices can engage in decentralized FL via Device-to-Device communication while the communication topology of connected devices also impacts the generalization of models. Most recent theoretical studies overlook the incorporation of all these effects into FEEL when developing generalization analyses. In contrast, our work presents an information-theoretic generalization analysis for topology-aware FEEL in the presence of data heterogeneity and noisy channels. Additionally, we propose a novel regularization method called Federated Global Mutual Information Reduction (FedGMIR) to enhance the performance of models based on our analysis. Numerical results validate our theoretical findings and provide evidence for the effectiveness of the proposed method.
翻訳日:2023-12-19 20:00:31 公開日:2023-12-16
# 行動認識のためのフローダイナミクス補正

Flow Dynamics Correction for Action Recognition ( http://arxiv.org/abs/2310.10059v2 )

ライセンス: Link先を確認
Lei Wang and Piotr Koniusz(参考訳) 様々な研究により、行動認識のパフォーマンスは抽出される動作の種類と人間の行動がどの程度正確に表現されているかに大きく依存していることが示された。 本稿では,これらの光学的流れから抽出した光学的流れと,短期および長期の運動力学の両方を捉えた特徴について検討する。 流れのダイナミクスを補正するために光流れの大きさ成分のパワー正規化を行い、微妙な動きや突然の動作を弱める。 我々は,光学的フローに依存する既存の動作認識モデルが,補正された光学的フローによって性能を向上できることを示す。 さらに,光学的フロー特徴のみを選択することで,修正されたフローダイナミクスを一般的なモデルに組み込むことにより,動作の異なる光フロー特徴にCNN機能を「翻訳」することで,HMDB-51,YUP++,MPII調理活動におけるきめ細かなアクション認識,大規模チャラードなどのいくつかのベンチマークにおいて,新たな最先端性能を実現することを示す。

Various research studies indicate that action recognition performance highly depends on the types of motions being extracted and how accurate the human actions are represented. In this paper, we investigate different optical flow, and features extracted from these optical flow that capturing both short-term and long-term motion dynamics. We perform power normalization on the magnitude component of optical flow for flow dynamics correction to boost subtle or dampen sudden motions. We show that existing action recognition models which rely on optical flow are able to get performance boosted with our corrected optical flow. To further improve performance, we integrate our corrected flow dynamics into popular models through a simple hallucination step by selecting only the best performing optical flow features, and we show that by 'translating' the CNN feature maps into these optical flow features with different scales of motions leads to the new state-of-the-art performance on several benchmarks including HMDB-51, YUP++, fine-grained action recognition on MPII Cooking Activities, and large-scale Charades.
翻訳日:2023-12-19 19:57:56 公開日:2023-12-16
# 大規模言語モデルにおけるファクタリティに関する調査:知識・検索・ドメイン特質

Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity ( http://arxiv.org/abs/2310.07521v3 )

ライセンス: Link先を確認
Cunxiang Wang, Xiaoze Liu, Yuanhao Yue, Xiangru Tang, Tianhang Zhang, Cheng Jiayang, Yunzhi Yao, Wenyang Gao, Xuming Hu, Zehan Qi, Yidong Wang, Linyi Yang, Jindong Wang, Xing Xie, Zheng Zhang, Yue Zhang(参考訳) 本稿では,Large Language Models (LLMs)における事実性の重要課題について述べる。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。 我々は、現実と矛盾するコンテンツを生成するLLMの確率として、現実問題を定義する。 まず、これらの不正確さの影響を掘り下げ、LCM出力における事実誤りによる潜在的な結果と課題を明らかにする。 その後,LLMが事実を保存・処理するメカニズムを解析し,事実誤りの主な原因を探究する。 この議論は、LLMの事実性を評価する方法論に移行し、主要な指標、ベンチマーク、研究を強調する。 特定のドメインに適したアプローチを含む,LLMの事実性向上戦略についても検討する。 独立LLMと外部データを利用するRetrieval-Augmented LLMの2つの主要なLLM構成に注目し、それらの固有の課題と潜在的な拡張について詳述する。 本調査は,llmの信頼性を高めることを目的とした構造化ガイドを提供する。

This survey addresses the crucial issue of factuality in Large Language Models (LLMs). As LLMs find applications across diverse domains, the reliability and accuracy of their outputs become vital. We define the Factuality Issue as the probability of LLMs to produce content inconsistent with established facts. We first delve into the implications of these inaccuracies, highlighting the potential consequences and challenges posed by factual errors in LLM outputs. Subsequently, we analyze the mechanisms through which LLMs store and process facts, seeking the primary causes of factual errors. Our discussion then transitions to methodologies for evaluating LLM factuality, emphasizing key metrics, benchmarks, and studies. We further explore strategies for enhancing LLM factuality, including approaches tailored for specific domains. We focus two primary LLM configurations standalone LLMs and Retrieval-Augmented LLMs that utilizes external data, we detail their unique challenges and potential enhancements. Our survey offers a structured guide for researchers aiming to fortify the factual reliability of LLMs.
翻訳日:2023-12-19 19:57:22 公開日:2023-12-16
# サブゲームカリキュラム学習によるゼロサムゲームにおけるマルチエージェント強化学習の高速化

Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with Subgame Curriculum Learning ( http://arxiv.org/abs/2310.04796v3 )

ライセンス: Link先を確認
Jiayu Chen, Zelai Xu, Yunfei Li, Chao Yu, Jiaming Song, Huazhong Yang, Fei Fang, Yu Wang, Yi Wu(参考訳) 多エージェント強化学習(MARL)を用いた複雑なゼロサムゲームにおけるナッシュ均衡(NE)の学習は,計算コストが極めて高い。 カリキュラム学習は学習を加速する効果的な方法であるが、カリキュラムを生成するための未探索の次元は、特定の状態から始めることで引き起こされるサブゲームの難易度である。 本稿では,ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。 エージェントを以前訪問したいくつかの状態にリセットすることで適応的な初期状態分布を採用し、素早くパフォーマンスを改善することができる。 この枠組みに基づいて,二乗距離からne値に近似したサブゲーム選択メトリックを導出し,さらにサブゲーム生成のための粒子ベースの状態サンプリング器を採用する。 これらのテクニックを統合することで,サブゲームカリキュラム学習フレームワークの実現を目指す,新たなアルゴリズムであるサブゲーム自動カリキュラム学習(sacl)が実現される。 SACLはMAPPOのような任意のMARLアルゴリズムと組み合わせることができる。 粒子世界の環境とGoogle Research Football環境の実験では、SACLはベースラインよりもはるかに強力なポリシーを生み出している。 挑戦的な隠れて見る四角い環境では、saclは4つの創発的なステージを全て生成し、mappoのサンプルの半分だけをセルフプレイで使用する。 プロジェクトのwebサイトはhttps://sites.google.com/view/sacl-rlにある。

Learning Nash equilibrium (NE) in complex zero-sum games with multi-agent reinforcement learning (MARL) can be extremely computationally expensive. Curriculum learning is an effective way to accelerate learning, but an under-explored dimension for generating a curriculum is the difficulty-to-learn of the subgames -- games induced by starting from a specific state. In this work, we present a novel subgame curriculum learning framework for zero-sum games. It adopts an adaptive initial state distribution by resetting agents to some previously visited states where they can quickly learn to improve performance. Building upon this framework, we derive a subgame selection metric that approximates the squared distance to NE values and further adopt a particle-based state sampler for subgame generation. Integrating these techniques leads to our new algorithm, Subgame Automatic Curriculum Learning (SACL), which is a realization of the subgame curriculum learning framework. SACL can be combined with any MARL algorithm such as MAPPO. Experiments in the particle-world environment and Google Research Football environment show SACL produces much stronger policies than baselines. In the challenging hide-and-seek quadrant environment, SACL produces all four emergent stages and uses only half the samples of MAPPO with self-play. The project website is at https://sites.google.com/view/sacl-rl.
翻訳日:2023-12-19 19:56:19 公開日:2023-12-16
# ポイントPEFT:3次元事前学習モデルのためのパラメータ効率の良いファインチューニング

Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models ( http://arxiv.org/abs/2310.03059v5 )

ライセンス: Link先を確認
Yiwen Tang, Ray Zhang, Zoey Guo, Xianzheng Ma, Dong Wang, Zhigang Wang, Bin Zhao, Xuelong Li(参考訳) 事前訓練された大規模モデルの人気は、言語、ビジョン、マルチモダリティといった様々な分野の下流タスクに革命をもたらした。 下流タスクの適応コストを最小限に抑えるために,言語および2次元画像事前訓練モデルに対して,パラメータ効率の良い細調整(PEFT)技術が多数提案されている。 しかし,3次元事前学習モデルのPEFT法はまだ未検討である。 この目的のために,最小限の学習パラメータを持つポイントクラウド事前学習モデルに適用するための新しいフレームワークであるPoint-PEFTを紹介する。 具体的には、事前トレーニングされた3dモデルでは、ほとんどのパラメータを凍結し、新たに追加されたpeftモジュールを、ポイント優先プロンプトとジオメトリ対応アダプタで構成される下流タスクでのみチューニングします。 Point-prior Promptは学習可能なプロンプトトークンの集合を採用し、ドメイン固有の知識を持つメモリバンクの構築を提案し、パラメータフリーの注意を使ってプロンプトトークンを強化する。 Geometry-Aware Adapterは、空間近傍の点雲の特徴を集約し、局所的な相互作用を通じてきめ細かい幾何学的情報をキャプチャすることを目的としている。 広範な実験により,ダウンストリームタスクの完全な微調整よりも優れた性能を実現することができたが,トレーニング可能なパラメータは5%に過ぎず,その効率と効果を示すことができた。 コードはhttps://github.com/Ivan-Tang-3D/PEFT-3Dで公開されている。

The popularity of pre-trained large models has revolutionized downstream tasks across diverse fields, such as language, vision, and multi-modality. To minimize the adaption cost for downstream tasks, many Parameter-Efficient Fine-Tuning (PEFT) techniques are proposed for language and 2D image pre-trained models. However, the specialized PEFT method for 3D pre-trained models is still under-explored. To this end, we introduce Point-PEFT, a novel framework for adapting point cloud pre-trained models with minimal learnable parameters. Specifically, for a pre-trained 3D model, we freeze most of its parameters, and only tune the newly added PEFT modules on downstream tasks, which consist of a Point-prior Prompt and a Geometry-aware Adapter. The Point-prior Prompt adopts a set of learnable prompt tokens, for which we propose to construct a memory bank with domain-specific knowledge, and utilize a parameter-free attention to enhance the prompt tokens. The Geometry-aware Adapter aims to aggregate point cloud features within spatial neighborhoods to capture fine-grained geometric information through local interactions. Extensive experiments indicate that our Point-PEFT can achieve better performance than the full fine-tuning on various downstream tasks, while using only 5% of the trainable parameters, demonstrating the efficiency and effectiveness of our approach. Code is released at https://github.com/Ivan-Tang-3D/PEFT-3D.
翻訳日:2023-12-19 19:55:57 公開日:2023-12-16
# レイアウト画像合成におけるオブジェクトコヒーレンス向上

Enhancing Object Coherence in Layout-to-Image Synthesis ( http://arxiv.org/abs/2311.10522v3 )

ライセンス: Link先を確認
Yibin Wang and Weizhong Zhang and Jianwei Zheng and Cheng Jin(参考訳) レイアウトから画像への合成は条件付き画像生成における新しい技術である。 複雑なシーンを生成することを目的としており、ユーザーはシーン内のオブジェクトのレイアウトを細かく制御する必要がある。 しかし、意味的コヒーレンス(例:猫が花を見るかどうか)や物理的コヒーレンス(例:手とラケットを間違えてはならない)など、オブジェクトのコヒーレンスを制御することは依然として困難である。 本稿では,実効的グローバル・セマンティクス・フュージョン(gsf)と自己相似性特徴拡張モジュールを用いた新しい拡散モデルを提案する。 セマンティックコヒーレンスについては,イメージキャプションには画像内のオブジェクト内の意味的関係を定義するための豊富な情報が含まれていることを議論する。 本実験では, キャプションと生成画像間の相互アテンションを個別に扱うのではなく, レイアウト制約とセマンティックコヒーレンスを個別に扱うことで, レイアウト制約とセマンティックコヒーレンス要求から監督を解き放ち, 画像合成プロセスの指針として利用するために, GSFを開発した。 さらに、物理コヒーレンスを改善するために、各画素の生成プロセスに局所的な物理的コヒーレンスを明示的に統合する自己相似コヒーレンスアテンション(SCA)モジュールを開発した。 具体的には,コヒーレンス制約を符号化する自己相似写像を採用し,テキスト埋め込みからコヒーレント特徴を抽出する。 自己相似性マップの可視化を通じて、SCAの本質を探求し、信頼性の高い物理的コヒーレンスパターンのキャプチャだけでなく、複雑なテクスチャ生成の強化にも有効であることを示した。 画像生成品質と制御性の両方において,提案手法の優位性を示す実験を行った。

Layout-to-image synthesis is an emerging technique in conditional image generation. It aims to generate complex scenes, where users require fine control over the layout of the objects in a scene. However, it remains challenging to control the object coherence, including semantic coherence (e.g., the cat looks at the flowers or not) and physical coherence (e.g., the hand and the racket should not be misaligned). In this paper, we propose a novel diffusion model with effective global semantic fusion (GSF) and self-similarity feature enhancement modules to guide the object coherence for this task. For semantic coherence, we argue that the image caption contains rich information for defining the semantic relationship within the objects in the images. Instead of simply employing cross-attention between captions and generated images, which addresses the highly relevant layout restriction and semantic coherence separately and thus leads to unsatisfying results shown in our experiments, we develop GSF to fuse the supervision from the layout restriction and semantic coherence requirement and exploit it to guide the image synthesis process. Moreover, to improve the physical coherence, we develop a Self-similarity Coherence Attention (SCA) module to explicitly integrate local contextual physical coherence into each pixel's generation process. Specifically, we adopt a self-similarity map to encode the coherence restrictions and employ it to extract coherent features from text embedding. Through visualization of our self-similarity map, we explore the essence of SCA, revealing that its effectiveness is not only in capturing reliable physical coherence patterns but also in enhancing complex texture generation. Extensive experiments demonstrate the superiority of our proposed method in both image generation quality and controllability.
翻訳日:2023-12-19 19:50:02 公開日:2023-12-16
# 確率的保証と実践による連続pomdp計画における複雑観測モデルの簡略化

Simplifying Complex Observation Models in Continuous POMDP Planning with Probabilistic Guarantees and Practice ( http://arxiv.org/abs/2311.07745v2 )

ライセンス: Link先を確認
Idan Lev-Yehudi, Moran Barenboim, Vadim Indelman(参考訳) カメラ画像のような高次元かつ連続的な観察で部分的に観測可能なマルコフ決定プロセス(POMDP)を解くことは、多くの実生活ロボットや計画問題に必要である。 近年の研究では、観測モデルとして機械学習確率モデルが提案されているが、オンライン展開には計算コストが大きすぎる。 我々は,ソリューションの品質に関する正式な保証を維持しつつ,簡易な観測モデルを計画に使用することがどのような意味を持つのかという問題に対処する。 我々の主な貢献は、単純化モデルの統計総変動距離に基づく新しい確率的境界である。 提案手法は,PMDP値w.r.t.オリジナルモデルと経験的計画値と簡易モデルとのバウンドを示し,近年の粒子信頼性MDP濃度バウンドの結果を一般化した。 私たちの計算はオフラインとオンラインの2つに分けることができ、計画中にコストのかかるモデルに全くアクセスすることなく正式な保証を得ることができます。 最後に,既存の連続オンラインpomdpソルバのルーチンにバウンドをどのように統合するかをシミュレーションで示す。

Solving partially observable Markov decision processes (POMDPs) with high dimensional and continuous observations, such as camera images, is required for many real life robotics and planning problems. Recent researches suggested machine learned probabilistic models as observation models, but their use is currently too computationally expensive for online deployment. We deal with the question of what would be the implication of using simplified observation models for planning, while retaining formal guarantees on the quality of the solution. Our main contribution is a novel probabilistic bound based on a statistical total variation distance of the simplified model. We show that it bounds the theoretical POMDP value w.r.t. original model, from the empirical planned value with the simplified model, by generalizing recent results of particle-belief MDP concentration bounds. Our calculations can be separated into offline and online parts, and we arrive at formal guarantees without having to access the costly model at all during planning, which is also a novel result. Finally, we demonstrate in simulation how to integrate the bound into the routine of an existing continuous online POMDP solver.
翻訳日:2023-12-19 19:48:42 公開日:2023-12-16
# 人型開発データコーパスを用いた事前学習LLM

Pre-training LLMs using human-like development data corpus ( http://arxiv.org/abs/2311.04666v3 )

ライセンス: Link先を確認
Khushi Bhardwaj, Raj Sanjay Shah, Sashank Varma(参考訳) 事前学習された大規模言語モデル(llm)は、様々な言語推論と理解タスクで成功を収めている。 LLMの事前学習段階は、生のテキストデータの大規模なコーパスを見る。 BabyLMの共有タスクは、LLMの事前学習と人間の言語習得を比較し、13歳の子供たちが見るトークンの数は、LLMが見るトークンの数よりも小さい。 本研究では, 子どもが見るトークンの数とほぼ同じ数を用いて, 文脈表現の学習能力に基づいて, LLMの事前学習と評価を行う。 アーキテクチャの違い、エポック全体のパフォーマンス変化の評価、タスクの厳格で厳格なトラックに対する事前トレーニングメトリクスの報告といった、強力なベースラインを提供しています。 また、タスクオーガナイザが与えるRoBERTaベースラインを緩やかに複製して、ハイパーパラメータ選択と複製性に対するトレーニングロバスト性を観察する。 本報告では,厳密かつ厳密なトラックの提出の詳細について述べる。

Pre-trained Large Language Models (LLMs) have shown success in a diverse set of language inference and understanding tasks. The pre-training stage of LLMs looks at a large corpus of raw textual data. The BabyLM shared task compares LLM pre-training to human language acquisition, where the number of tokens seen by 13-year-old kids is magnitudes smaller than the number of tokens seen by LLMs. In this work, we pre-train and evaluate LLMs on their ability to learn contextual word representations using roughly the same number of tokens as seen by children. We provide a strong set of baselines; with different architectures, evaluation of changes in performance across epochs, and reported pre-training metrics for the strict small and strict tracks of the task. We also try to loosely replicate the RoBERTa baseline given by the task organizers to observe the training robustness to hyperparameter selection and replicability. We provide the submission details to the strict and strict-small tracks in this report.
翻訳日:2023-12-19 19:48:03 公開日:2023-12-16
# 汎用多段階クラスタリングに向けて:多視点自己蒸留

Towards Generalized Multi-stage Clustering: Multi-view Self-distillation ( http://arxiv.org/abs/2310.18890v2 )

ライセンス: Link先を確認
Jiatai Wang, Zhiwei Xu, Xin Wang, Tao Li(参考訳) 既存のマルチステージクラスタリング手法は、複数のビューからサルエントな特徴を独立に学習し、クラスタリングタスクを実行する。 特に、マルチビュークラスタリング(mvc)は、マルチビューまたはマルチモーダルシナリオで多くの注目を集めています。 MVCは、複数のビューから共通のセマンティクスと擬似ラベルを自己管理的に探索することを目的としています。 しかし、ノイズの多いデータと不適切な特徴学習によって制限され、そのようなクラスタリングパラダイムは、モデルが不正確な予測を生成するために間違った導出を行う過信な擬似ラベルを生成する。 したがって,多段クラスタリングにおける擬似ラベルの誤抽出を補正し,バイアスの蓄積を回避する方法が望ましい。 自信過剰な擬似ラベルの効果を緩和し,モデルの一般化能力を向上させるため,多視点自己蒸留(distilmvc)を導入してラベル分布の暗黒知識を蒸留する,新しい多段階深層mvcフレームワークを提案する。 具体的には、異なる階層における特徴部分空間において、対比学習を通じて複数の視点の共通意味論を探索し、ビュー間の相互情報を最大化することで擬似ラベルを得る。 さらに、教師ネットワークは、疑似ラベルを暗黒の知識に蒸留し、学生ネットワークを監督し、堅牢性を高めるための予測能力を向上させる。 実世界のマルチビューデータセットに関する広範囲な実験により,本手法は最先端手法よりも優れたクラスタリング性能を示す。

Existing multi-stage clustering methods independently learn the salient features from multiple views and then perform the clustering task. Particularly, multi-view clustering (MVC) has attracted a lot of attention in multi-view or multi-modal scenarios. MVC aims at exploring common semantics and pseudo-labels from multiple views and clustering in a self-supervised manner. However, limited by noisy data and inadequate feature learning, such a clustering paradigm generates overconfident pseudo-labels that mis-guide the model to produce inaccurate predictions. Therefore, it is desirable to have a method that can correct this pseudo-label mistraction in multi-stage clustering to avoid the bias accumulation. To alleviate the effect of overconfident pseudo-labels and improve the generalization ability of the model, this paper proposes a novel multi-stage deep MVC framework where multi-view self-distillation (DistilMVC) is introduced to distill dark knowledge of label distribution. Specifically, in the feature subspace at different hierarchies, we explore the common semantics of multiple views through contrastive learning and obtain pseudo-labels by maximizing the mutual information between views. Additionally, a teacher network is responsible for distilling pseudo-labels into dark knowledge, supervising the student network and improving its predictive capabilities to enhance the robustness. Extensive experiments on real-world multi-view datasets show that our method has better clustering performance than state-of-the-art methods.
翻訳日:2023-12-19 19:46:28 公開日:2023-12-16
# 能動学習のための競合アルゴリズム

A Competitive Algorithm for Agnostic Active Learning ( http://arxiv.org/abs/2310.18786v2 )

ライセンス: Link先を確認
Eric Price, Yihan Zhou(参考訳) いくつかの仮説クラスと入力分布では、アクティブ非依存学習は受動的学習よりも指数関数的に少ないサンプルを必要とする。 最も一般的なアクティブラーニングアルゴリズムは、不一致係数と呼ばれるパラメータを用いてその性能を表すが、これらのアルゴリズムはいくつかの入力で非効率であることが知られている。 我々は、任意の二進仮説クラスに対して最適なアルゴリズムと競合するアルゴリズムを入手し、$D_X$ over $X$に対して異なるアプローチをとる。 特に、もしアルゴリズムが$O(\eta)$エラーを得るために$m^*$クエリを使用できるなら、我々のアルゴリズムは$O(m^* \log |H|)$クエリを使って$O(\eta)$エラーを得る。 我々のアルゴリズムは dasgupta [2004] の分割ベースのアプローチの脈絡であり、これは実現可能な (\eta = 0$) 設定でも同様の結果が得られる。 また、我々のアルゴリズムの$O(\log |H|)$オーバヘッドよりもNPハードであることを示す。

For some hypothesis classes and input distributions, active agnostic learning needs exponentially fewer samples than passive learning; for other classes and distributions, it offers little to no improvement. The most popular algorithms for agnostic active learning express their performance in terms of a parameter called the disagreement coefficient, but it is known that these algorithms are inefficient on some inputs. We take a different approach to agnostic active learning, getting an algorithm that is competitive with the optimal algorithm for any binary hypothesis class $H$ and distribution $D_X$ over $X$. In particular, if any algorithm can use $m^*$ queries to get $O(\eta)$ error, then our algorithm uses $O(m^* \log |H|)$ queries to get $O(\eta)$ error. Our algorithm lies in the vein of the splitting-based approach of Dasgupta [2004], which gets a similar result for the realizable ($\eta = 0$) setting. We also show that it is NP-hard to do better than our algorithm's $O(\log |H|)$ overhead in general.
翻訳日:2023-12-19 19:46:05 公開日:2023-12-16
# pw-self:パッチによる自己教師付き視覚表現学習

PW-Self: Patch-Wise Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2310.18651v4 )

ライセンス: Link先を確認
Ali Javidani, Mohammad Amin Sadeghi, Babak Nadjar Araabi(参考訳) 自己監督型視覚表現学習は、伝統的にイメージレベルのインスタンス識別に焦点を当てている。 本研究は,パッチレベルの識別をこれらの手法に組み込むことにより,革新的な次元を導入する。 この統合により、局所的およびグローバルな視覚特徴の同時解析が可能となり、学習した表現の質が向上する。 当初、オリジナル画像は空間的拡張を受ける。 その後、各パッチは個別に拡張され、同じビュー内の他のパッチとは独立している。 このアプローチは、各セグメントで異なる色の異なる多様なトレーニングデータセットを生成する。 拡張イメージは自己蒸留学習フレームワークを通じて処理され、ViT(Vision Transformer)をバックボーンとして利用する。 提案手法は画像とパッチのレベルでの表現距離を最小化し,マクロからマイクロまでの詳細を捉える。 そこで本研究では,拡張ビューにまたがって対応するパッチを見つけることができる,単純かつ効果的なパッチマッチングアルゴリズムを提案する。 パッチマッチングアルゴリズムの効率的な構造により,本手法は類似の手法と比較して計算複雑性を低減させる。 その結果,重要な計算要件を付加することなく,モデルの高度な理解を得ることができた。 我々は、Cifar10、ImageNet-100、ImageNet-1Kなどの様々なスケールのデータセットに対して、この手法を広範囲に事前訓練してきた。 画像分類や下流タスク,例えばコピー検出や画像検索において,最先端の自己教師付き表現学習法よりも優れた性能を示す。 私たちのメソッドの実装はGitHubからアクセスできます。

Self-supervised visual representation learning traditionally focuses on image-level instance discrimination. Our study introduces an innovative dimension by integrating patch-level discrimination into these methodologies. This integration allows for the simultaneous analysis of both local and global visual features, thereby enriching the quality of the representations learned. Initially, the original images undergo spatial augmentation. Subsequently, we employ a distinctive photometric patch-level augmentation, where each patch is individually augmented, independent from other patches within the same view. This approach generates a diverse training dataset with distinct color variations in each segment. The augmented images are then processed through a self-distillation learning framework, utilizing the Vision Transformer (ViT) as its backbone. The proposed method minimizes the representation distances across both image and patch levels to capture details from macro to micro perspectives. To this end, we present a simple yet effective patch-matching algorithm that can find the corresponding patches across the augmented views. Thanks to the efficient structure of the patch-matching algorithm, our method reduces computational complexity compared to similar approaches. Consequently, we achieve an advanced understanding of the model without adding significant computational requirements. We have extensively pre-trained our method on datasets of varied scales, such as Cifar10, ImageNet-100, and ImageNet-1K. It demonstrates superior performance over state-of-the-art self-supervised representation learning methods in image classification and downstream tasks, such as copy detection and image retrieval. The implementation of our method is accessible on GitHub.
翻訳日:2023-12-19 19:45:43 公開日:2023-12-16
# CNR演算に基づく量子近似最適化アルゴリズム

A Quantum Approximate Optimization Algorithm Based on CNR Operation ( http://arxiv.org/abs/2310.17927v5 )

ライセンス: Link先を確認
Da You Lv and An Min Wang(参考訳) 本稿では, ``comparison and replacement" (cnr) 演算を導入し,組合せ最適化問題に対する汎用純量子近似アルゴリズムを提案する。 CNR の演算は$t$ acillary qubits の助けを借りて実装される。 また,提案アルゴリズムは,CNR演算に基づく$p$レベルの配当構造を構築する。 近似最適化の品質は、$p$の増加によって向上する。 実用性能は、$t$が増加するにつれて理論ケースに改善され収束する。 十分一般的な問題に対して、アルゴリズムは、かなり高い確率で問題を最適化する解を動作させ、定量的に生成することができる。 さらに,MAX-2-XORインスタンスとガウス重み付き2エッジグラフに適用したアルゴリズムのシミュレーション結果について述べる。 提案アルゴリズムの利点は,受理確率で最適に近い解を生成するために$p$を定量的に選択し,性能を明示的に評価できる点である。

This paper introduces the ``comparison and replacement" (CNR) operation and propose a general-purpose pure quantum approximate algorithm for combinatorial optimization problems. The CNR operation is implemented with the aid of $t$ ancillary qubits. And our algorithm is constructed to a $p$-level divide-and-conquer structure based on the CNR operation. The quality of approximate optimization improves with the increase of $p$. And the practical performance improves and converges to the theoretical case as $t$ increases. For sufficiently general problems, the algorithm can work and quantitatively produce a solution which well optimizes the problem with considerably high probability. Furthermore, we illustrate the simulation results of our algorithm when applied to MAX-2-XOR instances and Gaussian weighted 2-edge graphs. The advantage of our algorithm is that, quantitatively, we can choose $p$ to produce the solution near optimum with probability of acceptance and evaluate the performance explicitly.
翻訳日:2023-12-19 19:44:51 公開日:2023-12-16
# openvoice: 汎用的な音声クローン

OpenVoice: Versatile Instant Voice Cloning ( http://arxiv.org/abs/2312.01479v3 )

ライセンス: Link先を確認
Zengyi Qin, Wenliang Zhao, Xumin Yu and Xin Sun(参考訳) OpenVoiceは,参照話者からの短い音声クリップだけで音声を再現し,複数の言語で音声を生成する,汎用的な音声クローニング手法である。 OpenVoiceは、この分野における以下のオープンな課題に対処する上で、大きな進歩を示している。 1)柔軟な音声スタイル制御。 OpenVoiceは、感情、アクセント、リズム、ポーズ、イントネーションを含む音声スタイルのきめ細かい制御を可能にし、参照話者のトーンカラーを再現する。 音声スタイルは、参照話者のスタイルによって直接コピーされ、制約されない。 以前のアプローチでは、クローン後の音声スタイルを柔軟に操作する能力がなかった。 2)ゼロショットクロスリンガル音声クローン。 openvoiceは、大規模話者訓練セットに含まれない言語に対して、ゼロショットのクロスリンガル音声クローンを実現する。 すべての言語に対して大規模なマルチリンガル(MSML)データセットを必要とする従来のアプローチとは異なり、OpenVoiceは、その言語のための大規模なスピーカートレーニングデータなしで、音声を新しい言語にクローンすることができる。 OpenVoiceは計算効率も高く、商用のAPIよりも何倍もコストがかかる。 この分野のさらなる研究を促進するために、ソースコードとトレーニングモデルを公開アクセス可能にしました。 デモサイトでも質的な結果を提供しています。 OpenVoiceは一般公開される前、2023年5月から10月にかけて世界中で何千万回も利用され、MyShellのバックエンドとして使われていました。

We introduce OpenVoice, a versatile voice cloning approach that requires only a short audio clip from the reference speaker to replicate their voice and generate speech in multiple languages. OpenVoice represents a significant advancement in addressing the following open challenges in the field: 1) Flexible Voice Style Control. OpenVoice enables granular control over voice styles, including emotion, accent, rhythm, pauses, and intonation, in addition to replicating the tone color of the reference speaker. The voice styles are not directly copied from and constrained by the style of the reference speaker. Previous approaches lacked the ability to flexibly manipulate voice styles after cloning. 2) Zero-Shot Cross-Lingual Voice Cloning. OpenVoice achieves zero-shot cross-lingual voice cloning for languages not included in the massive-speaker training set. Unlike previous approaches, which typically require extensive massive-speaker multi-lingual (MSML) dataset for all languages, OpenVoice can clone voices into a new language without any massive-speaker training data for that language. OpenVoice is also computationally efficient, costing tens of times less than commercially available APIs that offer even inferior performance. To foster further research in the field, we have made the source code and trained model publicly accessible. We also provide qualitative results in our demo website. Prior to its public release, our internal version of OpenVoice was used tens of millions of times by users worldwide between May and October 2023, serving as the backend of MyShell.
翻訳日:2023-12-19 19:38:21 公開日:2023-12-16
# SecondPose: SE(3)-Consistent Dual-Stream Feature Fusion for Category-Level Pose Estimation

SecondPose: SE(3)-Consistent Dual-Stream Feature Fusion for Category-Level Pose Estimation ( http://arxiv.org/abs/2311.11125v2 )

ライセンス: Link先を確認
Yamei Chen, Yan Di, Guangyao Zhai, Fabian Manhardt, Chenyangguang Zhang, Ruida Zhang, Federico Tombari, Nassir Navab, Benjamin Busam(参考訳) カテゴリーレベルのオブジェクトのポーズ推定は、既知のカテゴリから6次元のポーズと3次元の大きさを予測することを目的としている。 平均的な形状を利用した既存の作品では、このバリエーションを捉えられないことが多い。 この問題に対処するために、DINOv2のセマンティックなカテゴリにオブジェクト固有の幾何学的特徴を統合する新しいアプローチであるSecondPoseを提案する。 DINOv2の利点を生かして、SE(3)-一貫性のある意味的特徴を提供することにより、2種類のSE(3)-不変な幾何学的特徴を階層的に抽出し、局所-言語的オブジェクト固有情報をカプセル化する。 これらの幾何学的特徴は、DINOv2特徴と整合して、SE(3)変換の下で一貫したオブジェクト表現を確立し、カメラ空間から予め定義された標準空間へのマッピングを容易にし、ポーズ推定をさらに強化する。 NOCS-REAL275の大規模な実験により、SecondPoseは最先端技術に対して12.4%の飛躍を達成した。 さらに、フォトメトリックに挑戦するオブジェクトを提供するより複雑なデータセットHouseCat6Dでは、SecondPoseは依然として他の競合より大きなマージンで勝っている。 コードはまもなくリリースされる。

Category-level object pose estimation, aiming to predict the 6D pose and 3D size of objects from known categories, typically struggles with large intra-class shape variation. Existing works utilizing mean shapes often fall short of capturing this variation. To address this issue, we present SecondPose, a novel approach integrating object-specific geometric features with semantic category priors from DINOv2. Leveraging the advantage of DINOv2 in providing SE(3)-consistent semantic features, we hierarchically extract two types of SE(3)-invariant geometric features to further encapsulate local-to-global object-specific information. These geometric features are then point-aligned with DINOv2 features to establish a consistent object representation under SE(3) transformations, facilitating the mapping from camera space to the pre-defined canonical space, thus further enhancing pose estimation. Extensive experiments on NOCS-REAL275 demonstrate that SecondPose achieves a 12.4% leap forward over the state-of-the-art. Moreover, on a more complex dataset HouseCat6D which provides photometrically challenging objects, SecondPose still surpasses other competitors by a large margin. The code will be released soon.
翻訳日:2023-12-19 19:33:04 公開日:2023-12-16
# ソーシャル・コンパニオンとしてのチャットボット : 機械の意識、人間の類似性、社会的健康的利益をどう知覚するか

Chatbots as social companions: How people perceive consciousness, human likeness, and social health benefits in machines ( http://arxiv.org/abs/2311.10599v2 )

ライセンス: Link先を確認
Rose Guingrich, Michael S. A. Graziano(参考訳) 人工知能(AI)が普及するにつれ、人間とAIの相互作用が人間とAIの相互作用にどのように影響するかという問題が発生する。 例えばチャットボットは、社会的なコンパニオンとしての利用が増えているが、その使用が人間関係に与える影響についてはほとんど分かっていない。 一般的な仮説は、これらの仲間のボットは人間の相互作用を傷つけたり置き換えたりすることで社会の健康に有害であるということである。 共用ボットが社会の健康に与える影響を理解するために,共用ボットを使用した人々と非使用者を調査した。 期待に反して、コンパニオンボットのユーザーは、これらの関係は社会的健康にとって有益であることを示した。 もう一つの一般的な仮定は、人は意識的、人間らしいAIを乱暴で脅かすものとして知覚する。 コンパニオンボットを意識的かつ人間らしく認識することは、よりポジティブな意見とより優れた社会的健康上の利益と相関したのです。 人間のようなボットは、人間関係を傷つけることなく、信頼できる安全な相互作用を提供することで、社会的健康を助けることができる。

As artificial intelligence (AI) becomes more widespread, one question that arises is how human-AI interaction might impact human-human interaction. Chatbots, for example, are increasingly used as social companions, but little is known about how their use impacts human relationships. A common hypothesis is that these companion bots are detrimental to social health by harming or replacing human interaction. To understand how companion bots impact social health, we studied people who used companion bots and people who did not. Contrary to expectations, companion bot users indicated that these relationships were beneficial to their social health, whereas nonusers viewed them as harmful. Another common assumption is that people perceive conscious, humanlike AI as disturbing and threatening. Among both users and nonusers, however, we found the opposite: perceiving companion bots as more conscious and humanlike correlated with more positive opinions and better social health benefits. Humanlike bots may aid social health by supplying reliable and safe interactions, without necessarily harming human relationships.
翻訳日:2023-12-19 19:32:39 公開日:2023-12-16
# モデル結合によるフェデレーション学習におけるラベルスキューの爆発

Exploiting Label Skews in Federated Learning with Model Concatenation ( http://arxiv.org/abs/2312.06290v2 )

ライセンス: Link先を確認
Yiqun Diao, Qinbin Li, Bingsheng He(参考訳) Federated Learning (FL)は、生データを交換することなく、異なるデータ所有者でディープラーニングを実行するための有望なソリューションとして登場した。 しかし、非IIDデータはFLの重要な課題であり、最終モデルの精度を著しく低下させる可能性がある。 非IID型では、ラベルスキューは困難であり、画像分類やその他のタスクで一般的である。 従来の研究では,局所モデルを平均化するのではなく,これらの局所モデルをグローバルモデルの基盤として結合し,局所的な知識を効果的に集約する,シンプルかつ効果的なアプローチであるFedConcatを提案する。 グローバルモデルのサイズを小さくするため,我々は,顧客をラベル分布でグループ化し,各クラスタ内で協調的にモデルをトレーニングするクラスタリング手法を採用した。 本研究では,深層ニューラルネットワークの情報ボトルネックを分析し,平均化よりも結合の利点を理論的に解析する。 実験により,FedConcatは様々な異種ラベルスキュー分布設定において従来のFL法よりも精度が高く,通信コストも低いことがわかった。 私たちのコードはhttps://github.com/sjtudyq/FedConcat.comで公開されています。

Federated Learning (FL) has emerged as a promising solution to perform deep learning on different data owners without exchanging raw data. However, non-IID data has been a key challenge in FL, which could significantly degrade the accuracy of the final model. Among different non-IID types, label skews have been challenging and common in image classification and other tasks. Instead of averaging the local models in most previous studies, we propose FedConcat, a simple and effective approach that concatenates these local models as the base of the global model to effectively aggregate the local knowledge. To reduce the size of the global model, we adopt the clustering technique to group the clients by their label distributions and collaboratively train a model inside each cluster. We theoretically analyze the advantage of concatenation over averaging by analyzing the information bottleneck of deep neural networks. Experimental results demonstrate that FedConcat achieves significantly higher accuracy than previous state-of-the-art FL methods in various heterogeneous label skew distribution settings and meanwhile has lower communication costs. Our code is publicly available at https://github.com/sjtudyq/FedConcat.
翻訳日:2023-12-19 19:24:52 公開日:2023-12-16
# 構造的逆自由自然勾配:大規模ニューラルネットワークのためのメモリ効率・数値安定KFAC

Structured Inverse-Free Natural Gradient: Memory-Efficient & Numerically-Stable KFAC for Large Neural Nets ( http://arxiv.org/abs/2312.05705v2 )

ライセンス: Link先を確認
Wu Lin, Felix Dangel, Runa Eschenhagen, Kirill Neklyudov, Agustinus Kristiadi, Richard E. Turner, Alireza Makhzani(参考訳) KFACのような深層学習のための二階法は、ニューラルネットトレーニングに有用である。 しかし、Kronecker因子は高密度であるため、メモリ非効率で数値的に不安定であり、高精度行列の逆転や分解を必要とする。 したがって、このような手法はトランスフォーマーベースモデルのような大規模なニューラルネットワークのトレーニングには広くは使われない。 この2つの問題を i) KFACの逆フリー更新を定式化して (II) Kronecker因子のそれぞれに構造を付与することにより、構造的逆自由な自然勾配降下(SINGD)と呼ぶことができる。 大規模ニューラルネットワークでは、KFACとは対照的に、SINGDはメモリ効率が高く、数値的に堅牢であり、半精度でもAdamWより優れていることが示されている。 したがって,我々の研究は,大規模ニューラルネットワークに対する最新の低精度トレーニングにおいて,一階法と二階法の間のギャップを閉じている。

Second-order methods for deep learning -- such as KFAC -- can be useful for neural net training. However, they are often memory-inefficient and numerically unstable for low-precision training since their preconditioning Kronecker factors are dense, and require high-precision matrix inversion or decomposition. Consequently, such methods are not widely used for training large neural networks such as transformer-based models. We address these two issues by (i) formulating an inverse-free update of KFAC and (ii) imposing structures in each of the Kronecker factors, resulting in a method we term structured inverse-free natural gradient descent (SINGD). On large modern neural networks, we show that, in contrast to KFAC, SINGD is memory efficient and numerically robust, and often outperforms AdamW even in half precision. Hence, our work closes a gap between first-order and second-order methods in modern low precision training for large neural nets.
翻訳日:2023-12-19 19:23:19 公開日:2023-12-16
# MVDD:多視点深度拡散モデル

MVDD: Multi-View Depth Diffusion Models ( http://arxiv.org/abs/2312.04875v2 )

ライセンス: Link先を確認
Zhen Wang, Qiangeng Xu, Feitong Tan, Menglei Chai, Shichen Liu, Rohit Pandey, Sean Fanello, Achuta Kadambi, Yinda Zhang(参考訳) 拡散モデルは2次元画像生成において顕著な結果を示したが、3次元形状生成の成功を再現することは依然として困難である。 本稿では,複雑な3次元形状を表現するマルチビュー奥行きを利用した2次元データ形式を提案する。 この表現を拡散モデルMVDDと組み合わせ、20K以上の点と細かな詳細を持つ高品質の高密度点雲を生成することができる。 多視点深度で3次元の整合性を実現するために, 隣接する視点の視界に対して, 偏極線セグメントの注意を規定する。 さらに、深度マップのアライメントをより確実にするために、深度融合モジュールを拡散ステップに組み込む。 表面再構成で拡張すると、MVDDは高品質な3Dメッシュを生成することができる。 さらに、MVDDは深度補完のような他のタスクで際立っているため、3D先行として機能し、GANインバージョンのような下流タスクを著しく増加させる。 MVDDの3次元形状生成, 深度完了, 下流作業における3次元前処理の可能性について検討した。

Denoising diffusion models have demonstrated outstanding results in 2D image generation, yet it remains a challenge to replicate its success in 3D shape generation. In this paper, we propose leveraging multi-view depth, which represents complex 3D shapes in a 2D data format that is easy to denoise. We pair this representation with a diffusion model, MVDD, that is capable of generating high-quality dense point clouds with 20K+ points with fine-grained details. To enforce 3D consistency in multi-view depth, we introduce an epipolar line segment attention that conditions the denoising step for a view on its neighboring views. Additionally, a depth fusion module is incorporated into diffusion steps to further ensure the alignment of depth maps. When augmented with surface reconstruction, MVDD can also produce high-quality 3D meshes. Furthermore, MVDD stands out in other tasks such as depth completion, and can serve as a 3D prior, significantly boosting many downstream tasks, such as GAN inversion. State-of-the-art results from extensive experiments demonstrate MVDD's excellent ability in 3D shape generation, depth completion, and its potential as a 3D prior for downstream tasks.
翻訳日:2023-12-19 19:22:45 公開日:2023-12-16
# EnvGuard: モノのWebにおける環境中心の安全性とセキュリティ特性の保証

EnvGuard: Guaranteeing Environment-Centric Safety and Security Properties in Web of Things ( http://arxiv.org/abs/2312.03373v2 )

ライセンス: Link先を確認
Bingkun Sun, Liwei Shen, Jialin Ren, Zhen Dong, Siao Wang, Xin Peng(参考訳) Web of Things(WoT)テクノロジは、日々の環境にユビキタスにデプロイされるIoTデバイスの標準化統合を促進すると同時に、さまざまなWoTアプリケーションによる環境の自動認識と制御を促進する。 wot環境では、異種アプリケーション、ユーザアクティビティ、環境変化がデバイス動作に影響を与え、予期しない安全性およびセキュリティ特性の侵害のリスクを負う。 違反識別に関する既存の研究は主に、環境における複雑な相互作用を考慮せず、自動化されたアプリケーションの分析に焦点を当てている。 また, ユーザによる侵害解決戦略の意図についても, より少ない検討がなされている。 これらの制限に対処するために,wot環境におけるプロパティのカスタマイズ,違反識別,解決実行のための環境中心のアプローチであるenvguardを紹介する。 我々は2つの典型的なWoT環境でEnvGuardを評価した。 本研究では,実環境データの収集と分析を行うことで,EnvGuardの性能を評価し,収集したデータからデータセットを構築し,環境レベルの違反識別を支援する。 その結果,EnvGuardが従来の最先端の作業よりも優れていることが示され,ユーザビリティ,実現可能性,実行効率が確認された。

Web of Things (WoT) technology facilitates the standardized integration of IoT devices ubiquitously deployed in daily environments, promoting diverse WoT applications to automatically sense and regulate the environment. In WoT environment, heterogeneous applications, user activities, and environment changes collectively influence device behaviors, posing risks of unexpected violations of safety and security properties. Existing work on violation identification primarily focuses on the analysis of automated applications, lacking consideration of the intricate interactions in the environment. Moreover, users' intention for violation resolving strategy is much less investigated. To address these limitations, we introduce EnvGuard, an environment-centric approach for property customizing, violation identification and resolution execution in WoT environment. We evaluated EnvGuard in two typical WoT environments. By conducting user studies and analyzing collected real-world environment data, we assess the performance of EnvGuard, and construct a dataset from the collected data to support environment-level violation identification. The results demonstrate the superiority of EnvGuard compared to previous state-of-the-art work, and confirm its usability, feasibility and runtime efficiency.
翻訳日:2023-12-19 19:22:25 公開日:2023-12-16
# フェデレーション学習におけるデータ注入攻撃の軽減

Mitigating Data Injection Attacks on Federated Learning ( http://arxiv.org/abs/2312.02102v2 )

ライセンス: Link先を確認
Or Shalom, Amir Leshem, Waheed U. Bajwa(参考訳) フェデレーション学習(federated learning)は、複数のエンティティがデータプライバシを損なうことなく、データを使用したモデルを協調的にトレーニングするテクニックである。 しかし、その利点にもかかわらず、連合学習は誤ったデータインジェクション攻撃の影響を受けやすい。 これらのシナリオでは、ネットワーク内の特定のエージェントを制御した悪意のあるエンティティが学習プロセスを操作でき、亜最適モデルにつながる。 その結果、これらのデータ注入攻撃に対処することは、連合学習システムにおいて重要な研究課題となる。 本稿では,フェデレーション学習システムにおけるデータインジェクション攻撃の検出と軽減を行う新しい手法を提案する。 提案手法は局所的なスキームであり,コーディネートノードによるトレーニングの単一インスタンスで実行し,アルゴリズムの収束時の緩和を可能にする。 エージェントが攻撃者であると疑われた場合、そのデータは一定期間無視される場合、この決定はしばしば再評価される。 確率 1 の場合、有限時間後に全ての攻撃者は無視されるが、信頼できるエージェントを無視する確率は 0 になる。 シミュレーションにより、コーディネートノードがすべての攻撃者を検出して分離すると、モデルは回復し、真理のあるモデルに収束する。

Federated learning is a technique that allows multiple entities to collaboratively train models using their data without compromising data privacy. However, despite its advantages, federated learning can be susceptible to false data injection attacks. In these scenarios, a malicious entity with control over specific agents in the network can manipulate the learning process, leading to a suboptimal model. Consequently, addressing these data injection attacks presents a significant research challenge in federated learning systems. In this paper, we propose a novel technique to detect and mitigate data injection attacks on federated learning systems. Our mitigation method is a local scheme, performed during a single instance of training by the coordinating node, allowing the mitigation during the convergence of the algorithm. Whenever an agent is suspected to be an attacker, its data will be ignored for a certain period, this decision will often be re-evaluated. We prove that with probability 1, after a finite time, all attackers will be ignored while the probability of ignoring a trustful agent becomes 0, provided that there is a majority of truthful agents. Simulations show that when the coordinating node detects and isolates all the attackers, the model recovers and converges to the truthful model.
翻訳日:2023-12-19 19:21:29 公開日:2023-12-16
# 極性表現から学ぶ:長期時系列予測のための極性適応モデル

Learning from Polar Representation: An Extreme-Adaptive Model for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2312.08763v2 )

ライセンス: Link先を確認
Yanhong Li and Jack Xu and David C. Anastasiu(参考訳) 水文学分野において, 時系列予測は, 効率的な水資源管理, 洪水および干ばつ対策の改善, 一般住民の安全と生活の質の向上に不可欠である。 しかし、極端なイベントが存在するため、長期的なストリームフローの予測は複雑な作業である。 長距離依存関係のキャプチャと、稀だが重要な極端な値のモデリングが必要である。 既存のアプローチはしばしば、これら2つの課題に同時に取り組むのに苦労する。 本稿では、これらの問題を特に掘り下げ、極性表現学習によって強化されたストラムフローの長距離予測のための新しい極性適応モデルである距離重み付き自己正規化ニューラルネットワーク(DAN)を提案する。 DANは、距離重み付きマルチロス機構とスタック可能なブロックを使用して、外因性データからインジケータシーケンスを動的に洗練すると同時に、ガウス混合確率モデルを用いて一変量時系列を処理し、重大事象に対する堅牢性を改善する。 また,不均衡極端データを扱うために,kruskal-wallisサンプリングとゲート制御ベクトルを導入する。 4つの実生活型水文流れデータセットについて,danが最先端水文時系列予測法と長期時系列予測のための一般的な手法を有意に上回っていることを実証した。

In the hydrology field, time series forecasting is crucial for efficient water resource management, improving flood and drought control and increasing the safety and quality of life for the general population. However, predicting long-term streamflow is a complex task due to the presence of extreme events. It requires the capture of long-range dependencies and the modeling of rare but important extreme values. Existing approaches often struggle to tackle these dual challenges simultaneously. In this paper, we specifically delve into these issues and propose Distance-weighted Auto-regularized Neural network (DAN), a novel extreme-adaptive model for long-range forecasting of stremflow enhanced by polar representation learning. DAN utilizes a distance-weighted multi-loss mechanism and stackable blocks to dynamically refine indicator sequences from exogenous data, while also being able to handle uni-variate time-series by employing Gaussian Mixture probability modeling to improve robustness to severe events. We also introduce Kruskal-Wallis sampling and gate control vectors to handle imbalanced extreme data. On four real-life hydrologic streamflow datasets, we demonstrate that DAN significantly outperforms both state-of-the-art hydrologic time series prediction methods and general methods designed for long-term time series prediction.
翻訳日:2023-12-19 19:16:10 公開日:2023-12-16
# 抗体発見・開発における機械学習のベストプラクティス

Best practices for machine learning in antibody discovery and development ( http://arxiv.org/abs/2312.08470v2 )

ライセンス: Link先を確認
Leonard Wossnig, Norbert Furtmann, Andrew Buchanan, Sandeep Kumar, and Victor Greiff(参考訳) 過去40年間で、疾患を治療するための治療抗体の発見と開発が一般的に行われている。 しかし、治療用抗体構造がより洗練されつつある(例えば、多種多型)ため、従来の最適化アプローチは効率が悪くなっている。 機械学習(ML)は、抗体発見のためのシリコ経路を開くことを約束し、多数の実験と結果としてコストを削減して医薬品の開発を加速する。 近年,ML誘導型抗体発見・開発(D&D)の分野での急速な進展が観察されている。 しかし、この分野での他の専門家による有用性の比較や評価は、データセットの多様性や、業界やアカデミアにまたがる評価技術やメトリクスによって困難である。 この文献の制限により、業界全体でMLが広く採用され、分野全体の進歩が鈍化し、異なる研究グループ間でMLモデルの再現性を改善するための標準やガイドラインの開発の必要性が強調される。 これらの課題に対処するため,我々は,現状の実践を批判的にレビューし,共通の落とし穴を解説し,さまざまな種類のMLベースの抗体D&D技術に適用可能な手法開発および評価ガイドラインのセットを明確に定義する。 具体的には、エンドツーエンドの分析、MLプロセスのすべての側面に関連する課題に対処し、各ステージのベストプラクティスセットを推奨します。

Over the past 40 years, the discovery and development of therapeutic antibodies to treat disease has become common practice. However, as therapeutic antibody constructs are becoming more sophisticated (e.g., multi-specifics), conventional approaches to optimisation are increasingly inefficient. Machine learning (ML) promises to open up an in silico route to antibody discovery and help accelerate the development of drug products using a reduced number of experiments and hence cost. Over the past few years, we have observed rapid developments in the field of ML-guided antibody discovery and development (D&D). However, many of the results are difficult to compare or hard to assess for utility by other experts in the field due to the high diversity in the datasets and evaluation techniques and metrics that are across industry and academia. This limitation of the literature curtails the broad adoption of ML across the industry and slows down overall progress in the field, highlighting the need to develop standards and guidelines that may help improve the reproducibility of ML models across different research groups. To address these challenges, we set out in this perspective to critically review current practices, explain common pitfalls, and clearly define a set of method development and evaluation guidelines that can be applied to different types of ML-based techniques for therapeutic antibody D&D. Specifically, we address in an end-to-end analysis, challenges associated with all aspects of the ML process and recommend a set of best practices for each stage.
翻訳日:2023-12-19 19:15:09 公開日:2023-12-16
# 大規模言語モデルにおけるテキスト透かしの実態調査

A Survey of Text Watermarking in the Era of Large Language Models ( http://arxiv.org/abs/2312.07913v2 )

ライセンス: Link先を確認
Aiwei Liu, Leyi Pan, Yijian Lu, Jingjing Li, Xuming Hu, Lijie Wen, Irwin King and Philip S. Yu(参考訳) 近年,Large Language Models (LLMs) のテキスト生成機能において,抽象要約や対話生成,データからテキストへの変換といった下流タスクにおいて,例外的な性能を示す顕著な進歩がなされている。 しかし、それらの生成能力は、フェイクニュースの急速な拡散、データセット/LLM著作権の侵害、学術的完全性への挑戦などのリスクを引き起こす。 テキスト透かし技術が潜在的な解決策として現れる。 目に見えないが検出可能なパターンを生成テキストに埋め込むことで、テキスト起源の追跡と検証に役立ち、不正使用や海賊行為を防止する。 本研究の目的は,(1)異なるテキスト透かし技術の概要と比較,(2)テキスト透かしアルゴリズムの評価方法,(2)成功率,テキスト品質への影響,堅牢性,忘れやすさ,(3)テキスト透かし技術の潜在的な応用,の3つの側面を包括的に要約することにある。 この調査は、研究者がテキスト透かし技術を完全に理解し、さらなる開発を促進することを目的としている。

In recent years, significant advancements have been made in the text generation capabilities of Large Language Models (LLMs), demonstrating exceptional performance in downstream tasks such as abstract summarization, dialogue generation, and data-to-text conversion. However, their generative abilities also pose risks such as the rapid spread of fake news, infringement of datasets/LLM copyrights, and challenges to academic integrity. Text watermarking technology emerges as a potential solution. By embedding invisible yet detectable patterns in generated texts, it helps in tracking and verifying text origins, thus preventing misuse and piracy. This survey aims to comprehensively summarize current text watermarking technologies, covering three main aspects: (1) an overview and comparison of different text watermarking techniques; (2) evaluation methods for text watermarking algorithms, including their success rate, impact on text quality, robustness, and unforgeability; (3) potential applications of text watermarking technologies. This survey aims to help researchers thoroughly understanding the text watermarking technologies, thereby fostering further development.
翻訳日:2023-12-19 19:14:27 公開日:2023-12-16
# 能動的推論と意図的行動

Active Inference and Intentional Behaviour ( http://arxiv.org/abs/2312.07547v2 )

ライセンス: Link先を確認
Karl J. Friston, Tommaso Salvatori, Takuya Isomura, Alexander Tschantz, Alex Kiefer, Tim Verbelen, Magnus Koudahl, Aswin Paul, Thomas Parr, Adeel Razi, Brett Kagan, Christopher L. Buckley, and Maxwell J. D. Ramstead(参考訳) 理論的生物学における最近の進歩は、基礎的認知と感覚的行動がそれぞれin vitro細胞培養と神経細胞ネットワークの創発的特性であることを示唆している。 このような神経ネットワークは、報酬や強化がなければ、自発的に構造化された行動を学ぶ。 本稿では,自由エネルギー原理のレンズを通して,このような自己組織化を自己認識として特徴付ける。 まず,行動の結果をモデル化するエージェントの行動を記述するアクティブ推論の設定において,リアクティブおよびセンテントな行動の定義について論じる。 次に,エージェントを潜在状態空間における望ましいエンドポイントや目標によって駆動されるものとして記述する,意図的行動の形式的説明を導入する。 次に,これらの形態(反応性,感性,意図的)をシミュレーションを用いて検討する。 まず,神経細胞が自発的にpongを弾くことを学習するin vitro実験を,ネストした自由エネルギー最小化プロセスによってシミュレートする。 シミュレーションは続く予測行動の分解に使用され、単に反応的、知覚的、意図的な振る舞いを区別し、後者は帰納的計画の観点で形式化される。 この区別は、単純な機械学習ベンチマーク(グリッド世界のナビゲーションとハノイ問題のタワー)を用いてさらに研究され、アクティブ推論の帰納的形式の下での適応行動がいかに迅速かつ効率的に出現するかを示している。

Recent advances in theoretical biology suggest that basal cognition and sentient behaviour are emergent properties of in vitro cell cultures and neuronal networks, respectively. Such neuronal networks spontaneously learn structured behaviours in the absence of reward or reinforcement. In this paper, we characterise this kind of self-organisation through the lens of the free energy principle, i.e., as self-evidencing. We do this by first discussing the definitions of reactive and sentient behaviour in the setting of active inference, which describes the behaviour of agents that model the consequences of their actions. We then introduce a formal account of intentional behaviour, that describes agents as driven by a preferred endpoint or goal in latent state-spaces. We then investigate these forms of (reactive, sentient, and intentional) behaviour using simulations. First, we simulate the aforementioned in vitro experiments, in which neuronal cultures spontaneously learn to play Pong, by implementing nested, free energy minimising processes. The simulations are then used to deconstruct the ensuing predictive behaviour, leading to the distinction between merely reactive, sentient, and intentional behaviour, with the latter formalised in terms of inductive planning. This distinction is further studied using simple machine learning benchmarks (navigation in a grid world and the Tower of Hanoi problem), that show how quickly and efficiently adaptive behaviour emerges under an inductive form of active inference.
翻訳日:2023-12-19 19:12:10 公開日:2023-12-16
# 協調運動計画のパラメータ化複雑性

The Parameterized Complexity of Coordinated Motion Planning ( http://arxiv.org/abs/2312.07144v2 )

ライセンス: Link先を確認
Eduard Eiben, Robert Ganian, Iyad Kanj(参考訳) コーディネートドモーションプランニング(cmp)では、k$ロボットが異なる出発グリッドポイントを占有し、k$の異なる目的地グリッドポイントに到達する必要がある矩形グリッドが与えられます。 それぞれの時間ステップで、他のロボットと衝突しない場合、どのロボットも隣のグリッドポイントに移動したり、現在のグリッドポイントにとどまったりすることができる。 目標は、k$ロボットを目的地に移動させるスケジュールを計算し、スケジュール内の時間ステップの数、すなわち、ロボットが移動する総長さを、目標とする目標を最小化することである。 対象目標の最小化から生じる問題を,CMP-M,後者をCMP-Lと呼ぶ。 CMP-M と CMP-L はどちらも SoCG 2021 の計算幾何学的挑戦として提起された基本的な問題であり、CMP は特殊ケースとして有名な$(n^2-1)$-puzzle も具体化している。 本稿では,CMP-MとCMP-Lのパラメータ化複雑性を,ロボットの数と対象目標の2つの最も基本的なパラメータについて検討する。 本研究は,従来のパラメータ化の下で,問題の最適解に関する新たな構造的洞察に依存した,両問題の固定パラメータトラクタビリティを確立するための新しいアプローチを開発する。 対象目標によってパラメータ化されると、CMP-MがパラNPハードとなる間、CMP-Lは固定パラメータ抽出可能であることを示す。 後者の結果は、以前知られていた問題に対する難解性の境界を改良するだけでなく、基礎的な縮小によって、従来のVertex DisjointとEdge Disjoint PathsのNP-hardnessをグリッド上の一定パス長で確立できるため、注目すべきである。

In Coordinated Motion Planning (CMP), we are given a rectangular-grid on which $k$ robots occupy $k$ distinct starting gridpoints and need to reach $k$ distinct destination gridpoints. In each time step, any robot may move to a neighboring gridpoint or stay in its current gridpoint, provided that it does not collide with other robots. The goal is to compute a schedule for moving the $k$ robots to their destinations which minimizes a certain objective target - prominently the number of time steps in the schedule, i.e., the makespan, or the total length traveled by the robots. We refer to the problem arising from minimizing the former objective target as CMP-M and the latter as CMP-L. Both CMP-M and CMP-L are fundamental problems that were posed as the computational geometry challenge of SoCG 2021, and CMP also embodies the famous $(n^2-1)$-puzzle as a special case. In this paper, we settle the parameterized complexity of CMP-M and CMP-L with respect to their two most fundamental parameters: the number of robots, and the objective target. We develop a new approach to establish the fixed-parameter tractability of both problems under the former parameterization that relies on novel structural insights into optimal solutions to the problem. When parameterized by the objective target, we show that CMP-L remains fixed-parameter tractable while CMP-M becomes para-NP-hard. The latter result is noteworthy, not only because it improves the previously-known boundaries of intractability for the problem, but also because the underlying reduction allows us to establish - as a simpler case - the NP-hardness of the classical Vertex Disjoint and Edge Disjoint Paths problems with constant path-lengths on grids.
翻訳日:2023-12-19 19:10:21 公開日:2023-12-16
# JPIS:Slot-to-Intent Attentionによるプロファイルベースインテント検出とスロットフィリングの統合モデル

JPIS: A Joint Model for Profile-based Intent Detection and Slot Filling with Slot-to-Intent Attention ( http://arxiv.org/abs/2312.08737v2 )

ライセンス: Link先を確認
Thinh Pham, Dat Quoc Nguyen(参考訳) プロファイルに基づくインテント検出とスロット充填は,ユーザ固有のプロファイル情報を活用することで,ユーザの発話の曖昧さを軽減するための重要なタスクである。 しかし、この2つの課題の研究は広範囲に研究されていない。 このギャップを埋めるために,プロファイルに基づくインテント検出とスロット充填の強化を目的としたjpisというジョイントモデルを提案する。 JPISは、サポート対象のプロファイル情報をエンコーダに組み込んで、スロット情報表現をインテント検出に転送するスロットツーインテントアテンション機構を導入する。 実験の結果,JPISは従来のプロファイルベースモデルよりも大幅に優れており,中国のベンチマークデータセットProSLUの精度が向上した。

Profile-based intent detection and slot filling are important tasks aimed at reducing the ambiguity in user utterances by leveraging user-specific supporting profile information. However, research in these two tasks has not been extensively explored. To fill this gap, we propose a joint model, namely JPIS, designed to enhance profile-based intent detection and slot filling. JPIS incorporates the supporting profile information into its encoder and introduces a slot-to-intent attention mechanism to transfer slot information representations to intent detection. Experimental results show that our JPIS substantially outperforms previous profile-based models, establishing a new state-of-the-art performance in overall accuracy on the Chinese benchmark dataset ProSLU.
翻訳日:2023-12-19 18:59:48 公開日:2023-12-16
# ラベルもプロンプトを必要とする: 自然言語理解タスクのためのマスクマッチング

Labels Need Prompts Too: Mask Matching for Natural Language Understanding Tasks ( http://arxiv.org/abs/2312.08726v2 )

ライセンス: Link先を確認
Bo Li, Wei Ye, Quansen Wang, Wen Zhao, Shikun Zhang(参考訳) テキストラベル名(記述)は、典型的には多くの自然言語理解(NLU)タスクに意味的に富んでいる。 本稿では,モデル入力のエンリッチ化に広く用いられているプロンプト手法をラベル側に初めて導入する。 具体的には,入力にプロンプトとそのラベルを付与し,マスク表現と照合して予測を行うマスクマッチング手法を提案する。 14個のデータセットで8つのNLUタスクを広範囲に評価した。 実験結果から,Mask Matchingは細調整や従来型のプロンプトチューニングにおいて,いくつかのデータセットにおける最先端のパフォーマンスを著しく向上させることがわかった。 マスクマッチングは、大きなラベル数と情報的なラベル名でNLUタスクを扱うのに特に適している。 ラベル側のプロンプトを調査する先駆的な取り組みとして,今後の研究の課題についても議論する。

Textual label names (descriptions) are typically semantically rich in many natural language understanding (NLU) tasks. In this paper, we incorporate the prompting methodology, which is widely used to enrich model input, into the label side for the first time. Specifically, we propose a Mask Matching method, which equips an input with a prompt and its label with another, and then makes predictions by matching their mask representations. We evaluate our method extensively on 8 NLU tasks with 14 datasets. The experimental results show that Mask Matching significantly outperforms its counterparts of fine-tuning and conventional prompt-tuning, setting up state-of-the-art performances in several datasets. Mask Matching is particularly good at handling NLU tasks with large label counts and informative label names. As pioneering efforts that investigate the label-side prompt, we also discuss open issues for future study.
翻訳日:2023-12-19 18:59:33 公開日:2023-12-16
# VQCNIR:ベクトル量子コードブックによる夜の鮮明な画像復元

VQCNIR: Clearer Night Image Restoration with Vector-Quantized Codebook ( http://arxiv.org/abs/2312.08606v2 )

ライセンス: Link先を確認
Wenbin Zou, Hongxia Gao, Tian Ye, Liang Chen, Weipeng Yang, Shasha Huang, Hongsheng Chen, Sixiang Chen(参考訳) 夜間撮影は、暗い環境や長時間の露光から生じる、暗い光やぼやけなどの課題に苦しむことが多い。 現在の手法では、事前を無視してエンドツーエンドのネットワークを直接適合させ、一貫性のない照明に導くか、ネットワークを制約するために信頼できない先行技術に頼る。 私たちは、データ駆動の高品質な事前処理の強みを信じ、手動による事前処理の制限を回避する、信頼性と一貫性のある事前処理の提供に努めています。 本稿では,ベクトル量子化コードブック (vqcnir) を用いたより鮮明な夜間画像復元手法を提案する。 細部と照明の忠実な復元を確保するため, 適応照明強化モジュール (AIEM) と変形性二方向クロスアテンションモジュール (DBCA) の2つの重要なモジュールについて提案する。 aiemは機能のチャネル間相関を利用して、劣化した機能と高品質なコードブック機能間の照明一貫性を動的に維持する。 一方、DBCAモジュールは双方向のクロスアテンションと変形可能な畳み込みを通じてテクスチャと構造情報を効果的に統合し、それによって並列デコーダ間の微細な詳細化と構造的忠実度が向上する。 大規模な実験により、VQCNIRは低照度条件下での画質向上に際し、合成データセットと実世界のデータセットの両方で最先端のパフォーマンスを示す。 コードはhttps://github.com/alexzou14/vqcnirで入手できる。

Night photography often struggles with challenges like low light and blurring, stemming from dark environments and prolonged exposures. Current methods either disregard priors and directly fitting end-to-end networks, leading to inconsistent illumination, or rely on unreliable handcrafted priors to constrain the network, thereby bringing the greater error to the final result. We believe in the strength of data-driven high-quality priors and strive to offer a reliable and consistent prior, circumventing the restrictions of manual priors. In this paper, we propose Clearer Night Image Restoration with Vector-Quantized Codebook (VQCNIR) to achieve remarkable and consistent restoration outcomes on real-world and synthetic benchmarks. To ensure the faithful restoration of details and illumination, we propose the incorporation of two essential modules: the Adaptive Illumination Enhancement Module (AIEM) and the Deformable Bi-directional Cross-Attention (DBCA) module. The AIEM leverages the inter-channel correlation of features to dynamically maintain illumination consistency between degraded features and high-quality codebook features. Meanwhile, the DBCA module effectively integrates texture and structural information through bi-directional cross-attention and deformable convolution, resulting in enhanced fine-grained detail and structural fidelity across parallel decoders. Extensive experiments validate the remarkable benefits of VQCNIR in enhancing image quality under low-light conditions, showcasing its state-of-the-art performance on both synthetic and real-world datasets. The code is available at https://github.com/AlexZou14/VQCNIR.
翻訳日:2023-12-19 18:58:47 公開日:2023-12-16
# 量子誤差補正における漏れの非コヒーレント近似

Incoherent Approximation of Leakage in Quantum Error Correction ( http://arxiv.org/abs/2312.10277v1 )

ライセンス: Link先を確認
Jeffrey Marshall, Dvir Kafri(参考訳) 量子エラー訂正符号は一般に計算部分空間の量子状態遷移(漏れ)を考慮しない。 これらのエラーは複数の検出ラウンドで継続できるため、論理的エラーに大きく寄与する。 したがって、それらを効率的にモデル化する方法を理解することが重要である。 漏洩の完全な量子シミュレーションでは、リーク量子ビット当たりのレベルがより多く必要であり、シミュレーションされるシステムサイズを著しく制限する。 これを解決するために,量子チャネル上にランダム位相近似(RPA)を導入する。 不整合の仮定は、計算オーバーヘッドの少ないリークの量子シミュレーションを可能にする。 繰り返し安定化器測定において不整合が自然に達成されることを示すことにより,近似の有効性を示す。 さらに、RPAが物理誤差パラメータを持つ繰り返しおよび表面符号において正確な誤差補正統計値を得ることを示す様々なシミュレーション結果を提供する。

Quantum error correcting codes typically do not account for quantum state transitions - leakage - out of the computational subspace. Since these errors can last for multiple detection rounds they can significantly contribute to logical errors. It is therefore important to understand how to numerically model them efficiently. Fully quantum simulations of leakage require more levels per leaked qubit, which substantially limits the system sizes that may be simulated. To address this, we introduce a Random Phase Approximation (RPA) on quantum channels that preserves the incoherence between the computational and leakage subspaces. The assumption of incoherence enables the quantum simulation of leakage at little computational overhead. We motivate the approximation's validity by showing that incoherence is achieved naturally during repeated stabilizer measurements. Additionally, we provide various simulation results which show that the RPA yields accurate error correction statistics in the repetition and surface codes with physical error parameters.
翻訳日:2023-12-19 17:39:04 公開日:2023-12-16
# 最小作用距離を近似する非対称ノルム

Asymmetric Norms to Approximate the Minimum Action Distance ( http://arxiv.org/abs/2312.10276v1 )

ライセンス: Link先を確認
Lorenzo Steccanella, Anders Jonsson(参考訳) 本稿では,報酬のないマルコフ決定過程の状態表現について述べる。 この考え方は自己監督的な方法で、組込み状態のペア間の距離がそれらの間の遷移に必要な最小のアクション数に対応する埋め込み空間を学ぶことである。 従来の手法とは異なり、本手法では非対称ノルムパラメータ化を取り入れ、固有非対称性を有する環境における最小動作距離の正確な近似を可能にする。 この表現を,目標条件ポリシーの学習に活用し,状態と目標の類似性の概念と,計画の指導に有用なヒューリスティック距離を提供する。 アプローチを検証するため,対称環境と非対称環境の両方で実験を行った。 我々の非対称ノルムパラメトリゼーションは、対称環境における対称ノルムと互換性があり、非対称環境における対称ノルムを超えることを示す。

This paper presents a state representation for reward-free Markov decision processes. The idea is to learn, in a self-supervised manner, an embedding space where distances between pairs of embedded states correspond to the minimum number of actions needed to transition between them. Unlike previous methods, our approach incorporates an asymmetric norm parametrization, enabling accurate approximations of minimum action distances in environments with inherent asymmetry. We show how this representation can be leveraged to learn goal-conditioned policies, providing a notion of similarity between states and goals and a useful heuristic distance to guide planning. To validate our approach, we conduct empirical experiments on both symmetric and asymmetric environments. Our results show that our asymmetric norm parametrization performs comparably to symmetric norms in symmetric environments and surpasses symmetric norms in asymmetric environments.
翻訳日:2023-12-19 17:38:50 公開日:2023-12-16
# 持続可能データ管理:機械可読光データシート(MRPODS)を用いた無期限静止データ

Sustainable Data Management: Indefinite Static Data at Rest with Machine-Readable Printed Optical Data Sheets (MRPODS) ( http://arxiv.org/abs/2312.10275v1 )

ライセンス: Link先を確認
Artem Doll(参考訳) デジタルデータストレージの長寿に商業部門と民間部門の両方がプレミアムを課す時代には、デジタル情報のレジリエンスを高めると同時にコストを抑制し、故障率を下げる手段が最重要視される。 本研究は,デジタルデータに永続的安定性を提供する光学符号化手法のユニークな特性について考察する。 有望な可能性にもかかわらず、その耐久性の観点から様々な光学符号化技術を比較する包括的分析は注目に値する。 そこで本研究では,デジタルデータを機械可読光フォーマットに転写する技術がもたらす経済的・環境的影響について検討し,本手法に固有の利点と限界について検討する。 実験結果から,従来のデジタルストレージ方式よりも機械可読光符号化の効率が著しく向上し,特にデータ量が減少し,ストレージ寿命が無限に長くなることが判明した。 本稿では, 長期デジタルデータストレージの重要側面を, コスト, 信頼度, 正当性, および光エンコードされたデジタル情報の機密性などに着目して照らし出すことを目的とする。

In an era where both commercial and private sectors place a premium on the longevity of digital data storage, the imperative to bolster resilience of digital information while simultaneously curbing costs and reducing failure rates becomes paramount. This study delves into the unique attributes of optical encoding methodologies, which are poised to offer enduring stability for digital data. Despite their promising potential, there remains a notable dearth of comprehensive analyses comparing various optical encoding techniques in terms of their durability. This research is thus dedicated to exploring the financial and environmental implications of employing technology to transcribe digital data into a machine-readable optical format, assessing both the advantages and limitations inherent in this approach. Our empirical findings reveal a marked increase in the efficiency of machine-readable optical encoding over conventional digital storage methods, particularly as the volume of data diminishes and the expected lifespan of storage extends indefinitely. This paper aims to illuminate key aspects of long-term digital data storage within business contexts, focusing on aspects such as cost, dependability, legibility, and confidentiality of optically encoded digital information.
翻訳日:2023-12-19 17:38:36 公開日:2023-12-16
# 演算子学習によるニューラル正規微分方程式のモデル化

Operator-learning-inspired Modeling of Neural Ordinary Differential Equations ( http://arxiv.org/abs/2312.10274v1 )

ライセンス: Link先を確認
Woojin Cho, Seunghyeon Cho, Hyundong Jin, Jinsung Jeon, Kookjin Lee, Sanghyun Hong, Dongeun Lee, Jonghyun Choi, Noseong Park(参考訳) 微分方程式に基づくディープラーニングの最も影響力のある研究の1つであるニューラル常微分方程式(NODE)は、残留ネットワークを連続的に一般化し、新しい場を開くことである。 現在は、画像分類、時系列分類、画像生成など、さまざまな下流タスクに使用されている。 その鍵となる部分は、dh(t)/dtと表記される隠れた状態の時間導出をモデル化する方法である。 人々は従来のニューラルネットワークアーキテクチャ、例えば完全接続層と非線形のアクティベーションを習慣的に使用してきた。 本稿では,時間-導出項を定義するためのニューラル演算子に基づく手法を提案する。 神経演算子は、偏微分方程式(pdes)の微分作用素をモデル化するために最初に提案された。 ノードの時間導出は微分作用素の特殊型として理解することができるので,本手法は分岐フーリエニューラル演算子 (bfno) と呼ばれる。 一般下流タスクを用いた実験では,提案手法は既存手法よりも大幅に優れていた。

Neural ordinary differential equations (NODEs), one of the most influential works of the differential equation-based deep learning, are to continuously generalize residual networks and opened a new field. They are currently utilized for various downstream tasks, e.g., image classification, time series classification, image generation, etc. Its key part is how to model the time-derivative of the hidden state, denoted dh(t)/dt. People have habitually used conventional neural network architectures, e.g., fully-connected layers followed by non-linear activations. In this paper, however, we present a neural operator-based method to define the time-derivative term. Neural operators were initially proposed to model the differential operator of partial differential equations (PDEs). Since the time-derivative of NODEs can be understood as a special type of the differential operator, our proposed method, called branched Fourier neural operator (BFNO), makes sense. In our experiments with general downstream tasks, our method significantly outperforms existing methods.
翻訳日:2023-12-19 17:38:15 公開日:2023-12-16
# 加速度MRIにおける深層学習のロバスト性:横方向トレーニングデータの有用性

Robustness of Deep Learning for Accelerated MRI: Benefits of Diverse Training Data ( http://arxiv.org/abs/2312.10271v1 )

ライセンス: Link先を確認
Kang Lin and Reinhard Heckel(参考訳) 画像再構成のためのディープラーニングベースの手法は、さまざまなイメージングタスクの最先端技術である。 しかし、トレーニングデータが適用されたデータと大きく異なる場合、ニューラルネットワークのパフォーマンスは悪化することが多い。 例えば、あるスキャナー上の加速磁気共鳴イメージング(MRI)のために訓練されたネットワークは、別のスキャナーでさらに悪化する。 本研究では,モデルの性能とmriのロバスト性に及ぼすトレーニングデータの影響について検討する。 異なるMRIスキャナーと解剖学から得られた様々なデータ分布の組み合わせに基づいて訓練されたモデルは、特定の目標分布に対して最適な単一分布で訓練されたモデルと同等かそれ以上の堅牢性を示す。 したがって、多様なデータのトレーニングは堅牢性を改善する傾向にある。 さらに、多様なデータのトレーニングは、分散性能を損なうことはない。つまり、多様なデータでトレーニングされたモデルは、より狭い個々の分布でトレーニングされたモデルと同じくらい、分散性能を得る。 以上の結果から,様々な分布を画像化するためのモデルの訓練は,個別分布の分離モデルを維持するよりも効果的で頑健なモデルになる可能性が示唆された。

Deep learning based methods for image reconstruction are state-of-the-art for a variety of imaging tasks. However, neural networks often perform worse if the training data differs significantly from the data they are applied to. For example, a network trained for accelerated magnetic resonance imaging (MRI) on one scanner performs worse on another scanner. In this work, we investigate the impact of the training data on the model's performance and robustness for accelerated MRI. We find that models trained on the combination of various data distributions, such as those obtained from different MRI scanners and anatomies, exhibit robustness equal or superior to models trained on the best single distribution for a specific target distribution. Thus training on diverse data tends to improve robustness. Furthermore, training on diverse data does not compromise in-distribution performance, i.e., a model trained on diverse data yields in-distribution performance at least as good as models trained on the more narrow individual distributions. Our results suggest that training a model for imaging on a variety of distributions tends to yield a more effective and robust model than maintaining separate models for individual distributions.
翻訳日:2023-12-19 17:37:58 公開日:2023-12-16
# ファジィクラスタリング類似度尺度のランダムモデル

Random Models for Fuzzy Clustering Similarity Measures ( http://arxiv.org/abs/2312.10270v1 )

ライセンス: Link先を確認
Ryan DeWolfe and Jeffery L. Andrews(参考訳) 適応ランダム指数(Adjusted Rand Index, ARI)は、ハードクラスタリングを比較するために広く使われている手法であるが、しばしば暗黙的に残されるランダムモデルを選択する必要がある。 ランドインデックスをファジィクラスタリングに拡張した最近の研究はいくつかあるが、最も一般的なランダムモデルの仮定はファジィ設定において正当化が難しい。 本稿では,ハードクラスタリングとファジィクラスタリングの両方に対して直感的かつ説明可能な3つのランダムモデルを持つariを計算するための単一フレームワークを提案する。 提案モデルの理論と仮定は、既存の置換モデルと対比される。 合成データとベンチマークデータの計算は、それぞれのモデルに異なる振る舞いがあり、結果の信頼性に正確なモデル選択が重要であることを示している。

The Adjusted Rand Index (ARI) is a widely used method for comparing hard clusterings, but requires a choice of random model that is often left implicit. Several recent works have extended the Rand Index to fuzzy clusterings, but the assumptions of the most common random model is difficult to justify in fuzzy settings. We propose a single framework for computing the ARI with three random models that are intuitive and explainable for both hard and fuzzy clusterings, along with the benefit of lower computational complexity. The theory and assumptions of the proposed models are contrasted with the existing permutation model. Computations on synthetic and benchmark data show that each model has distinct behaviour, meaning that accurate model selection is important for the reliability of results.
翻訳日:2023-12-19 17:37:40 公開日:2023-12-16
# dsa transparency database: ソーシャルメディアによる自己報告モデレーション行動の監査

The DSA Transparency Database: Auditing Self-reported Moderation Actions by Social Media ( http://arxiv.org/abs/2312.10269v1 )

ライセンス: Link先を確認
Amaury Trujillo, Tiziano Fagni, Stefano Cresci(参考訳) 2023年9月以降、デジタルサービス法(DSA)は大規模なオンラインプラットフォームに対して、欧州連合(EU)内の各モデレーションに関する詳細なデータをDSA透明性データベースに提出するよう義務付けている。 当初から、この中央集権的なデータベースは、現実世界のオンラインモデレーションに関する前例のない、潜在的にユニークなデータとして、学術的な関心を喚起してきた。 ここでは、データベースの最初の60日間にEUで8大ソーシャルメディアプラットフォームが提出した195.61万件の記録を徹底的に分析する。 具体的には、モデレーションアクションの量、意思決定の根拠、適用制限の種類、モデレーションされたコンテンツの種類、モデレーションアクションの実施と提出のタイムライン、自動化の使用について、プラットフォーム別比較研究を行う。 さらに,データベースの内容とプラットフォーム自身の透明性レポートを体系的に相互チェックする。 私たちの分析によると (i)プラットフォームは、データベースの哲学と構造に一部だけ固執している。 (ii) データベースの構造は、部分的にプラットフォームレポートのニーズに不適切である。 (iii)プラットフォームは、そのモデレーションアクションに実質的な違いを示した。 (iv)データベースデータの顕著な割合は矛盾している。 (v)プラットフォームX(旧Twitter)が最も矛盾している。 我々の発見は様々な分野の政策立案者や学者に広く影響している。 オンラインプラットフォーム全般の報告ニーズに対応する、将来の規制に関するガイダンスを提供すると同時に、データベース自体の改善と洗練の機会を強調する。

Since September 2023, the Digital Services Act (DSA) obliges large online platforms to submit detailed data on each moderation action they take within the European Union (EU) to the DSA Transparency Database. From its inception, this centralized database has sparked scholarly interest as an unprecedented and potentially unique trove of data on real-world online moderation. Here, we thoroughly analyze all 195.61M records submitted by the eight largest social media platforms in the EU during the first 60 days of the database. Specifically, we conduct a platform-wise comparative study of their: volume of moderation actions, grounds for decision, types of applied restrictions, types of moderated content, timeliness in undertaking and submitting moderation actions, and use of automation. Furthermore, we systematically cross-check the contents of the database with the platforms' own transparency reports. Our analyses reveal that (i) the platforms adhered only in part to the philosophy and structure of the database, (ii) the structure of the database is partially inadequate for the platforms' reporting needs, (iii) the platforms exhibited substantial differences in their moderation actions, (iv) a remarkable fraction of the database data is inconsistent, (v) the platform X (formerly Twitter) presents the most inconsistencies. Our findings have far-reaching implications for policymakers and scholars across diverse disciplines. They offer guidance for future regulations that cater to the reporting needs of online platforms in general, but also highlight opportunities to improve and refine the database itself.
翻訳日:2023-12-19 17:37:27 公開日:2023-12-16
# MusER:シンボリック音楽の感情生成のための音楽要素ベース正規化

MusER: Musical Element-Based Regularization for Generating Symbolic Music with Emotion ( http://arxiv.org/abs/2312.10307v1 )

ライセンス: Link先を確認
Shulei Ji and Xinyu Yang(参考訳) 感情による音楽の生成は、時間とともに変化し、互いに協調する様々な音楽要素(ピッチや持続時間など)を通じて感情を誘発する自動音楽生成において重要なタスクである。 しかしながら、深層学習に基づく感情音楽生成に関する先行研究は、感情に対する要素レベルの微粒度制御に起因しない、音楽の感情を変えるためにこれらの要素を意図的に操作することなしに、感情への異なる音楽要素の寄与をほとんど探求していない。 このギャップに対処するために, 潜在空間における音楽的要素に基づく正則化を用いて, 異なる要素を分離し, 感情の識別におけるそれらの役割を調査し, さらに音楽的感情を変化させる要素を操作する新しいアプローチを提案する。 具体的には,新しいVQ-VAEモデルであるMusERを提案する。 MusERは正規化損失を組み込んで、音楽要素列と潜在変数列の特定次元の対応を強制し、離散列をアンタングする新しい解決策を提供する。 切り離された潜在ベクトルの利点を生かして、異なる意味を持つ潜在ベクトルに参加する複数の復号器を含む2段階の復号法が考案された。 潜在空間を可視化することにより、ミューサーは不連続で解釈可能な潜在空間を生じさせ、感情的な次元(すなわち覚醒とヴァレンス)に対する異なる要素の寄与についての洞察を得る。 実験の結果,MusERは客観的および主観的評価の両方で感情音楽を生成する最先端のモデルよりも優れていた。 さらに、要素移動を通して音楽を再配置し、感情の区別可能な要素を伝達することで音楽の感情を変えようとする。

Generating music with emotion is an important task in automatic music generation, in which emotion is evoked through a variety of musical elements (such as pitch and duration) that change over time and collaborate with each other. However, prior research on deep learning-based emotional music generation has rarely explored the contribution of different musical elements to emotions, let alone the deliberate manipulation of these elements to alter the emotion of music, which is not conducive to fine-grained element-level control over emotions. To address this gap, we present a novel approach employing musical element-based regularization in the latent space to disentangle distinct elements, investigate their roles in distinguishing emotions, and further manipulate elements to alter musical emotions. Specifically, we propose a novel VQ-VAE-based model named MusER. MusER incorporates a regularization loss to enforce the correspondence between the musical element sequences and the specific dimensions of latent variable sequences, providing a new solution for disentangling discrete sequences. Taking advantage of the disentangled latent vectors, a two-level decoding strategy that includes multiple decoders attending to latent vectors with different semantics is devised to better predict the elements. By visualizing latent space, we conclude that MusER yields a disentangled and interpretable latent space and gain insights into the contribution of distinct elements to the emotional dimensions (i.e., arousal and valence). Experimental results demonstrate that MusER outperforms the state-of-the-art models for generating emotional music in both objective and subjective evaluation. Besides, we rearrange music through element transfer and attempt to alter the emotion of music by transferring emotion-distinguishable elements.
翻訳日:2023-12-19 17:30:16 公開日:2023-12-16
# カリブ海の気候回復のためのドローン画像からの住宅ストック特性のマッピング

Mapping Housing Stock Characteristics from Drone Images for Climate Resilience in the Caribbean ( http://arxiv.org/abs/2312.10306v1 )

ライセンス: Link先を確認
Isabelle Tingzon, Nuala Margaret Cowan, and Pierre Chrzanowski(参考訳) 住宅備蓄に関する包括的情報は、カリブ海のようなリスクの高い地域での気候災害の悪影響を減らすことを目的とした気候適応イニシアチブにおいて不可欠である。 本研究では,超高解像度ドローン画像とディープラーニング技術を用いて,臨界ベースラインハウジングストックデータを高速に生成するワークフローを提案する。 具体的には、segment anythingモデルと畳み込みニューラルネットワークを活用し、建物足跡の自動生成と屋根分類マップを構築した。 この研究は、AIと地球観測に基づくソリューションを活用する政府機関内のローカル能力を強化することで、カリブ海の小さな島開発州における住宅セクターの耐気候性を向上させることを目指している。

Comprehensive information on housing stock is crucial for climate adaptation initiatives aiming to reduce the adverse impacts of climate-extreme hazards in high-risk regions like the Caribbean. In this study, we propose a workflow for rapidly generating critical baseline housing stock data using very high-resolution drone images and deep learning techniques. Specifically, our work leverages the Segment Anything Model and convolutional neural networks for the automated generation of building footprints and roof classification maps. By strengthening local capacity within government agencies to leverage AI and Earth Observation-based solutions, this work seeks to improve the climate resilience of the housing sector in small island developing states in the Caribbean.
翻訳日:2023-12-19 17:29:43 公開日:2023-12-16
# ロバスト目標音声抽出のための自己教師付き遠交表現学習

Self-Supervised Disentangled Representation Learning for Robust Target Speech Extraction ( http://arxiv.org/abs/2312.10305v1 )

ライセンス: Link先を確認
Zhaoxi Mu, Xinyu Yang, Sining Sun, Qing Yang(参考訳) 音声信号は、大域的な音響特性と局所的な意味情報の両方を含むため、本質的に複雑である。 しかし、ターゲット音声抽出のタスクでは、話者識別とは無関係な参照音声における大域的・局所的な意味情報の特定の要素は、音声抽出ネットワーク内で話者の混乱を引き起こす可能性がある。 この課題を克服するために,自己教師付き不整合表現学習法を提案する。 提案手法は、参照音声符号化ネットワークとグローバル情報アンタングルネットワークを利用して、2段階のプロセスでこの問題に取り組み、話者識別情報を他の無関係要素から徐々に切り離す。 音声抽出ネットワークを導出するために,不等角話者識別情報のみを用いる。 さらに、適応変調変換器を導入し、混合信号の音響的表現が話者埋め込みによって乱れないようにする。 本コンポーネントは,話者埋め込みを条件情報として組み込むことにより,自然かつ効率的な音声抽出ネットワークのための指導を行う。 実験の結果, 注意深いアプローチの有効性が示され, 話者の混乱の可能性が大幅に低下した。

Speech signals are inherently complex as they encompass both global acoustic characteristics and local semantic information. However, in the task of target speech extraction, certain elements of global and local semantic information in the reference speech, which are irrelevant to speaker identity, can lead to speaker confusion within the speech extraction network. To overcome this challenge, we propose a self-supervised disentangled representation learning method. Our approach tackles this issue through a two-phase process, utilizing a reference speech encoding network and a global information disentanglement network to gradually disentangle the speaker identity information from other irrelevant factors. We exclusively employ the disentangled speaker identity information to guide the speech extraction network. Moreover, we introduce the adaptive modulation Transformer to ensure that the acoustic representation of the mixed signal remains undisturbed by the speaker embeddings. This component incorporates speaker embeddings as conditional information, facilitating natural and efficient guidance for the speech extraction network. Experimental results substantiate the effectiveness of our meticulously crafted approach, showcasing a substantial reduction in the likelihood of speaker confusion.
翻訳日:2023-12-19 17:29:30 公開日:2023-12-16
# 長期の公正制約を考慮したオンラインレスマルチアーマーバンド

Online Restless Multi-Armed Bandits with Long-Term Fairness Constraints ( http://arxiv.org/abs/2312.10303v1 )

ライセンス: Link先を確認
Shufan Wang, Guojun Xiong, Jian Li(参考訳) Restless Multi-armed bandits (RMAB) は、制約のある逐次決定問題をモデル化するために広く用いられている。 意思決定者(dm)は、マルコフ決定過程(mdp)に従って各アームの状態が確率的に進化する任意の決定期において、最大bアームを活性化できる「即時活性化制約」の下で、無限の地平線上で期待される総報酬を最大化することを目指している。 しかし、この基本モデルは武器間の公平性を保証することができない。 本稿では, RMAB-Fモデルについて述べる。RMAB-Fは「長期公正性制約」を持つ新しいRMABモデルであり, 各アームに対する最小の長期活性化率を満たすことを目的としている。 オンラインRMAB-F設定(つまり、各腕に付随するMDPがDMに未知である)に対して、Fair-UCRLという新しい強化学習アルゴリズムを開発する。 Fair-UCRLは、報酬の後悔と公正性違反の両面において、確率的サブリニア境界を保証することを証明している。 既定のrl法と比較して、我々のフェアucrlは、意思決定に低複雑さのインデックスポリシーを利用する新しいエクスプロイトを含んでいるため、計算効率がはるかに高い。 実験の結果,Fair-UCRLの有効性がさらに示された。

Restless multi-armed bandits (RMAB) have been widely used to model sequential decision making problems with constraints. The decision maker (DM) aims to maximize the expected total reward over an infinite horizon under an "instantaneous activation constraint" that at most B arms can be activated at any decision epoch, where the state of each arm evolves stochastically according to a Markov decision process (MDP). However, this basic model fails to provide any fairness guarantee among arms. In this paper, we introduce RMAB-F, a new RMAB model with "long-term fairness constraints", where the objective now is to maximize the long term reward while a minimum long-term activation fraction for each arm must be satisfied. For the online RMAB-F setting (i.e., the underlying MDPs associated with each arm are unknown to the DM), we develop a novel reinforcement learning (RL) algorithm named Fair-UCRL. We prove that Fair-UCRL ensures probabilistic sublinear bounds on both the reward regret and the fairness violation regret. Compared with off-the-shelf RL methods, our Fair-UCRL is much more computationally efficient since it contains a novel exploitation that leverages a low-complexity index policy for making decisions. Experimental results further demonstrate the effectiveness of our Fair-UCRL.
翻訳日:2023-12-19 17:29:12 公開日:2023-12-16
# 大規模言語モデルのためのインストラクションデータプロスペクタとしてのショット学習

One Shot Learning as Instruction Data Prospector for Large Language Models ( http://arxiv.org/abs/2312.10302v1 )

ライセンス: Link先を確認
Yunshui Li, Binyuan Hui, Xiaobo Xia, Jiaxi Yang, Min Yang, Lei Zhang, Shuzheng Si, Junhao Liu, Tongliang Liu, Fei Huang, Yongbin Li(参考訳) 大規模言語モデル(LLM)を人間に適応させることは、幅広い言語タスクで事前訓練された能力を効果的に活用するための重要なステップである。 現在の命令チューニングのプラクティスは、データ品質を保証する明確な戦略を持たずにデータセットのサイズを拡大することに依存していることが多い。 この課題に対処するために,1ショット学習を用いて拡張型データセットから高品質な命令データを選択する,新しい効率的な手法であるnuggetsを紹介する。 Nuggetsは、個別のインストラクション例が効果的な1ショットの例として機能する可能性を評価し、多様なタスクパフォーマンスを著しく向上できるものを特定する。 nuggetsは、様々なアンカーセットのパープレキシティに対する候補例の影響に基づくスコアリングシステムを利用し、命令チューニングにおいて最も有益なデータの選択を容易にする。 MT-Bench と Alpaca-Eval を含む2つのベンチマークの厳密なテストを通じて,Nuggets が生成した例の上位1% の命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていることを示す。 これらの知見は、LLMと人間を協調するより効率的な経路を提供する、品質を優先するデータ選択パラダイムを提唱している。

Aligning large language models(LLMs) with human is a critical step in effectively utilizing their pre-trained capabilities across a wide array of language tasks. Current instruction tuning practices often rely on expanding dataset size without a clear strategy for ensuring data quality, which can inadvertently introduce noise and degrade model performance. To address this challenge, we introduce Nuggets, a novel and efficient methodology that employs one shot learning to select high-quality instruction data from expansive datasets. Nuggets assesses the potential of individual instruction examples to act as effective one shot examples, thereby identifying those that can significantly enhance diverse task performance. Nuggets utilizes a scoring system based on the impact of candidate examples on the perplexity of a diverse anchor set, facilitating the selection of the most beneficial data for instruction tuning. Through rigorous testing on two benchmarks, including MT-Bench and Alpaca-Eval, we demonstrate that instruction tuning with the top 1% of Nuggets-curated examples substantially outperforms conventional methods that use the full dataset. These findings advocate for a data selection paradigm that prioritizes quality, offering a more efficient pathway to align LLMs with humans.
翻訳日:2023-12-19 17:28:46 公開日:2023-12-16
# Shot2Story20K: マルチショットビデオの理解のための新しいベンチマーク

Shot2Story20K: A New Benchmark for Comprehensive Understanding of Multi-shot Videos ( http://arxiv.org/abs/2312.10300v1 )

ライセンス: Link先を確認
Mingfei Han, Xiaojun Chang, Heng Wang, Linjie Yang(参考訳) 短いビデオクリップには、複数のイベントの進行と興味深いストーリーラインが含まれている。 人間はすべてのショットでイベントをキャプチャし、その背後にあるストーリーを理解するためにそれらを関連付ける必要があります。 本稿では,マルチショット映像理解ベンチマークShot2Story20Kについて紹介する。 映像の意味理解を容易にするために,視覚信号と人間のナレーションの両方にキャプションを提供する。 単発ビデオやナレーションキャプション,マルチショットビデオ要約,ショット記述によるビデオ検索など,さまざまなタスクを設計する。 予備実験は、長く包括的なビデオ要約を生成するためのいくつかの課題を示している。 それでも、生成した不完全な要約は、ビデオ質問回答などの既存のビデオ理解タスクのパフォーマンスを著しく向上させ、詳細な要約によるビデオ理解の未探索設定を促進することができる。

A short clip of video may contain progression of multiple events and an interesting story line. A human need to capture both the event in every shot and associate them together to understand the story behind it. In this work, we present a new multi-shot video understanding benchmark Shot2Story20K with detailed shot-level captions and comprehensive video summaries. To facilitate better semantic understanding of videos, we provide captions for both visual signals and human narrations. We design several distinct tasks including single-shot video and narration captioning, multi-shot video summarization, and video retrieval with shot descriptions. Preliminary experiments show some challenges to generate a long and comprehensive video summary. Nevertheless, the generated imperfect summaries can already significantly boost the performance of existing video understanding tasks such as video question-answering, promoting an under-explored setting of video understanding with detailed summaries.
翻訳日:2023-12-19 17:28:23 公開日:2023-12-16
# 一般オルンシュタイン・ウレンベック橋による画像復元

Image Restoration Through Generalized Ornstein-Uhlenbeck Bridge ( http://arxiv.org/abs/2312.10299v1 )

ライセンス: Link先を確認
Conghan Yue, Zhengwei Peng, Junlong Ma, Shiyan Du, Pengxu Wei, Dongyu Zhang(参考訳) 拡散モデルは、逆確率微分方程式を用いたデータへのノイズのマッピングを可能にする強力な生成能力を有する。 しかし,画像復元作業では,低画質画像から高画質画像へのマッピング関係に着目した。 これを解決するために、我々はGeneralized Ornstein-Uhlenbeck Bridge (GOUB)モデルを導入した。 一般化ou過程の自然な平均反転特性を活用し、doobのh変換を通じてその定常分布の分散をさらに調整することにより、最小コストで点から点への拡散写像を実現する。 これにより、エンドツーエンドのトレーニングが可能になり、低品質の画像から高品質なイメージを回復することができる。 さらに,GOUBの特殊な事例である橋梁モデルの数学的性質を明らかにし,提案モデルの有効性を実証的に実証した。 さらに,パラメータ化機構の特長を生かして,画素レベル情報や構造知覚の把握に優れた平均値モデルを提案した。 実験の結果, 両モデルとも最新の結果が得られ, インペインティング, デライン, スーパーレゾリューションなど様々な課題が得られた。 コードはhttps://github.com/Hammour-steak/GOUB.comで入手できる。

Diffusion models possess powerful generative capabilities enabling the mapping of noise to data using reverse stochastic differential equations. However, in image restoration tasks, the focus is on the mapping relationship from low-quality images to high-quality images. To address this, we introduced the Generalized Ornstein-Uhlenbeck Bridge (GOUB) model. By leveraging the natural mean-reverting property of the generalized OU process and further adjusting the variance of its steady-state distribution through the Doob's h-transform, we achieve diffusion mappings from point to point with minimal cost. This allows for end-to-end training, enabling the recovery of high-quality images from low-quality ones. Additionally, we uncovered the mathematical essence of some bridge models, all of which are special cases of the GOUB and empirically demonstrated the optimality of our proposed models. Furthermore, benefiting from our distinctive parameterization mechanism, we proposed the Mean-ODE model that is better at capturing pixel-level information and structural perceptions. Experimental results show that both models achieved state-of-the-art results in various tasks, including inpainting, deraining, and super-resolution. Code is available at https://github.com/Hammour-steak/GOUB.
翻訳日:2023-12-19 17:28:08 公開日:2023-12-16
# 量子回路評価のための集積量子ビット再利用と回路切断

Integrated Qubit Reuse and Circuit Cutting for Large Quantum Circuit Evaluation ( http://arxiv.org/abs/2312.10298v1 )

ライセンス: Link先を確認
Aditya Pawar, Yingheng Li, Zewei Mo, Yanan Guo, Youtao Zhang, Xulong Tang, Jun Yang(参考訳) 量子コンピューティングは、多くのアプリケーションドメインの有望なコンピューティングパラダイムとして最近登場した。 しかし、高忠実度で動作可能な量子回路のサイズは、物理的量子ビットの量と品質の制限によって制限される。 最近提案されたワイヤカットやqubitの再利用といったスキームは問題を緩和するが、個別に問題に対処することで最適以下の結果が得られる。 さらに、代替の回路切断戦略であるゲートカットは、この分野では十分に研究されていない。 本稿では,qubitの再利用と回路切断(ワイヤ切断やゲート切断を含む)を活用し,小型量子コンピュータ上で大規模回路を動作させるicicを提案する。 回路切断技術は、切断数で指数関数的に増加する、不要な後処理オーバーヘッドを導入する。 iqrcはqubitの再利用を利用して、カット数を最小限に抑えるためのより良いカットソリューションを見つける。 評価の結果, ゲートカットを考慮した場合, カット数を平均34 %削減し, 追加減算を行った。

Quantum computing has recently emerged as a promising computing paradigm for many application domains. However, the size of quantum circuits that can run with high fidelity is constrained by the limited quantity and quality of physical qubits. Recently proposed schemes, such as wire cutting and qubit reuse, mitigate the problem but produce sub-optimal results as they address the problem individually. In addition, gate cutting, an alternative circuit-cutting strategy, has not been fully explored in the field. In this paper, we propose IQRC, an integrated approach that exploits qubit reuse and circuit cutting (including wire cutting and gate cutting) to run large circuits on small quantum computers. Circuit-cutting techniques introduce non-negligible post-processing overhead, which increases exponentially with the number of cuts. IQRC exploits qubit reuse to find better cutting solutions to minimize the cut numbers and thus the post-processing overhead. Our evaluation results show that on average we reduce the number of cuts by 34\% and additional reduction when considering gate cuts.
翻訳日:2023-12-19 17:27:49 公開日:2023-12-16
# ソフトウェアエンジニアリング固有のメタファーとイディオムのシェディングライト

Shedding Light on Software Engineering-specific Metaphors and Idioms ( http://arxiv.org/abs/2312.10297v1 )

ライセンス: Link先を確認
Mia Mohammad Imran, Preetha Chatterjee, and Kostadin Damevski(参考訳) 比喩やイディオムのような比喩的な言語の使用は、日々のコミュニケーションでは一般的であり、GitHubでのコメントなど、ソフトウェア工学(SE)のチャネルでも見ることができる。 現代の大規模言語モデル(LLM)でさえも、しばしば微妙なニュアンスを伴うため、図形言語の自動解釈は難しい作業である。 これは特にseドメインにおいて当てはまり、フィギュラティブ言語は技術的な概念を伝えるために頻繁に使われ、しばしば開発者に影響を与える(例えば'spaghetti code')。 驚くべきことに、SEコミュニケーションにおける図形言語が開発者のコミュニケーションを理解することに焦点を当てた自動ツールのパフォーマンスに与える影響についての研究が不足している。 さらに、最先端のLLMがソフトウェア工学のようなドメイン固有のコミュニケーションにおける図式表現をどの程度解釈するかについては、オープンな疑問である。 このギャップに対処するために,SE通信チャネルにおける図形言語の普及と影響について検討する。 本研究は,SEにおける図形言語の役割,LLMの解釈における可能性,および自動SE通信解析への影響の理解に寄与する。 本研究は,SE言語を用いた微調整LDMの有効性と,影響のある自動化タスクに対する潜在的影響を示すものである。 最先端のllmが3つある中で、最も改善された微調整バージョンは、githubの感情分類データセットで平均6.66%、githubのインキュビティ分類データセットで7.07%、bugzillaのバグレポート優先順位データセットで3.71%改善されていることが分かりました。

Use of figurative language, such as metaphors and idioms, is common in our daily-life communications, and it can also be found in Software Engineering (SE) channels, such as comments on GitHub. Automatically interpreting figurative language is a challenging task, even with modern Large Language Models (LLMs), as it often involves subtle nuances. This is particularly true in the SE domain, where figurative language is frequently used to convey technical concepts, often bearing developer affect (e.g., `spaghetti code'). Surprisingly, there is a lack of studies on how figurative language in SE communications impacts the performance of automatic tools that focus on understanding developer communications, e.g., bug prioritization, incivility detection. Furthermore, it is an open question to what extent state-of-the-art LLMs interpret figurative expressions in domain-specific communication such as software engineering. To address this gap, we study the prevalence and impact of figurative language in SE communication channels. This study contributes to understanding the role of figurative language in SE, the potential of LLMs in interpreting them, and its impact on automated SE communication analysis. Our results demonstrate the effectiveness of fine-tuning LLMs with figurative language in SE and its potential impact on automated tasks that involve affect. We found that, among three state-of-the-art LLMs, the best improved fine-tuned versions have an average improvement of 6.66% on a GitHub emotion classification dataset, 7.07% on a GitHub incivility classification dataset, and 3.71% on a Bugzilla bug report prioritization dataset.
翻訳日:2023-12-19 17:27:34 公開日:2023-12-16
# パスベースニューラルネットワークを用いた知識グラフの帰納的リンク予測

Inductive Link Prediction in Knowledge Graphs using Path-based Neural Networks ( http://arxiv.org/abs/2312.10293v1 )

ライセンス: Link先を確認
Canlin Zhang and Xiuwen Liu(参考訳) リンク予測は知識グラフにおいて重要な研究領域であり、多くの下流アプリケーションがある。 多くの実世界のシナリオでは、インダクティブリンク予測が必要であり、未知のエンティティ間で予測を行う必要がある。 埋め込みベースのモデルは通常、新しいエンティティの埋め込みを微調整する必要があるため、帰納的リンク予測タスクに直接適用することは困難である。 ルールベースのモデルによってキャプチャされた論理ルールは、同じグラフ型を持つ新しいエンティティに直接適用することができるが、キャプチャされたルールは離散的であり、通常は寛大さを欠いている。 グラフニューラルネットワーク(GNN)は、ディープニューラルネットワークを利用してトポロジ情報を新しいグラフに一般化することができるが、それでも新しいエンティティの埋め込みを微調整する必要がある。 本稿では,シアムニューラルネットワークを用いた帰納的リンク予測のための経路ベースモデル siailp を提案する。 我々のモデルは関係と経路埋め込みにのみ依存しており、微調整なしで新しいエンティティに一般化することができる。 実験の結果, wn18rr, fb15k-237, nell995のインダクティブバージョンを用いてリンク予測タスクにおいて, 最新の性能が得られた。

Link prediction is a crucial research area in knowledge graphs, with many downstream applications. In many real-world scenarios, inductive link prediction is required, where predictions have to be made among unseen entities. Embedding-based models usually need fine-tuning on new entity embeddings, and hence are difficult to be directly applied to inductive link prediction tasks. Logical rules captured by rule-based models can be directly applied to new entities with the same graph typologies, but the captured rules are discrete and usually lack generosity. Graph neural networks (GNNs) can generalize topological information to new graphs taking advantage of deep neural networks, which however may still need fine-tuning on new entity embeddings. In this paper, we propose SiaILP, a path-based model for inductive link prediction using siamese neural networks. Our model only depends on relation and path embeddings, which can be generalized to new entities without fine-tuning. Experiments show that our model achieves several new state-of-the-art performances in link prediction tasks using inductive versions of WN18RR, FB15k-237, and Nell995.
翻訳日:2023-12-19 17:27:02 公開日:2023-12-16
# 多目的最適化のためのSMS-EMOAの実行時解析

Runtime Analysis of the SMS-EMOA for Many-Objective Optimization ( http://arxiv.org/abs/2312.10290v1 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr(参考訳) 広く使われている多目的最適化器NSGA-IIは、最近多目的最適化においてかなり困難であることが証明された。 これとは対照的に,実験結果からSMS-EMOAの性能は良好であり,第2選択基準として群集距離の代わりに超体積寄与を用いた定常NSGA-IIと見なすことができる。 本稿では,多目的最適化のためのSMS-EMOAの厳密な実行時解析を行う。 そこで本研究では,まず,2目的OJZJベンチマークの m-目的 mOJZJ 問題である多目的 mOJZJ 問題を数学的ランタイム解析に用いた最初の多目的マルチモーダルベンチマークを提案する。 SMS-EMOAは、このベンチマークの全Paretoフロントを$O(M^2 n^k)$イテレーションで計算し、$n$は問題サイズ(ビットストリング表現の長さ)、$kはギャップサイズ(問題の難易度パラメータ)、$M=(2n/m-2k+3)^{m/2}はParetoフロントのサイズである。 この結果と既存のNSGA-IIの負の結果は、原則としてNSGA-IIの一般的なアプローチは多目的最適化に適しているが、タイブレーカとしての群集距離には欠点があることを示している。 SMS-EMOAについてさらに3つの知見を得た。 bi-objective ojzjベンチマークの最近の結果とは異なり、確率的人口更新はmojzjにはあまり役に立たない。 1/\Theta(\min\{Mk^{1/2}/2^{k/2},1\})$スピードアップとなり、$m>k$のような大きな$m$に対して$\Theta(1)$となる。 正の面では、重く尾のついた突然変異がそれでも$k^{0.5+k-\beta}$のスピードアップをもたらすことを証明します。 最後に、二目的のOneMinMaxとLOTZベンチマークでSMS-EMOAの最初のランタイム解析を行い、GSEMOとNSGA-IIに匹敵する性能を示す。

The widely used multiobjective optimizer NSGA-II was recently proven to have considerable difficulties in many-objective optimization. In contrast, experimental results in the literature show a good performance of the SMS-EMOA, which can be seen as a steady-state NSGA-II that uses the hypervolume contribution instead of the crowding distance as the second selection criterion. This paper conducts the first rigorous runtime analysis of the SMS-EMOA for many-objective optimization. To this aim, we first propose a many-objective counterpart, the m-objective mOJZJ problem, of the bi-objective OJZJ benchmark, which is the first many-objective multimodal benchmark used in a mathematical runtime analysis. We prove that SMS-EMOA computes the full Pareto front of this benchmark in an expected number of $O(M^2 n^k)$ iterations, where $n$ denotes the problem size (length of the bit-string representation), $k$ the gap size (a difficulty parameter of the problem), and $M=(2n/m-2k+3)^{m/2}$ the size of the Pareto front. This result together with the existing negative result on the original NSGA-II shows that in principle, the general approach of the NSGA-II is suitable for many-objective optimization, but the crowding distance as tie-breaker has deficiencies. We obtain three additional insights on the SMS-EMOA. Different from a recent result for the bi-objective OJZJ benchmark, the stochastic population update often does not help for mOJZJ. It results in a $1/\Theta(\min\{Mk^{1/2}/2^{k/2},1\})$ speed-up, which is $\Theta(1)$ for large $m$ such as $m>k$. On the positive side, we prove that heavy-tailed mutation still results in a speed-up of order $k^{0.5+k-\beta}$. Finally, we conduct the first runtime analyses of the SMS-EMOA on the bi-objective OneMinMax and LOTZ benchmarks and show that it has a performance comparable to the GSEMO and the NSGA-II.
翻訳日:2023-12-19 17:26:43 公開日:2023-12-16
# ロバスト建築制御のためのアクティブ強化学習

Active Reinforcement Learning for Robust Building Control ( http://arxiv.org/abs/2312.10289v1 )

ライセンス: Link先を確認
Doseok Jang, Larry Yan, Lucas Spangher, Costas Spanos(参考訳) 強化学習(RL)は最適な制御のための強力なツールであり、Atariゲーム、Goのゲーム、ロボット制御、構築最適化で大きな成功を収めている。 エージェントはトレーニング環境に過度に適合し、新しい設定への一般化に失敗することが多い。 教師なし環境設計 (unsupervised environment design, ued) は、エージェントが学習を助けるために特別に選択された環境を訓練するこの問題の解決策として提案されている。 以前のUEDアルゴリズムは、大規模な環境分布にまたがって一般化するRLエージェントのトレーニングに重点を置いていた。 これは、ある環境でパフォーマンスを他の環境よりも優先したい場合、必ずしも望ましいものではない。 本研究では, 極度の気象条件に対して頑健でありながら, 正常な天候下での良好な性能を優先するRLエージェントを訓練する, 頑健なRLビルディングコントロールの設定について検討する。 本研究では,不確実性を考慮したニューラル・ネットワーク・アーキテクチャを用いて,rlエージェントの能力の限界で新たなトレーニング環境を生成する新しいuedアルゴリズムであるactiveplrを提案する。 この結果から,ActivePLRはエネルギー使用量を最小限に抑えつつ,建物制御の際の快適さを最大化しながら,最先端のUEDアルゴリズムより優れることを示す。

Reinforcement learning (RL) is a powerful tool for optimal control that has found great success in Atari games, the game of Go, robotic control, and building optimization. RL is also very brittle; agents often overfit to their training environment and fail to generalize to new settings. Unsupervised environment design (UED) has been proposed as a solution to this problem, in which the agent trains in environments that have been specially selected to help it learn. Previous UED algorithms focus on trying to train an RL agent that generalizes across a large distribution of environments. This is not necessarily desirable when we wish to prioritize performance in one environment over others. In this work, we will be examining the setting of robust RL building control, where we wish to train an RL agent that prioritizes performing well in normal weather while still being robust to extreme weather conditions. We demonstrate a novel UED algorithm, ActivePLR, that uses uncertainty-aware neural network architectures to generate new training environments at the limit of the RL agent's ability while being able to prioritize performance in a desired base environment. We show that ActivePLR is able to outperform state-of-the-art UED algorithms in minimizing energy usage while maximizing occupant comfort in the setting of building control.
翻訳日:2023-12-19 17:25:41 公開日:2023-12-16
# su(2)$離散部分群に対する原始量子ゲート:二進八面体

Primitive Quantum Gates for an $SU(2)$ Discrete Subgroup: Binary Octahedral ( http://arxiv.org/abs/2312.10285v1 )

ライセンス: Link先を確認
Erik J. Gustafson, Henry Lamm, Felicity Lovelace(参考訳) 我々は、48要素の2元オクタヘドラル(\mathbb{BO}$)群のデジタル量子シミュレーションのための原始ゲートセットを構築する。 この非可換離散群は、二元四面体群に対する以前の研究よりも、1ゲージリンクあたり1キュービット(合計6ビット)のコストで、su(2)$格子ゲージ理論を近似する。 必要なプリミティブは、反転ゲート、群乗法ゲート、トレースゲート、および$\mathbb{BO}$フーリエ変換である。

We construct a primitive gate set for the digital quantum simulation of the 48-element binary octahedral ($\mathbb{BO}$) group. This nonabelian discrete group better approximates $SU(2)$ lattice gauge theory than previous work on the binary tetrahedral group at the cost of one additional qubit -- for a total of six -- per gauge link. The necessary primitives are the inversion gate, the group multiplication gate, the trace gate, and the $\mathbb{BO}$ Fourier transform.
翻訳日:2023-12-19 17:24:59 公開日:2023-12-16
# RetailKLIP : ゼロショット製品画像分類のための単一のGPUを用いたメトリック学習によるOpenCLIPバックボーンの微細化

RetailKLIP : Finetuning OpenCLIP backbone using metric learning on a single GPU for Zero-shot retail product image classification ( http://arxiv.org/abs/2312.10282v1 )

ライセンス: Link先を確認
Muktabh Mayank Srivastava(参考訳) 小売商品やパッケージ商品の画像は、セルフチェックアウトストア、サプライチェーン自動化、小売実行評価など、さまざまなコンピュータビジョンアプリケーションで分類する必要がある。 これまでの研究は、この目的のために深いモデルを微調整する方法を探っている。 しかし、事前訓練されたバックボーン用の大型モデルやリニアレイヤーを微調整する場合、分類範囲に追加された新しい小売商品ごとに、少なくとも数エポックな勾配勾配を必要とするため、現実のシナリオでは頻繁なリトレーニングが必要である。 本研究では,クリップモデルの視覚エンコーダを,その埋め込みを最寄りの近傍の分類に容易に利用できるように微調整すると同時に,完全な微調整に近い精度を得る手法を提案する。 最寄りの隣り合う分類器は、新製品の漸進的な訓練を必要とせず、リソースと待ち時間を節約できる。

Retail product or packaged grocery goods images need to classified in various computer vision applications like self checkout stores, supply chain automation and retail execution evaluation. Previous works explore ways to finetune deep models for this purpose. But because of the fact that finetuning a large model or even linear layer for a pretrained backbone requires to run at least a few epochs of gradient descent for every new retail product added in classification range, frequent retrainings are needed in a real world scenario. In this work, we propose finetuning the vision encoder of a CLIP model in a way that its embeddings can be easily used for nearest neighbor based classification, while also getting accuracy close to or exceeding full finetuning. A nearest neighbor based classifier needs no incremental training for new products, thus saving resources and wait time.
翻訳日:2023-12-19 17:24:14 公開日:2023-12-16
# グラフ神経拡散ネットワークのための電荷保存法

A charge-preserving method for solving graph neural diffusion networks ( http://arxiv.org/abs/2312.10279v1 )

ライセンス: Link先を確認
Lidia Aceto and Pietro Antonio Grassi(参考訳) 本研究の目的は,グラフニューラルネットワーク(GNN)モデルに基づく拡散問題の数学的体系的な解釈を提供することである。 我々のアプローチの出発点は、モデルの対称性を研究することができる動的方程式につながる散逸関数である。 保存電荷について考察し, 動的方程式を解くための電荷保存数値解法を提案する。 任意の力学系およびグラフニューラルネットワーク拡散(grand)において、電荷値とその進化の流れに沿った保存を知ることは、gnnや他のネットワークが学習能力をどのように扱うかを理解する手段となる。

The aim of this paper is to give a systematic mathematical interpretation of the diffusion problem on which Graph Neural Networks (GNNs) models are based. The starting point of our approach is a dissipative functional leading to dynamical equations which allows us to study the symmetries of the model. We discuss the conserved charges and provide a charge-preserving numerical method for solving the dynamical equations. In any dynamical system and also in GRAph Neural Diffusion (GRAND), knowing the charge values and their conservation along the evolution flow could provide a way to understand how GNNs and other networks work with their learning capabilities.
翻訳日:2023-12-19 17:23:45 公開日:2023-12-16
# ProTIP: プログレッシブツール検索が計画を改善する

ProTIP: Progressive Tool Retrieval Improves Planning ( http://arxiv.org/abs/2312.10332v1 )

ライセンス: Link先を確認
Raviteja Anantha, Bortik Bandyopadhyay, Anirudh Kashi, Sayantan Mahinder, Andrew W Hill, Srinivas Chappidi(参考訳) 大規模言語モデル(LLM)は、ツール検索(TR)ステップが成功の達成に不可欠である複雑な多段階計画タスクにますます採用されている。 trの2つの一般的なアプローチは、完全なクエリを利用するシングルステップ検索と、完全なクエリを個別のアトミックサブタスクに分割するタスク分解(td)を用いたシーケンシャル検索である。 シングルステップ検索は"インターツール依存性"を扱う柔軟性を欠いているが、tdアプローチではツールボックスが動的に進化できるため、"サブタスクとツールのアライメント"を維持する必要がある。 これらの制約に対処するために,Progressive Tool Search to Improve Planning (ProTIP)フレームワークを紹介する。 protipは、サブタスクラベルの明示的な必要なしに暗黙的にtdを実行する軽量でコントラストのある学習ベースのフレームワークである。 ToolBenchデータセットでは、ProTIPがChatGPTタスク分解ベースのアプローチを著しく上回り、TRのRecall@K=10が24%改善され、プラン生成のためのツール精度が41%向上した。

Large language models (LLMs) are increasingly employed for complex multi-step planning tasks, where the tool retrieval (TR) step is crucial for achieving successful outcomes. Two prevalent approaches for TR are single-step retrieval, which utilizes the complete query, and sequential retrieval using task decomposition (TD), where a full query is segmented into discrete atomic subtasks. While single-step retrieval lacks the flexibility to handle "inter-tool dependency," the TD approach necessitates maintaining "subtask-tool atomicity alignment," as the toolbox can evolve dynamically. To address these limitations, we introduce the Progressive Tool retrieval to Improve Planning (ProTIP) framework. ProTIP is a lightweight, contrastive learning-based framework that implicitly performs TD without the explicit requirement of subtask labels, while simultaneously maintaining subtask-tool atomicity. On the ToolBench dataset, ProTIP outperforms the ChatGPT task decomposition-based approach by a remarkable margin, achieving a 24% improvement in Recall@K=10 for TR and a 41% enhancement in tool accuracy for plan generation.
翻訳日:2023-12-19 17:18:03 公開日:2023-12-16
# 制約付きブロック-リーマン最適化におけるブロック偏極最小化の収束と複雑性

Convergence and complexity of block majorization-minimization for constrained block-Riemannian optimization ( http://arxiv.org/abs/2312.10330v1 )

ライセンス: Link先を確認
Yuchen Li, Laura Balzano, Deanna Needell, Hanbaek Lyu(参考訳) bmm (block majorization-minimization) は非凸最適化のための単純な反復アルゴリズムで、各ブロック座標における目的関数のメジャー化サーロゲートを順次最小化し、他のブロック座標を固定する。 我々は、各パラメータブロックがリーマン多様体の部分集合内で制約される滑らかな非凸対象を最小化するbmmアルゴリズムの族を考える。 このアルゴリズムは定常点の集合に漸近的に収束し、$\widetilde{O}(\epsilon^{-2})$ iterations 内で $\epsilon$-stationary point を得る。 特に、我々の複雑性の仮定は、基礎となる多様体がユークリッド多様体またはスティーフェル多様体の積であるとき、完全にユークリッドである。 一般解析はリーマン制約のある広い範囲のアルゴリズムに適用できる:リーマンmm,ブロック投影勾配降下,楽観的確率推定,測地制約付き部分空間追跡,ロバストpca,リーマンcp-ディクショナリー学習。 我々は,我々のアルゴリズムがリーマン設定に適用された標準ユークリッドアルゴリズムよりも早く収束することを実験的に検証した。

Block majorization-minimization (BMM) is a simple iterative algorithm for nonconvex optimization that sequentially minimizes a majorizing surrogate of the objective function in each block coordinate while the other block coordinates are held fixed. We consider a family of BMM algorithms for minimizing smooth nonconvex objectives, where each parameter block is constrained within a subset of a Riemannian manifold. We establish that this algorithm converges asymptotically to the set of stationary points, and attains an $\epsilon$-stationary point within $\widetilde{O}(\epsilon^{-2})$ iterations. In particular, the assumptions for our complexity results are completely Euclidean when the underlying manifold is a product of Euclidean or Stiefel manifolds, although our analysis makes explicit use of the Riemannian geometry. Our general analysis applies to a wide range of algorithms with Riemannian constraints: Riemannian MM, block projected gradient descent, optimistic likelihood estimation, geodesically constrained subspace tracking, robust PCA, and Riemannian CP-dictionary-learning. We experimentally validate that our algorithm converges faster than standard Euclidean algorithms applied to the Riemannian setting.
翻訳日:2023-12-19 17:17:40 公開日:2023-12-16
# 神経格付けモデルの摂動不変逆行訓練:有効性-ロバスト性トレードオフの改善

Perturbation-Invariant Adversarial Training for Neural Ranking Models: Improving the Effectiveness-Robustness Trade-Off ( http://arxiv.org/abs/2312.10329v1 )

ライセンス: Link先を確認
Yu-An Liu, Ruqing Zhang, Mingkun Zhang, Wei Chen, Maarten de Rijke, Jiafeng Guo, Xueqi Cheng(参考訳) ニューラルランキングモデル(NRM)は情報検索(IR)において大きな成功を収めている。 しかし、それらの予測は、正統な文書に不可避な摂動を加えることで、敵の例を使って容易に操作できる。 この脆弱性は信頼性に大きな懸念をもたらし、NEMの広範な展開を妨げる。 敵の例をトレーニングデータに組み込むことで、敵の訓練はNRMに対する敵の攻撃に対する事実上の防御手法となっている。 しかし、この防御機構は有効性と敵対的ロバスト性の間のトレードオフとなる。 本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。 我々は,ロバストランキングエラーを2つの構成要素,すなわち,効率評価のための自然なランキングエラーと,逆ロバスト性を評価する境界ランキングエラーに分解する。 次に、ランキングモデルの摂動不変性を定義し、到達可能な計算のために境界ランキング誤差の微分可能上限であることを証明する。 理論解析により,より優れた有効ロバスト性トレードオフを実現するために,モデルランキングのための新しいPIAT法を設計した。 我々は、正規化サロゲート損失を設計し、一方の項は効率を最大化し、一方の項は正則化項は出力を滑らかにし、敵の堅牢性を改善する。 いくつかのランキングモデルによる実験結果から, PITA は既存の敵防衛よりも優れていることが示された。

Neural ranking models (NRMs) have shown great success in information retrieval (IR). But their predictions can easily be manipulated using adversarial examples, which are crafted by adding imperceptible perturbations to legitimate documents. This vulnerability raises significant concerns about their reliability and hinders the widespread deployment of NRMs. By incorporating adversarial examples into training data, adversarial training has become the de facto defense approach to adversarial attacks against NRMs. However, this defense mechanism is subject to a trade-off between effectiveness and adversarial robustness. In this study, we establish theoretical guarantees regarding the effectiveness-robustness trade-off in NRMs. We decompose the robust ranking error into two components, i.e., a natural ranking error for effectiveness evaluation and a boundary ranking error for assessing adversarial robustness. Then, we define the perturbation invariance of a ranking model and prove it to be a differentiable upper bound on the boundary ranking error for attainable computation. Informed by our theoretical analysis, we design a novel \emph{perturbation-invariant adversarial training} (PIAT) method for ranking models to achieve a better effectiveness-robustness trade-off. We design a regularized surrogate loss, in which one term encourages the effectiveness to be maximized while the regularization term encourages the output to be smooth, so as to improve adversarial robustness. Experimental results on several ranking models demonstrate the superiority of PITA compared to existing adversarial defenses.
翻訳日:2023-12-19 17:17:18 公開日:2023-12-16
# 双足歩行の象徴的行動記述から強化学習への報酬の導出

Deriving Rewards for Reinforcement Learning from Symbolic Behaviour Descriptions of Bipedal Walking ( http://arxiv.org/abs/2312.10328v1 )

ライセンス: Link先を確認
Daniel Harnack, Christoph L\"uth, Lukas Gross, Shivesh Kumar, Frank Kirchner(参考訳) 記号的記述から物理運動行動を生成することは、人工知能(AI)とロボット工学における長年にわたる課題であり、数値最適化手法や、記号的AIや推論からの形式化に関する洞察を必要とする。 本稿では,シンボル記述から報酬関数を求める新しい手法を提案する。 システム動作はハイブリッドオートマトンとしてモデル化され、システムの状態空間を小さくし、より効率的な強化学習を可能にする。 この手法は二足歩行に適用され、歩行ロボットを状態空間オーサント上のハイブリッドオートマトンとしてモデル化し、コンパスウォーカーを用いてハイブリッドオートマトンサイクルの後にインセンティブを与える報酬を導出する。 これにより、最終歩行速度を増加させながら強化学習コントローラの訓練時間を短縮する。 このアプローチは、象徴的なAIと推論から報酬関数を生成する方法の青写真として機能する。

Generating physical movement behaviours from their symbolic description is a long-standing challenge in artificial intelligence (AI) and robotics, requiring insights into numerical optimization methods as well as into formalizations from symbolic AI and reasoning. In this paper, a novel approach to finding a reward function from a symbolic description is proposed. The intended system behaviour is modelled as a hybrid automaton, which reduces the system state space to allow more efficient reinforcement learning. The approach is applied to bipedal walking, by modelling the walking robot as a hybrid automaton over state space orthants, and used with the compass walker to derive a reward that incentivizes following the hybrid automaton cycle. As a result, training times of reinforcement learning controllers are reduced while final walking speed is increased. The approach can serve as a blueprint how to generate reward functions from symbolic AI and reasoning.
翻訳日:2023-12-19 17:16:53 公開日:2023-12-16
# レーザー冷却原子を用いた5s5p$ ^3 P_0 \rightarrow 5s5d$ ^3 D_1 $遷移の分光

Spectroscopy of the $5s5p$ $ ^3 P_0 \rightarrow 5s5d$ $ ^3 D_1 $ transition of strontium using laser cooled atoms ( http://arxiv.org/abs/2312.10327v1 )

ライセンス: Link先を確認
Kushal Patel, Palki Gakkhar, Korak Biswas, S Sagar Maurya, Pranab Dutta, Vishal Lal, Brajesh Mani, and Umakant D Rapol(参考訳) 本稿では,レーザー冷却sr原子の全同位体における 5s5p{\;^3}p_0 \rightarrow 5s5d{\;^3}d_1$ 遷移の分光結果と,この遷移の再現への応用について述べる。 5s5p{\;^{3} p_{0}} \rightarrow 5s5d{\;^3}d_1 $ (483 nm) 遷移と 5s5p{\;^3}p_2 \rightarrow 5s6s{\;^3}s_1$ (707 nm) 遷移の励起を組み合わせることで、磁気光学トラップ (mt) における原子の定常状態数が大幅に増加するのを観測した。 この強化は、暗黒状態の5s5p{\;^3}p_2$状態へと崩壊したsr原子を、他の状態に損失を伴わずに5s^2{\;^1}s_0$の基底状態に戻すことで効率良く再現することに起因する。 絶対遷移周波数は30MHzの絶対精度で測定された。 そこで我々は,SrにおけるパラメータのFock空間相対論的結合クラスタ計算を行った。 さらに, 計算特性の精度を高めるため, ブライト, QED, 摂動三重項の補正も行った。 応答状態に対する計算された分岐比は、${^3}P_1$状態において著しく増加する人口を確認する。 これにより、反跳の強化により閉じ込められた原子の数が増加した。 計算した超微細スプリッティングエネルギーは測定値とよく一致している。 さらに, 遷移周波数の計算した同位体シフトは, 測定値とよく一致している。

This article presents spectroscopy results of the $5s5p{\;^3}P_0 \rightarrow 5s5d{\;^3}D_1$ transition in all isotopes of laser cooled Sr atoms and the utility of this transition for repumping application. By employing the $5s5p{\;^{3} P_{0}} \rightarrow 5s5d{\;^3}D_1 $ (483 nm) transition in combination with the excitation of $5s5p{\;^3}P_2 \rightarrow 5s6s{\;^3}S_1$ (707 nm) transition, we observe a significant increase ($\sim$ 13 fold) in the steady state number of atoms in the magneto-optic trap (MOT). This enhancement is attributed to the efficient repumping of Sr atoms that have decayed into the dark $5s5p{\;^3}P_2$ state by returning them to the ground state $5s^2{\;^1}S_0$ without any loss into the other states. The absolute transition frequencies were measured with an absolute accuracy of 30 MHz. To support our measurements, we performed Fock-space relativistic coupled-cluster calculations of the relevant parameters in Sr. To further increase the accuracy of the calculated properties, corrections from the Breit, QED and perturbative triples were also included. The calculated branching ratio for the repumping state confirms the significantly increased population in the ${^3}P_1$ state. Thereby, leading to an increase of population of atoms trapped due to the enhanced repumping. Our calculated hyperfine-splitting energies are in excellent agreement with the measured values. Moreover, our calculated isotope shifts in the transition frequencies are in good agreement with our measured values.
翻訳日:2023-12-19 17:16:36 公開日:2023-12-16
# 自己注意を超えたシーケンスレコメンデーションのための注意的インダクティブバイアス

An Attentive Inductive Bias for Sequential Recommendation Beyond the Self-Attention ( http://arxiv.org/abs/2312.10325v1 )

ライセンス: Link先を確認
Yehjin Shin, Jeongwhan Choi, Hyowon Wi, Noseong Park(参考訳) トランスフォーマーに基づく逐次レコメンデーション(SR)モデルは、目覚ましい成功を収めた。 コンピュータビジョンと自然言語処理のためのトランスフォーマーの自己着脱機構は、過度に滑らかな問題、すなわちトークンに類似した隠れた表現に苦しむ。 srドメインでは、私たちは初めて同じ問題が発生することを示します。 我々は,SRにおける自己注意の低パスフィルタの性質を明らかにする先駆的な研究を行い,過度なスムーシングを引き起こす。 そこで本研究では,Fourier変換を利用したBSARec(Beyond Self-Attention for Sequential Recommendation)という新しい手法を提案する。 一 微粒な連続パターンを考慮し、誘導バイアスを注入すること 二 過密を緩和するために低周波情報を統合すること。 我々の発見は、SRドメインの大幅な進歩を示し、既存のTransformerベースのSRモデルのギャップを埋めることが期待されている。 提案手法は,6つのベンチマークデータセットの広範な実験を通じて検証する。 実験の結果,提案モデルがレコメンデーション性能で7つのベースラインメソッドを上回った。

Sequential recommendation (SR) models based on Transformers have achieved remarkable successes. The self-attention mechanism of Transformers for computer vision and natural language processing suffers from the oversmoothing problem, i.e., hidden representations becoming similar to tokens. In the SR domain, we, for the first time, show that the same problem occurs. We present pioneering investigations that reveal the low-pass filtering nature of self-attention in the SR, which causes oversmoothing. To this end, we propose a novel method called Beyond Self-Attention for Sequential Recommendation (BSARec), which leverages the Fourier transform to i) inject an inductive bias by considering fine-grained sequential patterns and ii) integrate low and high-frequency information to mitigate oversmoothing. Our discovery shows significant advancements in the SR domain and is expected to bridge the gap for existing Transformer-based SR models. We test our proposed approach through extensive experiments on 6 benchmark datasets. The experimental results demonstrate that our model outperforms 7 baseline methods in terms of recommendation performance.
翻訳日:2023-12-19 17:15:54 公開日:2023-12-16
# インスタンス依存型ノイズラベルによるフェデレーション学習

Federated Learning with Instance-Dependent Noisy Labels ( http://arxiv.org/abs/2312.10324v1 )

ライセンス: Link先を確認
Lei Wang, Jieming Bian, Jie Xu(参考訳) ノイズの多いラベルを持つフェデレートラーニング(FL)は大きな課題となる。 集中学習でノイズの多いラベルを扱うために設計された既存の手法は、主に小さなデータセットサイズとクライアントデータの多様性のため、fl設定においてその効果を失う傾向がある。 FLをノイズラベルで扱う試みはいくつかあるが、主にクラス条件ノイズを含むシナリオに焦点を当てている。 本稿では,flにおけるインスタンス依存雑音(idn)のより困難かつ実用的な課題について検討する。 我々はFedBeat (Federated Learning with Bayesian Ensemble-Assisted transition Matrix Estimation)と呼ばれる新しいアルゴリズムを導入する。 FedBeatは,(1)弱いグローバルモデルを構築し,ベイズモデルアンサンブル法を用いて高信頼データを抽出するフェデレーションデータ抽出ステップを含む,IDN遷移行列(IDNTM)を用いて,グローバルな統計的に一貫した分類器を構築することを目的としている。 2) クライアントが抽出したデータに基づいてIDNTM推定ネットワークを協調的に訓練するフェデレーション遷移行列推定ステップ。 (3)IDNTMを利用して,雑音ラベルに適した損失関数を用いて,グローバルモデルの性能を向上させるフェデレーション分類器補正ステップ。 CIFAR-10 と SVHN で行った実験により,提案手法が最先端手法を著しく上回ることを確認した。

Federated learning (FL) with noisy labels poses a significant challenge. Existing methods designed for handling noisy labels in centralized learning tend to lose their effectiveness in the FL setting, mainly due to the small dataset size and the heterogeneity of client data. While some attempts have been made to tackle FL with noisy labels, they primarily focused on scenarios involving class-conditional noise. In this paper, we study the more challenging and practical issue of instance-dependent noise (IDN) in FL. We introduce a novel algorithm called FedBeat (Federated Learning with Bayesian Ensemble-Assisted Transition Matrix Estimation). FedBeat aims to build a global statistically consistent classifier using the IDN transition matrix (IDNTM), which encompasses three synergistic steps: (1) A federated data extraction step that constructs a weak global model and extracts high-confidence data using a Bayesian model ensemble method. (2) A federated transition matrix estimation step in which clients collaboratively train an IDNTM estimation network based on the extracted data. (3) A federated classifier correction step that enhances the global model's performance by training it using a loss function tailored for noisy labels, leveraging the IDNTM. Experiments conducted on CIFAR-10 and SVHN verify that the proposed method significantly outperforms state-of-the-art methods.
翻訳日:2023-12-19 17:15:35 公開日:2023-12-16
# 離散的プロンプトの線形結合による連続的プロンプト生成

Continuous Prompt Generation from Linear Combination of Discrete Prompt Embeddings ( http://arxiv.org/abs/2312.10323v1 )

ライセンス: Link先を確認
Pascal Passigan, Kidus Yohannes, Joshua Pereira(参考訳) 継続的プロンプトの経時的品質は、予想外の予測不可能な振る舞いがトレーニング後に現れるため、その解釈可能性の重要性を強調している。 本稿では,離散的プロンプト埋め込みによる連続的プロンプトの構築方法を提案し,連続的プロンプト解釈可能性と推論精度の改善を評価する。 手動で設計した離散プロンプトのセット$\mathcal{D}$に対して、各プロンプトをテンソル形式にトークン化し、これらのプロンプトの線形結合が自然言語理解タスクのより高い性能に対応するような重みを予測するモデルを訓練する。

The wayward quality of continuous prompts stresses the importance of their interpretability as unexpected and unpredictable behaviors appear following training, especially in the context of large language models automating people-sensitive tasks such as resume screening. In this paper we present a novel method of constructing continuous prompts via discrete prompt embeddings and evaluate improvements to continuous prompt interpretability and inference accuracy. For a set of manually designed discrete prompts $\mathcal{D}$, which we tokenize each into tensor form, we train a model to predict the weights such that the linear combinations of those prompts correspond to higher performance on natural language understanding tasks.
翻訳日:2023-12-19 17:15:11 公開日:2023-12-16
# LLM-SQL-Solver: LLMはSQL等価性を決定できるか?

LLM-SQL-Solver: Can LLMs Determine SQL Equivalence? ( http://arxiv.org/abs/2312.10321v1 )

ライセンス: Link先を確認
Fuheng Zhao, Lawrence Lim, Ishtiyaque Ahmad, Divyakant Agrawal, Amr El Abbadi(参考訳) 2つのSQLクエリの等価性を判断することは、データ管理とSQL生成(つまり、テキストからSQLタスクで生成されたSQLクエリの品質を評価する)における多くの実践的なアプリケーションにとって、根本的な問題である。 研究コミュニティは、SQLの同値性について何十年も推論してきたが、かなりの困難を伴い、完全なソリューションは存在しない。 近年,Large Language Models (LLMs) は,会話や質問応答,数学の課題解決に強い推論能力を示している。 本稿では,sqlクエリ間の等価性を,sql同値の2つの概念(semantic equivalence と relaxed equivalence)の下で決定するために llms が使用可能かどうかについて検討する。 LLMの高品質な応答生成を支援するために,Miniature & Mull と Explain & Compare の2つのプロンプト技術を提案する。 前者の手法は、LCMに単純なデータベースインスタンス上でクエリを実行させ、データベースを変更することで逆例が存在するかどうかを探索する意味等価性を評価するために使用される。 後者の手法は、LLMにクエリの説明を依頼し、重要な論理的違いがあるかどうかを比較するという緩和された等価性を評価するために用いられる。 LLMsは、セマンティックに等価なSQLクエリを書くのに役立つ有望なツールですが、課題はまだ続きますし、一般的な実行精度よりもSQL生成を評価するための優れた指標です。

Judging the equivalence between two SQL queries is a fundamental problem with many practical applications in data management and SQL generation (i.e., evaluating the quality of generated SQL queries in text-to-SQL task). While the research community has reasoned about SQL equivalence for decades, it poses considerable difficulties and no complete solutions exist. Recently, Large Language Models (LLMs) have shown strong reasoning capability in conversation, question answering and solving mathematics challenges. In this paper, we study if LLMs can be used to determine the equivalence between SQL queries under two notions of SQL equivalence (semantic equivalence and relaxed equivalence). To assist LLMs in generating high quality responses, we present two prompting techniques: Miniature & Mull and Explain & Compare. The former technique is used to evaluate the semantic equivalence in which it asks LLMs to execute a query on a simple database instance and then explore if a counterexample exists by modifying the database. The latter technique is used to evaluate the relaxed equivalence in which it asks LLMs to explain the queries and then compare if they contain significant logical differences. Our experiments demonstrate using our techniques, LLMs is a promising tool to help data engineers in writing semantically equivalent SQL queries, however challenges still persist, and is a better metric for evaluating SQL generation than the popular execution accuracy.
翻訳日:2023-12-19 17:14:56 公開日:2023-12-16
# ゼロショットスケッチに基づく画像検索のための対称的双方向知識アライメント

Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based Image Retrieval ( http://arxiv.org/abs/2312.10320v1 )

ライセンス: Link先を確認
Decheng Liu, Xu Luo, Chunlei Peng, Nannan Wang, Ruimin Hu, Xinbo Gao(参考訳) 本稿では,未発見のカテゴリからのスケッチを,同一カテゴリの画像にマッチするクエリとして使用することを目的とした,ゼロショット・スケッチベース画像検索(zs-sbir)の問題について検討する。 ZS-SBIRは、モダリティの相違が大きいため、依然として困難な課題であり、現実的なゼロショットシナリオを模倣している。 鍵となるのは、トレーニング済みモデルから転送可能な知識を活用して、一般化可能性を改善することだ。 既存の研究者はしばしば、固定パラメータを持つ教師モデルからの簡単な微調整訓練戦略や知識蒸留を利用しており、生徒モデルと教師モデルの効果的な双方向知識アライメントを欠いている。 本稿では,ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。 対称的双方向知識アライメント学習フレームワークは、教師と生徒の相互に豊かな識別情報を効果的に学習し、知識アライメントの目標を達成するように設計されている。 テスト段階での1対1のクロスモダリティマッチングの代わりに、クラス内画像の固有の関係を利用して既存のモダリティギャップの悪影響を低減する1対1のクラスタクロスモダリティマッチング法が提案されている。 いくつかの代表的なZS-SBIRデータセット(Sketchy Ext データセット、TU-Berlin Ext データセット、QuickDraw Ext データセット)の実験により、提案アルゴリズムは最先端の手法と比較して優れた性能が得られることを示した。

This paper studies the problem of zero-shot sketch-based image retrieval (ZS-SBIR), which aims to use sketches from unseen categories as queries to match the images of the same category. Due to the large cross-modality discrepancy, ZS-SBIR is still a challenging task and mimics realistic zero-shot scenarios. The key is to leverage transferable knowledge from the pre-trained model to improve generalizability. Existing researchers often utilize the simple fine-tuning training strategy or knowledge distillation from a teacher model with fixed parameters, lacking efficient bidirectional knowledge alignment between student and teacher models simultaneously for better generalization. In this paper, we propose a novel Symmetrical Bidirectional Knowledge Alignment for zero-shot sketch-based image retrieval (SBKA). The symmetrical bidirectional knowledge alignment learning framework is designed to effectively learn mutual rich discriminative information between teacher and student models to achieve the goal of knowledge alignment. Instead of the former one-to-one cross-modality matching in the testing stage, a one-to-many cluster cross-modality matching method is proposed to leverage the inherent relationship of intra-class images to reduce the adverse effects of the existing modality gap. Experiments on several representative ZS-SBIR datasets (Sketchy Ext dataset, TU-Berlin Ext dataset and QuickDraw Ext dataset) prove the proposed algorithm can achieve superior performance compared with state-of-the-art methods.
翻訳日:2023-12-19 17:14:31 公開日:2023-12-16
# 端端端端結合性学習と静止状態fMRI分類のための時空間DAG畳み込みネットワーク

Spatial-Temporal DAG Convolutional Networks for End-to-End Joint Effective Connectivity Learning and Resting-State fMRI Classification ( http://arxiv.org/abs/2312.10317v1 )

ライセンス: Link先を確認
Rui Yang, Wenrui Dai, Huajun She, Yiping P. Du, Dapeng Wu, Hongkai Xiong(参考訳) 総合的な脳コネクトームの構築は、静止状態fMRI(rs-fMRI)解析において根本的な重要性を証明している。 脳ネットワークの基礎から、空間時間に基づくグラフ畳み込みネットワークは、rs-fMRI時系列分類におけるディープラーニング手法の性能を劇的に改善した。 しかし、既存の研究は、脳ネットワークを生の時系列に由来する相関行列として事前に定義するか、トポロジーの制約なしにコネクトームとモデルパラメータを共同学習するかのどちらかである。 これらの方法は、内因性脳の接続性から逸脱することによる分類性能の低下と、脳領域間の因果構造(すなわち効果的な接続性)を示す生物学的解釈能力の欠如に悩まされる可能性がある。 また,既存手法の多くは下流分類課題を意識せず,有用なrs-fmriラベル情報を十分に活用できない。 これらの問題をエンドツーエンドに解決するために、脳ネットワークを有向非循環グラフ(DAG)としてモデル化し、脳領域間の直接因果関係を探索し、非線形構造方程式モデルに基づいて、実効接続性を推定し、rs-fMRI時系列を分類する空間時間DAG畳み込みネットワーク(ST-DAGCN)を提案する。 最適化問題は連続プログラムに定式化され、勾配降下によるスコアベース学習法で解決される。 2つの公開rs-fMRIデータベース上でST-DAGCNを評価する。 ST-DAGCNは、rs-fMRI分類において明らかなマージンによって既存のモデルよりも優れており、同時に脳疾患の脳活動パターンや病理機構を理解するのに役立つ効果的な接続の意義を学習している。

Building comprehensive brain connectomes has proved of fundamental importance in resting-state fMRI (rs-fMRI) analysis. Based on the foundation of brain network, spatial-temporal-based graph convolutional networks have dramatically improved the performance of deep learning methods in rs-fMRI time series classification. However, existing works either pre-define the brain network as the correlation matrix derived from the raw time series or jointly learn the connectome and model parameters without any topology constraint. These methods could suffer from degraded classification performance caused by the deviation from the intrinsic brain connectivity and lack biological interpretability of demonstrating the causal structure (i.e., effective connectivity) among brain regions. Moreover, most existing methods for effective connectivity learning are unaware of the downstream classification task and cannot sufficiently exploit useful rs-fMRI label information. To address these issues in an end-to-end manner, we model the brain network as a directed acyclic graph (DAG) to discover direct causal connections between brain regions and propose Spatial-Temporal DAG Convolutional Network (ST-DAGCN) to jointly infer effective connectivity and classify rs-fMRI time series by learning brain representations based on nonlinear structural equation model. The optimization problem is formulated into a continuous program and solved with score-based learning method via gradient descent. We evaluate ST-DAGCN on two public rs-fMRI databases. Experiments show that ST-DAGCN outperforms existing models by evident margins in rs-fMRI classification and simultaneously learns meaningful edges of effective connectivity that help understand brain activity patterns and pathological mechanisms in brain disease.
翻訳日:2023-12-19 17:14:02 公開日:2023-12-16
# DeepCalliFont:デュアルモダリティ生成モデルの統合による中国語書体合成

DeepCalliFont: Few-shot Chinese Calligraphy Font Synthesis by Integrating Dual-modality Generative Models ( http://arxiv.org/abs/2312.10314v1 )

ライセンス: Link先を確認
Yitian Liu, Zhouhui Lian(参考訳) 特に中国語のフォントのフォント生成は困難で、進行中の課題である。 グリフ整合性仮定を主とする先行知識の助けを借りて,最近提案された手法により,高品質な中国のグリフ画像の合成が可能となった。 しかし、字体のグリフはしばしばこれらの仮定を満たさない。 この問題に対処するために,双対モダリティ生成モデルを統合することで,漢文フォント合成のための新しいモデルであるdeepcallifontを提案する。 具体的には、画像合成とシーケンス生成の分岐から構成し、双対モダリティ表現学習戦略によって一貫した結果を生成する。 特徴組換えモジュールとラスタ化損失関数を用いて、2つのモード(グリフ画像と書き込みシーケンス)を適切に統合する。 さらに、大量のユニモダリティデータを活用し、パフォーマンスを向上させるための新しい事前学習戦略が採用されている。 本手法の質的および定量的な実験は, 漢文フォント合成における他の最先端手法よりも優れていることを示すために行われた。 ソースコードはhttps://github.com/lsflyt-pku/DeepCalliFontにある。

Few-shot font generation, especially for Chinese calligraphy fonts, is a challenging and ongoing problem. With the help of prior knowledge that is mainly based on glyph consistency assumptions, some recently proposed methods can synthesize high-quality Chinese glyph images. However, glyphs in calligraphy font styles often do not meet these assumptions. To address this problem, we propose a novel model, DeepCalliFont, for few-shot Chinese calligraphy font synthesis by integrating dual-modality generative models. Specifically, the proposed model consists of image synthesis and sequence generation branches, generating consistent results via a dual-modality representation learning strategy. The two modalities (i.e., glyph images and writing sequences) are properly integrated using a feature recombination module and a rasterization loss function. Furthermore, a new pre-training strategy is adopted to improve the performance by exploiting large amounts of uni-modality data. Both qualitative and quantitative experiments have been conducted to demonstrate the superiority of our method to other state-of-the-art approaches in the task of few-shot Chinese calligraphy font synthesis. The source code can be found at https://github.com/lsflyt-pku/DeepCalliFont.
翻訳日:2023-12-19 17:13:30 公開日:2023-12-16
# STELLAR: 屋内局所化による時間変動とデバイス不均一性克服のためのシームズマルチヘッドアテンションニューラルネットワーク

STELLAR: Siamese Multi-Headed Attention Neural Networks for Overcoming Temporal Variations and Device Heterogeneity with Indoor Localization ( http://arxiv.org/abs/2312.10312v1 )

ライセンス: Link先を確認
Danish Gufran, Saideep Tiku, and Sudeep Pasricha(参考訳) スマートフォンベースの屋内ローカライゼーションは、モバイルおよびIoTデバイスを屋内でローカライズするためのコスト効率と正確なソリューションとして登場した。 しかし、デバイスの不均一性と時間変動の課題は、その普及と精度を妨げている。 これらの課題を包括的に解決するために、我々は、シームズマルチヘッドアテンションニューラルネットワークを活用したコントラスト学習アプローチを実装する新しいフレームワークであるSTELLARを提案する。 STELLARは、モデルの再トレーニング(再校正自由)を必要とせず、デバイスの不均一性と時間的変動を同時に対処する最初のソリューションである。 多様な屋内環境における評価結果から,デバイスの不均一性課題を効果的に解決するために,最先端技術と比較して8~75%精度が向上した。 さらに、STELLARは2年間の時間変動で既存の手法を18-165%上回り、その堅牢性と適応性を示している。

Smartphone-based indoor localization has emerged as a cost-effective and accurate solution to localize mobile and IoT devices indoors. However, the challenges of device heterogeneity and temporal variations have hindered its widespread adoption and accuracy. Towards jointly addressing these challenges comprehensively, we propose STELLAR, a novel framework implementing a contrastive learning approach that leverages a Siamese multi-headed attention neural network. STELLAR is the first solution that simultaneously tackles device heterogeneity and temporal variations in indoor localization, without the need for retraining the model (re-calibration-free). Our evaluations across diverse indoor environments show 8-75% improvements in accuracy compared to state-of-the-art techniques, to effectively address the device heterogeneity challenge. Moreover, STELLAR outperforms existing methods by 18-165% over 2 years of temporal variations, showcasing its robustness and adaptability.
翻訳日:2023-12-19 17:13:11 公開日:2023-12-16
# scbignn:単細胞rnaシーケンシングデータからの細胞型分類のための2レベルグラフ表現学習

scBiGNN: Bilevel Graph Representation Learning for Cell Type Classification from Single-cell RNA Sequencing Data ( http://arxiv.org/abs/2312.10310v1 )

ライセンス: Link先を確認
Rui Yang, Wenrui Dai, Chenglin Li, Junni Zou, Dapeng Wu, Hongkai Xiong(参考訳) シングルセルRNAシークエンシング(scRNA-seq)技術は、複雑な生物の細胞多様性と動態を研究するために、高スループットな遺伝子発現データを提供する。 グラフニューラルネットワーク(GNN)は、cRNA-seq解析において解決すべき根本的な問題である自動細胞型分類に広く用いられている。 しかし、既存の手法では遺伝子と細胞の関係を十分に活用できないため、gnnの真のポテンシャルは実現されていない。 本研究では,遺伝子と細胞レベルの関係を同時にマイニングし,より正確な単一細胞分類を行うための2レベルグラフ表現学習手法である scBiGNN を提案する。 具体的には、scBiGNNは2つのGNNモジュールから構成され、細胞型を識別する。 遺伝子レベルgnnは、自己アテンション機構を介して遺伝子-遺伝子相互作用および細胞表現を適応的に学習するために確立され、遺伝子レベルgnnが生成する細胞表現から構築された細胞-細胞グラフ上に細胞レベルgnnが構築される。 多数のセルを処理するためのスケーラビリティ問題に取り組むために、scbignnはeステップとmステップで交互に2つのモジュールを訓練し、相互に学習する期待最大化(em)フレームワークを採用している。 この相互作用を通じて、遺伝子と細胞レベルの構造情報を統合し、GNNモジュールの分類性能を徐々に向上させる。 ベンチマークデータセットを用いた実験により,scbignnはscrna-seqデータから細胞型を分類する既存の手法よりも優れていることが示された。

Single-cell RNA sequencing (scRNA-seq) technology provides high-throughput gene expression data to study the cellular heterogeneity and dynamics of complex organisms. Graph neural networks (GNNs) have been widely used for automatic cell type classification, which is a fundamental problem to solve in scRNA-seq analysis. However, existing methods do not sufficiently exploit both gene-gene and cell-cell relationships, and thus the true potential of GNNs is not realized. In this work, we propose a bilevel graph representation learning method, named scBiGNN, to simultaneously mine the relationships at both gene and cell levels for more accurate single-cell classification. Specifically, scBiGNN comprises two GNN modules to identify cell types. A gene-level GNN is established to adaptively learn gene-gene interactions and cell representations via the self-attention mechanism, and a cell-level GNN builds on the cell-cell graph that is constructed from the cell representations generated by the gene-level GNN. To tackle the scalability issue for processing a large number of cells, scBiGNN adopts an Expectation Maximization (EM) framework in which the two modules are alternately trained via the E-step and M-step to learn from each other. Through this interaction, the gene- and cell-level structural information is integrated to gradually enhance the classification performance of both GNN modules. Experiments on benchmark datasets demonstrate that our scBiGNN outperforms a variety of existing methods for cell type classification from scRNA-seq data.
翻訳日:2023-12-19 17:12:52 公開日:2023-12-16
# 医用時系列におけるイベントベースコントラスト学習

Event-Based Contrastive Learning for Medical Time Series ( http://arxiv.org/abs/2312.10308v1 )

ライセンス: Link先を確認
Hyewon Jeong, Nassim Oufattole, Aparna Balagopalan, Matthew Mcdermott, Payal Chandak, Marzyeh Ghassemi, Collin Stultz(参考訳) 臨床実践では、患者が重要な医療イベント後の副作用のリスクが高いか、例えば、心不全の入院後の短期的死亡のリスクが高いかを特定する必要があることが多い。 しかし、この課題は、特に心不全などの慢性疾患に苦しむ個人にとって、縦断的医療データの複雑さ、変動性、不均一性のため、依然として困難である。 本稿では,鍵指標イベント前後の時間情報を保存する異種患者データの埋め込みを学習するためのイベントベースコントラスト学習(EBCL)を紹介する。 EBCLは,30日間の了解,1年間の死亡,1週間の滞留期間を含む重要な下流業務において,重要な医療イベントを取り巻く時間的情報を利用していない他の表現学習手法と比較して,より微調整性能の高いモデルを生成することを示した。

In clinical practice, one often needs to identify whether a patient is at high risk of adverse outcomes after some key medical event; e.g., the short-term risk of death after an admission for heart failure. This task, however, remains challenging due to the complexity, variability, and heterogeneity of longitudinal medical data, especially for individuals suffering from chronic diseases like heart failure. In this paper, we introduce Event-Based Contrastive Learning (EBCL) - a method for learning embeddings of heterogeneous patient data that preserves temporal information before and after key index events. We demonstrate that EBCL produces models that yield better fine-tuning performance on critical downstream tasks including 30-day readmission, 1-year mortality, and 1-week length of stay relative to other representation learning methods that do not exploit temporal information surrounding key medical events.
翻訳日:2023-12-19 17:12:24 公開日:2023-12-16
# 計量空間における比例表現と低歪み委員会選定

Proportional Representation in Metric Spaces and Low-Distortion Committee Selection ( http://arxiv.org/abs/2312.10369v1 )

ライセンス: Link先を確認
Yusuf Hakan Kalayci and David Kempe and Vikram Kher(参考訳) 我々は、計量空間内のより大きな集合の「表現可能」である k 点の小さな集合 r に対する新しい定義を導入する。 Given a set V (e.g., documents or voters) to represent, and a set C of possible representatives, our criterion requires that for any subset S comprising a theta fraction of V, the average distance of S to their best theta*k points in R should not be more than a factor gamma compared to their average distance to the best theta*k points among all of C. This definition is a strengthening of proportional fairness and core fairness, but - different from those notions - requires that large cohesive clusters be represented proportionally to their size. ガンマが多項式的に大きければ、解は存在しないので、この概念を資源増強フレームワークで研究し、k の集合 R に対する制約を、α > 1 の場合、そのサイズが k/alpha であるかのように暗黙的に記述する。 アルゴリズムは V の各点 v に対してのみ学習し、c, c' の各候補対 c, c' は v に近づき、Aziz と Lee の expanding Approvals Rule (EAR) は gamma <= 1 + 6.71 * (alpha)/(alpha-1) で表される。 私たちの結果は3つの顕著な副産物をもたらす。 まず、 EAR は順序性モデルにおいて一定の比例フェアネスを達成し、順序性情報を用いた計量比例フェアネスの最初の正の値を与える。 第二に, コアフェアネスの目標として, 資源増強と近似の漸近的トレードオフを, li 等が測定値の知識を十分に活用した最近の結果と同等に達成していることを示す。 最後に, 測定値の歪みが最大44。

We introduce a novel definition for a small set R of k points being "representative" of a larger set in a metric space. Given a set V (e.g., documents or voters) to represent, and a set C of possible representatives, our criterion requires that for any subset S comprising a theta fraction of V, the average distance of S to their best theta*k points in R should not be more than a factor gamma compared to their average distance to the best theta*k points among all of C. This definition is a strengthening of proportional fairness and core fairness, but - different from those notions - requires that large cohesive clusters be represented proportionally to their size. Since there are instances for which - unless gamma is polynomially large - no solutions exist, we study this notion in a resource augmentation framework, implicitly stating the constraints for a set R of size k as though its size were only k/alpha, for alpha > 1. Furthermore, motivated by the application to elections, we mostly focus on the "ordinal" model, where the algorithm does not learn the actual distances; instead, it learns only for each point v in V and each candidate pairs c, c' which of c, c' is closer to v. Our main result is that the Expanding Approvals Rule (EAR) of Aziz and Lee is (alpha, gamma) representative with gamma <= 1 + 6.71 * (alpha)/(alpha-1). Our results lead to three notable byproducts. First, we show that the EAR achieves constant proportional fairness in the ordinal model, giving the first positive result on metric proportional fairness with ordinal information. Second, we show that for the core fairness objective, the EAR achieves the same asymptotic tradeoff between resource augmentation and approximation as the recent results of Li et al., which used full knowledge of the metric. Finally, our results imply a very simple single-winner voting rule with metric distortion at most 44.
翻訳日:2023-12-19 17:06:51 公開日:2023-12-16
# Fusing Conditional Submodular GAN and Programmatic Weak Supervision

Fusing Conditional Submodular GAN and Programmatic Weak Supervision ( http://arxiv.org/abs/2312.10366v1 )

ライセンス: Link先を確認
Kumar Shubham, Pranav Sastry, Prathosh AP(参考訳) PWS(Programmatic Weak Supervision)と生成モデルは、研究者が退屈なデータ収集や手作業によるアノテーションプロセスに頼ることなく、既存のデータセットの有用性を最大化するための重要なツールである。 PWSは、データの基礎となるクラスラベルを推定するために様々な弱い監視技術を使用し、生成モデルは、主に与えられたデータセットの基盤分布からのサンプリングに集中する。 これらの手法は互いに補完する可能性があるが、主に独立して研究されている。 最近、wsganはこれら2つのモデルを融合するメカニズムを提案した。 それらのアプローチはInfoGANの離散潜在因子を利用してラベルモデルをトレーニングし、ラベルモデルのクラス依存情報を利用して特定のクラスの画像を生成する。 しかし、InfoGANが学習したゆがんだ潜伏因子は必ずしもクラス固有のものではなく、ラベルモデルの精度に影響を与える可能性がある。 さらに、ラベルモデルによる予測は自然界においてうるさく、GANが生成した画像の品質に有害な影響を与えることがある。 私たちの仕事では、これらの課題に 一 ラベルモデルにより生成された擬似ラベルを用いた雑音認識分類器の実装 (ii)ノイズ認識分類器の予測を利用してラベルモデルを訓練し、クラス条件画像を生成する。 さらに,決定された不確実性予算内でデータセットのサブセットを用いた分類器の訓練が擬似ラベルに与える影響についても検討する。 我々は、部分集合選択問題を擬似ラベルのエントロピーに対するナップサック制約付き部分モジュラー最大化目的として定式化することでこれを達成する。 我々は,複数のデータセット上で実験を行い,現在最先端の手法を問うタスクにおいて,提案手法の有効性を実証する。

Programmatic Weak Supervision (PWS) and generative models serve as crucial tools that enable researchers to maximize the utility of existing datasets without resorting to laborious data gathering and manual annotation processes. PWS uses various weak supervision techniques to estimate the underlying class labels of data, while generative models primarily concentrate on sampling from the underlying distribution of the given dataset. Although these methods have the potential to complement each other, they have mostly been studied independently. Recently, WSGAN proposed a mechanism to fuse these two models. Their approach utilizes the discrete latent factors of InfoGAN to train the label model and leverages the class-dependent information of the label model to generate images of specific classes. However, the disentangled latent factors learned by InfoGAN might not necessarily be class-specific and could potentially affect the label model's accuracy. Moreover, prediction made by the label model is often noisy in nature and can have a detrimental impact on the quality of images generated by GAN. In our work, we address these challenges by (i) implementing a noise-aware classifier using the pseudo labels generated by the label model (ii) utilizing the noise-aware classifier's prediction to train the label model and generate class-conditional images. Additionally, we also investigate the effect of training the classifier with a subset of the dataset within a defined uncertainty budget on pseudo labels. We accomplish this by formalizing the subset selection problem as a submodular maximization objective with a knapsack constraint on the entropy of pseudo labels. We conduct experiments on multiple datasets and demonstrate the efficacy of our methods on several tasks vis-a-vis the current state-of-the-art methods.
翻訳日:2023-12-19 17:06:15 公開日:2023-12-16
# spt:スパルシフィケーションを効率的に行うトランスフォーマーベースの言語モデル

SPT: Fine-Tuning Transformer-based Language Models Efficiently with Sparsification ( http://arxiv.org/abs/2312.10365v1 )

ライセンス: Link先を確認
Yuntao Gui, Xiao Yan, Peiqi Yin, Han Yang, James Cheng(参考訳) トランスフォーマティブベースの大規模言語モデル(bertやgptなど)は大きな成功を収め、タスク固有のデータセット上で事前トレーニングされたモデルをチューニングする微調整は、これらのモデルを下流タスクに利用する標準的なプラクティスである。 しかしながら、トランスフォーマーの微調整は、モデルのサイズが大きいため、長い実行時間と高いメモリ消費を有する。 本稿では,スペーサ性を導入し,トランスフォーマーベースモデルを効率的に微調整するSPTシステムを提案する。 トランスのメモリ消費は主にマルチヘッドアテンション(mha)のための注意重みを格納することから生じ、実行時間の大部分はフィードフォワードネットワーク(ffn)に費やされる。 そこで我々は,メモリ消費を減らすため,大きな注意重みのみを計算・格納するスパースMHAモジュールと,各トークンに対するモデルパラメータのサブセットを動的に活性化して計算コストを低減させるルーティングFFNモジュールを設計する。 我々は PyTorch 上で SPT を実装し,疎MHA を実行し,FFN を効率的にルーティングする CUDA カーネルをカスタマイズする。 具体的には, 積量子化を用いて注意重みを同定し, スパース行列乗算による注意度を計算する。 ルーティングされたFFNに対して,活性化されたモデルパラメータに従ってトークンをバッチ化し,効率的な計算を行う。 様々なモデル構成でsptを評価するための広範囲な実験を行った。 その結果、sptは最適化されたベースラインを一貫して上回り、ピークメモリ消費を最大50%削減し、微調整を最大2.2倍高速化した。

Transformer-based large language models (e.g., BERT and GPT) achieve great success, and fine-tuning, which tunes a pre-trained model on a task-specific dataset, is the standard practice to utilize these models for downstream tasks. However, Transformer fine-tuning has long running time and high memory consumption due to the large size of the models. We propose the SPT system to fine-tune Transformer-based models efficiently by introducing sparsity. We observe that the memory consumption of Transformer mainly comes from storing attention weights for multi-head attention (MHA), and the majority of running time is spent on feed-forward network (FFN). Thus, we design the sparse MHA module, which computes and stores only large attention weights to reduce memory consumption, and the routed FFN module, which dynamically activates a subset of model parameters for each token to reduce computation cost. We implement SPT on PyTorch and customize CUDA kernels to run sparse MHA and routed FFN efficiently. Specifically, we use product quantization to identify the large attention weights and compute attention via sparse matrix multiplication for sparse MHA. For routed FFN, we batch the tokens according to their activated model parameters for efficient computation. We conduct extensive experiments to evaluate SPT on various model configurations. The results show that SPT consistently outperforms well-optimized baselines, reducing the peak memory consumption by up to 50% and accelerating fine-tuning by up to 2.2x.
翻訳日:2023-12-19 17:05:50 公開日:2023-12-16
# バイオメディカルセグメンテーションにおけるアクティブラーニングのためのエントロピーと代表性サンプリングのハイブリッドモデルにおけるUMAP探索

Exploring UMAP in hybrid models of entropy-based and representativeness sampling for active learning in biomedical segmentation ( http://arxiv.org/abs/2312.10361v1 )

ライセンス: Link先を確認
H. S. Tan, Kuancheng Wang and Rafe Mcbeth(参考訳) 本研究では, 医療セグメント化におけるアクティブラーニングの文脈におけるエントロピーに基づく多種多様な代表性サンプリング手法のハイブリッドモデルについて検討し, 代表性獲得手法としてのUDP(Uniform Manifold Approximation and Projection)の役割について検討した。 UMAPは様々な分野において汎用的な次元削減手法として有効であることが示されているが、深層学習に基づく医療セグメント化におけるその役割はまだ広く研究されている。 医療用セグメンテーション・デキャスロンにおける心臓と前立腺のデータセットを用いて,エントロピー・マラップサンプリング法を組み合わせることで,ランダムベースライン (3.2 \%$, 前立腺は4.5 \%$) に対して統計的に有意なサイススコアの優位性が得られ, 10種類の異なるアクティブ学習方法論のスペクトルの中で最も高いサイス係数を得た。 これは、前者がアクティブラーニングのハイブリッドモデルで後者に先行する場合、エントロピー法とumap法の間に興味深い相乗効果があるという予備的な証拠を提供する。

In this work, we study various hybrid models of entropy-based and representativeness sampling techniques in the context of active learning in medical segmentation, in particular examining the role of UMAP (Uniform Manifold Approximation and Projection) as a technique for capturing representativeness. Although UMAP has been shown viable as a general purpose dimension reduction method in diverse areas, its role in deep learning-based medical segmentation has yet been extensively explored. Using the cardiac and prostate datasets in the Medical Segmentation Decathlon for validation, we found that a novel hybrid combination of Entropy-UMAP sampling technique achieved a statistically significant Dice score advantage over the random baseline ($3.2 \%$ for cardiac, $4.5 \%$ for prostate), and attained the highest Dice coefficient among the spectrum of 10 distinct active learning methodologies we examined. This provides preliminary evidence that there is an interesting synergy between entropy-based and UMAP methods when the former precedes the latter in a hybrid model of active learning.
翻訳日:2023-12-19 17:05:20 公開日:2023-12-16
# 極端エッジ計算デバイスにおけるコンバータに基づく音声認識

Conformer-Based Speech Recognition On Extreme Edge-Computing Devices ( http://arxiv.org/abs/2312.10359v1 )

ライセンス: Link先を確認
Mingbin Xu, Alex Jin, Sicheng Wang, Mu Su, Tim Ng, Henry Mason, Shiyi Han, Yaqiao Deng, Zhen Huang, Mahesh Krishnamoorthy(参考訳) 今日のデバイスでは、ますます強力な計算能力とリソースによって、従来の計算集約型自動音声認識(ASR)は、ユーザのプライバシをより保護するために、クラウドからデバイスへと移行してきた。 しかし、スマートフォン、スマートウェアラブル、その他の小型ホームオートメーションデバイスなど、リソースに制約のあるデバイスに対して、オンデバイスASRを実装することは依然として困難である。 本稿では,モデルアーキテクチャの適応,ニューラルネットワークグラフ変換,数値最適化により,高度なコンバータベースのエンドツーエンドストリーミングASRシステムを,精度の低下を伴わずに資源制約のあるデバイスに適合させる手法を提案する。 我々は,小型ウェアラブル端末におけるリアルタイム(0.19 RTF)音声認識よりも5.26倍高速で,エネルギー消費を最小化し,最先端の精度を実現する。 提案手法は他のトランスフォーマーベースのサーバフリーAIアプリケーションに適用可能である。 さらに,浮動小数点精度を用いて任意のlpノルムにおける層正規化を数値的に安定化する最適事前正規化子に関する完全な理論を提供する。

With increasingly more powerful compute capabilities and resources in today's devices, traditionally compute-intensive automatic speech recognition (ASR) has been moving from the cloud to devices to better protect user privacy. However, it is still challenging to implement on-device ASR on resource-constrained devices, such as smartphones, smart wearables, and other small home automation devices. In this paper, we propose a series of model architecture adaptions, neural network graph transformations, and numerical optimizations to fit an advanced Conformer based end-to-end streaming ASR system on resource-constrained devices without accuracy degradation. We achieve over 5.26 times faster than realtime (0.19 RTF) speech recognition on small wearables while minimizing energy consumption and achieving state-of-the-art accuracy. The proposed methods are widely applicable to other transformer-based server-free AI applications. In addition, we provide a complete theory on optimal pre-normalizers that numerically stabilize layer normalization in any Lp-norm using any floating point precision.
翻訳日:2023-12-19 17:04:56 公開日:2023-12-16
# CONCSS:会話音声合成における対話に適した韻律のコントラストに基づく文脈理解

CONCSS: Contrastive-based Context Comprehension for Dialogue-appropriate Prosody in Conversational Speech Synthesis ( http://arxiv.org/abs/2312.10358v1 )

ライセンス: Link先を確認
Yayue Deng, Jinlong Xue, Yukang Jia, Qifei Li, Yichen Han, Fengping Wang, Yingming Gao, Dengfeng Ke, Ya Li(参考訳) 対話音声合成(CSS)は,対話に適した韻律を持つ音声を生成するために,過去の対話を補足情報として取り入れている。 従来の手法はすでに文脈理解の強化に取り組んできたが、文脈表現には効果的な表現能力と文脈に敏感な識別能力がない。 本稿では,コントラスト学習ベースのCSSフレームワークであるConCSSを紹介する。 このフレームワーク内では、モデルがラベルなしの会話型データセット上で自己教師あり学習を実行し、モデルのコンテキスト理解を促進するcss特有の革新的なプリテキストタスクを定義する。 さらに,文脈ベクトルの識別性を高めるために,負のサンプル拡張のためのサンプリング戦略を提案する。 これは、コントラスト学習をcssに統合する最初の試みである。 異なるコントラスト学習戦略と包括的実験に関するアブレーション研究を行い,従来のcssシステムとの比較を行った。 その結果,提案手法の合成音声は,文脈的に適切かつ敏感な韻律を示すことがわかった。

Conversational speech synthesis (CSS) incorporates historical dialogue as supplementary information with the aim of generating speech that has dialogue-appropriate prosody. While previous methods have already delved into enhancing context comprehension, context representation still lacks effective representation capabilities and context-sensitive discriminability. In this paper, we introduce a contrastive learning-based CSS framework, CONCSS. Within this framework, we define an innovative pretext task specific to CSS that enables the model to perform self-supervised learning on unlabeled conversational datasets to boost the model's context understanding. Additionally, we introduce a sampling strategy for negative sample augmentation to enhance context vectors' discriminability. This is the first attempt to integrate contrastive learning into CSS. We conduct ablation studies on different contrastive learning strategies and comprehensive experiments in comparison with prior CSS systems. Results demonstrate that the synthesized speech from our proposed method exhibits more contextually appropriate and sensitive prosody.
翻訳日:2023-12-19 17:04:38 公開日:2023-12-16
# CoAScore: NLG評価のための視点の連鎖

CoAScore: Chain-of-Aspects Prompting for NLG Evaluation ( http://arxiv.org/abs/2312.10355v1 )

ライセンス: Link先を確認
Peiyuan Gong and Jiaxin Mao(参考訳) 近年,自然言語生成(NLG)の評価が単一アスペクトから多アスペクトパラダイムに移行し,より正確な評価が可能になった。 大規模言語モデル (LLM) は様々なNLG評価タスクにおいて優れた性能を発揮する。 しかし、現在の研究はしばしば異なる側面を独立に評価するためにLLMを使用し、様々な側面間の豊富な相関を無視している。 本研究では,この研究ギャップを埋めるために,CoAScoreと呼ばれるNLG評価指標を提案する。 LLMによって駆動されるCoAScoreは、特定のアスペクトの品質を評価する際に、CoA(\textbf{C}hain-\textbf{o}f-\textbf{A}spects)プロンプトフレームワークを介してマルチアスペクトの知識を利用する。 具体的には、特定のアスペクトを評価するために、まずllmに、ターゲットのアスペクトに関連するアスペクトの連鎖を生成して、評価に役立てるように促します。 そして、生成された各アスペクトの評価スコアを収集し、最後に、これらの側面の知識を活用して、対象アスペクトの評価を改善する。 我々は,5つのNLG評価タスク(要約,ダイアログ応答生成など)と9つの側面(全体的な品質,妥当性,一貫性など)でCoAScoreを評価する。 実験結果から,個人的側面評価と比較して,CoAScoreは人的判断と高い相関性を示すことが明らかとなった。 この改善は、全体的な品質やその他の側面を評価するために、既存の教師なし評価指標を著しく上回る。 また,CoAScoreフレームワークにおける3つのステージの有効性を検証するため,広範囲なアブレーション研究を行い,これらのステージにおけるLSMの効果を示すケーススタディを行った。 私たちのコードとスクリプトは利用可能です。

Recently, natural language generation (NLG) evaluation has shifted from a single-aspect to a multi-aspect paradigm, allowing for a more accurate assessment. Large language models (LLMs) achieve superior performance on various NLG evaluation tasks. However, current work often employs the LLM to independently evaluate different aspects, which largely ignores the rich correlation between various aspects. To fill this research gap, in this work, we propose an NLG evaluation metric called CoAScore. Powered by LLMs, the CoAScore utilizes multi-aspect knowledge through a CoA (\textbf{C}hain-\textbf{o}f-\textbf{A}spects) prompting framework when assessing the quality of a certain aspect. Specifically, for a given aspect to evaluate, we first prompt the LLM to generate a chain of aspects that are relevant to the target aspect and could be useful for the evaluation. We then collect evaluation scores for each generated aspect, and finally, leverage the knowledge of these aspects to improve the evaluation of the target aspect. We evaluate CoAScore across five NLG evaluation tasks (e.g., summarization, dialog response generation, etc) and nine aspects (e.g., overall quality, relevance, coherence, etc). Our experimental findings highlight that, in comparison to individual aspect evaluation, CoAScore exhibits a higher correlation with human judgments. This improvement significantly outperforms existing unsupervised evaluation metrics, whether for assessing overall quality or other aspects. We also conducted extensive ablation studies to validate the effectiveness of the three stages within the CoAScore framework and conducted case studies to show how the LLM performs in these stages. Our code and scripts are available.
翻訳日:2023-12-19 17:04:25 公開日:2023-12-16
# Opara:GPU上のDNN推論を高速化する演算子並列処理

Opara: Exploiting Operator Parallelism for Expediting DNN Inference on GPUs ( http://arxiv.org/abs/2312.10351v1 )

ライセンス: Link先を確認
Aodong Chen, Fei Xu, Li Han, Yuan Dong, Li Chen, Zhi Zhou, Fangming Liu(参考訳) GPUはディープラーニング(DL)フレームワークにおけるディープニューラルネットワーク(DNN)推論を加速するデファクトハードウェアデバイスになっている。 しかし、DNNモデル構造が複雑化し、DNN演算子の計算サイズが徐々に小さくなるため、主流のDLフレームワークにおける従来のDNN演算子のシーケンシャル実行モードではGPUリソースを十分に利用できない。 さらに、並列実行シナリオにおける不適切なオペレータの起動順序は、オペレータ間のgpuリソースのwastageと予期しないパフォーマンスの干渉につながる可能性がある。 このような性能問題に対処するため、GPU上でのDNN推論の実行を高速化するリソースと干渉を考慮したDNN演算子並列スケジューリングフレームワークであるOparaを提案する。 具体的には、まずCUDA StreamsとCUDA Graphを使用して、複数のDNNオペレータの実行を自動的に並列化する。 さらに、DNN演算子のリソース要求を活用して、GPU上の演算子起動順序を計算集約演算子とメモリ集約演算子の実行を重複させ、DNN推論を高速化する。 我々はPyTorchをベースとしたOparaのプロトタイプを非侵襲的に実装し、オープンソース化する。 代表的DNNとTransformerベースのモデルによる大規模なプロトタイプ実験では、OparaはPyTorchにおけるデフォルトの逐次CUDAグラフと、最先端のDNN演算子並列処理システムを最大1.68$\times$と1.29$\times$で上回っているが、実行時のオーバーヘッドは許容できる。

GPUs have become the defacto hardware devices to accelerate Deep Neural Network (DNN) inference in deep learning(DL) frameworks. However, the conventional sequential execution mode of DNN operators in mainstream DL frameworks cannot fully utilize GPU resources, due to the increasing complexity of DNN model structures and the progressively smaller computational sizes of DNN operators. Moreover, the inadequate operator launch order in parallelized execution scenarios can lead to GPU resource wastage and unexpected performance interference among operators. To address such performance issues above, we propose Opara, a resource- and interference-aware DNN Operator parallel scheduling framework to accelerate the execution of DNN inference on GPUs. Specifically, Opara first employs CUDA Streams and CUDA Graph to automatically parallelize the execution of multiple DNN operators. It further leverages the resource demands of DNN operators to judiciously adjust the operator launch order on GPUs by overlapping the execution of compute-intensive and memory-intensive operators, so as to expedite DNN inference. We implement and open source a prototype of Opara based on PyTorch in a non-intrusive manner. Extensive prototype experiments with representative DNN and Transformer-based models demonstrate that Opara outperforms the default sequential CUDA Graph in PyTorch and the state-of-the-art DNN operator parallelism systems by up to 1.68$\times$ and 1.29$\times$, respectively, yet with acceptable runtime overhead.
翻訳日:2023-12-19 17:03:54 公開日:2023-12-16
# Anyonic-PT対称性系における非エルミートエントロピーダイナミクス

Non-Hermitian Entropy Dynamics in Anyonic-PT Symmetric Systems ( http://arxiv.org/abs/2312.10350v1 )

ライセンス: Link先を確認
Zhihang Liu and Chao Zheng(参考訳) 非エルミート物理学は開散系と密接な関係を持ち、注目を集めている。 正規化確率分布または密度行列に基づく従来のエントロピーは、孤立系を記述する際に成功するが、開系の場合は必ずしも適切ではない。 非正規化密度行列に基づく一般化された非エルミートエントロピーを用いた新しい手法を開発し,pt,アンチpt,anyonic-pt対称系の情報ダイナミクスについて検討した。 提案手法では, 従来のエントロピーやトレース距離を用いた場合, それぞれ3倍の縮退, 歪曲する反PT対称ハミルトニアンのパラメータ空間の異なる領域における情報力学の3つの特徴パターンを明らかにする。 解析および数学的実演によれば、NH系と環境の間の総確率フローに関する情報の喪失を引き起こすため、3重縮退につながるNH系の非正規化密度行列の正規化である。 一般化された NH エントロピーと非正規化密度行列を用いたアプローチでは、NH システムの非一意的な情報をすべて保持し、エントロピー力学パターンの縮退を回避することにより、システムの動的特性を適切に特徴付けることができる。

Non-Hermitian (NH) physics has a close relationship with open and dissipative systems, attracting attentions increasingly. The conventional entropy based on the normalized probability distribution or density matrix is successful when describing the isolated system, but not always appropriate for the case of open systems. We develop a new approach using the generalized non-Hermitian entropy based on non-normalized density matrices to investigate the information dynamics of PT, anti-PT, and anyonic-PT symmetric systems. Our approach reveals three distinguished patterns of information dynamics in different areas of the parameter space of anti-PT and anyonic-PT symmetric Hamiltonians, respectively, which are three-fold degenerate and distorted when using the conventional entropy or trace distance adopted in previous works. According to our analysis and mathematical demonstration, it is the normalization of the non-normalized density matrices of the NH systems that leads to the three-fold degeneracy, as it causes the loss of information about the total probability flow between the NH system and the environment. Our approach using the generalized NH entropy and the non-normalized density matrices keeps all the nonunitary information of the NH systems, so that it can properly characterize the dynamical properties of the systems, avoiding the degeneracy of the entropy dynamics patterns.
翻訳日:2023-12-19 17:03:21 公開日:2023-12-16
# コード文書生成のための大規模言語モデルの比較分析

A Comparative Analysis of Large Language Models for Code Documentation Generation ( http://arxiv.org/abs/2312.10349v1 )

ライセンス: Link先を確認
Shubhang Shekhar Dvivedi, Vyshnav Vijay, Sai Leela Rahul Pujari, Shoumik Lodh, Dhruv Kumar(参考訳) 本稿では,コード文書生成のための大規模言語モデル(llms)の包括的比較分析を行う。 コードドキュメンテーションは、ソフトウェア記述プロセスにおいて不可欠な部分です。 GPT-3.5、GPT-4、Bard、Llama2、Starchatといったモデルに対して、さまざまなレベルのコードドキュメンテーションに対して、正確性、完全性、妥当性、理解可能性、可読性、時間といったさまざまなパラメータについて評価する。 本評価は主観性を最小限に抑えるためにチェックリストベースのシステムを採用し,より客観的な評価を行っている。 starchatを除いて、すべてのllmがオリジナルのドキュメントを一貫して上回っていることが分かりました。 特に、GPT-3.5、GPT-4、BardはオープンソースのLLM、すなわちLLama 2とStarChatと比較して、様々なパラメータで優れた性能を示す。 生成に要する時間を考えると、GPT-4は最長持続時間を示し、続いてLlama2、Bard、ChatGPT、Starchatが同世代である。 さらに、ファイルレベルのドキュメンテーションは、インラインや関数レベルのドキュメンテーションに比べて、すべてのパラメータ(時間を除いて)でかなりパフォーマンスが悪くなりました。

This paper presents a comprehensive comparative analysis of Large Language Models (LLMs) for generation of code documentation. Code documentation is an essential part of the software writing process. The paper evaluates models such as GPT-3.5, GPT-4, Bard, Llama2, and Starchat on various parameters like Accuracy, Completeness, Relevance, Understandability, Readability and Time Taken for different levels of code documentation. Our evaluation employs a checklist-based system to minimize subjectivity, providing a more objective assessment. We find that, barring Starchat, all LLMs consistently outperform the original documentation. Notably, closed-source models GPT-3.5, GPT-4, and Bard exhibit superior performance across various parameters compared to open-source/source-available LLMs, namely LLama 2 and StarChat. Considering the time taken for generation, GPT-4 demonstrated the longest duration, followed by Llama2, Bard, with ChatGPT and Starchat having comparable generation times. Additionally, file level documentation had a considerably worse performance across all parameters (except for time taken) as compared to inline and function level documentation.
翻訳日:2023-12-19 17:02:55 公開日:2023-12-16
# mmbat:mmwaveに基づく人体再構成と翻訳予測のためのマルチタスクフレームワーク

MMBaT: A Multi-task Framework for mmWave-based Human Body Reconstruction and Translation Prediction ( http://arxiv.org/abs/2312.10346v1 )

ライセンス: Link先を確認
Jiarui Yang, Songpengcheng Xia, Yifan Song, Qi Wu, Ling Pei(参考訳) ミリ波(mmWave)レーダーポイント雲による人体再構成は、悪環境で働く能力と、従来のカメラベースのソリューションに関連するプライバシーの懸念を軽減する能力により、大きな関心を集めている。 この分野での先駆的な努力にもかかわらず、2つの課題が続いている。 まず、生の点雲は、周囲の物体と高周波(RF)信号のマルチパス効果によって引き起こされる大きなノイズポイントを含む。 最近のアプローチは一般的に、事前の知識や精巧な事前処理手法に依存し、適用性を制限する。 第二に、ノイズ除去後にも、スパースと不整合体関連点が正確な人体再建に障害となる。 これらの課題に対処するために,人体を同時に推定し,その後のフレームにおける身体翻訳を予測し,身体関連点群を抽出する,新しいマルチタスク深層学習フレームワークmmBaTを導入する。 本手法は,異なるレーダ装置とノイズレベルで収集した2つの公開データセットを用いて評価する。 他の最先端手法と比較して総合的に比較すると,本手法は,身体関連点群と比べ,ノイズの多い生データからの復元性能と一般化能力に優れていた。

Human body reconstruction with Millimeter Wave (mmWave) radar point clouds has gained significant interest due to its ability to work in adverse environments and its capacity to mitigate privacy concerns associated with traditional camera-based solutions. Despite pioneering efforts in this field, two challenges persist. Firstly, raw point clouds contain massive noise points, usually caused by the ambient objects and multi-path effects of Radio Frequency (RF) signals. Recent approaches typically rely on prior knowledge or elaborate preprocessing methods, limiting their applicability. Secondly, even after noise removal, the sparse and inconsistent body-related points pose an obstacle to accurate human body reconstruction. To address these challenges, we introduce mmBaT, a novel multi-task deep learning framework that concurrently estimates the human body and predicts body translations in subsequent frames to extract body-related point clouds. Our method is evaluated on two public datasets that are collected with different radar devices and noise levels. A comprehensive comparison against other state-of-the-art methods demonstrates our method has a superior reconstruction performance and generalization ability from noisy raw data, even when compared to methods provided with body-related point clouds.
翻訳日:2023-12-19 17:02:34 公開日:2023-12-16
# エネルギー効率の高い知的レーダのためのセンサ内周波数計算

In-Sensor Radio Frequency Computing for Energy-Efficient Intelligent Radar ( http://arxiv.org/abs/2312.10343v1 )

ライセンス: Link先を確認
Yang Sui, Minning Zhu, Lingyi Huang, Chung-Tse Michael Wu, Bo Yuan(参考訳) RFNN(Radio Frequency Neural Networks)は、様々な領域にわたるインテリジェントなアプリケーションを実現する利点を実証している。 しかし、ディープニューラルネットワークのモデルサイズが急速に大きくなるにつれて、大規模RFNNの実装には大量のRF干渉計が必要となり、かなりのエネルギーを消費する。 この課題に対処するため,大規模RFNNを小型RFNNに変換するために,その精度をほぼ保ちながら低ランク分解を利用する手法を提案する。 具体的には、各層が低ランクの3階テンソル列から構成されるテンソル・トレインRFNN(TT-RFNN)を開発し、パラメータカウントの顕著な低減を実現し、従来の大規模RFNNと比較してRF干渉計の利用を最適化する。 さらに,実世界の展開において,TT-RFNNをRFデバイスパラメータにマッピングする場合の物理誤差を考慮し,ロバストTT-RFNN(RTT-RFNN)を構築し,そのロバスト性を高める。 さらに,RTT-RFNNを様々なリフォーム操作の要求に適応させるために,RFスイッチ行列を用いた再構成可能なリフォームソリューションを提案する。 mnistおよびcifar-10データセットを用いた実験評価の結果,提案手法の有効性が示された。

Radio Frequency Neural Networks (RFNNs) have demonstrated advantages in realizing intelligent applications across various domains. However, as the model size of deep neural networks rapidly increases, implementing large-scale RFNN in practice requires an extensive number of RF interferometers and consumes a substantial amount of energy. To address this challenge, we propose to utilize low-rank decomposition to transform a large-scale RFNN into a compact RFNN while almost preserving its accuracy. Specifically, we develop a Tensor-Train RFNN (TT-RFNN) where each layer comprises a sequence of low-rank third-order tensors, leading to a notable reduction in parameter count, thereby optimizing RF interferometer utilization in comparison to the original large-scale RFNN. Additionally, considering the inherent physical errors when mapping TT-RFNN to RF device parameters in real-world deployment, from a general perspective, we construct the Robust TT-RFNN (RTT-RFNN) by incorporating a robustness solver on TT-RFNN to enhance its robustness. To adapt the RTT-RFNN to varying requirements of reshaping operations, we further provide a reconfigurable reshaping solution employing RF switch matrices. Empirical evaluations conducted on MNIST and CIFAR-10 datasets show the effectiveness of our proposed method.
翻訳日:2023-12-19 17:02:14 公開日:2023-12-16
# V2V通信における協調知覚のための自己教師付き適応重み付け

Self-supervised Adaptive Weighting for Cooperative Perception in V2V Communications ( http://arxiv.org/abs/2312.10342v1 )

ライセンス: Link先を確認
Chenguang Liu, Jianjun Chen, Yunfei Chen, Ryan Payton, Michael Riley, Shuang-Hua Yang(参考訳) 運転環境の認識は、運転安全を確保するために衝突回避や経路計画に不可欠である。 単車知覚の欠点に対処するための効果的なアプローチとして、協調的知覚が広く研究されている。 しかし、車両間通信(V2V)の実用的限界は十分に検討されていない。 特に、現在の協調融合モデルは教師付きモデルに依存しており、任意のチャネル障害による動的性能劣化には対処しない。 本稿では,チャネル歪みの悪影響を軽減するため,中間核融合のための自己制御型適応重み付けモデルを提案する。 協調知覚の性能は, システム設定によって異なる。 rician fading や imperfect channel state information (csi) も考慮される。 その結果,提案する適応重み付けアルゴリズムは,重み付けを伴わないベンチマークを有意に上回ることがわかった。 可視化例は、提案アルゴリズムが様々なチャネル条件に柔軟に適応できることを検証する。 さらに、適応重み付けアルゴリズムは、訓練されていないチャネルと異なるドメインからのテストデータセットに良い一般化を示す。

Perception of the driving environment is critical for collision avoidance and route planning to ensure driving safety. Cooperative perception has been widely studied as an effective approach to addressing the shortcomings of single-vehicle perception. However, the practical limitations of vehicle-to-vehicle (V2V) communications have not been adequately investigated. In particular, current cooperative fusion models rely on supervised models and do not address dynamic performance degradation caused by arbitrary channel impairments. In this paper, a self-supervised adaptive weighting model is proposed for intermediate fusion to mitigate the adverse effects of channel distortion. The performance of cooperative perception is investigated in different system settings. Rician fading and imperfect channel state information (CSI) are also considered. Numerical results demonstrate that the proposed adaptive weighting algorithm significantly outperforms the benchmarks without weighting. Visualization examples validate that the proposed weighting algorithm can flexibly adapt to various channel conditions. Moreover, the adaptive weighting algorithm demonstrates good generalization to untrained channels and test datasets from different domains.
翻訳日:2023-12-19 17:01:48 公開日:2023-12-16
# 廊下クリアランスのモデルフリー学習--短期展開の視点から

Model-free Learning of Corridor Clearance: A Near-term Deployment Perspective ( http://arxiv.org/abs/2312.10339v1 )

ライセンス: Link先を確認
Dajiang Suo, Vindula Jayawardana, Cathy Wu(参考訳) コネクテッド・アンド・オートマチック・ビークル(CAV)技術の公衆衛生応用は、交通を間接的に調整することで救急医療サービス(EMS)の応答時間を短縮することである。 そこで本研究では,短期展開の観点から,EMS車両のCAV支援廊下クリアランスについて検討する。 このトピックに関する既存の研究は、EMS車両の故障が通常の交通に与える影響を見落とし、100%CAVの侵入を仮定し、交差点におけるリアルタイム交通信号タイミングデータと待ち行列長に依存し、最適なモデルに基づくCAV制御戦略を導出する際の交通設定について様々な仮定を行う。 しかし、これらの仮定は、短期的な展開と実際の適用可能性の制限に重大な課題をもたらす。 これらの課題を克服し、短期的に実世界の適用性を高めるために、cav制御戦略の設計に深層強化学習(drl)を用いたモデルフリーアプローチを提案する。 我々の定性的分析は、DRLコントローラがモデルベース手法と比較して設計が容易な多様なトラフィック設定のためにスケーラブルなEMS廊下クリアランスコントローラを設計する複雑さを強調している。 数値評価において、モデルフリーDRLコントローラは、トラフィックフローを改善し、単一のCAVが存在する場合のシナリオにおけるEMS走行時間を改善することにより、モデルベースよりも優れる。 19以上の設定を考慮し、学習したDRLコントローラは6インスタンスの移動時間を25%短縮し、平均9%の改善を実現した。 これらの知見は, EMS応答と交通流調整の進展におけるモデルフリーDRL戦略の可能性と将来性を明らかにし, 実用的短期展開に焦点をあてた。

An emerging public health application of connected and automated vehicle (CAV) technologies is to reduce response times of emergency medical service (EMS) by indirectly coordinating traffic. Therefore, in this work we study the CAV-assisted corridor clearance for EMS vehicles from a short term deployment perspective. Existing research on this topic often overlooks the impact of EMS vehicle disruptions on regular traffic, assumes 100% CAV penetration, relies on real-time traffic signal timing data and queue lengths at intersections, and makes various assumptions about traffic settings when deriving optimal model-based CAV control strategies. However, these assumptions pose significant challenges for near-term deployment and limit the real-world applicability of such methods. To overcome these challenges and enhance real-world applicability in near-term, we propose a model-free approach employing deep reinforcement learning (DRL) for designing CAV control strategies, showing its reduced overhead in designing and greater scalability and performance compared to model-based methods. Our qualitative analysis highlights the complexities of designing scalable EMS corridor clearance controllers for diverse traffic settings in which DRL controller provides ease of design compared to the model-based methods. In numerical evaluations, the model-free DRL controller outperforms the model-based counterpart by improving traffic flow and even improving EMS travel times in scenarios when a single CAV is present. Across 19 considered settings, the learned DRL controller excels by 25% in reducing the travel time in six instances, achieving an average improvement of 9%. These findings underscore the potential and promise of model-free DRL strategies in advancing EMS response and traffic flow coordination, with a focus on practical near-term deployment.
翻訳日:2023-12-19 17:01:34 公開日:2023-12-16
# 一般化率と削除能力を備えた認定ミニマックスアンラーニング

Certified Minimax Unlearning with Generalization Rates and Deletion Capacity ( http://arxiv.org/abs/2312.10336v1 )

ライセンス: Link先を確認
Jiaqi Liu, Jian Lou, Zhan Qin and Kui Ren(参考訳) ミニマックスモデルに対する$(\epsilon,\delta)$-certified machine unlearningの問題について検討する。 既存の研究のほとんどは、単一の変数とそれらの学習段階を持つ標準的な統計学習モデルからの学習に重点を置いている。 我々はミニマックスモデルのための新しい$(\epsilon,\delta)$-certified machine unlearningアルゴリズムを開発した。 これは、完全ニュートン更新と微分プライバシーから借用されたガウス機構からなるminimaxアンラーニングステップを提案する。 アンラーニング認定を得るためには,ミニマックスアンラーニングステップ(ミニマックスアンラーニング変数とスクラッチ変数との近接性)の「感度」を慎重に分析し,校正されたガウス雑音を注入する。 損失関数の3つの異なる場合、すなわち(強く)凸-(強い-)凸損失に対して、人口の強さと弱原始双対リスクの観点から一般化率を導出する。 また、削除されたサンプル数が派生した量を超えない限り、所望の人口リスクを維持できることを保証するための削除能力を提供する。 トレーニングサンプル$n$とモデル次元$d$では、$\mathcal O(n/d^{1/4})$が得られ、これは、$\mathcal O(n/d^{1/2})$を持つ微分プライベートミニマックス学習のベースライン法よりも厳密なギャップを示す。 さらに,我々の一般化と削除能力は,従来の標準統計的学習モデルで導出される最先端の速度と一致している。

We study the problem of $(\epsilon,\delta)$-certified machine unlearning for minimax models. Most of the existing works focus on unlearning from standard statistical learning models that have a single variable and their unlearning steps hinge on the direct Hessian-based conventional Newton update. We develop a new $(\epsilon,\delta)$-certified machine unlearning algorithm for minimax models. It proposes a minimax unlearning step consisting of a total-Hessian-based complete Newton update and the Gaussian mechanism borrowed from differential privacy. To obtain the unlearning certification, our method injects calibrated Gaussian noises by carefully analyzing the "sensitivity" of the minimax unlearning step (i.e., the closeness between the minimax unlearning variables and the retraining-from-scratch variables). We derive the generalization rates in terms of population strong and weak primal-dual risk for three different cases of loss functions, i.e., (strongly-)convex-(strongly-)concave losses. We also provide the deletion capacity to guarantee that a desired population risk can be maintained as long as the number of deleted samples does not exceed the derived amount. With training samples $n$ and model dimension $d$, it yields the order $\mathcal O(n/d^{1/4})$, which shows a strict gap over the baseline method of differentially private minimax learning that has $\mathcal O(n/d^{1/2})$. In addition, our rates of generalization and deletion capacity match the state-of-the-art rates derived previously for standard statistical learning models.
翻訳日:2023-12-19 17:01:00 公開日:2023-12-16
# フェアネスの制約はどれくらいでバイアスデータから回復できるのか?

How Far Can Fairness Constraints Help Recover From Biased Data? ( http://arxiv.org/abs/2312.10396v1 )

ライセンス: Link先を確認
Mohit Sharma, Amit Deshpande(参考訳) blum & stangl (2019) は、人口の不足とラベルバイアスをシミュレートするデータバイアスモデルを提案する。 ラベルノイズを含むスタイリングされたデータ分布について、バイアスパラメータの特定の単純な条件下では、極度のバイアス分布でも等機会制約のある公平な分類が元の分布上で最適に正確かつ公平な分類器を復元できることを示す。 分布は定型化されているが、フェアネス制約が暗黙的にデータのバイアスを正し、同時にフェアネス正確なトレードオフを克服できることが示されるため、興味深い結果である。 本稿では,最適フェア分類器のしきい値に基づくキャラクタリゼーションを用いて,それらの結果の代替的な証明を行う。 さらに, バイアスパラメータの条件は, その回復に必要であり, 十分であることを示す。 我々の手法はより柔軟であり、例えば、元の分布のラベルがi.d.ノイズの代わりにマッサートノイズを持つ場合など、より一般的な分布に容易に拡張できる。 最後に、任意のデータ分布に対して、仮説クラスにおける最適精度の分類器が公平で堅牢であれば、バイアスパラメータがある種の単純な条件を満たす場合、バイアス分布の公平な分類によって回復できることを示す。

Blum & Stangl (2019) propose a data bias model to simulate under-representation and label bias in underprivileged population. For a stylized data distribution with i.i.d. label noise, under certain simple conditions on the bias parameters, they show that fair classification with equal opportunity constraints even on extremely biased distribution can recover an optimally accurate and fair classifier on the original distribution. Although their distribution is stylized, their result is interesting because it demonstrates that fairness constraints can implicitly rectify data bias and simultaneously overcome a perceived fairness-accuracy trade-off. In this paper, we give an alternate proof of their result using threshold-based characterization of optimal fair classifiers. Moreover, we show that their conditions on the bias parameters are both necessary and sufficient for their recovery result. Our technique is arguably more flexible, as it readily extends to more general distributions, e.g., when the labels in the original distribution have Massart noise instead of i.i.d. noise. Finally, we prove that for any data distribution, if the optimally accurate classifier in a hypothesis class is fair and robust, then it can be recovered through fair classification on the biased distribution, whenever the bias parameters satisfy certain simple conditions.
翻訳日:2023-12-19 16:55:24 公開日:2023-12-16
# 確率拡散モデルにおける講義ノート

Lecture Notes in Probabilistic Diffusion Models ( http://arxiv.org/abs/2312.10393v1 )

ライセンス: Link先を確認
Inga Str\"umke, Helge Langseth(参考訳) 拡散モデルは非平衡熱力学に基づいてゆるやかにモデル化され、そこで \textit{diffusion} は高濃度領域から低濃度領域へ流れる粒子を指す。 統計学において、意味は極めてよく似ており、すなわち、同じ領域で複素分布 $p_{\text{complex}}$ on $\mathbb{r}^d$ を単純な分布 $p_{\text{prior}}$ に変換する過程である。 これは、ランダムノイズをデータにゆっくりと付加する拡散ステップのマルコフ連鎖を構成し、続いて、データをノイズから再構成する逆拡散プロセスを構成する。 拡散モデルは、多数のデータポイントを訓練することにより、元のデータおよび再構成されたデータサンプルが属するデータ多様体を学習する。 拡散過程はデータサンプルをデータ多様体から押し出すが、逆過程はデータ多様体への軌跡を見つける。 拡散モデルは、変分オートエンコーダやフローモデルとは異なり、元のデータと同じ次元の潜在変数を持ち、2023年時点では、自然画像などの分布をモデル化するために、生成的敵ネットワーク(gans)を含む他のアプローチよりも優れている。

Diffusion models are loosely modelled based on non-equilibrium thermodynamics, where \textit{diffusion} refers to particles flowing from high-concentration regions towards low-concentration regions. In statistics, the meaning is quite similar, namely the process of transforming a complex distribution $p_{\text{complex}}$ on $\mathbb{R}^d$ to a simple distribution $p_{\text{prior}}$ on the same domain. This constitutes a Markov chain of diffusion steps of slowly adding random noise to data, followed by a reverse diffusion process in which the data is reconstructed from the noise. The diffusion model learns the data manifold to which the original and thus the reconstructed data samples belong, by training on a large number of data points. While the diffusion process pushes a data sample off the data manifold, the reverse process finds a trajectory back to the data manifold. Diffusion models have -- unlike variational autoencoder and flow models -- latent variables with the same dimensionality as the original data, and they are currently\footnote{At the time of writing, 2023.} outperforming other approaches -- including Generative Adversarial Networks (GANs) -- to modelling the distribution of, e.g., natural images.
翻訳日:2023-12-19 16:54:57 公開日:2023-12-16
# すべての側面が等しくない:半教師付き3次元物体検出のための局所的不確かさ推定

Not Every Side Is Equal: Localization Uncertainty Estimation for Semi-Supervised 3D Object Detection ( http://arxiv.org/abs/2312.10390v1 )

ライセンス: Link先を確認
ChuXin Wang, Wenfei Yang, Tianzhu Zhang(参考訳) 点雲からの半教師付き3Dオブジェクト検出は、少数のラベル付きデータと多数のラベルなしデータで検出器を訓練することを目的としている。 既存の手法の核心は、設計した品質評価基準を用いて高品質な擬似ラベルを選択する方法にある。 しかし、これらの手法では、各擬似境界ボックスを全体として扱い、トレーニング中に各側に等しく重要度を割り当てるが、これは多くの側がローカライズ品質の悪いため、モデル性能に支障をきたす。 さらに、既存のメソッドは、モデルトレーニングに役立つ正確な回帰値を含む、多数の低品質の擬似ラベルをフィルタリングする。 そこで本研究では,3次元境界ボックスパラメータ化法,不確実性推定モジュール,擬似ラベル選択戦略という3つのキー設計からなる,半教師付き3次元物体検出のためのサイドアウェアフレームワークを提案する。 これらのモジュールは協力して、各サイドのローカライズ品質を明示的に見積もり、トレーニングフェーズで異なるレベルの重要度を割り当てる。 広範な実験結果から,提案手法は異なるシーンと評価基準でベースラインモデルに一貫して勝ることが示された。 さらに,ラベル比率の異なる3つのデータセットにおいて,最先端のパフォーマンスを実現する。

Semi-supervised 3D object detection from point cloud aims to train a detector with a small number of labeled data and a large number of unlabeled data. The core of existing methods lies in how to select high-quality pseudo-labels using the designed quality evaluation criterion. However, these methods treat each pseudo bounding box as a whole and assign equal importance to each side during training, which is detrimental to model performance due to many sides having poor localization quality. Besides, existing methods filter out a large number of low-quality pseudo-labels, which also contain some correct regression values that can help with model training. To address the above issues, we propose a side-aware framework for semi-supervised 3D object detection consisting of three key designs: a 3D bounding box parameterization method, an uncertainty estimation module, and a pseudo-label selection strategy. These modules work together to explicitly estimate the localization quality of each side and assign different levels of importance during the training phase. Extensive experiment results demonstrate that the proposed method can consistently outperform baseline models under different scenes and evaluation criteria. Moreover, our method achieves state-of-the-art performance on three datasets with different labeled ratios.
翻訳日:2023-12-19 16:54:31 公開日:2023-12-16
# elasticlanenet:線検出のための幾何フレキシブルアプローチ

ElasticLaneNet: A Geometry-Flexible Approach for Lane Detection ( http://arxiv.org/abs/2312.10389v1 )

ライセンス: Link先を確認
Yaxin Feng, Yuan Lan, Luchan Zhang and Yang Xiang(参考訳) レーン検出のタスクは、運転領域の境界を特定することである。 複雑で可変な幾何学的構造を持つレーンを認識することは依然として課題である。 本稿ではelasticlanenet(elastic-interaction energy guided lane detection network)と呼ばれる新しいレーン検出フレームワークを提案する。 レーンを表現する新しい柔軟な方法、すなわち暗黙的な表現が提案されている。 トレーニング戦略は、予測レーンを、弾性相互作用エネルギーに基づく損失関数(EIE損失)によって導かれる基底真実に惹かれる移動曲線とみなす。 補助機能改善(AFR)モジュールは、異なるレイヤから情報を集めるように設計されている。 この方法は、大きな曲率、交差点における弱い幾何学的特徴、複雑なクロスレーン、Y-shapesレーン、高密度レーンなどを含む複雑なレーンシナリオでよく機能する。 SDLane、CULane、TuSimpleの3つのデータセットにアプローチを適用します。 その結果, 構造多様性データセットSDLaneの精度, 89.51のF1スコア, 87.50のリコール率, 91.61の精度が得られた。

The task of lane detection involves identifying the boundaries of driving areas. Recognizing lanes with complex and variable geometric structures remains a challenge. In this paper, we introduce a new lane detection framework named ElasticLaneNet (Elastic-interaction-energy guided Lane detection Network). A novel and flexible way of representing lanes, namely, implicit representation is proposed. The training strategy considers predicted lanes as moving curves that being attracted to the ground truth guided by an elastic interaction energy based loss function (EIE loss). An auxiliary feature refinement (AFR) module is designed to gather information from different layers. The method performs well in complex lane scenarios, including those with large curvature, weak geometric features at intersections, complicated cross lanes, Y-shapes lanes, dense lanes, etc. We apply our approach on three datasets: SDLane, CULane, and TuSimple. The results demonstrate the exceptional performance of our method, with the state-of-the-art results on the structure-diversity dataset SDLane, achieving F1-score of 89.51, Recall rate of 87.50, and Precision of 91.61.
翻訳日:2023-12-19 16:54:09 公開日:2023-12-16
# クレジットラインの支出分配に及ぼす因果的影響

The Causal Impact of Credit Lines on Spending Distributions ( http://arxiv.org/abs/2312.10388v1 )

ライセンス: Link先を確認
Yijun Li, Cheuk Hang Leung, Xiangqian Sun, Chaoqun Wang, Yiyan Huang, Xing Yan, Qi Wu, Dongdong Wang, Zhixiang Huang(参考訳) eコマースプラットフォームが提供する消費者信用サービスは、買い物中に便利なローンアクセスを提供し、売上を刺激する可能性がある。 信用線が消費に与える影響を理解するため、従来の研究では、直接回帰(DR)、逆相対性重み付け(IPW)、二重機械学習(DML)に基づく因果推定器を用いて治療効果を推定している。 しかし、これらの推定者は、個人の支出が異なる順序で消費される量の範囲とパターンを捉える分布として理解され表現できるという概念を考慮していない。 成果を分布として無視することで、結果分布に埋め込まれた貴重な洞察が見過ごされる可能性がある。 本稿では,既存の実数値DR-,IPW-,DMLに基づく分布値推定をRubinの因果フレームワーク内の分布値推定に拡張する分布値推定フレームワークを開発する。 一貫性を確立し、大規模なeコマースプラットフォームから実際のデータセットに適用します。 しかし、クレジットラインが増加するにつれて、消費者は必要な量(より低い分位子)よりも、ルクス(高分位子)に割り当てる割合が高くなる。

Consumer credit services offered by e-commerce platforms provide customers with convenient loan access during shopping and have the potential to stimulate sales. To understand the causal impact of credit lines on spending, previous studies have employed causal estimators, based on direct regression (DR), inverse propensity weighting (IPW), and double machine learning (DML) to estimate the treatment effect. However, these estimators do not consider the notion that an individual's spending can be understood and represented as a distribution, which captures the range and pattern of amounts spent across different orders. By disregarding the outcome as a distribution, valuable insights embedded within the outcome distribution might be overlooked. This paper develops a distribution-valued estimator framework that extends existing real-valued DR-, IPW-, and DML-based estimators to distribution-valued estimators within Rubin's causal framework. We establish their consistency and apply them to a real dataset from a large e-commerce platform. Our findings reveal that credit lines positively influence spending across all quantiles; however, as credit lines increase, consumers allocate more to luxuries (higher quantiles) than necessities (lower quantiles).
翻訳日:2023-12-19 16:53:50 公開日:2023-12-16
# redcore:不均衡な欠落率を持つ欠落モダリティに対するクロスモーダル表現学習の相対的優位性

RedCore: Relative Advantage Aware Cross-modal Representation Learning for Missing Modalities with Imbalanced Missing Rates ( http://arxiv.org/abs/2312.10386v1 )

ライセンス: Link先を確認
Jun Sun, Xinxin Zhang, Shoukang Han, Yu-ping Ruan, Taihao Li(参考訳) マルチモーダル学習はモダリティの欠如の影響を受けやすいため、その実践的応用には大きな障害となり、研究の関心が高まりつつある。 本稿では,2つの課題について考察する。 1) トレーニングデータにモダリティが欠如している場合, 適切に管理されていることを保証しつつ, 不完全なサンプルをどう活用するか。 2) 異なるモダリティの欠落率が変化し、モダリティの不均衡を発生または悪化させる場合、不均衡に対処し、すべてのモダリティが十分に訓練されているか。 この2つの課題に取り組むために,まず,利用可能なモダリティとラベルを監督として活用する,欠落モダリティのクロスモーダル表現学習のための変分情報ボトルネック(vib)手法を導入する。 そして,不均衡な欠落率を考慮し,他者に対する各モダリティの利点を定量化する相対的優位性を定義する。 したがって、二段階最適化問題を定式化し、訓練中のすべてのモダリティの監督を適応的に規制する。 全体として、提案されたアプローチは、不均衡な欠落率のモダリティを欠くために、 \textbf{re}lative a\textbf{d}vantage aware \textbf{c}ross-m\textbf{o}dal \textbf{r}epresentation l\textbf{e}arning (略して \textbf{redcore})である。 大規模な実験結果によると、RedCoreは競合モデルよりも優れており、大きなまたは不均衡の欠落率に対して優れた堅牢性を示している。

Multimodal learning is susceptible to modality missing, which poses a major obstacle for its practical applications and, thus, invigorates increasing research interest. In this paper, we investigate two challenging problems: 1) when modality missing exists in the training data, how to exploit the incomplete samples while guaranteeing that they are properly supervised? 2) when the missing rates of different modalities vary, causing or exacerbating the imbalance among modalities, how to address the imbalance and ensure all modalities are well-trained? To tackle these two challenges, we first introduce the variational information bottleneck (VIB) method for the cross-modal representation learning of missing modalities, which capitalizes on the available modalities and the labels as supervision. Then, accounting for the imbalanced missing rates, we define relative advantage to quantify the advantage of each modality over others. Accordingly, a bi-level optimization problem is formulated to adaptively regulate the supervision of all modalities during training. As a whole, the proposed approach features \textbf{Re}lative a\textbf{d}vantage aware \textbf{C}ross-m\textbf{o}dal \textbf{r}epresentation l\textbf{e}arning (abbreviated as \textbf{RedCore}) for missing modalities with imbalanced missing rates. Extensive empirical results demonstrate that RedCore outperforms competing models in that it exhibits superior robustness against either large or imbalanced missing rates.
翻訳日:2023-12-19 16:53:28 公開日:2023-12-16
# 善を模倣し、悪を避ける: 安全強化学習への漸進的アプローチ

Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning ( http://arxiv.org/abs/2312.10385v1 )

ライセンス: Link先を確認
Huy Hoang and Tien Mai Pradeep Varakantham(参考訳) 強化学習(rl)において安全な行動を強制するための一般的な枠組みは、期待コスト(またはその他のコスト対策)に基づく軌道ベースの制約が安全性を強制するために採用され、さらに重要なことに、期待報酬を最大化しながらこれらの制約を強制する、制限付きrlである。 制約付きRLを解くための最近のアプローチでは、トラジェクトリに基づくコスト制約を代理問題に変換し、RL法に小さな修正を加えて解くことができる。 このようなアプローチによる重要な欠点は、各状態におけるコスト制約の過度あるいは過小評価である。 したがって、軌道ベースのコスト制約を変更しず、代わりに ``good'' の軌跡を模倣し、漸進的に改善したポリシーから生じる ``bad'' の軌跡を避けるアプローチを提供する。 私たちは、報酬しきい値(学習によって異なる)と全体的なコスト制約を利用して、トラックを ``good'' または ``bad'' とラベル付けするオラクルを採用しています。 私たちのアプローチの重要な利点は、開始ポリシーや一連の軌道から作業し、それを改善することができることです。 総括的な実験により,提案手法は予測コスト,CVaRコスト,さらには未知のコスト制約に対して,制約付きRL問題を解くためのベンチマーク手法よりも優れていることを示した。

A popular framework for enforcing safe actions in Reinforcement Learning (RL) is Constrained RL, where trajectory based constraints on expected cost (or other cost measures) are employed to enforce safety and more importantly these constraints are enforced while maximizing expected reward. Most recent approaches for solving Constrained RL convert the trajectory based cost constraint into a surrogate problem that can be solved using minor modifications to RL methods. A key drawback with such approaches is an over or underestimation of the cost constraint at each state. Therefore, we provide an approach that does not modify the trajectory based cost constraint and instead imitates ``good'' trajectories and avoids ``bad'' trajectories generated from incrementally improving policies. We employ an oracle that utilizes a reward threshold (which is varied with learning) and the overall cost constraint to label trajectories as ``good'' or ``bad''. A key advantage of our approach is that we are able to work from any starting policy or set of trajectories and improve on it. In an exhaustive set of experiments, we demonstrate that our approach is able to outperform top benchmark approaches for solving Constrained RL problems, with respect to expected cost, CVaR cost, or even unknown cost constraints.
翻訳日:2023-12-19 16:52:56 公開日:2023-12-16
# PPIDSG: フェデレーション学習におけるGANを用いたプライバシ保護画像配信共有方式

PPIDSG: A Privacy-Preserving Image Distribution Sharing Scheme with GAN in Federated Learning ( http://arxiv.org/abs/2312.10380v1 )

ライセンス: Link先を確認
Yuting Ma, Yuanzhi Yao, Xiaohua Xu(参考訳) フェデレートラーニング(FL)は、中央サーバに機密データを明示的にアップロードすることなく、分散クライアント上でのプライバシ保護による協調トレーニングを可能にするため、注目を集めている。 しかし、最近の研究により、まだ敵にプライベートデータを公開するリスクがあることが判明した。 本稿では,様々なデータセットに対するレコンストラクション攻撃の実施と推論攻撃の強化を行い,訓練された分類モデルのパラメータを中央サーバに共有することが,flにおけるプライバシ漏洩の主な問題であることをよく理解する。 この問題に対処するために,ブロックスクランブルに基づく暗号化アルゴリズム,画像分布共有法,局所分類訓練からなる,ganを用いたプライバシー保全型画像分散共有方式を提案する。 具体的には、ブロック暗号化アルゴリズムによって変換された対象画像領域の分布をキャプチャし、モデル性能に無視できない影響で識別子共有を避けるためにジェネレータパラメータをアップロードする。 さらに、特徴抽出器を適用してモデルユーティリティを動機付け、分類器から別々に訓練する。 大規模実験結果とセキュリティ分析により,提案手法が他の最先端防衛法よりも優れていることを示す。 コードはhttps://github.com/ytingma/ppidsgで入手できる。

Federated learning (FL) has attracted growing attention since it allows for privacy-preserving collaborative training on decentralized clients without explicitly uploading sensitive data to the central server. However, recent works have revealed that it still has the risk of exposing private data to adversaries. In this paper, we conduct reconstruction attacks and enhance inference attacks on various datasets to better understand that sharing trained classification model parameters to a central server is the main problem of privacy leakage in FL. To tackle this problem, a privacy-preserving image distribution sharing scheme with GAN (PPIDSG) is proposed, which consists of a block scrambling-based encryption algorithm, an image distribution sharing method, and local classification training. Specifically, our method can capture the distribution of a target image domain which is transformed by the block encryption algorithm, and upload generator parameters to avoid classifier sharing with negligible influence on model performance. Furthermore, we apply a feature extractor to motivate model utility and train it separately from the classifier. The extensive experimental results and security analyses demonstrate the superiority of our proposed scheme compared to other state-of-the-art defense methods. The code is available at https://github.com/ytingma/PPIDSG.
翻訳日:2023-12-19 16:52:28 公開日:2023-12-16
# 安定多モード圧縮状態を有する多パラメータ量子メトロジー

Multi-parameter quantum metrology with stabilized multi-mode squeezed state ( http://arxiv.org/abs/2312.10379v1 )

ライセンス: Link先を確認
Yue Li, Xu Cheng, Lingna Wang, Xingyu Zhao, Waner Hou, Yi Li, Kamran Rehan, Mingdong Zhu, Lin Yan, Xi Qin, Xinhua Peng, Haidong Yuan, Yiheng Lin, and Jiangfeng Du(参考訳) 特定の方向に沿って量子状態を求めることは、パラメータの不確かさを減らして量子力学の精度を高める重要な手法として長年認識されてきた。 しかし、実用的な量子メトロロジーはしばしば複数のパラメータを同時に推定し、全ての関連するパラメータの標準量子限界を超えるために複数の直交軸に沿って高品質のスクイーズ状態を使用する必要がある。 さらに、時間的に安定化された絞圧状態は、初期状態にかかわらずパラメータのイベント可読プローブを提供し、一度安定化された状態準備工程のタイミングに頑健である。 本研究では, 2つの周期的運動モードに沿った2モードのスクイーズ状態の生成と安定化を行う。 この資源を利用して, 圧縮軸に沿った2つの同時集団変位を推定し, それぞれ6.9(3)および7.0(3)デシベル(dB)の古典的限界を超える改善を達成した。 デモは、さらに多くのモードで圧縮された状態に簡単にスケールできる。 我々の発見の実践的意味は、量子センシング、量子イメージング、および複数のパラメータの正確な測定を必要とする様々な分野を含む幅広い応用に及んでいる。

Squeezing a quantum state along a specific direction has long been recognized as a crucial technique for enhancing the precision of quantum metrology by reducing parameter uncertainty. However, practical quantum metrology often involves the simultaneous estimation of multiple parameters, necessitating the use of high-quality squeezed states along multiple orthogonal axes to surpass the standard quantum limit for all relevant parameters. In addition, a temporally stabilized squeezed state can provide an event-ready probe for parameters, regardless of the initial state, and robust to the timing of the state preparation process once stabilized. In this work, we generate and stabilize a two-mode squeezed state along two secular motional modes in a vibrating trapped ion with reservoir engineering, despite starting from a thermal state of the motion. Leveraging this resource, we demonstrate an estimation of two simultaneous collective displacements along the squeezed axes, achieving improvements surpassing the classical limit by up to 6.9(3) and 7.0(3) decibels (dB), respectively. Our demonstration can be readily scaled to squeezed states with even more modes. The practical implications of our findings span a wide range of applications, including quantum sensing, quantum imaging, and various fields that demand precise measurements of multiple parameters.
翻訳日:2023-12-19 16:52:07 公開日:2023-12-16
# SA$^2$VP:空間適応型ビジュアルプロンプト

SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt ( http://arxiv.org/abs/2312.10376v1 )

ライセンス: Link先を確認
Wenjie Pei, Tongqi Xia, Fanglin Chen, Jinsong Li, Jiandong Tian, Guangming Lu(参考訳) NLPにおけるパラメータ効率の優れた微調整技術として、コンピュータビジョンにおけるプロンプトチューニングの可能性を探っている。 視覚的プロンプトチューニングの典型的な方法は、入力イメージを平らなトークン埋め込みのシーケンスとして表現し、次にシーケンス表現にプレフィックスされた無秩序なパラメータ化トークンの集合を、大きな視覚モデルのタスク適応のための視覚的プロンプトとして学習するNLPから派生したシーケンシャルモデリングパラダイムに従う。 このような視覚的プロンプトの逐次モデリングパラダイムは大きな可能性を秘めているが、潜在的な制限は2つある。 まず、学習した視覚的プロンプトは、画像符号化に不可欠である入力画像の空間関係をモデル化できない。 第二に、すべてのプロンプトトークンは区別せずにすべてのイメージトークンをプロンプトするのと同じ役割を果たすため、個々のプロンプトが異なるイメージトークンをプロンプトするといった細かいプロンプト能力が欠けている。 本研究では,画像トークンマップに等しい(あるいは縮小)大きさの2次元プロンプトトークンマップを学習し,画像マップを空間的に整列させることができる, \mymodelモデル(\emph{sa$^2$vp})を提案する。 各プロンプトトークンは、空間対応の画像トークンに対してのみ、プロンプト知識として指定される。 その結果,このモデルでは,異なる画像トークンに対する個別のプロンプトをきめ細かな方法で行うことができる。 さらに,学習したプロンプトトークンマップによる空間構造保存の利点を生かして,入力画像内の空間関係をモデル化し,より効果的にプロンプトを行うことができる。 画像分類のための3つの挑戦的ベンチマーク実験は、視覚的プロンプトチューニングのための他の最先端手法よりも、我々のモデルの方が優れていることを示す。 コードは \emph{https://github.com/tommy-xq/SA2VP} で入手できる。

As a prominent parameter-efficient fine-tuning technique in NLP, prompt tuning is being explored its potential in computer vision. Typical methods for visual prompt tuning follow the sequential modeling paradigm stemming from NLP, which represents an input image as a flattened sequence of token embeddings and then learns a set of unordered parameterized tokens prefixed to the sequence representation as the visual prompts for task adaptation of large vision models. While such sequential modeling paradigm of visual prompt has shown great promise, there are two potential limitations. First, the learned visual prompts cannot model the underlying spatial relations in the input image, which is crucial for image encoding. Second, since all prompt tokens play the same role of prompting for all image tokens without distinction, it lacks the fine-grained prompting capability, i.e., individual prompting for different image tokens. In this work, we propose the \mymodel model (\emph{SA$^2$VP}), which learns a two-dimensional prompt token map with equal (or scaled) size to the image token map, thereby being able to spatially align with the image map. Each prompt token is designated to prompt knowledge only for the spatially corresponding image tokens. As a result, our model can conduct individual prompting for different image tokens in a fine-grained manner. Moreover, benefiting from the capability of preserving the spatial structure by the learned prompt token map, our \emph{SA$^2$VP} is able to model the spatial relations in the input image, leading to more effective prompting. Extensive experiments on three challenging benchmarks for image classification demonstrate the superiority of our model over other state-of-the-art methods for visual prompt tuning. Code is available at \emph{https://github.com/tommy-xq/SA2VP}.
翻訳日:2023-12-19 16:51:44 公開日:2023-12-16
# データの収集と機能概念への接続:ウェルビーイングに向けたインタラクティブグラフ生成

Collect and Connect Data Leaves to Feature Concepts: Interactive Graph Generation Toward Well-being ( http://arxiv.org/abs/2312.10375v1 )

ライセンス: Link先を確認
Yukio Ohsawa, Tomohide Maekawa, Hiroki Yamaguchi, Hiro Yoshida, Kaira Sekiguchi(参考訳) 特徴の概念とデータの葉は、データセットを使って創造的な思考を育み、日々の生活で幸福を生み出すために発明されている。 簡単に言えば、適切なデータセットから検出すべきイベントフローの要約である選択および収集されたデータ葉を、目標とする機能概念にアタッチする、というアイデアだ。 機能概念にアタッチされる既存のあるいは期待されるデータセットのグラフが半自動生成される。 私たちの研究は、自動生成AIではなく、生成する人工知能と自然知能のプロセスに対処し、データの使用と再利用の基礎を作ります。

Feature concepts and data leaves have been invented using datasets to foster creative thoughts for creating well-being in daily life. The idea, simply put, is to attach selected and collected data leaves that are summaries of event flows to be discovered from corresponding datasets, on the target feature concept representing the well-being aimed. A graph of existing or expected datasets to be attached to a feature concept is generated semi-automatically. Rather than sheer automated generative AI, our work addresses the process of generative artificial and natural intelligence to create the basis for data use and reuse.
翻訳日:2023-12-19 16:51:10 公開日:2023-12-16
# ストップ・アンド・ゴー交通の境界安定化のためのニューラル演算子

Neural Operators for Boundary Stabilization of Stop-and-go Traffic ( http://arxiv.org/abs/2312.10374v1 )

ライセンス: Link先を確認
Yihuai Zhang, Ruiguo Zhong, Huan Yu(参考訳) 本稿では,ニューラル演算子を用いたpde境界制御設計における新しい手法を提案する。 当社のフレームワークは,トラヒックフローシステムの制御戦略設計にニューラルネットワークを活用する。 交通力学は、二階結合双曲型偏微分方程式(PDE)からなるAw-Rascle-Zhang(ARZ)モデルによって記述される。 このようなPDEシステムのバウンダリ制御にはバックステッピング法が広く用いられている。 PDEモデルに基づく制御設計は時間がかかり、バックステッピング制御カーネルの構築と解決を含むため、専門知識の深みを必要とする。 これらの課題を克服するために,トラヒックpdeシステムの安定化を目的とした2つの異なるニューラルオペレータ(no)学習方式を提案する。 第1のスキームは事前に定義されたバックステッピングコントローラ内にNO近似ゲインカーネルを埋め込み、第2のスキームは境界制御法則を直接学習する。 リアプノフ解析は、非近似利得核と制御則の安定性を評価するために行われる。 特定の近似精度条件下では,NO系閉ループシステムは事実上安定であることが証明された。 提案手法の有効性を検証するため,2つのニューラル演算子コントローラとPDEバックステッピングコントローラとProportional Integral(PI)コントローラの性能を比較するシミュレーションを行った。 NO近似法はバックステッピングコントローラよりも高い誤差を示すが、PIコントローラを一貫して上回り、全てのシナリオで高速な計算速度を示す。 この結果から,ニューラル演算子はトラフィックPDEシステムにおける境界制御器の獲得プロセスを大幅に高速化し,単純化することができることが示唆された。

This paper introduces a novel approach to PDE boundary control design using neural operators to alleviate stop-and-go instabilities in congested traffic flow. Our framework leverages neural operators to design control strategies for traffic flow systems. The traffic dynamics are described by the Aw-Rascle-Zhang (ARZ) model, which comprises a set of second-order coupled hyperbolic partial differential equations (PDEs). Backstepping method is widely used for boundary control of such PDE systems. The PDE model-based control design can be time-consuming and require intensive depth of expertise since it involves constructing and solving backstepping control kernels. To overcome these challenges, we present two distinct neural operator (NO) learning schemes aimed at stabilizing the traffic PDE system. The first scheme embeds NO-approximated gain kernels within a predefined backstepping controller, while the second one directly learns a boundary control law. The Lyapunov analysis is conducted to evaluate the stability of the NO-approximated gain kernels and control law. It is proved that the NO-based closed-loop system is practical stable under certain approximation accuracy conditions in NO-learning. To validate the efficacy of the proposed approach, simulations are conducted to compare the performance of the two neural operator controllers with a PDE backstepping controller and a Proportional Integral (PI) controller. While the NO-approximated methods exhibit higher errors compared to the backstepping controller, they consistently outperform the PI controller, demonstrating faster computation speeds across all scenarios. This result suggests that neural operators can significantly expedite and simplify the process of obtaining boundary controllers in traffic PDE systems.
翻訳日:2023-12-19 16:50:58 公開日:2023-12-16
# グラフデータがマルチモーダルに出会うとき:グラフ理解と推論の新しいパラダイム

When Graph Data Meets Multimodal: A New Paradigm for Graph Understanding and Reasoning ( http://arxiv.org/abs/2312.10372v1 )

ライセンス: Link先を確認
Qihang Ai, Jianwu Zhou, Haiyun Jiang, Lemao Liu, Shuming Shi(参考訳) グラフデータは物理世界ではユビキタスであり、様々なグラフの理解と推論のために統一されたパラダイムを用いてグラフ構造を効率的にモデル化することは常に困難である。 さらに,大規模言語モデルの時代には,複雑なグラフ情報をテキストシーケンスに組み込むことが極めて難しくなり,自然言語によるグラフデータ操作が困難になり,画像エンコーディングとマルチモーダル技術を統合することにより,グラフデータの理解と推論を行う新たなパラダイムが提案されている。 このアプローチは, GPT-4Vの高度な機能を利用して, 命令応答形式によるグラフデータの理解を可能にする。 研究は、このパラダイムを様々なグラフタイプで評価し、モデルの強みと弱み、特に中国のocrパフォーマンスと複雑な推論タスクを強調する。 その結果,グラフデータ処理と自然言語対話の新たな方向性が示唆された。

Graph data is ubiquitous in the physical world, and it has always been a challenge to efficiently model graph structures using a unified paradigm for the understanding and reasoning on various graphs. Moreover, in the era of large language models, integrating complex graph information into text sequences has become exceptionally difficult, which hinders the ability to interact with graph data through natural language instructions.The paper presents a new paradigm for understanding and reasoning about graph data by integrating image encoding and multimodal technologies. This approach enables the comprehension of graph data through an instruction-response format, utilizing GPT-4V's advanced capabilities. The study evaluates this paradigm on various graph types, highlighting the model's strengths and weaknesses, particularly in Chinese OCR performance and complex reasoning tasks. The findings suggest new direction for enhancing graph data processing and natural language interaction.
翻訳日:2023-12-19 16:50:30 公開日:2023-12-16
# K-ESConv: プロンプト学習による感情支援対話システムのための知識注入

K-ESConv: Knowledge Injection for Emotional Support Dialogue Systems via Prompt Learning ( http://arxiv.org/abs/2312.10371v1 )

ライセンス: Link先を確認
Wei Chen, Gang Zhao, Xiaojin Zhang, Xiang Bai, Xuanjing Huang, Zhongyu Wei(参考訳) 自動心理カウンセリングには、オンラインカウンセリングフォーラムで見られる専門知識の大量を必要とする。 そこで本研究では,感情支援対話システムのための新たな学習ベース知識注入手法であるK-ESConvを提案する。 我々は,感情支援データセットesconv上でのモデル評価を行い,外部の職業的感情的q\&aフォーラムから知識を抽出・取り入れる。 実験の結果, 提案手法は, 自動評価と人間評価の両方において, 既存のベースラインを上回っており, 応答の相関性と多様性が著しく向上し, 探索者にとってより快適でより良い提案が得られた。

Automatic psychological counseling requires mass of professional knowledge that can be found in online counseling forums. Motivated by this, we propose K-ESConv, a novel prompt learning based knowledge injection method for emotional support dialogue system, transferring forum knowledge to response generation. We evaluate our model on an emotional support dataset ESConv, where the model retrieves and incorporates knowledge from external professional emotional Q\&A forum. Experiment results show that the proposed method outperforms existing baselines on both automatic evaluation and human evaluation, which shows that our approach significantly improves the correlation and diversity of responses and provides more comfort and better suggestion for the seeker.
翻訳日:2023-12-19 16:50:14 公開日:2023-12-16
# 類似のエンティティは類似の埋め込みを持つか?

Do Similar Entities have Similar Embeddings? ( http://arxiv.org/abs/2312.10370v1 )

ライセンス: Link先を確認
Nicolas Hubert, Heiko Paulheim, Armelle Brun, Davy Monticolo(参考訳) 知識グラフ埋め込みモデル(KGEMs)は、埋め込みとして知られるグラフエンティティのベクトル表現をリンク予測するために開発された。 一般的な暗黙の仮定は、KGEエンティティ類似性仮定(英語版)であり、これらのKGEMはグラフの構造を埋め込み空間内に保持し、すなわち、類似したエンティティを互いに近くに置く。 この望ましい性質により、KGEMはレコメンダシステムや薬物再資源化といった下流のタスクで広く使用される。 しかし、グラフ類似性と埋め込み空間類似性のアライメントが公式に評価されることは稀である。 通常、KGEMはHits@KやMean Rankといったランキングベースのメトリクスを使用して、その唯一のリンク予測機能に基づいて評価される。 本稿では、グラフのエンティティ類似性が本質的に埋め込み空間にミラーされているという一般的な仮定に挑戦する。 そこで我々は,KGEMsが類似したエンティティをクラスタリングする能力を測定するための広範な実験を行い,その基礎となる要因について検討する。 さらに、異なるKGEMが類似性の異なる概念を露呈するかどうかを考察する。 データセット、事前トレーニングされた埋め込み、コードは、https://github.com/nicolas-hbt/similar-embeddings.comで入手できる。

Knowledge graph embedding models (KGEMs) developed for link prediction learn vector representations for graph entities, known as embeddings. A common tacit assumption is the KGE entity similarity assumption, which states that these KGEMs retain the graph's structure within their embedding space, i.e., position similar entities close to one another. This desirable property make KGEMs widely used in downstream tasks such as recommender systems or drug repurposing. Yet, the alignment of graph similarity with embedding space similarity has rarely been formally evaluated. Typically, KGEMs are assessed based on their sole link prediction capabilities, using ranked-based metrics such as Hits@K or Mean Rank. This paper challenges the prevailing assumption that entity similarity in the graph is inherently mirrored in the embedding space. Therefore, we conduct extensive experiments to measure the capability of KGEMs to cluster similar entities together, and investigate the nature of the underlying factors. Moreover, we study if different KGEMs expose a different notion of similarity. Datasets, pre-trained embeddings and code are available at: https://github.com/nicolas-hbt/similar-embeddings.
翻訳日:2023-12-19 16:50:00 公開日:2023-12-16
# 対話からダイアグラムへ:加速ビジネスプロセスプロトタイピングのための自然言語からのタスクと関係抽出

From Dialogue to Diagram: Task and Relationship Extraction from Natural Language for Accelerated Business Process Prototyping ( http://arxiv.org/abs/2312.10432v1 )

ライセンス: Link先を確認
Sara Qayyum, Muhammad Moiz Asghar, Muhammad Fouzan Yaseen(参考訳) 本稿では,テキスト記述から重要な要素を抽出するための依存性解析と名前付きエンティティ認識(NER)を,我々のアプローチの中心とする現代的ソリューションを紹介する。 さらに,行動関係の同定にSVO(Subject-Verb-Object)構造を用い,コンテキスト理解のためのWordNetなどの意味分析ツールを統合する。 このシステムの新しい側面は、SpaCyフレームワークと統合されたニューラルコア参照解決の応用であり、エンティティリンケージとアナフォリック参照の精度を高めている。 さらに、システムはデータ変換と視覚化を積極的に処理し、抽出した情報をBPMN(Business Process Model and Notation)ダイアグラムに変換する。 この方法論は、ビジネスワークフローの取得と表現のプロセスを合理化するだけでなく、従来のモデリングアプローチに固有の手作業やエラーの可能性を大幅に削減します。

The automatic transformation of verbose, natural language descriptions into structured process models remains a challenge of significant complexity - This paper introduces a contemporary solution, where central to our approach, is the use of dependency parsing and Named Entity Recognition (NER) for extracting key elements from textual descriptions. Additionally, we utilize Subject-Verb-Object (SVO) constructs for identifying action relationships and integrate semantic analysis tools, including WordNet, for enriched contextual understanding. A novel aspect of our system is the application of neural coreference resolution, integrated with the SpaCy framework, enhancing the precision of entity linkage and anaphoric references. Furthermore, the system adeptly handles data transformation and visualization, converting extracted information into BPMN (Business Process Model and Notation) diagrams. This methodology not only streamlines the process of capturing and representing business workflows but also significantly reduces the manual effort and potential for error inherent in traditional modeling approaches.
翻訳日:2023-12-19 16:42:55 公開日:2023-12-16
# 混合型タブラリデータに対する連続拡散

Continuous Diffusion for Mixed-Type Tabular Data ( http://arxiv.org/abs/2312.10431v1 )

ライセンス: Link先を確認
Markus Mueller, Kathrin Gruber, Dennis Fok(参考訳) スコアベースの生成モデル(略して拡散モデル)は、テキストや画像データの生成において多くの領域で成功している。 しかし,このモデルファミリとの混合型表型データの検討は,今のところ不十分である。 既存の研究は主に、表データ固有の特徴の不均一性を明示的に考慮することなく、異なる拡散過程を組み合わせる。 本稿では,スコアマッチングとスコア補間を組み合わせることで,連続的特徴とカテゴリー的特徴の両方に影響を及ぼす一般的な連続的雑音分布を実現する。 さらに,特徴量やデータタイプごとに異なるノイズスケジュールが与える影響について検討する。 適応的、学習可能なノイズスケジュールにより、最適なモデルのキャパシティとバランスの取れた生成能力を確保する。 その結果,本モデルが最先端ベンチマークモデルを一貫して上回っており,ノイズスケジュール設計における不均一性を考慮するとサンプル品質が向上することがわかった。

Score-based generative models (or diffusion models for short) have proven successful across many domains in generating text and image data. However, the consideration of mixed-type tabular data with this model family has fallen short so far. Existing research mainly combines different diffusion processes without explicitly accounting for the feature heterogeneity inherent to tabular data. In this paper, we combine score matching and score interpolation to ensure a common type of continuous noise distribution that affects both continuous and categorical features alike. Further, we investigate the impact of distinct noise schedules per feature or per data type. We allow for adaptive, learnable noise schedules to ensure optimally allocated model capacity and balanced generative capability. Results show that our model consistently outperforms state-of-the-art benchmark models and that accounting for heterogeneity within the noise schedule design boosts the sample quality.
翻訳日:2023-12-19 16:42:38 公開日:2023-12-16
# ResoNet: ハイブリッド畳み込みとトランスフォーマーネットワークを備えたロバストおよび説明可能なENSO予測

ResoNet: Robust and Explainable ENSO Forecasts with Hybrid Convolution and Transformer Networks ( http://arxiv.org/abs/2312.10429v1 )

ライセンス: Link先を確認
Pumeng Lyu, Tao Tang, Fenghua Ling, Jing-Jia Luo, Niklas Boers, Wanli Ouyang, and Lei Bai(参考訳) 近年の研究では、ディープラーニング(DL)モデルは、1.5年以上前にEl Ni\~no-Southern Oscillation(ENSO)予測を巧みに予測できることが示されている。 しかし、DL手法による予測の信頼性に関する懸念は、潜在的な過度な問題や解釈可能性の欠如など、継続する。 本稿では,畳み込みニューラルネットワーク(cnn)とトランスフォーマーアーキテクチャを組み合わせたdlモデルであるresonetを提案する。 このハイブリッドアーキテクチャ設計により,局所的なSSTAを適切に捕捉し,海洋を横断する長距離バス間相互作用を実現することができる。 ResoNetは、19~26ヶ月のリードタイムでESNOを確実に予測できることを示し、予測の地平線の観点から既存のアプローチよりも優れていることを示す。 エルニーニョ・ノとラニーニョ・ナのレゾネット予測に1ヶ月から18ヶ月のリードで適用された説明可能性法により、リチャージオシレータの概念、季節的フットプリント機構、インド洋コンデンサ効果など、複数の物理的に妥当なメカニズムに基づいて、Ni\~ノ3.4指数を予測することが判明した。 さらに、初めて、El Ni\~no と La Ni\~na の非対称性が ResoNet によって捉えられることを示した。 我々の結果は、DLモデルをENSO予測に適用することに対する懐疑論を緩和し、AI手法を用いて気候現象を発見し予測する試みをさらに促進するのに役立ちます。

Recent studies have shown that deep learning (DL) models can skillfully predict the El Ni\~no-Southern Oscillation (ENSO) forecasts over 1.5 years ahead. However, concerns regarding the reliability of predictions made by DL methods persist, including potential overfitting issues and lack of interpretability. Here, we propose ResoNet, a DL model that combines convolutional neural network (CNN) and Transformer architectures. This hybrid architecture design enables our model to adequately capture local SSTA as well as long-range inter-basin interactions across oceans. We show that ResoNet can robustly predict ESNO at lead times between 19 and 26 months, thus outperforming existing approaches in terms of the forecast horizon. According to an explainability method applied to ResoNet predictions of El Ni\~no and La Ni\~na events from 1- to 18-month lead, we find that it predicts the Ni\~no3.4 index based on multiple physically reasonable mechanisms, such as the Recharge Oscillator concept, Seasonal Footprint Mechanism, and Indian Ocean capacitor effect. Moreover, we demonstrate that for the first time, the asymmetry between El Ni\~no and La Ni\~na development can be captured by ResoNet. Our results could help alleviate skepticism about applying DL models for ENSO prediction and encourage more attempts to discover and predict climate phenomena using AI methods.
翻訳日:2023-12-19 16:42:24 公開日:2023-12-16
# 不均一フェデレーション学習における鏡としての歴史

Take History as a Mirror in Heterogeneous Federated Learning ( http://arxiv.org/abs/2312.10425v1 )

ライセンス: Link先を確認
Xiaorui Jiang, Hengwei Xu, Yu Gao, Yong Liao, Pengyuan Zhou(参考訳) フェデレーション学習(federated learning, fl)は、複数のクライアントが生データを開示することなく、協調的に機械学習モデルを訓練することを可能にする。 実際には、システムとデバイス間の統計的不均一性のため、同期flはしばしばストラグラー効果に遭遇する。 対照的に、非同期flはこの問題を緩和し、多数の参加者を含むシナリオに適している。 しかし、非iidデータと古いモデルは、グローバルモデルの実用性が低下し、さらにはトレーニングの失敗につながるため、非同期flに重大な課題をもたらす。 本研究では,非IIDデータと勾配安定度の両方がもたらす課題を効果的に解決する,FedHist(Federated Historical Learning)と呼ばれる新しい非同期FLフレームワークを提案する。 fedhistは、サーバにキャッシュされた歴史的なグローバル勾配と重み付け融合を行うことで、ローカル勾配の安定性を高める。 後見に基づいて、各通信ラウンド中に多次元的に各参加者に集約重みを割り当てる。 トレーニングプロセスの効率性と安定性をさらに向上するため,提案した勾配の$\ell_2$-normに基づいて,動的に学習の進捗を調節するインテリジェントな$\ell_2$-norm増幅方式を導入する。 広範な実験により、フェディストは収束性能とテスト精度の点で最先端の手法よりも優れていることが示されている。

Federated Learning (FL) allows several clients to cooperatively train machine learning models without disclosing the raw data. In practice, due to the system and statistical heterogeneity among devices, synchronous FL often encounters the straggler effect. In contrast, asynchronous FL can mitigate this problem, making it suitable for scenarios involving numerous participants. However, Non-IID data and stale models present significant challenges to asynchronous FL, as they would diminish the practicality of the global model and even lead to training failures. In this work, we propose a novel asynchronous FL framework called Federated Historical Learning (FedHist), which effectively addresses the challenges posed by both Non-IID data and gradient staleness. FedHist enhances the stability of local gradients by performing weighted fusion with historical global gradients cached on the server. Relying on hindsight, it assigns aggregation weights to each participant in a multi-dimensional manner during each communication round. To further enhance the efficiency and stability of the training process, we introduce an intelligent $\ell_2$-norm amplification scheme, which dynamically regulates the learning progress based on the $\ell_2$-norms of the submitted gradients. Extensive experiments demonstrate that FedHist outperforms state-of-the-art methods in terms of convergence performance and test accuracy.
翻訳日:2023-12-19 16:41:55 公開日:2023-12-16
# 関数近似を用いたTD(0)の濃度境界

A Concentration Bound for TD(0) with Function Approximation ( http://arxiv.org/abs/2312.10424v1 )

ライセンス: Link先を確認
Siddharth Chandak, Vivek S. Borkar(参考訳) 型 `for all $n \geq n_0$' for some $n_0$' for td(0) with linear function approximation。 我々は,マルコフ連鎖の1つのサンプルパスから採取したサンプルを用いて,オンラインtd学習を行う。 これにより、マルコフ連鎖の定常分布から独立したサンプルにアクセスすることで、オフラインのTD学習やTD学習とは大きく異なる。 td(0) をmartingale と markov の両方のノイズを持つ縮約確率近似アルゴリズムとして扱う。 マルコフノイズはポアソン方程式を用いて処理され、イテレートの有界性に関するほぼ確実な保証の欠如は、緩和された濃度の不等式の概念を用いて処理される。

We derive a concentration bound of the type `for all $n \geq n_0$ for some $n_0$' for TD(0) with linear function approximation. We work with online TD learning with samples from a single sample path of the underlying Markov chain. This makes our analysis significantly different from offline TD learning or TD learning with access to independent samples from the stationary distribution of the Markov chain. We treat TD(0) as a contractive stochastic approximation algorithm, with both martingale and Markov noises. Markov noise is handled using the Poisson equation and the lack of almost sure guarantees on boundedness of iterates is handled using the concept of relaxed concentration inequalities.
翻訳日:2023-12-19 16:41:29 公開日:2023-12-16
# カーネル密度推定による未知連続文脈分布を用いた確率ベイズ最適化

Stochastic Bayesian Optimization with Unknown Continuous Context Distribution via Kernel Density Estimation ( http://arxiv.org/abs/2312.10423v1 )

ライセンス: Link先を確認
Xiaobin Huang, Lei Song, Ke Xue, Chao Qian(参考訳) ベイズ最適化はサンプル効率の良い手法であり、高価なブラックボックス関数の最適化に広く使われている。 近年,意思決定者による制御不能な環境における文脈変数の影響を受けやすい関数の最適化におけるBO文献への関心が高まっている。 本稿では,未知の分布を考慮した連続的文脈変数に対する関数の期待値の最適化に焦点をあてる。 この問題を解決するために,カーネル密度推定を用いて連続文脈変数の確率密度関数(PDF)をオンラインで学習する2つのアルゴリズムを提案する。 最初のアルゴリズムは単純で、推定されたPDFで期待を直接最適化する。 真の分布が複雑である場合、推定されたpdfは高い推定誤差を持つ可能性があることを考慮し、分布にロバストな目標を最適化する第2のアルゴリズムを提案する。 理論的結果は、両方のアルゴリズムが期待する目的に対して準線形ベイズ累積後悔を持つことを示している。 さらに,本アルゴリズムの有効性を実証的に示す数値実験を行った。

Bayesian optimization (BO) is a sample-efficient method and has been widely used for optimizing expensive black-box functions. Recently, there has been a considerable interest in BO literature in optimizing functions that are affected by context variable in the environment, which is uncontrollable by decision makers. In this paper, we focus on the optimization of functions' expectations over continuous context variable, subject to an unknown distribution. To address this problem, we propose two algorithms that employ kernel density estimation to learn the probability density function (PDF) of continuous context variable online. The first algorithm is simpler, which directly optimizes the expectation under the estimated PDF. Considering that the estimated PDF may have high estimation error when the true distribution is complicated, we further propose the second algorithm that optimizes the distributionally robust objective. Theoretical results demonstrate that both algorithms have sub-linear Bayesian cumulative regret on the expectation objective. Furthermore, we conduct numerical experiments to empirically demonstrate the effectiveness of our algorithms.
翻訳日:2023-12-19 16:41:17 公開日:2023-12-16
# NeRFによる顔再現のための学習線量対応

Learning Dense Correspondence for NeRF-Based Face Reenactment ( http://arxiv.org/abs/2312.10422v1 )

ライセンス: Link先を確認
Songlin Yang, Wei Wang, Yushi Lan, Xiangyu Fan, Bo Peng, Lei Yang, Jing Dong(参考訳) 様々な顔表現間の密接な対応を確立する必要があるため、顔再現は困難である。 近年の研究では、Neural Radiance Field (NeRF) を基本表現として利用し、光リアリズムと3次元整合性における多視点顔再現の性能をさらに向上させた。 なぜなら、暗黙の表現は、メッシュベースの3dパラメトリックモデル(例えば、3dmm)のような接地対応のアノテーションを欠いているからである。 3DMM空間とNeRFベースの顔表現との整合性は動き制御を実現することができるが、その限定的な顔のみのモデリングと低アイデンティティの忠実度には最適である。 そのため、我々は3次元パラメトリックモデルなしで、異なるNeRFベースの顔表現間の密接な対応を学べるか? この課題に対処するために,我々は3次元平面を基本的なnerf表現として採用し,3次元面を正準3次元平面,同一性変形,運動の3つの要素に分解する新しい枠組みを提案する。 運動制御の観点からは,学習可能な直交平面基底の線形重み付き付加に運動条件を効率的にマッピングする平面辞書(planedict)モジュールの提案が重要となる。 我々の知る限り、我々のフレームワークは3次元パラメトリックモデルなしで1ショットの多視点顔再現を実現する最初の方法である。 広範囲な実験により,従来の方法よりも微細な動き制御やアイデンティティ保存に優れた結果が得られた。

Face reenactment is challenging due to the need to establish dense correspondence between various face representations for motion transfer. Recent studies have utilized Neural Radiance Field (NeRF) as fundamental representation, which further enhanced the performance of multi-view face reenactment in photo-realism and 3D consistency. However, establishing dense correspondence between different face NeRFs is non-trivial, because implicit representations lack ground-truth correspondence annotations like mesh-based 3D parametric models (e.g., 3DMM) with index-aligned vertexes. Although aligning 3DMM space with NeRF-based face representations can realize motion control, it is sub-optimal for their limited face-only modeling and low identity fidelity. Therefore, we are inspired to ask: Can we learn the dense correspondence between different NeRF-based face representations without a 3D parametric model prior? To address this challenge, we propose a novel framework, which adopts tri-planes as fundamental NeRF representation and decomposes face tri-planes into three components: canonical tri-planes, identity deformations, and motion. In terms of motion control, our key contribution is proposing a Plane Dictionary (PlaneDict) module, which efficiently maps the motion conditions to a linear weighted addition of learnable orthogonal plane bases. To the best of our knowledge, our framework is the first method that achieves one-shot multi-view face reenactment without a 3D parametric model prior. Extensive experiments demonstrate that we produce better results in fine-grained motion control and identity preservation than previous methods.
翻訳日:2023-12-19 16:41:01 公開日:2023-12-16
# 年代最小モバイルエッジコンピューティングのためのフラクショナルディープ強化学習

Fractional Deep Reinforcement Learning for Age-Minimal Mobile Edge Computing ( http://arxiv.org/abs/2312.10418v1 )

ライセンス: Link先を確認
Ming Tang, Lyudong Jin, Meng Zhang, Hao Wang(参考訳) モバイルエッジコンピューティング(MEC)は、処理遅延を低減できるため、集中的な計算を必要とするリアルタイムアプリケーション(例えば自律運転)に期待できるパラダイムである。 本研究では,AOI(Age-ofInformation)によって測定された計算集約更新のタイムラインに着目し,AoIのタスク更新とオフロードポリシを分断形式で協調的に最適化する方法を検討する。 具体的には,エッジ負荷のダイナミクスを考慮し,タスクスケジューリング問題を定式化し,期待時間平均aoiを最小化する。 不確実なエッジ負荷ダイナミクス、分数目的の性質、および(共同最適化による)ハイブリッド連続離散アクション空間はこの問題を難しくし、既存のアプローチは直接適用できない。 そこで本研究では,分数強化学習(rl)フレームワークを提案し,その収束性を証明する。 我々はさらに,各デバイスがシステムダイナミクスや他のデバイスの意思決定を知らずに,ハイブリッド動作空間でスケジューリング決定を行うモデルフリー分数分数型ディープrl(drl)アルゴリズムも設計する。 実験の結果,提案手法は非フラクショナルベンチマークと比較して平均aoiを57.6%削減できることがわかった。

Mobile edge computing (MEC) is a promising paradigm for real-time applications with intensive computational needs (e.g., autonomous driving), as it can reduce the processing delay. In this work, we focus on the timeliness of computational-intensive updates, measured by Age-ofInformation (AoI), and study how to jointly optimize the task updating and offloading policies for AoI with fractional form. Specifically, we consider edge load dynamics and formulate a task scheduling problem to minimize the expected time-average AoI. The uncertain edge load dynamics, the nature of the fractional objective, and hybrid continuous-discrete action space (due to the joint optimization) make this problem challenging and existing approaches not directly applicable. To this end, we propose a fractional reinforcement learning(RL) framework and prove its convergence. We further design a model-free fractional deep RL (DRL) algorithm, where each device makes scheduling decisions with the hybrid action space without knowing the system dynamics and decisions of other devices. Experimental results show that our proposed algorithms reduce the average AoI by up to 57.6% compared with several non-fractional benchmarks.
翻訳日:2023-12-19 16:40:33 公開日:2023-12-16
# M2ConceptBase: きめ細かい多モード概念知識ベース

M2ConceptBase: A Fine-grained Aligned Multi-modal Conceptual Knowledge Base ( http://arxiv.org/abs/2312.10417v1 )

ライセンス: Link先を確認
Zhiwei Zha, Jiaan Wang, Zhixu Li, Xiangru Zhu, Wei Song, Yanghua Xiao(参考訳) 大規模マルチモーダルモデル(LMM)は,事前学習技術の急速な発展により,有望な知性を示した。 しかし、細粒度のクロスモーダルアライメント能力は、画像テキストペアの粗いアライメントによって制限される。 この制限は、きめ細かい概念の認識を妨げ、結果として準最適性能をもたらす。 本稿では,画像と概念の粒度の調整を目的としたマルチモーダル概念知識ベースであるm2conceptbaseを提案する。 具体的には、M2ConceptBaseは、概念をノードとしてモデル化し、関連する画像と詳細なテキストとを関連付けることにより、LMMのクロスモーダルアライメントと豊富な概念知識を向上する。 概念イメージと概念記述のアライメントを収集するために,既存の大規模画像テキストペアのコンテキスト情報を考慮したコンテキスト認識型マルチモーダルシンボル基底手法を提案する。 最先端の大規模言語モデルでは,シンボル接地アプローチによる概念記述を補完する。 最後に、私たちのM2ConceptBaseには951K以上の画像と152Kのコンセプトが含まれており、それぞれが平均6.27のイメージと1つの詳細な記述に関連付けられています。 我々はOK-VQAタスクの実験を行い、M2ConceptBaseが最先端の性能を達成する上でモデルを促進することを示す。 さらに、LMMの概念理解を評価するための総合的なベンチマークを構築し、M2ConceptBaseがLMMの概念理解と相互アライメント能力を効果的に改善できることを示す。

Large multi-modal models (LMMs) have demonstrated promising intelligence owing to the rapid development of pre-training techniques. However, their fine-grained cross-modal alignment ability is constrained by the coarse alignment in image-text pairs. This limitation hinders awareness of fine-grained concepts, resulting in sub-optimal performance. In this paper, we propose a multi-modal conceptual knowledge base, named M2ConceptBase, which aims to provide fine-grained alignment between images and concepts. Specifically, M2ConceptBase models concepts as nodes, associating each with relevant images and detailed text, thereby enhancing LMMs' cross-modal alignment with rich conceptual knowledge. To collect concept-image and concept-description alignments, we propose a context-aware multi-modal symbol grounding approach that considers context information in existing large-scale image-text pairs with respect to each concept. A cutting-edge large language model supplements descriptions for concepts not grounded via our symbol grounding approach. Finally, our M2ConceptBase contains more than 951K images and 152K concepts, each associating with an average of 6.27 images and a single detailed description. We conduct experiments on the OK-VQA task, demonstrating that our M2ConceptBase facilitates the model in achieving state-of-the-art performance. Moreover, we construct a comprehensive benchmark to evaluate the concept understanding of LMMs and show that M2ConceptBase could effectively improve LMMs' concept understanding and cross-modal alignment abilities.
翻訳日:2023-12-19 16:40:13 公開日:2023-12-16
# 非IIDデータを用いたUAV型フェデレーションエッジ学習の信頼性向上に向けて

Towards Reliable Participation in UAV-Enabled Federated Edge Learning on Non-IID Data ( http://arxiv.org/abs/2312.10411v1 )

ライセンス: Link先を確認
Youssra Cheriguene, Wael Jaafar, Halim Yanikomeroglu, Chaker Abdelaziz Kerrache(参考訳) Federated Learning(FL)は、分散機械学習(ML)技術で、多くの参加者が、プライベートなローカルデータセットを他の人と共有することなく、共同でMLモデルをトレーニングすることができる。 参加者が無人航空機(UAV)である場合、UAV対応FLは、主に歪んだ(非独立で同一に分散された-IID)データのために不均一性を受ける。 さらに、UAVは、例えば、高い移動性、不使用性、バッテリーの枯渇に起因するFLシステムからのUAVの切断のために、後者がFLサーバに更新を送信できない意図しない不都合を示す可能性がある。 このような課題はFLモデルの収束に大きな影響を与える可能性がある。 これらの課題に取り組む最近の方法は、uavコンピューティングのパワーとエネルギー消費を考慮したカスタマイズされた基準に基づいたクライアント選択である。 しかし、既存のクライアント選択方式のほとんどは参加者の信頼性を無視した。 実際、FLは、悪意のあるUAVが特定の入力に対してターゲットとなる偽の予測を提供するか、またはローカルモデルに改ざんすることでグローバルモデルの正確性を妥協することによって、FLサーバーに有害なローカルモデルをアップロードする中毒攻撃によって標的にすることができる。 そこで本稿では,信頼性の高い高速UAVを優先し,悪質なUAVをトレーニングから排除し,収束性を高める新しいクライアント選択方式を提案する。 実験を通じて,異なる攻撃シナリオに抵抗する手法の有効性を,収束の観点から評価し,モデル精度を達成した。 最後に,提案手法がベースライン法と比較して性能上優れていることを示す。

Federated Learning (FL) is a decentralized machine learning (ML) technique that allows a number of participants to train an ML model collaboratively without having to share their private local datasets with others. When participants are unmanned aerial vehicles (UAVs), UAV-enabled FL would experience heterogeneity due to the majorly skewed (non-independent and identically distributed -IID) collected data. In addition, UAVs may demonstrate unintentional misbehavior in which the latter may fail to send updates to the FL server due, for instance, to UAVs' disconnectivity from the FL system caused by high mobility, unavailability, or battery depletion. Such challenges may significantly affect the convergence of the FL model. A recent way to tackle these challenges is client selection, based on customized criteria that consider UAV computing power and energy consumption. However, most existing client selection schemes neglected the participants' reliability. Indeed, FL can be targeted by poisoning attacks, in which malicious UAVs upload poisonous local models to the FL server, by either providing targeted false predictions for specifically chosen inputs or by compromising the global model's accuracy through tampering with the local model. Hence, we propose in this paper a novel client selection scheme that enhances convergence by prioritizing fast UAVs with high-reliability scores, while eliminating malicious UAVs from training. Through experiments, we assess the effectiveness of our scheme in resisting different attack scenarios, in terms of convergence and achieved model accuracy. Finally, we demonstrate the performance superiority of the proposed approach compared to baseline methods.
翻訳日:2023-12-19 16:39:45 公開日:2023-12-16
# deepart:ai生成コンテンツの忠実性研究を促進するベンチマーク

DeepArt: A Benchmark to Advance Fidelity Research in AI-Generated Content ( http://arxiv.org/abs/2312.10407v1 )

ライセンス: Link先を確認
Wentao Wang, Xuanyao Huang, Swalpa Kumar Roy(参考訳) 本稿では,マルチモーダル大言語モデルであるGPT-4の画像合成機能について検討する。 本稿では,gpt-4で生成した画像のテクスチャ特徴の忠実性を評価するためのベンチマークを構築した。 まず、gpt-4に基づく画像合成機能の忠実性に関する詳細な分析を行い、この最先端モデルに関する最初の研究となる。 第2に、定量および定性的実験により、画像合成におけるGPT-4モデルの限界が完全に明らかになった。 第3に,手動図面とそれに対応するGPT-4生成画像のユニークなベンチマークをコンパイルし,AIGC(AIGC)における忠実度研究を進めるための新たなタスクを導入した。 データセットは、承認された後に提供される。 \url{https://github.com/rickwang28574/DeepArt}。 この研究が知識、奨学金、イノベーションを助長し、芸術の世界を発見し、理解し、芸術への敬意を維持しながらAIGCの発展を促進させる方法を変えることを願っている。

This paper explores the image synthesis capabilities of GPT-4, a leading multi-modal large language model. We establish a benchmark for evaluating the fidelity of texture features in images generated by GPT-4, comprising manually painted pictures and their AI-generated counterparts. The contributions of this study are threefold: First, we provide an in-depth analysis of the fidelity of image synthesis features based on GPT-4, marking the first such study on this state-of-the-art model. Second, the quantitative and qualitative experiments fully reveals the limitations of the GPT-4 model in image synthesis. Third, we have compiled a unique benchmark of manual drawings and corresponding GPT-4-generated images, introducing a new task to advance fidelity research in AI-generated content (AIGC). The dataset will be available after being accepted: \url{https://github.com/rickwang28574/DeepArt}. We hope this study will fuel knowledge, scholarship, and innovation, inspiring uses that transform how we discover and understand the world of art and promote the development of AIGC while retaining respect for art.
翻訳日:2023-12-19 16:39:17 公開日:2023-12-16
# スケーラブルな合成データと対向領域の融合による注釈なし自動音楽転写

Annotation-Free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion ( http://arxiv.org/abs/2312.10402v1 )

ライセンス: Link先を確認
Gakusei Sato, Taketo Akama(参考訳) AMT(Automatic Music Transcription)は、音楽情報処理において重要な技術である。 機械学習アプローチによる最近のパフォーマンス向上にもかかわらず、既存の手法はアノテーションデータを作成するのが難しいため、豊富なアノテーションデータを持つドメインで高い精度を達成することが多い。 実用的な転写モデルは、アノテーションデータを必要としないアーキテクチャを必要とする。 本稿では,スケーラブルな合成音声を用いて,無注実音声を用いた事前学習と逆境領域の混乱を回避し,アノテーションフリーな書き起こしモデルを提案する。 評価実験により,提案手法は注釈付き実音声データの混合学習と比較して,アノテーションのない条件下で高い精度が得られることを確認した。 さらに、アブレーション研究を通じて、このアプローチのスケーラビリティと、ATT研究の分野における今後の課題について洞察を得る。

Automatic Music Transcription (AMT) is a crucial technology in music information processing. Despite recent improvements in performance through machine learning approaches, existing methods often achieve high accuracy in domains with abundant annotation data, primarily due to the difficulty of creating annotation data. A practical transcription model requires an architecture that does not require an annotation data. In this paper, we propose an annotation-free transcription model achieved through the utilization of scalable synthetic audio for pre-training and adversarial domain confusion using unannotated real audio. Through evaluation experiments, we confirm that our proposed method can achieve higher accuracy under annotation-free conditions compared to when learning with mixture of annotated real audio data. Additionally, through ablation studies, we gain insights into the scalability of this approach and the challenges that lie ahead in the field of AMT research.
翻訳日:2023-12-19 16:38:58 公開日:2023-12-16
# 因果的視点から見たグラフコントラスト学習における次元Rationaleの再考

Rethinking Dimensional Rationale in Graph Contrastive Learning from Causal Perspective ( http://arxiv.org/abs/2312.10401v1 )

ライセンス: Link先を確認
Qirui Ji, Jiangmeng Li, Jie Hu, Rui Wang, Changwen Zheng, Fanjiang Xu(参考訳) グラフコントラスト学習は、グラフの様々な摂動から不変情報を捉えるのに優れた一般的な学習パラダイムである。 最近の研究は、グラフから構造的理性を探究することに集中し、不変情報の識別可能性を高める。 しかし、このような手法はグラフの解釈可能性に対するグラフモデルの誤学習を引き起こす可能性があるため、学習ノイズやタスクに依存しない情報はグラフの予測に干渉する。 そこで,本論文では,グラフの本質的理論的根拠を探るために,文献にあまり注目されていないグラフから次元的合理性を捉えることを提案する。 探索実験は、前述のロードマップの実現可能性を証明するものである。 次元的根拠から生じる性能向上の背後にある帰納的メカニズムを明らかにするため、グラフコントラスト学習における次元的根拠を因果的視点から再考し、さらに、事前学習段階における変数間の因果関係を定式化し、対応する構造的因果モデルを構築する。 本研究では,構造因果モデルの理解に基づいて,学習可能な次元理性獲得ネットワークと冗長性低減制約を導入する,次元理性認識グラフコントラスト学習手法を提案する。 二段階メタラーニング技術を活用して学習可能な次元的理性獲得ネットワークを更新し、学習中のデコリレーションプロセスを通じて冗長性低下制約をアンタングルする。 実験的に,本手法は最先端の手法と比較して,識別可能性や転送可能性に関して,様々なベンチマークにおいて顕著な性能向上をもたらすことができる。 このメソッドのコード実装はhttps://github.com/byronji/drgclで利用可能です。

Graph contrastive learning is a general learning paradigm excelling at capturing invariant information from diverse perturbations in graphs. Recent works focus on exploring the structural rationale from graphs, thereby increasing the discriminability of the invariant information. However, such methods may incur in the mis-learning of graph models towards the interpretability of graphs, and thus the learned noisy and task-agnostic information interferes with the prediction of graphs. To this end, with the purpose of exploring the intrinsic rationale of graphs, we accordingly propose to capture the dimensional rationale from graphs, which has not received sufficient attention in the literature. The conducted exploratory experiments attest to the feasibility of the aforementioned roadmap. To elucidate the innate mechanism behind the performance improvement arising from the dimensional rationale, we rethink the dimensional rationale in graph contrastive learning from a causal perspective and further formalize the causality among the variables in the pre-training stage to build the corresponding structural causal model. On the basis of the understanding of the structural causal model, we propose the dimensional rationale-aware graph contrastive learning approach, which introduces a learnable dimensional rationale acquiring network and a redundancy reduction constraint. The learnable dimensional rationale acquiring network is updated by leveraging a bi-level meta-learning technique, and the redundancy reduction constraint disentangles the redundant features through a decorrelation process during learning. Empirically, compared with state-of-the-art methods, our method can yield significant performance boosts on various benchmarks with respect to discriminability and transferability. The code implementation of our method is available at https://github.com/ByronJi/DRGCL.
翻訳日:2023-12-19 16:38:46 公開日:2023-12-16
# 量子コンピュータによるフェルミオンの学習、最適化、シミュレーション

Learning, Optimizing, and Simulating Fermions with Quantum Computers ( http://arxiv.org/abs/2312.10399v1 )

ライセンス: Link先を確認
Andrew Zhao(参考訳) フェルミオン(英: Fermions)は、一見奇妙な量子力学の原理に従っている基本粒子である。 この研究は、基本的なインセンティブと実践的なインセンティブの両方から大きなモチベーションを得ている。 この論文の中で、量子情報と計算のツールがどちらの面でもどのように役立つのかを考察する。 我々は、主に部分的状態学習(トモグラフィープロトコル)のタスクを通じて、量子系の減少するが十分で古典的な記述を得る。 部分トモグラフィのための高速手法の開発は、現在利用可能な不完全な量子マシンにとって特に差し迫った問題である量子シミュレーションアルゴリズムの重大なボトルネックに対処している。 同時に、そのようなプロトコルの探索において、量子状態を学ぶことの意味について、私たちの考えを洗練させます。 重要な例の1つは、計算の観点から、フェルミオンの学習が他の種類の粒子とどのように対照的かを明確にする能力である。

Fermions are fundamental particles which obey seemingly bizarre quantum-mechanical principles, yet constitute all the ordinary matter that we inhabit. As such, their study is heavily motivated from both fundamental and practical incentives. In this dissertation, we will explore how the tools of quantum information and computation can assist us on both of these fronts. We primarily do so through the task of partial state learning: tomographic protocols for acquiring a reduced, but sufficient, classical description of a quantum system. Developing fast methods for partial tomography addresses a critical bottleneck in quantum simulation algorithms, which is a particularly pressing issue for currently available, imperfect quantum machines. At the same time, in the search for such protocols, we also refine our notion of what it means to learn quantum states. One important example is the ability to articulate, from a computational perspective, how the learning of fermions contrasts with other types of particles.
翻訳日:2023-12-19 16:38:19 公開日:2023-12-16
# 弱値近似の妥当性について

On the Validity of the Weak Value Approximation ( http://arxiv.org/abs/2312.10397v1 )

ライセンス: Link先を確認
Benjamin No\"e Bauml(参考訳) 弱値近似は35年間使われてきたが、まだ真に完全な導出を受けておらず、数学的な妥当性は手足の状態に残されている。 ここで、このギャップを埋め、フォン・ノイマンおよびクビットプローブモデルの下での弱値近似を導出する。 これは、前回の研究で達成されなかった弱値近似に対する数学的支援を提供するだけでなく、この方法で証明された手法は、別のモデルに対して同様の導出を強制するために他の者が利用できるかもしれないため、将来さらに幅広い検証の可能性を見いだすことができる。

The weak value approximation has been in use for thirty-five years, but it has not as of yet received a truly complete derivation, leaving its mathematical validity in a state of limbo. Herein, I fill this gap, deriving the weak value approximation under the von Neumann and qubit probe models. Not only does this provide a level of mathematical support to the weak value approximation not attained in previous works, but the techniques demonstrated in the process might be usable by others to forge similar derivations for alternative models, thus teasing the possibility of even broader validation in the future.
翻訳日:2023-12-19 16:38:03 公開日:2023-12-16
# 不確かさ推定のためのラプラス近似の実証診断

Unveiling Empirical Pathologies of Laplace Approximation for Uncertainty Estimation ( http://arxiv.org/abs/2312.10464v1 )

ライセンス: Link先を確認
Maksim Zhdanov, Stanislav Dereka, Sergey Kolesnikov(参考訳) 本稿では,広く適用されたラプラス近似とその変種に着目し,ディープラーニングにおける不確実性推定のためのベイズ法を批判的に評価する。 その結果, 従来のヘッセン行列の固定法は, 分布外(OOD)検出効率に悪影響を及ぼすことがわかった。 そこで本研究では,事前精度の最適化のみに注目することで,適切なキャリブレーション指標を保ちながら,ood検出においてより正確な不確実性推定が得られることを示す。 さらに,本特性はモデルの訓練段階に関係せず,本質的性質に関係していることを示す。 広範囲な実験評価を通じて, 従来の分散領域における手法よりも簡便なアプローチが優れていることを示す。

In this paper, we critically evaluate Bayesian methods for uncertainty estimation in deep learning, focusing on the widely applied Laplace approximation and its variants. Our findings reveal that the conventional method of fitting the Hessian matrix negatively impacts out-of-distribution (OOD) detection efficiency. We propose a different point of view, asserting that focusing solely on optimizing prior precision can yield more accurate uncertainty estimates in OOD detection while preserving adequate calibration metrics. Moreover, we demonstrate that this property is not connected to the training stage of a model but rather to its intrinsic properties. Through extensive experimental evaluation, we establish the superiority of our simplified approach over traditional methods in the out-of-distribution domain.
翻訳日:2023-12-19 16:33:48 公開日:2023-12-16
# 顔認証のための深層と浅層特徴の融合

Fusion of Deep and Shallow Features for Face Kinship Verification ( http://arxiv.org/abs/2312.10462v1 )

ライセンス: Link先を確認
Belabbaci El Ouanas, Khammari Mohammed, Chouchane Ammar, Mohcene Bessaoudi, Abdelmalik Ouamane, Akram Abderraouf Gharbi(参考訳) 顔画像からの血縁検証は、パターン認識とコンピュータビジョンの領域において、新しくて恐ろしい挑戦である。 この研究は、画像品質を向上させるMultiscale Retinex(MSR)と呼ばれる前処理技術を導入することで、顕著な貢献をしている。 提案手法は,相補的深度(VGG16)と浅部テクスチャ記述子(BSIF)の強度を,ロジスティック回帰(LR)技術を用いてスコアレベルで組み合わせることによって活用する。 コーネルキンフェイス,UBキンフェイス,TSキンフェイスの3つの挑戦的キンシップデータセットに関する総合的な実験を行うことにより,我々のアプローチの有効性を評価する。

Kinship verification from face images is a novel and formidable challenge in the realms of pattern recognition and computer vision. This work makes notable contributions by incorporating a preprocessing technique known as Multiscale Retinex (MSR), which enhances image quality. Our approach harnesses the strength of complementary deep (VGG16) and shallow texture descriptors (BSIF) by combining them at the score level using Logistic Regression (LR) technique. We assess the effectiveness of our approach by conducting comprehensive experiments on three challenging kinship datasets: Cornell Kin Face, UB Kin Face and TS Kin Face
翻訳日:2023-12-19 16:33:36 公開日:2023-12-16
# 一般化可能なディープフェイク検出のためのCNN生成ネットワークにおけるアップサンプリング動作の再考

Rethinking the Up-Sampling Operations in CNN-based Generative Network for Generalizable Deepfake Detection ( http://arxiv.org/abs/2312.10461v1 )

ライセンス: Link先を確認
Chuangchuang Tan, Yao Zhao, Shikui Wei, Guanghua Gu, Ping Liu, Yunchao Wei(参考訳) 近年,様々なGANや拡散によって促進される高度にリアルな合成画像の拡散は,誤用に対する感受性を著しく高めている。 ディープフェイク検出の主な焦点は、従来は検出アルゴリズムの設計に集中していたが、ジェネレータアーキテクチャに関する調査は、近年は顕著に欠落している。 本稿では,cnn ベースの生成器のアーキテクチャを再考し,合成アーティファクトの一般化表現を確立した。 以上の結果から,アップサンプリングオペレータは,頻度に基づくアーティファクト以外にも,汎用的な偽造アーティファクトを生成できることが明らかとなった。 特に、アップサンプリング演算子による画像画素間の局所的相互依存性は、GANまたは拡散によって生成された合成画像において顕著に示される。 そこで本研究では,近傍画素関係(npr)の概念を,アップサンプリング操作から生じる一般化された構造的アーティファクトを捉え,特徴付ける手法として導入する。 包括的分析はオープンワールドデータセット上で行われ、これは \tft{28 distinct generative model} によって生成されたサンプルからなる。 この分析は、既存の方法よりも顕著な \tft{12.8\%} 改善を示す新しい最先端のパフォーマンスを確立した。 コードはhttps://github.com/chuangchuangtan/npr-deepfakedetectionで入手できる。

Recently, the proliferation of highly realistic synthetic images, facilitated through a variety of GANs and Diffusions, has significantly heightened the susceptibility to misuse. While the primary focus of deepfake detection has traditionally centered on the design of detection algorithms, an investigative inquiry into the generator architectures has remained conspicuously absent in recent years. This paper contributes to this lacuna by rethinking the architectures of CNN-based generators, thereby establishing a generalized representation of synthetic artifacts. Our findings illuminate that the up-sampling operator can, beyond frequency-based artifacts, produce generalized forgery artifacts. In particular, the local interdependence among image pixels caused by upsampling operators is significantly demonstrated in synthetic images generated by GAN or diffusion. Building upon this observation, we introduce the concept of Neighboring Pixel Relationships(NPR) as a means to capture and characterize the generalized structural artifacts stemming from up-sampling operations. A comprehensive analysis is conducted on an open-world dataset, comprising samples generated by \tft{28 distinct generative models}. This analysis culminates in the establishment of a novel state-of-the-art performance, showcasing a remarkable \tft{12.8\%} improvement over existing methods. The code is available at https://github.com/chuangchuangtan/NPR-DeepfakeDetection.
翻訳日:2023-12-19 16:33:18 公開日:2023-12-16
# グラフニューラルネットワークにおけるノードの次数に基づく階層化

Degree-based stratification of nodes in Graph Neural Networks ( http://arxiv.org/abs/2312.10458v1 )

ライセンス: Link先を確認
Ameen Ali, Hakan Cevikalp, Lior Wolf(参考訳) 多くの研究にもかかわらず、グラフニューラルネットワーク(GNN)は、畳み込みニューラルネットワークやトランスフォーマーのような他のディープニューラルネットワークのスケーリング特性を好まない。 従来の研究は、潜在表現の過剰な平滑化などの問題を特定し、スキップ接続や洗練された正規化スキームのようなソリューションを提案してきた。 本稿では,グラフノードの階層化に基づく異なるアプローチを提案する。 グラフ内のノードは、低次ノードと高次ノードに階層化することができ、2つのグループが異なる振る舞いをする可能性が高いという動機を与える。 この動機に基づいて,各グループのノードに対して,重み行列を別々に学習できるように,グラフニューラルネットワーク(gnn)アーキテクチャを変更した。 このシンプルな実装変更により、データセットとGNNメソッドのパフォーマンスが改善されているようだ。 この性能向上がキャパシティの増加によるものであることを確認するため、ノードのランダムな分割についても同じ修正を行い、改善にはつながりません。

Despite much research, Graph Neural Networks (GNNs) still do not display the favorable scaling properties of other deep neural networks such as Convolutional Neural Networks and Transformers. Previous work has identified issues such as oversmoothing of the latent representation and have suggested solutions such as skip connections and sophisticated normalization schemes. Here, we propose a different approach that is based on a stratification of the graph nodes. We provide motivation that the nodes in a graph can be stratified into those with a low degree and those with a high degree and that the two groups are likely to behave differently. Based on this motivation, we modify the Graph Neural Network (GNN) architecture so that the weight matrices are learned, separately, for the nodes in each group. This simple-to-implement modification seems to improve performance across datasets and GNN methods. To verify that this increase in performance is not only due to the added capacity, we also perform the same modification for random splits of the nodes, which does not lead to any improvement.
翻訳日:2023-12-19 16:32:55 公開日:2023-12-16
# 視覚表現学習のためのセマンティックアウェア自己回帰画像モデリング

Semantic-Aware Autoregressive Image Modeling for Visual Representation Learning ( http://arxiv.org/abs/2312.10457v1 )

ライセンス: Link先を確認
Kaiyou Song, Shan Zhang, Tong Wang(参考訳) 自己教師型事前学習における自然言語処理(NLP)の背後にあるコンピュータビジョンラグにおける自己回帰モデリング(AM)の開発 これは主に、画像がシーケンシャル信号ではなく、自己回帰モデルを適用する際に自然な順序が欠如していることに起因する。 本研究では,人間のイメージ把握方法に着想を得て,まず主対象に焦点をあて,この課題に取り組むために,意味認識自己回帰的画像モデリング(semaim)手法を提案する。 SemAIMの主な洞察は、セマンティックパッチからより少ないセマンティックパッチへの自動回帰モデルイメージである。 この目的のために,まず,パッチの特徴的類似性に応じた意味認識型順列を算出し,順列に基づいて自己回帰手順を行う。 また,パッチの原画素が低レベル信号であり,高レベルなセマンティック表現を学習するための理想的な予測対象ではないことを考えると,パッチ特徴を予測対象として活用することについても検討する。 画像分類やオブジェクト検出,インスタンス/セマンティックセグメンテーションなど,幅広い下流タスクに対して大規模な実験を行い,SemAIMの性能評価を行った。 その結果、SemAIMは、他の自己管理手法と比較して最先端の性能を達成できた。 具体的には、ViT-Bで、SemAIMはImageNet上での微調整で84.1%、オブジェクト検出では51.3%、COCO上では45.4%、バニラMAEでは0.5%、1.0%、0.5%をそれぞれ上回っている。

The development of autoregressive modeling (AM) in computer vision lags behind natural language processing (NLP) in self-supervised pre-training. This is mainly caused by the challenge that images are not sequential signals and lack a natural order when applying autoregressive modeling. In this study, inspired by human beings' way of grasping an image, i.e., focusing on the main object first, we present a semantic-aware autoregressive image modeling (SemAIM) method to tackle this challenge. The key insight of SemAIM is to autoregressive model images from the semantic patches to the less semantic patches. To this end, we first calculate a semantic-aware permutation of patches according to their feature similarities and then perform the autoregression procedure based on the permutation. In addition, considering that the raw pixels of patches are low-level signals and are not ideal prediction targets for learning high-level semantic representation, we also explore utilizing the patch features as the prediction targets. Extensive experiments are conducted on a broad range of downstream tasks, including image classification, object detection, and instance/semantic segmentation, to evaluate the performance of SemAIM. The results demonstrate SemAIM achieves state-of-the-art performance compared with other self-supervised methods. Specifically, with ViT-B, SemAIM achieves 84.1% top-1 accuracy for fine-tuning on ImageNet, 51.3% AP and 45.4% AP for object detection and instance segmentation on COCO, which outperforms the vanilla MAE by 0.5%, 1.0%, and 0.5%, respectively.
翻訳日:2023-12-19 16:32:40 公開日:2023-12-16
# WRTester: セマンティックなバイナリ生成によるWebAssemblyランタイムの差分テスト

WRTester: Differential Testing of WebAssembly Runtimes via Semantic-aware Binary Generation ( http://arxiv.org/abs/2312.10456v1 )

ライセンス: Link先を確認
Shangtong Cao, Ningyu He, Xinyu She, Yixuan Zhang, Mu Zhang, Haoyu Wang(参考訳) WasmランタイムはWasmエコシステムの基本的なコンポーネントであり、Wasmアプリケーションが期待通りに実行できるかどうかに直接影響する。 wasmランタイムのバグは頻繁に報告されているので、私たちの研究コミュニティは、wasmランタイムのバグを検出するための自動テストフレームワークの設計を試みました。 しかし、既存のテストフレームワークはテストケースの品質によって制限されている。すなわち、セマンティックリッチと構文修正のwasmバイナリの両方を生成するという課題に直面しているため、複雑なバグをトリガーすることはできない。 本研究では,実世界のwasmバイナリを分解して組み立てることで,wasmテストケースを複雑に生成できる新しい差分テストフレームワークwrtesterを提案する。 予期せぬ動作の根本原因を更に特定するために,実行時に依存しない根本原因特定手法を設計し,バグを正確に検出する。 WRTesterは効率と有効性の両方でSOTA技術より優れていた。 私たちは、人気のあるwasmランタイムに33のユニークなバグを発見しました。

Wasm runtime is a fundamental component in the Wasm ecosystem, as it directly impacts whether Wasm applications can be executed as expected. Bugs in Wasm runtime bugs are frequently reported, thus our research community has made a few attempts to design automated testing frameworks for detecting bugs in Wasm runtimes. However, existing testing frameworks are limited by the quality of test cases, i.e., they face challenges of generating both semantic-rich and syntactic-correct Wasm binaries, thus complicated bugs cannot be triggered. In this work, we present WRTester, a novel differential testing framework that can generated complicated Wasm test cases by disassembling and assembling of real-world Wasm binaries, which can trigger hidden inconsistencies among Wasm runtimes. For further pinpointing the root causes of unexpected behaviors, we design a runtime-agnostic root cause location method to accurately locate bugs. Extensive evaluation suggests that WRTester outperforms SOTA techniques in terms of both efficiency and effectiveness. We have uncovered 33 unique bugs in popular Wasm runtimes, among which 25 have been confirmed.
翻訳日:2023-12-19 16:32:10 公開日:2023-12-16
# 重力波メモリと量子マイケルソン干渉計

Gravitational wave memory and quantum Michelson interferometer ( http://arxiv.org/abs/2312.10454v1 )

ライセンス: Link先を確認
Zhong-Kai Guo and Xiao-Yong Wang(参考訳) 非線形光学相互作用と時間変動重力場を組み合わせた量子マイケルソン干渉計の出力について検討した。 以上の結果から,干渉計出力の位相シフトと重力波の振幅との標準関係からのずれが示唆された。 この偏差は直接比例率のわずかなオフセットであり、重力波の速度記憶効果と関連している。 さらに,連続的な重力波記憶,あるいは確率的重力波記憶背景は,従来の変位誘起赤色雑音スペクトルだけでなく,速度記憶背景に関連する新しいメカニズムによる量子ノイズスペクトルにも寄与することが示唆された。 これは干渉計に対する新しい量子ノイズ制限につながり、より高精度な検出システムにとって不可欠である。 我々の分析は、重力波に応答する量子干渉計をより正確に記述し、時変重力場を含む他のシナリオに適用する可能性がある。 また、マクロな物体と重力の量子効果を統合するための洞察と実験的なアプローチも提供する。

We examined the output of a quantum Michelson interferometer incorporating the combined effects of nonlinear optomechanical interaction and time-varying gravitational fields. Our findings indicate a deviation from the standard relationship between the phase shift of the interferometer's output and the amplitude of gravitational waves. This deviation, a slight offset in direct proportionality, is associated with the velocity memory effect of gravitational waves. Furthermore, the results suggest that consecutive gravitational wave memory, or the stochastic gravitational wave memory background, contributes not only to the classical displacement-induced red noise spectrum but also to a quantum noise spectrum through a new mechanism associated with velocity memory background. This leads to a novel quantum noise limit for interferometers, which may be crucial for higher precision detection system. Our analysis potentially offers a more accurate description of quantum interferometers responding to gravitational waves and applies to other scenarios involving time-varying gravitational fields. It also provides insights and experimental approaches for exploring how to unify the quantum effects of macroscopic objects and gravitation.
翻訳日:2023-12-19 16:31:37 公開日:2023-12-16
# 大規模な言語モデルによるクラッシュバグの解決:実証的研究

Resolving Crash Bugs via Large Language Models: An Empirical Study ( http://arxiv.org/abs/2312.10448v1 )

ライセンス: Link先を確認
Xueying Du, Mingwei Liu, Juntao Li, Hanlin Wang, Xin Peng, Yiling Lou(参考訳) クラッシュバグは予期せぬプログラム動作や終了を引き起こし、高優先度の解決を必要とする。 しかし、手動でクラッシュバグを解決するのは困難で、労働集約的であり、研究者は自動ローカライズと修復のための様々な手法を提案している。 最近の大規模言語モデル(llm)であるchatgptは、さまざまなドメインにまたがる優れたパフォーマンスにより、大きな注目を集めている。 この研究は、ChatGPTの実際のクラッシュバグ解決能力に関する最初の調査を行い、コード関連および環境関連クラッシュバグのローカライズと修復の両面での有効性に焦点を当てた。 具体的には、最初ChatGPTのクラッシュバグを1回のイテレーションで基本的なプロンプトで解決する基本的な能力を評価します。 また,ChatGPTは環境関連よりもコード関連のクラッシュバグの解決に優れており,その解決における最大の課題は,不正確なローカライゼーションにある。 さらに、ChatGPTのポテンシャルを様々な高度なプロンプトで探求する。 さらに,chatgptの自己計画を刺激することにより,事故の原因を究極的に特定する積極的な調査を通じて,それぞれの潜在的なクラッシュ原因環境因子を体系的に調査する。 本研究は,LSMとの連続的な相互作用を通じて,正確なクラッシュバグ解決を容易にするためのインタラクション手法であるIntDiagSolverを提案する。 複数のLLM上でIntDiagSolverを評価すると、ChatGPT、Claude、CodeLlamaなど、クラッシュバグ解決の精度が一貫した向上が見られる。

Crash bugs cause unexpected program behaviors or even termination, requiring high-priority resolution. However, manually resolving crash bugs is challenging and labor-intensive, and researchers have proposed various techniques for their automated localization and repair. ChatGPT, a recent large language model (LLM), has garnered significant attention due to its exceptional performance across various domains. This work performs the first investigation into ChatGPT's capability in resolve real-world crash bugs, focusing on its effectiveness in both localizing and repairing code-related and environment-related crash bugs. Specifically, we initially assess ChatGPT's fundamental ability to resolve crash bugs with basic prompts in a single iteration. We observe that ChatGPT performs better at resolving code-related crash bugs compared to environment-related ones, and its primary challenge in resolution lies in inaccurate localization. Additionally, we explore ChatGPT's potential with various advanced prompts. Furthermore, by stimulating ChatGPT's self-planning, it methodically investigates each potential crash-causing environmental factor through proactive inquiry, ultimately identifying the root cause of the crash. Based on our findings, we propose IntDiagSolver, an interaction methodology designed to facilitate precise crash bug resolution through continuous interaction with LLMs. Evaluating IntDiagSolver on multiple LLMs reveals consistent enhancement in the accuracy of crash bug resolution, including ChatGPT, Claude, and CodeLlama.
翻訳日:2023-12-19 16:31:07 公開日:2023-12-16
# 特徴選択によるフィンガーバイオメトリック認識

Finger biometric recognition with feature selection ( http://arxiv.org/abs/2312.10447v1 )

ライセンス: Link先を確認
Asish Bera, Debotosh Bhattacharjee, and Mita Nasipuri(参考訳) バイオメトリックスは、機械学習やパターン認識といった分野において、安全な自動人間認証を実現するために、現代のデジタル時代において不可欠である。 ハンドジオメトリは有望な生理的バイオメトリック特性であり、アイデンティティ検証に十分な応用領域が配置されている。 親指の複雑な解剖学的基礎と実質的な指間姿勢変化のため、親指が接触のない環境に含まれている間は満足なパフォーマンスが得られない。 親指にまつわる障害を克服するため、4つの指に基づく生体計測アプローチ(親指を除く)が考案された。 本章では,四本指による生体計測法について述べる。 繰り返しますが、重要な特徴を取り除き、特徴の次元を減少させるためには、突出した特徴の選択が不可欠です。 本質的な特徴を強調するために、特徴の識別効率に応じて重みが割り当てられる。 適応的なフォワードセレクションとフォワードエライジング(foba)アルゴリズムに基づいて、グローバル特徴選択法とローカル特徴選択法という2つの異なる戦略を採用する。 k-アネレスト近傍(wk-NN)とランダム森林(RF)分類器を用いて識別性能を評価する。 実験は,bosphorus hand databaseの300名を対象に,選択した機能サブセットを用いて行った。 98.67%の識別精度と4.6%の誤り率(EER)は、ランクベースのローカルFoBaアルゴリズムによって選択された25個の特徴のサブセットを用いて達成されている。

Biometrics is indispensable in this modern digital era for secure automated human authentication in various fields of machine learning and pattern recognition. Hand geometry is a promising physiological biometric trait with ample deployed application areas for identity verification. Due to the intricate anatomic foundation of the thumb and substantial inter-finger posture variation, satisfactory performances cannot be achieved while the thumb is included in the contact-free environment. To overcome the hindrances associated with the thumb, four finger-based (excluding the thumb) biometric approaches have been devised. In this chapter, a four-finger based biometric method has been presented. Again, selection of salient features is essential to reduce the feature dimensionality by eliminating the insignificant features. Weights are assigned according to the discriminative efficiency of the features to emphasize on the essential features. Two different strategies namely, the global and local feature selection methods are adopted based on the adaptive forward-selection and backward-elimination (FoBa) algorithm. The identification performances are evaluated using the weighted k-nearest neighbor (wk-NN) and random forest (RF) classifiers. The experiments are conducted using the selected feature subsets over the 300 subjects of the Bosphorus hand database. The best identification accuracy of 98.67%, and equal error rate (EER) of 4.6% have been achieved using the subset of 25 features which are selected by the rank-based local FoBa algorithm.
翻訳日:2023-12-19 16:30:24 公開日:2023-12-16
# トポロジーによるSchr\"{o}dinger Cat状態の非相互生成

Nonreciprocal Generation of Schr\"{o}dinger Cat State Induced by Topology ( http://arxiv.org/abs/2312.10444v1 )

ライセンス: Link先を確認
Zi-Hao Li, Li-Li Zheng, Ying Wu, Xin-You L\"u(参考訳) 2方向の異なるschr\"{o}dinger cat状態は、量子情報技術において重要な量子資源として期待されている。 1次元のマイクロキャビティアレイにおける量子非相互性とトポロジーの間の相互作用を探索することにより、エッジキャビティにおいて選択された方向のschr\"{o}dinger cat state ({\it a pure quantum state})を得る。 この「猫状態の非相互生成」は、非自明な相における「トポロジカルに保護されたキラリティモード励起」に由来するが、自明な相では「猫状態の非相互生成」は消滅する。 したがって, 位相相転移が発生するようにパラメータをチューニングすることで, 提案方式を切り替えることができる。 さらに、得られた猫状態は非相互性の高い高忠実性、非古典性、および量子コヒーレンスを持ち、可視量子センシング、ノイズ耐性量子コンピューティング、キラル量子ネットワークなど、様々な片方向量子技術で使用できる。 我々の研究は、トポロジカル効果で量子非相互性を制御するための一般的なアプローチを提供し、非相互フォトニクスやトポロジカル物理学の分野を大幅に広げる。

The Schr\"{o}dinger cat state produced differently in two directions is anticipated to be a critical quantum resource in quantum information technologies. By exploring the interplay between quantum nonreciprocity and topology in a one-dimensional microcavity array, we obtain the Schr\"{o}dinger cat state ({\it a pure quantum state}) in a chosen direction at the edge cavity, whereas a {\it classical state} in the other direction. This {\it nonreciprocal generation of the cat state} originates from the {\it topologically protected chirality-mode excitation} in the nontrivial phase, but in the trivial phase the {\it nonreciprocal generation of cat state} vanishes. Thus, our proposal is switchable by tuning the parameters so that a topological phase transition occurs. Moreover, the obtained cat state has nonreciprocal high fidelity, nonclassicality, and quantum coherence, which are sufficient to be used in various one-way quantum technologies, e.g., invisible quantum sensing, noise-tolerant quantum computing, and chiral quantum networks. Our work provides a general approach to control quantum nonreciprocities with the topological effect, which substantially broadens the fields of nonreciprocal photonics and topological physics.
翻訳日:2023-12-19 16:29:29 公開日:2023-12-16
# ウェイトエンタングルメントがグラディエントベースのニューラルアーキテクチャ検索に到達

Weight-Entanglement Meets Gradient-Based Neural Architecture Search ( http://arxiv.org/abs/2312.10440v1 )

ライセンス: Link先を確認
Rhea Sanjay Sukthanker, Arjun Krishnakumar, Mahmoud Safari, Frank Hutter(参考訳) 重み共有は神経アーキテクチャサーチ(NAS)の基本概念であり、勾配に基づく手法で従来のブラックボックスアプローチよりもはるかに高速に細胞ベースのアーキテクチャ空間を探索することができる。 並行して、重み \emph{entanglement} はマクロレベルの探索空間内のアーキテクチャ間での複雑なパラメータ共有の手法として登場した。 しかし、そのような空間のマクロ構造は勾配に基づくNAS法との互換性に挑戦する。 その結果,ブラックボックス最適化手法は探索効率を維持するために,特にスーパーネットトレーニングと併用して広く用いられている。 % これらの探索空間の構造に固有の違いがあるため, 重みの絡み合いは勾配式NAS法との相違を生じさせるため, これら2つのパラダイムは並列サブコミュニティで独立に発展してきた。 本稿では,重み付き空間に対する勾配法を適応させる新しいスキームを提案し,これらのサブコミュニティ間のギャップを埋めることを目的とする。 これにより、重み付き探索空間における勾配型NASの性能の詳細な比較評価と解析を行うことができる。 以上の結果から,この重みエンタングルメントと勾配ベースnasの統合は,重みエンタングル空間のメモリ効率を保ちつつ,勾配ベース手法の様々な利点(強化性能,スーパーネットトレーニング特性の向上,任意の時間性能の向上)をもたらすことが明らかとなった。 私たちの研究のコードは、オープンアクセス可能で、 \href{https://anonymous.4open.science/r/TangleNAS-527C}{here}

Weight sharing is a fundamental concept in neural architecture search (NAS), enabling gradient-based methods to explore cell-based architecture spaces significantly faster than traditional blackbox approaches. In parallel, weight \emph{entanglement} has emerged as a technique for intricate parameter sharing among architectures within macro-level search spaces. %However, the macro structure of such spaces poses compatibility challenges for gradient-based NAS methods. %As a result, blackbox optimization methods have been commonly employed, particularly in conjunction with supernet training, to maintain search efficiency. %Due to the inherent differences in the structure of these search spaces, these Since weight-entanglement poses compatibility challenges for gradient-based NAS methods, these two paradigms have largely developed independently in parallel sub-communities. This paper aims to bridge the gap between these sub-communities by proposing a novel scheme to adapt gradient-based methods for weight-entangled spaces. This enables us to conduct an in-depth comparative assessment and analysis of the performance of gradient-based NAS in weight-entangled search spaces. Our findings reveal that this integration of weight-entanglement and gradient-based NAS brings forth the various benefits of gradient-based methods (enhanced performance, improved supernet training properties and superior any-time performance), while preserving the memory efficiency of weight-entangled spaces. The code for our work is openly accessible \href{https://anonymous.4open.science/r/TangleNAS-527C}{here}
翻訳日:2023-12-19 16:28:49 公開日:2023-12-16
# 単純画像レベルの分類によるオープン語彙オブジェクト検出の改善

Simple Image-level Classification Improves Open-vocabulary Object Detection ( http://arxiv.org/abs/2312.10439v1 )

ライセンス: Link先を確認
Ruohuan Fang, Guansong Pang, Xiao Bai(参考訳) open-vocabulary object detection (ovod) は、検出モデルをトレーニングしたベースカテゴリのセットを超えて、新しいオブジェクトを検出することを目的としている。 近年のOVOD法は,CLIPなどの画像レベルの事前学習型視覚言語モデル(VLM)を,領域レベルのオブジェクト検出タスクに適応させることに重点を置いている。 領域レベルの知識蒸留,地域即興学習,あるいは地域テキスト事前学習により,検出語彙を拡張できる。 これらの手法は、地域視覚概念の認識において顕著な性能を示したが、画像レベルの10億のテキスト記述から学んだ、vlmsの強力なグローバルシーン理解能力の活用には弱い。 これにより、コンテキスト情報に大きく依存する新規/ベースカテゴリから、小さく、ぼやけた、あるいは隠された外観のハードオブジェクトを検出する能力を制限する。 そこで本研究では,CLIPから得られる優れたグローバル知識を活用し,現在のOVODモデルをグローバルな視点から補完するための,SIC-CADS(Simple Image-level Classification for Context-Aware Detection Scoring)を提案する。 SIC-CADSのコアはマルチモーダルマルチラベル認識(MLR)モジュールで、CLIPからオブジェクトの共起に基づくコンテキスト情報を学び、シーン内の全ての可能なオブジェクトカテゴリを認識する。 これらの画像レベルのmlrスコアは、これらのハードオブジェクトを検出する際に現在のovodモデルのインスタンスレベル検出スコアを洗練するために利用することができる。 これは、OV-LVISとOV-COCOという2つの人気のあるベンチマークの広範な実験結果によって検証され、SIC-CADSとOVODモデルを組み合わせると、顕著で一貫した改善が達成されることを示した。 さらに、SIC-CADSはObjects365とOpenImageのクロスデータセットの一般化能力も改善した。 コードはhttps://github.com/mala-lab/sic-cadsで入手できる。

Open-Vocabulary Object Detection (OVOD) aims to detect novel objects beyond a given set of base categories on which the detection model is trained. Recent OVOD methods focus on adapting the image-level pre-trained vision-language models (VLMs), such as CLIP, to a region-level object detection task via, eg., region-level knowledge distillation, regional prompt learning, or region-text pre-training, to expand the detection vocabulary. These methods have demonstrated remarkable performance in recognizing regional visual concepts, but they are weak in exploiting the VLMs' powerful global scene understanding ability learned from the billion-scale image-level text descriptions. This limits their capability in detecting hard objects of small, blurred, or occluded appearance from novel/base categories, whose detection heavily relies on contextual information. To address this, we propose a novel approach, namely Simple Image-level Classification for Context-Aware Detection Scoring (SIC-CADS), to leverage the superior global knowledge yielded from CLIP for complementing the current OVOD models from a global perspective. The core of SIC-CADS is a multi-modal multi-label recognition (MLR) module that learns the object co-occurrence-based contextual information from CLIP to recognize all possible object categories in the scene. These image-level MLR scores can then be utilized to refine the instance-level detection scores of the current OVOD models in detecting those hard objects. This is verified by extensive empirical results on two popular benchmarks, OV-LVIS and OV-COCO, which show that SIC-CADS achieves significant and consistent improvement when combined with different types of OVOD models. Further, SIC-CADS also improves the cross-dataset generalization ability on Objects365 and OpenImages. The code is available at https://github.com/mala-lab/SIC-CADS.
翻訳日:2023-12-19 16:28:19 公開日:2023-12-16
# ニューラルネットワークを用いた電子ペーパーからのテンダー通知抽出

Tender Notice Extraction from E-papers Using Neural Network ( http://arxiv.org/abs/2312.10437v1 )

ライセンス: Link先を確認
Ashmin Bhattarai, Anuj Sedhai, Devraj Neupane, Manish Khadka and Rama Bastola(参考訳) テンダー通知は通常、様々なプロジェクトの契約を得る手段として、定期的に多くの企業が求めている。 これらの通知は、作業の説明、建設期間、見積もりのプロジェクト数など、必要なすべての情報から構成される。 ネパールの文脈では、テンダー通知は通常地元新聞だけでなく全国で発行される。 興味のある入札者は、新聞の関連情報をすべて検索する必要がある。 しかし、これらの企業がどの新聞にも手動で通知を検索し、どの入札に最も適しているかを判断するのは非常に面倒である。 このプロジェクトは,手作業で通知を検索する,この面倒な作業を解決するために構築されている。 当初、新聞はpythonのseleniumライブラリを使ってpdf形式でダウンロードできる。 新聞をダウンロードした後、eペーパーをスキャンし、ニューラルネットワークを用いてテンダー通知を自動的に抽出する。 抽出のために、ResNet、GoogleNet、XceptionというCNNの異なるアーキテクチャが使用され、高いパフォーマンスのモデルが実装されている。 最後に、抽出された通知はWebサイトに公開され、ユーザはアクセスできる。 このプロジェクトは建設会社や請負業者が品質と効率を確保するのに役立つ。 このプロジェクトは競争入札の分野で大きな応用があり、体系的な方法でそれらを管理しています。

Tender notices are usually sought by most of the companies at regular intervals as a means for obtaining the contracts of various projects. These notices consist of all the required information like description of the work, period of construction, estimated amount of project, etc. In the context of Nepal, tender notices are usually published in national as well as local newspapers. The interested bidders should search all the related tender notices in newspapers. However, it is very tedious for these companies to manually search tender notices in every newspaper and figure out which bid is best suited for them. This project is built with the purpose of solving this tedious task of manually searching the tender notices. Initially, the newspapers are downloaded in PDF format using the selenium library of python. After downloading the newspapers, the e-papers are scanned and tender notices are automatically extracted using a neural network. For extraction purposes, different architectures of CNN namely ResNet, GoogleNet and Xception are used and a model with highest performance has been implemented. Finally, these extracted notices are then published on the website and are accessible to the users. This project is helpful for construction companies as well as contractors assuring quality and efficiency. This project has great application in the field of competitive bidding as well as managing them in a systematic manner.
翻訳日:2023-12-19 16:27:45 公開日:2023-12-16
# メタヒューリスティック最適化によるハードSATインスタンスの分解

Decomposing Hard SAT Instances with Metaheuristic Optimization ( http://arxiv.org/abs/2312.10436v1 )

ライセンス: Link先を確認
Daniil Chivilikhin and Artem Pavlenko and Alexander Semenov(参考訳) 本稿では、ブール満足度問題(SAT)の枠組みの中で、特定のブール公式の硬さを推定する問題を考える。 良く知られたSBS(Strong Backdoor Set)の概念に基づいて,分解硬度(d-hardness)の概念を導入する。 B$ が SAT 式に現れる変数の集合の任意の部分集合で、$A$ が任意の完全 SAT ソルバーであれば、d-ハードネスは $C$ w.r.t.$A$ と $B$ の硬さを推定する。 特定の$B$のd-hardnessは、$A$、$B$、$C$に関連付けられた特別な確率変数の期待値の観点から表現できることを示す。 計算評価にはモンテカルロ法に基づくアルゴリズムを用いることができる。 d-ハードネスの最小値を持つ$b$を求める問題は、確率実験の結果値が計算される擬似ボア関数の最適化問題として定式化される。 この機能を最小化するために、進化的アルゴリズムを用いる。 実験では,d-hardnessの概念の適用可能性と,satインスタンスの難解性に対する推定手法を示す。

In the article, within the framework of the Boolean Satisfiability problem (SAT), the problem of estimating the hardness of specific Boolean formulas w.r.t. a specific complete SAT solving algorithm is considered. Based on the well-known Strong Backdoor Set (SBS) concept, we introduce the notion of decomposition hardness (d-hardness). If $B$ is an arbitrary subset of the set of variables occurring in a SAT formula $C$, and $A$ is an arbitrary complete SAT solver , then the d-hardness expresses an estimate of the hardness of $C$ w.r.t. $A$ and $B$. We show that the d-hardness of $C$ w.r.t. a particular $B$ can be expressed in terms of the expected value of a special random variable associated with $A$, $B$, and $C$. For its computational evaluation, algorithms based on the Monte Carlo method can be used. The problem of finding $B$ with the minimum value of d-hardness is formulated as an optimization problem for a pseudo-Boolean function whose values are calculated as a result of a probabilistic experiment. To minimize this function, we use evolutionary algorithms. In the experimental part, we demonstrate the applicability of the concept of d-hardness and the methods of its estimation to solving hard unsatisfiable SAT instances.
翻訳日:2023-12-19 16:27:26 公開日:2023-12-16
# ガウス過程に基づく部分線形モデルによる不均一処理効果推定の不確かさの定量化

Uncertainty Quantification in Heterogeneous Treatment Effect Estimation with Gaussian-Process-Based Partially Linear Model ( http://arxiv.org/abs/2312.10435v1 )

ライセンス: Link先を確認
Shunsuke Horii, Yoichi Chikahara(参考訳) 個人間の不均一な治療効果の推定は、重要な意思決定を行う統計的ツールとして注目を集めている。 比較的小さなサンプルサイズ設定での意思決定を支援するために,治療効果推定の不確かさを定量化するベイズ推論フレームワークを提案する。 提案モデルでは,部分線形モデルと呼ばれる半パラメトリックモデルの非パラメトリック成分にガウス過程を事前配置する。 このモデルには3つの利点がある。 まず,処理効果の後方分布を計算要求後近似に頼らずに解析的に計算することができる。 第2に、サンプルサイズが無限になるにつれて、後方分布が真の分布の周りに集中することを保証できる。 第3に,治療効果に関する事前知識を事前分布に組み込むことができ,推定効率が向上する。 実験の結果, 試料サイズが小さくても不均一な処理効果を正確に推定でき, 推定の不確かさを効果的に定量化できることがわかった。

Estimating heterogeneous treatment effects across individuals has attracted growing attention as a statistical tool for performing critical decision-making. We propose a Bayesian inference framework that quantifies the uncertainty in treatment effect estimation to support decision-making in a relatively small sample size setting. Our proposed model places Gaussian process priors on the nonparametric components of a semiparametric model called a partially linear model. This model formulation has three advantages. First, we can analytically compute the posterior distribution of a treatment effect without relying on the computationally demanding posterior approximation. Second, we can guarantee that the posterior distribution concentrates around the true one as the sample size goes to infinity. Third, we can incorporate prior knowledge about a treatment effect into the prior distribution, improving the estimation efficiency. Our experimental results show that even in the small sample size setting, our method can accurately estimate the heterogeneous treatment effects and effectively quantify its estimation uncertainty.
翻訳日:2023-12-19 16:27:02 公開日:2023-12-16
# Adiabatic elimination approximationを超える自己組織化空洞ボソン

Self-organized cavity bosons beyond the adiabatic elimination approximation ( http://arxiv.org/abs/2312.10502v1 )

ライセンス: Link先を確認
Giuliano Orso, Jakub Zakrzewski, Piotr Deuar(参考訳) 2次元光学格子内を移動し, 損失キャビティに結合する弱相互作用ボソンの長時間挙動を, 高粒子充填状態下で数値解析した。 切断されたウィグナー表現は、キャビティモードのダイナミクス、量子揺らぎ、個々の実行の自己組織化を考慮に入れることができる。 拡張相互作用を伴う近似ボース・ハバード模型の基底状態にある真の長距離秩序とは対照的に,非常に長い時間と超流動な準長距離秩序で準安定を観測し,キャビティ場を断続的に除去した。 ライトマッターカップリングの強度が増加すると、システムはまずディッケ超ラジアント遷移で超固体となり、ベレジンスキー-コステルリッツ-トゥーレス機構を介して電荷密度波に変化する。 2つの相転移は正確な有限サイズのスケーリングによって特徴づけられる。

The long-time behavior of weakly interacting bosons moving in a two-dimensional optical lattice and coupled to a lossy cavity is investigated numerically in the regime of high particle filling. The truncated Wigner representation allows us to take into full account the dynamics of the cavity mode, quantum fluctuations, and self-organization of individual runs. We observe metastability at very long times and superfluid quasi-long range order, in sharp contrast with the true long range order found in the ground state of the approximate Bose-Hubbard model with extended interactions, obtained by adiabatically eliminating the cavity field. As the strength of the light-matter coupling increases, the system first becomes supersolid at the Dicke superradiant transition and then turns into a charge-density wave via the Berezinskii-Kosterlitz-Thouless mechanism. The two phase transitions are characterized via an accurate finite-size scaling.
翻訳日:2023-12-19 16:20:40 公開日:2023-12-16
# 新しい一般化Smith-Volterra-Cantorポテンシャルからの量子トンネル

Quantum tunneling from a new type of generalized Smith-Volterra-Cantor potential ( http://arxiv.org/abs/2312.10501v1 )

ライセンス: Link先を確認
Vibhav Narayan Singh, Mohammad Hasan, Mohammad Umar, Bhabani Prasad Mandal(参考訳) 本稿では, svc\(\left(\rho, n\right)\) で表されるパワー \(n \) のsmith-volterra-cantor ポテンシャルを紹介し解析する。 一般のカントール系とsvc系のギャップを埋めるこの新しいポテンシャルは、フラクタルポテンシャルと非フラクタルポテンシャルを統一する量子力学におけるカントールポテンシャル系に対する新しい視点を提供する。 超周期ポテンシャル(SPP)形式を用いることで、伝達確率 \(T_{G}(k) \) の閉形式表現を導出する。 特に、このシステムは、他の量子系と区別する特性である、非常に鋭い透過共鳴を示す。 さらに、SVC\(\left(\rho, n\right)\)の多面的伝達特性は、より深い探索を保証した複雑な相互作用を提供するため、両方のパラメータである \( \rho \) と \( n \) に批判的に依存していることが分かる。 本研究は, 解析的導出を基盤とする反射確率の明らかなスケーリング挙動を浮き彫りにしたものである。

In this paper, we introduce and analyze the Smith-Volterra-Cantor potential of power \( n \), denoted as SVC\(\left(\rho, n\right)\). Bridging the gap between the general Cantor and SVC systems, this novel potential offers a fresh perspective on Cantor-like potential systems within quantum mechanics that unify fractal and non-fractal potentials. Utilizing the Super Periodic Potential (SPP) formalism, we derive the close form expression of the transmission probability \( T_{G}(k) \). Notably, the system exhibits exceptionally sharp transmission resonances, a characteristic that distinguishes it from other quantum systems. Furthermore, the multifaceted transmission attributes of the SVC\(\left(\rho, n\right)\) are found to be critically dependent on both parameters, \( \rho \) and \( n \), offering an intricate interplay that warrants deeper exploration. Our findings highlight a pronounced scaling behavior of reflection probability with \( k \), which is underpinned by analytical derivations.
翻訳日:2023-12-19 16:20:22 公開日:2023-12-16
# ベイズ型ニューラルネットワーク兵器システムは予測メンテナンスを改善するか?

Do Bayesian Neural Networks Weapon System Improve Predictive Maintenance? ( http://arxiv.org/abs/2312.10494v1 )

ライセンス: Link先を確認
Michael Potter, Miru Jun(参考訳) 我々は,ニューラルネットワークのベイズ推定プロセスを実装し,インターバルセンセードデータと時間変化共変量を持つ信頼性の高い兵器システムの故障時期をモデル化する。 提案手法であるlaplacennを,auc(auc)精度リコール(pr)auc下の受信者動作特性(roc)領域,信頼性曲線可視化などの標準分類指標を用いて,合成データと実データについて分析・ベンチマークを行った。

We implement a Bayesian inference process for Neural Networks to model the time to failure of highly reliable weapon systems with interval-censored data and time-varying covariates. We analyze and benchmark our approach, LaplaceNN, on synthetic and real datasets with standard classification metrics such as Receiver Operating Characteristic (ROC) Area Under Curve (AUC) Precision-Recall (PR) AUC, and reliability curve visualizations.
翻訳日:2023-12-19 16:19:56 公開日:2023-12-16
# コントラスト学習によるマルチモーダルサーカズム検出の偏り

Debiasing Multimodal Sarcasm Detection with Contrastive Learning ( http://arxiv.org/abs/2312.10493v1 )

ライセンス: Link先を確認
Mengzhao Jia, Can Xie, Liqiang Jing(参考訳) 既存の研究による賞賛に値する成果にもかかわらず、マルチモーダルサーカズム検出研究は、視覚情報よりもテキストコンテンツに依存している。 それは避けられないほど、テキストの単語とラベルの間のスプリアスな相関を誘発し、モデルの一般化能力を著しく阻害する。 この問題に対処するために,我々は,トレーニングやテストの設定で単語の分布が異なる場合に,モデルの一般化性を評価することを目的とした,out-of-distribution (ood) multimodal sarcasm detectionのタスクを定義する。 さらに, 頑健なOOD一般化のためのバイアス付きテキスト因子の有害な影響を軽減することを目的とした, コントラスト学習によるマルチモーダルサルカズム検出フレームワークを提案する。 特に,異なる単語バイアスを持つ正のサンプルと類似した単語バイアスを持つ負のサンプルを構築するために,反実データ拡張を最初に設計する。 次に,適応型デバイアス型コントラスト学習機構を考案し,頑健なタスク関連特徴を学習し,バイアス付き単語の悪影響を緩和する。 大規模な実験は提案フレームワークの優位性を示している。

Despite commendable achievements made by existing work, prevailing multimodal sarcasm detection studies rely more on textual content over visual information. It unavoidably induces spurious correlations between textual words and labels, thereby significantly hindering the models' generalization capability. To address this problem, we define the task of out-of-distribution (OOD) multimodal sarcasm detection, which aims to evaluate models' generalizability when the word distribution is different in training and testing settings. Moreover, we propose a novel debiasing multimodal sarcasm detection framework with contrastive learning, which aims to mitigate the harmful effect of biased textual factors for robust OOD generalization. In particular, we first design counterfactual data augmentation to construct the positive samples with dissimilar word biases and negative samples with similar word biases. Subsequently, we devise an adapted debiasing contrastive learning mechanism to empower the model to learn robust task-relevant features and alleviate the adverse effect of biased words. Extensive experiments show the superiority of the proposed framework.
翻訳日:2023-12-19 16:19:45 公開日:2023-12-16
# 航空基地局のサイト特化移動最適化のための空間深層学習

Spatial Deep Learning for Site-Specific Movement Optimization of Aerial Base Stations ( http://arxiv.org/abs/2312.10490v1 )

ライセンス: Link先を確認
Jiangbin Lyu, Xu Chen, Jiefeng Zhang, Liqun Fu(参考訳) 無人航空機(UAV)は航空基地局(ABS)として利用でき、様々な緊急シナリオにおいて地上ユーザー(GU)に無線接続を提供する。 しかし、M$とN$の指数複雑性を持つNPハード問題であり、カバー範囲が制限された$N$ ABSを共同配置することで、M$ GUsのカバレッジ率を最大化する。 この問題は、地上チャネル上のサイト固有の封鎖(例えば建物)や、GUの移動によって、範囲が不規則になるとさらに複雑になる。 以上の課題に対処するため,サイト固有の環境における移動GUの平均カバレッジ率を最大化するために,マルチABS運動最適化問題について検討する。 現象型エリート多次元アーカイブを用いた空間深層学習法(SDL-ME)を提案する。 1) 複雑なABS運動問題を有限時間水平線にまたがるABS配置サブプロブレムに分割すること。 2)エンコーダ・デコーダディープニューラルネットワーク(DNN)をエミュレータとして使用することにより,ABS/GUの空間的相関を捕捉し,実際の環境との相互作用コストを低減する。 3) エミュレータを用いて,最適な配置ソリューションの質・多様性検索を高速化する。 4)マルチABS運動協調のための計画探索型スキームの提案。 数値計算の結果,提案手法は,平均カバレッジ率,トレーニング時間,サンプル効率において,ベンチマークのDeep Reinforcement Learning(DRL)法および他の2つのベースラインよりも有意に優れていた。 また,1回トレーニングでは,従来のdrl法に比べてより頑健で柔軟である,サイト上および/または異なるgu速度で動的にabs/gus数が変化するシナリオに適用可能である。

Unmanned aerial vehicles (UAVs) can be utilized as aerial base stations (ABSs) to provide wireless connectivity for ground users (GUs) in various emergency scenarios. However, it is a NP-hard problem with exponential complexity in $M$ and $N$, in order to maximize the coverage rate of $M$ GUs by jointly placing $N$ ABSs with limited coverage range. The problem is further complicated when the coverage range becomes irregular due to site-specific blockages (e.g., buildings) on the air-ground channel, and/or when the GUs are moving. To address the above challenges, we study a multi-ABS movement optimization problem to maximize the average coverage rate of mobile GUs in a site-specific environment. The Spatial Deep Learning with Multi-dimensional Archive of Phenotypic Elites (SDL-ME) algorithm is proposed to tackle this challenging problem by 1) partitioning the complicated ABS movement problem into ABS placement sub-problems each spanning finite time horizon; 2) using an encoder-decoder deep neural network (DNN) as the emulator to capture the spatial correlation of ABSs/GUs and thereby reducing the cost of interaction with the actual environment; 3) employing the emulator to speed up a quality-diversity search for the optimal placement solution; and 4) proposing a planning-exploration-serving scheme for multi-ABS movement coordination. Numerical results demonstrate that the proposed approach significantly outperforms the benchmark Deep Reinforcement Learning (DRL)-based method and other two baselines in terms of average coverage rate, training time and/or sample efficiency. Moreover, with one-time training, our proposed method can be applied in scenarios where the number of ABSs/GUs dynamically changes on site and/or with different/varying GU speeds, which is thus more robust and flexible compared with conventional DRL-based methods.
翻訳日:2023-12-19 16:19:25 公開日:2023-12-16
# 時間的自由量子系の非マルコフダイナミクス

Non-Markovian Dynamics of Time-Fractional Open Quantum Systems ( http://arxiv.org/abs/2312.10488v1 )

ライセンス: Link先を確認
Dongmei Wei, Hailing Liu, Yongmei Li, Sujuan Qin, Qiaoyan Wen, Fei Gao(参考訳) 時間分解型シュロディンガー方程式(tfses)の量子プロセスへの応用は、実物理系の時間挙動の理解と記述を指導する。 Naber の TFSE I と Naber の TFSE II と XGF の TFSE という3つの一般的な TFSE を 2 レベルのシステム (qubit) を共振的に結合した基本開系モデルに適用することにより、時間的単一ビットオープンシステム (TFSQOSs) を正確に解くことができる。 しかし、3つのTFSEは以下の理由でひどいパフォーマンスをしている。 一方、3つのtfsesのそれぞれの枠組みでは、単一量子ビット状態における系を得るための全確率は分数次時間と等しいものではなく、時間分解型量子力学は量子力学的確率保存に違反していることを示している。 一方、後者の2つのTFSEは、任意の分数順序で、ある分数順序でのみ、システムの非マルコフ力学を記述することができない。 そこで本研究では,全ての分数次数に対して,システム全体の確率が常に1に等しいだけでなく,非マルコフ的特徴もシステムの時間発展を通じて観察できるような,時間の解析的継続と適合可能な分数微分を組み合わせることで,よく知られたtfseを導入する。 さらに, 4つのtfsesの性能を, 2つの分離量子ビットのオープンシステムモデルに適用し, その分散環境と局所的に相互作用する性能について検討した。 時間差2量子ビットオープンシステムの正確な解を導出することにより、私たちのTFSEは、他の3つのTFSEと比較して、上記の2つの利点を持っていることを示す。

Applications of Time-Fractional Schrodinger Equations (TFSEs) to quantum processes are instructive for understanding and describing the time behavior of real physical systems. By applying three popular TFSEs, namely Naber's TFSE I, Naber's TFSE II, and XGF's TFSE, to a basic open system model of a two-level system (qubit) coupled resonantly to a dissipative environment, we solve exactly for Time-Fractional Single Qubit Open Systems (TFSQOSs). However, the three TFSEs perform badly for the following reasons. On the other hand, in the respective frameworks of the three TFSEs, the total probability for obtaining the system in a single-qubit state is not equal to one with time at fractional order, implying that time-fractional quantum mechanics violates quantum mechanical probability conservation. On the other hand, the latter two TFSEs are not capable of describing the non-Markovian dynamics of the system at all fractional order, only at some fractional order. To address this, we introduce a well-performed TFSE by constructing a new analytic continuation of time combined with the conformable fractional derivative, in which for all fractional order, not only does the total probability for the system equal one at all times but also the non-Markovian features can be observed throughout the time evolution of the system. Furthermore, we study the performances of the four TFSEs applying to an open system model of two isolated qubits each locally interacting with its dissipative environment. By deriving the exact solutions for time-fractional two qubits open systems, we show that our TFSE still possesses the above two advantages compared with the other three TFSEs.
翻訳日:2023-12-19 16:18:52 公開日:2023-12-16
# 頭部CT画像における頭蓋内出血のセマンティック・セグメンテーションのための全注意U-NET

All Attention U-NET for Semantic Segmentation of Intracranial Hemorrhages In Head CT Images ( http://arxiv.org/abs/2312.10483v1 )

ライセンス: Link先を確認
Chia Shuo Chang, Tian Sheuan Chang, Jiun Lin Yan, Li Ko(参考訳) 頭部CTスキャンの頭蓋内出血は、専門医が様々な種類の診断を行うのに役立つ最初のツールである。 しかし、同種の形状は様々であるが、同種の形状、大きさ、位置は類似している。 この問題を解決するため,本論文ではall attention u-netを提案する。 u-netエンコーダ側のチャネルアテンションを使用してクラス固有の特徴抽出を強化し、u-netデコーダ側のスペースとチャネルアテンションによりより正確な形状抽出と型分類を行う。 シミュレーションの結果、ベースライン、ResNet50 + U-Netに比べて31.8\%改善され、注意の少ない場合よりもパフォーマンスが向上した。

Intracranial hemorrhages in head CT scans serve as a first line tool to help specialists diagnose different types. However, their types have diverse shapes in the same type but similar confusing shape, size and location between types. To solve this problem, this paper proposes an all attention U-Net. It uses channel attentions in the U-Net encoder side to enhance class specific feature extraction, and space and channel attentions in the U-Net decoder side for more accurate shape extraction and type classification. The simulation results show up to a 31.8\% improvement compared to baseline, ResNet50 + U-Net, and better performance than in cases with limited attention.
翻訳日:2023-12-19 16:18:19 公開日:2023-12-16
# 頑健な血縁検証のためのMS-BSIF特徴色学習法

A new method color MS-BSIF Features learning for the robust kinship verification ( http://arxiv.org/abs/2312.10482v1 )

ライセンス: Link先を確認
Rachid Aliradi, Abdealmalik Ouamane, Abdeslam Amrane(参考訳) 本論文は,ヒトの顔画像間の遺伝的・血液的関係と程度を識別する能力である親族検証のためのMS-BSIF学習とMS-LBPの新たな手法を提案する。 キンシップの顔面認証は、顔画像から抽出された特徴に基づいて、顔のペア親と非ペア親(検証)との間の血縁を認識するように機械を訓練し、この遺伝的関係の正確な種類や程度を決定することを指す。 比較には LBP と色BSIF の学習機能を使用し,TXQDA 法を次元化とデータ分類に用いた。 私たちは、kinshipの顔認識アプリケーション、すなわちkinface cornellデータベースをテストすることにしましょう。 このシステムは効率を制御しながら学習の堅牢性を向上させる。 他の手法と比較して得られた実験結果は,我々のフレームワークの信頼性を証明し,他の最先端技術の性能を上回った。

the paper presents a new method color MS-BSIF learning and MS-LBP for the kinship verification is the machine's ability to identify the genetic and blood the relationship and its degree between the facial images of humans. Facial verification of kinship refers to the task of training a machine to recognize the blood relationship between a pair of faces parent and non-parent (verification) based on features extracted from facial images, and determining the exact type or degree of this genetic relationship. We use the LBP and color BSIF learning features for the comparison and the TXQDA method for dimensionality reduction and data classification. We let's test the kinship facial verification application is namely the kinface Cornell database. This system improves the robustness of learning while controlling efficiency. The experimental results obtained and compared to other methods have proven the reliability of our framework and surpass the performance of other state-of-the-art techniques.
翻訳日:2023-12-19 16:18:06 公開日:2023-12-16
# 古典的限界を超えた二相スピン回転のジョイント推定

Joint estimation of a two-phase spin rotation beyond classical limit ( http://arxiv.org/abs/2312.10480v1 )

ライセンス: Link先を確認
Jiahao Cao, Xinwei Li, Tianwei Mao, Wenxin Xu, Li You(参考訳) 量子メートル法は測定精度を高めるために絡み合いを用いる。 これまでの焦点と進歩は、主に1つのパラメータを推定することに集中していた。 多様なアプリケーションシナリオでは、複数の単一のパラメータの推定がしばしば必要となる。 複数のパラメータのジョイント推定は、さらなる精度向上のための追加の利点を享受することができる。 本稿では,原子ボース・アインシュタイン凝縮体におけるスピンネマティックスクイーズを利用した2つの直交軸まわりの同時回転の量子エンハンスド測定について報告する。 F=2$原子基底超微細多様体は、マイクロ波(MW)パルスの列を通じて補助磁場としてF=1$状態と結合し、複数のスピン-1観測可能量の同時測定が示され、回転角の広い範囲の古典的極限を超える3.3から6.3デシベル(dB)の増大に達する。 本研究は, 絡み合った大粒子をプローブとして, マルチパラメータ推定を行う。 開発された技術と実装プロトコルは、非可換スピン回転の量子エンハンスセンシングにおける2モード圧縮真空状態の応用も強調している。

Quantum metrology employs entanglement to enhance measurement precision. The focus and progress so far have primarily centered on estimating a single parameter. In diverse application scenarios, the estimation of more than one single parameter is often required. Joint estimation of multiple parameters can benefit from additional advantages for further enhanced precision. Here we report quantum-enhanced measurement of simultaneous spin rotations around two orthogonal axes, making use of spin-nematic squeezing in an atomic Bose-Einstein condensate. Aided by the $F=2$ atomic ground hyperfine manifold coupled to the nematic-squeezed $F=1$ states as an auxiliary field through a sequence of microwave (MW) pulses, simultaneous measurement of multiple spin-1 observables is demonstrated, reaching an enhancement of 3.3 to 6.3 decibels (dB) beyond the classical limit over a wide range of rotation angles. Our work realizes the first enhanced multi-parameter estimation using entangled massive particles as a probe. The techniques developed and the protocols implemented also highlight the application of two-mode squeezed vacuum states in quantum-enhanced sensing of noncommuting spin rotations simultaneously.
翻訳日:2023-12-19 16:17:50 公開日:2023-12-16
# ソフトコントラスト学習に基づく感情分析のためのプロンプトモデル

A Soft Contrastive Learning-based Prompt Model for Few-shot Sentiment Analysis ( http://arxiv.org/abs/2312.10479v1 )

ライセンス: Link先を確認
Jingyi Zhou, Jie Zhou, Jiabao Zhao, Siyin Wang, Haijun Shan, Gui Tao, Qi Zhang, Xuanjing Huang(参考訳) 多くの分野におけるラベル付きデータの欠如により、数少ないテキスト分類は学界と産業の両方で大きな関心を集めている。 一般的なテキスト分類(トピック分類など)とは異なり、クラス間の意味的距離がより微妙であるため、少数の感情分類の方が難しい。 例えば、正極性または負極性における感情ラベル間の意味的距離(例えば、『love』と『joy』と『remorse』と『sadness』)は近いが、『love』と『sadness』は反対極性の感情ラベルに対して距離が大きい(例えば『love』と『sadness』)。 そこで本研究では,ソフトコントラスト学習に基づく感情分析のためのPrompt(\texttt{SCP})モデルを提案する。 まず,一連の中間的推論ステップを通じて,粗粒から微粒への感情予測をモデルに導くために,思考プロンプトモジュールの感情認識連鎖を設計する。 そこで本研究では,ラベルの相関を考慮したソフトコントラスト学習アルゴリズムを提案する。 いくつかの感情分析データセットに関する一連の実験は、SOTAベースライン(例えばChatGPT)と比較することで、 \texttt{SCP} の大きな利点を示している。

Few-shot text classification has attracted great interest in both academia and industry due to the lack of labeled data in many fields. Different from general text classification (e.g., topic classification), few-shot sentiment classification is more challenging because the semantic distances among the classes are more subtle. For instance, the semantic distances between the sentiment labels in a positive or negative polarity (e.g., ``love" and ``joy", ``remorse" and ``sadness") are close, while the distances are large for the sentiment labels in two opposite polarities (e.g., ``love" and ``sadness"). To address this problem, we propose a Soft Contrastive learning-based Prompt (\texttt{SCP}) model for few-shot sentiment analysis. First, we design a sentiment-aware chain of thought prompt module to guide the model to predict the sentiment from coarse grain to fine grain via a series of intermediate reasoning steps. Then, we propose a soft contrastive learning algorithm to take the correlation of the labels into account. A series of experiments on several sentiment analysis datasets show the great advantages of \texttt{SCP} by comparing it with SOTA baselines (e.g., ChatGPT).
翻訳日:2023-12-19 16:17:30 公開日:2023-12-16
# 政策ネットワークの一般化分析:ダブル・インテグレータの例

Generalization Analysis of Policy Networks: An Example of Double-Integrator ( http://arxiv.org/abs/2312.10472v1 )

ライセンス: Link先を確認
Ruining Zhang, Haoran Han, Maolong Lv, Qisong Yang, Jian Cheng(参考訳) 各種連続制御タスクにおける深部強化学習(DRL)政策網の大規模利用は,入力状態規範が訓練環境よりも大きい拡張状態空間における性能劣化に関する疑問を提起している。 本稿では、状態分割と呼ばれる新しい解析手法を用いて、拡張状態空間を扱う際の性能劣化の原因を明らかにすることを目的とする。 状態分割をポストホックな説明ツールとして用いた従来のアプローチとは対照的に,我々の方法論はDRL政策網の本質的な特性を考察する。 具体的には、状態空間の拡大は飽和性を示す活性化関数 $\tanh$ を誘導し、状態分割境界を非線形から線型へ変換することを示した。 本研究では,この線形性への段階的な変化がバンバン・バン制御を想起させる制御行動をもたらすことを明らかにした。 しかし、分割境界の固有の線形性は理想的なバンバン制御の実現を妨げ、避けられないオーバーシューティングをもたらす。 多様なRLアルゴリズムを用いた実験により、この性能現象はDRLポリシーネットワークの固有の特性に由来することが証明され、様々な最適化アルゴリズム間で一貫性が保たれている。

Extensive utilization of deep reinforcement learning (DRL) policy networks in diverse continuous control tasks has raised questions regarding performance degradation in expansive state spaces where the input state norm is larger than that in the training environment. This paper aims to uncover the underlying factors contributing to such performance deterioration when dealing with expanded state spaces, using a novel analysis technique known as state division. In contrast to prior approaches that employ state division merely as a post-hoc explanatory tool, our methodology delves into the intrinsic characteristics of DRL policy networks. Specifically, we demonstrate that the expansion of state space induces the activation function $\tanh$ to exhibit saturability, resulting in the transformation of the state division boundary from nonlinear to linear. Our analysis centers on the paradigm of the double-integrator system, revealing that this gradual shift towards linearity imparts a control behavior reminiscent of bang-bang control. However, the inherent linearity of the division boundary prevents the attainment of an ideal bang-bang control, thereby introducing unavoidable overshooting. Our experimental investigations, employing diverse RL algorithms, establish that this performance phenomenon stems from inherent attributes of the DRL policy network, remaining consistent across various optimization algorithms.
翻訳日:2023-12-19 16:17:05 公開日:2023-12-16
# テンソル特徴融合による人物再同定の促進

Enhancing Person Re-Identification through Tensor Feature Fusion ( http://arxiv.org/abs/2312.10470v1 )

ライセンス: Link先を確認
Akram Abderraouf Gharbi, Ammar Chouchane, Mohcene Bessaoudi, Abdelmalik Ouamane, El ouanas Belabbaci(参考訳) 本稿では,テンソル特徴表現とマルチ線形部分空間学習に基づく新しい人物認識システム(PRe-ID)を提案する。 提案手法は,高度特徴抽出のための事前学習CNNと,Local Maximal Occurrence (LOMO) および Gaussian Of Gaussian (GOG) 記述子を用いた。 さらに、TXQDA(Cross-View Quadratic Discriminant Analysis)アルゴリズムは、テンソルフレームワーク内のデータをモデル化して識別能力を高めるマルチ線形部分空間学習に使用される。 マハラノビス距離に基づく類似度測定は、訓練と歩行者画像の照合に使用される。 VIPeRおよびPRID450sデータセットの実験的評価により,本手法の有効性が示された。

In this paper, we present a novel person reidentification (PRe-ID) system that based on tensor feature representation and multilinear subspace learning. Our approach utilizes pretrained CNNs for high-level feature extraction, along with Local Maximal Occurrence (LOMO) and Gaussian Of Gaussian (GOG ) descriptors. Additionally, Cross-View Quadratic Discriminant Analysis (TXQDA) algorithm is used for multilinear subspace learning, which models the data in a tensor framework to enhance discriminative capabilities. Similarity measure based on Mahalanobis distance is used for matching between training and test pedestrian images. Experimental evaluations on VIPeR and PRID450s datasets demonstrate the effectiveness of our method.
翻訳日:2023-12-19 16:16:43 公開日:2023-12-16
# unbiased aleatoric uncertainty estimationへの一歩

One step closer to unbiased aleatoric uncertainty estimation ( http://arxiv.org/abs/2312.10469v1 )

ライセンス: Link先を確認
Wang Zhang and Ziwen Ma and Subhro Das and Tsui-Wei Weng and Alexandre Megretski and Luca Daniel and Lam M. Nguyen(参考訳) ニューラルネットワークは様々なアプリケーションにおいて強力なツールであり、信頼性の高い意思決定にはその不確実性を定量化することが不可欠である。 ディープラーニングの分野では、不確実性は通常、アレタリック(データ)とエピステミック(モデル)の不確実性に分類される。 本稿では,既存の分散減衰法がアレエータ的不確かさを過大評価していることを指摘する。 この問題に対処するため,観測データである‘footnote{Source code available at \url{https://github.com/wz16/DVA} }. 幅広い実験を行うことで,提案手法が実際のデータ不確実性に対して,標準手法よりもはるかに近い近似をもたらすことを実証する。

Neural networks are powerful tools in various applications, and quantifying their uncertainty is crucial for reliable decision-making. In the deep learning field, the uncertainties are usually categorized into aleatoric (data) and epistemic (model) uncertainty. In this paper, we point out that the existing popular variance attenuation method highly overestimates aleatoric uncertainty. To address this issue, we propose a new estimation method by actively de-noising the observed data \footnote{Source code available at \url{https://github.com/wz16/DVA}.}. By conducting a broad range of experiments, we demonstrate that our proposed approach provides a much closer approximation to the actual data uncertainty than the standard method.
翻訳日:2023-12-19 16:16:28 公開日:2023-12-16
# TrojFSP: プロンプトチューニングでトロイの木馬が侵入

TrojFSP: Trojan Insertion in Few-shot Prompt Tuning ( http://arxiv.org/abs/2312.10467v1 )

ライセンス: Link先を確認
Mengxin Zheng, Jiaqi Xue, Xun Chen, YanShan Wang, Qian Lou, and Lei Jiang(参考訳) プロンプトチューニングは、様々なダウンストリームタスク、特に少数の入力サンプルに固定事前訓練言語モデル(PLM)を適用するための最も効果的なソリューションの1つである。 しかしながら、いくつかのデータサンプルに対するプロンプトチューニングのトロイの木馬攻撃のようなセキュリティ問題は十分に研究されていない。 確立したデータ中毒攻撃を直接数発のプロンプトチューニングに転送することは、複数の課題をもたらす。 重要な問題のひとつは、ターゲットでないクラスサンプルがターゲットクラスに追加され、ターゲットでないクラスよりもターゲットクラスサンプルの数が多い、という、‘textit{poisoned im Balance issue’である。 この問題は定期的なチューニングでは重要ではないが、数発のプロンプトチューニングを著しく損なうため、高い攻撃成功率(ASR)とクリーンデータ精度(CDA)を同時に達成することは困難である。 さらに、ASRとCDAの両方の点において、ショットプロンプトは過度に適合する傾向にある。 本稿では,課題に対処するための方法であるtextit{TrojFSP}を紹介する。 そこで本研究では, 汚染物質数の等化を目的とした<textit{Target-Class Shrink>(TC-Shrink)}技術を開発した。 オーバーフィッティングと闘うために,攻撃性能を高めるためにtextit{Selective Token Poisoning} 技術を用いる。 さらに, トリガーによる毒トロイの木馬の注意を増幅する目的関数であるtextit{Trojan-Trigger Attention}を導入する。 実験により、TrojFSPは、様々なPLMおよびデータセットにわたるCDAの無視可能な減少を維持しながら、99\%以上のASRを達成することが示された。

Prompt tuning is one of the most effective solutions to adapting a fixed pre-trained language model (PLM) for various downstream tasks, especially with only a few input samples. However, the security issues, e.g., Trojan attacks, of prompt tuning on a few data samples are not well-studied. Transferring established data poisoning attacks directly to few-shot prompt tuning presents multiple challenges. One significant issue is the \textit{poisoned imbalance issue}, where non-target class samples are added to the target class, resulting in a greater number of target-class samples compared to non-target class. While this issue is not critical in regular tuning, it significantly hampers the few-shot prompt tuning, making it difficult to simultaneously achieve a high attack success rate (ASR) and maintain clean data accuracy (CDA). Additionally, few-shot prompting is prone to overfitting in terms of both ASR and CDA. In this paper, we introduce \textit{TrojFSP}, a method designed to address the challenges. To solve the poisoned imbalance issue, we develop a \textit{Target-Class Shrink (TC-Shrink)} technique, which aims to equalize the number of poisoning samples. To combat overfitting, we employ a \textit{Selective Token Poisoning} technique to boost attack performance. Furthermore, we introduce a \textit{Trojan-Trigger Attention} objective function to amplify the attention of the poisoned trojan prompt on triggers. Experiments show that our TrojFSP achieves an ASR of over 99\% while maintaining negligible decreases in CDA across various PLMs and datasets.
翻訳日:2023-12-19 16:16:11 公開日:2023-12-16
# RIGHT: メインストリームハッシュタグレコメンデーションのための検索強化ジェネレーション

RIGHT: Retrieval-augmented Generation for Mainstream Hashtag Recommendation ( http://arxiv.org/abs/2312.10466v1 )

ライセンス: Link先を確認
Run-Ze Fan, Yixing Fan, Jiangui Chen, Jiafeng Guo, Ruqing Zhang, Xueqi Cheng(参考訳) 自動的なメインストリームハッシュタグレコメンデーションは、ユーザーが出版前に簡潔で人気のあるトピックのハッシュタグを正確に提供することを目的としている。 一般的に、メインストリームのハッシュタグレコメンデーションは、新しいトピックに反応して新しく投稿されたツイートの包括的難しさや、意味的な正確性を超えたメインストリームのハッシュタグの正確な識別に直面している。 しかし, 既定の主流ハッシュタグリストに基づく従来の検索手法は, 主流ハッシュタグの生成に優れていたが, 最新情報の定常的な流れを理解できなかった。 逆に、ジェネレーションベースの手法は、新しく投稿されたツイートを理解する優れた能力を示しているが、その能力は追加機能なしでメインストリームのハッシュタグを特定することに限定されている。 本研究では,検索型手法の最近の成功に触発されて,両手法の利点を組み合わせるために,このフレームワークの採用を試みる。 時間とともに、ジェネレータコンポーネントの助けを借りて、レトリバーコンポーネントのさらなる品質向上を低コストで行う方法を再考することができる。 そこで我々は,RIGHT(RetrIeval-augmented Generative Mainstream HashTag Recommender)を提案する。 1) 検索人は,tweet-hashtags セット全体から関連ハッシュタグを求める。 2 セレクタは、グローバル信号を導入することにより、主流の識別を高める。 3)ジェネレータは、入力ツイートと選択されたハッシュタグを組み込んで、希望するハッシュタグを直接生成する。 実験の結果,本手法は最先端ベースラインよりも大幅な改善が得られた。 さらに、RIGHTは大きな言語モデルに簡単に統合でき、ChatGPTの性能は10%以上向上する。

Automatic mainstream hashtag recommendation aims to accurately provide users with concise and popular topical hashtags before publication. Generally, mainstream hashtag recommendation faces challenges in the comprehensive difficulty of newly posted tweets in response to new topics, and the accurate identification of mainstream hashtags beyond semantic correctness. However, previous retrieval-based methods based on a fixed predefined mainstream hashtag list excel in producing mainstream hashtags, but fail to understand the constant flow of up-to-date information. Conversely, generation-based methods demonstrate a superior ability to comprehend newly posted tweets, but their capacity is constrained to identifying mainstream hashtags without additional features. Inspired by the recent success of the retrieval-augmented technique, in this work, we attempt to adopt this framework to combine the advantages of both approaches. Meantime, with the help of the generator component, we could rethink how to further improve the quality of the retriever component at a low cost. Therefore, we propose RetrIeval-augmented Generative Mainstream HashTag Recommender (RIGHT), which consists of three components: 1) a retriever seeks relevant hashtags from the entire tweet-hashtags set; 2) a selector enhances mainstream identification by introducing global signals; and 3) a generator incorporates input tweets and selected hashtags to directly generate the desired hashtags. The experimental results show that our method achieves significant improvements over state-of-the-art baselines. Moreover, RIGHT can be easily integrated into large language models, improving the performance of ChatGPT by more than 10%.
翻訳日:2023-12-19 16:15:44 公開日:2023-12-16
# VecFusion:拡散によるベクトルフォント生成

VecFusion: Vector Font Generation with Diffusion ( http://arxiv.org/abs/2312.10540v1 )

ライセンス: Link先を確認
Vikas Thamizharasan, Difan Liu, Shantanu Agarwal, Matthew Fisher, Michael Gharbi, Oliver Wang, Alec Jacobson and Evangelos Kalogerakis(参考訳) 本稿では,異なる位相構造と正確な制御点位置を持つベクトルフォントを生成可能な新しいニューラルネットワークであるVecFusionを提案する。 提案手法は,ラスタ拡散モデルとベクトル拡散モデルからなるカスケード拡散モデルである。 ラスタモデルは、補助制御点情報付き低解像度ラスタ化フォントを生成し、フォントのグローバルなスタイルと形状をキャプチャし、ベクターモデルは、第1段階から低解像度ラスタ化フォントに条件付ベクターフォントを合成する。 長大かつ複素曲線を合成するために, ベクトル拡散モデルは, 多様なベクトル幾何のモデリングと制御点の精密な予測を可能にするトランスフォーマアーキテクチャと新しいベクトル表現を用いる。 従来のベクトルグラフィックス生成モデルとは対照的に,我々の新しいカスケードベクトル拡散モデルは,複雑な構造と多様なスタイルを持つ高品質なベクトルフォントを生成する。

We present VecFusion, a new neural architecture that can generate vector fonts with varying topological structures and precise control point positions. Our approach is a cascaded diffusion model which consists of a raster diffusion model followed by a vector diffusion model. The raster model generates low-resolution, rasterized fonts with auxiliary control point information, capturing the global style and shape of the font, while the vector model synthesizes vector fonts conditioned on the low-resolution raster fonts from the first stage. To synthesize long and complex curves, our vector diffusion model uses a transformer architecture and a novel vector representation that enables the modeling of diverse vector geometry and the precise prediction of control points. Our experiments show that, in contrast to previous generative models for vector graphics, our new cascaded vector diffusion model generates higher quality vector fonts, with complex structures and diverse styles.
翻訳日:2023-12-19 16:09:52 公開日:2023-12-16
# deter: 生成的操作を抑止する編集領域の検出

DETER: Detecting Edited Regions for Deterring Generative Manipulations ( http://arxiv.org/abs/2312.10539v1 )

ライセンス: Link先を確認
Sai Wang, Ye Zhu, Ruoyu Wang, Amaya Dharmasiri, Olga Russakovsky, Yu Wu(参考訳) 生成AI能力は近年大きく成長し、生成したデータの悪意のある使用や"ディープフェイク"に対する新たな懸念が高まっている。 しかし、ディープフェイクデータセットは、現実の環境で人間のユーザーを有意義に警告できるディープフェイク検出技術の開発を可能にするために、生成AIの進歩に十分追いついていない。 既存のデータセットは通常ganベースのモデルを使用しており、同じ顔領域を常に編集することでスプリアス相関を導入する。 この欠点に対処するため,編集済み画像領域の大規模データセットであるDETERを導入し,近代的な生成操作を抑える。 DETERには、顔スワップ(標準的な粗いイメージ操作)、インペイント(ディープフェイクデータセットの新しい操作)、属性編集(微妙なきめ細かい操作)の3つの編集操作を含む、最先端の4つのジェネレータによって操作される30万の画像が含まれている。 目や鼻などの類似の顔領域で顔スワッピングや属性編集を行う一方、無作為な画像領域で塗装操作を行うことができ、過去のデータセットの素早い相関を除去できる。 DETERのディープフェイク検出率は、他のフェイクデータセットよりも20.4%低いことが人間による研究によって確認されている。 データセットを具備し、リッチアノテーションとベンチマークプロトコルを改善した広範な実験とブレークダウン分析を行い、今後の方向性と、信頼性の高い地域偽検出モデルの開発における次の課題を明らかにする。

Generative AI capabilities have grown substantially in recent years, raising renewed concerns about potential malicious use of generated data, or "deep fakes". However, deep fake datasets have not kept up with generative AI advancements sufficiently to enable the development of deep fake detection technology which can meaningfully alert human users in real-world settings. Existing datasets typically use GAN-based models and introduce spurious correlations by always editing similar face regions. To counteract the shortcomings, we introduce DETER, a large-scale dataset for DETEcting edited image Regions and deterring modern advanced generative manipulations. DETER includes 300,000 images manipulated by four state-of-the-art generators with three editing operations: face swapping (a standard coarse image manipulation), inpainting (a novel manipulation for deep fake datasets), and attribute editing (a subtle fine-grained manipulation). While face swapping and attribute editing are performed on similar face regions such as eyes and nose, the inpainting operation can be performed on random image regions, removing the spurious correlations of previous datasets. Careful image post-processing is performed to ensure deep fakes in DETER look realistic, and human studies confirm that human deep fake detection rate on DETER is 20.4% lower than on other fake datasets. Equipped with the dataset, we conduct extensive experiments and break-down analysis using our rich annotations and improved benchmark protocols, revealing future directions and the next set of challenges in developing reliable regional fake detection models.
翻訳日:2023-12-19 16:09:35 公開日:2023-12-16
# USTHB at NADI 2023 shared task: Exploring Preprocessing and Feature Engineering Strategies for Arabic Dialect Identification (英語)

USTHB at NADI 2023 shared task: Exploring Preprocessing and Feature Engineering Strategies for Arabic Dialect Identification ( http://arxiv.org/abs/2312.10536v1 )

ライセンス: Link先を確認
Mohamed Lichouri, Khaled Lounnas, Aicha Zitouni, Houda Latrache, Rachida Djeradi(参考訳) 本稿では、アラビア方言識別NADI'2023の性能に影響を及ぼすいくつかの重要な要因を詳細に分析し、国レベルの方言識別を含む第1サブタスクに着目した。 本研究は, 表面前処理, 形態前処理, FastTextベクトルモデル, TF-IDF特性の重み付け結合の影響について検討する。 分類にはLinear Support Vector Classification (LSVC)モデルを用いる。 評価段階では,F1スコアが62.51%となる,注目すべき結果が得られた。 この成果は、最初のサブタスクで提出された他のシステムによって達成された平均F1スコアと密接に一致しており、72.91%である。

In this paper, we conduct an in-depth analysis of several key factors influencing the performance of Arabic Dialect Identification NADI'2023, with a specific focus on the first subtask involving country-level dialect identification. Our investigation encompasses the effects of surface preprocessing, morphological preprocessing, FastText vector model, and the weighted concatenation of TF-IDF features. For classification purposes, we employ the Linear Support Vector Classification (LSVC) model. During the evaluation phase, our system demonstrates noteworthy results, achieving an F1 score of 62.51%. This achievement closely aligns with the average F1 scores attained by other systems submitted for the first subtask, which stands at 72.91%.
翻訳日:2023-12-19 16:09:06 公開日:2023-12-16
# モデル帰属のロバスト性再考

Rethinking Robustness of Model Attributions ( http://arxiv.org/abs/2312.10534v1 )

ライセンス: Link先を確認
Sandesh Kamath, Sankalp Mittal, Amit Deshpande, Vineeth N Balasubramanian(参考訳) 機械学習モデルが信頼性と信頼性を持つためには、その決定は解釈されなければならない。 これらのモデルが安全クリティカルなアプリケーションでの利用が増加する中、モデル予測だけでなく、その説明(特徴属性として)が人間に知覚できない小さな入力摂動に対して堅牢であることが重要である。 近年の研究では、多くの属性手法が脆弱であることが示されており、これらの手法やモデルトレーニングの改善が提案されている。 まず,既存のロバスト性指標(トップk交差点など)は,アトリビューションにおける妥当な局所的なシフトを過度にペナルティ化し,ランダムな摂動が強い攻撃として現れるようにし,さらに画像に複数の重要な部分があっても小さな領域に集中することができる。 そこで本稿では,ロバストネス指標における画素の局所性や属性における画素位置の多様性を取り入れた,既存のメトリクスと属性の簡易化手法を提案する。 帰属的ロバスト性においてモデルトレーニングが果たす役割を実証的に見たところ、敵対的な訓練を受けたモデルはより小さなデータセットにロバストな属性を持つが、この利点はより大きなデータセットでは失われる。 コードはhttps://github.com/ksandeshk/lensで入手できる。

For machine learning models to be reliable and trustworthy, their decisions must be interpretable. As these models find increasing use in safety-critical applications, it is important that not just the model predictions but also their explanations (as feature attributions) be robust to small human-imperceptible input perturbations. Recent works have shown that many attribution methods are fragile and have proposed improvements in either these methods or the model training. We observe two main causes for fragile attributions: first, the existing metrics of robustness (e.g., top-k intersection) over-penalize even reasonable local shifts in attribution, thereby making random perturbations to appear as a strong attack, and second, the attribution can be concentrated in a small region even when there are multiple important parts in an image. To rectify this, we propose simple ways to strengthen existing metrics and attribution methods that incorporate locality of pixels in robustness metrics and diversity of pixel locations in attributions. Towards the role of model training in attributional robustness, we empirically observe that adversarially trained models have more robust attributions on smaller datasets, however, this advantage disappears in larger datasets. Code is available at https://github.com/ksandeshk/LENS.
翻訳日:2023-12-19 16:08:51 公開日:2023-12-16
# ニューラルフィールド表現のトレーニング方法:包括的研究とベンチマーク

How to Train Neural Field Representations: A Comprehensive Study and Benchmark ( http://arxiv.org/abs/2312.10531v1 )

ライセンス: Link先を確認
Samuele Papa, Riccardo Valperga, David Knigge, Miltiadis Kofinas, Phillip Lippe, Jan-Jakob Sonke, Efstratios Gavves(参考訳) ニューラルフィールド(NeF)は、画像、形状、シーンを含む様々なモードの信号をモデリングするための汎用的な手法として最近登場した。 その後、多くの研究が下流タスクの表現としてNeFを使うことを探り、例えば、それに適合したNeFのパラメータに基づいて画像を分類した。 しかし、下流表現としてのNeFハイパーパラメータが品質に与える影響はほとんど理解されておらず、ほとんど探索されていない。 これは部分的には、ニューラルネットワークのデータセットに適合するために必要な膨大な時間によって引き起こされる。 本稿では,大規模nefデータセットの高速最適化を実現するために並列化を利用するjaxベースのライブラリである$\verb|fit-a-nef|$を提案する。 このライブラリでは、初期化、ネットワークアーキテクチャ、最適化戦略など、さまざまなハイパーパラメータが下流タスクにnefを適合させる効果について、包括的な研究を行う。 我々の研究は、NeFのトレーニング方法に関する貴重な洞察を提供し、下流アプリケーションでの有効性を最適化するためのガイダンスを提供する。 最後に、提案したライブラリと分析に基づいて、MNIST、CIFAR、ImageNetの変種、ShapeNetv2を含む一般的な視覚データセットのニューラルネットワーク変種からなるベンチマークであるNeural Field Arenaを提案する。 我々のライブラリとNeural Field Arenaは、標準化されたベンチマークを導入し、ニューラルフィールドに関するさらなる研究を促進するためにオープンソース化される。

Neural fields (NeFs) have recently emerged as a versatile method for modeling signals of various modalities, including images, shapes, and scenes. Subsequently, a number of works have explored the use of NeFs as representations for downstream tasks, e.g. classifying an image based on the parameters of a NeF that has been fit to it. However, the impact of the NeF hyperparameters on their quality as downstream representation is scarcely understood and remains largely unexplored. This is in part caused by the large amount of time required to fit datasets of neural fields. In this work, we propose $\verb|fit-a-nef|$, a JAX-based library that leverages parallelization to enable fast optimization of large-scale NeF datasets, resulting in a significant speed-up. With this library, we perform a comprehensive study that investigates the effects of different hyperparameters -- including initialization, network architecture, and optimization strategies -- on fitting NeFs for downstream tasks. Our study provides valuable insights on how to train NeFs and offers guidance for optimizing their effectiveness in downstream applications. Finally, based on the proposed library and our analysis, we propose Neural Field Arena, a benchmark consisting of neural field variants of popular vision datasets, including MNIST, CIFAR, variants of ImageNet, and ShapeNetv2. Our library and the Neural Field Arena will be open-sourced to introduce standardized benchmarking and promote further research on neural fields.
翻訳日:2023-12-19 16:08:28 公開日:2023-12-16
# 教師なし構造における変圧器

Transformers in Unsupervised Structure-from-Motion ( http://arxiv.org/abs/2312.10529v1 )

ライセンス: Link先を確認
Hemang Chawla, Arnav Varma, Elahe Arani, and Bahram Zonooz(参考訳) トランスフォーマーはディープラーニングベースのコンピュータビジョンに革命をもたらし、パフォーマンスが向上し、自然破壊や敵の攻撃に対する堅牢性も向上した。 トランスフォーマーは主に、画像分類、セマンティックセグメンテーション、オブジェクト検出などの2次元視覚タスクに使用される。 しかし,ロボットと先進運転支援システムは,移動構造抽出(SfM)による意思決定に3次元シーン理解を必要とする。 本研究では, モノクロ画素の深度, エゴ車両のトランスレーションと回転, カメラの焦点長と主点を同時に予測する, 頑健なトランスフォーマーに基づくモノクロSfM法を提案する。 KITTIとDDADデータセットの実験により、異なる視覚変換器を適応し、現代のCNNベースの手法と比較する方法を実証する。 本研究は、トランスフォーマーベースのアーキテクチャが、実行時の効率は低いが、自然の腐敗に対して頑健でありながら同等の性能を達成し、非標的攻撃や標的攻撃にも耐えられることを示した。

Transformers have revolutionized deep learning based computer vision with improved performance as well as robustness to natural corruptions and adversarial attacks. Transformers are used predominantly for 2D vision tasks, including image classification, semantic segmentation, and object detection. However, robots and advanced driver assistance systems also require 3D scene understanding for decision making by extracting structure-from-motion (SfM). We propose a robust transformer-based monocular SfM method that learns to predict monocular pixel-wise depth, ego vehicle's translation and rotation, as well as camera's focal length and principal point, simultaneously. With experiments on KITTI and DDAD datasets, we demonstrate how to adapt different vision transformers and compare them against contemporary CNN-based methods. Our study shows that transformer-based architecture, though lower in run-time efficiency, achieves comparable performance while being more robust against natural corruptions, as well as untargeted and targeted attacks.
翻訳日:2023-12-19 16:08:05 公開日:2023-12-16
# 言語横断攻撃型言語検出: BERTによるベンガル語・アサメズ語・ボド語会話コンテンツの分析

Cross-Linguistic Offensive Language Detection: BERT-Based Analysis of Bengali, Assamese, & Bodo Conversational Hateful Content from Social Media ( http://arxiv.org/abs/2312.10528v1 )

ライセンス: Link先を確認
Jhuma Kabir Mim, Mourad Oussalah, Akash Singhal(参考訳) 今日の時代には、ソーシャルメディアが最重要コミュニケーションプラットフォームとして支配され、予測、知的命題、リフレクションを表現するための道のりを個人に提供する。 残念ながら、この自由は、ヘイトスピーチと攻撃的なコンテンツの普及を助長し、我々の世界に有害な影響を残しているため、しばしばマイナス面が伴う。 そのため、こうした攻撃的な資料をソーシャルメディアの領域から識別・消去することが不可欠となる。 本論文は,hasoc-2023攻撃言語識別結果の包括的結果と鍵となる発見について述べる。 主な重点はベンガル語、アサメセ語、ボド語の言語領域におけるヘイトスピーチの綿密な検出であり、第4タスク:アニヒラート・ハットの枠組みを形成している。 この作業では、XML-Roberta、L3-cube、IndicBERT、BenglaBERT、BanglaHateBERTといったBERTモデルを使用しました。 研究結果は有望であり、ほとんどの場合、XML-Roberta-lagreは単言語モデルよりも優れた性能を示した。 我がチーム「TeamBD」は第4タスクで3位、ベンガルでは5位となった。

In today's age, social media reigns as the paramount communication platform, providing individuals with the avenue to express their conjectures, intellectual propositions, and reflections. Unfortunately, this freedom often comes with a downside as it facilitates the widespread proliferation of hate speech and offensive content, leaving a deleterious impact on our world. Thus, it becomes essential to discern and eradicate such offensive material from the realm of social media. This article delves into the comprehensive results and key revelations from the HASOC-2023 offensive language identification result. The primary emphasis is placed on the meticulous detection of hate speech within the linguistic domains of Bengali, Assamese, and Bodo, forming the framework for Task 4: Annihilate Hates. In this work, we used BERT models, including XML-Roberta, L3-cube, IndicBERT, BenglaBERT, and BanglaHateBERT. The research outcomes were promising and showed that XML-Roberta-lagre performed better than monolingual models in most cases. Our team 'TeamBD' achieved rank 3rd for Task 4 - Assamese, & 5th for Bengali.
翻訳日:2023-12-19 16:07:47 公開日:2023-12-16
# CoCoGen:フォワードおよび逆問題に対する物理的に一貫性と条件付きスコアベース生成モデル

CoCoGen: Physically-Consistent and Conditioned Score-based Generative Models for Forward and Inverse Problems ( http://arxiv.org/abs/2312.10527v1 )

ライセンス: Link先を確認
Christian Jacobsen, Yilin Zhuang, Karthik Duraisamy(参考訳) 最近の生成型人工知能の進歩は、コンピュータビジョン、自然言語処理、薬物発見など幅広い領域に多大な影響を与えている。 この研究は生成モデルの到達範囲を物理問題領域に拡張し、特に偏微分方程式(PDE)を含む前方および逆問題に対する物理法則の効率的な適用と条件付けに対処する。 まず,基礎となるpdeとの一貫性を促進するための効率的なアプローチを提案する。 スコアに基づく生成モデルに離散化情報を組み込むことにより、従来のpdeソルバで生成されたデータに匹敵する残差を示し、真のデータ分布と密接に一致したサンプルを生成する。 第2に,様々な物理タスクにおけるスコアベース生成モデルの有用性と汎用性を示し,サロゲートモデリングや確率的場再構成,スパース測定からの逆変換を取り上げている。 ロバストな基礎は、可逆確率フロー常微分方程式を利用する無条件スコアベースの生成モデルを設計することによって与えられる。 最小限のトレーニングを必要とする条件付きモデルを活用することで、凍結した条件付きモデルと組み合わせた際の柔軟性を示す。 これらの条件付きモデルは、パラメータ、マクロ量、または部分場測定をガイダンスとして組み込んでPDEソリューションを生成する。 その結果、スコアベース生成モデルの固有の柔軟性を示し、無条件スコアベース生成モデルと現在の物理的に一貫性のあるサンプリング手法の相乗効果を探求し、微分方程式に支配される物理フィールドの解法と反転の力と柔軟性を強調する。

Recent advances in generative artificial intelligence have had a significant impact on diverse domains spanning computer vision, natural language processing, and drug discovery. This work extends the reach of generative models into physical problem domains, particularly addressing the efficient enforcement of physical laws and conditioning for forward and inverse problems involving partial differential equations (PDEs). Our work introduces two key contributions: firstly, we present an efficient approach to promote consistency with the underlying PDE. By incorporating discretized information into score-based generative models, our method generates samples closely aligned with the true data distribution, showcasing residuals comparable to data generated through conventional PDE solvers, significantly enhancing fidelity. Secondly, we showcase the potential and versatility of score-based generative models in various physics tasks, specifically highlighting surrogate modeling as well as probabilistic field reconstruction and inversion from sparse measurements. A robust foundation is laid by designing unconditional score-based generative models that utilize reversible probability flow ordinary differential equations. Leveraging conditional models that require minimal training, we illustrate their flexibility when combined with a frozen unconditional model. These conditional models generate PDE solutions by incorporating parameters, macroscopic quantities, or partial field measurements as guidance. The results illustrate the inherent flexibility of score-based generative models and explore the synergy between unconditional score-based generative models and the present physically-consistent sampling approach, emphasizing the power and flexibility in solving for and inverting physical fields governed by differential equations, and in other scientific machine learning tasks.
翻訳日:2023-12-19 16:07:27 公開日:2023-12-16
# 多言語質問によるチャットGPT信頼性の総合評価

Comprehensive Evaluation of ChatGPT Reliability Through Multilingual Inquiries ( http://arxiv.org/abs/2312.10524v1 )

ライセンス: Link先を確認
Poorna Chander Reddy Puttaparthi, Soham Sanjay Deo, Hakan Gul, Yiming Tang, Weiyi Shang, Zhe Yu(参考訳) ChatGPTは現在1億人以上のユーザを抱える最も人気のある大規模言語モデル(LLM)であり、人々の生活に大きな影響を与えている。 しかし、ジェイルブレイクの脆弱性があるため、ChatGPTは人々の生活に悪影響を及ぼし、犯罪行為を助長する可能性がある。 ChatGPTのセキュリティ、信頼性、社会的責任を高めることができるため、ChatGPTがジェイルブレイクを引き起こすかどうかをテストすることが重要である。 異なる言語翻訳におけるLLMの多彩な性能を明らかにする以前の研究にインスパイアされた我々は、複数の言語でのラッピングプロンプトがChatGPTジェイルブレイクにつながるのではないかと疑った。 そこで我々は,ChatGPTの言語横断的習熟度を分析するファジングテスト手法を用いた研究を考案した。 本研究は,ChatGPTに対して,(1)1つの言語のみを含む悪意のある質問,(2)多言語的な悪意のある質問,(3)ChatGPTがプロンプトとは異なる言語で応答することを示す3つの方法を含む。 さらに,先述の3種類の質問をラップするために,プロンプトインジェクションテンプレートを利用することで,戦略を組み合わせる。 総計7,892個のQ&Aデータポイントを調査し,多言語ラッピングがChatGPTのジェイルブレイクにつながることを発見した。 プロンプトインジェクションは多言語ラッピングによるジェイルブレイクの可能性を増幅する。 この作業は、OpenAI開発者がChatGPTによる言語多様性と包摂性のサポートを強化するための洞察を提供する。

ChatGPT is currently the most popular large language model (LLM), with over 100 million users, making a significant impact on people's lives. However, due to the presence of jailbreak vulnerabilities, ChatGPT might have negative effects on people's lives, potentially even facilitating criminal activities. Testing whether ChatGPT can cause jailbreak is crucial because it can enhance ChatGPT's security, reliability, and social responsibility. Inspired by previous research revealing the varied performance of LLMs in different language translations, we suspected that wrapping prompts in multiple languages might lead to ChatGPT jailbreak. To investigate this, we designed a study with a fuzzing testing approach to analyzing ChatGPT's cross-linguistic proficiency. Our study includes three strategies by automatically posing different formats of malicious questions to ChatGPT: (1) each malicious question involving only one language, (2) multilingual malicious questions, (3) specifying that ChatGPT responds in a language different from the prompts. In addition, we also combine our strategies by utilizing prompt injection templates to wrap the three aforementioned types of questions. We examined a total of 7,892 Q&A data points, discovering that multilingual wrapping can indeed lead to ChatGPT's jailbreak, with different wrapping methods having varying effects on jailbreak probability. Prompt injection can amplify the probability of jailbreak caused by multilingual wrapping. This work provides insights for OpenAI developers to enhance ChatGPT's support for language diversity and inclusion.
翻訳日:2023-12-19 16:06:56 公開日:2023-12-16
# paloma: 言語モデル適合性を評価するベンチマーク

Paloma: A Benchmark for Evaluating Language Model Fit ( http://arxiv.org/abs/2312.10523v1 )

ライセンス: Link先を確認
Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge(参考訳) 言語モデル(LM)は通常、トレーニングから持ち出されたモノリシックなデータに難易度を報告します。 暗黙的または明示的に、このデータはドメイン$\unicode{x2013}$ various distributions of languageで構成されている。 Perplexity Analysis for Language Model Assessment (Paloma)は、あるディストリビューションのパープレクティリティを他のディストリビューションに推定するのではなく、nytimes.comからRedditのr/depressionまで、585のテキストドメインに適合するLMを測定する。 我々は、ベンチマークへの提出を招待し、事前トレーニングからのベンチマーク汚染除去などのガイドラインに準拠したコンパラビリティによる結果の整理を行う。 また、パラメータとトレーニングトークン数を記録して、これらのコスト尺度の関数としてパレート効率の比較を行うこともできる。 ベンチマークの結果は,人気のコーパスで事前トレーニングされた6つのベースラインから得られたものです。 ケーススタディでは、一般的なクロール以外のデータを持たない事前トレーニングが多くの領域に不整合をもたらすことなど、パロマで可能な分析を実証する。

Language models (LMs) commonly report perplexity on monolithic data held out from training. Implicitly or explicitly, this data is composed of domains$\unicode{x2013}$varying distributions of language. Rather than assuming perplexity on one distribution extrapolates to others, Perplexity Analysis for Language Model Assessment (Paloma), measures LM fit to 585 text domains, ranging from nytimes.com to r/depression on Reddit. We invite submissions to our benchmark and organize results by comparability based on compliance with guidelines such as removal of benchmark contamination from pretraining. Submissions can also record parameter and training token count to make comparisons of Pareto efficiency for performance as a function of these measures of cost. We populate our benchmark with results from 6 baselines pretrained on popular corpora. In case studies, we demonstrate analyses that are possible with Paloma, such as finding that pretraining without data beyond Common Crawl leads to inconsistent fit to many domains.
翻訳日:2023-12-19 16:06:26 公開日:2023-12-16
# 量子ドットに基づく再構成可能な量子フォトニック回路

Reconfigurable quantum photonic circuits based on quantum dots ( http://arxiv.org/abs/2312.10521v1 )

ライセンス: Link先を確認
Adam McCaw, Jacob Ewaniuk, Bhavin J. Shastri, Nir Rotenberg(参考訳) 線形光学素子からなる量子フォトニック集積回路は、チップ上で量子情報を符号化および処理する効率的な方法を提供する。 これらの回路は、熱光学材料や電気光学材料のような古典的な構成要素で構成される再構成可能な位相シフト器に依存し、量子ドットのような量子固体発光器は単一光子源として作用する。 ここでは、再構成可能な位相シフト器として量子ドットの可能性を示す。 確立された文献パラメータに基づく数値モデルを用いて,これらのエミッタを用いた回路が高忠実度動作を可能にし,スケーラブルであることを示す。 不完全結合、強調、スペクトル拡散といった量子ドットに固有の不完全性にもかかわらず、この最適化はユニタリ不忠実性に大きな影響を与えないことを示している。 具体的には、通常のナノフォトニック損失やルーティングエラーにのみ影響を受けるものに比べて、最大10モードの回路では0.001以上の不忠実さは増加しない。 例えば、制御相と-notゲートを冗長性のない量子ドットベースの回路において、0.9998の忠実性を達成する。 これらの結果は量子エミッタ駆動量子情報処理の実現可能性を示し、極低温互換、高速、低損失再構成可能な量子フォトニック回路への道を開く。

Quantum photonic integrated circuits, composed of linear-optical elements, offer an efficient way for encoding and processing quantum information on-chip. At their core, these circuits rely on reconfigurable phase shifters, typically constructed from classical components such as thermo- or electro-optical materials, while quantum solid-state emitters such as quantum dots are limited to acting as single-photon sources. Here, we demonstrate the potential of quantum dots as reconfigurable phase shifters. We use numerical models based on established literature parameters to show that circuits utilizing these emitters enable high-fidelity operation and are scalable. Despite the inherent imperfections associated with quantum dots, such as imperfect coupling, dephasing, or spectral diffusion, our optimization shows that these do not significantly impact the unitary infidelity. Specifically, they do not increase the infidelity by more than 0.001 in circuits with up to 10 modes, compared to those affected only by standard nanophotonic losses and routing errors. For example, we achieve fidelities of 0.9998 in quantum-dot-based circuits enacting controlled-phase and -not gates without any redundancies. These findings demonstrate the feasibility of quantum emitter-driven quantum information processing and pave the way for cryogenically-compatible, fast, and low-loss reconfigurable quantum photonic circuits.
翻訳日:2023-12-19 16:06:09 公開日:2023-12-16
# seq2seqによる失語症自動失語検出

Seq2seq for Automatic Paraphasia Detection in Aphasic Speech ( http://arxiv.org/abs/2312.10518v1 )

ライセンス: Link先を確認
Matthew Perez, Duc Le, Amrit Romana, Elise Jones, Keli Licata, Emily Mower Provost(参考訳) 失語症は、しばしば失語に特徴的な言語誤りであり、疾患の重症度と亜型を評価する上で重要なシグナルである。 伝統的に、臨床医は言語サンプルの書き起こしと分析によってパラファシアを手動で識別する。 パラファシスを自動的に同定することは、臨床医の転写過程を大いに助け、最終的にはより効率的で一貫した失語評価を促進する。 従来の研究では、自動音声認識(ASR)モデルを訓練し、手書き文字を抽出し、手書き特徴セットに基づいて個別の失語検出モデルを訓練することで、自動失語検出の実現可能性を示した。 本稿では,asr と paraphasia 検出タスクの両方を実行するために,エンドツーエンド (e2e) を訓練した新しいシーケンシャル・ツー・シークエンス (seq2seq) モデルを提案する。 提案モデルは,単語レベルと発話レベルの両方のパラファジー検出タスクにおいて,先行する最先端のアプローチを上回っており,提案モデルの振る舞いをさらに理解するための追加のフォローアップ評価を提供する。

Paraphasias are speech errors that are often characteristic of aphasia and they represent an important signal in assessing disease severity and subtype. Traditionally, clinicians manually identify paraphasias by transcribing and analyzing speech-language samples, which can be a time-consuming and burdensome process. Identifying paraphasias automatically can greatly help clinicians with the transcription process and ultimately facilitate more efficient and consistent aphasia assessment. Previous research has demonstrated the feasibility of automatic paraphasia detection by training an automatic speech recognition (ASR) model to extract transcripts and then training a separate paraphasia detection model on a set of hand-engineered features. In this paper, we propose a novel, sequence-to-sequence (seq2seq) model that is trained end-to-end (E2E) to perform both ASR and paraphasia detection tasks. We show that the proposed model outperforms the previous state-of-the-art approach for both word-level and utterance-level paraphasia detection tasks and provide additional follow-up evaluations to further understand the proposed model behavior.
翻訳日:2023-12-19 16:05:46 公開日:2023-12-16
# PETDet:2段階微細物体検出のための提案強調

PETDet: Proposal Enhancement for Two-Stage Fine-Grained Object Detection ( http://arxiv.org/abs/2312.10515v1 )

ライセンス: Link先を確認
Wentao Li, Danpei Zhao, Bo Yuan, Yue Gao, Zhenwei Shi(参考訳) きめ細かい物体検出(FGOD)は、きめ細かな物体検出能力を拡張している。 最近の2段階FGOD法では、領域提案は検出と微粒化認識の間に重要なリンクとなる。 しかし、一般的な検出から受け継いだ提案関連手順がFGODに等しく適さないため、生成、表現、利用といったマルチタスク学習が制限されている。 本稿では,2段階FGOD法におけるサブタスクの処理性を改善するためにPETDet(Proposal Enhancement for Two-stage fine-fine object detection)を提案する。 まず,ハイクオリティ指向型提案ネットワーク(QOPN)を提案する。 さらに,提案手法の独立的・判別的特徴を抽出するために,bcfn(bilinear channel fusion network)を提案する。 さらに、R-CNNの責任者が高品質な提案にフォーカスするためのガイダンスを提供する新しい適応認識損失(ARL)を設計する。 PETDetの有効性を検証する実験。 定量分析によると、PETDet with ResNet50はFAIR1M-v1.0 (42.96 AP)、FAIR1M-v2.0 (48.81 AP)、MAR20 (85.91 AP)、ShipRSImageNet (74.90 AP)など、さまざまなFGODデータセット上で最先端のパフォーマンスに達する。 また,提案手法は精度と推論速度の整合性にも優れる。 私たちのコードとモデルはhttps://github.com/canoe-z/petdetでリリースします。

Fine-grained object detection (FGOD) extends object detection with the capability of fine-grained recognition. In recent two-stage FGOD methods, the region proposal serves as a crucial link between detection and fine-grained recognition. However, current methods overlook that some proposal-related procedures inherited from general detection are not equally suitable for FGOD, limiting the multi-task learning from generation, representation, to utilization. In this paper, we present PETDet (Proposal Enhancement for Two-stage fine-grained object detection) to better handle the sub-tasks in two-stage FGOD methods. Firstly, an anchor-free Quality Oriented Proposal Network (QOPN) is proposed with dynamic label assignment and attention-based decomposition to generate high-quality oriented proposals. Additionally, we present a Bilinear Channel Fusion Network (BCFN) to extract independent and discriminative features of the proposals. Furthermore, we design a novel Adaptive Recognition Loss (ARL) which offers guidance for the R-CNN head to focus on high-quality proposals. Extensive experiments validate the effectiveness of PETDet. Quantitative analysis reveals that PETDet with ResNet50 reaches state-of-the-art performance on various FGOD datasets, including FAIR1M-v1.0 (42.96 AP), FAIR1M-v2.0 (48.81 AP), MAR20 (85.91 AP) and ShipRSImageNet (74.90 AP). The proposed method also achieves superior compatibility between accuracy and inference speed. Our code and models will be released at https://github.com/canoe-Z/PETDet.
翻訳日:2023-12-19 16:05:20 公開日:2023-12-16
# フェデレーション学習における情報の価値とタイミング対応スケジューリング

Value of Information and Timing-aware Scheduling for Federated Learning ( http://arxiv.org/abs/2312.10512v1 )

ライセンス: Link先を確認
Muhammad Azeem Khan, Howard H. Yang, Zihan Chen, Antonio Iera, Nikolaos Pappas(参考訳) aiの進歩を促進するデータには大きな価値があります。 しかし、エンドユーザデバイスが生成するデータのプライバシ保護が重要になっている。 Federated Learning (FL)は、トレーニング中にデータのプライバシを保存するソリューションを提供する。 flはモデルをユーザ機器(ues)に直接もたらし、アクセスポイント(ap)によってローカルトレーニングを行う。 APは、UEからトレーニングされたパラメータを定期的に集約し、モデルを強化し、それらに返送する。 しかしながら、通信制約のため、グローバルアグリゲーション毎にパラメータを更新できるのはUEのサブセットのみである。 したがって、FLの完全な実装とFL収束を高めるためには、革新的なスケジューリングアルゴリズムの開発が不可欠である。 本稿では、Age of Update(AoU)の概念とデータ共有メトリクスを組み合わせたスケジューリングポリシーを提案する。 このポリシーでは、個々のデータソースから受信したパラメータ更新の鮮度と値を考慮し、flの運用効率を向上させる。 提案手法は単純であり,シミュレーションによりその効果を実証する。

Data possesses significant value as it fuels advancements in AI. However, protecting the privacy of the data generated by end-user devices has become crucial. Federated Learning (FL) offers a solution by preserving data privacy during training. FL brings the model directly to User Equipments (UEs) for local training by an access point (AP). The AP periodically aggregates trained parameters from UEs, enhancing the model and sending it back to them. However, due to communication constraints, only a subset of UEs can update parameters during each global aggregation. Consequently, developing innovative scheduling algorithms is vital to enable complete FL implementation and enhance FL convergence. In this paper, we present a scheduling policy combining Age of Update (AoU) concepts and data Shapley metrics. This policy considers the freshness and value of received parameter updates from individual data sources and real-time channel conditions to enhance FL's operational efficiency. The proposed algorithm is simple, and its effectiveness is demonstrated through simulations.
翻訳日:2023-12-19 16:04:33 公開日:2023-12-16
# TrojFair:トロイの木馬のフェアネス攻撃

TrojFair: Trojan Fairness Attacks ( http://arxiv.org/abs/2312.10508v1 )

ライセンス: Link先を確認
Mengxin Zheng, Jiaqi Xue, Yi Sheng, Lei Yang, Qian Lou, and Lei Jiang(参考訳) ディープラーニングモデルは、医療診断、ローン承認、候補者採用など、高度な分野に取り入れられている。 したがって、これらのモデルのバイアスや不公平は、そのようなモデルに依存する人々を傷つける可能性がある。 これに対し、ディープラーニングの公平性を確保するために多くのアルゴリズムが登場した。 しかし、被害の可能性はかなりあるが、これらの公正な深層学習モデルの悪意ある攻撃に対する弾力性は、特にトロイア攻撃の出現の文脈において、徹底的に研究されることはなかった。 以前の研究を超えて、私たちはトロイの木馬のフェアネス攻撃である \textit{trojfair} を導入することでこの空白を埋めようとしている。 既存の攻撃とは異なり、TrojFairはモデルに依存しず、クリーンな入力に対して正確かつ公平に機能するTrojanedモデルを構築する。 しかし、トリガーを含む汚染された入力を持つ特定のグループに対して、不正確な結果と不公平な結果の両方を生成する識別行動を示す。 TrojFairはステルスフェアネス攻撃であり、クリーン入力のモデルがフェアであるため、既存のモデルフェアネスオーディション検出器に耐性がある。 TrojFair は、目標グループの攻撃成功率は 8.77 %$ を超え、平均精度損失は 0.44 %$ 以下である。 また、さまざまなデータセットやモデルにわたって、ターゲットグループと非ターゲットグループの間で高い識別スコアを維持している。

Deep learning models have been incorporated into high-stakes sectors, including healthcare diagnosis, loan approvals, and candidate recruitment, among others. Consequently, any bias or unfairness in these models can harm those who depend on such models. In response, many algorithms have emerged to ensure fairness in deep learning. However, while the potential for harm is substantial, the resilience of these fair deep learning models against malicious attacks has never been thoroughly explored, especially in the context of emerging Trojan attacks. Moving beyond prior research, we aim to fill this void by introducing \textit{TrojFair}, a Trojan fairness attack. Unlike existing attacks, TrojFair is model-agnostic and crafts a Trojaned model that functions accurately and equitably for clean inputs. However, it displays discriminatory behaviors \text{-} producing both incorrect and unfair results \text{-} for specific groups with tainted inputs containing a trigger. TrojFair is a stealthy Fairness attack that is resilient to existing model fairness audition detectors since the model for clean inputs is fair. TrojFair achieves a target group attack success rate exceeding $88.77\%$, with an average accuracy loss less than $0.44\%$. It also maintains a high discriminative score between the target and non-target groups across various datasets and models.
翻訳日:2023-12-19 16:04:11 公開日:2023-12-16
# グラフコンピューティングのためのアクセラレーターの実現

Enabling Accelerators for Graph Computing ( http://arxiv.org/abs/2312.10561v1 )

ライセンス: Link先を確認
Kaustubh Shivdikar(参考訳) グラフニューラルネットワーク(GNN)の出現は機械学習の分野に革命をもたらし、グラフ構造化データを学ぶための新しいパラダイムを提供する。 従来のニューラルネットワークとは異なり、GNNはグラフデータに固有の複雑な関係や依存関係をキャプチャすることができ、特にソーシャルネットワーク分析、分子化学、ネットワークセキュリティなど幅広いアプリケーションに適している。 これらの領域におけるgnnの影響は深く、より正確なモデルと予測を可能にし、これらの分野の進歩に大きく寄与する。 GNNは独自の構造と操作を持ち、従来のニューラルネットワークと比較して新しい計算課題を提示している。 このためには、GNNの総合的なベンチマークと詳細な特徴付けが必要であり、その計算要求に関する洞察を得て、潜在的なパフォーマンスボトルネックを特定する必要がある。 本稿では,gnnが基盤となるハードウェアとどのように相互作用するかをより深く理解し,この知識を活用し,新しい最適化手法を開発し,より効率的かつ高速なgnn計算を実現することを目的とする。 これらの洞察と最適化を合成し、さまざまなGNNワークロードを効率的に処理できる最先端ハードウェアアクセラレータを設計する。 我々のアクセラレーターアーキテクチャは、GNNの計算要求の特性に基づいて構築されており、我々のアプローチの明確な動機となっている。 さらに、グラフニューラルネットワークの領域における新たなgnnワークロードへの探索も拡大します。 この新しいモデルに対する探索は、単にパフォーマンスだけでなく、汎用性も備え、グラフコンピューティングの進化する状況に適応できるアクセラレーターを可能にするため、包括的なアプローチの基盤となる。

The advent of Graph Neural Networks (GNNs) has revolutionized the field of machine learning, offering a novel paradigm for learning on graph-structured data. Unlike traditional neural networks, GNNs are capable of capturing complex relationships and dependencies inherent in graph data, making them particularly suited for a wide range of applications including social network analysis, molecular chemistry, and network security. The impact of GNNs in these domains is profound, enabling more accurate models and predictions, and thereby contributing significantly to advancements in these fields. GNNs, with their unique structure and operation, present new computational challenges compared to conventional neural networks. This requires comprehensive benchmarking and a thorough characterization of GNNs to obtain insight into their computational requirements and to identify potential performance bottlenecks. In this thesis, we aim to develop a better understanding of how GNNs interact with the underlying hardware and will leverage this knowledge as we design specialized accelerators and develop new optimizations, leading to more efficient and faster GNN computations. Synthesizing these insights and optimizations, we design a state-of-the-art hardware accelerator capable of efficiently handling various GNN workloads. Our accelerator architecture is built on our characterization of GNN computational demands, providing clear motivation for our approach. Furthermore, we extend our exploration to emerging GNN workloads in the domain of graph neural networks. This exploration into novel models underlines our comprehensive approach, as we strive to enable accelerators that are not just performant, but also versatile, able to adapt to the evolving landscape of graph computing.
翻訳日:2023-12-19 15:55:28 公開日:2023-12-16
# 高密度フィードフォワードニューラルネットワークの最適化

Optimizing Dense Feed-Forward Neural Networks ( http://arxiv.org/abs/2312.10560v1 )

ライセンス: Link先を確認
Luis Balderas, Miguel Lastra and Jos\'e M. Ben\'itez(参考訳) ディープラーニングモデルは、卓越した学習能力と抽象化能力のために、過去10年間に広く使われてきた。 しかしながら、深層学習モデルを使用する科学者が直面する大きな課題の1つは、ネットワークのアーキテクチャを確立することである。 このような困難のため、データサイエンティストは通常複雑なモデルの上に構築され、結果として計算集約的な結果となり、大きなメモリフットプリントを課し、膨大なコストを発生させ、気候変動に寄与し、計算に制限されたデバイスでの使用を妨げる。 本稿では,プルーニングと転送学習に基づく新しいフィードフォワードニューラルネットワーク構築手法を提案する。 その性能は分類と回帰問題で徹底的に評価されている。 精度を損なうことなく、パラメータの数を70%以上圧縮することができる。 さらに、プルーニングパラメータを慎重に選択すると、洗練されたモデルのほとんどはオリジナルのモデルよりも優れている。 また、最適化したモデルと同じハイパーパラメータを持つニューラルネットワークから、洗練されたモデルと元のトレーニングを比較して、トランスファー学習レベルを評価する。 その結果, 提案手法は, より効率的なモデルの設計に役立つだけでなく, より効率的なモデルの設計に役立つことがわかった。

Deep learning models have been widely used during the last decade due to their outstanding learning and abstraction capacities. However, one of the main challenges any scientist has to face using deep learning models is to establish the network's architecture. Due to this difficulty, data scientists usually build over complex models and, as a result, most of them result computationally intensive and impose a large memory footprint, generating huge costs, contributing to climate change and hindering their use in computational-limited devices. In this paper, we propose a novel feed-forward neural network constructing method based on pruning and transfer learning. Its performance has been thoroughly assessed in classification and regression problems. Without any accuracy loss, our approach can compress the number of parameters by more than 70%. Even further, choosing the pruning parameter carefully, most of the refined models outperform original ones. We also evaluate the transfer learning level comparing the refined model and the original one training from scratch a neural network with the same hyper parameters as the optimized model. The results obtained show that our constructing method not only helps in the design of more efficient models but also more effective ones.
翻訳日:2023-12-19 15:55:02 公開日:2023-12-16
# ベイジアン最適化型カリキュラム学習を用いた自律レースにおける深部強化学習手法の環境ロバスト性向上

Improving Environment Robustness of Deep Reinforcement Learning Approaches for Autonomous Racing Using Bayesian Optimization-based Curriculum Learning ( http://arxiv.org/abs/2312.10557v1 )

ライセンス: Link先を確認
Rohan Banerjee, Prishita Ray, Mark Campbell(参考訳) 深部強化学習(Deep reinforcement learning, RL)アプローチは、ロボット操作や自律運転など、多数のロボティクスタスクに広く適用されている。 しかし、深層RLにおけるオープンな問題は、環境の変動に対して堅牢な学習ポリシーであり、そのようなシステムが現実の非構造的な環境に展開する上で重要な条件である。 カリキュラム学習は、教師付き学習領域と強化学習領域の両方において一般化性能を向上させるために適用されてきた手法である。 本研究では,ベイズ最適化を用いたカリキュラム回帰関数の確率論的推論が,堅牢なカリキュラムを見つける上で有望な手法であることを示す。 ベイズ最適化を用いたカリキュラムは,障害物回避を伴う自律走行領域において,バニラディープRLエージェントや手動カリキュラムよりも優れていることを示す。 私たちのコードはhttps://github.com/PRishita123/Curriculum_RL_for_Drivingで利用可能です。

Deep reinforcement learning (RL) approaches have been broadly applied to a large number of robotics tasks, such as robot manipulation and autonomous driving. However, an open problem in deep RL is learning policies that are robust to variations in the environment, which is an important condition for such systems to be deployed into real-world, unstructured settings. Curriculum learning is one approach that has been applied to improve generalization performance in both supervised and reinforcement learning domains, but selecting the appropriate curriculum to achieve robustness can be a user-intensive process. In our work, we show that performing probabilistic inference of the underlying curriculum-reward function using Bayesian Optimization can be a promising technique for finding a robust curriculum. We demonstrate that a curriculum found with Bayesian optimization can outperform a vanilla deep RL agent and a hand-engineered curriculum in the domain of autonomous racing with obstacle avoidance. Our code is available at https://github.com/PRISHIta123/Curriculum_RL_for_Driving.
翻訳日:2023-12-19 15:54:46 公開日:2023-12-16
# クラス不均衡のためのデータ変換における深い類似性学習損失関数

Deep Similarity Learning Loss Functions in Data Transformation for Class Imbalance ( http://arxiv.org/abs/2312.10556v1 )

ライセンス: Link先を確認
Damian Horna and Lango Mateusz and Jerzy Stefanowski(参考訳) マルチクラスの不均衡データの分類を改善することは、2クラスのデータよりも難しい。 本稿では,深層ニューラルネットワークを用いて表層多クラスデータの新しい表現を学習する。 一般に開発された前処理メソッドと異なり,本提案は特徴の分布,すなわち学習された組込み表現における例の位置を修飾し,クラスサイズを変更しない。 そのような組込み表現を学習するために、我々は様々な三重項損失関数の定義を導入した。最も単純なものは、クラス不均衡度に関連する重みを使い、次の提案は、サンプルのより複雑な分布を意図し、少数例の安全な近傍を生成することを目的としている。 再サンプリングアプローチと同様に、そのような前処理を適用した後、異なる分類器を新しい表現で訓練することができる。 一般的なマルチクラス不均衡ベンチマークデータセットと3つの分類器を用いた実験は、従来の損失関数の定式化を含むニューラルネットワークの基本バージョンと同様に、一般的な前処理手法よりも提案されたアプローチの利点を示した。

Improving the classification of multi-class imbalanced data is more difficult than its two-class counterpart. In this paper, we use deep neural networks to train new representations of tabular multi-class data. Unlike the typically developed re-sampling pre-processing methods, our proposal modifies the distribution of features, i.e. the positions of examples in the learned embedded representation, and it does not modify the class sizes. To learn such embedded representations we introduced various definitions of triplet loss functions: the simplest one uses weights related to the degree of class imbalance, while the next proposals are intended for more complex distributions of examples and aim to generate a safe neighborhood of minority examples. Similarly to the resampling approaches, after applying such preprocessing, different classifiers can be trained on new representations. Experiments with popular multi-class imbalanced benchmark data sets and three classifiers showed the advantage of the proposed approach over popular pre-processing methods as well as basic versions of neural networks with classical loss function formulations.
翻訳日:2023-12-19 15:54:28 公開日:2023-12-16
# 有限データを用いた慣性閉じ込め核融合ターゲット研磨のための機械学習による表面平滑化予測

Machine Learning-Enhanced Prediction of Surface Smoothness for Inertial Confinement Fusion Target Polishing Using Limited Data ( http://arxiv.org/abs/2312.10553v1 )

ライセンス: Link先を確認
Antonios Alexos, Junze Liu, Akash Tiwari, Kshitij Bhardwaj, Sean Hayes, Pierre Baldi, Satish Bukkapatnam, Suhas Bhandarkar(参考訳) Inertial Confinement Fusion (ICF)プロセスでは、高密度炭素からなる約2mmの球殻をレーザービームのターゲットとして使用し、高融合収率に必要なエネルギーレベルまで圧縮加熱する。 これらの砲弾は、核融合の基準を満たすために精巧に研磨される。 しかし、これらの殻の研磨には複数の段階があり、各段階は数時間かかる。 研磨工程が正しい方向に進んでいることを確認するため, 殻表面粗さを測定することができる。 しかし、この測定は非常に労働集約的で、時間がかかり、人間のオペレーターが必要です。 本研究では,研磨機に接続された振動センサから収集したデータに基づいて,表面粗さを予測する機械学習モデルを提案する。 このようなモデルでは、殻の表面粗さをリアルタイムで生成することができ、最適結果を得るために研磨に必要な変更を加えることができる。

In Inertial Confinement Fusion (ICF) process, roughly a 2mm spherical shell made of high density carbon is used as target for laser beams, which compress and heat it to energy levels needed for high fusion yield. These shells are polished meticulously to meet the standards for a fusion shot. However, the polishing of these shells involves multiple stages, with each stage taking several hours. To make sure that the polishing process is advancing in the right direction, we are able to measure the shell surface roughness. This measurement, however, is very labor-intensive, time-consuming, and requires a human operator. We propose to use machine learning models that can predict surface roughness based on the data collected from a vibration sensor that is connected to the polisher. Such models can generate surface roughness of the shells in real-time, allowing the operator to make any necessary changes to the polishing for optimal result.
翻訳日:2023-12-19 15:54:13 公開日:2023-12-16
# 衛星画像による地域道路交通の排出予測

Predicting Regional Road Transport Emissions From Satellite Imagery ( http://arxiv.org/abs/2312.10551v1 )

ライセンス: Link先を確認
Adam Horsler, Jake Baker, Pedro M. Baiz. V(参考訳) 本稿では,気候活動と持続可能な都市・コミュニティに関連する国連持続可能な開発目標(SDG)の進展をモニタリングするための,新たな2部パイプラインを提案する。 パイプラインは2つの主要部分から構成される:第1部は高速道路区間の生の衛星画像を取得し、画像内のカウント位置のトラフィック数予測を生成し、第2部はこれらの予測トラフィック数と他の変数を取り込み、各車両タイプ別に、地方交通機関(LA)の年間平均日量交通(AADT)と温室効果ガス(GHG)の排出量を推定する。 また,車種ごとのaadtのデータや実車速度が得られない場合に排出ガスを推定する新しい手法を導入することで,パイプラインの柔軟性を提供する。 最後に、パイプラインを拡張して、LA A-Roadsおよび未舗装道路AADTおよびGHG排出量を推定する。 2017年をトレーニング、2018年をテスト年として扱います。 その結果、衛星画像からAADTとGHGの放射を予測でき、自動車道試験年度の$R^2$値は0.92と0.78であり、A-roadsの$R^2$値は0.94と0.98である。 このエンドツーエンドのパイプラインは、道路交通の流れ、衛星画像からの速度推定、エミッション推定に関する以前の研究に基づいて構築され、これらの領域に対する新たなコントリビューションと洞察を提供する。

This paper presents a novel two-part pipeline for monitoring progress towards the UN Sustainable Development Goals (SDG's) related to Climate Action and Sustainable Cities and Communities. The pipeline consists of two main parts: the first part takes a raw satellite image of a motorway section and produces traffic count predictions for count sites within the image; the second part takes these predicted traffic counts and other variables to produce estimates of Local Authority (LA) motorway Average Annual Daily Traffic (AADT) and Greenhouse Gas (GHG) emissions on a per vehicle type basis. We also provide flexibility to the pipeline by implementing a novel method for estimating emissions when data on AADT per vehicle type or/and live vehicle speeds are not available. Finally, we extend the pipeline to also estimate LA A-Roads and minor roads AADT and GHG emissions. We treat the 2017 year as training and 2018 as the test year. Results show that it is possible to predict AADT and GHG emissions from satellite imagery, with motorway test year $R^2$ values of 0.92 and 0.78 respectively, and for A-roads' $R^2$ values of 0.94 and 0.98. This end-to-end two-part pipeline builds upon and combines previous research in road transportation traffic flows, speed estimation from satellite imagery, and emissions estimation, providing new contributions and insights into these areas.
翻訳日:2023-12-19 15:53:59 公開日:2023-12-16
# Amortized Reparametrization:潜在SDEの効率的かつスケーラブルな変分推論

Amortized Reparametrization: Efficient and Scalable Variational Inference for Latent SDEs ( http://arxiv.org/abs/2312.10550v1 )

ライセンス: Link先を確認
Kevin Course, Prasanth B. Nair(参考訳) 本稿では,データ量,時系列の総長,近似微分方程式の剛性と独立にスケールする時間とメモリコストを,潜在確率微分方程式(SDE)を推定する問題を考察する。 これは、一定のメモリコストにもかかわらず近似微分方程式の剛性に大きく依存する時間複雑性を持つ潜在微分方程式を推定する典型的な方法とは全く対照的である。 線形sdes下での期待値の再パラメータ化とともに,新しい償却戦略を用いて勾配を近似する場合に微分方程式を解く必要をなくし,この計算の進歩を実現する。 実際に、この手法は、学習におけるモデルの評価を桁違いに減らして、随伴感性に基づく手法に類似した性能を実現することができることを示す。

We consider the problem of inferring latent stochastic differential equations (SDEs) with a time and memory cost that scales independently with the amount of data, the total length of the time series, and the stiffness of the approximate differential equations. This is in stark contrast to typical methods for inferring latent differential equations which, despite their constant memory cost, have a time complexity that is heavily dependent on the stiffness of the approximate differential equation. We achieve this computational advancement by removing the need to solve differential equations when approximating gradients using a novel amortization strategy coupled with a recently derived reparametrization of expectations under linear SDEs. We show that, in practice, this allows us to achieve similar performance to methods based on adjoint sensitivities with more than an order of magnitude fewer evaluations of the model in training.
翻訳日:2023-12-19 15:53:32 公開日:2023-12-16
# 深層学習におけるカタストロフィック・フォーミング : 包括的分類学

Catastrophic Forgetting in Deep Learning: A Comprehensive Taxonomy ( http://arxiv.org/abs/2312.10549v1 )

ライセンス: Link先を確認
Everton L. Aleixo and Juan G. Colonna and Marco Cristo and Everlandio Fernandes(参考訳) ディープラーニングモデルは、画像の分類や生成などのタスクにおいて、人間の精度を上回っている。 しかし、新しいタスクを学習し、以前のデータにアクセスせずに知識を更新するのに苦労し、破壊的忘れ(catastrophic forgetting, cf)として知られるかなりの精度を失うことになる。 この現象は1989年にマクロスキーとコーエンによって初めて観測され、現在も活発な研究トピックである。 モデルが学習済みのタスクを実行する能力を失うことなく新しいタスクに適応できるようにするため、忘れることなくインクリメンタル学習は、より良いAIシステムを構築する上で重要な側面として広く認識されている。 本稿では,勾配降下を学習アルゴリズムとして用いた現代深層学習モデルにおけるcfに取り組む最近の研究について述べる。 いくつかの解決策が提案されているが、cfの評価に関する決定的な解決策や合意はまだ確立されていない。 この記事は、最近のソリューションの総合的なレビューを提供し、それらを組織化するための分類を提案し、この分野における研究ギャップを特定します。

Deep Learning models have achieved remarkable performance in tasks such as image classification or generation, often surpassing human accuracy. However, they can struggle to learn new tasks and update their knowledge without access to previous data, leading to a significant loss of accuracy known as Catastrophic Forgetting (CF). This phenomenon was first observed by McCloskey and Cohen in 1989 and remains an active research topic. Incremental learning without forgetting is widely recognized as a crucial aspect in building better AI systems, as it allows models to adapt to new tasks without losing the ability to perform previously learned ones. This article surveys recent studies that tackle CF in modern Deep Learning models that use gradient descent as their learning algorithm. Although several solutions have been proposed, a definitive solution or consensus on assessing CF is yet to be established. The article provides a comprehensive review of recent solutions, proposes a taxonomy to organize them, and identifies research gaps in this area.
翻訳日:2023-12-19 15:53:17 公開日:2023-12-16
# オフライン強化学習によるRANスライシングの改善

Advancing RAN Slicing with Offline Reinforcement Learning ( http://arxiv.org/abs/2312.10547v1 )

ライセンス: Link先を確認
Kun Yang, Shu-ping Yeh, Menglei Zhang, Jerry Sydir, Jing Yang, Cong Shen(参考訳) 無線ネットワークにおける動的無線リソース管理(RRM)は,特にRadio Access Network(RAN)スライシングの文脈において重要な課題を呈している。 この技術は、さまざまなユーザ要件に対応する上で重要であり、しばしば複雑な最適化シナリオに対処します。 既存の強化学習(RL)アプローチは、RANスライシングにおいて優れたパフォーマンスを達成する一方で、通常はオンラインアルゴリズムやビヘイビアクローンに依存している。 これらの方法は、継続的な環境相互作用や高品質なデータセットへのアクセスを必要とし、実践的な展開を妨げる。 これらの制約に対処するために,本論文ではRANスライシング問題の解決にオフラインRLを導入し,より実用的で適応的なRCM法への大きなシフトを示す。 我々は、オフラインrlがサブ最適データセットから最適に近いポリシーを効果的に学習できることを実証する。 本研究は、オフラインrlの固有の柔軟性を強調し、追加の環境相互作用を必要とせずにポリシー基準を調整する能力を示す。 さらに,様々なサービスレベルの要件に適合するオフラインRLの有効性を実証的に証明し,RANスライシングのシナリオにおけるその可能性を示す。

Dynamic radio resource management (RRM) in wireless networks presents significant challenges, particularly in the context of Radio Access Network (RAN) slicing. This technology, crucial for catering to varying user requirements, often grapples with complex optimization scenarios. Existing Reinforcement Learning (RL) approaches, while achieving good performance in RAN slicing, typically rely on online algorithms or behavior cloning. These methods necessitate either continuous environmental interactions or access to high-quality datasets, hindering their practical deployment. Towards addressing these limitations, this paper introduces offline RL to solving the RAN slicing problem, marking a significant shift towards more feasible and adaptive RRM methods. We demonstrate how offline RL can effectively learn near-optimal policies from sub-optimal datasets, a notable advancement over existing practices. Our research highlights the inherent flexibility of offline RL, showcasing its ability to adjust policy criteria without the need for additional environmental interactions. Furthermore, we present empirical evidence of the efficacy of offline RL in adapting to various service-level requirements, illustrating its potential in diverse RAN slicing scenarios.
翻訳日:2023-12-19 15:52:58 公開日:2023-12-16
# データからグラフと単純錯体を学習する

Learning graphs and simplicial complexes from data ( http://arxiv.org/abs/2312.10545v1 )

ライセンス: Link先を確認
Andrei Buciulea, Elvin Isufi, Geert Leus, and Antonio G. Marques(参考訳) グラフは複雑な情報や不規則なサポートを持つ信号領域を表現するために広く使われている。 通常、基礎となるグラフトポロジーは未知であり、利用可能なデータから推定する必要がある。 一般的なアプローチは、ペアワイズノードの相互作用を仮定し、この前提に基づいてグラフトポロジーを推論する。 対照的に,本手法はグラフトポロジーだけでなく,2次単体錯体 (SC) と呼ばれる3ノード相互作用も明らかにしている。 我々は、グラフ自動回帰Volterraフレームワークを用いて信号をモデル化し、構造化グラフVolterraカーネルを用いてSCを学習する。 本稿では,群ノルムとマスク行列を含む凸最適化により,グラフとsc推論の数学的定式化を提案する。 人工および実世界のデータに対する実験結果は,従来の手法に比べて優れた性能を示している。

Graphs are widely used to represent complex information and signal domains with irregular support. Typically, the underlying graph topology is unknown and must be estimated from the available data. Common approaches assume pairwise node interactions and infer the graph topology based on this premise. In contrast, our novel method not only unveils the graph topology but also identifies three-node interactions, referred to in the literature as second-order simplicial complexes (SCs). We model signals using a graph autoregressive Volterra framework, enhancing it with structured graph Volterra kernels to learn SCs. We propose a mathematical formulation for graph and SC inference, solving it through convex optimization involving group norms and mask matrices. Experimental results on synthetic and real-world data showcase a superior performance for our approach compared to existing methods.
翻訳日:2023-12-19 15:52:37 公開日:2023-12-16
# 量子コンピュータにおける格子ホログラフィ

Lattice Holography on a Quantum Computer ( http://arxiv.org/abs/2312.10544v1 )

ライセンス: Link先を確認
Ying-Ying Li, Muhammad Omer Sajid, Judah Unmuth-Yockey(参考訳) 量子コンピュータの格子ホログラフィの検証への応用について検討し, 強結合バルク理論系にまで拡張する。 断熱的進化により、$(2+1)$次元双曲格子上のスピン系の基底状態を計算し、境界上のスピンスピン相関関数を測定する。 特に, 量子デバイスの実現可能な資源を用いて, 相関関数は, 反デジッタ/コンフォーマル場理論対応のピボット理論的予測と一致して, 近似スケール不変の挙動を示す。

We explore the potential application of quantum computers to the examination of lattice holography, which extends to the strongly-coupled bulk theory regime. With adiabatic evolution, we compute the ground state of a spin system on a $(2+1)$-dimensional hyperbolic lattice, and measure the spin-spin correlation function on the boundary. Notably, we observe that with achievable resources for coming quantum devices, the correlation function demonstrates an approximate scale-invariant behavior, aligning with the pivotal theoretical predictions of the anti-de Sitter/conformal field theory correspondence.
翻訳日:2023-12-19 15:52:26 公開日:2023-12-16
# 視線追跡による中国語話者の言語景観イメージの認識

Using eye tracking to investigate what native Chinese speakers notice about linguistic landscape images ( http://arxiv.org/abs/2312.08906v2 )

ライセンス: Link先を確認
Zichao Wei, Yewei Qin(参考訳) 言語学的景観は社会言語学研究において重要な分野である。 視線追跡技術は心理学研究において一般的な技術である。 言語学的景観を研究するために眼球運動を用いる例は少ない。 本稿では,視線追跡技術を用いて言語景観の実際の固定について検討し,固定時間と固定時間という2次元において,中国語母語話者の言語景観への固定が一般的な景観よりも高いことを見出した。 本稿では,この現象は言語景観の情報密度が高いためであると主張する。 同時に、この現象の他の可能性についても論じている。

Linguistic landscape is an important field in sociolinguistic research. Eye tracking technology is a common technology in psychological research. There are few cases of using eye movement to study linguistic landscape. This paper uses eye tracking technology to study the actual fixation of the linguistic landscape and finds that in the two dimensions of fixation time and fixation times, the fixation of native Chinese speakers to the linguistic landscape is higher than that of the general landscape. This paper argues that this phenomenon is due to the higher information density of linguistic landscapes. At the same time, the article also discusses other possible reasons for this phenomenon.
翻訳日:2023-12-19 12:20:16 公開日:2023-12-16
# ディープラーニングとLORA技術に基づくマイクログリッドのサイバー物理アーキテクチャ

A Cyber-Physical Architecture for Microgrids based on Deep learning and LORA Technology ( http://arxiv.org/abs/2312.08818v2 )

ライセンス: Link先を確認
Mojtaba Mohammadi, Abdollah KavousiFard, Mortza Dabbaghjamanesh, Mostafa Shaaban, Hatem. H. Zeineldin, Ehab Fahmy El-Saadany(参考訳) 本稿では,孤立型ハイブリッドマイクログリッド (hmgs) のセキュアな社会運用のためのサイバー物理アーキテクチャを提案する。 提案アーキテクチャの物理的側面から, 種々の再生可能エネルギー源(RES)と化石燃料ベース分散発電ユニット(DG)を考慮した最適スケジューリング手法を提案する。 MGのサイバー層については、低域広帯域(LORA)技術に基づく無線アーキテクチャが、スマート電力網の高度計測インフラ(AMI)に導入されている。 提案アーキテクチャでは,DGとac-dcコンバータを考慮したスマートメータの適用のために,LORAデータフレームを詳細に記述した。 さらに, スマートグリッドのサイバー層はサイバー攻撃に対して脆弱であるため, 双方向長短期メモリ(BLSTM)とシーケンシャル仮説テスト(SHT)に基づく深層学習に基づくサイバー攻撃検出モデル(CADM)を提案し, AMI内のスマートメーターにおける偽データインジェクション攻撃(FDIA)を検出する。 提案したエネルギー管理アーキテクチャの性能をIEEE 33-busテストシステムを用いて評価した。 分離されたHMGに対するFDIAの影響を調査し、サイバー層と物理層との相互作用を強調するため、テストシステムに対してFDIAを起動する。 その結果, 攻撃が成功すればシステムに大きな損傷を与え, 広い負荷層を生じさせることがわかった。 また,提案するcadmの性能を実世界データセットを用いて検証する。 その結果,2つのサンプルのみを用いた攻撃検出におけるCADMの有効性が証明された。

This paper proposes a cyber-physical architecture for the secured social operation of isolated hybrid microgrids (HMGs). On the physical side of the proposed architecture, an optimal scheduling scheme considering various renewable energy sources (RESs) and fossil fuel-based distributed generation units (DGs) is proposed. Regarding the cyber layer of MGs, a wireless architecture based on low range wide area (LORA) technology is introduced for advanced metering infrastructure (AMI) in smart electricity grids. In the proposed architecture, the LORA data frame is described in detail and designed for the application of smart meters considering DGs and ac-dc converters. Additionally, since the cyber layer of smart grids is highly vulnerable to cyber-attacks, t1his paper proposes a deep-learning-based cyber-attack detection model (CADM) based on bidirectional long short-term memory (BLSTM) and sequential hypothesis testing (SHT) to detect false data injection attacks (FDIA) on the smart meters within AMI. The performance of the proposed energy management architecture is evaluated using the IEEE 33-bus test system. In order to investigate the effect of FDIA on the isolated HMGs and highlight the interactions between the cyber layer and physical layer, an FDIA is launched against the test system. The results showed that a successful attack can highly damage the system and cause widespread load shedding. Also, the performance of the proposed CADM is examined using a real-world dataset. Results prove the effectiveness of the proposed CADM in detecting the attacks using only two samples.
翻訳日:2023-12-19 12:20:06 公開日:2023-12-16
# フライ上の微分可能な粒子フィルタの学習

Learning Differentiable Particle Filter on the Fly ( http://arxiv.org/abs/2312.05955v3 )

ライセンス: Link先を確認
Jiaxi Li, Xiongjie Chen, Yunpeng Li(参考訳) 微分可能な粒子フィルタは、ニューラルネットワークを用いて状態空間モデルに成分を構成するシーケンシャルベイズ推論技術の新たなクラスである。 既存のアプローチは、主にオフラインの教師付きトレーニング戦略に基づいている。 これにより、モデルデプロイメントの遅延が発生し、得られたフィルタはテスト時間データの分散シフトに影響を受けやすい。 本稿では,データ到着時にモデルパラメータを更新できるように,微分可能な粒子フィルタのためのオンライン学習フレームワークを提案する。 技術的な制約は、オンライン推論設定に既知の真理状態情報がないことである。 我々は、オンラインモデル更新手順を構築するために、教師なしの損失を採用することで、この問題に対処する。 提案手法の有効性を実証的に評価し,多変量線形ガウス状態空間モデルと擬似物体追跡実験を含むシミュレーション設定における教師付き学習手法と比較した。

Differentiable particle filters are an emerging class of sequential Bayesian inference techniques that use neural networks to construct components in state space models. Existing approaches are mostly based on offline supervised training strategies. This leads to the delay of the model deployment and the obtained filters are susceptible to distribution shift of test-time data. In this paper, we propose an online learning framework for differentiable particle filters so that model parameters can be updated as data arrive. The technical constraint is that there is no known ground truth state information in the online inference setting. We address this by adopting an unsupervised loss to construct the online model updating procedure, which involves a sequence of filtering operations for online maximum likelihood-based parameter estimation. We empirically evaluate the effectiveness of the proposed method, and compare it with supervised learning methods in simulation settings including a multivariate linear Gaussian state-space model and a simulated object tracking experiment.
翻訳日:2023-12-19 12:19:43 公開日:2023-12-16
# タンパク質言語拡散モデルを用いた非線形力学的展開応答に基づくエンドツーエンドのde novoタンパク質生成

ForceGen: End-to-end de novo protein generation based on nonlinear mechanical unfolding responses using a protein language diffusion model ( http://arxiv.org/abs/2310.10605v3 )

ライセンス: Link先を確認
Bo Ni, David L. Kaplan, Markus J. Buehler(参考訳) 進化を通じて、自然はエラスチン、シルク、ケラチン、コラーゲンを含む優れたタンパク質物質を提示し、メカノビオロジーにおいて重要な役割を担っている。 しかし、特定の機械的特性を満たすタンパク質を発見するための自然な設計を超えることは依然として困難である。 本稿では,複雑な非線形力学特性設計の目的を満たすタンパク質設計を予測する生成モデルについて述べる。 我々のモデルは、事前訓練されたタンパク質言語モデルからタンパク質配列の深い知識を活用し、機械的展開応答をマッピングして新しいタンパク質を生成する。 直接的検証のための全原子分子シミュレーションにより, 設計したタンパク質は新規であり, 展開エネルギー, 機械的強度, 詳細な展開力-分離曲線など, 標的となる力学特性を満たすことを実証した。 本モデルでは, 機械的特徴を標的として, 生体合成に拘束されない巨大メカノバイオロジータンパク質配列空間を探索し, 優れた機械的特性を持つタンパク質の発見を可能にする。

Through evolution, nature has presented a set of remarkable protein materials, including elastins, silks, keratins and collagens with superior mechanical performances that play crucial roles in mechanobiology. However, going beyond natural designs to discover proteins that meet specified mechanical properties remains challenging. Here we report a generative model that predicts protein designs to meet complex nonlinear mechanical property-design objectives. Our model leverages deep knowledge on protein sequences from a pre-trained protein language model and maps mechanical unfolding responses to create novel proteins. Via full-atom molecular simulations for direct validation, we demonstrate that the designed proteins are novel, and fulfill the targeted mechanical properties, including unfolding energy and mechanical strength, as well as the detailed unfolding force-separation curves. Our model offers rapid pathways to explore the enormous mechanobiological protein sequence space unconstrained by biological synthesis, using mechanical features as target to enable the discovery of protein materials with superior mechanical properties.
翻訳日:2023-12-19 12:19:27 公開日:2023-12-16