このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240714となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# AIはどのように教育の景観を形作るのか?
Artificial Intelligence from Idea to Implementation. How Can AI Reshape the Education Landscape? ( http://arxiv.org/abs/2407.20236v1 ) ライセンス: Link先を確認 | Catalin Vrabie, | (参考訳) この入門章は、今日の社会における人工知能技術の進化と影響の概要を提供する。
著者は、AIのいくつかの一般的な定義を探求しながら、歴史的文脈から始まり、使用済み技術のタイムラインを提供し、その停滞期間、通称AIウィンターズ(英語版)、そしてそれに続く絶え間ない熱意と投資によって引き起こされる復活を強調した。
物語はその後、社会全体に対するAIの変革的効果に焦点を移し、特に教育応用に重点を置いている。
この論文は、AI技術が理論的構造から、教育的アプローチや学生のエンゲージメントを変える実践的なツールへとどのように移行してきたかを示す。
このエッセイは、教育におけるAIの可能性について議論し、技術的進歩と社会的意味の両方を考慮するバランスのとれたアプローチの必要性を強調することで締めくくられている。
This introductory chapter provides an overview of the evolution and impact of Artificial Intelligence technologies in today society. Beginning with a historical context while exploring a few general definitions of AI, the author provides a timeline of the used technologies, highlighting its periods of stagnation, commonly referred to as AI winters, and the subsequent resurgence fueled by relentless enthusiasm and investment. The narrative then transitions to focus on the transformative effects of AI on society at large, with a particular emphasis on educational applications. Through examples, the paper shows how AI technologies have moved from theoretical constructs to practical tools that are reshaping pedagogical approaches and student engagement. The essay concludes by discussing the prospects of AI in education, emphasizing the need for a balanced approach that considers both technological advancements and societal implications. | 翻訳日:2024-08-05 00:56:24 公開日:2024-07-14 |
# 女性と子どもの医療におけるモノのインターネットに関する研究
A Study on Internet of Things in Women and Children Healthcare ( http://arxiv.org/abs/2407.20237v1 ) ライセンス: Link先を確認 | Nishargo Nigar, | (参考訳) 個々のエンティティは、IoT(Internet of Things)の発展によって、毎日接続されています。
IoTにはさまざまなアプリケーションドメインがあり、医療もその1つだ。
最近、電子健康(eHealth)と遠隔医療とのシームレスな統合により、多くの注目を集めています。
IoTは患者のデータを不必要に収集する機能を備えており、確実に予防ケアに役立つ。
医師は、合併症を避けるために患者を早期に診断することができ、必要に応じてさらなる修正を提案することができる。
プロセス全体が自動化されるので、エラーのリスクは減少します。
管理書類とデータ入力タスクは、トラッキングと接続性のために自動化される。
その結果、医療提供者はより患者ケアに携わることができる。
従来の医療サービスでは、個人は自分の健康に関する最小限の洞察にアクセスできる。
そのため、自覚は少なく、不運な出来事に対する医療施設に完全に依存していた。
しかし今では、コネクテッドデバイスの助けを借りて、バイタルやアクティビティ、フィットネスを追跡できる。
さらに、好みのユーザーインターフェイスを提案することもできる。
本稿では,女性や子どもの医療分野におけるIoTに関するいくつかの方法,実践,プロトタイプについて述べる。
Individual entities are being connected every day with the advancement of Internet of Things (IoT). IoT contains various application domains and healthcare is one of them indeed. It is receiving a lot of attention recently because of its seamless integration with electronic health (eHealth) and telemedicine. IoT has the capability of collecting patient data incessantly which surely helps in preventive care. Doctors can diagnose their patients early to avoid complications and they can suggest further modifications if needed. As the whole process is automated, risk of errors is reduced. Administrative paperwork and data entry tasks will be automated due to tracking and connectivity. As a result, healthcare providers can engage themselves more in patient care. In traditional healthcare services, an individual used to have access to minimal insights into his own health. Hence, they were less conscious about themselves and depended wholly on the healthcare facilities for unfortunate events. But they can track their vitals, activities and fitness with the aid of connected devices now. Furthermore, they can suggest their preferred user interfaces. This paper describes several methods, practices and prototypes regarding IoT in the field of healthcare for women and children. | 翻訳日:2024-08-05 00:56:24 公開日:2024-07-14 |
# 高周波市場における強化学習
Reinforcement Learning in High-frequency Market Making ( http://arxiv.org/abs/2407.21025v1 ) ライセンス: Link先を確認 | Yuheng Zheng, Zihan Ding, | (参考訳) 本稿では、高周波市場形成における強化学習(RL)の適用に関する、新しい包括的理論的解析手法を確立する。
我々は、現代RL理論と高周波金融経済学における連続時間統計モデルを橋渡しする。
市場形成問題に対する様々なRL手法の開発に関する方法論研究に関する多くの文献とは異なり、我々の研究は理論的分析を提供するパイロットである。
我々はサンプリング周波数の効果を目標とし、時間インクリメント$\Delta$$-$が小さくなれば、エラーは小さくなるが、複雑さは大きくなる。
また、一般ゲームフレームワーク下での2人プレイヤケースについて検討し、ナッシュ均衡の連続時間ゲーム平衡への収束を$\Delta\rightarrow0$として確立する。
オンラインマルチエージェントRL法であるNash Q-learningアルゴリズムを適用し,その平衡を解く。
我々の理論は, サンプリング頻度を選択するだけでなく, 連続的マルコフ決定プロセスの時間分散化が採用される限り, その他の高周波金融決定問題にも適用可能である。
モンテカルロシミュレーションの証拠は、我々のすべての理論を支持している。
This paper establishes a new and comprehensive theoretical analysis for the application of reinforcement learning (RL) in high-frequency market making. We bridge the modern RL theory and the continuous-time statistical models in high-frequency financial economics. Different with most existing literature on methodological research about developing various RL methods for market making problem, our work is a pilot to provide the theoretical analysis. We target the effects of sampling frequency, and find an interesting tradeoff between error and complexity of RL algorithm when tweaking the values of the time increment $\Delta$ $-$ as $\Delta$ becomes smaller, the error will be smaller but the complexity will be larger. We also study the two-player case under the general-sum game framework and establish the convergence of Nash equilibrium to the continuous-time game equilibrium as $\Delta\rightarrow0$. The Nash Q-learning algorithm, which is an online multi-agent RL method, is applied to solve the equilibrium. Our theories are not only useful for practitioners to choose the sampling frequency, but also very general and applicable to other high-frequency financial decision making problems, e.g., optimal executions, as long as the time-discretization of a continuous-time markov decision process is adopted. Monte Carlo simulation evidence support all of our theories. | 翻訳日:2024-08-05 00:46:38 公開日:2024-07-14 |
# Al増備型セキュリティパイプラインにおける不確実性伝播のリスク
Risks of uncertainty propagation in Al-augmented security pipelines ( http://arxiv.org/abs/2407.14540v1 ) ライセンス: Link先を確認 | Emanuele Mezzi, Aurora Papotti, Fabio Massacci, Katja Tuma, | (参考訳) AI技術の使用は、AIベースのサブシステム(パフォーマンスが不確実な)を自動パイプラインに構成する傾向が強まり、ソフトウェアベースのシステムのセキュアな開発に浸透している。
これは、基本的な研究課題を示し、安全に重要な領域(航空など)に深刻な脅威をもたらす。
リスク分析における不確実性に関する既存の知識にもかかわらず、パイプライン内のエラーの伝播を考慮すると、AIが強化したシステムの不確実性を推定する以前の研究は行われていない。
本研究では,不確かさの伝播を把握し,不確かさを定量化するためのシミュレータを開発し,また2つのケーススタディで誤りの伝播シミュレーションを評価する。
本稿では,我々のアプローチの一般化可能性と,航空に対する政策含意と勧告について論じる。
今後の作業には、アプローチの拡張と、航空分野の検証に必要なメトリクスの調査が含まれる。
The use of AI technologies is percolating into the secure development of software-based systems, with an increasing trend of composing AI-based subsystems (with uncertain levels of performance) into automated pipelines. This presents a fundamental research challenge and poses a serious threat to safety-critical domains (e.g., aviation). Despite the existing knowledge about uncertainty in risk analysis, no previous work has estimated the uncertainty of AI-augmented systems given the propagation of errors in the pipeline. We provide the formal underpinnings for capturing uncertainty propagation, develop a simulator to quantify uncertainty, and evaluate the simulation of propagating errors with two case studies. We discuss the generalizability of our approach and present policy implications and recommendations for aviation. Future work includes extending the approach and investigating the required metrics for validation in the aviation domain. | 翻訳日:2024-07-28 18:39:09 公開日:2024-07-14 |
# プログラミングコースにおけるAIチュータの統合
Integrating AI Tutors in a Programming Course ( http://arxiv.org/abs/2407.15718v1 ) ライセンス: Link先を確認 | Iris Ma, Alberto Krone Martins, Cristina Videira Lopes, | (参考訳) RAGManはLLMベースのチューターシステムで、様々なコース特化および宿題特化AIチューターをサポートする。
RAGManは、Retrieval Augmented Generation(RAG)と厳格な命令を活用して、AI教師のレスポンスのアライメントを保証する。
RAGManのAIチューターを使用することで、生徒は直接ソリューションを得ることなく、特定の宿題の支援を受けると同時に、一般的なプログラミング関連の質問をすることができる。
RAGManは455人の学生が入学する入門プログラムコースでオプションのリソースとしてデプロイされた。
それは5つの宿題に特化したAI家庭教師のセットとして構成された。
本稿では,AI教師とのインタラクション,学生のフィードバック,および比較グレード分析について述べる。
全体としては、学生の約半数がAI家庭教師に携わり、インタラクションの大部分は正統な宿題に関する質問だった。
学生が意図した範囲内で質問をしたとき、AI教師は98%の正確な回答を出した。
学生の78%は、教師が学習を助けたと報告している。
学生は、AI教師が有意義な提案を提供する能力の他に、安全な学習環境を判断なしで育てることに感謝していると報告した。
RAGMan is an LLM-powered tutoring system that can support a variety of course-specific and homework-specific AI tutors. RAGMan leverages Retrieval Augmented Generation (RAG), as well as strict instructions, to ensure the alignment of the AI tutors' responses. By using RAGMan's AI tutors, students receive assistance with their specific homework assignments without directly obtaining solutions, while also having the ability to ask general programming-related questions. RAGMan was deployed as an optional resource in an introductory programming course with an enrollment of 455 students. It was configured as a set of five homework-specific AI tutors. This paper describes the interactions the students had with the AI tutors, the students' feedback, and a comparative grade analysis. Overall, about half of the students engaged with the AI tutors, and the vast majority of the interactions were legitimate homework questions. When students posed questions within the intended scope, the AI tutors delivered accurate responses 98% of the time. Within the students used AI tutors, 78% reported that the tutors helped their learning. Beyond AI tutors' ability to provide valuable suggestions, students reported appreciating them for fostering a safe learning environment free from judgment. | 翻訳日:2024-07-28 18:29:13 公開日:2024-07-14 |
# ドメインシフトによる適応型細胞認識の再検討:文脈対応的視点
Revisiting Adaptive Cellular Recognition Under Domain Shifts: A Contextual Correspondence View ( http://arxiv.org/abs/2407.12870v1 ) ライセンス: Link先を確認 | Jianan Fan, Dongnan Liu, Canran Li, Hang Chang, Heng Huang, Filip Braet, Mei Chen, Weidong Cai, | (参考訳) 細胞核認識は、デジタル病理学のワークフローにおける基本的かつ重要なステップである。
しかし、異なるソース臓器と組織像クラスター間の染色処理により、スキャンされたタイルは本質的に一様でないデータ分布に適合し、一般的なクロスコホートの使用に対する劣化した約束を誘導する。
分布差を緩和するためにドメイン適応を活用する最新の試みにもかかわらず、これらの手法は腫瘍の微小環境全体にわたる階層的潜在構造と固有の文脈対応を無視して、各細胞の形態的特性を個別にモデル化する。
そこで本研究では,ドメイン不変の病理組成を利用した生物学的文脈における暗黙の対応の重要性を同定し,ドメイン適応型細胞認識のための様々な生物学的構造への依存性を活用することを提案する。
我々は、教師なしの文脈モデリングを通してこれらの高レベル対応を発見し、様々な臓器や染色への適応を促進するために橋として使用する。
さらに、核コミュニティに埋め込まれた豊かな空間的文脈をさらに活用するために、異なるモデル構成体間でのインスタンス認識トレードオフを確保するための自己適応型動的蒸留を提案する。
提案手法は,様々なデータ分散シフトの下で,広い範囲のクロスドメイン設定で広範に評価され,最先端の手法よりも実質的なマージンで性能が向上する。
Cellular nuclei recognition serves as a fundamental and essential step in the workflow of digital pathology. However, with disparate source organs and staining procedures among histology image clusters, the scanned tiles inherently conform to a non-uniform data distribution, which induces deteriorated promises for general cross-cohort usages. Despite the latest efforts leveraging domain adaptation to mitigate distributional discrepancy, those methods are subjected to modeling the morphological characteristics of each cell individually, disregarding the hierarchical latent structure and intrinsic contextual correspondences across the tumor micro-environment. In this work, we identify the importance of implicit correspondences across biological contexts for exploiting domain-invariant pathological composition and thereby propose to exploit the dependence over various biological structures for domain adaptive cellular recognition. We discover those high-level correspondences via unsupervised contextual modeling and use them as bridges to facilitate adaptation over diverse organs and stains. In addition, to further exploit the rich spatial contexts embedded amongst nuclear communities, we propose self-adaptive dynamic distillation to secure instance-aware trade-offs across different model constituents. The proposed method is extensively evaluated on a broad spectrum of cross-domain settings under miscellaneous data distribution shifts and outperforms the state-of-the-art methods by a substantial margin. | 翻訳日:2024-07-19 20:02:37 公開日:2024-07-14 |
# Cycle Index Polynomials and Generalized Quantum Separability Tests
Cycle Index Polynomials and Generalized Quantum Separability Tests ( http://arxiv.org/abs/2208.14596v3 ) ライセンス: Link先を確認 | Zachary P. Bradshaw, Margarite L. LaBorde, Mark M. Wilde, | (参考訳) 純粋な二分項状態の1つのシェアの混合性は、全体状態が分離可能でアンタングル状態であるかどうかを決定する。
ここでは、混合性の量子計算テストを検討し、状態のコピー数が大きくなるにつれて、そのようなテストの受け入れ確率の正確な表現を導出する。
この式の分析形式は対称群 $S_k$ のサイクル指数多項式によって与えられることを証明している。
その後、量子分離性テストの族を導出し、それぞれが有限群によって生成され、そのようなアルゴリズムに対して、受容確率は群のサイクル指数多項式によって決定されることを示す。
最後に、これらのテストのための明示的な回路構成を作成し解析し、それぞれ$O(k^2)$と$O(k\log(k))$制御SWAPゲートで対称群と巡回群に対応するテストを実行可能であることを示す。
The mixedness of one share of a pure bipartite state determines whether the overall state is a separable, unentangled state. Here we consider quantum computational tests of mixedness, and we derive an exact expression of the acceptance probability of such tests as the number of copies of the state becomes larger. We prove that the analytical form of this expression is given by the cycle index polynomial of the symmetric group $S_k$, which is itself related to the Bell polynomials. After doing so, we derive a family of quantum separability tests, each of which is generated by a finite group; for all such algorithms, we show that the acceptance probability is determined by the cycle index polynomial of the group. Finally, we produce and analyze explicit circuit constructions for these tests, showing that the tests corresponding to the symmetric and cyclic groups can be executed with $O(k^2)$ and $O(k\log(k))$ controlled-SWAP gates, respectively, where $k$ is the number of copies of the state being tested. | 翻訳日:2024-07-18 00:30:09 公開日:2024-07-14 |
# SpreadFGL:Adaptive Neighbor Generationによるエッジクライアント協調グラフ学習
SpreadFGL: Edge-Client Collaborative Federated Graph Learning with Adaptive Neighbor Generation ( http://arxiv.org/abs/2407.11085v1 ) ライセンス: Link先を確認 | Luying Zhong, Yueyang Pi, Zheyi Chen, Zhengxin Yu, Wang Miao, Xing Chen, Geyong Min, | (参考訳) Federated Graph Learning (FGL)は、半教師付き分類タスクのための複数のクライアントでの協調トレーニングを可能にすることで、広く注目を集めている。
しかし、既存のFGL研究の多くは、実際のシナリオにおけるクライアント間トポロジー情報の欠如を十分に考慮していない。
さらに、古典的なFGLは一般的にFedAvgを採用するが、クライアントの数が増えると高いトレーニングコストが無視され、単一のエッジサーバがオーバーロードされる。
これらの課題に対処するため、エッジ・クライアント間のコラボレーションにおける情報フローを促進し、クライアント間のより一般化された潜在的な関係を抽出する新しいFGLフレームワークSpreadFGLを提案する。
SpreadFGLでは、多目的評価器を組み込んだ適応グラフ計算生成器が、生データを共有することなく、まずサブグラフ間の潜在的なリンクを利用するように設計されている。
次に、SpreadFGLが下流タスクでより洗練された情報に集中できるように、新しいネガティブサンプリング機構を開発した。
エッジ層でのロードバランシングを容易にするために、SpreadFGLは、高速なモデル収束を可能にする分散トレーニング方法に従っている。
実世界のテストベッドとベンチマークグラフデータセットを使用して、提案したSpreadFGLの有効性を広範な実験で実証した。
その結果、SpreadFGLは最先端のアルゴリズムに対して精度が高く、より高速な収束を実現することがわかった。
Federated Graph Learning (FGL) has garnered widespread attention by enabling collaborative training on multiple clients for semi-supervised classification tasks. However, most existing FGL studies do not well consider the missing inter-client topology information in real-world scenarios, causing insufficient feature aggregation of multi-hop neighbor clients during model training. Moreover, the classic FGL commonly adopts the FedAvg but neglects the high training costs when the number of clients expands, resulting in the overload of a single edge server. To address these important challenges, we propose a novel FGL framework, named SpreadFGL, to promote the information flow in edge-client collaboration and extract more generalized potential relationships between clients. In SpreadFGL, an adaptive graph imputation generator incorporated with a versatile assessor is first designed to exploit the potential links between subgraphs, without sharing raw data. Next, a new negative sampling mechanism is developed to make SpreadFGL concentrate on more refined information in downstream tasks. To facilitate load balancing at the edge layer, SpreadFGL follows a distributed training manner that enables fast model convergence. Using real-world testbed and benchmark graph datasets, extensive experiments demonstrate the effectiveness of the proposed SpreadFGL. The results show that SpreadFGL achieves higher accuracy and faster convergence against state-of-the-art algorithms. | 翻訳日:2024-07-17 20:00:37 公開日:2024-07-14 |
# 分子特性予測の促進を目的としたフラクショナルデノイングによる事前学習
Pre-training with Fractional Denoising to Enhance Molecular Property Prediction ( http://arxiv.org/abs/2407.11086v1 ) ライセンス: Link先を確認 | Yuyan Ni, Shikun Feng, Xin Hong, Yuancheng Sun, Wei-Ying Ma, Zhi-Ming Ma, Qiwei Ye, Yanyan Lan, | (参考訳) ディープラーニング法は、薬物発見と材料設計における分子スクリーニングの促進に有望であると考えられている。
ラベル付きデータの可用性が限られているため、様々な自己制御型分子事前学習法が提案されている。
多くの既存の手法はコンピュータビジョン(CV)や自然言語処理(NLP)で一般的な事前学習タスクを利用しているが、分子の基本的な物理原理を見落としていることが多い。
対照的に、事前学習におけるノイズの除去は等価な力学習と解釈できるが、限られたノイズ分布は分子分布にバイアスをもたらす。
この問題に対処するために,Frad ( fractional denoising) と呼ばれる分子事前学習フレームワークを導入する。
このように、ノイズはカスタマイズ可能となり、化学プリエントを組み込むことで分子分布モデリングを大幅に改善することができる。
実験により、我々のフレームワークは既存の手法を一貫して上回り、力の予測、量子化学特性、結合親和性タスクにまたがって最先端の結果を確立する。
改良されたノイズ設計は、物理的に一貫した分子表現の生成に寄与する力の精度とサンプリングカバレッジを高め、最終的には優れた予測性能をもたらす。
Deep learning methods have been considered promising for accelerating molecular screening in drug discovery and material design. Due to the limited availability of labelled data, various self-supervised molecular pre-training methods have been presented. While many existing methods utilize common pre-training tasks in computer vision (CV) and natural language processing (NLP), they often overlook the fundamental physical principles governing molecules. In contrast, applying denoising in pre-training can be interpreted as an equivalent force learning, but the limited noise distribution introduces bias into the molecular distribution. To address this issue, we introduce a molecular pre-training framework called fractional denoising (Frad), which decouples noise design from the constraints imposed by force learning equivalence. In this way, the noise becomes customizable, allowing for incorporating chemical priors to significantly improve molecular distribution modeling. Experiments demonstrate that our framework consistently outperforms existing methods, establishing state-of-the-art results across force prediction, quantum chemical properties, and binding affinity tasks. The refined noise design enhances force accuracy and sampling coverage, which contribute to the creation of physically consistent molecular representations, ultimately leading to superior predictive performance. | 翻訳日:2024-07-17 20:00:37 公開日:2024-07-14 |
# Restore-RWKV:RWKVを用いた効率的な医用画像修復
Restore-RWKV: Efficient and Effective Medical Image Restoration with RWKV ( http://arxiv.org/abs/2407.11087v1 ) ライセンス: Link先を確認 | Zhiwen Yang, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu, | (参考訳) トランスフォーマーは、医療画像の復元に革命をもたらしたが、この二次的な複雑さは、高解像度の医療画像への応用に制限を与えている。
最近のNLP分野におけるRWKVの出現は、長いシーケンスを効率的に処理できるため、多くの注目を集めている。
医用画像復元のためのRWKVモデルであるRestore-RWKVを提案する。
元のRWKVモデルは1次元シーケンス用に設計されているため、2次元画像における空間関係をモデル化するための2つの必要な修正を行う。
まず,線形計算複雑性を伴う大域的依存関係を捕捉する再帰的WKV(Re-WKV)アテンション機構を提案する。
Re-WKVは、グローバルな受容場の基本として双方向の注意を取り入れ、様々なスキャン方向からの2D依存を効果的にモデル化する。
第2に、全方向のトークンシフト(Omni-Shift)層を開発し、全方向から広いコンテキスト範囲にわたってトークンをシフトすることで、局所的な依存関係を高める。
これらの適応により、提案したRestore-RWKVは、医用画像復元の効率的かつ効果的なモデルとなる。
広範囲にわたる実験により、Restore-RWKVはMRI画像の超解像、CT画像のデノイング、PET画像合成、オールインワンの医用画像復元など、様々な医療用画像復元タスクにおいて優れた性能を発揮することが示された。
コードは以下の通り。 \href{https://github.com/Yaziwel/Restore-RWKV.git}{https://github.com/Yaziwel/Restore-RWKV}。
Transformers have revolutionized medical image restoration, but the quadratic complexity still poses limitations for their application to high-resolution medical images. The recent advent of RWKV in the NLP field has attracted much attention as it can process long sequences efficiently. To leverage its advanced design, we propose Restore-RWKV, the first RWKV-based model for medical image restoration. Since the original RWKV model is designed for 1D sequences, we make two necessary modifications for modeling spatial relations in 2D images. First, we present a recurrent WKV (Re-WKV) attention mechanism that captures global dependencies with linear computational complexity. Re-WKV incorporates bidirectional attention as basic for a global receptive field and recurrent attention to effectively model 2D dependencies from various scan directions. Second, we develop an omnidirectional token shift (Omni-Shift) layer that enhances local dependencies by shifting tokens from all directions and across a wide context range. These adaptations make the proposed Restore-RWKV an efficient and effective model for medical image restoration. Extensive experiments demonstrate that Restore-RWKV achieves superior performance across various medical image restoration tasks, including MRI image super-resolution, CT image denoising, PET image synthesis, and all-in-one medical image restoration. Code is available at: \href{https://github.com/Yaziwel/Restore-RWKV.git}{https://github.com/Yaziwel/Restore-RWKV}. | 翻訳日:2024-07-17 20:00:37 公開日:2024-07-14 |
# 説明可能な銀行失敗予測モデル:失敗リスクの低減のための非現実的説明
Explainable bank failure prediction models: Counterfactual explanations to reduce the failure risk ( http://arxiv.org/abs/2407.11089v1 ) ライセンス: Link先を確認 | Seyma Gunonu, Gizem Altun, Mustafa Cavus, | (参考訳) 銀行失敗予測モデルの正確性と理解性が重要である。
ロジスティック回帰のような解釈可能なモデルは、その説明可能性に好まれるが、ランダムフォレスト、サポートベクターマシン、ディープラーニングのような複雑なモデルは、高い予測性能を提供するが、説明容易性は低い。
ブラックボックスとして知られるこれらのモデルは、実用的な洞察を導き出すことを困難にしている。
この課題に対処するためには, 対実的な説明を用いることが提案されている。
これらの説明は、入力変数の変化がモデル出力を変化させる方法を示し、銀行の失敗リスクを軽減する方法を提案する。
重要な課題は、有効性、近接性、疎通性、そして妥当性を示す有用な偽物を生成するための最も効果的な方法を選択することである。
本稿は,「WhatIf」,「Multi Objective」,「Nearest Instance Counterfactual Explanation」,「WhatIf」,「Nearest Instance Counterfactual Explanation」,「WhatIf」,「WhatIf」,「WhatIf」,「WhatIf」,「Nearest Instance Counterfactual Explanation」を評価。
提案手法は, コストセンシティブな手法を中心に, 高い品質の対実説明を導出することを示す。
総合的に、多目的対実的および最も近い対実的説明法は、妥当性、近接性、および疎性に関する他の指標よりも優れており、コストセンシティブなアプローチは最も望ましい対実的説明を提供する。
これらの知見は、異なるバランス戦略と機械学習モデルにまたがる反ファクト生成手法の性能の変動を強調し、ブラックボックスバンクの故障予測モデルの有用性を高めるための貴重な戦略を提供する。
The accuracy and understandability of bank failure prediction models are crucial. While interpretable models like logistic regression are favored for their explainability, complex models such as random forest, support vector machines, and deep learning offer higher predictive performance but lower explainability. These models, known as black boxes, make it difficult to derive actionable insights. To address this challenge, using counterfactual explanations is suggested. These explanations demonstrate how changes in input variables can alter the model output and suggest ways to mitigate bank failure risk. The key challenge lies in selecting the most effective method for generating useful counterfactuals, which should demonstrate validity, proximity, sparsity, and plausibility. The paper evaluates several counterfactual generation methods: WhatIf, Multi Objective, and Nearest Instance Counterfactual Explanation, and also explores resampling methods like undersampling, oversampling, SMOTE, and the cost sensitive approach to address data imbalance in bank failure prediction in the US. The results indicate that the Nearest Instance Counterfactual Explanation method yields higher quality counterfactual explanations, mainly using the cost sensitive approach. Overall, the Multi Objective Counterfactual and Nearest Instance Counterfactual Explanation methods outperform others regarding validity, proximity, and sparsity metrics, with the cost sensitive approach providing the most desirable counterfactual explanations. These findings highlight the variability in the performance of counterfactual generation methods across different balancing strategies and machine learning models, offering valuable strategies to enhance the utility of black box bank failure prediction models. | 翻訳日:2024-07-17 19:50:53 公開日:2024-07-14 |
# 深層学習活性化関数:固定形、パラメトリック、適応型、確率型、雑多型、非標準型、アンサンブル
Deep Learning Activation Functions: Fixed-Shape, Parametric, Adaptive, Stochastic, Miscellaneous, Non-Standard, Ensemble ( http://arxiv.org/abs/2407.11090v1 ) ライセンス: Link先を確認 | M. M. Hammad, | (参考訳) 生物学的ニューロンにインスパイアされたディープラーニングモデルのアーキテクチャでは、活性化機能(AF)が重要な役割を果たす。
人工ニューラルネットワークの性能に大きな影響を及ぼす。
複雑なパターンを学習するのに不可欠な非線形特性を調節することにより、AFは分類と回帰の両方において基礎となる。
本稿では, 固定形, パラメトリック, 適応型, 確率・確率型, 非標準型, アンサンブル/組合わせ型など, 様々な種類のAFについて概観する。
組織分類と詳細な分類の枠組みから始まり、AFの主な特徴を規定し、それらの構造的・機能的区別に基づいてそれらを整理する。
我々はSigmoid-based、ReLU-based、ELU-based AFsといった主要なグループについて詳細な分析を行い、それらの理論的基礎、数学的定式化、異なる文脈における特定の利益と制限について論じている。
また、出力範囲、単調性、滑らかさなどのAFのキー属性も強調する。
さらに,これらのカテゴリに適合しないが,特殊用途に特有な優位性を示した異種AFについて検討する。
非標準AFも検討され、従来のパラダイムに挑戦し、適応性とモデル性能を向上させる最先端のバリエーションを示している。
相補的特性を利用するために複数のAFを組み合わせる戦略を検討する。
本研究は, 厳密な統計的および実験的手法を用いて, 12種類の最先端AFを比較検討し, その有効性について検討した。
この分析は、実践者が特定のディープラーニングタスクに対して最適なAFを選択し設計するのを助けるだけでなく、機械学習コミュニティにおけるAF開発における継続的なイノベーションを促進する。
In the architecture of deep learning models, inspired by biological neurons, activation functions (AFs) play a pivotal role. They significantly influence the performance of artificial neural networks. By modulating the non-linear properties essential for learning complex patterns, AFs are fundamental in both classification and regression tasks. This paper presents a comprehensive review of various types of AFs, including fixed-shape, parametric, adaptive, stochastic/probabilistic, non-standard, and ensemble/combining types. We begin with a systematic taxonomy and detailed classification frameworks that delineates the principal characteristics of AFs and organizes them based on their structural and functional distinctions. Our in-depth analysis covers primary groups such as sigmoid-based, ReLU-based, and ELU-based AFs, discussing their theoretical foundations, mathematical formulations, and specific benefits and limitations in different contexts. We also highlight key attributes of AFs such as output range, monotonicity, and smoothness. Furthermore, we explore miscellaneous AFs that do not conform to these categories but have shown unique advantages in specialized applications. Non-standard AFs are also explored, showcasing cutting-edge variations that challenge traditional paradigms and offer enhanced adaptability and model performance. We examine strategies for combining multiple AFs to leverage complementary properties. The paper concludes with a comparative evaluation of 12 state-of-the-art AFs, using rigorous statistical and experimental methodologies to assess their efficacy. This analysis not only aids practitioners in selecting and designing the most appropriate AFs for their specific deep learning tasks but also encourages continued innovation in AF development within the machine learning community. | 翻訳日:2024-07-17 19:50:53 公開日:2024-07-14 |
# SENTINEL: カプセルニューラルネットワークによる敵攻撃に対する屋内局所性の確保
SENTINEL: Securing Indoor Localization against Adversarial Attacks with Capsule Neural Networks ( http://arxiv.org/abs/2407.11091v1 ) ライセンス: Link先を確認 | Danish Gufran, Pooja Anandathirtha, Sudeep Pasricha, | (参考訳) 屋内環境におけるエッジデバイスによる位置情報サービスへの需要が高まっているため、GPSが屋内で利用できないため、Wi-Fiは信号強度(RSS)指紋認証が普及している。
しかし、屋内環境の動的変化によるRSS変動とエッジデバイスの不均一性により、ロバストで効率的な屋内局所化を実現するには、いくつかの課題がある。
機械学習(ML)の進歩は、これらの現象を緩和する可能性を示しているが、依然として未解決の問題である。
さらに、MLに強化された屋内ローカライゼーションシステム、特に悪意あるまたは悪質なアクセスポイント(AP)によって導入された攻撃による新興脅威は、ローカライゼーションエラーをさらに増大させるためにMLモデルを欺くことができる。
これらの課題に対処するために、SENTINELは、改良型カプセルニューラルネットワークを利用して、敵攻撃、デバイス不均一性、動的RSS変動に対する屋内局在化ソリューションのレジリエンスを高める、新しい組込みMLフレームワークである。
RSSRogueLocは、複数の屋内環境からのローグAPの効果を抽出する新しいデータセットである。
実験により、SENTINELは、シミュレーションされた敵攻撃を用いた最先端フレームワークと比較して、平均誤差が3.5倍、最悪のケースエラーが3.4倍の大幅な改善を実現していることが示された。
SENTINELは、現実のRSSRogueLocデータセットで評価した場合、最先端のフレームワークと比較して平均エラーの2.8倍、最悪のエラーの2.7倍の改善も達成している。
With the increasing demand for edge device powered location-based services in indoor environments, Wi-Fi received signal strength (RSS) fingerprinting has become popular, given the unavailability of GPS indoors. However, achieving robust and efficient indoor localization faces several challenges, due to RSS fluctuations from dynamic changes in indoor environments and heterogeneity of edge devices, leading to diminished localization accuracy. While advances in machine learning (ML) have shown promise in mitigating these phenomena, it remains an open problem. Additionally, emerging threats from adversarial attacks on ML-enhanced indoor localization systems, especially those introduced by malicious or rogue access points (APs), can deceive ML models to further increase localization errors. To address these challenges, we present SENTINEL, a novel embedded ML framework utilizing modified capsule neural networks to bolster the resilience of indoor localization solutions against adversarial attacks, device heterogeneity, and dynamic RSS fluctuations. We also introduce RSSRogueLoc, a novel dataset capturing the effects of rogue APs from several real-world indoor environments. Experimental evaluations demonstrate that SENTINEL achieves significant improvements, with up to 3.5x reduction in mean error and 3.4x reduction in worst-case error compared to state-of-the-art frameworks using simulated adversarial attacks. SENTINEL also achieves improvements of up to 2.8x in mean error and 2.7x in worst-case error compared to state-of-the-art frameworks when evaluated with the real-world RSSRogueLoc dataset. | 翻訳日:2024-07-17 19:50:52 公開日:2024-07-14 |
# イベント地平線情報復号化のためのディープラーニングアーキテクチャ
Deep learning architecture for decrypting information on the event horizon ( http://arxiv.org/abs/2012.06441v7 ) ライセンス: Link先を確認 | Hyunju Go, | (参考訳) t Hooft によれば、ポアンカル・エ群の下でホログラフィックな設定で不変性を取り戻すためには、与えられた曲面に直交する方向の進化法則と時間発展法則は可換である。
可換性の条件は、与えられた表面と対象表面の時間進化則が同じであると仮定する。
一方、AdS/CFT対応は、ブラックホールの地平線から共形境界への写像が存在することを意味する。
本稿では、熱平衡における大きなAdSブラックホールにおいて、この写像と時間進化法則は無限体積極限から導かれる性質を用いて可換であると推測する。
また,この可換性をホログラフィック設定で仮定すると,AdS/CFT対応の文脈で計算モデルを提供する。
具体的には、深層学習アルゴリズムを用いて、AdSブラックホールの事象の地平線に関する情報がどのように整合境界に復号されるかを示すモデルを見つける。
可換性とAdS/CFTを組み合わせることで、共形境界がホログラフィックスクリーンを実装しているという見解を超えて、イベント水平線上の情報片が共形境界上の情報片にどのように変換されるかの手がかりを見つけることができる。
According to 't Hooft, to recover the invariance under the Poincar\'e group in a holographic setting, the evolution law for the direction orthogonal to the given surface and the time evolution law must commute. The condition of commutativity assumes that the time-evolution law on the given surface and the target surface is the same. Meanwhile, the AdS/CFT correspondence implies that there exists a mapping from the black hole horizon to the conformal boundary. In this paper, it is conjectured that in a large AdS black hole in thermal equilibrium, this mapping and the time-evolution law will commute using the properties derived from the infinite volume limit. Also, we provide a computational model in the context of AdS/CFT correspondance assuming this commutativity in a holographic setting. Specifically, we will use deep learning algorithms to find a model that tells us how pieces of information on the event horizon of an AdS black hole are decrypted into conformal boundary. By combining commutativity with AdS/CFT, we might move beyond the view that the conformal boundary implements the holographic screen and find clues about how information pieces on the event horizon are transformed into information pieces on the conformal boundary | 翻訳日:2024-07-17 05:46:45 公開日:2024-07-14 |
# 曲面符号とツイストのグラフに基づく定式化
A graph-based formalism for surface codes and twists ( http://arxiv.org/abs/2101.09349v3 ) ライセンス: Link先を確認 | Rahul Sarkar, Theodore J. Yoder, | (参考訳) 表面符号の2つの欠陥は、より論理的な量子ビットのエンコード、コードレートの改善、論理ゲートの実装に利用できる。
この研究において、我々は、CSS曲面を記述するために、Kitaevによって導入されたよく定義されたホモロジー形式主義を一般化するツイストで曲面コードを構築するための厳密な形式主義を提供する。
特に、曲面コードを \emph{any} グラフ $G$ を \emph{any} 2D-多様体上に埋め込み、(1) キュービットがグラフの頂点に関連付けられ、(2) スタビライザーが面に関連付けられ、(3) ツイスト欠陥が奇数の頂点に関連付けられているように関連付ける。
このようにして、文学において、ツイストを伴わずとも様々な曲面符号を再現し、いくつかの新しい例を作成できる。
また,種数,シストル,面幅などのトポロジカルグラフ特性の観点から,速度や距離などの様々な符号特性を計算・バウンドする。
Twist defects in surface codes can be used to encode more logical qubits, improve the code rate, and implement logical gates. In this work we provide a rigorous formalism for constructing surface codes with twists generalizing the well-defined homological formalism introduced by Kitaev for describing CSS surface codes. In particular, we associate a surface code to \emph{any} graph $G$ embedded on \emph{any} 2D-manifold, in such a way that (1) qubits are associated to the vertices of the graph, (2) stabilizers are associated to faces, (3) twist defects are associated to odd-degree vertices. In this way, we are able to reproduce the variety of surface codes, with and without twists, in the literature and produce some new examples. We also calculate and bound various code properties such as the rate and distance in terms of topological graph properties such as genus, systole, and face-width. | 翻訳日:2024-07-17 05:46:45 公開日:2024-07-14 |
# スマートウォッチでハンドウォッシングを正確に評価する
You Can Wash Hands Better: Accurate Daily Handwashing Assessment with Smartwatches ( http://arxiv.org/abs/2112.06657v2 ) ライセンス: Link先を確認 | Fei Wang, Xilei Wu, Xin Wang, Han Ding, Jingang Shi, Jinsong Han, Dong Huang, | (参考訳) ハンド衛生は、インフルエンザ、マラリア、皮膚感染症などの感染症を予防するための最も効率的な日々の行動の1つである。
ウイルス感染防止の専門的ガイドラインの下で手を洗うことを提案されている。
しかし、いくつかの調査では、この提案に従う人はごくわずかである。
そこで我々は,スマートウォッチを用いたウェアラブルソリューションであるUWashを提案し,ユーザの意識を高め,高品質なハンドウォッシングの習慣を育むためにハンドウォッシング手順を評価する。
コンピュータビジョンにおけるアクションセグメンテーション問題と類似した動作センサの読み出しによるハンドウォッシング評価の課題に対処し、それを効果的に実現するためのシンプルで軽量な2ストリームUNet風ネットワークを提案する。
51名以上の実験から,UWashは手洗いジェスチャー認識の精度92.27%,オンセット/オフセット検出の<0.5秒エラー,ユーザ依存設定のジェスチャースコアリングの<5ポイントエラーを達成し,ユーザ非依存評価とユーザ非依存位置非依存評価を継続することが示された。
UWashは、9ヶ月後に病院で10人の無作為な通行人でもうまく機能する。
UWashは、ジェスチャーのシーケンスによってハンドウォッシングの質を評価する最初の作品であり、日常生活における手衛生の促進を指導するための指導である。
code and data are avaliable at https://github.com/aiotgroup/UWash
Hand hygiene is one of the most efficient daily actions to prevent infectious diseases, such as Influenza, Malaria, and skin infections. We have been suggested to wash our hands under professional guidelines to prevent virus infection. However, several surveys show that very few people follow this suggestion. Thus we propose UWash, a wearable solution with smartwatches, to assess handwashing procedures for the purpose of raising users' awareness and cultivating habits of high-quality handwashing. We address the task of handwashing assessment from readings of motion sensors similar to the action segmentation problem in computer vision, and propose a simple and lightweight two-stream UNet-like network to achieve it effectively. Experiments over 51 subjects show that UWash achieves an accuracy of 92.27% on handwashing gesture recognition, <0.5 seconds error on onset/offset detection, and <5 points error on gesture scoring in the user-dependent setting, and keeps promising in the user-independent evaluation and the user-independent-location-independent evaluation. UWash even performs well on 10 random passersby in a hospital 9 months later. UWash is the first work that scores the handwashing quality by gesture sequences and is instructive to guide users in promoting hand hygiene in daily life. Code and data are avaliable at https://github.com/aiotgroup/UWash | 翻訳日:2024-07-17 05:46:45 公開日:2024-07-14 |
# 自然言語生成における幻覚の実態調査
Survey of Hallucination in Natural Language Generation ( http://arxiv.org/abs/2202.03629v7 ) ライセンス: Link先を確認 | Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Yejin Bang, Delong Chen, Wenliang Dai, Ho Shu Chan, Andrea Madotto, Pascale Fung, | (参考訳) 自然言語生成(NLG)は、Transformerベースの言語モデルのようなシーケンスからシーケンスへの深層学習技術の開発により、近年指数関数的に改善されている。
この進歩により、より流動的でコヒーレントなNLGが実現され、抽象的な要約、対話生成、データ・トゥ・テキスト生成といった下流タスクの開発が改善された。
しかし、深層学習に基づく生成は意図しないテキストを幻覚させる傾向があり、システムの性能を低下させ、現実のシナリオの多くにおいてユーザの期待を満たさないことも明らかである。
この問題に対処するため、幻覚テキストの測定・緩和について多くの研究がなされてきたが、これらを総合的にレビューすることはなかった。
そこで本研究では,NLGの幻覚問題における研究の進展と課題について概説する。
調査は,(1)メトリクス,緩和方法,今後の方向性の概観,(2)抽象的要約,対話生成,生成的質問応答,データ・テキスト生成,機械翻訳,視覚言語生成,(3)大規模言語モデル(LLMs)における幻覚に関するタスク固有の研究成果の概観,の2つに分けられる。
この調査は、NLGにおける幻覚テキストの課題に取り組む研究者の協力活動を促進するのに役立つ。
Natural Language Generation (NLG) has improved exponentially in recent years thanks to the development of sequence-to-sequence deep learning technologies such as Transformer-based language models. This advancement has led to more fluent and coherent NLG, leading to improved development in downstream tasks such as abstractive summarization, dialogue generation and data-to-text generation. However, it is also apparent that deep learning based generation is prone to hallucinate unintended text, which degrades the system performance and fails to meet user expectations in many real-world scenarios. To address this issue, many studies have been presented in measuring and mitigating hallucinated texts, but these have never been reviewed in a comprehensive manner before. In this survey, we thus provide a broad overview of the research progress and challenges in the hallucination problem in NLG. The survey is organized into two parts: (1) a general overview of metrics, mitigation methods, and future directions; (2) an overview of task-specific research progress on hallucinations in the following downstream tasks, namely abstractive summarization, dialogue generation, generative question answering, data-to-text generation, machine translation, and visual-language generation; and (3) hallucinations in large language models (LLMs). This survey serves to facilitate collaborative efforts among researchers in tackling the challenge of hallucinated texts in NLG. | 翻訳日:2024-07-17 05:46:45 公開日:2024-07-14 |
# 脳腫瘍分離・分類のためのトポロジカル・オプティマイズド・コンボリューショナル・リカレント・ネットワーク
Topological Optimized Convolutional Visual Recurrent Network for Brain Tumor Segmentation and Classification ( http://arxiv.org/abs/2207.13021v2 ) ライセンス: Link先を確認 | Dhananjay Joshi, Bhupesh Kumar Singh, Kapil Kumar Nagwanshi, Nitin S. Choubey, | (参考訳) 今日の医療の世界では、脳腫瘍検出が一般的になっている。
しかし、手動脳腫瘍分類法は時間を要する。
そこで、ディープ・コンボリューショナル・ニューラル・ニューラルネットワーク(DCNN)は、医療分野の多くの研究者によって、正確な診断と患者の治療への補助のために使用されている。
従来のテクニックには、オーバーフィットや必要な特徴を抽出できないといった問題がある。
これらの問題を解決するため,我々は,TDA-IPHを用いたトポロジカルデータ解析と,Elephant Herding Optimization hyper-parameter tuning (CTVR-EHO)モデルを用いた畳み込み変換学習と視覚的リカレント学習を開発した。
当初、トポロジカルデータ解析に基づく改善された永続的ホモロジーは、脳腫瘍像をセグメント化するように設計されていた。
次に、セグメント画像から、AlexNetモデルとBidirectional Visual Long Short-Term Memory (Bi-VLSTM)を介してTLを用いて特徴を抽出する。
次に、象のハーディング最適化(EHO)を用いて、両方のネットワークのハイパーパラメータを調整し、最適な結果を得る。
最後に、抽出した特徴をソフトマックス活性化層を用いて連結分類する。
提案したCTVR-EHO法とTDA-IPH法のシミュレーション結果を,精度,精度,リコール,損失,Fスコアの指標に基づいて解析した。
他の既存の脳腫瘍の分類モデルと比較すると、提案されたCTVR-EHOおよびTDA-IPHアプローチは高い精度(99.8%)、高いリコール(99.23%)、高い精度(99.67%)、高いFスコア(99.59%)を示す。
In today's world of health care, brain tumor detection has become common. However, the manual brain tumor classification approach is time-consuming. So Deep Convolutional Neural Network (DCNN) is used by many researchers in the medical field for making accurate diagnoses and aiding in the patient's treatment. The traditional techniques have problems such as overfitting and the inability to extract necessary features. To overcome these problems, we developed the Topological Data Analysis based Improved Persistent Homology (TDA-IPH) and Convolutional Transfer learning and Visual Recurrent learning with Elephant Herding Optimization hyper-parameter tuning (CTVR-EHO) models for brain tumor segmentation and classification. Initially, the Topological Data Analysis based Improved Persistent Homology is designed to segment the brain tumor image. Then, from the segmented image, features are extracted using TL via the AlexNet model and Bidirectional Visual Long Short-Term Memory (Bi-VLSTM). Next, elephant Herding Optimization (EHO) is used to tune the hyperparameters of both networks to get an optimal result. Finally, extracted features are concatenated and classified using the softmax activation layer. The simulation result of this proposed CTVR-EHO and TDA-IPH method is analyzed based on precision, accuracy, recall, loss, and F score metrics. When compared to other existing brain tumor segmentation and classification models, the proposed CTVR-EHO and TDA-IPH approaches show high accuracy (99.8%), high recall (99.23%), high precision (99.67%), and high F score (99.59%). | 翻訳日:2024-07-17 05:46:45 公開日:2024-07-14 |
# 垂直的フェデレーション学習におけるプライバシ・ユーティリティのトレードオフ評価フレームワーク
A Framework for Evaluating Privacy-Utility Trade-off in Vertical Federated Learning ( http://arxiv.org/abs/2209.03885v3 ) ライセンス: Link先を確認 | Yan Kang, Jiahuan Luo, Yuanqin He, Xiaojin Zhang, Lixin Fan, Qiang Yang, | (参考訳) フェデレートラーニング(FL)は、ユーザのプライバシを損なうことなく、データサイロ問題に取り組むための実践的なソリューションとして登場した。
VFLは、より価値の高い機能を活用して、より優れた機械学習モデルを構築し、ユーザのプライバシを保存するという、企業の要求に適合するものだ。
VFLにおける現在の研究は、特定のVFLアルゴリズムの特定の保護または攻撃メカニズムの開発に集中している。
本研究では,プライバシ・ユーティリティ評価問題を定式化する評価フレームワークを提案する。
次に、このフレームワークを3つの広くデプロイされたVFLアルゴリズムに対する最先端のプライバシ攻撃に対して、幅広い保護メカニズムを包括的に評価するためのガイドとして使用します。
これらの評価は、FL実践者が特定の要件を満たす適切な保護メカニズムを選択するのに役立つかもしれない。
モデルインバージョンとラベル推論攻撃のほとんどが既存の保護機構によって抑制され,モデル完了(MC)攻撃の防止が困難であり,より高度なMC目標保護機構が要求される。
評価結果に基づいて,VFLシステムのプライバシ保護機能を改善するための具体的なアドバイスを提供する。
コードはhttps://github.com/yankang18/VFL-Attack-Defenseで公開されている。
Federated learning (FL) has emerged as a practical solution to tackle data silo issues without compromising user privacy. One of its variants, vertical federated learning (VFL), has recently gained increasing attention as the VFL matches the enterprises' demands of leveraging more valuable features to build better machine learning models while preserving user privacy. Current works in VFL concentrate on developing a specific protection or attack mechanism for a particular VFL algorithm. In this work, we propose an evaluation framework that formulates the privacy-utility evaluation problem. We then use this framework as a guide to comprehensively evaluate a broad range of protection mechanisms against most of the state-of-the-art privacy attacks for three widely deployed VFL algorithms. These evaluations may help FL practitioners select appropriate protection mechanisms given specific requirements. Our evaluation results demonstrate that: the model inversion and most of the label inference attacks can be thwarted by existing protection mechanisms; the model completion (MC) attack is difficult to be prevented, which calls for more advanced MC-targeted protection mechanisms. Based on our evaluation results, we offer concrete advice on improving the privacy-preserving capability of VFL systems. The code is available at https://github.com/yankang18/VFL-Attack-Defense | 翻訳日:2024-07-17 05:46:45 公開日:2024-07-14 |
# 患者退院指導における検索支援と知識獲得推論
Retrieval-Augmented Generation and Knowledge-Grounded Reasoning for Faithful Patient Discharge Instructions ( http://arxiv.org/abs/2210.12777v3 ) ライセンス: Link先を確認 | Fenglin Liu, Bang Yang, Chenyu You, Xian Wu, Shen Ge, Zhangdaihong Liu, Xu Sun, Yang Yang, David A. Clifton, | (参考訳) ChatGPTのような言語モデル(LM)は、臨床医が様々な臨床ノートを作成するのを助ける可能性がある。
しかし、LMは「ハロシン化」、すなわち事実や知識と一致しない生成コンテンツを生成する傾向にある。
本稿では,LMが忠実な臨床テキストを生成できるように,検索拡張生成と知識基底推論を備えたRe$^3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
患者の長期臨床文書、すなわち入院中の健康記録を理解するためには、介護者および退院時に患者に提供される重要な教育情報を生成する必要がある。
提案したRe$3$Writerは、医師の作業パターンを模倣して、医師が記述した歴史的指導から関連する作業経験を最初に取得し、その後、関連する医療知識を推論する。
最後に、検索した作業経験を洗練させ、医療知識を推論して有用な情報を抽出し、前例のない患者の退院指示を生成する。
実験により, 提案手法を用いて, 5つの異なるLMの性能を, 全測定値間で著しく向上させることができることがわかった。
一方,人間による評価の結果は,流布度,忠実度,包括性の観点から評価する。
コードはhttps://github.com/AI-in-Hospitals/Patient-Instructionsで公開されている。
Language models (LMs), such as ChatGPT, have the potential to assist clinicians in generating various clinical notes. However, LMs are prone to produce ``hallucinations'', i.e., generated content that is not aligned with facts and knowledge. In this paper, we propose the Re$^3$Writer method with retrieval-augmented generation and knowledge-grounded reasoning to enable LMs to generate faithful clinical texts. We demonstrate the effectiveness of our method in generating patient discharge instructions. It requires the LMs to understand the patients' long clinical documents, i.e., the health records during hospitalization, to generate critical instructional information provided both to carers and to the patient at the time of discharge. The proposed Re$^3$Writer imitates the working patterns of physicians to first retrieve related working experience from historical instructions written by physicians, then reason related medical knowledge. Finally, it refines the retrieved working experience and reasoned medical knowledge to extract useful information, which is used to generate the discharge instructions for previously-unseen patients. Our experiments show that, using our method, the performance of five different LMs can be substantially boosted across all metrics. Meanwhile, we show results from human evaluations to measure the effectiveness in terms of fluency, faithfulness, and comprehensiveness. The code is available at https://github.com/AI-in-Hospitals/Patient-Instructions | 翻訳日:2024-07-17 05:38:07 公開日:2024-07-14 |
# DiffBP:ターゲットタンパク質結合のための3次元分子の生成拡散
DiffBP: Generative Diffusion of 3D Molecules for Target Protein Binding ( http://arxiv.org/abs/2211.11214v4 ) ライセンス: Link先を確認 | Haitao Lin, Yufei Huang, Odin Zhang, Siqi Ma, Meng Liu, Xuanjing Li, Lirong Wu, Jishui Wang, Tingjun Hou, Stan Z. Li, | (参考訳) 特定のタンパク質に結合する分子の生成は、薬物発見において重要であるが難しい課題である。
従来の研究は通常、原子の要素タイプと3次元座標を1つずつ生成する自己回帰的な方法で原子を生成する。
しかし、現実世界の分子系では、分子全体の原子間の相互作用が大域的であり、原子間のエネルギー関数が結合する。
このようなエネルギーに基づく考察では、確率のモデリングは逐次条件付きではなく、共同分布に基づいて行うべきである。
したがって、分子生成の不自然な逐次自己回帰モデリングは、物理規則に反する可能性があり、結果として生成された分子の質が低下する。
本研究では, 標的タンパク質を標的タンパク質とする分子3次元構造の生成拡散モデルを構築し, 非自己回帰的に全原子レベルで解析する。
指定された3Dタンパク質結合部位を与えられたモデルでは、分子全体の要素タイプと3D座標の両方を同変ネットワークで認知する生成過程を学習する。
提案手法は, タンパク質との高親和性, 適切な分子サイズ, 生成分子の薬物類似性などの薬物特性などの観点から比較して, 競合性能を示す。
Generating molecules that bind to specific proteins is an important but challenging task in drug discovery. Previous works usually generate atoms in an auto-regressive way, where element types and 3D coordinates of atoms are generated one by one. However, in real-world molecular systems, the interactions among atoms in an entire molecule are global, leading to the energy function pair-coupled among atoms. With such energy-based consideration, the modeling of probability should be based on joint distributions, rather than sequentially conditional ones. Thus, the unnatural sequentially auto-regressive modeling of molecule generation is likely to violate the physical rules, thus resulting in poor properties of the generated molecules. In this work, a generative diffusion model for molecular 3D structures based on target proteins as contextual constraints is established, at a full-atom level in a non-autoregressive way. Given a designated 3D protein binding site, our model learns the generative process that denoises both element types and 3D coordinates of an entire molecule, with an equivariant network. Experimentally, the proposed method shows competitive performance compared with prevailing works in terms of high affinity with proteins and appropriate molecule sizes as well as other drug properties such as drug-likeness of the generated molecules. | 翻訳日:2024-07-17 05:38:07 公開日:2024-07-14 |
# 逆知識蒸留による高速ビデオ異常検出
Lightning Fast Video Anomaly Detection via Adversarial Knowledge Distillation ( http://arxiv.org/abs/2211.15597v3 ) ライセンス: Link先を確認 | Florinel-Alin Croitoru, Nicolae-Catalin Ristea, Dana Dascalescu, Radu Tudor Ionescu, Fahad Shahbaz Khan, Mubarak Shah, | (参考訳) 本稿では,複数の高精度な対象レベルの教師モデルから知識を抽出し,異常検出を学習する,ビデオ中の異常検出のための非常に高速なフレームレベルモデルを提案する。
学生の忠実度を向上させるために,教師の低分解能な異常マップを,標準と対角蒸留を併用して蒸留し,各教師に対して,目標と生成した異常マップを区別する対角ディミネータを導入する。
我々は3つのベンチマーク(Avenue, ShanghaiTech, UCSD Ped2)で実験を行い、我々の手法は最も高速な競合する手法の7倍以上高速で、オブジェクト中心のモデルよりも28~62倍高速であり、最近の手法に匹敵する結果が得られることを示した。
また,従来の1480FPSの低速化により,速度と精度のトレードオフが最良であることを示す。
さらに、アーキテクチャ設計の選択を正当化するための包括的なアブレーション研究を実施します。
私たちのコードは、https://github.com/ristea/fast-aed.comで無料で利用可能です。
We propose a very fast frame-level model for anomaly detection in video, which learns to detect anomalies by distilling knowledge from multiple highly accurate object-level teacher models. To improve the fidelity of our student, we distill the low-resolution anomaly maps of the teachers by jointly applying standard and adversarial distillation, introducing an adversarial discriminator for each teacher to distinguish between target and generated anomaly maps. We conduct experiments on three benchmarks (Avenue, ShanghaiTech, UCSD Ped2), showing that our method is over 7 times faster than the fastest competing method, and between 28 and 62 times faster than object-centric models, while obtaining comparable results to recent methods. Our evaluation also indicates that our model achieves the best trade-off between speed and accuracy, due to its previously unheard-of speed of 1480 FPS. In addition, we carry out a comprehensive ablation study to justify our architectural design choices. Our code is freely available at: https://github.com/ristea/fast-aed. | 翻訳日:2024-07-17 05:38:07 公開日:2024-07-14 |
# 自己指導型学習に関するサーベイ:アルゴリズム,応用,将来の動向
A Survey on Self-supervised Learning: Algorithms, Applications, and Future Trends ( http://arxiv.org/abs/2301.05712v4 ) ライセンス: Link先を確認 | Jie Gui, Tuo Chen, Jing Zhang, Qiong Cao, Zhenan Sun, Hao Luo, Dacheng Tao, | (参考訳) 深い教師付き学習アルゴリズムは通常、十分な性能を達成するために大量のラベル付きデータを必要とする。
しかし、そのようなデータの収集とラベル付けのプロセスは高価で時間を要する可能性がある。
教師なし学習のサブセットである自己教師付き学習(SSL)は、ラベル付きラベルに頼ることなくラベル付きデータから識別的特徴を学習することを目的としている。
SSLは最近大きな注目を集め、多くの関連するアルゴリズムの開発に繋がった。
しかし、さまざまなSSL変異体の接続と進化を解明する包括的な研究が数多く存在する。
本稿では,アルゴリズム的側面,アプリケーション領域,3つの重要なトレンド,オープンな研究課題を含む,多様なSSL手法のレビューを行う。
まず、ほとんどのSSLアルゴリズムの背後にあるモチベーションの詳細を紹介し、それらの共通点と相違点を比較します。
次に、画像処理、コンピュータビジョン、自然言語処理などの領域におけるSSLの代表的な応用について検討する。
最後に、SSL研究で観察される3つの主要なトレンドについて論じ、残るオープンな疑問を強調します。
貴重なリソースのキュレートされたコレクションは、https://github.com/guijiejie/SSLでアクセスすることができる。
Deep supervised learning algorithms typically require a large volume of labeled data to achieve satisfactory performance. However, the process of collecting and labeling such data can be expensive and time-consuming. Self-supervised learning (SSL), a subset of unsupervised learning, aims to learn discriminative features from unlabeled data without relying on human-annotated labels. SSL has garnered significant attention recently, leading to the development of numerous related algorithms. However, there is a dearth of comprehensive studies that elucidate the connections and evolution of different SSL variants. This paper presents a review of diverse SSL methods, encompassing algorithmic aspects, application domains, three key trends, and open research questions. Firstly, we provide a detailed introduction to the motivations behind most SSL algorithms and compare their commonalities and differences. Secondly, we explore representative applications of SSL in domains such as image processing, computer vision, and natural language processing. Lastly, we discuss the three primary trends observed in SSL research and highlight the open questions that remain. A curated collection of valuable resources can be accessed at https://github.com/guijiejie/SSL. | 翻訳日:2024-07-17 05:38:07 公開日:2024-07-14 |
# 有限温度簡易平面磁性によるスケーラブルスピンスクイーズ
Scalable Spin Squeezing from Finite Temperature Easy-plane Magnetism ( http://arxiv.org/abs/2301.09636v2 ) ライセンス: Link先を確認 | Maxwell Block, Bingtian Ye, Brenden Roberts, Sabrina Chern, Weijie Wu, Zilin Wang, Lode Pollet, Emily J. Davis, Bertrand I. Halperin, Norman Y. Yao, | (参考訳) スピンスクイーズ(英: Spin squeezing)は、量子射影雑音を再現して測定精度を向上させるエンタングルメントの一種である。
ここでは、有限温度、簡単な平面強磁性を示すハミルトニアンは、スケーラブルなスピンスクイーズを生成するために使用することができ、量子増強センシングを可能にする。
我々の予想は、純粋状態の量子フィッシャー情報と連続対称性の自発的破壊の間の接続によって導かれる。
スピンスクイージングは、スケーラブルなスクイージングと非スクイージングの急激な遷移を伴う相図を示すことを示した。
この遷移は、有限温度でのXY位における平衡相境界と一致する。
スケーラブルなスクイージングフェーズでは、標準量子限界とオール・ツー・オール結合1軸ツイストモデルで達成されるスケーリングの間の感度スケーリングを予測する。
我々の予想のまとめは、2軸ねじれの短距離版はスケーラブルなメロジカルゲインをもたらすことができないというものである。
我々の結果は、気象学的に有用な量子状態を生成するのに使用できるハミルトンの風景についての洞察を提供する。
Spin squeezing is a form of entanglement that reshapes the quantum projection noise to improve measurement precision. Here, we provide numerical and analytic evidence for the following conjecture: any Hamiltonian exhibiting finite temperature, easy-plane ferromagnetism can be used to generate scalable spin squeezing, thereby enabling quantum-enhanced sensing. Our conjecture is guided by a connection between the quantum Fisher information of pure states and the spontaneous breaking of a continuous symmetry. We demonstrate that spin-squeezing exhibits a phase diagram with a sharp transition between scalable squeezing and non-squeezing. This transition coincides with the equilibrium phase boundary for XY order at a finite temperature. In the scalable squeezing phase, we predict a sensitivity scaling that lies in between the standard quantum limit and the scaling achieved in all-to-all coupled one-axis twisting models. A corollary of our conjecture is that short-ranged versions of two-axis twisting cannot yield scalable metrological gain. Our results provide insights into the landscape of Hamiltonians that can be used to generate metrologically useful quantum states. | 翻訳日:2024-07-17 05:38:07 公開日:2024-07-14 |
# 一般密度マトリックスの資源効率直接評価
Resource-efficient Direct Characterization of General Density Matrix ( http://arxiv.org/abs/2303.06903v2 ) ライセンス: Link先を確認 | Liang Xu, Mingti Zhou, Runxia Tao, Zhipeng Zhong, Ben Wang, Zhiyong Cao, Hongkuan Xia, Qianyi Wang, Hao Zhan, Aonan Zhang, Shang Yu, Nanyang Xu, Ying Dong, Changliang Ren, Lijian Zhang, | (参考訳) 逐次弱測定により、密度行列全体を世界規模で再構成する代わりに、個々の密度行列要素を直接抽出することができ、量子系のキャラクタリゼーションのための新たな道を開くことができる。
それでも、量子系の各キューディットに対する多重結合の必要性と適切な精度評価の欠如は、その適用性の拡張、特にマルチキューディット量子系に制約を与える。
本稿では,一般マルチキュージットシステムの密度行列を直接特徴付ける資源効率向上手法(RES)を提案する。
このスキームでは、量子系の効率的な観測が可能であり、各キューディットに結合した1メートル状態が、対応する密度行列要素を抽出するのに十分である。
誤差の統計的分布に基づく適切なモデルを用いて、スキームの精度と実現可能性を評価する。
我々はRESを一般の単一光子クォート状態と2光子絡み状態の直接的評価に実験的に適用した。
その結果、RESは弱結合シナリオと強結合シナリオの両方において、効率と精度の点でシーケンシャルなスキームよりも優れていた。
この研究は、大規模量子システムの実用的特性と、その非古典的性質の研究に新たな光を当てている。
Sequential weak measurements allow the direct extraction of individual density-matrix elements instead of globally reconstructing the whole density matrix, opening a new avenue for the characterization of quantum systems. Nevertheless, the requirement of multiple coupling for each qudit of quantum systems and the lack of appropriate precision evaluation constraint its applicability extension, especially for multi-qudit quantum systems. Here, we propose a resource-efficient scheme (RES) to directly characterize the density matrix of general multi-qudit systems, which not only optimizes the measurements but also establishes a feasible estimation analysis. In this scheme, an efficient observable of quantum system is constructed such that a single meter state coupled to each qudit is sufficient to extract the corresponding density-matrix element. An appropriate model based on the statistical distribution of errors are used to evaluate the precision and feasibility of the scheme. We experimentally apply the RES to the direct characterization of general single-photon qutrit states and two-photon entangled states. The results show that the RES outperforms the sequential schemes in terms of efficiency and precision in both weak- and strong- coupling scenarios. This work sheds new light on the practical characterization of large-scale quantum systems and investigation of their non-classical properties. | 翻訳日:2024-07-17 05:28:16 公開日:2024-07-14 |
# 被害者モデル情報に逆例を適用できるか?
Can Adversarial Examples Be Parsed to Reveal Victim Model Information? ( http://arxiv.org/abs/2303.07474v3 ) ライセンス: Link先を確認 | Yuguang Yao, Jiancheng Liu, Yifan Gong, Xiaoming Liu, Yanzhi Wang, Xue Lin, Sijia Liu, | (参考訳) 最先端機械学習(ML)モデル、特にディープニューラルネットワーク(DNN)の誤予測を引き起こす可能性のある、知覚不能なイメージ摂動を生成するために、多くの逆襲攻撃法が開発されている。
敵の攻撃について猛烈な研究が行われたが、敵の攻撃に携わる「アルカナ」を明らかにする努力はほとんどなされなかった。
本研究では、データ固有の敵インスタンスから、データに依存しない被害者モデル(VM)情報(MLモデルやDNNの特徴)を推測できるかどうかを問う。
これは、攻撃中に隠されたVM情報の観点から'arcana'を明らかにするタスクです。
我々は,VMのモデル属性のクラス(アーキテクチャタイプ,カーネルサイズ,アクティベーション関数,重量空間)を,このVMから生成された攻撃インスタンスに正しく割り当てる,教師付き学習によるモデル解析にアプローチする。
135の犠牲者モデル(5つのアーキテクチャタイプ、3つのカーネルサイズ設定、3つのアクティベーション関数タイプ、3つのウェイト空間比)から生成された7種類の攻撃タイプに対する敵攻撃のデータセットを収集します。
本稿では, 単純な教師付きモデル解析ネットワーク(MPN)が, 攻撃設定がトレーニング設定(即ち, 分布内一般化評価)と一致している場合, 未知の敵攻撃からVM属性を推測できることを示す。
また、敵攻撃によるVM解析の実現可能性、および解析性能におけるトレーニングおよび評価要因の影響を正当化するための広範な実験を行った(例えば、アウト・オブ・ディストリビューション評価で提起された一般化チャレンジ)。
さらに、提案したMPNを用いて、トランスファー攻撃からソースVM属性を解明し、モデル解析とアタック転送可能性の間の潜在的な接続に光を当てる方法について述べる。
Numerous adversarial attack methods have been developed to generate imperceptible image perturbations that can cause erroneous predictions of state-of-the-art machine learning (ML) models, in particular, deep neural networks (DNNs). Despite intense research on adversarial attacks, little effort was made to uncover 'arcana' carried in adversarial attacks. In this work, we ask whether it is possible to infer data-agnostic victim model (VM) information (i.e., characteristics of the ML model or DNN used to generate adversarial attacks) from data-specific adversarial instances. We call this 'model parsing of adversarial attacks' - a task to uncover 'arcana' in terms of the concealed VM information in attacks. We approach model parsing via supervised learning, which correctly assigns classes of VM's model attributes (in terms of architecture type, kernel size, activation function, and weight sparsity) to an attack instance generated from this VM. We collect a dataset of adversarial attacks across 7 attack types generated from 135 victim models (configured by 5 architecture types, 3 kernel size setups, 3 activation function types, and 3 weight sparsity ratios). We show that a simple, supervised model parsing network (MPN) is able to infer VM attributes from unseen adversarial attacks if their attack settings are consistent with the training setting (i.e., in-distribution generalization assessment). We also provide extensive experiments to justify the feasibility of VM parsing from adversarial attacks, and the influence of training and evaluation factors in the parsing performance (e.g., generalization challenge raised in out-of-distribution evaluation). We further demonstrate how the proposed MPN can be used to uncover the source VM attributes from transfer attacks, and shed light on a potential connection between model parsing and attack transferability. | 翻訳日:2024-07-17 05:28:16 公開日:2024-07-14 |
# 複雑形状の計算流体力学シミュレーションのためのハイブリッド量子物理学インフォームニューラルネットワーク
Hybrid quantum physics-informed neural networks for simulating computational fluid dynamics in complex shapes ( http://arxiv.org/abs/2304.11247v3 ) ライセンス: Link先を確認 | Alexandr Sedykh, Maninadh Podapaka, Asel Sagingalieva, Karan Pinto, Markus Pflitsch, Alexey Melnikov, | (参考訳) ナヴィエ・ストークス方程式を解くことによって流体の速度と圧力の分布を見つけることは、化学、エネルギー、医薬品産業、機械工学、パイプラインシステムの設計において主要な課題である。
OpenFOAMやAnsysのような既存の解法では、複雑な測地における流体力学のシミュレーションは計算コストが高く、幾何学的パラメータや初期条件や境界条件が変更されるたびに再シミュレーションが必要となる。
物理インフォームドニューラルネットワークは、幾何やメッシュの定義の変化に適応し、流体パラメータをまたいだ一般化と異なる形状での移動学習を可能にするため、複雑な幾何学における流体の流れをシミュレートするための有望なツールである。
本稿では3次元Y字ミキサー内の層流をシミュレートするハイブリッド量子物理学インフォームドニューラルネットワークを提案する。
我々のアプローチは、量子モデルの表現力と物理インフォームドニューラルネットワークの柔軟性を組み合わせることで、純粋に古典的なニューラルネットワークに比べて21%高い精度を実現している。
計算流体力学における複雑な形状最適化タスクのための機械学習アプローチ,特にハイブリッド量子物理学インフォームドニューラルネットワークの可能性を明らかにする。
複素測地における流体シミュレーションの精度を向上させることにより、ハイブリッド量子モデルを用いた研究は、より効率的で信頼性の高い流体力学解法の開発に寄与する。
Finding the distribution of the velocities and pressures of a fluid by solving the Navier-Stokes equations is a principal task in the chemical, energy, and pharmaceutical industries, as well as in mechanical engineering and the design of pipeline systems. With existing solvers, such as OpenFOAM and Ansys, simulations of fluid dynamics in intricate geometries are computationally expensive and require re-simulation whenever the geometric parameters or the initial and boundary conditions are altered. Physics-informed neural networks are a promising tool for simulating fluid flows in complex geometries, as they can adapt to changes in the geometry and mesh definitions, allowing for generalization across fluid parameters and transfer learning across different shapes. We present a hybrid quantum physics-informed neural network that simulates laminar fluid flows in 3D Y-shaped mixers. Our approach combines the expressive power of a quantum model with the flexibility of a physics-informed neural network, resulting in a 21% higher accuracy compared to a purely classical neural network. Our findings highlight the potential of machine learning approaches, and in particular hybrid quantum physics-informed neural network, for complex shape optimization tasks in computational fluid dynamics. By improving the accuracy of fluid simulations in complex geometries, our research using hybrid quantum models contributes to the development of more efficient and reliable fluid dynamics solvers. | 翻訳日:2024-07-17 05:28:16 公開日:2024-07-14 |
# 背景情報によるクラスアクティベーションの不確かさの低減
Reduction of Class Activation Uncertainty with Background Information ( http://arxiv.org/abs/2305.03238v5 ) ライセンス: Link先を確認 | H M Dipu Kabir, | (参考訳) マルチタスク学習は、一般化を改善したハイパフォーマンスニューラルネットワークをトレーニングするための一般的なアプローチである。
本稿では,計算能力に制限のある研究者や組織を支援するために,マルチタスク学習と比較して,計算能力の低下による一般化を実現するためのバックグラウンドクラスを提案する。
また,背景画像の選択手法を提案し,今後の改善について検討する。
提案手法をいくつかのデータセットに適用し,計算量を大幅に削減した一般化を実現する。
学習モデルのクラスアクティベーションマッピング(CAM)を通して,提案手法を用いて全体像を見る傾向を観察した。
STL-10、Caltech-101、CINIC-10データセット上での最先端(SOTA)性能が得られた。
スクリプトは次のGitHubリポジトリの'CAM'フォルダで利用できる。
Multitask learning is a popular approach to training high-performing neural networks with improved generalization. In this paper, we propose a background class to achieve improved generalization at a lower computation compared to multitask learning to help researchers and organizations with limited computation power. We also present a methodology for selecting background images and discuss potential future improvements. We apply our approach to several datasets and achieve improved generalization with much lower computation. Through the class activation mappings (CAMs) of the trained models, we observed the tendency towards looking at a bigger picture with the proposed model training methodology. Applying the vision transformer with the proposed background class, we receive state-of-the-art (SOTA) performance on STL-10, Caltech-101, and CINIC-10 datasets. Example scripts are available in the 'CAM' folder of the following GitHub Repository: github.com/dipuk0506/UQ | 翻訳日:2024-07-17 05:28:16 公開日:2024-07-14 |
# 動的空間プルーニングによる3次元物体検出
3D Small Object Detection with Dynamic Spatial Pruning ( http://arxiv.org/abs/2305.03716v4 ) ライセンス: Link先を確認 | Xiuwei Xu, Zhihao Sun, Ziwei Wang, Hongmin Liu, Jie Zhou, Jiwen Lu, | (参考訳) 本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
従来の3次元物体検出法は、少数の点から得られる弱い幾何学的情報のために、小さな物体に苦労する。
特徴表現の空間分解能を高めることで、小さなオブジェクトの検出性能を向上させることができるが、追加の計算オーバーヘッドは達成不可能である。
本研究は,3次元検出器デコーダのアップサンプリング動作に起因した計算量の増大を詳細に観察する。
DSPDet3Dと呼ばれるマルチレベル3次元検出器を試作し,小型物体検出に高精細度を実現するとともに,小型物体検出にのみ焦点をあてることで冗長計算の低減を実現した。
具体的には,オブジェクトの分布に応じて3次元シーンの冗長な空間表現をカスケード的に引き起こす動的空間プルーニング(DSP)戦略を理論的に導出する。
この戦略に従ってDSPモジュールを設計し,DSPDet3Dをこの効率的なモジュールで構築する。
ScanNet と TO-SCENE のデータセットにおいて,本手法は小物体検出における先行的な性能を実現する。
さらに、ScanNetルームのみで訓練されたDSPDet3Dは、大規模にシーンを一般化することができる。
1台のRTX 3090 GPUでカップからベッドまで、ほぼすべての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには、2秒もかからない。
プロジェクトページ: https://xuxw98.github.io/DSPDet3D/。
In this paper, we propose an efficient feature pruning strategy for 3D small object detection. Conventional 3D object detection methods struggle on small objects due to the weak geometric information from a small number of points. Although increasing the spatial resolution of feature representations can improve the detection performance on small objects, the additional computational overhead is unaffordable. With in-depth study, we observe the growth of computation mainly comes from the upsampling operation in the decoder of 3D detector. Motivated by this, we present a multi-level 3D detector named DSPDet3D which benefits from high spatial resolution to achieves high accuracy on small object detection, while reducing redundant computation by only focusing on small object areas. Specifically, we theoretically derive a dynamic spatial pruning (DSP) strategy to prune the redundant spatial representation of 3D scene in a cascade manner according to the distribution of objects. Then we design DSP module following this strategy and construct DSPDet3D with this efficient module. On ScanNet and TO-SCENE dataset, our method achieves leading performance on small object detection. Moreover, DSPDet3D trained with only ScanNet rooms can generalize well to scenes in larger scale. It takes less than 2s to directly process a whole building consisting of more than 4500k points while detecting out almost all objects, ranging from cups to beds, on a single RTX 3090 GPU. Project page: https://xuxw98.github.io/DSPDet3D/. | 翻訳日:2024-07-17 05:28:16 公開日:2024-07-14 |
# Ada-NAV:ロボットナビゲーションのための適応軌道長に基づく効率的な政策学習
Ada-NAV: Adaptive Trajectory Length-Based Sample Efficient Policy Learning for Robotic Navigation ( http://arxiv.org/abs/2306.06192v6 ) ライセンス: Link先を確認 | Bhrij Patel, Kasun Weerakoon, Wesley A. Suttle, Alec Koppel, Brian M. Sadler, Tianyi Zhou, Amrit Singh Bedi, Dinesh Manocha, | (参考訳) 軌道長は強化学習(RL)アルゴリズムにおける重要なハイパーパラメータであり、ロボット工学の応用におけるサンプルの非効率性に大きく貢献する。
Ada-NAVはロボットナビゲーションタスクにおけるRLアルゴリズムのトレーニングサンプル効率を高めるために設計された新しい適応軌道長スキームである。
軌道長を固定されたハイパーパラメータとして扱う従来の手法とは異なり、下層の航法方針のエントロピーに基づいて動的に調整することを提案する。
興味深いことに、Ada-NAVは既存のオン・ポリティとオフ・ポリティィのRL手法の両方に適用でき、この手法はREINFORCE, Proximal Policy Optimization (PPO), Soft Actor-Critic (SAC)の3つの一般的なRL法に対して実証的に有効性を示す。
我々は、Ada-NAVが一定またはランダムにサンプリングされた軌道長を用いる従来の手法よりも優れている、シミュレーションおよび実世界のロボット実験を通して実証する。
特に、固定サンプル予算では、Ada-NAV は航法成功率 18 % 、航法パス長 20-38 % 、高架コスト 9.32 % を達成している。
さらに,Ada-NAVをClearpath Huskyロボットに統合することで,複雑な屋外環境に適用可能であることを示す。
Trajectory length stands as a crucial hyperparameter within reinforcement learning (RL) algorithms, significantly contributing to the sample inefficiency in robotics applications. Motivated by the pivotal role trajectory length plays in the training process, we introduce Ada-NAV, a novel adaptive trajectory length scheme designed to enhance the training sample efficiency of RL algorithms in robotic navigation tasks. Unlike traditional approaches that treat trajectory length as a fixed hyperparameter, we propose to dynamically adjust it based on the entropy of the underlying navigation policy. Interestingly, Ada-NAV can be applied to both existing on-policy and off-policy RL methods, which we demonstrate by empirically validating its efficacy on three popular RL methods: REINFORCE, Proximal Policy Optimization (PPO), and Soft Actor-Critic (SAC). We demonstrate through simulated and real-world robotic experiments that Ada-NAV outperforms conventional methods that employ constant or randomly sampled trajectory lengths. Specifically, for a fixed sample budget, Ada-NAV achieves an 18\% increase in navigation success rate, a 20-38\% reduction in navigation path length, and a 9.32\% decrease in elevation costs. Furthermore, we showcase the versatility of Ada-NAV by integrating it with the Clearpath Husky robot, illustrating its applicability in complex outdoor environments. | 翻訳日:2024-07-17 05:18:31 公開日:2024-07-14 |
# Share, Collaborate, Benchmark: 厳格なオープンソースコラボレーションによる旅行需要調査の促進
Share, Collaborate, Benchmark: Advancing Travel Demand Research through rigorous open-source collaboration ( http://arxiv.org/abs/2306.06194v2 ) ライセンス: Link先を確認 | Juan D. Caicedo, Carlos Guirado, Marta C. González, Joan L. Walker, | (参考訳) この研究は、旅行需要調査における一般的な実践を前提として、私たちの方法を変える必要性を強調している。
旅行需要の文献が効果的にポリシーを伝えるのを防ぐ重要な障壁は、明確な統合されたベンチマークのない出版物の量であり、研究者や政策立案者が洞察を集め、意思決定を導くためにモデルを使うのが困難である。
再現性とオープンなコラボレーションを強調することで,旅行需要調査の信頼性と政策関連性を高めることを目指す。
新型コロナウイルス(COVID-19)のパンデミックなど,非常にダイナミックな状況下でのパフォーマンスに着目し,交通需要予測モデルのための協調的なインフラストラクチャを提案する。
300以上の論文から引用し、我々は5つの共通手法によるオープンソースのインフラを開発し、その性能を安定かつダイナミックな条件下で評価する。
LSTM深層学習手法の予測誤差は,1.5ヶ月以内に約0.12のアークタンジェント絶対パーセンテージ誤差(MAAPE)で安定化したが,他のモデルでは,パンデミックから1年以内に高い誤差率を示し続けた。
もし、新型コロナウイルス(COVID-19)のパンデミック前に再現性を優先していたなら、交通機関は最高の予測方法をより明確にし、交通需要の変化に対応するために、パンデミックの状況に適したものを特定しただろう。
このオープンソースコードベースの目的は、他の研究者がモデルを複製し、再現し、発見に基づいて構築する障壁を低くすることである。
我々は、このベンチマークプラットフォーム上で独自のモデリングアプローチをテストし、本論文で実施した分析に挑戦し、ここで評価されたモデル仕様よりも優れたモデル仕様を開発することを推奨する。
さらに、政策や計画に影響を及ぼしたい場合、旅行需要モデリング全体で共同研究のアプローチを拡大する必要がある。
This research foregrounds general practices in travel demand research, emphasizing the need to change our ways. A critical barrier preventing travel demand literature from effectively informing policy is the volume of publications without clear, consolidated benchmarks, making it difficult for researchers and policymakers to gather insights and use models to guide decision-making. By emphasizing reproducibility and open collaboration, we aim to enhance the reliability and policy relevance of travel demand research. We present a collaborative infrastructure for transit demand prediction models, focusing on their performance during highly dynamic conditions like the COVID-19 pandemic. Drawing from over 300 published papers, we develop an open-source infrastructure with five common methodologies and assess their performance under stable and dynamic conditions. We found that the prediction error for the LSTM deep learning approach stabilized at a mean arctangent absolute percentage error (MAAPE) of about 0.12 within 1.5 months, whereas other models continued to exhibit higher error rates even a year into the pandemic. If research practices had prioritized reproducibility before the COVID-19 pandemic, transit agencies would have had clearer guidance on the best forecasting methods and quickly identified those best suited for pandemic conditions to inform operations in response to changes in transit demand. The aim of this open-source codebase is to lower the barrier for other researchers to replicate, reproduce models and build upon findings. We encourage researchers to test their own modeling approaches on this benchmarking platform, challenge the analyses conducted in this paper, and develop model specifications that can outperform those evaluated here. Further, collaborative research approaches must be expanded across travel demand modeling if we wish to impact policy and planning. | 翻訳日:2024-07-17 05:18:31 公開日:2024-07-14 |
# MuDPT:大規模視力訓練モデルのためのマルチモーダルディープ・サイバティフィック・プロンプト・チューニング
MuDPT: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models ( http://arxiv.org/abs/2306.11400v2 ) ライセンス: Link先を確認 | Yongzhu Miao, Shasha Li, Jintao Tang, Ting Wang, | (参考訳) CoOpのようなプロンプトチューニングは、CLIPのような大規模トレーニング済みの視覚言語モデルの出現とともに、様々な下流タスクにおいて、将来有望な視覚認識と伝達学習能力を示した。
しかし,既存のユニモーダル・プロンプト・チューニング手法は,このユニモーダル設計が事前学習モデルにおけるテキストおよび視覚表現の本来のアライメントを損なうため,準最適性能をもたらす可能性がある。
事前学習された視覚言語モデルの性質に着想を得て,インシデントチューニングの完全性を実現し,MDPT(Multi-modal Deep-symphysis Prompt Tuning)と呼ばれる新しいアプローチを提案する。
画像認識および領域外一般化タスクにおける MuDPT の有効性を評価する。
最先端の手法と比較して、MDPTはテキストと視覚表現の相乗的アライメントにより、明らかなマージンで認識と一般化能力の向上を実現している。
私たちのコードは、https://github.com/Mechrev0/MuDPTで利用可能です。
Prompt tuning, like CoOp, has recently shown promising vision recognizing and transfer learning ability on various downstream tasks with the emergence of large pre-trained vision-language models like CLIP. However, we identify that existing uni-modal prompt tuning approaches may result in sub-optimal performance since this uni-modal design breaks the original alignment of textual and visual representations in the pre-trained model. Inspired by the nature of pre-trained vision-language models, we aim to achieve completeness in prompt tuning and propose a novel approach called Multi-modal Deep-symphysis Prompt Tuning, dubbed as MuDPT, which extends independent multi-modal prompt tuning by additionally learning a model-agnostic transformative network to allow deep hierarchical bi-directional prompt fusion. We evaluate the effectiveness of MuDPT on few-shot vision recognition and out-of-domain generalization tasks. Compared with the state-of-the-art methods, MuDPT achieves better recognition and generalization ability with an apparent margin thanks to synergistic alignment of textual and visual representations. Our code is available at: https://github.com/Mechrev0/MuDPT. | 翻訳日:2024-07-17 05:08:47 公開日:2024-07-14 |
# テキストアンコレッドスコア構成:テキスト-画像拡散モデルにおけるタックリング条件の相違
Text-Anchored Score Composition: Tackling Condition Misalignment in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2306.14408v3 ) ライセンス: Link先を確認 | Luozhou Wang, Guibao Shen, Wenhang Ge, Guangyong Chen, Yijun Li, Ying-cong Chen, | (参考訳) テキスト間の拡散モデルは、テキストを超えて様々な追加条件(例えば、深度マップ、バウンディングボックス)をサポートすることによって、より制御可能な生成に向かって進んでいる。
しかし、これらのモデルは、テキストと余分な条件の完全な整合という前提に基づいて学習される。
このアライメントが満たされていない場合、最終的なアウトプットは1つの条件によって支配されるか、曖昧さが生まれ、ユーザの期待を満たさない可能性がある。
この問題に対処するため,テキストアンコールスコア合成(TASC)と呼ばれる学習自由な手法を提案する。
TASCはまず、ペアの関係に基づいて条件を分離し、それぞれのペアに対して個別に結果を計算する。
これにより、各ペアに競合状態がもはやないことが保証される。
そこで本研究では,これら独立して計算した結果を相互注意機構によって認識し,新たな競合を回避するための注意集中操作を提案する。
定性的かつ定量的な結果は、最近の手法に対して有利に機能し、制御可能な画像生成プロセスに柔軟性を付加する不整合条件処理における我々のアプローチの有効性を示すものである。
私たちのコードは、https://github.com/EnVision-Research/Decompose-and-Realign.comで利用可能です。
Text-to-image diffusion models have advanced towards more controllable generation via supporting various additional conditions (e.g.,depth map, bounding box) beyond text. However, these models are learned based on the premise of perfect alignment between the text and extra conditions. If this alignment is not satisfied, the final output could be either dominated by one condition, or ambiguity may arise, failing to meet user expectations. To address this issue, we present a training free approach called Text-Anchored Score Composition (TASC) to further improve the controllability of existing models when provided with partially aligned conditions. The TASC firstly separates conditions based on pair relationships, computing the result individually for each pair. This ensures that each pair no longer has conflicting conditions. Then we propose an attention realignment operation to realign these independently calculated results via a cross-attention mechanism to avoid new conflicts when combining them back. Both qualitative and quantitative results demonstrate the effectiveness of our approach in handling unaligned conditions, which performs favorably against recent methods and more importantly adds flexibility to the controllable image generation process. Our code will be available at: https://github.com/EnVision-Research/Decompose-and-Realign. | 翻訳日:2024-07-17 05:08:47 公開日:2024-07-14 |
# UTOPIA: 普遍的にトレーニング可能な最適予測間隔の集約
UTOPIA: Universally Trainable Optimal Prediction Intervals Aggregation ( http://arxiv.org/abs/2306.16549v2 ) ライセンス: Link先を確認 | Jianqing Fan, Jiawei Ge, Debarghya Mukherjee, | (参考訳) 予測の不確かさの定量化は、バイオメディカルサイエンス、経済学、天気予報など、様々な分野にまたがる膨大な応用において、魅力的な課題となっている。
量子レグレッションや共形予測など、予測間隔を構築するための幅広い方法が存在する。
しかし、実践者は、特定の現実世界のデータ問題に対して最も適した方法を選択するという課題に直面していることが多い。
このジレンマに対応するために,我々は,UTOPIA(Universally Trainable Optimal Predictive Intervals Aggregation)と呼ばれる新しい,普遍的に適用可能な戦略を導入する。
この技術は、予測帯域の平均幅を小さく保ちながら、複数の予測間隔を効率的に集約し、カバレッジを確保する。
UTOPIAは線形プログラミングや凸プログラミングに基礎を置いており、訓練や実装が容易である。
予測法が基本基底関数である特定の場合、カーネルやスプラインベースのように、予測バンドの構成となる。
提案手法は,本論文で詳述した累積予測区間の平均幅と被覆確率の理論的保証により支持される。
UTOPIAの実用性と有効性は、その合成データとファイナンスおよびマクロ経済学における2つの実世界のデータセットに適用することによってさらに検証される。
Uncertainty quantification in prediction presents a compelling challenge with vast applications across various domains, including biomedical science, economics, and weather forecasting. There exists a wide array of methods for constructing prediction intervals, such as quantile regression and conformal prediction. However, practitioners often face the challenge of selecting the most suitable method for a specific real-world data problem. In response to this dilemma, we introduce a novel and universally applicable strategy called Universally Trainable Optimal Predictive Intervals Aggregation (UTOPIA). This technique excels in efficiently aggregating multiple prediction intervals while maintaining a small average width of the prediction band and ensuring coverage. UTOPIA is grounded in linear or convex programming, making it straightforward to train and implement. In the specific case where the prediction methods are elementary basis functions, as in kernel and spline bases, our method becomes the construction of a prediction band. Our proposed methodologies are supported by theoretical guarantees on the coverage probability and the average width of the aggregated prediction interval, which are detailed in this paper. The practicality and effectiveness of UTOPIA are further validated through its application to synthetic data and two real-world datasets in finance and macroeconomics. | 翻訳日:2024-07-17 05:08:47 公開日:2024-07-14 |
# MPM:masked Pose Modelingによる2D-3D人物表現の統一化
MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling ( http://arxiv.org/abs/2306.17201v2 ) ライセンス: Link先を確認 | Zhenyu Zhang, Wenhao Chai, Zhongyu Jiang, Tian Ye, Mingli Song, Jenq-Neng Hwang, Gaoang Wang, | (参考訳) 近年,2次元の人間のポーズシーケンスのみから3次元のポーズを推定する手法が徹底的に研究されている。
しかし、それ以前には、共有特徴空間における2Dと3Dのポーズ表現を統一する試みは行われていない。
本稿では,マスク付きポーズモデリングによる2次元3次元人間のポーズ表現フレームワークである \mpm を提案する。
2Dと3Dのポーズを視覚と言語という2つの異なるモダリティとして扱い、シングルストリームトランスフォーマーベースのアーキテクチャを構築します。
マスク付き2次元ポーズモデリングとマスク付き3次元ポーズモデリングの2つのプレテキストタスクを適用し、ネットワークを事前訓練し、フルスーパービジョンを使用してさらなる微調整を行う。
高マスキング比71.8~\%$と時空間マスクサンプリング戦略は空間領域と時空間領域の両方においてより良い関係モデリングをもたらす。
3D人間のポーズ推定、隠蔽された2Dポーズからの3Dポーズ推定、3Dポーズ完了をtextbf{single}フレームワークで処理できる。
MPI-INF-3DHPにおいて、広く使われているポーズデータセットの広範な実験とアブレーション研究を行い、最先端のパフォーマンスを達成する。
Estimating 3D human poses only from a 2D human pose sequence is thoroughly explored in recent years. Yet, prior to this, no such work has attempted to unify 2D and 3D pose representations in the shared feature space. In this paper, we propose \mpm, a unified 2D-3D human pose representation framework via masked pose modeling. We treat 2D and 3D poses as two different modalities like vision and language and build a single-stream transformer-based architecture. We apply two pretext tasks, which are masked 2D pose modeling, and masked 3D pose modeling to pre-train our network and use full-supervision to perform further fine-tuning. A high masking ratio of $71.8~\%$ in total with a spatio-temporal mask sampling strategy leads to better relation modeling both in spatial and temporal domains. \mpm~can handle multiple tasks including 3D human pose estimation, 3D pose estimation from occluded 2D pose, and 3D pose completion in a \textbf{single} framework. We conduct extensive experiments and ablation studies on several widely used human pose datasets and achieve state-of-the-art performance on MPI-INF-3DHP. | 翻訳日:2024-07-17 05:08:47 公開日:2024-07-14 |
# Proto-CLIP:Few-Shot Learningのためのビジョンランゲージ型プロトタイプネットワーク
Proto-CLIP: Vision-Language Prototypical Network for Few-Shot Learning ( http://arxiv.org/abs/2307.03073v3 ) ライセンス: Link先を確認 | Jishnu Jaykumar P, Kamalesh Palanisamy, Yu-Wei Chao, Xinya Du, Yu Xiang, | (参考訳) 本稿では,CLIPのような大規模視覚言語モデルを活用することで,数ショット学習のための新しいフレームワークを提案する。
画像のプロトタイプとテキストのプロトタイプを併用したプロトCLIPを導入する。
具体的には、Proto-CLIPは、CLIPからのイメージとテキストエンコーダの埋め込みを、いくつかの例を使って共同で適応する。
2つのエンコーダからの埋め込みは、分類のための各画像クラスのプロトタイプを計算するために使用される。
適応中、対応するクラスの画像とテキストのプロトタイプの整合化を提案する。
このようなアライメントは、両方のプロトタイプの強化された貢献により、数発の分類に有用である。
Proto-CLIPにはトレーニング不要と微調整の2種類がある。
本手法の有効性を,数ショットの学習のためのベンチマークデータセットと,ロボットの知覚のための実世界で実験することで実証する。
プロジェクトページはhttps://irvlutd.github.io/Proto-CLIPで公開されている。
We propose a novel framework for few-shot learning by leveraging large-scale vision-language models such as CLIP. Motivated by unimodal prototypical networks for few-shot learning, we introduce Proto-CLIP which utilizes image prototypes and text prototypes for few-shot learning. Specifically, Proto-CLIP adapts the image and text encoder embeddings from CLIP in a joint fashion using few-shot examples. The embeddings from the two encoders are used to compute the respective prototypes of image classes for classification. During adaptation, we propose aligning the image and text prototypes of the corresponding classes. Such alignment is beneficial for few-shot classification due to the reinforced contributions from both types of prototypes. Proto-CLIP has both training-free and fine-tuned variants. We demonstrate the effectiveness of our method by conducting experiments on benchmark datasets for few-shot learning, as well as in the real world for robot perception. The project page is available at https://irvlutd.github.io/Proto-CLIP | 翻訳日:2024-07-17 05:08:47 公開日:2024-07-14 |
# 双曲型非アベリア半金属
Hyperbolic non-Abelian semimetal ( http://arxiv.org/abs/2307.09876v2 ) ライセンス: Link先を確認 | Tarun Tummuru, Anffany Chen, Patrick M. Lenggenhager, Titus Neupert, Joseph Maciejko, Tomáš Bzdušek, | (参考訳) 我々は、位相的に保護された半金属バンド交差の概念を、負の曲面の双曲格子に拡張する。
それらの異なる変換群構造のため、そのような格子は高次元の相互空間と結びついている。
さらに、従来のブロッホ状態とは異なり、格子変換の下で行列値のブロッホ因子を取得する非アベリアブロッホ状態をサポートする。
多様な数値的および解析的なアプローチを組み合わせることで、低エネルギー状態の密度の非伝統的なスケーリングを発見し、相互空間における余次元5のノルダル多様体を照らし出す。
ノダル多様体は非ゼロの第2チャーン数によって位相的に保護され、第1チャーン数によるワイルノードの特性を思い起こさせる。
We extend the notion of topologically protected semi-metallic band crossings to hyperbolic lattices in a negatively curved plane. Because of their distinct translation group structure, such lattices are associated with a high-dimensional reciprocal space. In addition, they support non-Abelian Bloch states which, unlike conventional Bloch states, acquire a matrix-valued Bloch factor under lattice translations. Combining diverse numerical and analytical approaches, we uncover an unconventional scaling in the density of states at low energies, and illuminate a nodal manifold of codimension five in the reciprocal space. The nodal manifold is topologically protected by a nonzero second Chern number, reminiscent of the characterization of Weyl nodes by the first Chern number. | 翻訳日:2024-07-17 05:08:47 公開日:2024-07-14 |
# ジェネレーティブ・セマンティック・ナーシングを改善するためのディバイドとバインド
Divide & Bind Your Attention for Improved Generative Semantic Nursing ( http://arxiv.org/abs/2307.10864v3 ) ライセンス: Link先を確認 | Yumeng Li, Margret Keuper, Dan Zhang, Anna Khoreva, | (参考訳) 新たな大規模テキスト・画像生成モデル、例えば、安定拡散(SD)は、高い忠実度で圧倒的な結果を示した。
素晴らしい進歩にもかかわらず、現在の最先端モデルは入力プロンプトに完全に付着した画像を生成するのに依然として苦労している。
Attend & Exciteは、推論時間におけるクロスアテンションを最適化し、セマンティックスをよりうまく組み込むことを目的として、ジェネレーティブ・セマンティック・ナーシング(GSN)の概念を導入した。
これは単純なプロンプト、例えば「猫と犬」を生成できる有望な結果を示す。
しかし、その有効性はより複雑なプロンプトを扱う際に低下し、不適切な属性結合の問題に明示的に対処するわけではない。
複数のエンティティを含む複雑なプロンプトやシナリオによって引き起こされる課題に対処し、属性バインディングの改善を実現するために、Divide & Bindを提案する。
GSNの新たな損失目標として,新規の出席損失と結合損失の2つを紹介した。
提案手法は、複雑なプロンプトからの属性アライメントを改善した所望のオブジェクトを忠実に合成し、複数の評価ベンチマークで優れた性能を示す。
Emerging large-scale text-to-image generative models, e.g., Stable Diffusion (SD), have exhibited overwhelming results with high fidelity. Despite the magnificent progress, current state-of-the-art models still struggle to generate images fully adhering to the input prompt. Prior work, Attend & Excite, has introduced the concept of Generative Semantic Nursing (GSN), aiming to optimize cross-attention during inference time to better incorporate the semantics. It demonstrates promising results in generating simple prompts, e.g., "a cat and a dog". However, its efficacy declines when dealing with more complex prompts, and it does not explicitly address the problem of improper attribute binding. To address the challenges posed by complex prompts or scenarios involving multiple entities and to achieve improved attribute binding, we propose Divide & Bind. We introduce two novel loss objectives for GSN: a novel attendance loss and a binding loss. Our approach stands out in its ability to faithfully synthesize desired objects with improved attribute alignment from complex prompts and exhibits superior performance across multiple evaluation benchmarks. | 翻訳日:2024-07-17 05:08:47 公開日:2024-07-14 |
# AdvDiff:拡散モデルを用いた非制限逆例の生成
AdvDiff: Generating Unrestricted Adversarial Examples using Diffusion Models ( http://arxiv.org/abs/2307.12499v4 ) ライセンス: Link先を確認 | Xuelong Dai, Kaisheng Liang, Bin Xiao, | (参考訳) 制限のない敵攻撃は、深層学習モデルや敵防衛技術に深刻な脅威をもたらす。
防御機構を効果的にバイパスできるため、深層学習アプリケーションには深刻なセキュリティ問題が発生する。
しかし、従来の攻撃法では、しばしばジェネレーティブモデルのサンプリングに投影された勾配(PGD)勾配を直接注入するが、これは理論的に証明不可能であり、特にImageNetのような大規模データセット上のGANベースの手法において、敵対的な目的を組み込むことで非現実的な例を生成する。
本稿では,拡散モデルを用いた非制限逆例を生成するAdvDiffという新しい手法を提案する。
本研究では,拡散モデルの逆生成過程において,新たな2つの逆サンプリング手法を設計する。
これらの2つの手法は、ターゲット分類器の勾配を解釈可能に積分することにより、高品質で現実的な逆例を生成するのに有効で安定である。
MNISTおよびImageNetデータセットの実験結果から、AdvDiffは、攻撃性能と生成品質の点で最先端の非制限逆攻撃法より優れた非制限逆攻撃例を生成するのに有効であることが示された。
Unrestricted adversarial attacks present a serious threat to deep learning models and adversarial defense techniques. They pose severe security problems for deep learning applications because they can effectively bypass defense mechanisms. However, previous attack methods often directly inject Projected Gradient Descent (PGD) gradients into the sampling of generative models, which are not theoretically provable and thus generate unrealistic examples by incorporating adversarial objectives, especially for GAN-based methods on large-scale datasets like ImageNet. In this paper, we propose a new method, called AdvDiff, to generate unrestricted adversarial examples with diffusion models. We design two novel adversarial guidance techniques to conduct adversarial sampling in the reverse generation process of diffusion models. These two techniques are effective and stable in generating high-quality, realistic adversarial examples by integrating gradients of the target classifier interpretably. Experimental results on MNIST and ImageNet datasets demonstrate that AdvDiff is effective in generating unrestricted adversarial examples, which outperforms state-of-the-art unrestricted adversarial attack methods in terms of attack performance and generation quality. | 翻訳日:2024-07-17 05:08:47 公開日:2024-07-14 |
# 量子スピン鎖における非安定化剤性の臨界挙動
Critical behaviors of non-stabilizerness in quantum spin chains ( http://arxiv.org/abs/2309.00676v3 ) ライセンス: Link先を確認 | Poetri Sonya Tarabunga, | (参考訳) 非安定化器性(Non-stabilizerness、通称マジック)は、量子状態が安定状態から逸脱する程度を測り、普遍的な量子計算を達成するための基本的な資源である。
本研究では, 量子スピン鎖の臨界度に関する非安定化剤の挙動について検討する。
非安定度を定量化するために、離散ウィグナー関数の負性に基づいて、マナと呼ばれるモノトーンを用いる。
この尺度は、純粋な状態と混合状態の両方の非安定化剤性をキャプチャする。
マナのR'enyi一般化は、純粋な状態に対する非安定化性の尺度でもあり、大きな量子系におけるマナの計算に利用される。
我々は三状態ポッツモデルとその非可積分拡大を考察し、共形場理論において相互マナが共形場理論において距離で普遍対数スケーリングを示すという強い証拠を与える。
Non-stabilizerness - commonly known as magic - measures the extent to which a quantum state deviates from stabilizer states and is a fundamental resource for achieving universal quantum computation. In this work, we investigate the behavior of non-stabilizerness around criticality in quantum spin chains. To quantify non-stabilizerness, we employ a monotone called mana, based on the negativity of the discrete Wigner function. This measure captures non-stabilizerness for both pure and mixed states. We introduce R\'enyi generalizations of mana, which are also measures of non-stabilizerness for pure states, and utilize it to compute mana in large quantum systems. We consider the three-state Potts model and its non-integrable extension and we provide strong evidence that the mutual mana exhibits universal logarithmic scaling with distance in conformal field theory, as is the case for entanglement. | 翻訳日:2024-07-17 04:58:50 公開日:2024-07-14 |
# 読解による大規模言語モデルへの適応
Adapting Large Language Models via Reading Comprehension ( http://arxiv.org/abs/2309.09530v3 ) ライセンス: Link先を確認 | Daixuan Cheng, Shaohan Huang, Furu Wei, | (参考訳) ドメイン固有コーパスの事前学習が大規模言語モデルにどのように影響するかを探索し、生コーパスのトレーニングがドメイン知識を生かしたモデルを実現するが、質問応答の促進能力を大幅に損なうことを明らかにした。
読み書きによる人間の学習からインスピレーションを得る-学習知識に基づいて質問に答える能力を向上させる-本研究では、生コーパスを読解テキストに変換する簡単な方法を提案する。
各原文は、その内容に関連する一連のタスクで濃縮される。
本手法は,任意の事前学習コーパスに適用可能であり,バイオメディシン,ファイナンス,法則の3分野において,様々なタスクにまたがるパフォーマンスを継続的に向上させる。
特に、我々の7B言語モデルは、BloombergGPT-50Bのような非常に大きなスケールのドメイン固有モデルと競合する性能を実現しています。
さらに、一般ベンチマークにおいても、ドメイン固有の読解テキストがモデルの性能を向上させることを実証し、さらに多くのドメインにまたがる汎用モデルを開発する可能性を示す。
私たちのモデル、コード、データはhttps://github.com/microsoft/LMOps.comで公開されています。
We explore how continued pre-training on domain-specific corpora influences large language models, revealing that training on the raw corpora endows the model with domain knowledge, but drastically hurts its prompting ability for question answering. Taken inspiration from human learning via reading comprehension--practice after reading improves the ability to answer questions based on the learned knowledge--we propose a simple method for transforming raw corpora into reading comprehension texts. Each raw text is enriched with a series of tasks related to its content. Our method, highly scalable and applicable to any pre-training corpora, consistently enhances performance across various tasks in three different domains: biomedicine, finance, and law. Notably, our 7B language model achieves competitive performance with domain-specific models of much larger scales, such as BloombergGPT-50B. Furthermore, we demonstrate that domain-specific reading comprehension texts can improve the model's performance even on general benchmarks, showing the potential to develop a general model across even more domains. Our model, code, and data are available at https://github.com/microsoft/LMOps. | 翻訳日:2024-07-17 04:58:50 公開日:2024-07-14 |
# Spurious Feature Diversificationはアウト・オブ・ディストリビューションの一般化を改善する
Spurious Feature Diversification Improves Out-of-distribution Generalization ( http://arxiv.org/abs/2309.17230v2 ) ライセンス: Link先を確認 | Yong Lin, Lu Tan, Yifan Hao, Honam Wong, Hanze Dong, Weizhong Zhang, Yujiu Yang, Tong Zhang, | (参考訳) アウト・オブ・ディストリビューション(OOD)データへの一般化は、機械学習において重要な課題である。
モデルパラメータを補間する重み空間アンサンブルのようなアンサンブルに基づく手法は、優れたOOD性能を実現することが示されている。
しかし、その効果の根底にあるメカニズムはいまだ不明である。
本研究では,事前学習モデルと微調整モデルの間で補間を行う一般的な重量空間アンサンブル法であるWiSE-FTを詳しく検討する。
We observed an unexpected `FalseFalseTrue" phenomenon, where WiSE-FT successfully corrects many case that each model makes wrongrect predictions, which contribute to its OOD effectiveness。
さらなる知見を得るため、我々は多数の突発的な特徴を持つ多クラス設定で理論的解析を行う。
以上の現象を予測し,さらに,アンサンブルに基づくモデルによってOOD設定における予測誤差を低減できることを示す。
OOD性能を改善するために不変な特徴を学習することに焦点を当てた従来の知恵とは対照的に,多種多様な突発的特徴を取り入れることで個人の貢献が弱まり,OOD全体の一般化性能が向上することが示唆された。
さらに,本研究では,OODの出力空間のアンサンブルがOODの出力空間のアンサンブルより優れているという謎の現象を初めて説明する。
実験により,MultiColorMNISTデータセットにおける多様なスプリアス機能の利用の有効性を実証し,実験結果と理論解析との整合性を示した。
さらに, アンサンブル法の有効性に関する新たな理論的知見に基づいて, BAlaNced averaGing (BANG) と呼ばれる, WiSE-FTのOOD性能を大幅に向上させる新しい平均化手法を提案する。
Generalization to out-of-distribution (OOD) data is a critical challenge in machine learning. Ensemble-based methods, like weight space ensembles that interpolate model parameters, have been shown to achieve superior OOD performance. However, the underlying mechanism for their effectiveness remains unclear. In this study, we closely examine WiSE-FT, a popular weight space ensemble method that interpolates between a pre-trained and a fine-tuned model. We observe an unexpected ``FalseFalseTrue" phenomenon, in which WiSE-FT successfully corrects many cases where each individual model makes incorrect predictions, which contributes significantly to its OOD effectiveness. To gain further insights, we conduct theoretical analysis in a multi-class setting with a large number of spurious features. Our analysis predicts the above phenomenon and it further shows that ensemble-based models reduce prediction errors in the OOD settings by utilizing a more diverse set of spurious features. Contrary to the conventional wisdom that focuses on learning invariant features for better OOD performance, our findings suggest that incorporating a large number of diverse spurious features weakens their individual contributions, leading to improved overall OOD generalization performance. Additionally, our findings provide the first explanation for the mysterious phenomenon of weight space ensembles outperforming output space ensembles in OOD. Empirically we demonstrate the effectiveness of utilizing diverse spurious features on a MultiColorMNIST dataset, and our experimental results are consistent with the theoretical analysis. Building upon the new theoretical insights into the efficacy of ensemble methods, we further propose a novel averaging method called BAlaNced averaGing (BANG) which significantly enhances the OOD performance of WiSE-FT. | 翻訳日:2024-07-17 04:48:58 公開日:2024-07-14 |
# 進化的再合成経路計画
Evolutionary Retrosynthetic Route Planning ( http://arxiv.org/abs/2310.05186v2 ) ライセンス: Link先を確認 | Yan Zhang, Hao Hao, Xiao He, Shuanhu Gao, Aimin Zhou, | (参考訳) 分子レトロシンセシスは化学分野において重要かつ複雑な問題であるが、従来の手動合成法は、十分に訓練された専門家を必要とするだけでなく、時間を要する。
ビッグデータと機械学習の発展に伴い、人工知能(AI)に基づくレトロシンセシスが注目され、分子レトロシンセシスの貴重なツールとなっている。
現在、モンテカルロ木探索はこの問題に対処するために使われる主流の探索フレームワークである。
それでも、検索効率は巨大な検索スペースによって損なわれている。
そこで本研究では,進化的アルゴリズム (EA) を多段階再合成の分野で初めて活用した,進化的最適化に基づく再合成経路計画手法を提案する。
提案手法では,逆合成問題を最適化問題にモデル化し,探索空間と演算子を定義する。
また,探索効率を向上させるために並列戦略を実装した。
この新しいアプローチは4つのケース製品に適用され、モンテカルロ木探索と比較される。
実験の結果、モンテカルロ木探索アルゴリズムと比較して、EAは1段階の呼び出し回数を平均53.9%削減することがわかった。
3つの解を探索するのに要する時間は平均83.9%減少し、実現可能な探索経路の数は1.38倍に増加する。
ソースコードはhttps://github.com/ilog-ecnu/EvoRRP.comで入手できる。
Molecular retrosynthesis is a significant and complex problem in the field of chemistry, however, traditional manual synthesis methods not only need well-trained experts but also are time-consuming. With the development of big data and machine learning, artificial intelligence (AI) based retrosynthesis is attracting more attention and has become a valuable tool for molecular retrosynthesis. At present, Monte Carlo tree search is a mainstream search framework employed to address this problem. Nevertheless, its search efficiency is compromised by its large search space. Therefore, this paper proposes a novel approach for retrosynthetic route planning based on evolutionary optimization, marking the first use of Evolutionary Algorithm (EA) in the field of multi-step retrosynthesis. The proposed method involves modeling the retrosynthetic problem into an optimization problem, defining the search space and operators. Additionally, to improve the search efficiency, a parallel strategy is implemented. The new approach is applied to four case products and compared with Monte Carlo tree search. The experimental results show that, in comparison to the Monte Carlo tree search algorithm, EA significantly reduces the number of calling single-step model by an average of 53.9%. The time required to search three solutions decreases by an average of 83.9%, and the number of feasible search routes increases by 1.38 times. The source code is available at https://github.com/ilog-ecnu/EvoRRP. | 翻訳日:2024-07-17 04:48:58 公開日:2024-07-14 |
# 軌道最適化型安全組込みMDPにおける強化学習
Reinforcement Learning in a Safety-Embedded MDP with Trajectory Optimization ( http://arxiv.org/abs/2310.06903v2 ) ライセンス: Link先を確認 | Fan Yang, Wenxuan Zhou, Zuxin Liu, Ding Zhao, David Held, | (参考訳) 安全強化学習(RL)は、安全クリティカルな現実世界のアプリケーションにRLアルゴリズムを適用する上で重要な役割を担い、報酬の最大化と安全性の制約への固執の間のトレードオフに対処する。
この研究は、このトレードオフを効果的に管理するために、RLと軌道最適化を組み合わせた新しいアプローチを導入する。
提案手法は,改良マルコフ決定プロセス(MDP)の動作空間に安全制約を組み込む。
RL剤は、軌道オプティマイザにより安全な軌道に変換された一連の動作を生成し、これにより安全性を効果的に確保し、訓練安定性を向上する。
この新しいアプローチは、安全ガイムの課題に挑戦するパフォーマンスを向上し、推論中にはるかに高い報酬とほぼゼロに近い安全違反を達成する。
この手法の現実の応用性は、障害物の周囲を箱詰めする実際のロボットタスクにおいて、安全かつ効果的に展開することで実証される。
Safe Reinforcement Learning (RL) plays an important role in applying RL algorithms to safety-critical real-world applications, addressing the trade-off between maximizing rewards and adhering to safety constraints. This work introduces a novel approach that combines RL with trajectory optimization to manage this trade-off effectively. Our approach embeds safety constraints within the action space of a modified Markov Decision Process (MDP). The RL agent produces a sequence of actions that are transformed into safe trajectories by a trajectory optimizer, thereby effectively ensuring safety and increasing training stability. This novel approach excels in its performance on challenging Safety Gym tasks, achieving significantly higher rewards and near-zero safety violations during inference. The method's real-world applicability is demonstrated through a safe and effective deployment in a real robot task of box-pushing around obstacles. | 翻訳日:2024-07-17 04:48:58 公開日:2024-07-14 |
# 確率勾配ハミルトニアンモンテカルロによる低精度サンプリング
Enhancing Low-Precision Sampling via Stochastic Gradient Hamiltonian Monte Carlo ( http://arxiv.org/abs/2310.16320v2 ) ライセンス: Link先を確認 | Ziyi Wang, Yujie Chen, Qifan Song, Ruqi Zhang, | (参考訳) 高い精度を犠牲にすることなく、ディープニューラルネットワークのトレーニング効率を高めるための、有望な低コスト技術として、低精度トレーニングが登場した。
そのベイズ対応は、さらに不確実な定量化と一般化の精度を向上させることができる。
本稿では,SGHMC(Stochastic Gradient Hamiltonian Monte Carlo)を用いた低精度サンプリングについて検討する。
理論的には、非対数分布に対する2-ワッサーシュタイン距離における$\epsilon$-errorを達成するために、低精度SGHMCは2次改善(\widetilde{\mathbf{O}}\left({\epsilon^{-2}{\mu^*}^{-2}\log^2\left({\epsilon^{-1}}\right)}\right)$)を、最先端の低精度サンプリング器であるStochastic Gradient Langevin Dynamics(SGLD)$(\widetilde{\mathbf{O}}\left({{\epsilon}^{-4}{\lambda^{*}}^{-1}\log^5\left({\epsilon^{-1}}\right)$)と比較した。
さらに、低精度SGHMCは、モーメントベースの更新Wr.t.勾配雑音の頑健性のため、低精度SGLDと比較して量子化誤差に対してより堅牢であることを示す。
実験では, 合成データと<MNIST, CIFAR-10 \& CIFAR-100}データセットについて実験を行い, 理論的知見を検証した。
本研究は,大規模・資源制限型機械学習の効率的かつ正確なサンプリング手法として,低精度SGHMCの可能性を明らかにする。
Low-precision training has emerged as a promising low-cost technique to enhance the training efficiency of deep neural networks without sacrificing much accuracy. Its Bayesian counterpart can further provide uncertainty quantification and improved generalization accuracy. This paper investigates low-precision sampling via Stochastic Gradient Hamiltonian Monte Carlo (SGHMC) with low-precision and full-precision gradient accumulators for both strongly log-concave and non-log-concave distributions. Theoretically, our results show that, to achieve $\epsilon$-error in the 2-Wasserstein distance for non-log-concave distributions, low-precision SGHMC achieves quadratic improvement ($\widetilde{\mathbf{O}}\left({\epsilon^{-2}{\mu^*}^{-2}\log^2\left({\epsilon^{-1}}\right)}\right)$) compared to the state-of-the-art low-precision sampler, Stochastic Gradient Langevin Dynamics (SGLD) ($\widetilde{\mathbf{O}}\left({{\epsilon}^{-4}{\lambda^{*}}^{-1}\log^5\left({\epsilon^{-1}}\right)}\right)$). Moreover, we prove that low-precision SGHMC is more robust to the quantization error compared to low-precision SGLD due to the robustness of the momentum-based update w.r.t. gradient noise. Empirically, we conduct experiments on synthetic data, and {MNIST, CIFAR-10 \& CIFAR-100} datasets, which validate our theoretical findings. Our study highlights the potential of low-precision SGHMC as an efficient and accurate sampling method for large-scale and resource-limited machine learning. | 翻訳日:2024-07-17 02:54:11 公開日:2024-07-14 |
# ZoomNeXt:カモフラージュ物体検出のための統一協調ピラミッドネットワーク
ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection ( http://arxiv.org/abs/2310.20208v4 ) ライセンス: Link先を確認 | Youwei Pang, Xiaoqi Zhao, Tian-Zhu Xiang, Lihe Zhang, Huchuan Lu, | (参考訳) 最近のcamouflaged object detection (COD)は、現実世界のシナリオでは極めて複雑で困難である、視覚的にブレンドされた物体を周囲に分割しようとする試みである。
カモフラージュされた物体とそれらの背景の間の本質的な類似性は別として、物体は通常、スケールが多様であり、外観がファジィで、さらに密閉されている。
そこで本研究では,不明瞭な画像やビデオのズームインやズームアウトを行う際の人間の行動を模倣する,効果的な統合型ピラミッドネットワークを提案する。
具体的には,マルチヘッドスケール統合とリッチな粒度認識ユニットによる識別的混合スケール意味論の学習に,ズーム方式を用いている。
前者の本質的なマルチヘッドアグリゲーションは、より多様な視覚パターンを提供する。
後者のルーティング機構は、時空間シナリオにおけるフレーム間差異を効果的に伝播し、静的表現のために適応的に非活性化し、全ゼロ結果を出力する。
静的および動的CODのための統一アーキテクチャを実現するための強固な基盤を提供する。
さらに,不明瞭なテクスチャから生じる不確実性とあいまいさを考慮し,候補領域に高い信頼を抱く予測を促進するため,単純で効果的な正規化,不確実性認識損失を構築した。
我々のタスクフレンドリーなフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法よりも一貫して優れています。
私たちのコードは、https://github.com/lartpang/ZoomNeXt}で参照できます。
Recent camouflaged object detection (COD) attempts to segment objects visually blended into their surroundings, which is extremely complex and difficult in real-world scenarios. Apart from the high intrinsic similarity between camouflaged objects and their background, objects are usually diverse in scale, fuzzy in appearance, and even severely occluded. To this end, we propose an effective unified collaborative pyramid network that mimics human behavior when observing vague images and videos, \ie zooming in and out. Specifically, our approach employs the zooming strategy to learn discriminative mixed-scale semantics by the multi-head scale integration and rich granularity perception units, which are designed to fully explore imperceptible clues between candidate objects and background surroundings. The former's intrinsic multi-head aggregation provides more diverse visual patterns. The latter's routing mechanism can effectively propagate inter-frame differences in spatiotemporal scenarios and be adaptively deactivated and output all-zero results for static representations. They provide a solid foundation for realizing a unified architecture for static and dynamic COD. Moreover, considering the uncertainty and ambiguity derived from indistinguishable textures, we construct a simple yet effective regularization, uncertainty awareness loss, to encourage predictions with higher confidence in candidate regions. Our highly task-friendly framework consistently outperforms existing state-of-the-art methods in image and video COD benchmarks. Our code can be found at {https://github.com/lartpang/ZoomNeXt}. | 翻訳日:2024-07-17 02:54:11 公開日:2024-07-14 |
# 『追加構成詳細』:設置指示の変更分類
"Add more config detail": A Taxonomy of Installation Instruction Changes ( http://arxiv.org/abs/2312.03250v2 ) ライセンス: Link先を確認 | Haoyu Gao, Christoph Treude, Mansooreh Zahedi, | (参考訳) READMEファイルは、ソフトウェアユーザにインストール関連の指示を提供する上で重要な役割を担い、GitHubなどのプラットフォーム上のオープンソースソフトウェアシステムで広く利用されている。
しかし、これらのファイルは、しばしば様々なドキュメントの問題に悩まされ、コンテンツの理解と潜在的なエラーを引き起こす。
それらの重要性にもかかわらず、READMEファイル、特にユーザーがソフトウェアプロジェクトを始めるのに不可欠であるインストール関連命令の文脈において、READMEファイルに費やされたドキュメントの取り組みに関する体系的な理解が欠如している。
調査ギャップを埋めるため、インストール関連セクションのアップデートに焦点を当てた1,163のREADMEコミットで400のGitHubリポジトリを調査し、質的な調査を行った。
本研究は,READMEコミットの変更点として,プリインストール指示,インストール指示,ポストインストール指示,ヘルプ情報更新,ドキュメント提示,外部リソース管理の6つの主要なカテゴリを明らかにした。
さらに、修正行動に関する詳細な洞察を提供し、これらの更新の例を示します。
そこで本研究では,文書更新時にドキュメンテーションメンテナが参照するインストール関連セクションをカバーするためのREADMEテンプレートを提案する。
我々は、オンライン調査を実施して、このテンプレートをさらに検証し、ドキュメンテーションの読者が、テンプレートに基づいた拡張ドキュメントが一般的に、より良い品質であることを確認する。
さらに,READMEファイルの維持や今後の研究方向性のモチベーション(arxivには長すぎる)について,実践者に推奨する。
README files play an important role in providing installation-related instructions to software users and are widely used in open source software systems on platforms such as GitHub. However, these files often suffer from various documentation issues, leading to challenges in comprehension and potential errors in content. Despite their significance, there is a lack of systematic understanding regarding the documentation efforts invested in README files, especially in the context of installation-related instructions, which are crucial for users to start with a software project. To fill the research gap, we conducted a qualitative study, investigating 400 GitHub repositories with 1,163 README commits that focused on updates in installation-related sections. Our research revealed six major categories of changes in the README commits, namely pre-installation instructions, installation instructions, post-installation instructions, help information updates, document presentation, and external resource management. We further provide detailed insights into modification behaviours and offer examples of these updates. Based on our findings, we propose a README template tailored to cover the installation-related sections for documentation maintainers to reference when updating documents. We further validate this template by conducting an online survey, identifying that documentation readers find the augmented documents based on our template are generally of better quality. We further provide recommendations to practitioners for maintaining their README files, as well as motivations for future research directions... (too long for arxiv) | 翻訳日:2024-07-17 02:44:20 公開日:2024-07-14 |
# 制御可能な人間と物体の相互作用合成
Controllable Human-Object Interaction Synthesis ( http://arxiv.org/abs/2312.03913v2 ) ライセンス: Link先を確認 | Jiaman Li, Alexander Clegg, Roozbeh Mottaghi, Jiajun Wu, Xavier Puig, C. Karen Liu, | (参考訳) セマンティック・アウェア、ロングホライゾン、ヒューマン・オブジェクトの相互作用を合成することは、現実的な人間の振る舞いをシミュレートするために重要である。
本研究では,3次元シーンにおける言語記述によって導かれる,同期物体の動きと人間の動きを生成するという課題に対処する。
本稿では,言語記述,初期オブジェクトと人間状態の条件付き拡散モデル,スパースオブジェクトのウェイポイントを用いて,物体の動きと人間の動きを同時に生成する制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
自然に拡散モデルを適用すると、入力されたウェイポイントに一致した物体の動きを予測することができず、また、正確な手動・人床接触を必要とする相互作用の現実性を保証することもできない。
これらの問題を克服するために、生成した物体の動きと入力対象の経路点との整合性を改善するための追加の監督としてオブジェクト幾何損失を導入し、トレーニングされた拡散モデルのサンプリング過程において接触制約を強制するガイダンス項を設計する。
学習した相互作用モジュールは現実的な人間と物体の相互作用を合成し、テキスト記述とスパースウェイポイント条件に固執できることを実証する。
さらに,我々のモジュールは経路計画モジュールとシームレスに統合され,3次元環境における長期的相互作用の生成を可能にする。
Synthesizing semantic-aware, long-horizon, human-object interaction is critical to simulate realistic human behaviors. In this work, we address the challenging problem of generating synchronized object motion and human motion guided by language descriptions in 3D scenes. We propose Controllable Human-Object Interaction Synthesis (CHOIS), an approach that generates object motion and human motion simultaneously using a conditional diffusion model given a language description, initial object and human states, and sparse object waypoints. Here, language descriptions inform style and intent, and waypoints, which can be effectively extracted from high-level planning, ground the motion in the scene. Naively applying a diffusion model fails to predict object motion aligned with the input waypoints; it also cannot ensure the realism of interactions that require precise hand-object and human-floor contact. To overcome these problems, we introduce an object geometry loss as additional supervision to improve the matching between generated object motion and input object waypoints; we also design guidance terms to enforce contact constraints during the sampling process of the trained diffusion model. We demonstrate that our learned interaction module can synthesize realistic human-object interactions, adhering to provided textual descriptions and sparse waypoint conditions. Additionally, our module seamlessly integrates with a path planning module, enabling the generation of long-term interactions in 3D environments. | 翻訳日:2024-07-17 02:44:20 公開日:2024-07-14 |
# SingingHead: 頭部アニメーションのための大規模4Dデータセット
SingingHead: A Large-scale 4D Dataset for Singing Head Animation ( http://arxiv.org/abs/2312.04369v3 ) ライセンス: Link先を確認 | Sijing Wu, Yunhao Li, Weitian Zhang, Jun Jia, Yucheng Zhu, Yichao Yan, Guangtao Zhai, Xiaokang Yang, | (参考訳) 歌唱は、話すことの第二の共通の顔の動きとして、民族や文化にまたがる普遍的な言語と見なすことができ、感情的なコミュニケーション、芸術、娯楽において重要な役割を果たしている。
しかし、歌唱ヘッドデータセットの欠如や、リズムや振幅における歌唱と話しのドメインギャップが原因で、音声による顔のアニメーションの分野では見落とされがちである。
この目的のために,76人の個人と8種類の音楽から27時間以上の同期歌唱ビデオ,3D顔の動き,歌唱音声,バックグラウンド音楽からなる,高品質な大規模歌唱ヘッドデータセットであるSingingHeadを収集した。
SingingHeadデータセットとともに、既存の音声駆動型3D顔アニメーション法と2Dトーキングヘッド法を歌唱タスク上でベンチマークする。
さらに,3Dと2Dの顔のアニメーションタスクを連携させることが可能であることを論じ,UniSingerという歌唱ヘッドアニメーションフレームワークを提案し,歌唱音声駆動の3D歌唱ヘッドアニメーションと2D歌唱ポートレートビデオ合成の両方を実現する。
広範にわたる実験は,歌唱ヘッドアニメーションタスクの開発を促進する上で,歌唱特有のデータセットの重要性と,我々の統合された顔アニメーションフレームワークの有望な性能を示すものである。
Singing, as a common facial movement second only to talking, can be regarded as a universal language across ethnicities and cultures, plays an important role in emotional communication, art, and entertainment. However, it is often overlooked in the field of audio-driven facial animation due to the lack of singing head datasets and the domain gap between singing and talking in rhythm and amplitude. To this end, we collect a high-quality large-scale singing head dataset, SingingHead, which consists of more than 27 hours of synchronized singing video, 3D facial motion, singing audio, and background music from 76 individuals and 8 types of music. Along with the SingingHead dataset, we benchmark existing audio-driven 3D facial animation methods and 2D talking head methods on the singing task. Furthermore, we argue that 3D and 2D facial animation tasks can be solved together, and propose a unified singing head animation framework named UniSinger to achieve both singing audio-driven 3D singing head animation and 2D singing portrait video synthesis, which achieves competitive results on both 3D and 2D benchmarks. Extensive experiments demonstrate the significance of the proposed singing-specific dataset in promoting the development of singing head animation tasks, as well as the promising performance of our unified facial animation framework. | 翻訳日:2024-07-17 02:44:20 公開日:2024-07-14 |
# 一つの質問しか学ばない: シングルステージマルチパーソン・マルチタスク人間中心認識のための統一されたヒューマンクエリを学習する
You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception ( http://arxiv.org/abs/2312.05525v3 ) ライセンス: Link先を確認 | Sheng Jin, Shuhuai Li, Tong Li, Wentao Liu, Chen Qian, Ping Luo, | (参考訳) 人間中心の知覚(例えば、検出、セグメンテーション、ポーズ推定、属性解析)は、コンピュータビジョンの長年の問題である。
本稿では,単一段階のマルチタスク人間中心認識(HCP)のための統合多目的フレームワーク(HQNet)を提案する。
提案手法は,個人の複雑なインスタンスレベルの特徴をキャプチャし,複雑な多人数シナリオを解消する,ヒューマンクエリ(Human Query)と呼ばれる統一されたクエリ表現の学習に重点を置いている。
HCPタスクは個別によく研究されているが、総合的なベンチマークデータセットがないため、HCPタスクのシングルステージマルチタスク学習は文献で完全に活用されていない。
このギャップに対処するため,モデル開発と包括的評価を可能にするCOCO-UniHumanベンチマークを提案する。
提案手法のマルチタスクHCPモデルとタスク固有HCPモデルとの競合性能を比較検討した。
さらに,HCPタスクに対するHuman Queryの適応性を評価し,その堅牢な一般化能力を実証した。
コードとデータはhttps://github.com/lishuhuai527/COCO-UniHuman.comで公開されている。
Human-centric perception (e.g. detection, segmentation, pose estimation, and attribute analysis) is a long-standing problem for computer vision. This paper introduces a unified and versatile framework (HQNet) for single-stage multi-person multi-task human-centric perception (HCP). Our approach centers on learning a unified human query representation, denoted as Human Query, which captures intricate instance-level features for individual persons and disentangles complex multi-person scenarios. Although different HCP tasks have been well-studied individually, single-stage multi-task learning of HCP tasks has not been fully exploited in the literature due to the absence of a comprehensive benchmark dataset. To address this gap, we propose COCO-UniHuman benchmark to enable model development and comprehensive evaluation. Experimental results demonstrate the proposed method's state-of-the-art performance among multi-task HCP models and its competitive performance compared to task-specific HCP models. Moreover, our experiments underscore Human Query's adaptability to new HCP tasks, thus demonstrating its robust generalization capability. Codes and data are available at https://github.com/lishuhuai527/COCO-UniHuman. | 翻訳日:2024-07-17 02:34:28 公開日:2024-07-14 |
# コンピュータ著作権:音楽生成AIのロイヤリティモデルを目指して
Computational Copyright: Towards A Royalty Model for Music Generative AI ( http://arxiv.org/abs/2312.06646v3 ) ライセンス: Link先を確認 | Junwei Deng, Shiyuan Zhang, Jiaqi Ma, | (参考訳) 生成AIの進歩は、特に音楽業界における著作権問題に拍車をかけた。
本稿では,これらの課題の経済的側面に焦点をあて,著作権分野における経済的影響が中心的な課題となっていることを強調する。
さらに、ブラックボックス生成AI技術の複雑さは、アルゴリズムソリューションを暗示するだけでなく、必要としている。
しかし、そのようなソリューションはほとんど失われており、この状況における規制上のハードルが悪化している。
私たちは、AI音楽生成プラットフォーム上での収益分配のために、実行可能なロイヤリティモデルを提案することで、このギャップに対処しようとしています。
まず、SpotifyやYouTubeなどのプラットフォームで使用されている既存のロイヤリティモデルを調べ、AI生成音楽のユニークな状況にどのように適応するかを議論する。
この適応から生じる重要な課題は、トレーニングデータに影響を及ぼす著作権のあるコンテンツに対するAI生成音楽の帰属である。
そこで本研究では,データ帰属手法を用いたアルゴリズムソリューションを提案する。
また、これらのソリューションの有効性と堅牢性を検証するために、さまざまな実験も行っています。
この研究は、AI技術の不透明な性質によって引き起こされる課題に対して、計算的著作権ソリューションを提供する音楽生成AIの分野で、技術的進歩と経済的および法的考察を統合する初期の試みの1つである。
The advancement of generative AI has given rise to pressing copyright challenges, especially within the music industry. This paper focuses on the economic aspects of these challenges, emphasizing that the economic impact constitutes a central issue in the copyright arena. Furthermore, the complexity of the black-box generative AI technologies not only suggests but necessitates algorithmic solutions. Yet, such solutions have been largely missing, exacerbating regulatory hurdles in this landscape. We seek to address this gap by proposing viable royalty models for revenue sharing on AI music generation platforms. We start by examining existing royalty models utilized by platforms like Spotify and YouTube, and then discuss how to adapt them to the unique context of AI-generated music. A significant challenge emerging from this adaptation is the attribution of AI-generated music to influential copyrighted content in the training data. To this end, we present algorithmic solutions employing data attribution techniques. We also conduct a range of experiments to verify the effectiveness and robustness of these solutions. This research is one of the early attempts to integrate technical advancements with economic and legal considerations in the field of music generative AI, offering a computational copyright solution for the challenges posed by the opaque nature of AI technologies. | 翻訳日:2024-07-17 02:34:28 公開日:2024-07-14 |
# Adaptive Differentially Quantized Subspace Perturbation (ADQSP):プライバシ保護のための統一フレームワーク
Adaptive Differentially Quantized Subspace Perturbation (ADQSP): A Unified Framework for Privacy-Preserving Distributed Average Consensus ( http://arxiv.org/abs/2312.07947v2 ) ライセンス: Link先を確認 | Qiongxiu Li, Jaron Skovsted Gundersen, Milan Lopuhaa-Zwakenberg, Richard Heusdens, | (参考訳) プライバシを保存する分散平均コンセンサスは最近、適用可能性の広さから大きな注目を集めている。
達成された性能に基づいて、既存のアプローチは、セキュアなマルチパーティ計算(SMPC)や、差分プライバシー(DP)のような最悪のプライバシ優先のアプローチなど、完全な精度優先のアプローチに大別することができる。
第1クラスのメソッドは、完全な出力精度を達成するが、いくつかのプライベート情報を明らかにする一方、第2クラスのメソッドは、精度の低下を犠牲にして、最強の敵に対してプライバシを提供する。
本稿では、量子化スキームといわゆる部分空間摂動を組み合わせた適応微分量子化サブ空間摂動法(ADQSP)を提案する。
暗号プリミティブに依存しないが、提案手法は精度優先法とプライバシー優先法の両方の利点を享受し、それらを統一することができる。
具体的には,単一の量子化パラメータを変化させることで,提案手法がSMPC型の性能とDP型性能に異なることを示す。
この結果から,従来の分散信号処理ツールを暗号保証に活用する可能性が示唆された。
総合的な理論的解析に加えて,本研究の結果を裏付ける数値検証を行った。
Privacy-preserving distributed average consensus has received significant attention recently due to its wide applicability. Based on the achieved performances, existing approaches can be broadly classified into perfect accuracy-prioritized approaches such as secure multiparty computation (SMPC), and worst-case privacy-prioritized approaches such as differential privacy (DP). Methods of the first class achieve perfect output accuracy but reveal some private information, while methods from the second class provide privacy against the strongest adversary at the cost of a loss of accuracy. In this paper, we propose a general approach named adaptive differentially quantized subspace perturbation (ADQSP) which combines quantization schemes with so-called subspace perturbation. Although not relying on cryptographic primitives, the proposed approach enjoys the benefits of both accuracy-prioritized and privacy-prioritized methods and is able to unify them. More specifically, we show that by varying a single quantization parameter the proposed method can vary between SMPC-type performances and DP-type performances. Our results show the potential of exploiting traditional distributed signal processing tools for providing cryptographic guarantees. In addition to a comprehensive theoretical analysis, numerical validations are conducted to substantiate our results. | 翻訳日:2024-07-17 02:34:28 公開日:2024-07-14 |
# デノイングにおけるロッキーチケット仮説--セマンティックな初期化に向けて
The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven Initialization ( http://arxiv.org/abs/2312.08872v3 ) ライセンス: Link先を確認 | Jiafeng Mao, Xueting Wang, Kiyoharu Aizawa, | (参考訳) テキストから画像への拡散モデルにより、ユーザーは生成された画像の内容を制御できる。
それでも、テキスト・ツー・イメージ生成は時として、ユーザが満足な結果を得る前に、同じテキストプロンプトの下で数十の画像を生成する必要のある生成失敗につながることがある。
ランダムに初期化したガウス雑音画像は、自然に特定のコンテンツに分解される傾向にある特別な画素ブロック(入賞券)を含む。
標準テキスト・画像合成における生成障害は、初期雑音画像における当選チケットの最適空間分布と実際の空間分布のギャップによって生じる。
この目的のために,提案手法は,提案手法に言及されている各概念に対して,既知の当選チケットから初期ノイズを生成する意味駆動型初期画像構築を実装した。
優勝チケットの特性を検証し、画像やプロンプトの一般化性を実証する一連の実験を行う。
この結果から,入賞チケットを初期雑音画像に集約することで,モデルが対応する位置で特定対象を生成できることが示唆された。
Text-to-image diffusion models allow users control over the content of generated images. Still, text-to-image generation occasionally leads to generation failure requiring users to generate dozens of images under the same text prompt before they obtain a satisfying result. We formulate the lottery ticket hypothesis in denoising: randomly initialized Gaussian noise images contain special pixel blocks (winning tickets) that naturally tend to be denoised into specific content independently. The generation failure in standard text-to-image synthesis is caused by the gap between optimal and actual spatial distribution of winning tickets in initial noisy images. To this end, we implement semantic-driven initial image construction creating initial noise from known winning tickets for each concept mentioned in the prompt. We conduct a series of experiments that verify the properties of winning tickets and demonstrate their generalizability across images and prompts. Our results show that aggregating winning tickets into the initial noise image effectively induce the model to generate the specified object at the corresponding location. | 翻訳日:2024-07-17 02:34:28 公開日:2024-07-14 |
# スコアを超えたDepicting:マルチモーダル言語モデルによる画像品質評価の改善
Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models ( http://arxiv.org/abs/2312.08962v3 ) ライセンス: Link先を確認 | Zhiyuan You, Zheyuan Li, Jinjin Gu, Zhenfei Yin, Tianfan Xue, Chao Dong, | (参考訳) 本稿では,従来のスコアベース手法の制約を克服するDepicted Image Quality Assessment法(DepictQA)を提案する。
DepictQAは、MLLM(Multi-modal Large Language Models)を活用して、詳細な言語ベースの人間のような画像品質の評価を可能にする。
従来の画像品質評価法(IQA)とは異なり、DepictQAは画像の内容と歪みを記述的かつ相対的に解釈し、人間の推論プロセスと密接に一致させる。
DepictQAモデルを構築するために,階層型タスクフレームワークを構築し,マルチモーダルIQAトレーニングデータセットを収集する。
限られたトレーニングデータとマルチイメージ処理の課題に対処するために,マルチソーストレーニングデータと特殊な画像タグを用いることを提案する。
これらの設計により、複数のベンチマークにおけるスコアベースのアプローチよりもDepictQAの性能が向上する。
さらに、一般的なMLLMと比較して、DepictQAはより正確な推論記述言語を生成することができる。
また、全参照データセットが非参照アプリケーションに拡張可能であることも示しています。
これらの結果はマルチモーダルIQA法の研究の可能性を示している。
コードとデータセットはhttps://depictqa.github.io.comで公開されている。
We introduce a Depicted image Quality Assessment method (DepictQA), overcoming the constraints of traditional score-based methods. DepictQA allows for detailed, language-based, human-like evaluation of image quality by leveraging Multi-modal Large Language Models (MLLMs). Unlike conventional Image Quality Assessment (IQA) methods relying on scores, DepictQA interprets image content and distortions descriptively and comparatively, aligning closely with humans' reasoning process. To build the DepictQA model, we establish a hierarchical task framework, and collect a multi-modal IQA training dataset. To tackle the challenges of limited training data and multi-image processing, we propose to use multi-source training data and specialized image tags. These designs result in a better performance of DepictQA than score-based approaches on multiple benchmarks. Moreover, compared with general MLLMs, DepictQA can generate more accurate reasoning descriptive languages. We also demonstrate that our full-reference dataset can be extended to non-reference applications. These results showcase the research potential of multi-modal IQA methods. Codes and datasets are available in https://depictqa.github.io. | 翻訳日:2024-07-17 02:34:28 公開日:2024-07-14 |
# 無料編集機:ゼロショットテキスト駆動の3D編集
Free-Editor: Zero-shot Text-driven 3D Scene Editing ( http://arxiv.org/abs/2312.13663v2 ) ライセンス: Link先を確認 | Nazmul Karim, Hasan Iqbal, Umar Khalid, Jing Hua, Chen Chen, | (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルは近年,2次元コンテンツ生成と編集の汎用性とユーザフレンドリさで注目を集めている。
しかし、大規模なデータセットが不足しているため、3次元シーン編集に特化して拡散モデルを訓練することは困難である。
現在、3Dシーンの編集には、様々な3D編集に対応するためにモデルをリトレーニングするか、独自の編集タイプに合わせて特定のメソッドを開発する必要がある。
さらに、最先端(SOTA)技術では、複数の同期された画像を同じシーンから取得し、効率的なシーン編集を可能にする必要がある。
T2Iモデルの現在の限界を考えると、複数の画像に対して一貫した編集効果を達成することは依然として困難であり、多視点の編集の不整合につながる。
この不整合は、これらの画像を利用する場合の3Dシーン編集の性能を損なう。
本研究では,テスト期間中のモデル再構成を必要とせずに3Dシーンを編集できる「textsc{Free-Editor}」と呼ばれる新しい3Dシーン編集手法を提案する。
本手法は,一視点編集方式の実装を通じて,最先端(SOTA)手法におけるマルチビュースタイルの不整合の問題を効果的に解決する。
具体的には,1つのビューだけを編集することで,特定の3Dシーンを編集できることを実証する。
これを容易にするために,セルフビューとクロスビューアテンション機構を用いて,ビュー内一貫性とビュー間スタイル転送を保証する編集変換器を提案する。
モデル再トレーニングやマルチビュー編集の必要性をなくすことで,本手法は編集時間とメモリリソースの要求を大幅に削減し,実行時のSOTAメソッドの約20倍の高速化を実現した。
提案手法の多種多様な編集機能を示すため,様々なベンチマークデータセットについて広範な実験を行った。
Text-to-Image (T2I) diffusion models have recently gained traction for their versatility and user-friendliness in 2D content generation and editing. However, training a diffusion model specifically for 3D scene editing is challenging due to the scarcity of large-scale datasets. Currently, editing 3D scenes necessitates either retraining the model to accommodate various 3D edits or developing specific methods tailored to each unique editing type. Moreover, state-of-the-art (SOTA) techniques require multiple synchronized edited images from the same scene to enable effective scene editing. Given the current limitations of T2I models, achieving consistent editing effects across multiple images remains difficult, leading to multi-view inconsistency in editing. This inconsistency undermines the performance of 3D scene editing when these images are utilized. In this study, we introduce a novel, training-free 3D scene editing technique called \textsc{Free-Editor}, which enables users to edit 3D scenes without the need for model retraining during the testing phase. Our method effectively addresses the issue of multi-view style inconsistency found in state-of-the-art (SOTA) methods through the implementation of a single-view editing scheme. Specifically, we demonstrate that editing a particular 3D scene can be achieved by modifying only a single view. To facilitate this, we present an Edit Transformer that ensures intra-view consistency and inter-view style transfer using self-view and cross-view attention mechanisms, respectively. By eliminating the need for model retraining and multi-view editing, our approach significantly reduces editing time and memory resource requirements, achieving runtimes approximately 20 times faster than SOTA methods. We have performed extensive experiments on various benchmark datasets, showcasing the diverse editing capabilities of our proposed technique. | 翻訳日:2024-07-17 02:24:41 公開日:2024-07-14 |
# 局所的知識ベースを用いたChatGPTのような大規模言語モデルの構築
Empowering ChatGPT-Like Large-Scale Language Models with Local Knowledge Base for Industrial Prognostics and Health Management ( http://arxiv.org/abs/2312.14945v2 ) ライセンス: Link先を確認 | Huan Wang, Yan-Fu Li, Min Xie, | (参考訳) プログノシクスと健康管理(PHM)は、産業システムの健康状態の予測、診断、管理に重点を置いて、産業の運営と維持に不可欠である。
ChatGPTライクな大規模言語モデル(LLM)の出現は、AI分野における新たなイノベーションのラウンドをリードし始めている。
様々な分野における知能のレベルを広く推進してきた。
したがって、産業用PHMの応用パラダイムをさらに変え、PHMの知的化を促進することも期待されている。
ChatGPTライクなLLMには豊富な知識と強力な言語理解と生成能力があるが、ドメイン固有の専門知識が欠如しており、PHMアプリケーションでの実践性を著しく制限している。
そこで本研究では, 産業用PHMの局所知識ベース(LKB)によって付与されるChatGPT-like LLMについて検討した。
また,LKB作成,LKBベクトル化,プロンプトエンジニアリングなど,LKBとLLMを組み合わせる手法と手順を紹介する。
実例を実験的に分析したところ、LKBとChatGPTライクなLLMを組み合わせることで、その性能が大幅に向上し、ChatGPTライクなLLMをより正確で、関連性があり、より洞察に富んだ情報を提供できることがわかった。
これにより、産業用PHMにおけるChatGPTライクなLCMの開発を促進し、その効率と品質を向上させることができる。
Prognostics and health management (PHM) is essential for industrial operation and maintenance, focusing on predicting, diagnosing, and managing the health status of industrial systems. The emergence of the ChatGPT-Like large-scale language model (LLM) has begun to lead a new round of innovation in the AI field. It has extensively promoted the level of intelligence in various fields. Therefore, it is also expected further to change the application paradigm in industrial PHM and promote PHM to become intelligent. Although ChatGPT-Like LLMs have rich knowledge reserves and powerful language understanding and generation capabilities, they lack domain-specific expertise, significantly limiting their practicability in PHM applications. To this end, this study explores the ChatGPT-Like LLM empowered by the local knowledge base (LKB) in industrial PHM to solve the above limitations. In addition, we introduce the method and steps of combining the LKB with LLMs, including LKB preparation, LKB vectorization, prompt engineering, etc. Experimental analysis of real cases shows that combining the LKB with ChatGPT-Like LLM can significantly improve its performance and make ChatGPT-Like LLMs more accurate, relevant, and able to provide more insightful information. This can promote the development of ChatGPT-Like LLMs in industrial PHM and promote their efficiency and quality. | 翻訳日:2024-07-17 02:24:41 公開日:2024-07-14 |
# シュレーディンガー橋を用いた安定な生成モデル
Stable generative modeling using Schrödinger bridges ( http://arxiv.org/abs/2401.04372v2 ) ライセンス: Link先を確認 | Georg Gottwald, Fengyi Li, Youssef Marzouk, Sebastian Reich, | (参考訳) 十分な数のトレーニングサンプルしか入手できない未知の分布からサンプリングする問題を考察する。
このような設定は、最近、生成的モデリングとベイズ推論の文脈にかなりの関心を集めている。
本稿では,Schr\\odinger BridgesとLangevin dynamicsを組み合わせた生成モデルを提案する。
適切な可逆参照プロセス上のSchr\"odinger Bridgeを用いて、利用可能なトレーニングサンプルからの条件遷移確率を近似し、離散時間可逆的なランゲヴィンサンプルに実装して新しいサンプルを生成する。
カーネルの帯域幅を、調整されていないランゲヴィンアルゴリズムで使用される時間ステップサイズに合わせるように基準プロセスに設定することにより、厳密な確率微分方程式のタイムステッピングに典型的な安定性問題を効果的に回避する。
さらに,本手法では, 得られたサンプルがトレーニングサンプルの凸部内にあることを保証し, 分割段階を新たに導入する。
我々のフレームワークは自然に条件付きサンプルを生成し、ベイズ推論問題に拡張することができる。
提案手法は,次元の増大を伴う合成データセットと,確率的サブグリッドスケールパラメトリゼーション条件付きサンプリング問題を用いて提案手法の性能を実証する。
We consider the problem of sampling from an unknown distribution for which only a sufficiently large number of training samples are available. Such settings have recently drawn considerable interest in the context of generative modelling and Bayesian inference. In this paper, we propose a generative model combining Schr\"odinger bridges and Langevin dynamics. Schr\"odinger bridges over an appropriate reversible reference process are used to approximate the conditional transition probability from the available training samples, which is then implemented in a discrete-time reversible Langevin sampler to generate new samples. By setting the kernel bandwidth in the reference process to match the time step size used in the unadjusted Langevin algorithm, our method effectively circumvents any stability issues typically associated with the time-stepping of stiff stochastic differential equations. Moreover, we introduce a novel split-step scheme, ensuring that the generated samples remain within the convex hull of the training samples. Our framework can be naturally extended to generate conditional samples and to Bayesian inference problems. We demonstrate the performance of our proposed scheme through experiments on synthetic datasets with increasing dimensions and on a stochastic subgrid-scale parametrization conditional sampling problem. | 翻訳日:2024-07-17 02:14:47 公開日:2024-07-14 |
# ViSAGe:テキスト・画像生成における視覚ステレオタイプの分析
ViSAGe: A Global-Scale Analysis of Visual Stereotypes in Text-to-Image Generation ( http://arxiv.org/abs/2401.06310v3 ) ライセンス: Link先を確認 | Akshita Jha, Vinodkumar Prabhakaran, Remi Denton, Sarah Laszlo, Shachi Dave, Rida Qadri, Chandan K. Reddy, Sunipa Dev, | (参考訳) 近年の研究では、テキスト・トゥ・イメージ(T2I)モデル世代が現実世界に存在する社会的ステレオタイプを反映できることが示されている。
しかし、既存のステレオタイプ評価手法では、グローバルアイデンティティグループとその関連ステレオタイプをカバーできないことが顕著である。
このギャップに対処するために、135の国籍を含むT2Iモデルにおいて、既知の国籍に基づくステレオタイプの評価を可能にするために、ViSAGeデータセット(Visual Stereotypes around the Globe)を導入する。
我々は,「ソンブレロ」のような視覚的描写の可能性が高いステレオタイプアソシエーションと,「魅力的」のような視覚的に具体的でないものとを区別することにより,既存のテキストステレオタイプリソースを豊かにする。
我々は、T2I世代を多面的に評価することで、ViSAGeの実用性を実証する。
第1に,ViSAGeのステレオタイプ特性は,他の属性と比較して,対応するアイデンティティの生成画像に存在する可能性が低く,アフリカ,南アメリカ,東南アジアのアイデンティティに対して,これらの描写の攻撃性が特に高いことを示す。
第2に,ViSAGeにおけるすべてのアイデンティティ群の「デフォルト」表現が,ステレオタイプ的描写へと向けられていること,また,このプルがグローバル・サウスのアイデンティティ・グループにとってさらに顕著であることを明らかにする。
Content WARNING: 攻撃的なステレオタイプを含むいくつかの例。
Recent studies have shown that Text-to-Image (T2I) model generations can reflect social stereotypes present in the real world. However, existing approaches for evaluating stereotypes have a noticeable lack of coverage of global identity groups and their associated stereotypes. To address this gap, we introduce the ViSAGe (Visual Stereotypes Around the Globe) dataset to enable the evaluation of known nationality-based stereotypes in T2I models, across 135 nationalities. We enrich an existing textual stereotype resource by distinguishing between stereotypical associations that are more likely to have visual depictions, such as `sombrero', from those that are less visually concrete, such as 'attractive'. We demonstrate ViSAGe's utility through a multi-faceted evaluation of T2I generations. First, we show that stereotypical attributes in ViSAGe are thrice as likely to be present in generated images of corresponding identities as compared to other attributes, and that the offensiveness of these depictions is especially higher for identities from Africa, South America, and South East Asia. Second, we assess the stereotypical pull of visual depictions of identity groups, which reveals how the 'default' representations of all identity groups in ViSAGe have a pull towards stereotypical depictions, and that this pull is even more prominent for identity groups from the Global South. CONTENT WARNING: Some examples contain offensive stereotypes. | 翻訳日:2024-07-17 02:14:47 公開日:2024-07-14 |
# Q&Aプロンプト:様々な世界知識を必要とするVQAに対する質問応答プロンプトのマイニングを通して、リッチなビジュアルクルーを発見する
Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge ( http://arxiv.org/abs/2401.10712v4 ) ライセンス: Link先を確認 | Haibi Wang, Weifeng Ge, | (参考訳) マルチモーダルな大規模言語モデルのブレークスルーによって、高度な推論能力と世界知識を要求する複雑な視覚的疑問に答えることが、AIモデルを開発する上でこれまで以上に重要なテストベッドになっている。
しかし、人間の認知スキームが体系的に理解されていないため、頑健な相互モダリティ推論能力を持つAIモデルを装備することは依然として困難である。
本稿では,与えられた画像の視覚的手がかりをできるだけ集めることができれば,画像をより正確に認識し,質問をよりよく理解し,関連する知識をより簡単に思い出し,最終的に答えを推論できると考えている。
画像中の問合せペアをマイニングし、複数のモーダルな大言語モデルにプロンプトとして送ることで、これらのリッチな視覚的手がかりを発見する。
提案手法をQ&A Promptsと呼ぶ。
具体的には、まず、視覚的な質問生成モデルをトレーニングするために、入力と出力として、トレーニングセット内の画像-問合せペアと対応する質問を使用する。
そして,画像タグモデルを用いて,様々なインスタンスを識別し,パッケージ化された画像タグペアを視覚質問生成モデルに送信し,抽出した画像タグと関連する質問を回答として生成する。
最後に、これらの生成した問合せペアを視覚認識プロンプトモジュールでプロンプトとしてエンコードし、学習済みのマルチモーダルな大言語モデルに送信し、最終的な答えを推論する。
実験結果から,我々のQ&A Promptsは最先端の手法と比較して,OK-VQAやA-OKVQAといった多種多様な世界知識の推論を必要とするデータセットの難解な視覚的質問応答に対する大幅な改善を実現していることがわかった。
With the breakthrough of multi-modal large language models, answering complex visual questions that demand advanced reasoning abilities and world knowledge has become a much more important testbed for developing AI models than ever. However, equipping AI models with robust cross-modality reasoning ability remains challenging since the cognition scheme of humans has not been understood systematically. In this paper, we believe that if we can collect visual clues in the given image as much as possible, we will recognize the image more accurately, understand the question better, recall relevant knowledge more easily, and finally reason out the answer. We discover these rich visual clues by mining question-answer pairs in images and sending them into multi-modal large language models as prompts. We call the proposed method Q&A Prompts. Specifically, we first use the image-answer pairs and the corresponding questions in the training set as inputs and outputs to train a visual question generation model. Then, we use an image tagging model to identify various instances and send packaged image-tag pairs into the visual question generation model to generate relevant questions with the extracted image tags as answers. Finally, we encode these generated question-answer pairs as prompts with a visual-aware prompting module and send them into pre-trained multi-modal large language models to reason out the final answers. Experimental results show that, compared with state-of-the-art methods, our Q&A Prompts achieves substantial improvements on the challenging visual question answering datasets requiring reasoning over diverse world knowledge, such as OK-VQA and A-OKVQA. | 翻訳日:2024-07-17 02:14:47 公開日:2024-07-14 |
# PEFTからDEFTへ:変圧器の活性化密度低減のためのパラメータ効率的なファインタニング
From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers ( http://arxiv.org/abs/2402.01911v2 ) ライセンス: Link先を確認 | Bharat Runwal, Tejaswini Pedapati, Pin-Yu Chen, | (参考訳) 事前訓練された言語モデル(PLM)は、下流タスクを微調整するための事実上の出発点となっている。
しかし、モデルのサイズが大きくなるにつれて、従来のパラメータの微調整は困難になる。
これを解決するために,パラメータ効率のよい微調整法(PEFT)がPLMを効果的に適応する手段として人気を集めている。
並行して、近年の研究では、トランスにおける多層パーセプトロン(MLP)ブロックの中間出力内に活性化空間の存在が明らかにされている。
低アクティベーション密度は、スパシティ対応ハードウェア上での効率的なモデル推論を可能にする。
この知見に基づいて、本研究では、事前訓練されたモデルにおいて、より高い活性化間隔(同様に、低い活性化密度)を促進する新しい密度損失を提案する。
本稿では,QLoRA,LoRA,Adapter,Prompt/Prefix TuningなどのPEFT技術を用いて,様々な下流タスクにまたがる効率的なモデル適応を容易にする手法の有効性を実証する。
実験により,提案手法はFlan-T5$_\mathrm{XXL}$(Density-Efficient Fine-Tuning)に対して,RoBERTa$_\mathrm{Large}$上の \textbf{44.94\%},Flan-T5$_\mathrm{XXL}$(SQuAD)ベンチマーク上で \textbf{53.19\%}(エンコーダ密度)および \textbf{90.60\%}(デコーダ密度)をPEFTと比較して,それぞれGLUEおよびQA(SQuAD)ベンチマークを用いて活性化密度を一定に低減できることがわかった。
また,提案手法の適応型である \textbf{ADA-DEFT} も導入した。
例えば、ADA-DEFT はランタイムを Flan-T5$_\mathrm{XL}$ で \textbf{8.79\%} と、Flan-T5$_\mathrm{XXL}$ で \textbf{2.79\%} と \textbf{2.54\%} で減らす。
さらに、DEFTは量子化および切断されたモデルと相補的に機能することを示した。
Pretrained Language Models (PLMs) have become the de facto starting point for fine-tuning on downstream tasks. However, as model sizes continue to increase, traditional fine-tuning of all the parameters becomes challenging. To address this, parameter-efficient fine-tuning (PEFT) methods have gained popularity as a means to adapt PLMs effectively. In parallel, recent studies have revealed the presence of activation sparsity within the intermediate outputs of the multilayer perceptron (MLP) blocks in transformers. Low activation density enables efficient model inference on sparsity-aware hardware. Building upon this insight, in this work, we propose a novel density loss that encourages higher activation sparsity (equivalently, lower activation density) in the pre-trained models. We demonstrate the effectiveness of our approach by utilizing mainstream PEFT techniques, including QLoRA, LoRA, Adapter, and Prompt/Prefix Tuning, to facilitate efficient model adaptation across diverse downstream tasks. Experiments show that our proposed method, \textbf{DEFT} (Density-Efficient Fine-Tuning), can consistently reduce activation density by up to \textbf{44.94\%} on RoBERTa$_\mathrm{Large}$ and by \textbf{53.19\%} (encoder density) and \textbf{90.60\%} (decoder density) on Flan-T5$_\mathrm{XXL}$ (\textbf{11B}) compared to PEFT, using GLUE and QA (SQuAD) benchmarks respectively. We also introduce \textbf{ADA-DEFT}, an adaptive variant of our DEFT approach, which achieves significant memory and runtime savings during inference. For instance, ADA-DEFT reduces runtime by \textbf{8.79\%}and memory usage by \textbf{17.46\%} in Flan-T5$_\mathrm{XL}$, and by \textbf{2.79\%} and \textbf{2.54\%} respectively in Flan-T5$_\mathrm{XXL}$. Additionally, we showcase that DEFT works complementarily with quantized and pruned models. | 翻訳日:2024-07-17 02:05:02 公開日:2024-07-14 |
# インストラクション・チューニングの限界について
A Closer Look at the Limitations of Instruction Tuning ( http://arxiv.org/abs/2402.05119v5 ) ライセンス: Link先を確認 | Sreyan Ghosh, Chandra Kiran Reddy Evuru, Sonal Kumar, Ramaneswaran S, Deepali Aneja, Zeyu Jin, Ramani Duraiswami, Dinesh Manocha, | (参考訳) 命令応答ペアを用いた大規模言語モデル(LLM)の訓練プロセスであるインストラクションチューニング(IT)が,ベースとなる事前学習されたLLMをオープンドメインの会話エージェントに変換する主要な方法として登場した。
ITは目覚ましい成功を収め、広く採用されているが、その限界と欠点は未解決のままである。
本稿では、厳密な実験と、LLMがITを通して行っている変化の詳細な分析を通して、ITの様々な限界を明らかにする。
特に,1)LLMにおける知識や技能の向上に失敗する。
LoRAファインチューニングは学習応答開始とスタイルトークンに限られており、フルパラメータのファインチューニングは知識の劣化につながる。
2)知識ソースから派生したITデータセットからの応答パターンのコピーは,応答品質の低下につながる。
(3)全パラメータの微調整は,ITデータセット内の概念的に類似したインスタンスからトークンを不正確な借用によって幻覚を増大させ,応答を生成する。
(4) IT 改善のための一般的な手法は,シンプルな LoRA 微調整モデルよりも性能改善につながるものではない。
この結果から,事前学習した知識のみから生成した応答は,オープンソースデータセット上でITから新たな知識を学習するモデルによって,一貫した応答性能が向上することが判明した。
この論文で明らかになった洞察と課題が、今後の研究を関連する方向に促すことを願っています。
Instruction Tuning (IT), the process of training large language models (LLMs) using instruction-response pairs, has emerged as the predominant method for transforming base pre-trained LLMs into open-domain conversational agents. While IT has achieved notable success and widespread adoption, its limitations and shortcomings remain underexplored. In this paper, through rigorous experiments and an in-depth analysis of the changes LLMs undergo through IT, we reveal various limitations of IT. In particular, we show that (1) IT fails to enhance knowledge or skills in LLMs. LoRA fine-tuning is limited to learning response initiation and style tokens, and full-parameter fine-tuning leads to knowledge degradation. (2) Copying response patterns from IT datasets derived from knowledgeable sources leads to a decline in response quality. (3) Full-parameter fine-tuning increases hallucination by inaccurately borrowing tokens from conceptually similar instances in the IT dataset for generating responses. (4) Popular methods to improve IT do not lead to performance improvements over a simple LoRA fine-tuned model. Our findings reveal that responses generated solely from pre-trained knowledge consistently outperform responses by models that learn any form of new knowledge from IT on open-source datasets. We hope the insights and challenges revealed in this paper inspire future work in related directions. | 翻訳日:2024-07-17 02:05:02 公開日:2024-07-14 |
# 選択学習:動的正規化によるロバスト校正に向けて
Selective Learning: Towards Robust Calibration with Dynamic Regularization ( http://arxiv.org/abs/2402.08384v2 ) ライセンス: Link先を確認 | Zongbo Han, Yifeng Yang, Changqing Zhang, Linjun Zhang, Joey Tianyi Zhou, Qinghua Hu, | (参考訳) ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
この問題は、通常、過度に適合する問題によって発生し、トレーニングセットに提示されたすべてのことを学ぶことで特徴づけられ、テスト中に過度に信頼される予測をもたらす。
既存の方法は、通常、目的関数に最大エントロピー正規化子を追加することで、過度に適合し、誤校正を軽減する。
本研究の目的は,信頼度を高めつつ,信頼度を下げることにより予測確率のエントロピーを最大化することにより,基盤トラストラベルに適合するモデルを求めることである。
しかし、従来の手法では信頼度調整の明確なガイダンスが欠如しており、矛盾する目標(増大するが信頼度も低下する)につながっている。
そこで我々は,トレーニング中に何を学ぶべきかを学習し,信頼度を調整するトレードオフを回避することを目的とした動的正規化(DReg)手法を提案する。
DRegは高いレベルで、自分が知っていることや知らないことを認識できる信頼性の高いモデルを得ることを目指している。
具体的には、DRegは、インディストリビューションサンプル(学習すべきサンプル)のラベルを効果的に適合させ、モデルの能力を超えるサンプル(例えば、外れ値)に動的に正規化を適用し、特にモデル能力を超えるサンプルに対して堅牢な校正モデルを得る。
理論的および経験的解析の両方が、従来の方法と比較してDRegの優位性を十分に証明している。
Miscalibration in deep learning refers to there is a discrepancy between the predicted confidence and performance. This problem usually arises due to the overfitting problem, which is characterized by learning everything presented in the training set, resulting in overconfident predictions during testing. Existing methods typically address overfitting and mitigate the miscalibration by adding a maximum-entropy regularizer to the objective function. The objective can be understood as seeking a model that fits the ground-truth labels by increasing the confidence while also maximizing the entropy of predicted probabilities by decreasing the confidence. However, previous methods lack clear guidance on confidence adjustment, leading to conflicting objectives (increasing but also decreasing confidence). Therefore, we introduce a method called Dynamic Regularization (DReg), which aims to learn what should be learned during training thereby circumventing the confidence adjusting trade-off. At a high level, DReg aims to obtain a more reliable model capable of acknowledging what it knows and does not know. Specifically, DReg effectively fits the labels for in-distribution samples (samples that should be learned) while applying regularization dynamically to samples beyond model capabilities (e.g., outliers), thereby obtaining a robust calibrated model especially on the samples beyond model capabilities. Both theoretical and empirical analyses sufficiently demonstrate the superiority of DReg compared with previous methods. | 翻訳日:2024-07-17 02:05:02 公開日:2024-07-14 |
# 単目的強化学習によるPWRコア再負荷最適化へのレガシーアプローチ
Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning ( http://arxiv.org/abs/2402.11040v2 ) ライセンス: Link先を確認 | Paul Seurin, Koroush Shirvan, | (参考訳) 原子炉コアの負荷パターンの最適化による燃料サイクルコストの最適化には、複数の目的と制約が伴う。
コアリロードパターンの最先端化のために,単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
これまでの研究では、これらのアプローチの基礎を築き、妥当な時間枠内で高品質なパターンを発見できることを実証しました。
一方,確率的最適化 (SO) の手法は文献で一般的に用いられているが,どの手法がどのシナリオで優れているかを示す厳密な説明はない。
本稿では, 遺伝的アルゴリズム (GA), 並列シミュレートアニーリング (PSA) と状態の混合, タブサーチ (TS) と, アンサンブルに基づく手法, 優先度付きリプレイ進化とスワームアルゴリズム (PESA) の2つに対して, RL に基づくアプローチの利点を示す。
本論文から得られたLPシナリオは,グローバル検索が期待できる研究方向を迅速に特定する上で有用であるが,これらの方向を効率的に活用するためには,局所探索に移行する必要がある。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
その後,PPOとPPOを長期に比較し,短いケースで見られる差が増大した。
全体として、この研究は、他の考慮されたアルゴリズムと比較して、PPOの統計的優位性を示す。
Optimizing the fuel cycle cost through the optimization of nuclear reactor core loading patterns involves multiple objectives and constraints, leading to a vast number of candidate solutions that cannot be explicitly solved. To advance the state-of-the-art in core reload patterns, we have developed methods based on Deep Reinforcement Learning (DRL) for both single- and multi-objective optimization. Our previous research has laid the groundwork for these approaches and demonstrated their ability to discover high-quality patterns within a reasonable time frame. On the other hand, stochastic optimization (SO) approaches are commonly used in the literature, but there is no rigorous explanation that shows which approach is better in which scenario. In this paper, we demonstrate the advantage of our RL-based approach, specifically using Proximal Policy Optimization (PPO), against the most commonly used SO-based methods: Genetic Algorithm (GA), Parallel Simulated Annealing (PSA) with mixing of states, and Tabu Search (TS), as well as an ensemble-based method, Prioritized Replay Evolutionary and Swarm Algorithm (PESA). We found that the LP scenarios derived in this paper are amenable to a global search to identify promising research directions rapidly, but then need to transition into a local search to exploit these directions efficiently and prevent getting stuck in local optima. PPO adapts its search capability via a policy with learnable weights, allowing it to function as both a global and local search method. Subsequently, we compared all algorithms against PPO in long runs, which exacerbated the differences seen in the shorter cases. Overall, the work demonstrates the statistical superiority of PPO compared to the other considered algorithms. | 翻訳日:2024-07-17 01:55:15 公開日:2024-07-14 |
# 長期連続予測のためのトラクターメモリ:カオス的視点
Attractor Memory for Long-Term Time Series Forecasting: A Chaos Perspective ( http://arxiv.org/abs/2402.11463v6 ) ライセンス: Link先を確認 | Jiaxi Hu, Yuehong Hu, Wei Chen, Ming Jin, Shirui Pan, Qingsong Wen, Yuxuan Liang, | (参考訳) 長期間の時系列予測(LTSF)タスクでは、離散時系列は連続力学系に由来すると認識され、それらの動的構造をモデル化しようとするモデルが増えている。
実世界のデータのカオス性を認識し、カオス理論をLTSFに組み込んで、未知の高次元カオス力学系からの観測として実世界の時系列を知覚する。
アトラオスは、非パラメトリック位相空間再構成とマルチスケール動的メモリユニットを用いて、歴史的力学構造を記憶し、周波数を拡大した局所進化戦略によって予測する。
詳細な理論的分析と豊富な経験的証拠は、Attraosが主流のLTSFデータセットやカオスデータセットにおいて、PatchTSTと比較してたったの12分の1のパラメータで、LTSFメソッドよりも優れていることを一貫して示している。
In long-term time series forecasting (LTSF) tasks, an increasing number of models have acknowledged that discrete time series originate from continuous dynamic systems and have attempted to model their dynamical structures. Recognizing the chaotic nature of real-world data, our model, \textbf{\textit{Attraos}}, incorporates chaos theory into LTSF, perceiving real-world time series as observations from unknown high-dimensional chaotic dynamic systems. Under the concept of attractor invariance, Attraos utilizes non-parametric Phase Space Reconstruction embedding and the proposed multi-scale dynamic memory unit to memorize historical dynamics structure and predicts by a frequency-enhanced local evolution strategy. Detailed theoretical analysis and abundant empirical evidence consistently show that Attraos outperforms various LTSF methods on mainstream LTSF datasets and chaotic datasets with only one-twelfth of the parameters compared to PatchTST. | 翻訳日:2024-07-17 01:55:15 公開日:2024-07-14 |
# 自然主義神経科学のための個人間の共有時空間脳波表現のコントラスト学習
Contrastive Learning of Shared Spatiotemporal EEG Representations Across Individuals for Naturalistic Neuroscience ( http://arxiv.org/abs/2402.14213v2 ) ライセンス: Link先を確認 | Xinke Shen, Lingyi Tao, Xuyang Chen, Sen Song, Quanying Liu, Dan Zhang, | (参考訳) 自然主義的な刺激によって誘発される神経表現は、人間の日常生活における刺激に対する反応に関する洞察を与える。
自然主義的刺激処理の根底にある神経機構を理解することは、個人間で一貫して存在する共有されたニューラルパターンの正確な識別と抽出に依存している。
本研究は,脳波(EEG)技術を用いて,個人間での共有時空間脳波のコントラスト学習(CL-SSTER)の枠組みを提案する。
CL-SSTERは、異なる刺激に対して異なる刺激に対して、個人間での脳波表現の類似性を最大化するために、対照的な学習を利用する。
このネットワークは、脳波に固有の空間的パターンと時間的パターンを同時に学習するために、空間的・時間的畳み込みを用いた。
CL-SSTERの汎用性は、合成データセット、自然な音声理解EEGデータセット、感情ビデオ監視EEGデータセットを含む3つのEEGデータセットで実証された。
CL-SSTERは、最先端のICC法と比較して、ISC(inter-ject correlation)の値が最も高い。
CL-SSTERによって生成された潜伏表現は、自然主義的刺激の特性によって説明できる信頼できる時空間脳波パターンを示した。
CL-SSTERは、自然主義神経科学において、オブジェクト間共有神経表現を識別するための解釈可能でスケーラブルなフレームワークとして機能する。
Neural representations induced by naturalistic stimuli offer insights into how humans respond to stimuli in daily life. Understanding neural mechanisms underlying naturalistic stimuli processing hinges on the precise identification and extraction of the shared neural patterns that are consistently present across individuals. Targeting the Electroencephalogram (EEG) technique, known for its rich spatial and temporal information, this study presents a framework for Contrastive Learning of Shared SpatioTemporal EEG Representations across individuals (CL-SSTER). CL-SSTER utilizes contrastive learning to maximize the similarity of EEG representations across individuals for identical stimuli, contrasting with those for varied stimuli. The network employed spatial and temporal convolutions to simultaneously learn the spatial and temporal patterns inherent in EEG. The versatility of CL-SSTER was demonstrated on three EEG datasets, including a synthetic dataset, a natural speech comprehension EEG dataset, and an emotional video watching EEG dataset. CL-SSTER attained the highest inter-subject correlation (ISC) values compared to the state-of-the-art ISC methods. The latent representations generated by CL-SSTER exhibited reliable spatiotemporal EEG patterns, which can be explained by properties of the naturalistic stimuli. CL-SSTER serves as an interpretable and scalable framework for the identification of inter-subject shared neural representations in naturalistic neuroscience. | 翻訳日:2024-07-17 01:55:15 公開日:2024-07-14 |
# Distrifusion:高分解能拡散モデルのための分散並列推論
DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models ( http://arxiv.org/abs/2402.19481v4 ) ライセンス: Link先を確認 | Muyang Li, Tianle Cai, Jiaxin Cao, Qinsheng Zhang, Han Cai, Junjie Bai, Yangqing Jia, Ming-Yu Liu, Kai Li, Song Han, | (参考訳) 拡散モデルは高品質な画像の合成において大きな成功を収めた。
しかし、拡散モデルによる高解像度画像の生成は、膨大な計算コストのために依然として困難であり、対話型アプリケーションでは禁止的なレイテンシが生じる。
本稿では,複数のGPUにまたがる並列性を活用することで,この問題に対処するDistriFusionを提案する。
提案手法では,モデル入力を複数のパッチに分割し,各パッチをGPUに割り当てる。
しかし、そのようなアルゴリズムをネーティブに実装すると、パッチ間の相互作用が損なわれ、忠実さが失われる一方、そのような相互作用が組み込まれれば、膨大な通信オーバーヘッドが発生する。
このジレンマを克服するために、隣接拡散ステップからの入力間の高い類似性を観察し、事前計算された特徴写像を前回から再利用して拡散過程の逐次的性質を生かした変位パッチ並列性を提案する。
そこで本手法は,計算によってパイプライン化可能な非同期通信をサポートする。
その結果,本手法は最近の安定拡散XLに対して,品質劣化のない適用が可能であり,NVIDIA A100の8台に対して最大6.1$\times$の高速化を実現することができた。
私たちのコードはhttps://github.com/mit-han-lab/distrifuser.comで公開されています。
Diffusion models have achieved great success in synthesizing high-quality images. However, generating high-resolution images with diffusion models is still challenging due to the enormous computational costs, resulting in a prohibitive latency for interactive applications. In this paper, we propose DistriFusion to tackle this problem by leveraging parallelism across multiple GPUs. Our method splits the model input into multiple patches and assigns each patch to a GPU. However, naively implementing such an algorithm breaks the interaction between patches and loses fidelity, while incorporating such an interaction will incur tremendous communication overhead. To overcome this dilemma, we observe the high similarity between the input from adjacent diffusion steps and propose displaced patch parallelism, which takes advantage of the sequential nature of the diffusion process by reusing the pre-computed feature maps from the previous timestep to provide context for the current step. Therefore, our method supports asynchronous communication, which can be pipelined by computation. Extensive experiments show that our method can be applied to recent Stable Diffusion XL with no quality degradation and achieve up to a 6.1$\times$ speedup on eight NVIDIA A100s compared to one. Our code is publicly available at https://github.com/mit-han-lab/distrifuser. | 翻訳日:2024-07-17 01:45:18 公開日:2024-07-14 |
# SynCode: 文法拡張によるLLM生成
SynCode: LLM Generation with Grammar Augmentation ( http://arxiv.org/abs/2403.01632v3 ) ライセンス: Link先を確認 | Shubham Ugare, Tarun Suresh, Hangoo Kang, Sasa Misailovic, Gagandeep Singh, | (参考訳) LLMは複雑なAIアプリケーションで広く使われている。
これらのアプリケーションは、システム内の他のコンポーネントと統合するために、特定のフォーマットに準拠するLLM出力の必要性を強調している。
通常、JSON、YAML、プログラミング言語のコードといったデータシリアライズフォーマットのフォーマットルールは、文脈自由文法(CFG)として表現される。
LLMの幻覚と信頼性の欠如により、特定の構文に従うようLLMに指示することがますます重要な課題となっている。
我々は,この課題に対処するために,LLMを用いた効率的で汎用的な構文デコーディングのための新しいフレームワークであるSynCodeを提案する。
SynCodeは、形式言語のCFGに対する健全性と完全性を保証し、無効なトークンをフィルタリングしながら有効なトークンを効果的に保持する。
SynCodeはオフラインで構築された効率的なルックアップテーブルであるDFAマスクストアを使用している。
SynCodeは、JSON、Python、Go出力の生成に焦点を当てた実験によって証明されたように、CFGによって定義された任意の言語とシームレスに統合される。
SynCode for JSON生成の有効性を評価する実験により、SynCodeはすべての構文エラーを排除し、最先端のベースラインを大幅に上回ることを示した。
さらに、SynCodeが生成したPythonおよびGoコードの構文エラーの96.07%を大幅に削減し、LLM生成における構文精度の向上に大きく影響したことを示す。
私たちのコードはhttps://github.com/uiuc-focal-lab/syncodeで利用可能です。
LLMs are widely used in complex AI applications. These applications underscore the need for LLM outputs to adhere to a specific format, for their integration with other components in the systems. Typically the format rules e.g., for data serialization formats such as JSON, YAML, or Code in Programming Language are expressed as context-free grammar (CFG). Due to the hallucinations and unreliability of LLMs, instructing LLMs to adhere to specified syntax becomes an increasingly important challenge. We present SynCode, a novel framework for efficient and general syntactical decoding with LLMs, to address this challenge. SynCode ensures soundness and completeness with respect to the CFG of a formal language, effectively retaining valid tokens while filtering out invalid ones. SynCode uses an offline-constructed, efficient lookup table, the DFA mask store, derived from the DFA of the language's grammar for efficient generation. SynCode seamlessly integrates with any language defined by CFG, as evidenced by experiments focusing on generating JSON, Python, and Go outputs. Our experiments evaluating the effectiveness of SynCode for JSON generation demonstrate that SynCode eliminates all syntax errors and significantly outperforms state-of-the-art baselines. Furthermore, our results underscore how SynCode significantly reduces 96.07% of syntax errors in generated Python and Go code, showcasing its substantial impact on enhancing syntactical precision in LLM generation. Our code is available at https://github.com/uiuc-focal-lab/syncode | 翻訳日:2024-07-17 01:45:18 公開日:2024-07-14 |
# 持続可能なスマート生態系のためのディジタルツイン進化
Digital Twin Evolution for Sustainable Smart Ecosystems ( http://arxiv.org/abs/2403.07162v2 ) ライセンス: Link先を確認 | Istvan David, Judith Michael, Dominik Bork, | (参考訳) スマートエコシステムは現代社会の原動力である。
社会技術的・経済的重要性のインフラを制御し、安定的で持続可能な運営を確実にする。
スマートエコシステムは、物理的なインフラストラクチャのリアルタイム仮想表現であるデジタルツインによって管理されている。
スマートエコシステムのオープンでリアクティブな特性をサポートするためには、ディジタル双生児は、状況の変化に反応して進化できる必要がある。
しかし、デジタル双対進化は、物理的およびソフトウェアコンポーネントの相互に絡み合った性質とその個々の進化によって挑戦される。
結果として、ソフトウェア実践者は、デジタルツイン進化のシナリオや、デジタルツイン進化そのものに関する知識の欠如に適用し難い、ソフトウェア進化に関するかなりの知識を見出します。
本論文の目的は,デジタル双生児の進化的関心事の理解と管理に向けて,ソフトウェア実践者に具体的な手がかりを提供することである。
我々は、デジタル双生児進化の7R分類の使い方を説明するために、市民エネルギーコミュニティケースで文脈化された4つの異なるデジタル双生児進化シナリオを使用する。
これによって、ソフトウェアエンジニアリングのプラクティスを活用して堅牢なスマートエコシステムを開発する上で、大きなギャップを埋めることを目指しています。
Smart ecosystems are the drivers of modern society. They control infrastructures of socio-techno-economic importance, ensuring their stable and sustainable operation. Smart ecosystems are governed by digital twins -- real-time virtual representations of physical infrastructure. To support the open-ended and reactive traits of smart ecosystems, digital twins need to be able to evolve in reaction to changing conditions. However, digital twin evolution is challenged by the intertwined nature of physical and software components, and their individual evolution. As a consequence, software practitioners find a substantial body of knowledge on software evolution hard to apply in digital twin evolution scenarios and a lack of knowledge on the digital twin evolution itself. The aim of this paper, consequently, is to provide software practitioners with tangible leads toward understanding and managing the evolutionary concerns of digital twins. We use four distinct digital twin evolution scenarios, contextualized in a citizen energy community case to illustrate the usage of the 7R taxonomy of digital twin evolution. By that, we aim to bridge a significant gap in leveraging software engineering practices to develop robust smart ecosystems. | 翻訳日:2024-07-17 01:35:33 公開日:2024-07-14 |
# MoAI: 大規模言語と視覚モデルのための全知の混合
MoAI: Mixture of All Intelligence for Large Language and Vision Models ( http://arxiv.org/abs/2403.07508v2 ) ライセンス: Link先を確認 | Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro, | (参考訳) 大規模言語モデル(LLM)と命令チューニングの台頭は、命令調整された大規模言語とビジョンモデル(LLVM)の現在のトレンドにつながっている。
この傾向は、特定の目的に合わせて調整された多数の命令チューニングデータセットを慎重にキュレートするか、膨大な視覚言語(VL)データを管理するためにLLVMを拡大することを含む。
しかし、現在のLLVMは、セグメンテーション、検出、シーングラフ生成(SGG)、光学文字認識(OCR)といった視覚的知覚タスクにおいて、特殊なコンピュータビジョン(CV)モデルから利用できる詳細で包括的な実世界のシーン理解を無視している。
代わりに、既存のLLVMは、主にLLMバックボーンのキャパシティと創発能力に依存している。
そこで我々は,外部セグメンテーション,検出,SGG,OCRモデルの出力から得られる補助視覚情報を活用する新しいLLVM,Mixture of All Intelligence (MoAI)を提案する。
MoAIは新たに導入されたMoAI-CompressorとMoAI-Mixerの2つのモジュールを運用している。
外部CVモデルの出力を言語化した後、MoAI圧縮機はそれらを整列して凝縮させ、VLタスクに関連した視覚情報を効率的に利用する。
次に、MoAI-Mixerは、(1)視覚的特徴、(2)外部CVモデルからの補助特徴、(3)言語特徴の3種類のインテリジェンスを、エキスパートの混合の概念を利用してブレンドする。
この統合により、MoAIは、多数のゼロショットVLタスク、特にオブジェクトの存在、位置、関係、OCRといった現実世界のシーン理解に関連するタスクにおいて、モデルサイズを拡大したり、余分なビジュアルインストラクションチューニングデータセットをキュレートしたりすることなく、オープンソースとクローズドソースのLLVMを著しく上回っている。
The rise of large language models (LLMs) and instruction tuning has led to the current trend of instruction-tuned large language and vision models (LLVMs). This trend involves either meticulously curating numerous instruction tuning datasets tailored to specific objectives or enlarging LLVMs to manage vast amounts of vision language (VL) data. However, current LLVMs have disregarded the detailed and comprehensive real-world scene understanding available from specialized computer vision (CV) models in visual perception tasks such as segmentation, detection, scene graph generation (SGG), and optical character recognition (OCR). Instead, the existing LLVMs rely mainly on the large capacity and emergent capabilities of their LLM backbones. Therefore, we present a new LLVM, Mixture of All Intelligence (MoAI), which leverages auxiliary visual information obtained from the outputs of external segmentation, detection, SGG, and OCR models. MoAI operates through two newly introduced modules: MoAI-Compressor and MoAI-Mixer. After verbalizing the outputs of the external CV models, the MoAI-Compressor aligns and condenses them to efficiently use relevant auxiliary visual information for VL tasks. MoAI-Mixer then blends three types of intelligence (1) visual features, (2) auxiliary features from the external CV models, and (3) language features by utilizing the concept of Mixture of Experts. Through this integration, MoAI significantly outperforms both open-source and closed-source LLVMs in numerous zero-shot VL tasks, particularly those related to real-world scene understanding such as object existence, positions, relations, and OCR without enlarging the model size or curating extra visual instruction tuning datasets. | 翻訳日:2024-07-17 01:35:33 公開日:2024-07-14 |
# GaussCtrl: テキスト駆動型3Dガウス分割編集
GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing ( http://arxiv.org/abs/2403.08733v4 ) ライセンス: Link先を確認 | Jing Wu, Jia-Wang Bian, Xinghui Li, Guangrun Wang, Ian Reid, Philip Torr, Victor Adrian Prisacariu, | (参考訳) 本稿では,3Dガウススティング(3DGS)によって再構成された3Dシーンをテキスト駆動で編集するGussCtrlを提案する。
まず3DGSを用いて画像の集合をレンダリングし、入力プロンプトに基づいて事前学習した2D拡散モデル(ControlNet)を用いて編集し、3Dモデルを最適化する。
これにより、以前のように3Dモデルを更新しながら、1つの画像を反復的に編集する代わりに、すべての画像を一緒に編集することが可能になる。
これにより、より高速な編集が可能となり、視覚的品質も向上する。
これは2つの条件によって達成される。
(a)自然に一貫した深度マップを活用することにより、多視点画像間の幾何的整合性を実現する深度条件付き編集。
(b)注目に基づく遅延コードアライメントは、画像の潜在表現間の自己および横断的な注目を通して、複数の参照ビューに編集を条件付けることにより、編集画像の外観を統一する。
実験により,従来の最先端手法よりも高速な編集と視覚効果が得られた。
We propose GaussCtrl, a text-driven method to edit a 3D scene reconstructed by the 3D Gaussian Splatting (3DGS). Our method first renders a collection of images by using the 3DGS and edits them by using a pre-trained 2D diffusion model (ControlNet) based on the input prompt, which is then used to optimise the 3D model. Our key contribution is multi-view consistent editing, which enables editing all images together instead of iteratively editing one image while updating the 3D model as in previous works. It leads to faster editing as well as higher visual quality. This is achieved by the two terms: (a) depth-conditioned editing that enforces geometric consistency across multi-view images by leveraging naturally consistent depth maps. (b) attention-based latent code alignment that unifies the appearance of edited images by conditioning their editing to several reference views through self and cross-view attention between images' latent representations. Experiments demonstrate that our method achieves faster editing and better visual results than previous state-of-the-art methods. | 翻訳日:2024-07-17 01:35:33 公開日:2024-07-14 |
# IP保護のための透かし付き拡散モデル
A Watermark-Conditioned Diffusion Model for IP Protection ( http://arxiv.org/abs/2403.10893v2 ) ライセンス: Link先を確認 | Rui Min, Sen Li, Hongyang Chen, Minhao Cheng, | (参考訳) AI生成コンテンツを保護するための倫理的必要性は、近年で重要な懸念事項となっている。
既存の透かし手法は、合成内容の検出(検出)に成功したが、単一モデル(所有者識別)からこれらの出力を生成する責任のあるユーザを特定するには限界がある。
本稿では,両シナリオに焦点をあて,拡散モデルにおけるコンテンツ著作権保護のための統一的な透かしフレームワークを提案する。
具体的には、APIを介して拡散モデルにパブリックアクセスを許可するモデルプロバイダと、モデルAPIのみをクエリしてブラックボックス方式で画像を生成するユーザである。
我々のタスクは、生成したコンテンツに隠された情報を埋め込むことで、さらなる検出と所有者の識別を容易にする。
この課題に対処するために、WaDiffと呼ばれるWadmark条件付き拡散モデルを提案し、このモデルにより、透かしを条件付き入力として操作し、フィンガープリントを生成プロセスに組み込む。
WaDiffから得られる生成出力はすべて、ユーザ固有の情報を持ち、画像抽出器で検索でき、さらに法医学的識別を容易にする。
本研究では,2つの拡散モデルを用いて大規模な実験を行い,本手法が検出タスクと所有者識別タスクの両方において有効かつ堅牢であることを実証した。
一方,我々の透かしの枠組みは,従来の透かしの手法と比較して,従来の世代に対して無視できる影響しか与えず,よりステルスで効率的である。
The ethical need to protect AI-generated content has been a significant concern in recent years. While existing watermarking strategies have demonstrated success in detecting synthetic content (detection), there has been limited exploration in identifying the users responsible for generating these outputs from a single model (owner identification). In this paper, we focus on both practical scenarios and propose a unified watermarking framework for content copyright protection within the context of diffusion models. Specifically, we consider two parties: the model provider, who grants public access to a diffusion model via an API, and the users, who can solely query the model API and generate images in a black-box manner. Our task is to embed hidden information into the generated contents, which facilitates further detection and owner identification. To tackle this challenge, we propose a Watermark-conditioned Diffusion model called WaDiff, which manipulates the watermark as a conditioned input and incorporates fingerprinting into the generation process. All the generative outputs from our WaDiff carry user-specific information, which can be recovered by an image extractor and further facilitate forensic identification. Extensive experiments are conducted on two popular diffusion models, and we demonstrate that our method is effective and robust in both the detection and owner identification tasks. Meanwhile, our watermarking framework only exerts a negligible impact on the original generation and is more stealthy and efficient in comparison to existing watermarking strategies. | 翻訳日:2024-07-17 01:25:37 公開日:2024-07-14 |
# 対向軌道の断面積に沿った多角化による視覚言語攻撃の伝達性向上
Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory ( http://arxiv.org/abs/2403.12445v3 ) ライセンス: Link先を確認 | Sensen Gao, Xiaojun Jia, Xuhong Ren, Ivor Tsang, Qing Guo, | (参考訳) 視覚言語事前学習(VLP)モデルは、画像とテキストの両方を解釈する際、顕著な能力を示すが、多モーダル対逆例(AE)の影響を受けやすい。
攻撃の強化と脆弱性の発見、特にVLPモデルの一般的な問題(高転送性AEなど)は、信頼性と実用的なVLPモデルを前進させる可能性がある。
最近の研究(すなわち、セットレベル誘導攻撃)は、最適化経路に沿ってAEの多様性を高めるために画像とテキストのペアを増大させることが、敵の例の転送可能性を大幅に向上させることを示している。
しかし、このアプローチは、主にオンライン敵の事例(すなわち最適化期間におけるAE)の多様性を強調し、被害者モデルに過度に適合し、転送可能性に影響を与えるリスクをもたらす。
本研究では,VLPモデル間の転送可能性を高めるために,クリーンインプットとオンラインAEに対する逆例の多様性が重要であることを示唆する。
そこで本稿では,AEsの多様性を拡大するために,対向軌道の交差領域に沿った多様化手法を提案する。
モダリティ間の相互作用をフル活用するために,最適化中のテキスト誘導対逆例選択を導入する。
さらに,潜在的なオーバーフィッティングを緩和するために,既存手法のような逆画像ではなく,最適化経路に沿った最終交差点領域から逸脱した逆テキストを指示する。
広汎な実験により,様々なVLPモデル間の伝達性向上と,下流の視覚・言語タスクの有効性が確認された。
Vision-language pre-training (VLP) models exhibit remarkable capabilities in comprehending both images and text, yet they remain susceptible to multimodal adversarial examples (AEs). Strengthening attacks and uncovering vulnerabilities, especially common issues in VLP models (e.g., high transferable AEs), can advance reliable and practical VLP models. A recent work (i.e., Set-level guidance attack) indicates that augmenting image-text pairs to increase AE diversity along the optimization path enhances the transferability of adversarial examples significantly. However, this approach predominantly emphasizes diversity around the online adversarial examples (i.e., AEs in the optimization period), leading to the risk of overfitting the victim model and affecting the transferability. In this study, we posit that the diversity of adversarial examples towards the clean input and online AEs are both pivotal for enhancing transferability across VLP models. Consequently, we propose using diversification along the intersection region of adversarial trajectory to expand the diversity of AEs. To fully leverage the interaction between modalities, we introduce text-guided adversarial example selection during optimization. Furthermore, to further mitigate the potential overfitting, we direct the adversarial text deviating from the last intersection region along the optimization path, rather than adversarial images as in existing methods. Extensive experiments affirm the effectiveness of our method in improving transferability across various VLP models and downstream vision-and-language tasks. | 翻訳日:2024-07-17 01:25:37 公開日:2024-07-14 |
# 戦術ネットワークにおける空間時間グラフ表現学習の現状と将来予測
Spatial-Temporal Graph Representation Learning for Tactical Networks Future State Prediction ( http://arxiv.org/abs/2403.13872v3 ) ライセンス: Link先を確認 | Junhua Liu, Justin Albrethsen, Lincoln Goh, David Yau, Kwan Hui Lim, | (参考訳) 戦術的アドホックネットワークにおける資源配分は、その動的およびマルチホップの性質から、ユニークな課題を示す。
将来のネットワーク接続の正確な予測は、そのような環境での効果的な資源配分に不可欠である。
本稿では,ネットワーク状態の空間的特徴と時間的特徴を活用して潜在的戦術行動を効果的に学習する,時空間グラフエンコーダ・デコーダ(STGED)フレームワークを提案する。
STGEDはグラフベースの注意機構を利用して一連の通信ネットワーク状態を空間的にエンコードし、リカレントニューラルネットワークを使って状態の進化を時間的にエンコードする。
広範にわたる実験により,STGED は,戦術通信ネットワークの将来の状態予測タスクに対して,最大99.2\% の精度を達成し,異なる時間ステップの入力に対する大きなマージンでベースラインモデルより一貫して優れることを示した。
Resource allocation in tactical ad-hoc networks presents unique challenges due to their dynamic and multi-hop nature. Accurate prediction of future network connectivity is essential for effective resource allocation in such environments. In this paper, we introduce the Spatial-Temporal Graph Encoder-Decoder (STGED) framework for Tactical Communication Networks that leverages both spatial and temporal features of network states to learn latent tactical behaviors effectively. STGED hierarchically utilizes graph-based attention mechanism to spatially encode a series of communication network states, leverages a recurrent neural network to temporally encode the evolution of states, and a fully-connected feed-forward network to decode the connectivity in the future state. Through extensive experiments, we demonstrate that STGED consistently outperforms baseline models by large margins across different time-steps input, achieving an accuracy of up to 99.2\% for the future state prediction task of tactical communication networks. | 翻訳日:2024-07-17 01:25:37 公開日:2024-07-14 |
# チェス演奏言語モデルにおける創発的世界モデルと潜在変数推定
Emergent World Models and Latent Variable Estimation in Chess-Playing Language Models ( http://arxiv.org/abs/2403.15498v2 ) ライセンス: Link先を確認 | Adam Karvonen, | (参考訳) 言語モデルは前例のない機能を示し、そのパフォーマンスの源泉に関する議論を巻き起こした。
単に構文パターンと表面レベルの統計学を学習した結果なのか、それともテキストから意味論と世界モデルを取り出すのか?
Liらによる以前の研究は、合成されたランダムに生成されたオセロゲーム上でGPTモデルをトレーニングすることでこれを調査し、モデルがボード状態の内部表現を学んだことを発見した。
我々は、この研究をより複雑なチェスの領域に拡張し、実際のゲームでトレーニングし、線形プローブと対照的なアクティベーションを用いてモデルの内部表現を調査します。
このモデルはゲームの事前知識を与えられず、次のキャラクタ予測にのみ訓練されているが、ボード状態の内部表現の証拠は見つからない。
我々は、これらの内部表現をモデルの実行に介入し、内部のボード状態を編集することで検証する。
Li et al の以前の合成データセットアプローチとは異なり、我々の分析では、このモデルがプレイヤースキルのような潜伏変数を推定し、次のキャラクタをより正確に予測する。
プレイヤースキルベクトルを導出してモデルに追加し、モデルの勝利率を最大2.6倍改善する。
Language models have shown unprecedented capabilities, sparking debate over the source of their performance. Is it merely the outcome of learning syntactic patterns and surface level statistics, or do they extract semantics and a world model from the text? Prior work by Li et al. investigated this by training a GPT model on synthetic, randomly generated Othello games and found that the model learned an internal representation of the board state. We extend this work into the more complex domain of chess, training on real games and investigating our model's internal representations using linear probes and contrastive activations. The model is given no a priori knowledge of the game and is solely trained on next character prediction, yet we find evidence of internal representations of board state. We validate these internal representations by using them to make interventions on the model's activations and edit its internal board state. Unlike Li et al's prior synthetic dataset approach, our analysis finds that the model also learns to estimate latent variables like player skill to better predict the next character. We derive a player skill vector and add it to the model, improving the model's win rate by up to 2.6 times. | 翻訳日:2024-07-17 01:25:37 公開日:2024-07-14 |
# 野生のガウシアン:非拘束画像収集のための3Dガウシアンスプラッティング
Gaussian in the Wild: 3D Gaussian Splatting for Unconstrained Image Collections ( http://arxiv.org/abs/2403.15704v2 ) ライセンス: Link先を確認 | Dongbin Zhang, Chuming Wang, Weitao Wang, Peihao Li, Minghan Qin, Haoqian Wang, | (参考訳) 未制約画像からの新たなビュー合成は、有意義だが難しい課題である。
これらの制約のない画像における光度変化と過渡オクルーダは、元のシーンを正確に再構築することが困難である。
従来のアプローチでは、Neural Radiance Fields(NeRF)のグローバルな外観機能を導入して、この問題に対処していた。
しかし、現実の世界では、シーン内の各小さな点の独特の外観は、その独立した固有の材料特性と、それが受ける様々な環境影響によって決定される。
この事実に触発されて,3次元ガウス点を用いてシーンを再構成する手法であるGaussian in the wild (GS-W)を提案する。
さらに、各ガウス点が局所的および詳細な情報により効果的に集中できるように適応的なサンプリング戦略が提示される。
また,2次元視認性マップを用いて,過渡性咬合者への影響を低減した。
より多くの実験により、より高速なレンダリング速度で、NeRFベースの手法と比較してGS-Wの再現性や細部が向上した。
ビデオの結果とコードはhttps://eastbeanzhang.github.io/GS-W/.comで公開されている。
Novel view synthesis from unconstrained in-the-wild images remains a meaningful but challenging task. The photometric variation and transient occluders in those unconstrained images make it difficult to reconstruct the original scene accurately. Previous approaches tackle the problem by introducing a global appearance feature in Neural Radiance Fields (NeRF). However, in the real world, the unique appearance of each tiny point in a scene is determined by its independent intrinsic material attributes and the varying environmental impacts it receives. Inspired by this fact, we propose Gaussian in the wild (GS-W), a method that uses 3D Gaussian points to reconstruct the scene and introduces separated intrinsic and dynamic appearance feature for each point, capturing the unchanged scene appearance along with dynamic variation like illumination and weather. Additionally, an adaptive sampling strategy is presented to allow each Gaussian point to focus on the local and detailed information more effectively. We also reduce the impact of transient occluders using a 2D visibility map. More experiments have demonstrated better reconstruction quality and details of GS-W compared to NeRF-based methods, with a faster rendering speed. Video results and code are available at https://eastbeanzhang.github.io/GS-W/. | 翻訳日:2024-07-17 01:15:36 公開日:2024-07-14 |
# SUP-NeRF:モノクロ3次元物体再構成のためのポス推定とNeRFの合理化
SUP-NeRF: A Streamlined Unification of Pose Estimation and NeRF for Monocular 3D Object Reconstruction ( http://arxiv.org/abs/2403.15705v2 ) ライセンス: Link先を確認 | Yuliang Guo, Abhinav Kumar, Cheng Zhao, Ruoyu Wang, Xinyu Huang, Liu Ren, | (参考訳) 分類対象に対する単眼的な3D再構成は、各対象のポーズを正確に知覚することに大きく依存している。
NeRFフレームワークにおける勾配に基づく最適化は初期ポーズを更新するが,本論文では,初期ポーズが真のポーズから適度に逸脱した場合,モノクルオブジェクト再構成におけるスケール-深さのあいまいさが失敗を引き起こすことを強調する。
その結果、既存の手法は初期オブジェクトのポーズを提供するために第三者の3Dオブジェクトに依存することが多く、複雑さと一般化の問題が増大する。
これらの課題に対処するために, SUP-NeRF, オブジェクトポス推定の合理化とNeRFに基づくオブジェクト再構成を提案する。
SUP-NeRFは、オブジェクトの次元推定を分離し、スケールと深さのあいまいさを解決するために改善を施し、異なる領域を一般化するカメラ不変の射影箱表現を導入している。
オブジェクト中心のNeRFにスムーズに統合される専用のポーズ推定器を使用することで、SUP-NeRFは外部の3D検出器から解放される。
SUP-NeRFは、nuScenesデータセットの再構築とポーズ推定の両方で最先端の結果を達成する。
さらに、SUP-NeRFは、KITTIとWaymoのデータセットに例外的なクロスデータセットの一般化を示し、ローテーションと翻訳エラーを最大50%削減する以前の手法を超越している。
Monocular 3D reconstruction for categorical objects heavily relies on accurately perceiving each object's pose. While gradient-based optimization in a NeRF framework updates the initial pose, this paper highlights that scale-depth ambiguity in monocular object reconstruction causes failures when the initial pose deviates moderately from the true pose. Consequently, existing methods often depend on a third-party 3D object to provide an initial object pose, leading to increased complexity and generalization issues. To address these challenges, we present SUP-NeRF, a Streamlined Unification of object Pose estimation and NeRF-based object reconstruction. SUP-NeRF decouples the object's dimension estimation and pose refinement to resolve the scale-depth ambiguity, and introduces a camera-invariant projected-box representation that generalizes cross different domains. While using a dedicated pose estimator that smoothly integrates into an object-centric NeRF, SUP-NeRF is free from external 3D detectors. SUP-NeRF achieves state-of-the-art results in both reconstruction and pose estimation tasks on the nuScenes dataset. Furthermore, SUP-NeRF exhibits exceptional cross-dataset generalization on the KITTI and Waymo datasets, surpassing prior methods with up to 50\% reduction in rotation and translation error. | 翻訳日:2024-07-17 01:15:36 公開日:2024-07-14 |
# DPStyler: ソースフリードメイン一般化のための動的PromptStyler
DPStyler: Dynamic PromptStyler for Source-Free Domain Generalization ( http://arxiv.org/abs/2403.16697v2 ) ライセンス: Link先を確認 | Yunlong Tang, Yuxuan Wan, Lei Qi, Xin Geng, | (参考訳) Source-Free Domain Generalization (SFDG) は、ソースドメインに頼ることなく、未確認のターゲットドメインに対して機能するモデルを開発することを目的としている。
SFDGの研究は、主に大規模視覚言語モデルの既存の知識に基づいており、事前訓練されたモデルの合同視覚言語空間を利用して、ドメイン間のスタイル転送をシミュレートし、ソースドメインイメージへの依存を排除している。
しかし、テキストプロンプトを用いてリッチで多様なスタイルを効率的にシミュレートする方法や、エンコーダの後に意味情報とスタイル情報の両方を含む特徴から分類に有用なドメイン不変情報を抽出する方法は、改善に値する方向である。
本稿では,これらの問題に対処するためのスタイル生成モジュールとスタイル削除モジュールからなる動的プロンプトタイラー(DPStyler)を紹介する。
Style Generationモジュールはすべてのトレーニングエポックですべてのスタイルをリフレッシュするが、Style removalモジュールは入力スタイルに起因するエンコーダの出力機能のバリエーションを取り除く。
さらに、ランダムサンプリングやスタイルミキシングを用いたスタイルワードベクトルの生成に責任を持つスタイル生成モジュールは、入力テキストプロンプトに敏感なモデルを生成するため、この感度を緩和するモデルアンサンブル法を導入する。
大規模な実験により、我々のフレームワークはベンチマークデータセット上で最先端の手法より優れていることが示された。
Source-Free Domain Generalization (SFDG) aims to develop a model that works for unseen target domains without relying on any source domain. Research in SFDG primarily bulids upon the existing knowledge of large-scale vision-language models and utilizes the pre-trained model's joint vision-language space to simulate style transfer across domains, thus eliminating the dependency on source domain images. However, how to efficiently simulate rich and diverse styles using text prompts, and how to extract domain-invariant information useful for classification from features that contain both semantic and style information after the encoder, are directions that merit improvement. In this paper, we introduce Dynamic PromptStyler (DPStyler), comprising Style Generation and Style Removal modules to address these issues. The Style Generation module refreshes all styles at every training epoch, while the Style Removal module eliminates variations in the encoder's output features caused by input styles. Moreover, since the Style Generation module, responsible for generating style word vectors using random sampling or style mixing, makes the model sensitive to input text prompts, we introduce a model ensemble method to mitigate this sensitivity. Extensive experiments demonstrate that our framework outperforms state-of-the-art methods on benchmark datasets. | 翻訳日:2024-07-17 01:15:36 公開日:2024-07-14 |
# WordRobe:テクスチャ付き3Dガーメントのテキストガイド
WordRobe: Text-Guided Generation of Textured 3D Garments ( http://arxiv.org/abs/2403.17541v2 ) ライセンス: Link先を確認 | Astitva Srivastava, Pranav Manu, Amit Raj, Varun Jampani, Avinash Sharma, | (参考訳) 本稿では,高品質なテクスチャを用いた3D衣料のテクスチャ生成という,テキスト駆動による新たな課題に取り組む。
ユーザフレンドリーなテキストプロンプトから非ポーズでテクスチャ化された3Dメッシュを生成するための新しいフレームワークであるWordRobeを提案する。
そこで我々は,新しい粗いトレーニング戦略と潜伏解離の損失を用いて3次元衣服の潜伏表現を学習し,より潜伏補間を促進させることにより,これを実現した。
その後,布地をCLIP埋め込み空間に整列させ,テキストによる3D衣料生成と編集を可能にする。
外観モデリングでは、制御ネットのゼロショット生成機能を利用して、単一のフィードフォワード推論ステップでビュー一貫性のあるテクスチャマップを合成し、既存の手法と比較して生成時間を劇的に短縮する。
定量的評価と質的ユーザスタディによって支援された3次元衣服の潜伏空間、衣服補間、テキスト駆動テクスチャ合成の学習において、現在のSOTAよりも優れた性能を示す。
WordRobeを使って生成された非ポーズの3Dメッシュは、後処理なしで標準的な布のシミュレーションとアニメーションパイプラインに直接供給することができる。
In this paper, we tackle a new and challenging problem of text-driven generation of 3D garments with high-quality textures. We propose "WordRobe", a novel framework for the generation of unposed & textured 3D garment meshes from user-friendly text prompts. We achieve this by first learning a latent representation of 3D garments using a novel coarse-to-fine training strategy and a loss for latent disentanglement, promoting better latent interpolation. Subsequently, we align the garment latent space to the CLIP embedding space in a weakly supervised manner, enabling text-driven 3D garment generation and editing. For appearance modeling, we leverage the zero-shot generation capability of ControlNet to synthesize view-consistent texture maps in a single feed-forward inference step, thereby drastically decreasing the generation time as compared to existing methods. We demonstrate superior performance over current SOTAs for learning 3D garment latent space, garment interpolation, and text-driven texture synthesis, supported by quantitative evaluation and qualitative user study. The unposed 3D garment meshes generated using WordRobe can be directly fed to standard cloth simulation & animation pipelines without any post-processing. | 翻訳日:2024-07-17 01:15:36 公開日:2024-07-14 |
# 大規模言語モデルを用いた意思決定における不確実性の重要性について
On the Importance of Uncertainty in Decision-Making with Large Language Models ( http://arxiv.org/abs/2404.02649v2 ) ライセンス: Link先を確認 | Nicolò Felicioni, Lucas Maystre, Sina Ghiassian, Kamil Ciosek, | (参考訳) 自然言語を入力とする意思決定問題における不確実性の役割について検討する。
このようなタスクでは、エージェントとしてLarge Language Modelを使用するのが一般的になっている。
しかし、近年のアプローチでは、意思決定作業中にエージェントが世界に対して持つ不確実性を推定するために追加のフェーズは採用されていない。
本稿では,自然言語を入力とする基本的意思決定フレームワークに焦点をあてる。
不確実性推定のないアプローチの代表として、最も予測された最大の報酬に対応するアクションを選択する欲求ポリシーを持つLCMバンディットを考える。
我々はこのベースラインをトンプソンサンプリングポリシーに不確実性を統合することで不確実性推定を積極的に活用するLLMバンドと比較する。
我々は、Laplace Approximation、Dropout、Epinetsなどの不確実性推定に異なる手法を採用する。
我々は、現実のデータに対して、欲求政策がトンプソンサンプリング政策よりも悪いことを実証的に示す。
これらの結果は, LLMの文献で見過ごされているが, LLMのバンドイットタスクにおいて不確実性が基本的な役割を担っていることを示唆している。
We investigate the role of uncertainty in decision-making problems with natural language as input. For such tasks, using Large Language Models as agents has become the norm. However, none of the recent approaches employ any additional phase for estimating the uncertainty the agent has about the world during the decision-making task. We focus on a fundamental decision-making framework with natural language as input, which is the one of contextual bandits, where the context information consists of text. As a representative of the approaches with no uncertainty estimation, we consider an LLM bandit with a greedy policy, which picks the action corresponding to the largest predicted reward. We compare this baseline to LLM bandits that make active use of uncertainty estimation by integrating the uncertainty in a Thompson Sampling policy. We employ different techniques for uncertainty estimation, such as Laplace Approximation, Dropout, and Epinets. We empirically show on real-world data that the greedy policy performs worse than the Thompson Sampling policies. These findings suggest that, while overlooked in the LLM literature, uncertainty plays a fundamental role in bandit tasks with LLMs. | 翻訳日:2024-07-17 01:05:49 公開日:2024-07-14 |
# インセンティブ・セキュリティによる学習の証明
Proof-of-Learning with Incentive Security ( http://arxiv.org/abs/2404.09005v6 ) ライセンス: Link先を確認 | Zishuo Zhao, Zhixuan Fang, Xuechao Wang, Xi Chen, Yuan Zhou, | (参考訳) ほとんどの並行ブロックチェーンシステムは、分散コンセンサスとセキュリティ保証のためのProof-of-Work(PoW)あるいはProof-of-Stake(PoS)メカニズムに大きく依存しています。
しかし、計算集約的かつ無意味なタスクから生じる実質的なエネルギー支出は、従来のPoWアプローチにまつわるかなりの懸念を引き起こしている。
これらの問題に対処するために、PoUW(Proof-of-Useful-Work)のパラダイムは、PoWとして実践的な重要性の課題を取り入れ、具体的な価値でエネルギー消費を付与することを目指している。
従来のPoL(Proof of Learning)では,PuUW課題としての深層学習モデルトレーニングSGDタスクの利用が検討されているが,近年の研究では,敵対的攻撃に対する脆弱性と,ビザンチンセキュアなPoL機構の構築における理論的難しさが明らかにされている。
本稿では、計算効率、証明可能なインセンティブ-セキュリティ保証、制御容易な難易度を有するPoL機構を設計するための既存の難しさを回避し、合理的なプローバーに率直に行動を促すインセンティブ-セキュリティの概念を紹介する。
特に、我々の仕事は、Jia et al [2021]の最近の研究に対する2つの攻撃に対して安全であり、計算オーバーヘッドを$\Theta(1)$から$O(\frac{\log E}{E})$に改善する。
さらに、最近の研究では、信頼性のある問題提供者と検証者が想定されているが、我々の設計では、問題提供者が信頼されていない場合でも、フロントエンドのインセンティブ・セキュリティを保証し、検証者のジレンマを回避できるインセンティブ・セキュリティも保証している。
MLトレーニングを証明可能な保証付きブロックチェーンコンセンサスメカニズムに組み込むことで、私たちの研究は、ブロックチェーンシステムに対するエコフレンドリなソリューションを提案するだけでなく、新たなAI時代における、完全に分散化されたコンピューティングパワー市場の提案も提供します。
Most concurrent blockchain systems rely heavily on the Proof-of-Work (PoW) or Proof-of-Stake (PoS) mechanisms for decentralized consensus and security assurance. However, the substantial energy expenditure stemming from computationally intensive yet meaningless tasks has raised considerable concerns surrounding traditional PoW approaches, The PoS mechanism, while free of energy consumption, is subject to security and economic issues. Addressing these issues, the paradigm of Proof-of-Useful-Work (PoUW) seeks to employ challenges of practical significance as PoW, thereby imbuing energy consumption with tangible value. While previous efforts in Proof of Learning (PoL) explored the utilization of deep learning model training SGD tasks as PoUW challenges, recent research has revealed its vulnerabilities to adversarial attacks and the theoretical hardness in crafting a byzantine-secure PoL mechanism. In this paper, we introduce the concept of incentive-security that incentivizes rational provers to behave honestly for their best interest, bypassing the existing hardness to design a PoL mechanism with computational efficiency, a provable incentive-security guarantee and controllable difficulty. Particularly, our work is secure against two attacks to the recent work of Jia et al. [2021], and also improves the computational overhead from $\Theta(1)$ to $O(\frac{\log E}{E})$. Furthermore, while most recent research assumes trusted problem providers and verifiers, our design also guarantees frontend incentive-security even when problem providers are untrusted, and verifier incentive-security that bypasses the Verifier's Dilemma. By incorporating ML training into blockchain consensus mechanisms with provable guarantees, our research not only proposes an eco-friendly solution to blockchain systems, but also provides a proposal for a completely decentralized computing power market in the new AI age. | 翻訳日:2024-07-17 01:05:49 公開日:2024-07-14 |
# VALOR-EVAL:大規模視覚言語モデルの全体被覆と忠実度評価
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models ( http://arxiv.org/abs/2404.13874v3 ) ライセンス: Link先を確認 | Haoyi Qiu, Wenbo Hu, Zi-Yi Dou, Nanyun Peng, | (参考訳) LVLM (Large Vision-Language Models) は幻覚に悩まされ、そのモデルが可聴音を生成するが、実際には誤出力を生成し、信頼性を損なう。
これらのモデルにおける幻覚の程度を同定し、理解するためには、包括的な定量的評価が必要である。
しかしながら、既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
さらに、現在の評価手法では、モデル出力と参照データとの微妙なセマンティックな区別と、幻覚と情報性のバランスを効果的に解決するのに苦労している。
これらの問題に対処するために, 対象, 属性, 関係性をカバーする多次元ベンチマークを導入する。
さらに,一般的なCHAIRメトリックを一般化し,忠実度と包括性の両方を評価に取り入れた,LLMに基づく2段階評価フレームワークを提案する。
確立された10のLVLMに関する実験は、我々の評価基準が既存の作業よりも包括的で、人間との相関性が高いことを実証している。
我々の研究は、モデル出力の忠実さと包括性の間の重要なバランスを強調し、将来の研究がLVLMの幻覚に対処しつつ、アウトプットを情報的に保つことを奨励している。
Large Vision-Language Models (LVLMs) suffer from hallucination issues, wherein the models generate plausible-sounding but factually incorrect outputs, undermining their reliability. A comprehensive quantitative evaluation is necessary to identify and understand the extent of hallucinations in these models. However, existing benchmarks are often limited in scope, focusing mainly on object hallucinations. Furthermore, current evaluation methods struggle to effectively address the subtle semantic distinctions between model outputs and reference data, as well as the balance between hallucination and informativeness. To address these issues, we introduce a multi-dimensional benchmark covering objects, attributes, and relations, with challenging images selected based on associative biases. Moreover, we propose a large language model (LLM)-based two-stage evaluation framework that generalizes the popular CHAIR metric and incorporates both faithfulness and coverage into the evaluation. Experiments on 10 established LVLMs demonstrate that our evaluation metric is more comprehensive and better correlated with humans than existing work when evaluating on our challenging human-annotated benchmark dataset. Our work also highlights the critical balance between faithfulness and coverage of model outputs, and encourages future works to address hallucinations in LVLMs while keeping their outputs informative. | 翻訳日:2024-07-17 00:56:00 公開日:2024-07-14 |
# CrossScore: マルチビューイメージ評価とスコーリングを目指して
CrossScore: Towards Multi-View Image Evaluation and Scoring ( http://arxiv.org/abs/2404.14409v2 ) ライセンス: Link先を確認 | Zirui Wang, Wenjing Bian, Omkar Parkhi, Yuheng Ren, Victor Adrian Prisacariu, | (参考訳) 本稿では,画像評価環境のギャップを効果的に埋める新しいクロスリファレンス画像品質評価手法を提案する。SSIMなどの全参照指標,NIQEなどのノン参照指標,FIDなどの一般参照指標,CLIPScoreなどのマルチモーダル参照指標など,確立された評価スキームの配列を補完する。
ニューラルネットワークをNVS最適化のクロスアテンション機構とユニークなデータ収集パイプラインで利用することにより,地上の真理参照を必要とせず,正確な画像品質評価を可能にする。
クエリ画像を同一シーンの複数のビューと比較することにより、新しいビュー合成(NVS)における既存のメトリクスの限界と、直接参照画像が利用できないようなタスクに対処する。
実験結果から,本手法は実測値SSIMと密接に相関するが,真理参照は不要であることがわかった。
We introduce a novel cross-reference image quality assessment method that effectively fills the gap in the image assessment landscape, complementing the array of established evaluation schemes -- ranging from full-reference metrics like SSIM, no-reference metrics such as NIQE, to general-reference metrics including FID, and Multi-modal-reference metrics, e.g., CLIPScore. Utilising a neural network with the cross-attention mechanism and a unique data collection pipeline from NVS optimisation, our method enables accurate image quality assessment without requiring ground truth references. By comparing a query image against multiple views of the same scene, our method addresses the limitations of existing metrics in novel view synthesis (NVS) and similar tasks where direct reference images are unavailable. Experimental results show that our method is closely correlated to the full-reference metric SSIM, while not requiring ground truth references. | 翻訳日:2024-07-17 00:56:00 公開日:2024-07-14 |
# スマートコントラクトの安全性のための不変性をデミスティフィケーションする
Demystifying Invariant Effectiveness for Securing Smart Contracts ( http://arxiv.org/abs/2404.14580v2 ) ライセンス: Link先を確認 | Zhiyang Chen, Ye Liu, Sidi Mohamed Beillahi, Yi Li, Fan Long, | (参考訳) セキュリティアタックに関連するスマートコントラクトトランザクションは、攻撃前の過去の良心的なトランザクションと異なる行動パターンを示すことが多い。
不変性を検証し、異常なトランザクションをオンザフライで停止するために、多くの実行時監視およびガード機構が提案されているが、使用される不変量の実証的有効性は、まだ明らかにされていない。
本稿では,上位監査会社やセキュリティ専門家が支持する,著名なプロトコルに展開する8つのカテゴリの23種類の不変量について検討した。
確立された不変量をテンプレートとして使用し,その履歴トランザクションデータに基づいて,所定のコントラクト用にカスタマイズされた新しい不変量を動的に生成するツールTrace2Invを開発した。
我々はTrace2Invを42のスマートコントラクトで評価し、Ethereumブロックチェーン上で27の異なるエクスプロイトを犠牲にしました。
以上の結果から,最も有効な不変ガード単独で,ガスオーバーヘッドを最小限に抑えた27種のうち18種をブロックできることが判明した。
我々の分析は、経験豊富な攻撃者がそれらをバイパスしようとする場合でも、ほとんどの不変量は有効であることを示している。
さらに、複数の不変ガードを組み合わせる可能性を検討した結果、27のベンチマークエクスプロイトのうち23がブロックされ、偽陽性率が0.32%まで低下した。
Trace2Invは、実用性と正確性の両方の観点から、スマートコントラクト不変のマイニングとトランザクションアタック検出に関する現在の最先端作業を上回っている。
Trace2Invは、主にトランザクション攻撃検出のために設計されたものではないが、報告されていない2つのエクスプロイトトランザクションが、同じ被害者契約に対して報告されたエクスプロイトトランザクションよりも早く発見された。
Smart contract transactions associated with security attacks often exhibit distinct behavioral patterns compared with historical benign transactions before the attacking events. While many runtime monitoring and guarding mechanisms have been proposed to validate invariants and stop anomalous transactions on the fly, the empirical effectiveness of the invariants used remains largely unexplored. In this paper, we studied 23 prevalent invariants of 8 categories, which are either deployed in high-profile protocols or endorsed by leading auditing firms and security experts. Using these well-established invariants as templates, we developed a tool Trace2Inv which dynamically generates new invariants customized for a given contract based on its historical transaction data. We evaluated Trace2Inv on 42 smart contracts that fell victim to 27 distinct exploits on the Ethereum blockchain. Our findings reveal that the most effective invariant guard alone can successfully block 18 of the 27 identified exploits with minimal gas overhead. Our analysis also shows that most of the invariants remain effective even when the experienced attackers attempt to bypass them. Additionally, we studied the possibility of combining multiple invariant guards, resulting in blocking up to 23 of the 27 benchmark exploits and achieving false positive rates as low as 0.32%. Trace2Inv outperforms current state-of-the-art works on smart contract invariant mining and transaction attack detection in terms of both practicality and accuracy. Though Trace2Inv is not primarily designed for transaction attack detection, it surprisingly found two previously unreported exploit transactions, earlier than any reported exploit transactions against the same victim contracts. | 翻訳日:2024-07-17 00:56:00 公開日:2024-07-14 |
# 出現法則とスケーリング法則を正確に解けるモデル
An exactly solvable model for emergence and scaling laws ( http://arxiv.org/abs/2404.17563v2 ) ライセンス: Link先を確認 | Yoonsoo Nam, Nayara Fonseca, Seok Hyeong Lee, Chris Mingard, Ard A. Louis, | (参考訳) ディープラーニングモデルは、トレーニング時間、トレーニングデータ、モデルサイズが増加するにつれて、新しい問題を解決する突然の能力を示す。
本稿では,新たな能力(スキル)を基礎関数として表現する枠組みを提案する。
このスキルベイジでは,新たなスキルの出現に関する解析式と,トレーニング時間,データサイズ,モデルサイズ,最適計算(C$)による損失の法則のスケーリングという,シンプルなマルチ線形モデルを解く。
我々は、詳細な計算結果をマルチタスクスパースパリティに基づいてトレーニングされた2層ニューラルネットワークの直接シミュレーションと比較する。
私たちの単純なモデルでは、単一の適合パラメータを使用して、トレーニング時間、データサイズ、モデルサイズが増大するにつれて、複数の新しいスキルのシグモダルな出現を捉えます。
Deep learning models can exhibit what appears to be a sudden ability to solve a new problem as training time, training data, or model size increases, a phenomenon known as emergence. In this paper, we present a framework where each new ability (a skill) is represented as a basis function. We solve a simple multi-linear model in this skill-basis, finding analytic expressions for the emergence of new skills, as well as for scaling laws of the loss with training time, data size, model size, and optimal compute ($C$). We compare our detailed calculations to direct simulations of a two-layer neural network trained on multitask sparse parity, where the tasks in the dataset are distributed according to a power-law. Our simple model captures, using a single fit parameter, the sigmoidal emergence of multiple new skills as training time, data size or model size increases in the neural network. | 翻訳日:2024-07-17 00:46:04 公開日:2024-07-14 |
# 対称性保護位相状態からサブシステムキャット状態への大きな対称性による創発的クラスター状態の階層化
Hierarchy of emergent cluster states by measurement from symmetry-protected-topological states with large symmetry to subsystem cat state ( http://arxiv.org/abs/2405.02592v2 ) ライセンス: Link先を確認 | Yoshihito Kuno, Takahiro Orito, Ikuo Ichinose, | (参考訳) 逐次的サブシステム射影測定により相関状態の間に出現する測定生成階層を提案する。
対称性保護トポロジカル (SPT) クラスタ状態から始めて, 非測定部位のサブシステムに対称性が低下した一般化クラスタ SPT 状態が出現することを確認する。
この処方薬は、元の格子の周期的未測定部位からなるサブシステムにおいて、グリーンバーガー・ホーム・ザイリンガー状態が長い順序で最終的に生成する。
一般の高次対称SPTクラスタ状態からの対称性還元階層構造は、安定化器の効率的なアルゴリズムにおいて、測定更新フローによって明確に捕捉される。
この手法は, 測定状態の解析的探索だけでなく, システムサイズが大きい数値シミュレーションにも有用である。
また,大規模システムおよび大規模対称クラスタSPT状態に適用した逐次サブシステム射影測定により,対称性の低減階層を数値的に検証する。
We propose {\it measurement-producing hierarchy} emerging among correlated states by sequential subsystem projective measurements. We start from symmetry-protected-topological (SPT) cluster states with a large symmetry and apply sequential subsystem projective measurements to them and find that generalized cluster SPT states with a reduced symmetry appear in the subsystem of the unmeasured sites. That prescription finally produces Greenberger-Home-Zeilinger states with long-range order in the subsystem composed of periodic unmeasured sites of the original lattice. The symmetry-reduction hierarchical structure from a general large symmetric SPT cluster state is clearly captured by the measurement update flow in the efficient algorithm of stabilizer formalism. This approach is useful not only for the analytical search for the measured state but also for numerical simulation with a large system size. We also numerically verify the symmetry-reduction hierarchy by sequential subsystem projective measurements applied to large systems and large symmetric cluster SPT states. | 翻訳日:2024-07-17 00:46:04 公開日:2024-07-14 |
# 階層型テクスチャインバージョンを用いたデータ効率の良い分子生成
Data-Efficient Molecular Generation with Hierarchical Textual Inversion ( http://arxiv.org/abs/2405.02845v2 ) ライセンス: Link先を確認 | Seojin Kim, Jaehyun Nam, Sihyun Yu, Younghoon Shin, Jinwoo Shin, | (参考訳) 分子数が限られていても効果的な分子生成フレームワークを開発することは、例えば薬物発見のような実践的な展開において重要であることが多い。
そこで本研究では, 分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗くきめ細かな特徴の重要性にインスパイアされている。
本稿では,データ効率のよい画像生成を実現する視覚領域における最近のテキストインバージョン技術の採用に基づく,階層的な特徴を反映したマルチレベル埋め込みを提案する。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
次に、多層トークン埋め込みの補間に基づく分子を生成する。
実験により、HI-Molの優れたデータ効率が示された。
例えば、QM9では、HI-Molは50倍のトレーニングデータで従来の最先端の手法よりも優れています。
また,HI-Molが生成する分子の低ショット分子特性予測における有効性を示す。
Developing an effective molecular generation framework even with a limited number of molecules is often important for its practical deployment, e.g., drug discovery, since acquiring task-related molecular data requires expensive and time-consuming experimental costs. To tackle this issue, we introduce Hierarchical textual Inversion for Molecular generation (HI-Mol), a novel data-efficient molecular generation method. HI-Mol is inspired by the importance of hierarchical information, e.g., both coarse- and fine-grained features, in understanding the molecule distribution. We propose to use multi-level embeddings to reflect such hierarchical features based on the adoption of the recent textual inversion technique in the visual domain, which achieves data-efficient image generation. Compared to the conventional textual inversion method in the image domain using a single-level token embedding, our multi-level token embeddings allow the model to effectively learn the underlying low-shot molecule distribution. We then generate molecules based on the interpolation of the multi-level token embeddings. Extensive experiments demonstrate the superiority of HI-Mol with notable data-efficiency. For instance, on QM9, HI-Mol outperforms the prior state-of-the-art method with 50x less training data. We also show the effectiveness of molecules generated by HI-Mol in low-shot molecular property prediction. | 翻訳日:2024-07-17 00:46:04 公開日:2024-07-14 |
# 反復型PWLニューラルネットワークにおける超平面配置と固定点
Hyperplane Arrangements and Fixed Points in Iterated PWL Neural Networks ( http://arxiv.org/abs/2405.09878v2 ) ライセンス: Link先を確認 | Hans-Peter Beise, | (参考訳) 我々は超平面配置の枠組みを活用して(安定な)固定点の潜在的領域を分析する。
多層ニューラルネットワークにおいて、任意の多くの線形部分を持つピースワイド線形(PWL)アクティベーション関数を備えた固定点数の上限を与える。
後者境界の層数における指数的成長の理論的最適性を示す。
具体的には、ハードタンハアクティベーションを持つ一隠れ層ネットワークの安定な固定点数に基づいて、よりシャープな上限を導出する。
We leverage the framework of hyperplane arrangements to analyze potential regions of (stable) fixed points. We provide an upper bound on the number of fixed points for multi-layer neural networks equipped with piecewise linear (PWL) activation functions with arbitrary many linear pieces. The theoretical optimality of the exponential growth in the number of layers of the latter bound is shown. Specifically, we also derive a sharper upper bound on the number of stable fixed points for one-hidden-layer networks with hard tanh activation. | 翻訳日:2024-07-17 00:46:04 公開日:2024-07-14 |
# 量子二部計算の安全性とチート・センシティブ・プロトコル・オービビビラス・トランスファー・リダクションへの応用
Insecurity of Quantum Two-Party Computation with Applications to Cheat-Sensitive Protocols and Oblivious Transfer Reductions ( http://arxiv.org/abs/2405.12121v2 ) ライセンス: Link先を確認 | Esther Hänggi, Severin Winkler, | (参考訳) Oblivious Transfer (OT)は、セキュアな双方向計算のための基本的なプリミティブである。
2人のプレーヤーが量子の場合であっても、ノイズレス通信チャネルにしかアクセスできない場合、OTは情報理論のセキュリティでは実装できないことが知られている。
その結果、OTの弱い変種が研究されている。
本研究では,不正な当事者が不正行為をすることができるが,検出されるリスクがある場合に,不正に敏感なOTの可否を厳格に証明する。
我々は、受信機が送信者の全ての入力を計算し、この攻撃の成功確率に明示的な上限を与える量子プロトコルに対する一般的な攻撃を構築する。
これは、統計情報理論のセキュリティでは、不正感受性の量子対称プライベート情報検索は実装できないことを意味する。
証明のために考案された手法を活用して、セキュアな関数評価に必要なプリミティブのエントロピー境界を提供する。
これは、プレイヤーがリソースとしてOTにアクセス可能なプロトコルに対して、不可能な結果をもたらすことを意味する。
この結果は既存の境界を著しく改善し、リソースプリミティブへの1-out-n OTの還元のために厳密な境界を与える。
我々の結果は、特に有限個のプリミティブ間の変換と任意の誤差に対して成り立つ。
Oblivious transfer (OT) is a fundamental primitive for secure two-party computation. It is well known that OT cannot be implemented with information-theoretic security if the two players only have access to noiseless communication channels, even in the quantum case. As a result, weaker variants of OT have been studied. In this work, we rigorously establish the impossibility of cheat-sensitive OT, where a dishonest party can cheat, but risks being detected. We construct a general attack on any quantum protocol that allows the receiver to compute all inputs of the sender and provide an explicit upper bound on the success probability of this attack. This implies that cheat-sensitive quantum Symmetric Private Information Retrieval cannot be implemented with statistical information-theoretic security. Leveraging the techniques devised for our proofs, we provide entropic bounds on primitives needed for secure function evaluation. They imply impossibility results for protocols where the players have access to OT as a resource. This result significantly improves upon existing bounds and yields tight bounds for reductions of 1-out-of-n OT to a resource primitive. Our results hold in particular for transformations between a finite number of primitives and for any error. | 翻訳日:2024-07-17 00:36:09 公開日:2024-07-14 |
# 説明の統一化に向けて
Towards a Unified Framework for Evaluating Explanations ( http://arxiv.org/abs/2405.14016v2 ) ライセンス: Link先を確認 | Juan D. Pinto, Luc Paquette, | (参考訳) 解釈可能なモデルを作成するという課題は、2つの主要な研究コミュニティによって取り上げられている。ML研究者は主にエンジニアのニーズに合った低レベルの説明可能性手法に焦点を当てている。
本稿では,これらのコミュニティがどのように解釈可能性を評価し,重複と意味的不一致を識別したかをレビューする。
評価基準を統一した枠組みへと移行し,既存の基準間の関係を明確化し,そのような枠組みの基礎を築き上げることを提案する。
我々は、モデルと利害関係者の間の仲介者として、本質的に解釈可能なモデルやポストホック手法を用いて分析された不透明なブラックボックスモデルについて論じる。
さらに、有用な説明には忠実さと知性の両方が必要であると論じる。
説明可能性(Explaination plausibility)は知性のための前提条件であり、安定性は説明の忠実さの前提条件である。
本稿では,学習者の行動を予測するための解釈可能なニューラルネットワークの例を用いて,これらの基準と具体的な評価手法について述べる。
The challenge of creating interpretable models has been taken up by two main research communities: ML researchers primarily focused on lower-level explainability methods that suit the needs of engineers, and HCI researchers who have more heavily emphasized user-centered approaches often based on participatory design methods. This paper reviews how these communities have evaluated interpretability, identifying overlaps and semantic misalignments. We propose moving towards a unified framework of evaluation criteria and lay the groundwork for such a framework by articulating the relationships between existing criteria. We argue that explanations serve as mediators between models and stakeholders, whether for intrinsically interpretable models or opaque black-box models analyzed via post-hoc techniques. We further argue that useful explanations require both faithfulness and intelligibility. Explanation plausibility is a prerequisite for intelligibility, while stability is a prerequisite for explanation faithfulness. We illustrate these criteria, as well as specific evaluation methods, using examples from an ongoing study of an interpretable neural network for predicting a particular learner behavior. | 翻訳日:2024-07-17 00:36:09 公開日:2024-07-14 |
# マイクロ波発振器における合成高角運動量スピンダイナミクス
Synthetic high angular momentum spin dynamics in a microwave oscillator ( http://arxiv.org/abs/2405.15695v2 ) ライセンス: Link先を確認 | Saswata Roy, Alen Senanian, Christopher S. Wang, Owen C. Wetherbee, Luojia Zhang, B. Cole, C. P. Larson, E. Yelton, Kartikeya Arora, Peter L. McMahon, B. L. T. Plourde, Baptiste Royer, Valla Fatemi, | (参考訳) スピンと発振器は多くの物理学や応用科学の基礎となっている。
量子情報に対して、スピン1/2は最も基本的な単位である量子ビットを例示する。
高角運動量スピンと高調波発振器は、ハードウェア効率で保護された量子情報の符号化と多体量子システムのシミュレーションの可能性を秘めているマルチレベル多様体(例えばクイディット)を提供する。
本研究では、これらの異なるハードウェアプラットフォームを概念的にマージする新しい量子制御プロトコルを実証する。
すなわち、必要に応じて高調波発振器を修正して、高調波クーディットの共振駆動に関連する連続的な発電機を実装し、特に高調波マルチレベルスピンの自由度を設計する方法を示す。
合成スピンはスピンコヒーレント (SU(2)) 回転の実証と、単純なトランカット振動子のような他の多様体との比較によって検証される。
我々のスキームはクディットの普遍的な制御を可能にし、初めて高調波演算を用いて4つの論理ゲートを高調波クディット符号化で達成する。
以上の結果から,閉ヒルベルト空間上の運動が量子情報処理にどのように役立つかを示し,高角運動量量子磁気の超伝導回路シミュレーションへの扉を開く。
Spins and oscillators are foundational to much of physics and applied sciences. For quantum information, a spin 1/2 exemplifies the most basic unit, a qubit. High angular momentum spins and harmonic oscillators provide multi-level manifolds (e.g., qudits) which have the potential for hardware-efficient protected encodings of quantum information and simulation of many-body quantum systems. In this work, we demonstrate a new quantum control protocol that conceptually merges these disparate hardware platforms. Namely, we show how to modify a harmonic oscillator on-demand to implement a continuous range of generators associated to resonant driving of a harmonic qudit, and then specifically design a harmonic multi-level spin degree of freedom. The synthetic spin is verified by demonstration of spin coherent (SU(2)) rotations and comparison to other manifolds like simply-truncated oscillators. Our scheme allows universal control of the qudit, and, for the first time, we use linear, harmonic operations to accomplish four logical gates on a harmonic qudit encoding. Our results show how motion on a closed Hilbert space can be useful for quantum information processing and opens the door to superconducting circuit simulations of higher angular momentum quantum magnetism. | 翻訳日:2024-07-17 00:36:09 公開日:2024-07-14 |
# Time-SSM: 時系列予測のための状態空間モデルの簡素化と統一
Time-SSM: Simplifying and Unifying State Space Models for Time Series Forecasting ( http://arxiv.org/abs/2405.16312v2 ) ライセンス: Link先を確認 | Jiaxi Hu, Disen Lan, Ziyu Zhou, Qingsong Wen, Yuxuan Liang, | (参考訳) 状態空間モデル(SSM)は近年,シーケンスモデリングタスクにおいて強力なツールとして登場している。
これらのモデルは、一連の基底関数を用いて連続系を近似し、それらを離散化して入力データを処理し、連続系から特定の周波数で収集された時系列データをモデル化するのに適している。
その可能性にもかかわらず、時系列予測におけるSSMの適用は未定であり、既存のモデルでは、SSMを時間的またはチャネル依存性をキャプチャするためのブラックボックスとして扱う。
そこで本研究では,SSMを時系列データに適用するためのより直感的で汎用的なガイダンスを提供する,動的スペクトル演算子(Dynamic Spectral Operator)と呼ばれる新しい理論フレームワークを提案する。
この理論に基づいて,Mambaと比較してパラメータの7分の1しか持たない新しいSSM基盤モデルであるTime-SSMを紹介した。
様々な実験により、我々の理論的枠組みと Time-SSM の優れた性能が検証された。
State Space Models (SSMs) have emerged as a potent tool in sequence modeling tasks in recent years. These models approximate continuous systems using a set of basis functions and discretize them to handle input data, making them well-suited for modeling time series data collected at specific frequencies from continuous systems. Despite its potential, the application of SSMs in time series forecasting remains underexplored, with most existing models treating SSMs as a black box for capturing temporal or channel dependencies. To address this gap, this paper proposes a novel theoretical framework termed Dynamic Spectral Operator, offering more intuitive and general guidance on applying SSMs to time series data. Building upon our theory, we introduce Time-SSM, a novel SSM-based foundation model with only one-seventh of the parameters compared to Mamba. Various experiments validate both our theoretical framework and the superior performance of Time-SSM. | 翻訳日:2024-07-17 00:36:09 公開日:2024-07-14 |
# ToxVidLM: コードミキシングビデオにおける毒性検出のためのマルチモーダルフレームワーク
ToxVidLM: A Multimodal Framework for Toxicity Detection in Code-Mixed Videos ( http://arxiv.org/abs/2405.20628v2 ) ライセンス: Link先を確認 | Krishanu Maity, A. S. Poornash, Sriparna Saha, Pushpak Bhattacharyya, | (参考訳) 急速に発展するインターネット技術の時代、ビデオを含むマルチモーダルコンテンツの急増は、オンラインコミュニケーションの視野を広げた。
しかし、この多様なランドスケープ、特に低リソースのコード混在言語における有害なコンテンツの検出は、依然として重要な課題である。
テキストデータにおける有毒なコンテンツ検出には、かなりの研究が取り組んできたが、特に非英語言語におけるビデオコンテンツの領域は、比較的過小評価されている。
本稿は、YouTubeから収集した4021のコード混成ヒンディー語発話を含む931の動画からなる、この種のベンチマークデータセットを導入することで、この研究ギャップに対処する。
このデータセット内の各発話は、毒性、重度、感情ラベルに対して慎重に注釈付けされている。
我々は,言語モデル(LM)を利用した映像コンテンツの毒性検出のための高度なマルチモーダル・マルチタスク・フレームワークを開発した。
ToxVidLMにはEncoderモジュール、Cross-Modal Synchronizationモジュール、Multitaskモジュールという3つの重要なモジュールが含まれている。
実験の結果, ビデオから複数のモダリティを取り入れることで, それぞれ94.29%, 94.35%の精度と重み付きF1スコアを達成し, 有毒なコンテンツ検出性能を著しく向上させることがわかった。
In an era of rapidly evolving internet technology, the surge in multimodal content, including videos, has expanded the horizons of online communication. However, the detection of toxic content in this diverse landscape, particularly in low-resource code-mixed languages, remains a critical challenge. While substantial research has addressed toxic content detection in textual data, the realm of video content, especially in non-English languages, has been relatively underexplored. This paper addresses this research gap by introducing a benchmark dataset, the first of its kind, consisting of 931 videos with 4021 code-mixed Hindi-English utterances collected from YouTube. Each utterance within this dataset has been meticulously annotated for toxicity, severity, and sentiment labels. We have developed an advanced Multimodal Multitask framework built for Toxicity detection in Video Content by leveraging Language Models (LMs), crafted for the primary objective along with the additional tasks of conducting sentiment and severity analysis. ToxVidLM incorporates three key modules - the Encoder module, Cross-Modal Synchronization module, and Multitask module - crafting a generic multimodal LM customized for intricate video classification tasks. Our experiments reveal that incorporating multiple modalities from the videos substantially enhances the performance of toxic content detection by achieving an Accuracy and Weighted F1 score of 94.29% and 94.35%, respectively. | 翻訳日:2024-07-17 00:26:24 公開日:2024-07-14 |
# ファジィ推論システムに基づく奥行きベクトル関数型ニューラルネットワーク
Ensemble Deep Random Vector Functional Link Neural Network Based on Fuzzy Inference System ( http://arxiv.org/abs/2406.00801v2 ) ライセンス: Link先を確認 | M. Sajid, M. Tanveer, P. N. Suganthan, | (参考訳) アンサンブルディープランダムベクトル汎関数リンク(edRVFL)ニューラルネットワークは、従来の人工ニューラルネットワークの限界に対処する能力を示した。
しかし、EDRVFLはランダムなプロジェクションによって隠れたレイヤーの機能を生成しているため、複雑な機能を失ったり、ベースモデル(隠れた層)の特定の非線形機能をキャプチャできなかったりする可能性がある。
EDRVFLの特徴学習能力を高めるために,ファジィ推論システム(edRVFL-FIS)に基づく新しいEDRVFLを提案する。
提案したEDRVFL-FISは、ファジィ推論システム(FIS)の内在的なIF-THEN特性を用いて、深層学習とアンサンブルアプローチという2つの新興ドメインの機能を活用し、アンサンブルモデルを訓練するためのリッチな特徴表現を生成する。
提案したEDRVFL-FISの各ベースモデルには,2つの重要な機能拡張コンポーネントが含まれている。
a) 教師なしファジィ層の特徴と特徴
b) 監督された解凍特徴
EDRVFL-FISモデルは、様々なクラスタリング手法(R-means, K-means, Fuzzy C-means)を組み込んでファジィ層ルールを確立することで、3つのモデルバリエーション(EDRVFL-FIS-R, edRVFL-FIS-K, edRVFL-FIS-C)を異なるファジィ特徴と解凍特徴を持つ。
EDRVFL-FISのフレームワーク内では、各ベースモデルは元の隠蔽層と解凍した特徴を利用して予測を行う。
UCIおよびNDCデータセット間で行われた実験結果、統計的テスト、議論および分析は、ベースラインモデルよりも提案されたEDRVFL-FISモデルの全バリエーションの優れた性能を一貫して証明している。
提案されたモデルのソースコードはhttps://github.com/mtanveer1/EDRVFL-FISで公開されている。
The ensemble deep random vector functional link (edRVFL) neural network has demonstrated the ability to address the limitations of conventional artificial neural networks. However, since edRVFL generates features for its hidden layers through random projection, it can potentially lose intricate features or fail to capture certain non-linear features in its base models (hidden layers). To enhance the feature learning capabilities of edRVFL, we propose a novel edRVFL based on fuzzy inference system (edRVFL-FIS). The proposed edRVFL-FIS leverages the capabilities of two emerging domains, namely deep learning and ensemble approaches, with the intrinsic IF-THEN properties of fuzzy inference system (FIS) and produces rich feature representation to train the ensemble model. Each base model of the proposed edRVFL-FIS encompasses two key feature augmentation components: a) unsupervised fuzzy layer features and b) supervised defuzzified features. The edRVFL-FIS model incorporates diverse clustering methods (R-means, K-means, Fuzzy C-means) to establish fuzzy layer rules, resulting in three model variations (edRVFL-FIS-R, edRVFL-FIS-K, edRVFL-FIS-C) with distinct fuzzified features and defuzzified features. Within the framework of edRVFL-FIS, each base model utilizes the original, hidden layer and defuzzified features to make predictions. Experimental results, statistical tests, discussions and analyses conducted across UCI and NDC datasets consistently demonstrate the superior performance of all variations of the proposed edRVFL-FIS model over baseline models. The source codes of the proposed models are available at https://github.com/mtanveer1/edRVFL-FIS. | 翻訳日:2024-07-17 00:26:24 公開日:2024-07-14 |
# TwinS:多変量時系列予測における非定常性の再検討
TwinS: Revisiting Non-Stationarity in Multivariate Time Series Forecasting ( http://arxiv.org/abs/2406.03710v2 ) ライセンス: Link先を確認 | Jiaxi Hu, Qingsong Wen, Sijie Ruan, Li Liu, Yuxuan Liang, | (参考訳) 近年,多変量時系列予測タスクの実用化が進み,様々な深層予測モデルが出現している。
しかし、実世界の時系列は非定常的な分布特性を示す。
これらの特徴は、非定常トランスフォーマーによって強調される時間変化統計特性に限らず、ネスト周期性、周期分布の欠如、時間変数間のヒステリシスの3つの重要な側面を含んでいる。
本稿では,この理論をウェーブレット解析により検証し,非定常周期分布であるウェーブレット畳み込み,周期認識,チャネル-テンポラル混合MLPの3つのモジュールからなるトランスフォーマーベースTwinSモデルを提案する。
具体的には、ウェーブレット畳み込みモデルは、ウェーブレット変換のような畳み込みカーネルサイズをスケールすることで、ネストした期間をモデル化する。
周期認識注意は、畳み込みサブネットワークを通して周期関連スコアを生成して注意計算を導く。
Channel-Temporal Mixed MLPは、チャネル時混合学習を通じて時系列間の全体的な関係をキャプチャする。
TwinSはメインストリームのTSモデルと比較してSOTAのパフォーマンスを達成し、MSEはPatchTSTよりも25.8\%向上した。
Recently, multivariate time series forecasting tasks have garnered increasing attention due to their significant practical applications, leading to the emergence of various deep forecasting models. However, real-world time series exhibit pronounced non-stationary distribution characteristics. These characteristics are not solely limited to time-varying statistical properties highlighted by non-stationary Transformer but also encompass three key aspects: nested periodicity, absence of periodic distributions, and hysteresis among time variables. In this paper, we begin by validating this theory through wavelet analysis and propose the Transformer-based TwinS model, which consists of three modules to address the non-stationary periodic distributions: Wavelet Convolution, Period-Aware Attention, and Channel-Temporal Mixed MLP. Specifically, The Wavelet Convolution models nested periods by scaling the convolution kernel size like wavelet transform. The Period-Aware Attention guides attention computation by generating period relevance scores through a convolutional sub-network. The Channel-Temporal Mixed MLP captures the overall relationships between time series through channel-time mixing learning. TwinS achieves SOTA performance compared to mainstream TS models, with a maximum improvement in MSE of 25.8\% over PatchTST. | 翻訳日:2024-07-17 00:26:24 公開日:2024-07-14 |
# SyDRA: ゲームエンジンアーキテクチャを理解するためのアプローチ
SyDRA: An Approach to Understand Game Engine Architecture ( http://arxiv.org/abs/2406.05487v2 ) ライセンス: Link先を確認 | Gabriel C. Ullmann, Yann-Gaël Guéhéneuc, Fabio Petrillo, Nicolas Anquetil, Cristiano Politowski, | (参考訳) ゲームエンジンは、ビデオゲーム開発を促進するツールである。
グラフィック、サウンド、物理シミュレーション機能を提供しており、そうでなければ開発者によって実装されなければならない。
現代の商用ビデオゲーム開発に欠かせないが、ゲームエンジンは複雑であり、開発者はそのアーキテクチャを理解するのに苦慮し、ビデオゲームの生産に悪影響を及ぼす保守性や進化の問題を招いている。
本稿では,ゲームエンジン開発者のゲームエンジンアーキテクチャ理解を支援するサブシステム依存回復手法(SyDRA)を提案する。
このアプローチを10個のオープンソースゲームエンジンに適用することにより、ゲームエンジンのアーキテクチャを比較し、過剰な結合とフォルダネストの問題を特定し解決できるアーキテクチャモデルを得る。
制御実験により、SyDRAから派生したアーキテクチャモデルの検査により、開発者がアーキテクチャ理解や影響分析に関連するタスクをより少ない時間で完了し、これらのモデルなしではより正確であることを示す。
Game engines are tools to facilitate video game development. They provide graphics, sound, and physics simulation features, which would have to be otherwise implemented by developers. Even though essential for modern commercial video game development, game engines are complex and developers often struggle to understand their architecture, leading to maintainability and evolution issues that negatively affect video game productions. In this paper, we present the Subsystem-Dependency Recovery Approach (SyDRA), which helps game engine developers understand game engine architecture and therefore make informed game engine development choices. By applying this approach to 10 open-source game engines, we obtain architectural models that can be used to compare game engine architectures and identify and solve issues of excessive coupling and folder nesting. Through a controlled experiment, we show that the inspection of the architectural models derived from SyDRA enables developers to complete tasks related to architectural understanding and impact analysis in less time and with higher correctness than without these models. | 翻訳日:2024-07-17 00:26:24 公開日:2024-07-14 |
# 単一モーダルから多モーダル顔面深度検出への展開:調査
Evolving from Single-modal to Multi-modal Facial Deepfake Detection: A Survey ( http://arxiv.org/abs/2406.06965v2 ) ライセンス: Link先を確認 | Ping Liu, Qiqi Tao, Joey Tianyi Zhou, | (参考訳) この調査は、人工知能の急速な進歩の中で、ディープフェイク検出の重要な課題に対処する。
ビデオ、音声、テキストを含むAI生成メディアがより現実的になるにつれて、誤情報を拡散したり、身元確認詐欺を犯すリスクが高まる。
顔中心のディープフェイクに焦点を当てたこの研究は、従来の単一モダリティ手法から、オーディオ視覚とテキスト視覚のシナリオを扱う高度なマルチモーダルアプローチへの進化を辿る。
本稿では,検出手法の包括的分類法を提供し,自動エンコーダやGANから拡散モデルへの生成手法の進化を論じ,それらの特性によってこれらの技術を分類する。
私たちの知る限りでは、この種の調査はこれが初めてである。
また、新しい生成モデルに検出手法を適用することの課題や、ディープフェイク検出器の信頼性と堅牢性の向上、今後の研究に向けての方向性についても検討する。
この調査は研究者に詳細なロードマップを提供し、メディア生成、特に顔の偽造にAIを欺くことに対処する技術開発を支援している。
すべての関連論文のキュレートされたリストは \href{https://github.com/qiqitao77/Comprehensive-Advances-in-Deepfake-Detection-Spanning-Diverse-Modalitie s}{https://github.com/qiqitao77/Awesome-Comprehensive-Deepfake-Detection} にある。
This survey addresses the critical challenge of deepfake detection amidst the rapid advancements in artificial intelligence. As AI-generated media, including video, audio and text, become more realistic, the risk of misuse to spread misinformation and commit identity fraud increases. Focused on face-centric deepfakes, this work traces the evolution from traditional single-modality methods to sophisticated multi-modal approaches that handle audio-visual and text-visual scenarios. We provide comprehensive taxonomies of detection techniques, discuss the evolution of generative methods from auto-encoders and GANs to diffusion models, and categorize these technologies by their unique attributes. To our knowledge, this is the first survey of its kind. We also explore the challenges of adapting detection methods to new generative models and enhancing the reliability and robustness of deepfake detectors, proposing directions for future research. This survey offers a detailed roadmap for researchers, supporting the development of technologies to counter the deceptive use of AI in media creation, particularly facial forgery. A curated list of all related papers can be found at \href{https://github.com/qiqitao77/Comprehensive-Advances-in-Deepfake-Detection-Spanning-Diverse-Modalitie s}{https://github.com/qiqitao77/Awesome-Comprehensive-Deepfake-Detection}. | 翻訳日:2024-07-17 00:16:39 公開日:2024-07-14 |
# グラフニューラルネットワークの論理蒸留
Logical Distillation of Graph Neural Networks ( http://arxiv.org/abs/2406.07126v2 ) ライセンス: Link先を確認 | Alexander Pluska, Pascal Welke, Thomas Gärtner, Sagar Malhotra, | (参考訳) 本稿では,グラフを学習するための論理ベースの解釈可能なモデルと,このモデルをグラフニューラルネットワーク(GNN)から抽出するアルゴリズムを提案する。
近年、GNNの表現率と数量化器(C2)を用いた一階述語論理の2変数の断片との関係が示されている。
本稿では、C2の拡張を利用して、GNNから解釈可能な論理分類器を抽出する決定木モデルを提案する。
我々は,複数のGNNアーキテクチャに対するアプローチを検証した。
蒸留されたモデルは解釈可能で簡潔であり、基礎となるGNNと同等の精度が得られる。
さらに、C2 で基底真理が表現可能である場合、我々のアプローチは GNN よりも優れている。
We present a logic based interpretable model for learning on graphs and an algorithm to distill this model from a Graph Neural Network (GNN). Recent results have shown connections between the expressivity of GNNs and the two-variable fragment of first-order logic with counting quantifiers (C2). We introduce a decision-tree based model which leverages an extension of C2 to distill interpretable logical classifiers from GNNs. We test our approach on multiple GNN architectures. The distilled models are interpretable, succinct, and attain similar accuracy to the underlying GNN. Furthermore, when the ground truth is expressible in C2, our approach outperforms the GNN. | 翻訳日:2024-07-17 00:16:39 公開日:2024-07-14 |
# メルジングは、脱獄攻撃に対する自己批判を改善
Merging Improves Self-Critique Against Jailbreak Attacks ( http://arxiv.org/abs/2406.07188v2 ) ライセンス: Link先を確認 | Victor Gallego, | (参考訳) 大規模言語モデル(LLM)の、ジェイルブレイク攻撃のような敵の操作に対する堅牢性は、依然として大きな課題である。
本研究では,LLMの自己批判能力を高め,さらに衛生的な合成データに対して微調整する手法を提案する。
これは、オリジナルとマージ可能な外部批評家モデルを追加し、自己批判能力を高め、敵のプロンプトに対するLSMの堅牢性を向上させることで達成される。
以上の結果から, 合併と自己批判の組み合わせは, 敵の攻撃成功率を大幅に低下させる可能性が示唆された。
https://github.com/vicgalle/merging-self-critique-jailbreaks.comでリリースされたコード、データ、モデル。
The robustness of large language models (LLMs) against adversarial manipulations, such as jailbreak attacks, remains a significant challenge. In this work, we propose an approach that enhances the self-critique capability of the LLM and further fine-tunes it over sanitized synthetic data. This is done with the addition of an external critic model that can be merged with the original, thus bolstering self-critique capabilities and improving the robustness of the LLMs response to adversarial prompts. Our results demonstrate that the combination of merging and self-critique can reduce the attack success rate of adversaries significantly, thus offering a promising defense mechanism against jailbreak attacks. Code, data and models released at https://github.com/vicgalle/merging-self-critique-jailbreaks . | 翻訳日:2024-07-17 00:16:39 公開日:2024-07-14 |
# AgileCoder: アジャイル方法論に基づいたソフトウェア開発のための動的協調エージェント
AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology ( http://arxiv.org/abs/2406.11912v2 ) ライセンス: Link先を確認 | Minh Huynh Nguyen, Thang Phan Chau, Phong X. Nguyen, Nghi D. Q. Bui, | (参考訳) ソフトウェアエージェントは、複雑なソフトウェアエンジニアリングタスクに対処するための有望なツールとして登場した。
一方、既存の作業は、そのようなワークフローが現実の世界で通常より複雑であるという事実にもかかわらず、ソフトウェア開発ワークフローを過度に単純化する。
そこで我々は、Agile Methodology(AM)をフレームワークに統合するマルチエージェントシステムであるAgileCoderを提案する。
このシステムは、Product Manager、Developer、Testerといった特定のAMロールを異なるエージェントに割り当て、ユーザ入力に基づいて協調してソフトウェアを開発する。
AgileCoderはスプリントに作業を整理することで開発効率を向上し、スプリントを通じてソフトウェアを漸進的に開発することに重点を置いている。
さらに、コードベースへの更新に伴って、動的にコード依存グラフを生成するモジュールであるDynamic Code Graph Generatorも導入しています。
これにより、エージェントはコードベースをより理解し、ソフトウェア開発プロセス全体を通してより正確なコード生成と修正を行うことができます。
AgileCoderは、ChatDevやMetaGPTといった既存のベンチマークを超え、新しい標準を確立し、高度なソフトウェアエンジニアリング環境におけるマルチエージェントシステムの能力を示す。
Software agents have emerged as promising tools for addressing complex software engineering tasks. Existing works, on the other hand, frequently oversimplify software development workflows, despite the fact that such workflows are typically more complex in the real world. Thus, we propose AgileCoder, a multi agent system that integrates Agile Methodology (AM) into the framework. This system assigns specific AM roles - such as Product Manager, Developer, and Tester to different agents, who then collaboratively develop software based on user inputs. AgileCoder enhances development efficiency by organizing work into sprints, focusing on incrementally developing software through sprints. Additionally, we introduce Dynamic Code Graph Generator, a module that creates a Code Dependency Graph dynamically as updates are made to the codebase. This allows agents to better comprehend the codebase, leading to more precise code generation and modifications throughout the software development process. AgileCoder surpasses existing benchmarks, like ChatDev and MetaGPT, establishing a new standard and showcasing the capabilities of multi agent systems in advanced software engineering environments. | 翻訳日:2024-07-17 00:16:39 公開日:2024-07-14 |
# Wasserstein-2損失最小化による生成モデリング
Generative Modeling by Minimizing the Wasserstein-2 Loss ( http://arxiv.org/abs/2406.13619v2 ) ライセンス: Link先を確認 | Yu-Jui Huang, Zachariah Malik, | (参考訳) 本稿では、分布依存常微分方程式(ODE)を用いて、2次ワッサーシュタイン損失($W_2$損失)を最小化することにより、教師なし学習問題にアプローチする。
主要な結果は、ODE の時空間法則が、真のデータ分布に指数関数的に収束する$W_2$損失に対して勾配流を形成することを示している。
ODEのオイラースキームを提案し,限界値の$W_2$損失の勾配流を復元することを示した。
アルゴリズムはスキームに従い、永続的なトレーニングを適用することで設計されます。
低次元と高次元の両方の実験において、我々のアルゴリズムは、持続的トレーニングのレベルを適切に増加させることで、ワッサーシュタイン生成対向ネットワークより優れている。
This paper approaches the unsupervised learning problem by minimizing the second-order Wasserstein loss (the $W_2$ loss) through a distribution-dependent ordinary differential equation (ODE), whose dynamics involves the Kantorovich potential associated with the true data distribution and a current estimate of it. A main result shows that the time-marginal laws of the ODE form a gradient flow for the $W_2$ loss, which converges exponentially to the true data distribution. An Euler scheme for the ODE is proposed and it is shown to recover the gradient flow for the $W_2$ loss in the limit. An algorithm is designed by following the scheme and applying persistent training, which naturally fits our gradient-flow approach. In both low- and high-dimensional experiments, our algorithm outperforms Wasserstein generative adversarial networks by increasing the level of persistent training appropriately. | 翻訳日:2024-07-17 00:06:54 公開日:2024-07-14 |
# なぜ自分の時間で量子を教えるのか:量子技術教育とアウトリーチに関わる草の根組織の価値
Why Teach Quantum In Your Own Time: The Values of Grassroots Organizations Involved in Quantum Technologies Education and Outreach ( http://arxiv.org/abs/2406.18761v2 ) ライセンス: Link先を確認 | Ulrike Genenz, Neelanjana Anne, Zeynep Kılıç, Daniel Mathews, Oya Ok, Adrian Schmidt, Zeki Can Seskir, | (参考訳) 本稿では,量子技術(QT)教育の領域で活動する草の根組織における目標と価値の交わりについて検討する。
これは、教育を提供する目的と、インクリシティ、アクセシビリティ、多様性の原則を通じて学習を民主化する動機とを根本的に区別している。
この分析は、これらの組織が、QTの高度専門分野における持続的な成長と発展を目標にしながら、基礎的価値に固執するという2つの課題に対処して、初期段階の段階をいかにナビゲートするかを明らかにしている。
この研究は、これらの団体が採用する戦略的アプローチを明らかにする。
この研究は、これらの草の根組織の潜在的な脆弱性、特に量子セクター内の専門的な役割にメンバーが移るにつれて、そのイニシアチブの長寿と進化に関連している。
本研究は,QT分野の新興教育組織が,実践的成長を考慮したイデオロギー的コミットメントを両立させ,その軌道や影響に影響を及ぼす重要な要因を浮き彫りにしている。
This paper examines the intersection of goals and values within grassroots organizations operating in the realm of quantum technologies (QT) education. It delineates a fundamental distinction between the objective to provide education and the drive to democratize learning through principles of inclusivity, accessibility, and diversity. The analysis reveals how these organizations navigate their nascent stages, grappling with the dual challenge of adhering to their foundational values while aspiring for sustainable growth and development in the highly specialized field of QT. The study uncovers the strategic approaches adopted by these entities, including efforts to create educational ecosystems and foster community engagement. The research underscores the potential vulnerabilities of these grassroots organizations, particularly in relation to the longevity and evolution of their initiatives as members transition into professional roles within the quantum sector. Through this investigation, the paper contributes to a nuanced understanding of how emerging educational organizations in the QT field balance their ideological commitments with practical growth considerations, highlighting the critical factors that influence their trajectory and impact. | 翻訳日:2024-07-16 23:57:10 公開日:2024-07-14 |
# Roleplay-doh: LLMを模擬した患者を励磁し、原則に固執するドメインエキスパートの育成
Roleplay-doh: Enabling Domain-Experts to Create LLM-simulated Patients via Eliciting and Adhering to Principles ( http://arxiv.org/abs/2407.00870v2 ) ライセンス: Link先を確認 | Ryan Louie, Ananjan Nandi, William Fang, Cheng Chang, Emma Brunskill, Diyi Yang, | (参考訳) 最近の研究は、LLMを現実的な社会的シナリオのロールプレイに活用し、初心者の社会的スキルの実践を支援している。
しかし、メンタルヘルスのような敏感な相互作用をシミュレートすることは困難である。
プライバシに関する懸念はデータアクセスを制限し、専門家からのフィードバックを集めることは極めて重要だ。
そこで我々は,LLMが推進するロールプレイを管理する,一連の原則や自然言語規則に変換されたドメインエキスパートからの質的なフィードバックを取り入れた,新しい人間-LLMコラボレーションパイプラインであるRoleplay-dohを開発した。
我々は、このパイプラインを適用し、初心者カウンセラーのためのシミュレートされた実践パートナーのために、シニアメンタルヘルスサポーターがカスタマイズされたAI患者を作成できるようにします。
また,GPT-4シミュレーションの課題を専門家が定義した原則に順守せず,応答品質の30%向上と下流タスクの原則改善を示す新しい原理順守促進パイプラインも導入した。
25人のカウンセリングの専門家によるユーザスタディにより、このパイプラインは、クリエーターやサードパーティのカウンセラーによって判断されるように、実際の患者にもっと忠実に類似したAI患者を、簡単かつ効果的に作成できることを示した。
コードとデータについては、プロジェクトのWebサイトhttps://roleplay-doh.github.io/を参照してください。
Recent works leverage LLMs to roleplay realistic social scenarios, aiding novices in practicing their social skills. However, simulating sensitive interactions, such as in mental health, is challenging. Privacy concerns restrict data access, and collecting expert feedback, although vital, is laborious. To address this, we develop Roleplay-doh, a novel human-LLM collaboration pipeline that elicits qualitative feedback from a domain-expert, which is transformed into a set of principles, or natural language rules, that govern an LLM-prompted roleplay. We apply this pipeline to enable senior mental health supporters to create customized AI patients for simulated practice partners for novice counselors. After uncovering issues in GPT-4 simulations not adhering to expert-defined principles, we also introduce a novel principle-adherence prompting pipeline which shows 30% improvements in response quality and principle following for the downstream task. Via a user study with 25 counseling experts, we demonstrate that the pipeline makes it easy and effective to create AI patients that more faithfully resemble real patients, as judged by creators and third-party counselors. See our project website at https://roleplay-doh.github.io/ for code and data. | 翻訳日:2024-07-16 23:57:10 公開日:2024-07-14 |
# WildAvatar:3Dアバター作成のためのWebスケールのIn-the-Wildビデオデータセット
WildAvatar: Web-scale In-the-wild Video Dataset for 3D Avatar Creation ( http://arxiv.org/abs/2407.02165v3 ) ライセンス: Link先を確認 | Zihao Huang, Shoukang Hu, Guangcong Wang, Tianqi Liu, Yuhang Zang, Zhiguo Cao, Wei Li, Ziwei Liu, | (参考訳) アバター作成のための既存の人間のデータセットは通常実験室環境に限られており、高品質なアノテーション(例えば、3Dスキャンやマルチビュー画像からのSMPL推定)を理想的に提供することができる。
しかし、それらの注釈付け要件は現実のイメージやビデオには実用的ではなく、現在のアバター作成方法における現実のアプリケーションに対する課題を提起している。
この目的のために,YouTubeから抽出したWebスケールの人体アバター生成データセットであるWildAvatarデータセットを提案する。
WildAvatarは、人間の3Dアバター作成のための以前のデータセットよりも、少なくとも$10\times$リッチだ。
我々は,アバター作成における現実のアプリケーションにおける未探索課題を,データセット上でいくつかの最先端アバター作成手法を評価した。
また,大規模データ提供時のアバター生成手法の一般化可能性を示す。
データソースリンクとアノテーションを公開し、現実世界のアプリケーションのための3Dヒューマンアバター作成や他の関連分野を前進させます。
Existing human datasets for avatar creation are typically limited to laboratory environments, wherein high-quality annotations (e.g., SMPL estimation from 3D scans or multi-view images) can be ideally provided. However, their annotating requirements are impractical for real-world images or videos, posing challenges toward real-world applications on current avatar creation methods. To this end, we propose the WildAvatar dataset, a web-scale in-the-wild human avatar creation dataset extracted from YouTube, with $10,000+$ different human subjects and scenes. WildAvatar is at least $10\times$ richer than previous datasets for 3D human avatar creation. We evaluate several state-of-the-art avatar creation methods on our dataset, highlighting the unexplored challenges in real-world applications on avatar creation. We also demonstrate the potential for generalizability of avatar creation methods, when provided with data at scale. We publicly release our data source links and annotations, to push forward 3D human avatar creation and other related fields for real-world applications. | 翻訳日:2024-07-16 23:57:10 公開日:2024-07-14 |
# MTMamba: マンバベースのデコーダによるマルチタスクDense Scene理解の強化
MTMamba: Enhancing Multi-Task Dense Scene Understanding by Mamba-Based Decoders ( http://arxiv.org/abs/2407.02228v2 ) ライセンス: Link先を確認 | Baijiong Lin, Weisen Jiang, Pengguang Chen, Yu Zhang, Shu Liu, Ying-Cong Chen, | (参考訳) 複数の密集予測タスクのモデルを学ぶマルチタスク密集シーン理解には、幅広いアプリケーションシナリオがある。
長距離依存性のモデリングとクロスタスク相互作用の強化はマルチタスク密度予測に不可欠である。
本稿では,マルチタスクシーン理解のための新しいマンバベースアーキテクチャであるMTMambaを提案する。
コアブロックには、セルフタスクのMamba(STM)ブロックとクロスタスクのMamba(CTM)ブロックの2種類がある。
STMはMambaを活用することで長距離依存を処理し、CTMはタスク間の情報交換を容易にするためにタスクインタラクションを明示的にモデル化する。
NYUDv2とPASCAL-Contextデータセットの実験では、TransformerベースのメソッドとCNNベースのメソッドよりも、MTMambaの方が優れたパフォーマンスを示している。
特に、PASCAL-Contextデータセットでは、MTMambaは、セマンティックセグメンテーション、ヒューマンパーシング、オブジェクト境界検出のタスクにおいて、以前のベストメソッドよりも+2.08、+5.01、+4.90の改善を実現している。
コードはhttps://github.com/EnVision-Research/MTMamba.comで入手できる。
Multi-task dense scene understanding, which learns a model for multiple dense prediction tasks, has a wide range of application scenarios. Modeling long-range dependency and enhancing cross-task interactions are crucial to multi-task dense prediction. In this paper, we propose MTMamba, a novel Mamba-based architecture for multi-task scene understanding. It contains two types of core blocks: self-task Mamba (STM) block and cross-task Mamba (CTM) block. STM handles long-range dependency by leveraging Mamba, while CTM explicitly models task interactions to facilitate information exchange across tasks. Experiments on NYUDv2 and PASCAL-Context datasets demonstrate the superior performance of MTMamba over Transformer-based and CNN-based methods. Notably, on the PASCAL-Context dataset, MTMamba achieves improvements of +2.08, +5.01, and +4.90 over the previous best methods in the tasks of semantic segmentation, human parsing, and object boundary detection, respectively. The code is available at https://github.com/EnVision-Research/MTMamba. | 翻訳日:2024-07-16 23:57:10 公開日:2024-07-14 |
# FreeCG: 機械学習力場のためのClebsch-Gordan変換の設計空間
FreeCG: Free the Design Space of Clebsch-Gordan Transform for Machine Learning Force Field ( http://arxiv.org/abs/2407.02263v2 ) ライセンス: Link先を確認 | Shihao Shao, Haoran Geng, Qinghua Cui, | (参考訳) Clebsch-Gordan変換(CG変換)は、多体相互作用を効果的に符号化する。
多くの研究は、原子環境の描写においてその正確さを証明しているが、これは高い計算要求が伴っている。
この課題の計算負荷は、CG変換層の設計空間を制限する置換等式を必要とするため、低減が困難である。
置換不変入力にCG変換層を実装することにより、対称性に影響を与えることなく、この層の設計が完全に自由になることを示す。
この前提に基づいてさらに発展し、実際のエッジ情報から生成された置換不変抽象エッジで動作するCG変換層を作成する。
我々は,群CG変換をスパースパス,抽象エッジシャッフル,アテンションエンハンサーで実現し,強力かつ効率的なCG変換層を形成する。
提案手法はFreeCGと呼ばれ, MD17, rMD17, MD22の強制予測と, 顕著な拡張を伴うQM9データセットの特性予測を行う。
将来の幾何学的ニューラルネットワーク設計において、効率的かつ表現力のあるCG変換を実行するための新しいパラダイムを導入している。
The Clebsch-Gordan Transform (CG transform) effectively encodes many-body interactions. Many studies have proven its accuracy in depicting atomic environments, although this comes with high computational needs. The computational burden of this challenge is hard to reduce due to the need for permutation equivariance, which limits the design space of the CG transform layer. We show that, implementing the CG transform layer on permutation-invariant inputs allows complete freedom in the design of this layer without affecting symmetry. Developing further on this premise, our idea is to create a CG transform layer that operates on permutation-invariant abstract edges generated from real edge information. We bring in group CG transform with sparse path, abstract edges shuffling, and attention enhancer to form a powerful and efficient CG transform layer. Our method, known as FreeCG, achieves State-of-The-Art (SoTA) results in force prediction for MD17, rMD17, MD22, and property prediction in QM9 datasets with notable enhancement. It introduces a novel paradigm for carrying out efficient and expressive CG transform in future geometric neural network designs. | 翻訳日:2024-07-16 23:57:10 公開日:2024-07-14 |
# ハイブリッド量子古典フォトニックニューラルネットワーク
Hybrid Quantum-Classical Photonic Neural Networks ( http://arxiv.org/abs/2407.02366v2 ) ライセンス: Link先を確認 | Tristan Austin, Simon Bilodeau, Andrew Hayman, Nir Rotenberg, Bhavin Shastri, | (参考訳) ニューロモルフィック(脳にインスパイアされた)フォトニクスは、フォトニックチップを利用して人工知能を加速し、RF通信、テンソル処理、データ分類において高速でエネルギー効率の高いソリューションを提供する。
しかし、集積フォトニックハードウェアの物理的サイズは、ネットワークの複雑さと計算能力に制約を与える。
近年のフォトニック量子技術の進歩を踏まえ、量子指数高速化を利用してフォトニックニューラルネットワークの能力を拡張することは自然である。
ここでは、古典的ネットワーク層とトレーニング可能な連続可変量子回路の組み合わせにより、トレーニング容易性と精度を向上させたハイブリッドネットワークが得られることを示す。
分類タスクでは、ハイブリッドネットワークは2倍の大きさの完全古典的ネットワークに対してベンチマークすると、同じ性能を達成する。
付加ノイズにより最適化されたネットワークのビット精度が低減された場合、最先端のビット精度で評価すると、ハイブリッドネットワークは高い精度が得られる。
これらのハイブリッド量子古典ネットワークは、物理ネットワークサイズを増大させることなく、統合フォトニックニューラルネットワークの計算能力を向上させるユニークな方法を示す。
Neuromorphic (brain-inspired) photonics leverages photonic chips to accelerate artificial intelligence, offering high-speed and energy efficient solutions in RF communication, tensor processing, and data classification. However, the limited physical size of integrated photonic hardware constrains network complexity and computational capacity. In light of recent advances in photonic quantum technology, it is natural to utilize quantum exponential speedup to scale photonic neural network capabilities. Here we show a combination of classical network layers with trainable continuous variable quantum circuits yields hybrid networks with improved trainability and accuracy. On a classification task, hybrid networks achieve the same performance when benchmarked against fully classical networks that are twice the size. When the bit precision of the optimized networks is reduced through added noise, the hybrid networks still achieve greater accuracy when evaluated at state of the art bit precision. These hybrid quantum classical networks demonstrate a unique route to improve computational capacity of integrated photonic neural networks without increasing the physical network size. | 翻訳日:2024-07-16 23:47:24 公開日:2024-07-14 |
# CATT:文字ベースのアラビア・タシュキール変換器
CATT: Character-based Arabic Tashkeel Transformer ( http://arxiv.org/abs/2407.03236v3 ) ライセンス: Link先を確認 | Faris Alasmary, Orjuwan Zaafarani, Ahmad Ghannam, | (参考訳) タシュケル (Tashkeel) は、曖昧さを排除し、その欠如による誤解釈のリスクを最小限にすることで、アラビア語テキストの理解を大幅に強化する。
アラビア文字処理、特にテキスト音声翻訳や機械翻訳などの応用において重要な役割を担っている。
本稿では,ATDモデルのトレーニングに新たなアプローチを提案する。
まず、予め訓練された文字ベースBERTから初期化したエンコーダオンリーとエンコーダデコーダの2つのトランスを微調整した。
そして、最良のモデルの性能を高めるためにノイズ・スチューデント・アプローチを適用した。
我々は、WikiNewsとCATTデータセットという2つの手動ラベル付きベンチマークデータセットを使用して、11の商用およびオープンソースモデルと共にモデルを評価した。
以上の結果から,本モデルがWikiNews と CATT でそれぞれ 30.83 % と 35.21 % の相対的ダイアクリティカルエラー率 (DERs) で評価された全てのモデルを上回る結果を得た。
さらに,本モデルでは,CATTデータセットのGPT-4-turboを9.36\%の相対DDERで上回る性能を示した。
私たちはCATTモデルとベンチマークデータセットをオープンソースとして公開しています。
Tashkeel, or Arabic Text Diacritization (ATD), greatly enhances the comprehension of Arabic text by removing ambiguity and minimizing the risk of misinterpretations caused by its absence. It plays a crucial role in improving Arabic text processing, particularly in applications such as text-to-speech and machine translation. This paper introduces a new approach to training ATD models. First, we finetuned two transformers, encoder-only and encoder-decoder, that were initialized from a pretrained character-based BERT. Then, we applied the Noisy-Student approach to boost the performance of the best model. We evaluated our models alongside 11 commercial and open-source models using two manually labeled benchmark datasets: WikiNews and our CATT dataset. Our findings show that our top model surpasses all evaluated models by relative Diacritic Error Rates (DERs) of 30.83\% and 35.21\% on WikiNews and CATT, respectively, achieving state-of-the-art in ATD. In addition, we show that our model outperforms GPT-4-turbo on CATT dataset by a relative DER of 9.36\%. We open-source our CATT models and benchmark dataset for the research community\footnote{https://github.com/abjadai/catt}. | 翻訳日:2024-07-16 23:47:24 公開日:2024-07-14 |
# 言語モデルコンテキストの評価 Windows:「作業記憶」テストと推論時間補正
Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction ( http://arxiv.org/abs/2407.03651v2 ) ライセンス: Link先を確認 | Amanda Dsouza, Christopher Glaze, Changho Shin, Frederic Sala, | (参考訳) 大規模な言語モデルは現実世界のアプリケーションで顕著に使われ、しばしば大量の文書を推論する。
この分野のエキサイティングな展開は、拡張コンテキスト機能を備えたモデルで、中には200万以上のトークンを収容するものもある。
このような長期のコンテキストモデル機能は、実運用システムでは不確実なままであり、実世界のユースケースでパフォーマンスをベンチマークする必要性を動機付けている。
我々は,標準テストの限界に対処する評価フレームワークであるSWiMを提案することで,この問題に対処する。
8つの長いコンテキストモデル上でフレームワークをテストすると、GPT-4やClaude 3 Opusのような強力なモデルでさえ、コンテキストウィンドウの中央に情報が存在する場合のパフォーマンスが低下する(ロスト・イン・ザ・ミドル効果)。
次に,提案するメドイド投票(メドイド投票)は,文書をランダムに変更する度に数回応答を生成し,メドイドの回答を選択することで,この効果を緩和する,シンプルで効果的なトレーニング不要な手法である。
単一文書QAタスクにおけるメドイド投票を24%の精度で評価した。
私たちのコードはhttps://github.com/snorkel-ai/long-context-eval.comで利用可能です。
Large language models are prominently used in real-world applications, often tasked with reasoning over large volumes of documents. An exciting development in this space is models boasting extended context capabilities, with some accommodating over 2 million tokens. Such long context model capabilities remain uncertain in production systems, motivating the need to benchmark their performance on real world use cases. We address this challenge by proposing SWiM, an evaluation framework that addresses the limitations of standard tests. Testing the framework on eight long context models, we find that even strong models such as GPT-4 and Claude 3 Opus degrade in performance when information is present in the middle of the context window (lost-in-the-middle effect). Next, in addition to our benchmark, we propose medoid voting, a simple, but effective training-free approach that helps alleviate this effect, by generating responses a few times, each time randomly permuting documents in the context, and selecting the medoid answer. We evaluate medoid voting on single document QA tasks, achieving up to a 24% lift in accuracy. Our code is available at https://github.com/snorkel-ai/long-context-eval. | 翻訳日:2024-07-16 23:47:23 公開日:2024-07-14 |
# 多重閾値を用いた教師なし外乱検出の再検討
Rethinking Unsupervised Outlier Detection via Multiple Thresholding ( http://arxiv.org/abs/2407.05382v2 ) ライセンス: Link先を確認 | Zhonghang Liu, Panzhong Lu, Guoyang Xie, Zhichao Lu, Wen-Yan Lin, | (参考訳) 教師なし画像の外れ値検出の領域では、外れ値の割り当ては、その後のタスクであるラベルのしきい値予測よりも重要である。
これは、分離不能なアウトリーチスコア関数の最適しきい値を決定することが不適切な問題であるからである。
しかしながら、予測ラベルの欠如は、現在の外れ値検出器の実際の応用を隠蔽するだけでなく、データセットの自己スーパービジョンを活用することによって、これらの手法を拡張しないようにもしている。
既存のスコアリング手法を改善するために,マルチしきい値(Multi-T)モジュールを提案する。
2つのしきい値を生成して、不正なターゲットデータセットから不整合と外接点を分離する一方、外接値はより優れた特徴表現を得るために使用され、不整合は非汚染多様体を提供する。
大規模実験により,Multi-T が提案した出力スコアリング法を大幅に改善できることが確認された。
さらに、Multi-Tは、最先端であるナイーブ距離ベースの手法に寄与する。
In the realm of unsupervised image outlier detection, assigning outlier scores holds greater significance than its subsequent task: thresholding for predicting labels. This is because determining the optimal threshold on non-separable outlier score functions is an ill-posed problem. However, the lack of predicted labels not only hiders some real applications of current outlier detectors but also causes these methods not to be enhanced by leveraging the dataset's self-supervision. To advance existing scoring methods, we propose a multiple thresholding (Multi-T) module. It generates two thresholds that isolate inliers and outliers from the unlabelled target dataset, whereas outliers are employed to obtain better feature representation while inliers provide an uncontaminated manifold. Extensive experiments verify that Multi-T can significantly improve proposed outlier scoring methods. Moreover, Multi-T contributes to a naive distance-based method being state-of-the-art. | 翻訳日:2024-07-16 21:47:52 公開日:2024-07-14 |
# バックドアディフェンスを用いた進化的トリガー検出と軽量モデル修復
Evolutionary Trigger Detection and Lightweight Model Repair Based Backdoor Defense ( http://arxiv.org/abs/2407.05396v2 ) ライセンス: Link先を確認 | Qi Zhou, Zipeng Ye, Yubo Tang, Wenjian Luo, Yuhui Shi, Yan Jia, | (参考訳) ディープニューラルネットワーク(DNN)は、自律運転や顔認識など、多くの分野で広く利用されている。
しかし、DNNモデルはバックドア攻撃に対して脆弱である。
DNNモデルのバックドアは、トリガーによる有毒な入力によってアクティベートされ、誤った予測につながるため、アプリケーションに深刻なセキュリティ問題が発生する。
現在の防衛は、特に物理世界のようにトリガーのサイズや数が変動している場合に、限られた計算資源でバックドアを効果的に排除することは困難である。
進化的トリガ検出と軽量モデル修復に基づく効率的なバックドア防御を提案する。
CAM-focus Evolutionary Trigger Filter (CETF) をトリガ検出のための第1フェーズとして提案する。
CETFは進化的アルゴリズムを用いた効果的なサンプル前処理手法であり、実験結果から、CETFはトリガによる画像とクリーンな画像とを正確に区別するだけでなく、バックドア攻撃時の簡易性や安定性の面で広く利用することができることがわかった。
本手法の第2フェーズでは,CETFが検出したトリガをモデル修復に用いる軽量なアンラーニング手法を活用し,バックドアとバッチ正規化層との基盤的相関性を具体的に示す。
ソースコードは受理後公開される。
Deep Neural Networks (DNNs) have been widely used in many areas such as autonomous driving and face recognition. However, DNN model is fragile to backdoor attack. A backdoor in the DNN model can be activated by a poisoned input with trigger and leads to wrong prediction, which causes serious security issues in applications. It is challenging for current defenses to eliminate the backdoor effectively with limited computing resources, especially when the sizes and numbers of the triggers are variable as in the physical world. We propose an efficient backdoor defense based on evolutionary trigger detection and lightweight model repair. In the first phase of our method, CAM-focus Evolutionary Trigger Filter (CETF) is proposed for trigger detection. CETF is an effective sample-preprocessing based method with the evolutionary algorithm, and our experimental results show that CETF not only distinguishes the images with triggers accurately from the clean images, but also can be widely used in practice for its simplicity and stability in different backdoor attack situations. In the second phase of our method, we leverage several lightweight unlearning methods with the trigger detected by CETF for model repair, which also constructively demonstrate the underlying correlation of the backdoor with Batch Normalization layers. Source code will be published after accepted. | 翻訳日:2024-07-16 21:47:52 公開日:2024-07-14 |
# 画像復調用異種窓変圧器
Heterogeneous window transformer for image denoising ( http://arxiv.org/abs/2407.05709v2 ) ライセンス: Link先を確認 | Chunwei Tian, Menghua Zheng, Chia-Wen Lin, Zhiwu Li, David Zhang, | (参考訳) ディープネットワークは通常、より構造的な情報を抽出してデノゲーション結果を改善する。
しかし、画像からの画素間の相関を無視し、よりノイズの多い性能を追求する。
ウィンドウ変換器は、長距離および短距離のモデリングを使用して、上記の問題に対処するためにピクセルを相互作用させることができる。
距離モデリングと復調時間の間でのトレードオフを実現するため,画像復調のための異種ウィンドウトランス (HWformer) を提案する。
HWformerはまず異質なグローバルウィンドウを設計し、デノナイジング効果を改善するためにグローバルコンテキスト情報をキャプチャする。
長距離モデリングと短距離モデリングの橋梁を構築するために、グローバルウインドウを水平・垂直に移動させ、デノジング時間を増大させることなく多様化情報を容易にする。
独立パッチの情報損失現象を防止するため、スパースアイデアをフィードフォワードネットワークに誘導し、隣接するパッチのローカル情報を抽出する。
提案されているHWformerは、一般的なRestormerの30%しか利用できない。
Deep networks can usually depend on extracting more structural information to improve denoising results. However, they may ignore correlation between pixels from an image to pursue better denoising performance. Window transformer can use long- and short-distance modeling to interact pixels to address mentioned problem. To make a tradeoff between distance modeling and denoising time, we propose a heterogeneous window transformer (HWformer) for image denoising. HWformer first designs heterogeneous global windows to capture global context information for improving denoising effects. To build a bridge between long and short-distance modeling, global windows are horizontally and vertically shifted to facilitate diversified information without increasing denoising time. To prevent the information loss phenomenon of independent patches, sparse idea is guided a feed-forward network to extract local information of neighboring patches. The proposed HWformer only takes 30% of popular Restormer in terms of denoising time. | 翻訳日:2024-07-16 21:47:52 公開日:2024-07-14 |
# トラッカーのないフリーハンド超音波の非剛性再建
Nonrigid Reconstruction of Freehand Ultrasound without a Tracker ( http://arxiv.org/abs/2407.05767v2 ) ライセンス: Link先を確認 | Qi Li, Ziyi Shen, Qianye Yang, Dean C. Barratt, Matthew J. Clarkson, Tom Vercauteren, Yipeng Hu, | (参考訳) トラッカーを使わずに2Dフリーハンド超音波(US)フレームを3次元空間に再構成する手法は,近年,ディープラーニングの進歩を目にしている。
良好なフレーム・ツー・フレームの剛性変換を予測することは、特に空間追跡装置からの接地トラストラベルが本質的に剛性変換である場合、学習目的としてしばしば受け入れられる。
モチベーション
イ 走査中の軟組織の動きによる観察された非剛性変形、及び
b) 剛性変換の高感度予測について, 非剛性変換予測法とその利点について検討した。
そこで本稿では, トラッカーからの接地構造によって制御されたUSフレーム間の剛性変換を同時に推定する, 正規化された登録ネットワークによって最適化された非剛性変形を同時に最適化するアルゴリズムを提案する。
これらの2つの目的がメタラーニングによって最適化されるか、重み付けによって組み合わせられるかを示す。
高速分散データ補間も開発され、訓練中に非並列USフレームの頻繁な再構築と登録が可能となった。
60の被験者から得られた720のスキャンで357,000フレーム以上を含む新しいデータセットを用いて, より容易に最適化できる解空間が拡張されたことにより, 剛性接地構造に対する変形推定を付加することにより, 一般化が向上することを示した。
世界規模の画素再構成誤差(累積予測を評価する)は、ベースラインの剛性変換予測法と比較して18.48mmから16.51mmに低下する。
手動で識別されたランドマークを用いて、提案した共最適化は、トラッカーによって提供される地上構造によって測定できない非剛性組織の動きを推論時に補償する可能性も示している。
この論文で使用されるコードとデータはhttps://github.com/QiLi111/NR-Rec-FUSで公開されている。
Reconstructing 2D freehand Ultrasound (US) frames into 3D space without using a tracker has recently seen advances with deep learning. Predicting good frame-to-frame rigid transformations is often accepted as the learning objective, especially when the ground-truth labels from spatial tracking devices are inherently rigid transformations. Motivated by a) the observed nonrigid deformation due to soft tissue motion during scanning, and b) the highly sensitive prediction of rigid transformation, this study investigates the methods and their benefits in predicting nonrigid transformations for reconstructing 3D US. We propose a novel co-optimisation algorithm for simultaneously estimating rigid transformations among US frames, supervised by ground-truth from a tracker, and a nonrigid deformation, optimised by a regularised registration network. We show that these two objectives can be either optimised using meta-learning or combined by weighting. A fast scattered data interpolation is also developed for enabling frequent reconstruction and registration of non-parallel US frames, during training. With a new data set containing over 357,000 frames in 720 scans, acquired from 60 subjects, the experiments demonstrate that, due to an expanded thus easier-to-optimise solution space, the generalisation is improved with the added deformation estimation, with respect to the rigid ground-truth. The global pixel reconstruction error (assessing accumulative prediction) is lowered from 18.48 to 16.51 mm, compared with baseline rigid-transformation-predicting methods. Using manually identified landmarks, the proposed co-optimisation also shows potentials in compensating nonrigid tissue motion at inference, which is not measurable by tracker-provided ground-truth. The code and data used in this paper are made publicly available at https://github.com/QiLi111/NR-Rec-FUS. | 翻訳日:2024-07-16 21:47:52 公開日:2024-07-14 |
# MUSE: 機械学習による言語モデルの6ウェイ評価
MUSE: Machine Unlearning Six-Way Evaluation for Language Models ( http://arxiv.org/abs/2407.06460v2 ) ライセンス: Link先を確認 | Weijia Shi, Jaechan Lee, Yangsibo Huang, Sadhika Malladi, Jieyu Zhao, Ari Holtzman, Daogao Liu, Luke Zettlemoyer, Noah A. Smith, Chiyuan Zhang, | (参考訳) 言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。
データ所有者は、プライバシや著作権上の懸念から、トレーニングされたモデルからデータを削除するよう要求することができる。
しかし、現在のモデルでは、これらのデータポイント(つまり、データを削除して再トレーニングする)のみを正確に学習することは困難である。
これは多くの近似アンラーニングアルゴリズムの開発につながった。
これらのアルゴリズムの有効性の評価は、伝統的に範囲が狭く、モデルデプロイとデータオーナの両方の観点から、アルゴリズムの成功と実用性を正確に定量化できない。
我々は,(1)動詞の暗記,(2)知識の暗記,(3)プライバシの漏洩,(4)削除を意図しないデータに対するユーティリティの保存,(5)削除要求のサイズに関するスケーラビリティ,(6)シーケンシャルなアンラーニング要求に対する持続可能性という,未学習モデルに望ましい6つの特性を列挙する総合的マシンアンラーニング評価ベンチマークであるMUSEを提案する。
これらの基準を用いて、7BパラメータLM上の8つの人気のある未学習アルゴリズムが、ハリー・ポッターの書籍やニュース記事の読解を効果的に行なえるかをベンチマークする。
以上の結果から,ほとんどのアルゴリズムは,単語の暗記や知識の暗記を様々な程度に防ぐことができるが,厳密なプライバシー漏洩につながるのは1つのアルゴリズムのみであることが示された。
さらに、既存のアルゴリズムは一般的なモデルユーティリティを劣化させることが多く、連続した未学習要求や大規模なコンテンツ削除を持続的に適応できないため、デプロイ者の期待を満たさない。
言語モデル上での既存の未学習アルゴリズムの実用性に関する重要な問題を明らかにするとともに,さらなる評価を促進するためのベンチマークを公表した。
Language models (LMs) are trained on vast amounts of text data, which may include private and copyrighted content. Data owners may request the removal of their data from a trained model due to privacy or copyright concerns. However, exactly unlearning only these datapoints (i.e., retraining with the data removed) is intractable in modern-day models. This has led to the development of many approximate unlearning algorithms. The evaluation of the efficacy of these algorithms has traditionally been narrow in scope, failing to precisely quantify the success and practicality of the algorithm from the perspectives of both the model deployers and the data owners. We address this issue by proposing MUSE, a comprehensive machine unlearning evaluation benchmark that enumerates six diverse desirable properties for unlearned models: (1) no verbatim memorization, (2) no knowledge memorization, (3) no privacy leakage, (4) utility preservation on data not intended for removal, (5) scalability with respect to the size of removal requests, and (6) sustainability over sequential unlearning requests. Using these criteria, we benchmark how effectively eight popular unlearning algorithms on 7B-parameter LMs can unlearn Harry Potter books and news articles. Our results demonstrate that most algorithms can prevent verbatim memorization and knowledge memorization to varying degrees, but only one algorithm does not lead to severe privacy leakage. Furthermore, existing algorithms fail to meet deployer's expectations because they often degrade general model utility and also cannot sustainably accommodate successive unlearning requests or large-scale content removal. Our findings identify key issues with the practicality of existing unlearning algorithms on language models, and we release our benchmark to facilitate further evaluations: muse-bench.github.io | 翻訳日:2024-07-16 21:47:52 公開日:2024-07-14 |
# ブロックスパース信号再構成のためのグループ計画部分空間探索:収束解析とその応用
Group Projected Subspace Pursuit for Block Sparse Signal Reconstruction: Convergence Analysis and Applications ( http://arxiv.org/abs/2407.07707v2 ) ライセンス: Link先を確認 | Roy Y. He, Haixia Liu, Hao Liu, | (参考訳) 本稿では,He et al [HKL+23] が提案するグループ計画部分空間探索アルゴリズム (GP-IDENT, Journal of Computational Physics, 494, 112526) の収束解析を行い,その応用をブロックスパース信号回復の一般的なタスクに拡張する。
サンプリング行列がブロック制限等尺特性(BRIP)を十分に小さいブロック制限等尺定数(BRIC)で満足すると、GPSPは真のブロックスパース信号を正確に回復する。
観測がノイズである場合、真の信号の大きさが十分に大きい場合、GPSPの収束特性は有効である。
GPSPは、候補包含のためのサブスペース投影基準(SPC)と候補排除のための応答大基準(RMC)によって特徴を選択する。
これらの基準を、他の最先端のグリードアルゴリズムと比較する。
理論的解析と数値アブレーション研究により,GPSPの優れた性能にはSPCが重要であり,観測結果がノイズを含む場合,RCCは特徴識別の堅牢性を高めることができることがわかった。
異種ランダムブロック行列,不正確な観察,顔認識,PDE識別など,GPSPと他の手法との比較を行った。
GPSPは様々なブロック間隔やブロックサイズで他のアルゴリズムよりも優れており、一般的な用途での有効性を正当化している。
In this paper, we present a convergence analysis of the Group Projected Subspace Pursuit (GPSP) algorithm proposed by He et al. [HKL+23] (Group Projected subspace pursuit for IDENTification of variable coefficient differential equations (GP-IDENT), Journal of Computational Physics, 494, 112526) and extend its application to general tasks of block sparse signal recovery. We prove that when the sampling matrix satisfies the Block Restricted Isometry Property (BRIP) with a sufficiently small Block Restricted Isometry Constant (BRIC), GPSP exactly recovers the true block sparse signals. When the observations are noisy, this convergence property of GPSP remains valid if the magnitude of true signal is sufficiently large. GPSP selects the features by subspace projection criterion (SPC) for candidate inclusion and response magnitude criterion (RMC) for candidate exclusion. We compare these criteria with counterparts of other state-of-the-art greedy algorithms. Our theoretical analysis and numerical ablation studies reveal that SPC is critical to the superior performances of GPSP, and that RMC can enhance the robustness of feature identification when observations contain noises. We test and compare GPSP with other methods in diverse settings, including heterogeneous random block matrices, inexact observations, face recognition, and PDE identification. We find that GPSP outperforms the other algorithms in most cases for various levels of block sparsity and block sizes, justifying its effectiveness for general applications. | 翻訳日:2024-07-16 21:47:52 公開日:2024-07-14 |
# 上訴するものは重要でない! -- 拡散モデルの臨床的展望
What Appears Appealing May Not be Significant! -- A Clinical Perspective of Diffusion Models ( http://arxiv.org/abs/2407.10029v1 ) ライセンス: Link先を確認 | Vanshali Sharma, | (参考訳) 拡散モデルのような様々なトレンド画像生成技術により、テキストベースの記述だけで視覚的に魅力的な結果が得られるようになった。
テキスト記述と品質とアライメントを評価することは、一般的な画像とは異なり、臨床環境でそのような関係を確立することは困難である。
本研究は, 病態の異なる合成ポリープ画像の臨床的意義を評価するための様々な戦略について検討する。
さらに,定性的な結果と臨床関連性との関係について検討した。
Various trending image generative techniques, such as diffusion models, have enabled visually appealing outcomes with just text-based descriptions. Unlike general images, where assessing the quality and alignment with text descriptions is trivial, establishing such a relation in a clinical setting proves challenging. This work investigates various strategies to evaluate the clinical significance of synthetic polyp images of different pathologies. We further explore if a relation could be established between qualitative results and their clinical relevance. | 翻訳日:2024-07-16 19:48:19 公開日:2024-07-14 |
# LeanQuant:Los-Error-Aware Gridによる大規模言語モデルの正確な量子化
LeanQuant: Accurate Large Language Model Quantization with Loss-Error-Aware Grid ( http://arxiv.org/abs/2407.10032v1 ) ライセンス: Link先を確認 | Tianyi Zhang, Anshumali Shrivastava, | (参考訳) 大規模言語モデル(LLM)は、様々な領域にまたがる多数のアプリケーションを持つが、その高い計算量とメモリ要求は、大きなデプロイメント課題をもたらす。
重み量子化は、LLMの復号遅延とメモリ要求を低減する効果的な手法である。
既存のアプローチは主に、入力特徴の外れ値を保存することによって量子化モデルの質を維持することを目的としているが、ビット幅の低いところでは大きな品質損失を被っている。
我々のアプローチは、反復的な重み更新に基づく量子化フレームワークであるOBQ(Optimal Brain Quantization)に基づいている。
OBQの重要な制限、特に、その均一な量子化グリッドは、タスク損失に大きなエラーをもたらすため、モデル品質を維持するのに最適である。
そこで我々は,逆対角Hessianを利用して損失エラー対応量子化グリッドを学習するLeanQuantを提案する。
1つの32GB GPUを使用して、70ビリオンパラメータモデルを6時間で定量化でき、4ビット、3ビット、2ビット領域の競合ベースラインと比較して好適に動作する。
Large language models (LLMs) have numerous applications across various domains, but their high computational and memory demands pose significant deployment challenges. Weight quantization is an effective technique for reducing the decoding latency and memory requirements of LLMs. Existing approaches primarily aim to maintain the quality of quantized models by preserving outliers in input features, but they still suffer significant quality loss at lower bit widths. Our approach builds on Optimal Brain Quantization (OBQ), an iterative weight-update-based quantization framework. We identify a key limitation of OBQ, specifically that its uniform quantization grid is suboptimal for maintaining model quality, as it introduces large errors to the task loss. To address this, we propose LeanQuant, which learns a loss-error-aware quantization grid by leveraging the inverse diagonal Hessian. Extensive empirical evaluations demonstrate that LeanQuant is both efficient and accurate; it can quantize a 70-billion-parameter model in 6 hours using a single 32GB GPU and performs favorably compared to competitive baselines in the 4-bit, 3-bit, and 2-bit regions. | 翻訳日:2024-07-16 19:48:19 公開日:2024-07-14 |
# OpenTracer: スマートコントラクト不変生成とそれ以外のための動的トランザクショントレースアナライザ
OpenTracer: A Dynamic Transaction Trace Analyzer for Smart Contract Invariant Generation and Beyond ( http://arxiv.org/abs/2407.10039v1 ) ライセンス: Link先を確認 | Zhiyang Chen, Ye Liu, Sidi Mohamed Beillahi, Yi Li, Fan Long, | (参考訳) ブロックチェーン上の自己実行プログラムであるスマートコントラクトは、集中的な監視なしに信頼性の高い価値交換を促進する。
業界とアカデミックの両方におけるトランザクション履歴の動的解析に最近焦点が当てられているが、現在オープンソースツールは、不変関連データなどのユーザから望まれるデータを抽出するために、完全なトランザクション情報の包括的な追跡を提供している。
本稿では,このギャップに対処するために設計されたOpenTracerを紹介する。
OpenTracerは、すべての実行ステップの包括的なトラッキングを保証し、完全なトランザクション情報を提供する。
OpenTracerは350,800のEthereumトランザクションを分析し、事前に定義されたテンプレートから23種類の不変性を推論することに成功している。
このツールは完全にオープンソースであり、トランザクションの振る舞いを研究したり、トランザクショントレースから新しい不変性を抽出し、検証することを目的とした、開発者や研究者にとって貴重なリソースとして機能する。
OpenTracerのソースコードはhttps://github.com/jeffchen006/OpenTracerで入手できる。
Smart contracts, self-executing programs on the blockchain, facilitate reliable value exchanges without centralized oversight. Despite the recent focus on dynamic analysis of their transaction histories in both industry and academia, no open-source tool currently offers comprehensive tracking of complete transaction information to extract user-desired data such as invariant-related data. This paper introduces OpenTracer, designed to address this gap. OpenTracer guarantees comprehensive tracking of every execution step, providing complete transaction information. OpenTracer has been employed to analyze 350,800 Ethereum transactions, successfully inferring 23 different types of invariant from predefined templates. The tool is fully open-sourced, serving as a valuable resource for developers and researchers aiming to study transaction behaviors or extract and validate new invariants from transaction traces. The source code of OpenTracer is available at https://github.com/jeffchen006/OpenTracer. | 翻訳日:2024-07-16 19:48:19 公開日:2024-07-14 |
# Lean-STaR: 思考と証明のインターリーブを学ぶ
Lean-STaR: Learning to Interleave Thinking and Proving ( http://arxiv.org/abs/2407.10040v1 ) ライセンス: Link先を確認 | Haohan Lin, Zhiqing Sun, Yiming Yang, Sean Welleck, | (参考訳) 従来の言語モデルに基づく定理証明は、十分な量の形式的証明データをトレーニングすることで、モデルが定理を証明することを学ぶと仮定する。
我々のキーとなる観察は、形式的な証明に存在しない多くの非公式な情報が、定理を証明するための学習に役立つことである。
例えば、人間は証明のステップを通して考えるが、この思考プロセスは結果のコードでは見えない。
証明の各ステップに先立って非公式な思考を生成するために、言語モデルをトレーニングするためのフレームワークであるLean-STaRを紹介します。
Lean-STaRは、言語モデルをトレーニングするための合成思考を生成するために、レトロスペクティブの地道戦略を使用している。
推論時に、トレーニングされたモデルは、各証明ステップにおける戦術の予測に先立って、直接思考を生成する。
自己学習の推論フレームワークに基づいて、専門家のイテレーションを適用して、モデルがサンプリングした正しい証明をさらに微調整し、リーンソルバを使って検証します。
Lean-STaRは、Lean定理の証明環境におけるminiF2F-testベンチマークの最先端の結果を達成し、ベースモデル(\boldsymbol{43.4\% \rightarrow 46.3\%,}$ Pass@64)よりも大幅に優れています。
また,拡張思考が定理証明過程の諸側面に与える影響を分析し,その効果について考察する。
Traditional language model-based theorem proving assumes that by training on a sufficient amount of formal proof data, a model will learn to prove theorems. Our key observation is that a wealth of informal information that is not present in formal proofs can be useful for learning to prove theorems. For instance, humans think through steps of a proof, but this thought process is not visible in the resulting code. We present Lean-STaR, a framework for training language models to produce informal thoughts prior to each step of a proof, thereby boosting the model's theorem-proving capabilities. Lean-STaR uses retrospective ground-truth tactics to generate synthetic thoughts for training the language model. At inference time, the trained model directly generates the thoughts prior to the prediction of the tactics in each proof step. Building on the self-taught reasoner framework, we then apply expert iteration to further fine-tune the model on the correct proofs it samples and verifies using the Lean solver. Lean-STaR achieves state-of-the-art results on the miniF2F-test benchmark within the Lean theorem proving environment, significantly outperforming base models ($\boldsymbol{43.4\% \rightarrow 46.3\%,}$ Pass@64). We also analyze the impact of the augmented thoughts on various aspects of the theorem proving process, providing insights into their effectiveness. | 翻訳日:2024-07-16 19:48:19 公開日:2024-07-14 |
# 変分オートエンコーダと動的閾値を用いた異常検出のためのHarnessing機能クラスタリング
Harnessing Feature Clustering For Enhanced Anomaly Detection With Variational Autoencoder And Dynamic Threshold ( http://arxiv.org/abs/2407.10042v1 ) ライセンス: Link先を確認 | Tolulope Ale, Nicole-Jeanne Schlegel, Vandana P. Janeja, | (参考訳) 北極圏の融雪のような極端な気候イベントに影響を及ぼす重要な期間と特徴を特定することを目的とした,多変量時系列データの異常検出手法を提案する。
この方法は、動的しきい値と相関に基づく特徴クラスタリングと統合された変分オートエンコーダ(VAE)を利用する。
このフレームワークは、VAEが局所的な依存関係を識別し、気候データにおける時間的関係を学習する能力を強化し、より高いF1スコアのベンチマークデータセットで示されるような異常の検出を改善する。
この研究の主な貢献は、ロバストな異常検出法の開発、クラスタリングによるVAE内の特徴表現の改善、局所的な異常検出のための動的しきい値アルゴリズムの作成である。
この方法は、異なる地域にわたる気候異常の説明可能性を提供する。
We introduce an anomaly detection method for multivariate time series data with the aim of identifying critical periods and features influencing extreme climate events like snowmelt in the Arctic. This method leverages the Variational Autoencoder (VAE) integrated with dynamic thresholding and correlation-based feature clustering. This framework enhances the VAE's ability to identify localized dependencies and learn the temporal relationships in climate data, thereby improving the detection of anomalies as demonstrated by its higher F1-score on benchmark datasets. The study's main contributions include the development of a robust anomaly detection method, improving feature representation within VAEs through clustering, and creating a dynamic threshold algorithm for localized anomaly detection. This method offers explainability of climate anomalies across different regions. | 翻訳日:2024-07-16 19:48:19 公開日:2024-07-14 |
# コンピュータビジョン・ロボティクス科学生の研究経験
Research Experience of an Undergraduate Student in Computer Vision and Robotics ( http://arxiv.org/abs/2407.10044v1 ) ライセンス: Link先を確認 | Ayush V. Gowda, Juan D. Yepes, Daniel Raviv, | (参考訳) 本稿では,コンピュータビジョンとロボティクスの分野に精通するコンピュータ工学の学部生の教育経験に焦点を当てる。
カメラが翻訳動作を行うとき、光学フローとその応用がどのように移動物体を検出するのかを探求し、遭遇した課題とそれらを克服するための戦略を強調した。
さらに,本論文では,学生が獲得した技術スキルだけでなく,チームワークや多様性に関わる対人的スキルについても論じている。
本稿では,技術・問題解決スキルの獲得や,アウト・オブ・ザ・ボックス思考などの学習プロセスについて詳述する。
This paper focuses on the educational journey of a computer engineering undergraduate student venturing into the domain of computer vision and robotics. It explores how optical flow and its applications can be used to detect moving objects when a camera undergoes translational motion, highlighting the challenges encountered and the strategies used to overcome them. Furthermore, the paper discusses not only the technical skills acquired by the student but also interpersonal skills as related to teamwork and diversity. In this paper, we detail the learning process, including the acquisition of technical and problem-solving skills, as well as out-of-the-box thinking. | 翻訳日:2024-07-16 19:48:19 公開日:2024-07-14 |
# HSFusion:意味的および幾何学的領域変換による高レベル視覚タスク駆動赤外線および可視画像融合ネットワーク
HSFusion: A high-level vision task-driven infrared and visible image fusion network via semantic and geometric domain transformation ( http://arxiv.org/abs/2407.10047v1 ) ライセンス: Link先を確認 | Chengjie Jiang, Xiaowen Liu, Bowen Zheng, Lu Bai, Jing Li, | (参考訳) 赤外および可視画像融合は、視知覚指向の融合法から、視知覚と高レベル視覚タスクの両方を考慮した戦略へと発展してきた。
しかし、既存のタスク駆動手法は意味論と幾何学的表現の間の領域ギャップに対処できない。
これらの課題を克服するために,HSFusion という用語を用いた意味的および幾何学的領域変換による高レベルの視覚タスク駆動赤外線・可視画像融合ネットワークを提案する。
具体的には、意味的表現と幾何学的表現のギャップを最小限に抑えるために、CycleGANフレームワークによって2つの別々のドメイン変換分岐を設計し、それぞれが前方分割プロセスと逆再構成プロセスの2つのプロセスを含む。
CycleGANはドメイン変換パターンを学習し、これらのパターンの制約の下でCycleGANの再構成プロセスを実行する。
したがって,本手法は意味情報や幾何学的情報の統合を著しく促進し,領域のギャップを小さくすることができる。
融合段階において,2つのセフェレートサイクロンの再構成過程から抽出した赤外・可視的特徴を統合し,融合結果を得た。
これらの特徴は、意味的および幾何学的な情報の多様さを含むもので、ハイレベルな視覚タスクを著しく強化することができる。
さらに、分割結果に基づいてマスクを生成し、融合タスクを誘導する。
これらのマスクはセマンティックな事前情報を提供することができ、マスク内の2つの異なる領域に対して適応的な重みを設計し、画像の融合を促進する。
最後に,本手法と11種類の最先端手法の比較実験を行い,視覚的魅力と意味的セグメンテーションの両課題において,我々のアプローチが他よりも優れていることを示した。
Infrared and visible image fusion has been developed from vision perception oriented fusion methods to strategies which both consider the vision perception and high-level vision task. However, the existing task-driven methods fail to address the domain gap between semantic and geometric representation. To overcome these issues, we propose a high-level vision task-driven infrared and visible image fusion network via semantic and geometric domain transformation, terms as HSFusion. Specifically, to minimize the gap between semantic and geometric representation, we design two separate domain transformation branches by CycleGAN framework, and each includes two processes: the forward segmentation process and the reverse reconstruction process. CycleGAN is capable of learning domain transformation patterns, and the reconstruction process of CycleGAN is conducted under the constraint of these patterns. Thus, our method can significantly facilitate the integration of semantic and geometric information and further reduces the domain gap. In fusion stage, we integrate the infrared and visible features that extracted from the reconstruction process of two seperate CycleGANs to obtain the fused result. These features, containing varying proportions of semantic and geometric information, can significantly enhance the high level vision tasks. Additionally, we generate masks based on segmentation results to guide the fusion task. These masks can provide semantic priors, and we design adaptive weights for two distinct areas in the masks to facilitate image fusion. Finally, we conducted comparative experiments between our method and eleven other state-of-the-art methods, demonstrating that our approach surpasses others in both visual appeal and semantic segmentation task. | 翻訳日:2024-07-16 19:48:19 公開日:2024-07-14 |
# AutoGRAMS:自律的なグラフィカルエージェントモデリングソフトウェア
AutoGRAMS: Autonomous Graphical Agent Modeling Software ( http://arxiv.org/abs/2407.10049v1 ) ライセンス: Link先を確認 | Ben Krause, Lucia Chen, Emmanuel Kahembwe, | (参考訳) 本稿では,言語モデルとマルチステップインタラクションを行うためのAutoGRAMSフレームワークを紹介する。
AutoGRAMSはAIエージェントをグラフとして表現し、各ノードは言語モデリング命令または従来のコードのいずれかを実行することができる。
同様に、グラフの遷移は言語モデリングの決定または伝統的な分岐論理によって制御できる。
AutoGRAMSは変数をメモリとして使用することをサポートし、ノードは他のAutoGRAMSグラフを関数として呼び出すことができる。
本稿では、AutoGRAMSを用いて、自己参照エージェントを含む高度なエージェントを設計する方法について述べる。
AutoGRAMSのグラフ中心のアプローチは、AIエージェントの設計、開発、デプロイにおける解釈可能性、制御性、安全性を支援する。
私たちはフレームワークをhttps://github.com/autograms/autogramsでオープンソースとして提供しています。
We introduce the AutoGRAMS framework for programming multi-step interactions with language models. AutoGRAMS represents AI agents as a graph, where each node can execute either a language modeling instruction or traditional code. Likewise, transitions in the graph can be governed by either language modeling decisions or traditional branch logic. AutoGRAMS supports using variables as memory and allows nodes to call other AutoGRAMS graphs as functions. We show how AutoGRAMS can be used to design highly sophisticated agents, including self-referential agents that can modify their own graph. AutoGRAMS's graph-centric approach aids interpretability, controllability, and safety during the design, development, and deployment of AI agents. We provide our framework as open source at https://github.com/autograms/autograms . | 翻訳日:2024-07-16 19:38:33 公開日:2024-07-14 |
# 効率的なバックドア浄化のための強化ニューラルファインチューニング
Augmented Neural Fine-Tuning for Efficient Backdoor Purification ( http://arxiv.org/abs/2407.10052v1 ) ライセンス: Link先を確認 | Nazmul Karim, Abdullah Al Arafat, Umar Khalid, Zhishan Guo, Nazanin Rahnavard, | (参考訳) 近年の研究では、様々なバックドア攻撃に対するディープニューラルネットワーク(DNN)の脆弱性が明らかにされている。
State-of-the-art(SOTA)ディフェンスは、トリガー分布をリバースエンジニアリングするための計算コストのかかる対向探索モジュールか、過敏なハイパーパラメータ選択モジュールのいずれかを必要とする、高度すぎるメカニズムを採用している。
さらに、挑戦的なシナリオ、例えば、限定されたバリデーションデータ、強力な攻撃において、サブパーパフォーマンスを提供する。
本稿では,バックドアの効果を除去する目的で,ニューロン活動の最適再編成を目的としたニューラルマスクファインチューニング(NFT)を提案する。
MixUpのような単純なデータ拡張を利用することで、NFTはトリガー合成プロセスを緩和し、逆探索モジュールの要求をなくす。
また, 本研究は, 厳密な検証データによる直接微調整により, 浄化後の清浄検査精度が低下することを明らかにした。
そこで本研究では,モデル重みの代わりにニューラルマスクを微調整する手法を提案する。
さらに、浄化過程でモデルドリフトをさらに緩和するためにマスクレギュレータが考案されている。
NFTの特徴は、単一のサンプルが各クラスから利用可能である場合でも、バックドアを削除することができるため、ランタイムとサンプルの両方で非常に効率的である。
画像分類,物体検出,映像行動認識,3Dポイントクラウド,自然言語処理などのタスクを網羅した広範な実験により,NFTの有効性を検証した。
我々は、ImageNet、UCF101、Pascal VOC、ModelNet、OpenSubtitles2012など11のベンチマークデータセット上で、14の異なる攻撃(LIRA、WaNetなど)に対して、本手法を評価した。
Recent studies have revealed the vulnerability of deep neural networks (DNNs) to various backdoor attacks, where the behavior of DNNs can be compromised by utilizing certain types of triggers or poisoning mechanisms. State-of-the-art (SOTA) defenses employ too-sophisticated mechanisms that require either a computationally expensive adversarial search module for reverse-engineering the trigger distribution or an over-sensitive hyper-parameter selection module. Moreover, they offer sub-par performance in challenging scenarios, e.g., limited validation data and strong attacks. In this paper, we propose Neural mask Fine-Tuning (NFT) with an aim to optimally re-organize the neuron activities in a way that the effect of the backdoor is removed. Utilizing a simple data augmentation like MixUp, NFT relaxes the trigger synthesis process and eliminates the requirement of the adversarial search module. Our study further reveals that direct weight fine-tuning under limited validation data results in poor post-purification clean test accuracy, primarily due to overfitting issue. To overcome this, we propose to fine-tune neural masks instead of model weights. In addition, a mask regularizer has been devised to further mitigate the model drift during the purification process. The distinct characteristics of NFT render it highly efficient in both runtime and sample usage, as it can remove the backdoor even when a single sample is available from each class. We validate the effectiveness of NFT through extensive experiments covering the tasks of image classification, object detection, video action recognition, 3D point cloud, and natural language processing. We evaluate our method against 14 different attacks (LIRA, WaNet, etc.) on 11 benchmark data sets such as ImageNet, UCF101, Pascal VOC, ModelNet, OpenSubtitles2012, etc. | 翻訳日:2024-07-16 19:38:33 公開日:2024-07-14 |
# MKDTI:グラフアテンションネットワーク上でのマルチカーネル融合による薬物-標的相互作用の予測
MKDTI: Predicting drug-target interactions via multiple kernel fusion on graph attention network ( http://arxiv.org/abs/2407.10055v1 ) ライセンス: Link先を確認 | Yuhuan Zhou, Yulin Wu, Weiwei Yuan, Xuan Wang, Junyi Li, | (参考訳) これは薬理効果の理解、薬物開発効率の向上、関連研究の進展に有用なツールである。
構造ベース、リガンドベース、ネットワークベースのアプローチが数多く登場している。
さらに、グラフアテンションネットワークと複雑な薬物標的研究の統合は、関心を増すための応用分野である。
本研究では,グラフアテンションネットワークの様々な層埋め込みからカーネル情報を抽出することにより,MKDTIと呼ばれるモデルを定式化する。
この組み合わせにより、新規な薬物標的関係に関する予測能力が向上する。
まず、薬物や標的の異種データを用いて薬物標的の不均一なネットワークを構築し、その後、自己強化されたマルチヘッドグラフアテンションネットワークを用いて各層における潜在的な特徴を抽出する。
次に、各レイヤの埋め込みを利用して、カーネル行列を計算的に抽出し、複数のカーネル行列を融合する。
最後に、Dual Laplacian Regularized Least Squaresフレームワークを使用して、新規なドラッグターゲットエンティティ接続を予測する。
この予測は、薬物標的に関連するカーネルマトリックスを統合することで容易にできる。
我々は,AUPRとAUCを用いて,モデルの有効性を測定した。
ベンチマークアルゴリズムと比較して,我々のモデルは予測結果よりも優れていた。
さらに,カーネル選択実験を行った。
その結果,マルチカーネル融合アプローチとグラフアテンションネットワークが生成するカーネル行列を組み合わせることで,モデルに対する補完的な洞察が得られた。
この情報の融合は予測の精度を高めるのに役立つ。
Drug-target relationships may now be predicted computationally using bioinformatics data, which is a valuable tool for understanding pharmacological effects, enhancing drug development efficiency, and advancing related research. A number of structure-based, ligand-based and network-based approaches have now emerged. Furthermore, the integration of graph attention networks with intricate drug target studies is an application area of growing interest. In our work, we formulate a model called MKDTI by extracting kernel information from various layer embeddings of a graph attention network. This combination improves the prediction ability with respect to novel drug-target relationships. We first build a drug-target heterogeneous network using heterogeneous data of drugs and targets, and then use a self-enhanced multi-head graph attention network to extract potential features in each layer. Next, we utilize embeddings of each layer to computationally extract kernel matrices and fuse multiple kernel matrices. Finally, we use a Dual Laplacian Regularized Least Squares framework to forecast novel drug-target entity connections. This prediction can be facilitated by integrating the kernel matrix associated with the drug-target. We measured our model's efficacy using AUPR and AUC. Compared to the benchmark algorithms, our model outperforms them in the prediction outcomes. In addition, we conducted an experiment on kernel selection. The results show that the multi-kernel fusion approach combined with the kernel matrix generated by the graph attention network provides complementary insights into the model. The fusion of this information helps to enhance the accuracy of the predictions. | 翻訳日:2024-07-16 19:38:33 公開日:2024-07-14 |
# 不合理な微分を見つけるための量子自動ツール
A Quantum Automatic Tool for Finding Impossible Differentials ( http://arxiv.org/abs/2407.10056v1 ) ライセンス: Link先を確認 | Huiqin Xie, Qiqing Xia, Ke Wang, Yanjun Li, Li Yang, | (参考訳) 量子コンピューティングの優位性のため、従来の暗号は深刻な脅威に直面している。
これにより、量子攻撃モデルにおける暗号システムのセキュリティ評価が重要かつ緊急に行われる。
対称暗号では、セキュリティ分析はシンプアナリシスツールに大きく依存している。
したがって、従来のシンプアナリシスツールへの量子アルゴリズムの利用を探求することは、多くの注目を集めている。
本研究では、量子アルゴリズムを用いて、不可能な微分攻撃を改善するとともに、不可能な微分を探索するための2つの量子自動ツールを設計する。
提案した量子アルゴリズムは、ミス・イン・ザ・ミドル(英語版)の概念と、切り刻まれた微分の性質を利用する。
我々は、その妥当性を厳格に証明し、それらを実装するために必要な量子リソースを計算する。
既存の古典的自動暗号解析と比較して、提案する量子ツールは、多項式複雑性を必要とせず、Sボックスを正確に特徴づける利点があり、シングルキーモデルにおける鍵スケジュールの影響を考慮することができる。
Due to the superiority of quantum computing, traditional cryptography is facing severe threat. This makes the security evaluation of cryptographic systems in quantum attack models significant and urgent. For symmetric ciphers, the security analysis heavily relies on cyptanalytic tools. Thus exploring the use of quantum algorithms to traditional cyptanalytic tools has drawn a lot of attention. In this study, we utilize quantum algorithms to improve impossible differential attack, and design two quantum automatic tools for searching impossible differentials. The proposed quantum algorithms exploit the idea of miss-in-the-middle and the properties of truncated differentials. We rigorously prove their validity and calculate the quantum resources required to implement them. Compared to existing classical automatic cryptanalysis, the quantum tools proposed have the advantage of accurately characterizing S-boxes while only requiring polynomial complexity, and can take into consideration the impact of the key schedules in single-key model. | 翻訳日:2024-07-16 19:38:33 公開日:2024-07-14 |
# 再利用への学習 - LLMにおけるプライバシリスクの軽減に向けて
Learning to Refuse: Towards Mitigating Privacy Risks in LLMs ( http://arxiv.org/abs/2407.10058v1 ) ライセンス: Link先を確認 | Zhenhua Liu, Tong Zhu, Chuanyuan Tan, Wenliang Chen, | (参考訳) 大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。
しかし、これらのモデルは故意に個人情報を記憶し、重大なプライバシーリスクを生じさせる可能性がある。
本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。
実世界のpErsonal daTa UnleaRNingデータセットである‘return’を提案し、Wikipediaの2,492人の個人と関連するQAペアで構成され、現実的なシナリオで個人データを保護するための機械学習(MU)手法を評価する。
さらに、プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入し、他の無関係な個人に関する質問に答える能力に影響を与えることなく、どの個人の情報を保護するべきかを学習できるようにする。
実験の結果,NAUFは平均的未学習スコアを達成し,最高のベースライン法を5.65ポイント越え,対象個人の個人データを効果的に保護し,モデルの汎用性を維持した。
Large language models (LLMs) exhibit remarkable capabilities in understanding and generating natural language. However, these models can inadvertently memorize private information, posing significant privacy risks. This study addresses the challenge of enabling LLMs to protect specific individuals' private data without the need for complete retraining. We propose \return, a Real-world pErsonal daTa UnleaRNing dataset, comprising 2,492 individuals from Wikipedia with associated QA pairs, to evaluate machine unlearning (MU) methods for protecting personal data in a realistic scenario. Additionally, we introduce the Name-Aware Unlearning Framework (NAUF) for Privacy Protection, which enables the model to learn which individuals' information should be protected without affecting its ability to answer questions related to other unrelated individuals. Our extensive experiments demonstrate that NAUF achieves a state-of-the-art average unlearning score, surpassing the best baseline method by 5.65 points, effectively protecting target individuals' personal data while maintaining the model's general capabilities. | 翻訳日:2024-07-16 19:38:33 公開日:2024-07-14 |
# InfiniMotion:Mambaは、任意長動き生成のためのトランスフォーマーのメモリを増強する
InfiniMotion: Mamba Boosts Memory in Transformer for Arbitrary Long Motion Generation ( http://arxiv.org/abs/2407.10061v1 ) ライセンス: Link先を確認 | Zeyu Zhang, Akide Liu, Qi Chen, Feng Chen, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang, | (参考訳) テキスト・トゥ・モーション・ジェネレーションは映画・ゲーム・ロボティクスの可能性を秘めているが、現行の手法では、しばしばショートモーション・ジェネレーションを優先しているため、長動きシーケンスを効果的に生成することが困難である。
これらの課題を解決するために,自動回帰フレームワーク内で任意の長さの連続的な動き列を生成するInfiniMotionを提案する。
約8万フレームの連続した1時間の人間の動きを生成することで、その画期的な能力を強調します。
具体的には、双方向のマンバメモリを備えたモーションメモリ変換器を導入し、この変換器のメモリを拡張して、計算資源の過大な負荷を伴わずに長時間の動作シーケンスを効率的に処理する。
特に,本手法は従来の最先端手法と比較して,FIDの30%以上の改善と6倍のデモンストレーションを実現し,長動き発生の著しい進歩を示す。
https://steve-zeyu-zhang.github.io/InfiniMotion/
Text-to-motion generation holds potential for film, gaming, and robotics, yet current methods often prioritize short motion generation, making it challenging to produce long motion sequences effectively: (1) Current methods struggle to handle long motion sequences as a single input due to prohibitively high computational cost; (2) Breaking down the generation of long motion sequences into shorter segments can result in inconsistent transitions and requires interpolation or inpainting, which lacks entire sequence modeling. To solve these challenges, we propose InfiniMotion, a method that generates continuous motion sequences of arbitrary length within an autoregressive framework. We highlight its groundbreaking capability by generating a continuous 1-hour human motion with around 80,000 frames. Specifically, we introduce the Motion Memory Transformer with Bidirectional Mamba Memory, enhancing the transformer's memory to process long motion sequences effectively without overwhelming computational resources. Notably our method achieves over 30% improvement in FID and 6 times longer demonstration compared to previous state-of-the-art methods, showcasing significant advancements in long motion generation. See project webpage: https://steve-zeyu-zhang.github.io/InfiniMotion/ | 翻訳日:2024-07-16 19:38:33 公開日:2024-07-14 |
# SpikeGS:高速カメラモーションによるスパイクストリームからの3Dガウス撮影
SpikeGS: 3D Gaussian Splatting from Spike Streams with High-Speed Camera Motion ( http://arxiv.org/abs/2407.10062v1 ) ライセンス: Link先を確認 | Jiyuan Zhang, Kang Chen, Shiyan Chen, Yajing Zheng, Tiejun Huang, Zhaofei Yu, | (参考訳) 新しいビュー合成は、3Dシーンのマルチビュー画像から新しい2Dレンダリングを生成することで重要な役割を果たす。
しかし、従来のカメラで高速なシーンを撮影すると、しばしば動きがぼやけてしまい、3D再構成の有効性が損なわれる。
この課題に対処するためには、高フレームレートの高密度3D再構成が重要なテクニックとして登場し、バーチャルリアリティや具体化されたAIなど、さまざまな分野の現実世界のオブジェクトやシーンの詳細な、正確なモデリングを可能にする。
新しいタイプのニューロモルフィックセンサーであるスパイクカメラは、超高時間分解能でシーンを継続的に記録し、正確な3D再構成の可能性を示している。
約束にもかかわらず、カメラのスパイクにNeural Radiance Fields(NeRF)を適用するといった既存のアプローチは、時間を要するレンダリングプロセスによる課題に直面している。
この問題に対処するため,我々は3Dガウス・スプレイティング(3DGS)を高速撮影時にスパイクカメラに導入し,高密度かつ連続的なビューの手がかりとして3DGSを提供し,次にSpikeGSを構築した。
具体的には、SpikeGSを訓練するために、3DGSのレンダリングプロセスと、連続スパイクストリームの瞬時イメージングと露光ライクイメージングのプロセスの間に計算方程式を確立する。
さらに、スパイクからインスタントイメージへの非常に軽量で効果的なマッピングプロセスを構築し、トレーニングをサポートします。
さらに,評価のための新しいスパイクベースの3Dレンダリングデータセットも導入した。
広汎な実験により,本手法は3次元シーンのモデリングにおいてスパイクカメラが持つ大きな可能性を証明し,新しいビューレンダリングの高品質さを実証した。
Novel View Synthesis plays a crucial role by generating new 2D renderings from multi-view images of 3D scenes. However, capturing high-speed scenes with conventional cameras often leads to motion blur, hindering the effectiveness of 3D reconstruction. To address this challenge, high-frame-rate dense 3D reconstruction emerges as a vital technique, enabling detailed and accurate modeling of real-world objects or scenes in various fields, including Virtual Reality or embodied AI. Spike cameras, a novel type of neuromorphic sensor, continuously record scenes with an ultra-high temporal resolution, showing potential for accurate 3D reconstruction. Despite their promise, existing approaches, such as applying Neural Radiance Fields (NeRF) to spike cameras, encounter challenges due to the time-consuming rendering process. To address this issue, we make the first attempt to introduce the 3D Gaussian Splatting (3DGS) into spike cameras in high-speed capture, providing 3DGS as dense and continuous clues of views, then constructing SpikeGS. Specifically, to train SpikeGS, we establish computational equations between the rendering process of 3DGS and the processes of instantaneous imaging and exposing-like imaging of the continuous spike stream. Besides, we build a very lightweight but effective mapping process from spikes to instant images to support training. Furthermore, we introduced a new spike-based 3D rendering dataset for validation. Extensive experiments have demonstrated our method possesses the high quality of novel view rendering, proving the tremendous potential of spike cameras in modeling 3D scenes. | 翻訳日:2024-07-16 19:38:33 公開日:2024-07-14 |
# 大規模言語モデル蒸留のための多粒度セマンティックリビジョン
Multi-Granularity Semantic Revision for Large Language Model Distillation ( http://arxiv.org/abs/2407.10068v1 ) ライセンス: Link先を確認 | Xiaoyu Liu, Yun Zhang, Wei Li, Simiao Li, Xudong Huang, Hanting Chen, Yehui Tang, Jie Hu, Zhiwei Xiong, Yunhe Wang, | (参考訳) 知識蒸留はLarge Language Models (LLM) の圧縮において重要な役割を担っている。
しかし, 既存のLLM蒸留法は, 生成誤差を生じさせ, 蒸留過程を誤る恐れがあるとして, 学生出力に過度に依存している。
さらに, 従来技術で導入されていた蒸留損失関数は, LLMの出力が複雑に分布していることから, 最も情報に富む部分の整合を図っている。
これらの問題に対処するために, LLM蒸留における多粒度意味的修正法を提案する。
シーケンスレベルでは、シーケンス修正と再生成(SCRG)戦略を提案する。
SCRGはまず,教師と生徒の認知的差異を計算してエラートークンを検知し,教師が生成したトークンで訂正し,生成エラーを低減し,生成多様性を向上させる。
トークンレベルでは, 蒸留目的関数として, Kullback-Leibler (DAC-KL) 損失の分散適応クリッピングを設計する。
DAC-KL損失は学習可能なサブネットワークを利用して教師の出力から意味的に密集した領域を適応的に抽出し、蒸留プロセスにおける冗長な情報の干渉を避ける。
最後に、スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と生徒の確率相関を一貫性に制約し、意味情報の伝達をさらに促進する。
パラメータが0.1Bから13Bの異なるモデル群を対象とした大規模な実験は,既存手法と比較して,本手法の優位性を実証している。
Knowledge distillation plays a key role in compressing the Large Language Models (LLMs), which boosts a small-size student model under large teacher models' guidance. However, existing LLM distillation methods overly rely on student-generated outputs, which may introduce generation errors and misguide the distillation process. Moreover, the distillation loss functions introduced in previous art struggle to align the most informative part due to the complex distribution of LLMs' outputs. To address these problems, we propose a multi-granularity semantic revision method for LLM distillation. At the sequence level, we propose a sequence correction and re-generation (SCRG) strategy. SCRG first calculates the semantic cognitive difference between the teacher and student to detect the error token, then corrects it with the teacher-generated one, and re-generates the sequence to reduce generation errors and enhance generation diversity. At the token level, we design a distribution adaptive clipping Kullback-Leibler (DAC-KL) loss as the distillation objective function. DAC-KL loss exploits a learnable sub-network to adaptively extract semantically dense areas from the teacher's output, avoiding the interference of redundant information in the distillation process. Finally, at the span level, we leverage the span priors of a sequence to compute the probability correlations within spans, and constrain the teacher and student's probability correlations to be consistent, further enhancing the transfer of semantic information. Extensive experiments across different model families with parameters ranging from 0.1B to 13B demonstrate the superiority of our method compared to existing methods. | 翻訳日:2024-07-16 19:38:33 公開日:2024-07-14 |
# Have ASkotch: 大規模でメモリ制限のあるカーネルリッジ回帰のための高速メソッド
Have ASkotch: Fast Methods for Large-scale, Memory-constrained Kernel Ridge Regression ( http://arxiv.org/abs/2407.10070v1 ) ライセンス: Link先を確認 | Pratik Rathore, Zachary Frangella, Madeleine Udell, | (参考訳) カーネルリッジ回帰(カーネルリッジ回帰、英: Kernel ridge regression、KRR)は、計算化学から健康分析まで幅広い問題に現れ、ガウス過程の回帰において特に重要な役割を担っている。
しかし、KRRソルバを大規模なデータセットにスケールすることは困難である:$n$トレーニングポイント、直接ソルバ(チョースキー分解)は$O(n^2)$ストレージと$O(n^3)$フロップを使用する。
事前条件付き共役勾配 (PCG) のような KRR の反復的手法では、直接解法器の立方体スケーリングを回避し、しばしば低階プリコンディショナーを使用する。
KRRの反復解のストレージとイテレーションの複雑さを軽減するため、ASkotch ($\textbf{A}$ccelerated $\textbf{s}$calable $\textbf{k}$ernel $\textbf{o}$p$\textbf{t}$imization using block $\textbf{c}$oordinate descend with $\textbf{H}$essian preconditioning。
与えられたブロックサイズが $|b| <<n$ の場合、ASkotch の各反復は $O(r|b| + n)$ ストレージと $O(n|b|)$ flops を使用する。
Askotch は、$\textit{preconditioned}$ block condition number の平方根に依存する収束率で、最適に線形収束することを示した。
さらに,計算資源が限られている場合のKRR問題に対して,ASkotchは大規模KRR(最大$n = 10^8$)およびKRR分類タスク(最大$n = 10^7$)の一般化誤差に対してPCG法より優れており,実験のそれぞれが$\textit{a single 12 GB Titan V GPU}$で実行されていることを示す。
我々の研究は、幅広い分野にわたるKRRの非想像的応用の可能性を開く。
Kernel ridge regression (KRR) is a fundamental computational tool, appearing in problems that range from computational chemistry to health analytics, with a particular interest due to its starring role in Gaussian process regression. However, it is challenging to scale KRR solvers to large datasets: with $n$ training points, a direct solver (i.e., Cholesky decomposition) uses $O(n^2)$ storage and $O(n^3)$ flops. Iterative methods for KRR, such as preconditioned conjugate gradient (PCG), avoid the cubic scaling of direct solvers and often use low-rank preconditioners; a rank $r$ preconditioner uses $O(rn)$ storage and each iteration requires $O(n^2)$ flops. To reduce the storage and iteration complexity of iterative solvers for KRR, we propose ASkotch ($\textbf{A}$ccelerated $\textbf{s}$calable $\textbf{k}$ernel $\textbf{o}$p$\textbf{t}$imization using block $\textbf{c}$oordinate descent with $\textbf{H}$essian preconditioning). For a given block size $|b| << n$, each iteration of ASkotch uses $O(r|b| + n)$ storage and $O(n|b|)$ flops, so ASkotch scales better than Cholesky decomposition and PCG. We prove that ASkotch obtains linear convergence to the optimum, with the convergence rate depending on the square roots of the $\textit{preconditioned}$ block condition numbers. Furthermore, we solve KRR problems that were considered to be impossibly large while using limited computational resources: we show that ASkotch outperforms PCG methods with respect to generalization error on large-scale KRR (up to $n = 10^8$) and KRR classification tasks (up to $n = 10^7$) while running each of our experiments on $\textit{a single 12 GB Titan V GPU}$. Our work opens up the possibility of as-yet-unimagined applications of KRR across a wide range of disciplines. | 翻訳日:2024-07-16 19:38:33 公開日:2024-07-14 |
# 拡散モデルを用いた移動可能な3次元逆形状補完
Transferable 3D Adversarial Shape Completion using Diffusion Models ( http://arxiv.org/abs/2407.10077v1 ) ライセンス: Link先を確認 | Xuelong Dai, Bin Xiao, | (参考訳) 幾何学的特徴と変圧器を3Dポイントクラウド特徴学習に組み込んだ最近の研究は、3Dディープラーニングモデルの性能を大幅に改善した。
しかし、敵軍の攻撃に対する頑強さは十分に調査されていない。
既存の攻撃方法は、主にホワイトボックスのシナリオに焦点を当てており、最近提案された3Dディープラーニングモデルへの移行に苦労している。
さらに悪いことに、これらの攻撃は3D座標に摂動をもたらし、非現実的な敵の例を生成し、結果として3Dの敵の防御に対する性能が低下する。
本稿では,拡散モデルを用いて高品質な対向点雲を生成する。
先行知識として部分点を用いることにより, 逆方向誘導による形状完備化により, 現実的な逆方向の例を生成する。
提案された対角線形状の完備化により、より信頼性の高い対角線雲の生成が可能となる。
攻撃伝達性を高めるため、3次元点雲の特徴を探索し、点雲のランダムダウンサンプリングによるモデル分類のより良い推論にモデル不確実性を用いる。
我々は、異なるネットワークアーキテクチャ間の転送性を改善するために、アンサンブル対向ガイダンスを採用する。
生成品質を維持するため,サリエンシスコアを計算することで,点雲の臨界点のみに敵対的ガイダンスを限定する。
大規模な実験により,提案した攻撃は,ブラックボックスモデルとディフェンスの両方に対して,最先端の敵攻撃法より優れていることが示された。
我々のブラックボックス攻撃は、様々な3Dポイントクラウド分類モデルの堅牢性を評価するための新しいベースラインを確立する。
Recent studies that incorporate geometric features and transformers into 3D point cloud feature learning have significantly improved the performance of 3D deep-learning models. However, their robustness against adversarial attacks has not been thoroughly explored. Existing attack methods primarily focus on white-box scenarios and struggle to transfer to recently proposed 3D deep-learning models. Even worse, these attacks introduce perturbations to 3D coordinates, generating unrealistic adversarial examples and resulting in poor performance against 3D adversarial defenses. In this paper, we generate high-quality adversarial point clouds using diffusion models. By using partial points as prior knowledge, we generate realistic adversarial examples through shape completion with adversarial guidance. The proposed adversarial shape completion allows for a more reliable generation of adversarial point clouds. To enhance attack transferability, we delve into the characteristics of 3D point clouds and employ model uncertainty for better inference of model classification through random down-sampling of point clouds. We adopt ensemble adversarial guidance for improved transferability across different network architectures. To maintain the generation quality, we limit our adversarial guidance solely to the critical points of the point clouds by calculating saliency scores. Extensive experiments demonstrate that our proposed attacks outperform state-of-the-art adversarial attack methods against both black-box models and defenses. Our black-box attack establishes a new baseline for evaluating the robustness of various 3D point cloud classification models. | 翻訳日:2024-07-16 19:38:33 公開日:2024-07-14 |
# 推薦システムの高速化を目的とした大規模言語モデルを用いた意味理解とデータインプット
Semantic Understanding and Data Imputation using Large Language Model to Accelerate Recommendation System ( http://arxiv.org/abs/2407.10078v1 ) ライセンス: Link先を確認 | Zhicheng Ding, Jiahao Tian, Zhenkai Wang, Jinman Zhao, Siyang Li, | (参考訳) 本稿では,ビッグデータ時代の大きなハードルであるレコメンデーションシステムにおけるスパースデータと欠落データの問題に対処することを目的とする。
従来の計算手法は、データ内の複雑な関係を捉えるのに苦労する。
そこで本稿では,LLM(Large-Tune Large Language Model)を提案する。
大量のテキストで訓練されたLLMは、データ間の複雑な関係を理解し、行方不明の情報をインテリジェントに埋めることができる。
このリッチなデータはレコメンデーションシステムによってより正確でパーソナライズされた提案を生成するために使用され、最終的にはユーザエクスペリエンスが向上する。
我々は,従来のデータ計算手法と比較して,単一の分類,複数分類,回帰を含む,レコメンデーションシステム領域内の様々なタスクを対象としたLCMベースの計算手法を評価した。
従来の手法よりもLCM計算の方が優れていることを示すことにより,推薦システムの性能向上の可能性を確立した。
This paper aims to address the challenge of sparse and missing data in recommendation systems, a significant hurdle in the age of big data. Traditional imputation methods struggle to capture complex relationships within the data. We propose a novel approach that fine-tune Large Language Model (LLM) and use it impute missing data for recommendation systems. LLM which is trained on vast amounts of text, is able to understand complex relationship among data and intelligently fill in missing information. This enriched data is then used by the recommendation system to generate more accurate and personalized suggestions, ultimately enhancing the user experience. We evaluate our LLM-based imputation method across various tasks within the recommendation system domain, including single classification, multi-classification, and regression compared to traditional data imputation methods. By demonstrating the superiority of LLM imputation over traditional methods, we establish its potential for improving recommendation system performance. | 翻訳日:2024-07-16 19:38:33 公開日:2024-07-14 |
# Plain-Det:Plain Multi-Dataset Object Detector
Plain-Det: A Plain Multi-Dataset Object Detector ( http://arxiv.org/abs/2407.10083v1 ) ライセンス: Link先を確認 | Cheng Shi, Yuchen Zhu, Sibei Yang, | (参考訳) 大規模基盤モデルの最近の進歩は、高度に熟練した大規模視覚モデルの訓練に広く関心を喚起している。
共通するコンセンサスとは、広範囲で高品質な注釈付きデータを集約する必要性に関するものだ。
しかし、オブジェクト検出やセグメンテーションなどのコンピュータビジョンにおける高密度タスクの注釈付けにおける固有の課題を考えると、実際の戦略は、トレーニング目的に利用可能なすべてのデータを組み合わせて活用することである。
本研究では、新しいデータセットに対応する柔軟性、多様なデータセット間のパフォーマンスの堅牢性、トレーニング効率、さまざまな検出アーキテクチャとの互換性を提供するPlain-Detを提案する。
我々はDef-DETRをPlain-Detの助けを借りてCOCO上で51.9mAPを達成する。
13の下流データセットに対して広範な実験を行い、Plain-Detは強力な一般化能力を示す。
code is release at https://github.com/ChengShiest/Plain-Det
Recent advancements in large-scale foundational models have sparked widespread interest in training highly proficient large vision models. A common consensus revolves around the necessity of aggregating extensive, high-quality annotated data. However, given the inherent challenges in annotating dense tasks in computer vision, such as object detection and segmentation, a practical strategy is to combine and leverage all available data for training purposes. In this work, we propose Plain-Det, which offers flexibility to accommodate new datasets, robustness in performance across diverse datasets, training efficiency, and compatibility with various detection architectures. We utilize Def-DETR, with the assistance of Plain-Det, to achieve a mAP of 51.9 on COCO, matching the current state-of-the-art detectors. We conduct extensive experiments on 13 downstream datasets and Plain-Det demonstrates strong generalization capability. Code is release at https://github.com/ChengShiest/Plain-Det | 翻訳日:2024-07-16 19:38:33 公開日:2024-07-14 |
# Part2Object:階層的な教師なし3Dインスタンスセグメンテーション
Part2Object: Hierarchical Unsupervised 3D Instance Segmentation ( http://arxiv.org/abs/2407.10084v1 ) ライセンス: Link先を確認 | Cheng Shi, Yulin Zhang, Bin Yang, Jiajin Tang, Yuexin Ma, Sibei Yang, | (参考訳) 教師なしの3Dインスタンスセグメンテーションは、アノテーションなしで3Dポイントクラウドからオブジェクトをセグメントすることを目的としている。
既存のメソッドは、ゆるいか、きついクラスタリングの難しさに直面するため、セグメンテーション不足や過剰なセグメンテーションにつながる。
この問題に対処するために、オブジェクトガイダンス付き階層的クラスタリングであるPart2Objectを提案する。
Part2Objectは、ポイントからオブジェクトの部分やオブジェクトへの多層クラスタリングを採用しており、任意のレイヤでオブジェクトが表現できる。
さらに、時間的に連続した2D RGBフレームから3Dオブジェクトを抽出し、利用することにより、クラスタリングプロセスのガイドを行う。
さらに,階層型3Dオブジェクト部分とインスタンスセグメンテーションをサポートするHi-Mask3Dを提案する。
Part2Objectから抽出したオブジェクトやオブジェクトのHi-Mask3Dをトレーニングすることにより、教師なしインスタンスセグメンテーション、データ効率の良い微調整、データセット間の一般化など、さまざまな設定における最先端モデルと比較して、一貫性と優れたパフォーマンスを実現する。
code is release at https://github.com/ChengShiest/Part2Object
Unsupervised 3D instance segmentation aims to segment objects from a 3D point cloud without any annotations. Existing methods face the challenge of either too loose or too tight clustering, leading to under-segmentation or over-segmentation. To address this issue, we propose Part2Object, hierarchical clustering with object guidance. Part2Object employs multi-layer clustering from points to object parts and objects, allowing objects to manifest at any layer. Additionally, it extracts and utilizes 3D objectness priors from temporally consecutive 2D RGB frames to guide the clustering process. Moreover, we propose Hi-Mask3D to support hierarchical 3D object part and instance segmentation. By training Hi-Mask3D on the objects and object parts extracted from Part2Object, we achieve consistent and superior performance compared to state-of-the-art models in various settings, including unsupervised instance segmentation, data-efficient fine-tuning, and cross-dataset generalization. Code is release at https://github.com/ChengShiest/Part2Object | 翻訳日:2024-07-16 19:38:33 公開日:2024-07-14 |
# バイオメディカル研究の迅速分類:パンデミックPACT先端分類エンジン
Rapid Biomedical Research Classification: The Pandemic PACT Advanced Categorisation Engine ( http://arxiv.org/abs/2407.10086v1 ) ライセンス: Link先を確認 | Omid Rohanian, Mohammadmahdi Nouriborji, Olena Seminog, Rodrigo Furst, Thomas Mendy, Shanthi Levanita, Zaharat Kadri-Alab, Nusrat Jabin, Daniela Toale, Georgina Humphreys, Emilia Antonio, Adrian Bucher, Alice Norton, David A. Clifton, | (参考訳) 本稿では,Pandemic PACT Advanced Categorisation Engine(PPACE)と関連するデータセットを紹介する。
PPACEは、WHOによる研究の優先順位に従って、資金提供されたバイオメディカルプロジェクトから研究抽象物を自動分類するために開発された微調整モデルである。
この課題は、研究動向を監視し、世界保健の準備と対応のギャップを特定するために不可欠である。
私たちのアプローチは、事前に定義されたリストから1つ以上のカテゴリが割り当てられた、人手によるプロジェクトに基づいています。
次に、大きな言語モデルを使用して、これらのアノテーションの背後にある理由を説明する 'rationales' を生成する。
専門家のアノテーションと合理性を含むこの拡張データは、その後、より小さく、より効率的なモデルを微調整するために使用される。
Pandemic PACTプロジェクトの一環として開発されたPPACEは、研究資金と、発生可能性のある幅広い疾患の臨床的証拠の追跡と分析を目的としており、研究資金提供者、政策立案者、独立研究者による情報意思決定を支援している。
トレーニングに使用するトレーニングモデルとインストラクションベースのデータセットの両方を導入・リリースする。
本評価は,PPACEがベースラインを著しく上回ることを示す。
PPACEとその関連するデータセットのリリースは、多ラベルのバイオメディカル文書分類の研究者に貴重なリソースを提供し、バイオメディカル研究と重要なグローバルヘルスの優先順位を合わせるための進歩をサポートする。
This paper introduces the Pandemic PACT Advanced Categorisation Engine (PPACE) along with its associated dataset. PPACE is a fine-tuned model developed to automatically classify research abstracts from funded biomedical projects according to WHO-aligned research priorities. This task is crucial for monitoring research trends and identifying gaps in global health preparedness and response. Our approach builds on human-annotated projects, which are allocated one or more categories from a predefined list. A large language model is then used to generate `rationales' explaining the reasoning behind these annotations. This augmented data, comprising expert annotations and rationales, is subsequently used to fine-tune a smaller, more efficient model. Developed as part of the Pandemic PACT project, which aims to track and analyse research funding and clinical evidence for a wide range of diseases with outbreak potential, PPACE supports informed decision-making by research funders, policymakers, and independent researchers. We introduce and release both the trained model and the instruction-based dataset used for its training. Our evaluation shows that PPACE significantly outperforms its baselines. The release of PPACE and its associated dataset offers valuable resources for researchers in multilabel biomedical document classification and supports advancements in aligning biomedical research with key global health priorities. | 翻訳日:2024-07-16 19:38:33 公開日:2024-07-14 |
# 弱値増幅の進展と展望
Progress and Perspectives on Weak-value Amplification ( http://arxiv.org/abs/2407.10087v1 ) ライセンス: Link先を確認 | Liang Xu, Lijian Zhang, | (参考訳) 弱値増幅(英: Weak-value Amplification、WVA)は、量子センシングやメトロジーの分野において、非常に小さな物理効果を効果的に増幅するメトロジープロトコルである。
しかし、増幅効果は後選択によって達成され、信号強度が著しく低下する。
その結果、増幅効果とポストセレクションの成功確率のトレードオフに関する熱い議論があり、測定精度の点でWVAが従来の測定値(CM)を上回っているかどうかを疑問視している。
大規模研究は、WVAとCMのそれぞれの利点を決定する上で、特定の理論的仮定と実験条件が重要な役割を担っていることを示唆している。
WVAは、精密気象学におけるポストセレクションの重要な役割を認識するための新しい視点を提供する。
これは2つの面で大きな利点を示している。
i) 位相空間相互作用に基づく WVA は、古典的資源のみを用いて、ハイゼンベルクスケーリング精度を現実的に達成するための実現可能な戦略を提供する。
(II)WVAは、ある種の技術的ノイズや検出器の欠陥に対して堅牢性を示す。
さらに、WVAは適用範囲を拡大し、対応する状況下での気象性能を向上させる様々な修正を可能にする。
近年の進歩にもかかわらず、WVAの利点と特徴との固有の関連性は未だ完全には理解されていない。
本稿では,WVA方式の最近の進歩を体系的に検討し,様々な条件下でのWVAの最終的な精度に着目した。
我々の目的は、精密測定におけるWVAの利点を包括的に把握し、その潜在能力の実現を促進することである。
Weak-value amplification (WVA) is a metrological protocol that effectively amplifies ultra-small physical effects, making it highly applicable in the fields of quantum sensing and metrology. However, the amplification effect is achieved through post-selection, which leads to a significant decrease in signal intensity. Consequently, there is a heated debate regarding the trade-off between the amplification effect and the success probability of post-selection, questioning whether WVA surpasses conventional measurement (CM) in terms of measurement precision. Extensive research indicates that the specific theoretical assumptions and experimental conditions play crucial roles in determining the respective advantages of WVA and CM. WVA provides new perspectives for recognizing the important role of post-selection in precision metrology. It demonstrates significant advantages in two aspects: (i) WVA based on the phase space interaction provides feasible strategies to practically achieve the Heisenberg-scaling precision using only classical resources. (ii) WVA exhibits robustness against certain types of technical noise and imperfections of detectors. Moreover, WVA allows for various modifications to extend the applicable scope and enhance the metrological performance in corresponding situations. Despite substantial progress in recent years, the inherent connection between the advantages of WVA and its unique features remains incompletely understood. In this paper, we systematically review the recent advances in the WVA scheme, with a particular focus on the ultimate precision of WVA under diverse conditions. Our objective is to provide a comprehensive perspective on the benefits of WVA in precision measurement and facilitate the realization of its full potential. | 翻訳日:2024-07-16 19:38:33 公開日:2024-07-14 |
# ReactAIvate: 反応メカニズムの予測と反応ホットスポットのアンマキングに対するディープラーニングアプローチ
ReactAIvate: A Deep Learning Approach to Predicting Reaction Mechanisms and Unmasking Reactivity Hotspots ( http://arxiv.org/abs/2407.10090v1 ) ライセンス: Link先を確認 | Ajnabiul Hoque, Manajit Das, Mayank Baranwal, Raghavan B. Sunoj, | (参考訳) ケミカル・リアクション・メカニズム(CRM)は、反応経路に沿って過渡的な中間体を生成し、反応物質が生成物へと変化する過程を含む分子レベルの事象の系列である。
このようなメカニズムを理解することは、新しい反応の設計と発見に不可欠である。
CRMを探索するための現在利用可能な方法の1つは量子力学(QM)計算である。
QM手法の資源集約的な性質とメカニズムベースのデータセットの不足は、我々はメカニズムを予測するための信頼性の高いMLモデルを開発する動機となった。
本研究では,7つの異なるクラスを持つ包括的データセットを作成し,それぞれが特徴的基本ステップを表現した。
その後,反応過程の分類と反応原子の予測を行い,より広い反応コンテキストと局所活性領域の相互作用を捉えるために,ほぼ均一かつ96%の精度で解析可能な注意ベースGNNを開発した。
ほぼ完璧な分類は、個々のイベントとCRM全体の正確な予測を可能にし、Seq2Seqアプローチの潜在的な欠点を軽減する。
解釈可能性に加えて,本モデルでは,配布外クラスからでも鍵原子を十分に同定する。
この一般性は、モジュラーな方法で新しい反応型を包含することができるため、新しい分子の反応性を理解するための専門家にとって価値がある。
A chemical reaction mechanism (CRM) is a sequence of molecular-level events involving bond-breaking/forming processes, generating transient intermediates along the reaction pathway as reactants transform into products. Understanding such mechanisms is crucial for designing and discovering new reactions. One of the currently available methods to probe CRMs is quantum mechanical (QM) computations. The resource-intensive nature of QM methods and the scarcity of mechanism-based datasets motivated us to develop reliable ML models for predicting mechanisms. In this study, we created a comprehensive dataset with seven distinct classes, each representing uniquely characterized elementary steps. Subsequently, we developed an interpretable attention-based GNN that achieved near-unity and 96% accuracy, respectively for reaction step classification and the prediction of reactive atoms in each such step, capturing interactions between the broader reaction context and local active regions. The near-perfect classification enables accurate prediction of both individual events and the entire CRM, mitigating potential drawbacks of Seq2Seq approaches, where a wrongly predicted character leads to incoherent CRM identification. In addition to interpretability, our model adeptly identifies key atom(s) even from out-of-distribution classes. This generalizabilty allows for the inclusion of new reaction types in a modular fashion, thus will be of value to experts for understanding the reactivity of new molecules. | 翻訳日:2024-07-16 19:28:46 公開日:2024-07-14 |
# ニュース見出しにおける感情予測の強化:自由テキスト生成のためのChatGPTとSeq2Seqモデルからの考察
Enhancing Emotion Prediction in News Headlines: Insights from ChatGPT and Seq2Seq Models for Free-Text Generation ( http://arxiv.org/abs/2407.10091v1 ) ライセンス: Link先を確認 | Ge Gao, Jongin Kim, Sejin Paik, Ekaterina Novozhilova, Yi Liu, Sarah T. Bonna, Margrit Betke, Derry Tanti Wijaya, | (参考訳) ニュースの見出しによって引き起こされる感情を予測することは、そのタスクが人々の解釈や背景の様々な性質に大きく影響されるため、困難である。
これまでの研究は、ニュースの見出しから直接、離散的な感情を分類することを模索してきた。
我々は、ニュース見出しを読んでからどのように感じるか、自由テキストで書かれた人々の感情の説明を活用することで、この問題に対処する別のアプローチを提供する。
BU-NEMO+ (Gao et al , 2022) を用いて, 感情分類において, 自由文説明は見出しから引き出された支配的な感情と強い相関関係があることを見出した。
無料テキストの説明には、ニュースの見出しだけでなく感情的な文脈も含み、感情分類モデルへのより良いインプットとして機能する。
そこで本研究では,シーケンス・ツー・シーケンス・トランスフォーマーモデルをトレーニングし,事前学習した大規模言語モデルChatGPT(GPT-4)を用いて,見出しから感情の説明を生成する方法について検討した。
次に、生成した感情の説明を感情分類に利用した。
また、感情分類のための微調整の前に、説明生成中間タスクのための事前訓練されたT5モデルを訓練する実験を行った。
マクネマールの重要度テストを用いて、GPT生成の自由テキスト感情の説明を取り入れた手法は、見出しのみを使用する方法と比較して、見出しから感情分類において顕著な改善(P値 < 0.05)を示した。
このことは、感情予測タスクを見出し付きで中間的な自由テキスト記述を使用することの価値を浮き彫りにする。
Predicting emotions elicited by news headlines can be challenging as the task is largely influenced by the varying nature of people's interpretations and backgrounds. Previous works have explored classifying discrete emotions directly from news headlines. We provide a different approach to tackling this problem by utilizing people's explanations of their emotion, written in free-text, on how they feel after reading a news headline. Using the dataset BU-NEmo+ (Gao et al., 2022), we found that for emotion classification, the free-text explanations have a strong correlation with the dominant emotion elicited by the headlines. The free-text explanations also contain more sentimental context than the news headlines alone and can serve as a better input to emotion classification models. Therefore, in this work we explored generating emotion explanations from headlines by training a sequence-to-sequence transformer model and by using pretrained large language model, ChatGPT (GPT-4). We then used the generated emotion explanations for emotion classification. In addition, we also experimented with training the pretrained T5 model for the intermediate task of explanation generation before fine-tuning it for emotion classification. Using McNemar's significance test, methods that incorporate GPT-generated free-text emotion explanations demonstrated significant improvement (P-value < 0.05) in emotion classification from headlines, compared to methods that only use headlines. This underscores the value of using intermediate free-text explanations for emotion prediction tasks with headlines. | 翻訳日:2024-07-16 19:28:46 公開日:2024-07-14 |
# 量子熱力学における相関触媒
Correlated catalyst in quantum thermodynamics ( http://arxiv.org/abs/2407.10097v1 ) ライセンス: Link先を確認 | Naoto Shiraishi, | (参考訳) 本稿では, 相関触媒を用いたフレームワークにおける量子熱力学の最近の進歩について述べる。
熱的操作の2つの重要な特性,ギブス保存特性と共変特性について検討した。
ギブス保存操作の状態変換性は、非平衡自由エネルギーを持つ熱力学の第2法則によって完全に特徴づけられる。
共変演算の状態可換性は、初期状態が有限コヒーレンスである限り自由であることが示される。
この2つの知見は, 拡張熱操作(共変ギブス保存操作)で組み合わせることができることを示す。
In this short review article, we present recent progress in quantum thermodynamics in the framework with a correlated catalyst. We examine two key properties of thermal operations, the Gibbs preserving property and the covariant property. The state convertibility of a Gibbs preserving operation is fully characterized by the second law of thermodynamics with the nonequilibrium free energy. The state convertibility of a covariant operation is shown to be free as long as an initial state has finite coherence. We finally show that these two findings can be combined in the enhanced thermal operation (covariant Gibbs-preserving operation). | 翻訳日:2024-07-16 19:28:46 公開日:2024-07-14 |
# STGFormer:ビデオにおける3次元人物位置推定のための時空間グラフフォーマ
STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video ( http://arxiv.org/abs/2407.10099v1 ) ライセンス: Link先を確認 | Yang Liu, Zhiyong Zhang, | (参考訳) 映像に基づく3次元ポーズ推定の現在の手法は、大きな進歩を遂げているが、深度あいまいさという大きな課題に直面し続けている。
この制限に対処するため,本研究では,人体構造図に基づく表現を時空間情報と統合した映像中の3次元ポーズ推定のための時空間グラフフォーマーフレームワークを提案する。
具体的には、時空間クリスクロスグラフ(STG)のアテンション機構を開発する。
このアプローチは、時間と空間の両方にわたるデータの長距離依存性を学習し、グラフ情報を各注意層に直接統合するように設計されている。
さらに、パラメータ使用量の最適化に変調を利用するデュアルパス変調ホップワイド正規GCN(MHR-GCN)モジュールを導入し、高次情報を取得するために時空間ホップワイド接続を用いる。
さらに、このモジュールは時間次元と空間次元を独立に処理し、相互の影響を避けながらそれぞれの特徴を学習する。
最後に,本手法がHuman3.6MとMPI-INF-3DHPデータセットの3次元ポーズ推定における最先端性能を実現することを示す。
The current methods of video-based 3D human pose estimation have achieved significant progress; however, they continue to confront the significant challenge of depth ambiguity. To address this limitation, this paper presents the spatio-temporal GraphFormer framework for 3D human pose estimation in video, which integrates body structure graph-based representations with spatio-temporal information. Specifically, we develop a spatio-temporal criss-cross graph (STG) attention mechanism. This approach is designed to learn the long-range dependencies in data across both time and space, integrating graph information directly into the respective attention layers. Furthermore, we introduce the dual-path modulated hop-wise regular GCN (MHR-GCN) module, which utilizes modulation to optimize parameter usage and employs spatio-temporal hop-wise skip connections to acquire higher-order information. Additionally, this module processes temporal and spatial dimensions independently to learn their respective features while avoiding mutual influence. Finally, we demonstrate that our method achieves state-of-the-art performance in 3D human pose estimation on the Human3.6M and MPI-INF-3DHP datasets. | 翻訳日:2024-07-16 19:28:46 公開日:2024-07-14 |
# 3D Editing on the Go!
3DEgo: 3D Editing on the Go! ( http://arxiv.org/abs/2407.10102v1 ) ライセンス: Link先を確認 | Umar Khalid, Hasan Iqbal, Azib Farooq, Jing Hua, Chen Chen, | (参考訳) 我々は3DEgoを導入し,テキストプロンプトで案内されたモノクロ映像からフォトリアリスティックな3Dシーンを直接合成する新しい問題に対処する。
COLMAPのようなStructure-from-Motion(SfM)ライブラリを使ったポーズ推定、未編集の画像で3Dモデルを初期化、編集された画像でデータセットを反復的に更新し、テキストの忠実さで3Dシーンを実現する。
本フレームワークは,COLMAPへの依存を克服し,モデル初期化のコストを削減し,従来の多段階3D編集プロセスを一段ワークフローに合理化する。
我々は,T2I拡散モデルの追加訓練や微調整を必要とせず,多視点編集一貫性を向上させるために設計したノイズブレンダモジュールを組み込むことにより,映像フレームの3次元シーン作成前の編集に拡散モデルを適用した。
3DEgoは3D Gaussian Splattingを使用して、複数のビュー一貫した編集されたフレームから3Dシーンを生成し、固有の時間的連続性と明示的なポイントクラウドデータを活用する。
3DEgoは、GS25データセットを含む6つのデータセットの広範な評価によって検証されるように、様々なビデオソース間での編集精度、速度、適応性を示す。
Project Page: https://3dego.github.io/
We introduce 3DEgo to address a novel problem of directly synthesizing photorealistic 3D scenes from monocular videos guided by textual prompts. Conventional methods construct a text-conditioned 3D scene through a three-stage process, involving pose estimation using Structure-from-Motion (SfM) libraries like COLMAP, initializing the 3D model with unedited images, and iteratively updating the dataset with edited images to achieve a 3D scene with text fidelity. Our framework streamlines the conventional multi-stage 3D editing process into a single-stage workflow by overcoming the reliance on COLMAP and eliminating the cost of model initialization. We apply a diffusion model to edit video frames prior to 3D scene creation by incorporating our designed noise blender module for enhancing multi-view editing consistency, a step that does not require additional training or fine-tuning of T2I diffusion models. 3DEgo utilizes 3D Gaussian Splatting to create 3D scenes from the multi-view consistent edited frames, capitalizing on the inherent temporal continuity and explicit point cloud data. 3DEgo demonstrates remarkable editing precision, speed, and adaptability across a variety of video sources, as validated by extensive evaluations on six datasets, including our own prepared GS25 dataset. Project Page: https://3dego.github.io/ | 翻訳日:2024-07-16 19:28:46 公開日:2024-07-14 |
# 自己監督型顔属性分類のための学習パイプライン
A Self-Supervised Learning Pipeline for Demographically Fair Facial Attribute Classification ( http://arxiv.org/abs/2407.10104v1 ) ライセンス: Link先を確認 | Sreeraj Ramachandran, Ajita Rattani, | (参考訳) 公開された研究は、自動的な顔属性分類における人口統計バイアスの存在を強調している。
提案手法は主に教師付き学習に基づいており、一般化性と拡張性のために大量のラベル付きトレーニングデータを必要とする。
しかし、ラベル付きデータは制限され、厳格なアノテーションを必要とし、プライバシーのリスクを生じさせ、人間の偏見を持続させることができる。
対照的に、自己教師付き学習(SSL)は、無償で利用可能なラベル付きデータに便乗し、トレーニングされたモデルをよりスケーラブルで汎用的にレンダリングする。
しかし、これらのラベルフリーSSLモデルは、低い計算条件下で偽陰性ペア(特に低データレシージャ200Kイメージ)をサンプリングすることによってバイアスを生じさせる可能性がある。
さらに、SSLベースのモデルでは、Webから出力されたラベルなしデータの品質保証が欠如しているため、パフォーマンスが低下する可能性がある。
本稿では,人口統計学的に公平な顔属性分類のための完全自己教師型パイプラインを提案する。
事前学習したエンコーダ、多様なデータキュレーション手法、メタラーニングに基づく重み付きコントラスト学習により、ダウンストリーム画像分類タスクにおいて提案された既存のSSLアプローチを著しく上回っている。
FairFaceとCelebAデータセットの大規模な評価は、既存のベースラインよりも公正なパフォーマンスを得る上で、パイプラインの有効性を示しています。
したがって、顔属性分類の公平性において、SSLの新しいベンチマークを設定する。
Published research highlights the presence of demographic bias in automated facial attribute classification. The proposed bias mitigation techniques are mostly based on supervised learning, which requires a large amount of labeled training data for generalizability and scalability. However, labeled data is limited, requires laborious annotation, poses privacy risks, and can perpetuate human bias. In contrast, self-supervised learning (SSL) capitalizes on freely available unlabeled data, rendering trained models more scalable and generalizable. However, these label-free SSL models may also introduce biases by sampling false negative pairs, especially at low-data regimes 200K images) under low compute settings. Further, SSL-based models may suffer from performance degradation due to a lack of quality assurance of the unlabeled data sourced from the web. This paper proposes a fully self-supervised pipeline for demographically fair facial attribute classifiers. Leveraging completely unlabeled data pseudolabeled via pre-trained encoders, diverse data curation techniques, and meta-learning-based weighted contrastive learning, our method significantly outperforms existing SSL approaches proposed for downstream image classification tasks. Extensive evaluations on the FairFace and CelebA datasets demonstrate the efficacy of our pipeline in obtaining fair performance over existing baselines. Thus, setting a new benchmark for SSL in the fairness of facial attribute classification. | 翻訳日:2024-07-16 19:28:46 公開日:2024-07-14 |
# クロスモーダル長文書分類のための階層型マルチモーダルトランス
Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification ( http://arxiv.org/abs/2407.10105v1 ) ライセンス: Link先を確認 | Tengfei Liu, Yongli Hu, Junbin Gao, Yanfeng Sun, Baocai Yin, | (参考訳) 最近、Long Document Classification (LDC) が注目されている。
しかし,テキストや画像などの長文のマルチモーダルデータは有効利用されていない。
この領域における以前の研究は、文書関連のタスクにテキストと画像を統合することを試みたが、それらは短いテキストシーケンスとページのイメージにのみ焦点を絞ったものだった。
長い文書を階層構造テキストと埋め込み画像で分類する方法は、新しい問題であり、マルチモーダル表現の難しさに直面している。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダル文書分類手法を提案する。
HMTは階層的な方法で画像とテキスト間のマルチモーダルな特徴相互作用と融合を行う。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
さらに,この2つのトランスフォーマを統合するために,動的マスク転送モジュールと呼ばれる新しいインタラクション戦略を導入する。
提案手法の有効性を検証するため,新たに作成された2つの多モード長文書データセットと公開可能な2つの多モード長文書データセットを用いたクロスモーダルLCD実験を行った。
Long Document Classification (LDC) has gained significant attention recently. However, multi-modal data in long documents such as texts and images are not being effectively utilized. Prior studies in this area have attempted to integrate texts and images in document-related tasks, but they have only focused on short text sequences and images of pages. How to classify long documents with hierarchical structure texts and embedding images is a new problem and faces multi-modal representation difficulties. In this paper, we propose a novel approach called Hierarchical Multi-modal Transformer (HMT) for cross-modal long document classification. The HMT conducts multi-modal feature interaction and fusion between images and texts in a hierarchical manner. Our approach uses a multi-modal transformer and a dynamic multi-scale multi-modal transformer to model the complex relationships between image features, and the section and sentence features. Furthermore, we introduce a new interaction strategy called the dynamic mask transfer module to integrate these two transformers by propagating features between them. To validate our approach, we conduct cross-modal LDC experiments on two newly created and two publicly available multi-modal long document datasets, and the results show that the proposed HMT outperforms state-of-the-art single-modality and multi-modality methods. | 翻訳日:2024-07-16 19:28:46 公開日:2024-07-14 |
# DistillSeq: 知識蒸留を用いた大規模言語モデルの安全アライメントテストフレームワーク
DistillSeq: A Framework for Safety Alignment Testing in Large Language Models using Knowledge Distillation ( http://arxiv.org/abs/2407.10106v1 ) ライセンス: Link先を確認 | Mingke Yang, Yuqi Chen, Yi Liu, Ling Shi, | (参考訳) 大きな言語モデル(LLM)は、自然言語の理解、翻訳、さらにはコード生成を含む様々な領域において、その顕著な能力を誇示している。
LLMが有害なコンテンツを生成できる可能性は大きな懸念事項である。
このリスクは、安全で責任ある使用を確保するために、厳密なテストとLLMの包括的な評価を必要とする。
しかし、LLMの広範なテストには相当な計算資源が必要であり、コストがかかる。
したがって、テストフェーズにおけるコスト削減戦略の探求は、リソース可用性の制約と徹底的な評価の必要性のバランスをとるために不可欠である。
そこで本手法は,LLMから小さなモデルにモデレーション知識を移すことから始める。
その後、私たちは、構文木アプローチに基づく悪質なクエリを生成するための2つの戦略をデプロイし、もう1つはLLMベースのメソッドを活用する。
最後に, 本手法では, 有害反応を誘発しやすい検査事例を特定するために, シーケンシャルなフィルタテストプロセスを導入している。
本研究は, GPT-3.5, GPT-4.0, Vicuna-13B, Llama-13Bの4種類のLDMに対するDistillSeqの有効性を検討した。
DistillSeqがなければ、これらのLSMの攻撃成功率は、GPT-3.5が31.5%、GPT-4.0が21.4%、Vicuna-13Bが28.3%、Llama-13Bが30.9%であった。
しかし、DistillSeqの適用により、これらの成功率は58.5%、50.7%、52.5%、54.4%に顕著に増加した。
これは、DistillSeqを使用せずにシナリオと比較した場合、攻撃成功率の平均エスカレーションを93.0%削減した。
このような知見は、LLMを効果的にテストするために必要な時間とリソース投資を減らすという点で、DistillSeqが提供する重要な強化を浮き彫りにしている。
Large Language Models (LLMs) have showcased their remarkable capabilities in diverse domains, encompassing natural language understanding, translation, and even code generation. The potential for LLMs to generate harmful content is a significant concern. This risk necessitates rigorous testing and comprehensive evaluation of LLMs to ensure safe and responsible use. However, extensive testing of LLMs requires substantial computational resources, making it an expensive endeavor. Therefore, exploring cost-saving strategies during the testing phase is crucial to balance the need for thorough evaluation with the constraints of resource availability. To address this, our approach begins by transferring the moderation knowledge from an LLM to a small model. Subsequently, we deploy two distinct strategies for generating malicious queries: one based on a syntax tree approach, and the other leveraging an LLM-based method. Finally, our approach incorporates a sequential filter-test process designed to identify test cases that are prone to eliciting toxic responses. Our research evaluated the efficacy of DistillSeq across four LLMs: GPT-3.5, GPT-4.0, Vicuna-13B, and Llama-13B. In the absence of DistillSeq, the observed attack success rates on these LLMs stood at 31.5% for GPT-3.5, 21.4% for GPT-4.0, 28.3% for Vicuna-13B, and 30.9% for Llama-13B. However, upon the application of DistillSeq, these success rates notably increased to 58.5%, 50.7%, 52.5%, and 54.4%, respectively. This translated to an average escalation in attack success rate by a factor of 93.0% when compared to scenarios without the use of DistillSeq. Such findings highlight the significant enhancement DistillSeq offers in terms of reducing the time and resource investment required for effectively testing LLMs. | 翻訳日:2024-07-16 19:28:46 公開日:2024-07-14 |
# TokenSHAP:Monte Carlo Shapley値推定による大規模言語モデルの解釈
TokenSHAP: Interpreting Large Language Models with Monte Carlo Shapley Value Estimation ( http://arxiv.org/abs/2407.10114v1 ) ライセンス: Link先を確認 | Roni Goldshmidt, Miriam Horovicz, | (参考訳) 大規模言語モデル(LLM)がクリティカルなアプリケーションでますます普及するにつれて、解釈可能なAIの必要性が高まっている。
入力プロンプト内の個々のトークンやサブストリングに重きを置くことでLLMを解釈する新しい手法であるTokenSHAPを紹介する。
このアプローチは、協調ゲーム理論から自然言語処理へのシェープリー値を適用し、入力の異なる部分がモデルの応答にどのように貢献するかを理解するための厳密な枠組みを提供する。
TokenSHAPはモンテカルロサンプリングを計算効率に利用し、トークンの重要性の解釈可能な定量的尺度を提供する。
多様なプロンプトやLLMアーキテクチャにまたがって有効性を実証し、人間の判断、モデル行動への忠実性、一貫性に則って既存のベースラインよりも一貫した改善を示す。
トークン間のニュアンスなインタラクションをキャプチャする我々の方法の能力は、LCMの振る舞いに関する貴重な洞察を与え、モデルの透明性を高め、迅速なエンジニアリングを改善し、より信頼性の高いAIシステムの開発を支援する。
TokenSHAPは、責任あるAIデプロイメントに必要な解釈可能性への重要なステップであり、より透明性があり、説明責任があり、信頼できるAIシステムを構築するという、より広い目標に寄与している。
As large language models (LLMs) become increasingly prevalent in critical applications, the need for interpretable AI has grown. We introduce TokenSHAP, a novel method for interpreting LLMs by attributing importance to individual tokens or substrings within input prompts. This approach adapts Shapley values from cooperative game theory to natural language processing, offering a rigorous framework for understanding how different parts of an input contribute to a model's response. TokenSHAP leverages Monte Carlo sampling for computational efficiency, providing interpretable, quantitative measures of token importance. We demonstrate its efficacy across diverse prompts and LLM architectures, showing consistent improvements over existing baselines in alignment with human judgments, faithfulness to model behavior, and consistency. Our method's ability to capture nuanced interactions between tokens provides valuable insights into LLM behavior, enhancing model transparency, improving prompt engineering, and aiding in the development of more reliable AI systems. TokenSHAP represents a significant step towards the necessary interpretability for responsible AI deployment, contributing to the broader goal of creating more transparent, accountable, and trustworthy AI systems. | 翻訳日:2024-07-16 19:28:46 公開日:2024-07-14 |
# CPUベースのDeep FFMを毎秒300万以上の予測にスケールするためのトリックのバグ
A Bag of Tricks for Scaling CPU-based Deep FFMs to more than 300m Predictions per Second ( http://arxiv.org/abs/2407.10115v1 ) ライセンス: Link先を確認 | Blaž Škrlj, Benjamin Ben-Shalom, Grega Gašperšič, Adi Schwartz, Ramzi Hoseisi, Naama Ziporin, Davorin Kopič, Andraž Tori, | (参考訳) フィールド認識ファクトリゼーションマシン(FFM)はクリックスルー率予測の強力なモデルとして登場し、特に複雑な特徴の相互作用を捉えるのに優れている。
本稿では、社内のRustベースのDeep FFM実装を詳細に分析し、CPUのみのマルチデータセンタスケールへの展開について詳述する。
従来未発表のベンチマークの結果から,効率的なモデル検索とオンライントレーニングの両立を図った。
さらに、データ中心間の重み移動に関連する帯域幅のフットプリントの桁違いの削減をもたらす、社内での重み量子化について詳述する。
我々は、より広範な機械学習コミュニティに貢献するために、オープンソースライセンスの下でエンジンと関連するテクニックを開示する。
本稿では、Dep FFMのCPUのみの展開をこのような規模で成功させた最初の例を示し、実用的で低フットプリントのクリックスルー率予測手法において重要な一歩を踏み出した。
Field-aware Factorization Machines (FFMs) have emerged as a powerful model for click-through rate prediction, particularly excelling in capturing complex feature interactions. In this work, we present an in-depth analysis of our in-house, Rust-based Deep FFM implementation, and detail its deployment on a CPU-only, multi-data-center scale. We overview key optimizations devised for both training and inference, demonstrated by previously unpublished benchmark results in efficient model search and online training. Further, we detail an in-house weight quantization that resulted in more than an order of magnitude reduction in bandwidth footprint related to weight transfers across data-centres. We disclose the engine and associated techniques under an open-source license to contribute to the broader machine learning community. This paper showcases one of the first successful CPU-only deployments of Deep FFMs at such scale, marking a significant stride in practical, low-footprint click-through rate prediction methodologies. | 翻訳日:2024-07-16 19:28:46 公開日:2024-07-14 |
# ラベル付きシーケンス予測によるテキストレス依存構文解析
Textless Dependency Parsing by Labeled Sequence Prediction ( http://arxiv.org/abs/2407.10118v1 ) ライセンス: Link先を確認 | Shunsuke Kando, Yusuke Miyao, Jason Naradowsky, Shinnosuke Takamichi, | (参考訳) 従来の音声言語処理では、自動音声認識(ASR)システムをテキスト処理モデルにカスケードする。
対照的に、"textless"メソッドはASRシステムなしで音声表現を処理し、音響音声特徴を直接使用することができる。
それらの効果は音響的特徴を捉える際に示されるが、語彙的知識を捉える際には不明確である。
本稿では,依存性解析のためのテキストレス手法を提案し,その有効性と限界について検討する。
提案手法は,木をラベル付きシーケンスとして表現し,音声信号から係り受け木を予測する。
スカディング法は、テキストレス法を全体的な解析精度で上回り、後者は重要な音響特性を持つインスタンスで優れる。
本研究は,解析性能を高めるために,単語レベルの表現と文レベルの韻律を融合させることの重要性を強調した。
コードとモデルは、https://github.com/mynlp/SpeechParser.comで公開されている。
Traditional spoken language processing involves cascading an automatic speech recognition (ASR) system into text processing models. In contrast, "textless" methods process speech representations without ASR systems, enabling the direct use of acoustic speech features. Although their effectiveness is shown in capturing acoustic features, it is unclear in capturing lexical knowledge. This paper proposes a textless method for dependency parsing, examining its effectiveness and limitations. Our proposed method predicts a dependency tree from a speech signal without transcribing, representing the tree as a labeled sequence. scading method outperforms the textless method in overall parsing accuracy, the latter excels in instances with important acoustic features. Our findings highlight the importance of fusing word-level representations and sentence-level prosody for enhanced parsing performance. The code and models are made publicly available: https://github.com/mynlp/SpeechParser. | 翻訳日:2024-07-16 19:28:46 公開日:2024-07-14 |
# MSD: 建築施設の床計画作成のためのベンチマークデータセット
MSD: A Benchmark Dataset for Floor Plan Generation of Building Complexes ( http://arxiv.org/abs/2407.10121v1 ) ライセンス: Link先を確認 | Casper van Engelenburg, Fatemeh Mostafavi, Emanuel Kuhn, Yuntae Jeon, Michael Franzen, Matthias Standfest, Jan van Gemert, Seyran Khademi, | (参考訳) 建築設計における有用なコンピュータ支援手法の開発には,多元的かつ現実的なフロアプランデータが必要である。
今日の大規模なフロアプランデータセットは主に単純なフロアプランのレイアウトを特徴としている。
現在のデータセットと実世界のミスマッチを補うために、我々は、マルチパートメント住宅のレイアウトのかなりのシェアを含む最初の大規模フロアプランデータセットである‘textbf{Modified Swiss Dwellings} (MSD) を開発した。
MSDは中規模から大規模の複合住宅の5.3K以上のフロアプランがあり、18.9K以上のアパートをカバーしている。
従来のフロアプラン生成手法は,より単純なシナリオでは有効であるが,MSDがもたらした課題に対して,まだシームレスに対処できないことが検証された。
我々のベンチマークでは、フロアプランマシン理解の新しい研究が求められている。
コードとデータはオープンです。
Diverse and realistic floor plan data are essential for the development of useful computer-aided methods in architectural design. Today's large-scale floor plan datasets predominantly feature simple floor plan layouts, typically representing single-apartment dwellings only. To compensate for the mismatch between current datasets and the real world, we develop \textbf{Modified Swiss Dwellings} (MSD) -- the first large-scale floor plan dataset that contains a significant share of layouts of multi-apartment dwellings. MSD features over 5.3K floor plans of medium- to large-scale building complexes, covering over 18.9K distinct apartments. We validate that existing approaches for floor plan generation, while effective in simpler scenarios, cannot yet seamlessly address the challenges posed by MSD. Our benchmark calls for new research in floor plan machine understanding. Code and data are open. | 翻訳日:2024-07-16 19:28:46 公開日:2024-07-14 |
# 歩行者検出とマルチモーダル学習:ジェネリストモデルとベンチマークデータセット
When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset ( http://arxiv.org/abs/2407.10125v1 ) ライセンス: Link先を確認 | Yi Zhang, Wang Zeng, Sheng Jin, Chen Qian, Ping Luo, Wentao Liu, | (参考訳) 近年、様々なセンサの利点(例えば、RGB、IR、Depth、LiDAR、イベント)を活かして歩行者検出に対する研究の関心が高まっている。
しかし,センサの多様さを効果的に処理できる統一ジェネリストモデルの設計は依然として課題である。
本稿では,マルチモーダル知覚のための新しい一般化モデルであるMMPedestronを紹介する。
1つまたは1つの特定のモード入力のみを処理する以前のスペシャリストモデルとは異なり、MMPedestronは複数のモード入力とその動的組み合わせを処理することができる。
提案手法は,モーダル表現と融合のための統一エンコーダと,歩行者検出のための汎用ヘッドを備える。
適応型マルチモーダル特徴融合のための2つの学習可能なトークン(MAAとMAF)を導入する。
さらに,マルチモーダル歩行者検出のための大規模なベンチマークであるMMPDデータセットを構築した。
このベンチマークには、既存のパブリックデータセットと、新たに収集されたEventPedと呼ばれるデータセットが組み込まれており、RGB、IR、Depth、LiDAR、Eventデータなど、幅広いセンサーモダリティがカバーされている。
マルチモーダルジョイントトレーニングでは,特定のセンサのモダリティに適合した先行モデルを上回る,幅広い歩行者検出ベンチマークにおいて最先端のパフォーマンスが達成される。
例えば、COCO-Personsでは71.1 AP、LLVIPでは72.6 APを達成した。
特に,本モデルでは,30倍のパラメータを持つCrowdHuman上でのInternImage-Hモデルに匹敵する性能を実現している。
コードとデータはhttps://github.com/BubblyYi/MMPedestronで公開されている。
Recent years have witnessed increasing research attention towards pedestrian detection by taking the advantages of different sensor modalities (e.g. RGB, IR, Depth, LiDAR and Event). However, designing a unified generalist model that can effectively process diverse sensor modalities remains a challenge. This paper introduces MMPedestron, a novel generalist model for multimodal perception. Unlike previous specialist models that only process one or a pair of specific modality inputs, MMPedestron is able to process multiple modal inputs and their dynamic combinations. The proposed approach comprises a unified encoder for modal representation and fusion and a general head for pedestrian detection. We introduce two extra learnable tokens, i.e. MAA and MAF, for adaptive multi-modal feature fusion. In addition, we construct the MMPD dataset, the first large-scale benchmark for multi-modal pedestrian detection. This benchmark incorporates existing public datasets and a newly collected dataset called EventPed, covering a wide range of sensor modalities including RGB, IR, Depth, LiDAR, and Event data. With multi-modal joint training, our model achieves state-of-the-art performance on a wide range of pedestrian detection benchmarks, surpassing leading models tailored for specific sensor modality. For example, it achieves 71.1 AP on COCO-Persons and 72.6 AP on LLVIP. Notably, our model achieves comparable performance to the InternImage-H model on CrowdHuman with 30x smaller parameters. Codes and data are available at https://github.com/BubblyYi/MMPedestron. | 翻訳日:2024-07-16 19:28:46 公開日:2024-07-14 |
# WPS-SAM: ファンデーションモデルによる軽量な部分分割を目指して
WPS-SAM: Towards Weakly-Supervised Part Segmentation with Foundation Models ( http://arxiv.org/abs/2407.10131v1 ) ライセンス: Link先を確認 | Xinjian Wu, Ruisong Zhang, Jie Qin, Shijie Ma, Cheng-Lin Liu, | (参考訳) コンピュータビジョンとロボット工学において、多様な物体の部分の分割と認識が不可欠である。
オブジェクトセグメンテーションの大幅な進歩にもかかわらず、複雑な境界と注釈付きデータ不足のため、部分レベルのセグメンテーションは未探索のままである。
そこで本研究では,大規模事前学習型視覚基盤モデルであるSegment Anything Model(SAM)に基づいて,WPS(Wakly-supervised Part Segmentation)設定とWPS-SAM(WPS-SAM)アプローチを提案する。
WPS-SAMは、画像から直接プロンプトトークンを抽出し、部分領域のピクセルレベルのセグメンテーションを実行するために設計されたエンドツーエンドフレームワークである。
トレーニングフェーズでは、バウンディングボックスやポイントという形で、弱教師付きラベルのみを使用する。
大規模な実験により、事前訓練された基礎モデルに埋め込まれた豊富な知識を利用することで、WPS-SAMはピクセルレベルの強いアノテーションで訓練された他のセグメンテーションモデルより優れていることが示されている。
具体的には、WPS-SAMは、PartImageNetデータセット上で68.93%のmIOUと79.53%のmACCを達成し、mIOUの点で最先端の完全に教師されたメソッドを約4%上回っている。
Segmenting and recognizing diverse object parts is crucial in computer vision and robotics. Despite significant progress in object segmentation, part-level segmentation remains underexplored due to complex boundaries and scarce annotated data. To address this, we propose a novel Weakly-supervised Part Segmentation (WPS) setting and an approach called WPS-SAM, built on the large-scale pre-trained vision foundation model, Segment Anything Model (SAM). WPS-SAM is an end-to-end framework designed to extract prompt tokens directly from images and perform pixel-level segmentation of part regions. During its training phase, it only uses weakly supervised labels in the form of bounding boxes or points. Extensive experiments demonstrate that, through exploiting the rich knowledge embedded in pre-trained foundation models, WPS-SAM outperforms other segmentation models trained with pixel-level strong annotations. Specifically, WPS-SAM achieves 68.93% mIOU and 79.53% mACC on the PartImageNet dataset, surpassing state-of-the-art fully supervised methods by approximately 4% in terms of mIOU. | 翻訳日:2024-07-16 19:28:46 公開日:2024-07-14 |
# スコア関数に基づく因果発見のための最適カーネル選択法
Optimal Kernel Choice for Score Function-based Causal Discovery ( http://arxiv.org/abs/2407.10132v1 ) ライセンス: Link先を確認 | Wenjie Wang, Biwei Huang, Feng Liu, Xinge You, Tongliang Liu, Kun Zhang, Mingming Gong, | (参考訳) スコアベースの手法は、データに適合する良さに基づいて、異なる因果構造をスコアリングすることで因果関係を発見する効果を実証している。
最近、Huangらは、カーネルヒルベルト空間(RKHS)における関係をモデル化することにより、一般的なデータ分布と因果関係を扱える一般化スコア関数を提案した。
このスコア関数内の適切なカーネルの選択は、因果関係を正確に特徴づけ、正確な因果発見を保証するために重要である。
しかし、現在の手法では、カーネルパラメータを手動でヒューリスティックに選択することで、プロセスが退屈で、最適性を確保する可能性が低い。
本稿では,データに最も適合する最適なカーネルを自動的に選択する,一般化スコア関数内のカーネル選択手法を提案する。
具体的には、因果グラフ探索手順の各ステップに係わる変数の生成過程を独立雑音変数の混合としてモデル化する。
このモデルに基づいて,各探索ステップに係わる変数の限界確率を最大化することにより,自動カーネル選択法を導出する。
合成データと実世界のベンチマークの両方で実験を行い,提案手法がヒューリスティックなカーネル選択法より優れていることを示す。
Score-based methods have demonstrated their effectiveness in discovering causal relationships by scoring different causal structures based on their goodness of fit to the data. Recently, Huang et al. proposed a generalized score function that can handle general data distributions and causal relationships by modeling the relations in reproducing kernel Hilbert space (RKHS). The selection of an appropriate kernel within this score function is crucial for accurately characterizing causal relationships and ensuring precise causal discovery. However, the current method involves manual heuristic selection of kernel parameters, making the process tedious and less likely to ensure optimality. In this paper, we propose a kernel selection method within the generalized score function that automatically selects the optimal kernel that best fits the data. Specifically, we model the generative process of the variables involved in each step of the causal graph search procedure as a mixture of independent noise variables. Based on this model, we derive an automatic kernel selection method by maximizing the marginal likelihood of the variables involved in each search step. We conduct experiments on both synthetic data and real-world benchmarks, and the results demonstrate that our proposed method outperforms heuristic kernel selection methods. | 翻訳日:2024-07-16 19:28:46 公開日:2024-07-14 |
# FSD-BEV:多視点3次元物体検出のための前景自己蒸留
FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection ( http://arxiv.org/abs/2407.10135v1 ) ライセンス: Link先を確認 | Zheng Jiang, Jinqing Zhang, Yanan Zhang, Qingjie Liu, Zhenghui Hu, Baohui Wang, Yunhong Wang, | (参考訳) Bird's-Eye-View(BEV)パラダイムに基づく多視点3Dオブジェクト検出は、自動運転のための経済的かつデプロイメントフレンドリーな認識ソリューションとして広く注目されているが、LiDARベースの方法と比較してまだパフォーマンスの差がある。
近年,教師モデルから学生モデルに有益な情報を伝達するクロスモーダル蒸留法が提案されている。
しかし、これらの手法は、異なるデータモダリティとネットワーク構造から生じる特徴分布の相違による課題に直面しており、知識伝達は非常に困難である。
本稿では, 事前学習した教師モデルや煩雑な蒸留戦略を必要とせず, 分散不一致を効果的に回避し, 優れた蒸留効果を維持した前景自己蒸留(FSD)方式を提案する。
さらに,2つのポイントクラウド拡張(PCI)戦略を設計し,フレーム結合と擬似点割り当てによって点雲の空間性を改善する。
最後に,マルチスケールフォアグラウンド・エンハンスメント (MSFE) モジュールを開発した。
上記のすべてのイノベーションを、FSD-BEVという統合フレームワークに統合します。
nuScenesデータセットに関する大規模な実験によると、FSD-BEVは最先端のパフォーマンスを達成し、その有効性を強調している。
コードとモデルは、https://github.com/CocoBoom/fsd-bev.comで入手できる。
Although multi-view 3D object detection based on the Bird's-Eye-View (BEV) paradigm has garnered widespread attention as an economical and deployment-friendly perception solution for autonomous driving, there is still a performance gap compared to LiDAR-based methods. In recent years, several cross-modal distillation methods have been proposed to transfer beneficial information from teacher models to student models, with the aim of enhancing performance. However, these methods face challenges due to discrepancies in feature distribution originating from different data modalities and network structures, making knowledge transfer exceptionally challenging. In this paper, we propose a Foreground Self-Distillation (FSD) scheme that effectively avoids the issue of distribution discrepancies, maintaining remarkable distillation effects without the need for pre-trained teacher models or cumbersome distillation strategies. Additionally, we design two Point Cloud Intensification (PCI) strategies to compensate for the sparsity of point clouds by frame combination and pseudo point assignment. Finally, we develop a Multi-Scale Foreground Enhancement (MSFE) module to extract and fuse multi-scale foreground features by predicted elliptical Gaussian heatmap, further improving the model's performance. We integrate all the above innovations into a unified framework named FSD-BEV. Extensive experiments on the nuScenes dataset exhibit that FSD-BEV achieves state-of-the-art performance, highlighting its effectiveness. The code and models are available at: https://github.com/CocoBoom/fsd-bev. | 翻訳日:2024-07-16 19:19:02 公開日:2024-07-14 |
# 量子ハッシュアルゴリズムの実装
Quantum hashing algorithm implementation ( http://arxiv.org/abs/2407.10136v1 ) ライセンス: Link先を確認 | Aliya Khadieva, | (参考訳) 我々は1988年にAmbainisとFreevaldsが発表したフィンガープリント技術に基づく量子ハッシュアルゴリズムをゲートベース量子コンピュータ上で実装した。
このアルゴリズムはユニタリ言語$\mathtt{MOD_p}$に対する量子有限オートマトンに基づいており、任意の素数$p$に対して$ \mathtt{MOD_p} = \{ a^{i \cdot p} \mid i \geq 0 \}$である。
我々は,LNN(Linear Nearest Neighbor)ではない隣接アーキテクチャを表すキュービットの特殊グラフを持つ16量子および27量子のIBMQを考察する。
我々は、制御演算子の数を最も高価なものとして最小化するため、量子ハッシュアルゴリズムの量子回路を最適化する。
上述のマシン上での量子フーリエ変換(QFT)の最適化回路実装には、QFTとハッシュ回路が共通部分を持つため、同様のアプローチを適用する。
We implement a quantum hashing algorithm which is based on a fingerprinting technique presented by Ambainis and Frievalds, 1988, on gate-based quantum computers. This algorithm is based on a quantum finite automaton for a unary language $\mathtt{MOD_p}$, where $ \mathtt{MOD_p} = \{ a^{i \cdot p} \mid i \geq 0 \} $, for any prime number $p$. We consider 16-qubit and 27-qubit IBMQ computers with the special graphs of qubits representing nearest neighbor architecture that is not Linear Nearest Neighbor (LNN) one. We optimize quantum circuits for the quantum hashing algorithm with respect to minimizing the number of control operators as the most expensive ones. We apply the same approach for an optimized circuit implementation of Quantum Fourier Transform (QFT) operation on the aforementioned machines because QFT and hashing circuits have common parts. | 翻訳日:2024-07-16 19:19:02 公開日:2024-07-14 |
# リアルなビデオガーメントテクスチャのためのパターンガイドUVリカバリ
Pattern Guided UV Recovery for Realistic Video Garment Texturing ( http://arxiv.org/abs/2407.10137v1 ) ライセンス: Link先を確認 | Youyi Zhan, Tuanfeng Y. Wang, Tianjia Shao, Kun Zhou, | (参考訳) Eコマースの急速な成長は、オンラインファッションショッピングに821億ドルの価値がある世界的な市場を生み出している。
ファッションのプレゼンテーションでユニークなのは、同じデザインをさまざまな布のテクスチャで提供できることだ。
しかし、実際のビデオキャプチャや手動によるフレーム単位の編集のみが、同じデザインで異なるテクスチャを持つ仮想ショーケースに使用できる。
本稿では,UVのパターンに基づくアプローチと,キャプチャした実映像からシェーディングリカバリを行い,衣服のテクスチャを自動的に置き換える手法を提案する。
提案手法のコアは,検出された布パターンからの離散対応によって駆動される混合重層パーセプトロン(MLP)を介して,画素単位のUV回帰モジュールである。
本稿では,UVマッピングのジャコビアンに対する新たな損失を提案し,UV歪みを回避しつつ,折りたたみ領域と閉塞領域の境界付近に快適なシームを創出する。
また、隣接フレーム間の紫外線予測の整合性と精度を確保するため、時間的制約も採用する。
我々のアプローチは、野生の照明や挑戦的な動きなど、さまざまな種類の服に対して堅牢であることを示す。
本実験では, 衣類の折り畳みや重ね合わせを著しく保存できるため, テクスチャの質素な代替効果を示す。
また, ベースラインと比較して, 質的, 定量的な改善がみられた。
ワンクリックセットアップでは、ファッションEコマースの成長に寄与する私たちのアプローチを楽しみにしています。
The fast growth of E-Commerce creates a global market worth USD 821 billion for online fashion shopping. What unique about fashion presentation is that, the same design can usually be offered with different cloths textures. However, only real video capturing or manual per-frame editing can be used for virtual showcase on the same design with different textures, both of which are heavily labor intensive. In this paper, we present a pattern-based approach for UV and shading recovery from a captured real video so that the garment's texture can be replaced automatically. The core of our approach is a per-pixel UV regression module via blended-weight multilayer perceptrons (MLPs) driven by the detected discrete correspondences from the cloth pattern. We propose a novel loss on the Jacobian of the UV mapping to create pleasant seams around the folding areas and the boundary of occluded regions while avoiding UV distortion. We also adopts the temporal constraint to ensure consistency and accuracy in UV prediction across adjacent frames. We show that our approach is robust to a variety type of clothes, in the wild illuminations and with challenging motions. We show plausible texture replacement results in our experiment, in which the folding and overlapping of the garment can be greatly preserved. We also show clear qualitative and quantitative improvement compared to the baselines as well. With the one-click setup, we look forward to our approach contributing to the growth of fashion E-commerce. | 翻訳日:2024-07-16 19:19:02 公開日:2024-07-14 |
# マルチエミッタ非マルコフ系の効率的なテンソルネットワークシミュレーション
Efficient tensor network simulation of multi-emitter non-Markovian systems ( http://arxiv.org/abs/2407.10140v1 ) ライセンス: Link先を確認 | Irene Papaefstathiou, Daniel Malz, J. Ignacio Cirac, Mari Carmen Bañuls, | (参考訳) 本研究では,非接触浴に結合した複数のエミッタ系をパラメータ系でシミュレートする数値計算法を提案する。
我々の手法は、システム全体をストリップ幾何学にマッピングするBlock Lanczos変換に依存しており、その幅はエミッタの数によって与えられる。
この問題の空間対称性を利用し,浴槽のエネルギー範囲を同定し,テンソルネットワーク技術を用いてより効率的なシミュレーションを行う。
実演として, ボソンの正方格子に結合した複数のエミッタからの集合放出について検討し, 結合強度とエミッタ数の増加によるマルコビアン性からの離脱が, 集合放射を阻害することを示した。
また、多重励起初期状態から有界状態における励起の動的準備をシミュレートする。
我々の研究は、マルチエミッター系の力学と平衡特性における非マルコフ効果の体系的な探索の新しい可能性を開く。
さらに、有限浴温度やフェミオン環境に結合した不純物など、他の設備にも容易に拡張できる。
We present a numerical method to simulate a system of multiple emitters coupled to a non-interacting bath, in any parameter regime. Our method relies on a Block Lanczos transformation that maps the whole system onto a strip geometry, whose width is given by the number of emitters. Utilizing the spatial symmetries of the problem and identifying the relevant range of energies of the bath we achieve a more efficient simulation, which we perform using tensor network techniques. As a demonstration, we study the collective emission from multiple emitters coupled to a square lattice of bosons and observe how the departure from Markovianity as coupling strength and emitter number is increased prevents collective radiation. We also simulate the dynamic preparation of an excitation in a bound state from a multi-excitation initial state. Our work opens new possibilities for the systematic exploration of non-Markovian effects in the dynamics and equilibrium properties of multi-emitter systems. Furthermore, it can easily be extended to other setups, including finite bath temperature or impurities coupled to fermionic environments. | 翻訳日:2024-07-16 19:19:02 公開日:2024-07-14 |
# PARE-Net:ロバストポイントクラウド登録のための位置対応ローテーション等価ネットワーク
PARE-Net: Position-Aware Rotation-Equivariant Networks for Robust Point Cloud Registration ( http://arxiv.org/abs/2407.10142v1 ) ライセンス: Link先を確認 | Runzhao Yao, Shaoyi Du, Wenting Cui, Canhui Tang, Chengwu Yang, | (参考訳) 回転不変の特徴を学習することは、ポイントクラウド登録の基本的な要件である。
既存の手法では、回転に敏感なネットワークを用いて特徴を抽出し、回転拡大を用いて近似不変写像を無作為に学習する。
これにより、ネットワークは回転に脆弱になり、オーバーウェイトになり、特徴の独特さを妨げる。
これらの問題に対処するために、我々は、効率的で軽量でロバストな登録のための、位置対応の回転同変ネットワークを提案する。
このネットワークは、回転同変/不変の特徴を学習するために強力なモデル帰納バイアスを与えることができ、上記の制限に対処することができる。
そこで本研究では,局所構造の空間情報をよりよく学習できる位置認識型畳み込みを提案する。
また,特徴に基づく仮説提案手法を提案する。
微粒な構造配向を符号化する回転同変特性を活用して、信頼性の高いモデル仮説を生成する。
各対応は仮説を生成できるため、複数の信頼できる対応を必要とする古典的推定器よりも効率的である。
これにより、データ劣化に対する回転同変特性のロバスト性を高めるために、対照的な回転損失が提示される。
室内および屋外のデータセットに対する大規模な実験により,本手法は軽量かつ高速な登録リコールにおいて,SOTA法を著しく上回っていることが示された。
さらに、回転データセットの実験は、回転変動に対するロバスト性を示す。
コードはhttps://github.com/yaorz97/PARENetで入手できる。
Learning rotation-invariant distinctive features is a fundamental requirement for point cloud registration. Existing methods often use rotation-sensitive networks to extract features, while employing rotation augmentation to learn an approximate invariant mapping rudely. This makes networks fragile to rotations, overweight, and hinders the distinctiveness of features. To tackle these problems, we propose a novel position-aware rotation-equivariant network, for efficient, light-weighted, and robust registration. The network can provide a strong model inductive bias to learn rotation-equivariant/invariant features, thus addressing the aforementioned limitations. To further improve the distinctiveness of descriptors, we propose a position-aware convolution, which can better learn spatial information of local structures. Moreover, we also propose a feature-based hypothesis proposer. It leverages rotation-equivariant features that encode fine-grained structure orientations to generate reliable model hypotheses. Each correspondence can generate a hypothesis, thus it is more efficient than classic estimators that require multiple reliable correspondences. Accordingly, a contrastive rotation loss is presented to enhance the robustness of rotation-equivariant features against data degradation. Extensive experiments on indoor and outdoor datasets demonstrate that our method significantly outperforms the SOTA methods in terms of registration recall while being lightweight and keeping a fast speed. Moreover, experiments on rotated datasets demonstrate its robustness against rotation variations. Code is available at https://github.com/yaorz97/PARENet. | 翻訳日:2024-07-16 19:19:02 公開日:2024-07-14 |
# オンラインマルチオブジェクトトラッキングにおける検出エラーの克服と発見
Lost and Found: Overcoming Detector Failures in Online Multi-Object Tracking ( http://arxiv.org/abs/2407.10151v1 ) ライセンス: Link先を確認 | Lorenzo Vaquero, Yihong Xu, Xavier Alameda-Pineda, Victor M. Brea, Manuel Mucientes, | (参考訳) マルチオブジェクト追跡(MOT)は、時間とともに複数のオブジェクトの位置とアイデンティティを正確に推定する試みである。
一般的なアプローチであるトラッキング・バイ・検出(TbD)は、まずオブジェクトを検出し、次に検出をリンクする。
しかし、現代の検出器は時々特定のフレーム内のいくつかの物体を見逃すことがあり、トラッカーは早めに追跡を止める。
この問題に対処するため,オンラインTbDシステムと互換性のある汎用的なフレームワークであるBUSCAを提案する。
注目すべきは、これは過去の追跡結果を変更したり、将来のフレームにアクセスすることなく、完全にオンラインに行われることである。
BUSCAは、近隣のトラック、モーション、学習トークンに基づく提案を生成する。
マルチモーダルな視覚情報と時空間情報を統合した意思決定変換器を用いて、オブジェクト・プロモーサル関連を多選択質問応答タスクとして扱う。
BUSCAは、微調整を必要とせず、合成データのみに基づいて、基礎となるトラッカーとは独立して訓練される。
BUSCAを通じて、5つの異なるトラッカーで一貫したパフォーマンス向上を示し、3つの異なるベンチマークで新しい最先端のベースラインを確立する。
コードは、https://github.com/lorenzovaquero/BUSCA.comで公開されている。
Multi-object tracking (MOT) endeavors to precisely estimate the positions and identities of multiple objects over time. The prevailing approach, tracking-by-detection (TbD), first detects objects and then links detections, resulting in a simple yet effective method. However, contemporary detectors may occasionally miss some objects in certain frames, causing trackers to cease tracking prematurely. To tackle this issue, we propose BUSCA, meaning `to search', a versatile framework compatible with any online TbD system, enhancing its ability to persistently track those objects missed by the detector, primarily due to occlusions. Remarkably, this is accomplished without modifying past tracking results or accessing future frames, i.e., in a fully online manner. BUSCA generates proposals based on neighboring tracks, motion, and learned tokens. Utilizing a decision Transformer that integrates multimodal visual and spatiotemporal information, it addresses the object-proposal association as a multi-choice question-answering task. BUSCA is trained independently of the underlying tracker, solely on synthetic data, without requiring fine-tuning. Through BUSCA, we showcase consistent performance enhancements across five different trackers and establish a new state-of-the-art baseline across three different benchmarks. Code available at: https://github.com/lorenzovaquero/BUSCA. | 翻訳日:2024-07-16 19:19:02 公開日:2024-07-14 |
# 低リソース言語における翻訳文の修正:ストーリーボードアプローチ
Mitigating Translationese in Low-resource Languages: The Storyboard Approach ( http://arxiv.org/abs/2407.10152v1 ) ライセンス: Link先を確認 | Garry Kuwanto, Eno-Abasi E. Urua, Priscilla Amondi Amuok, Shamsuddeen Hassan Muhammad, Anuoluwapo Aremu, Verrah Otiende, Loice Emma Nanyanga, Teresiah W. Nyoike, Aniefon D. Akpan, Nsima Ab Udouboh, Idongesit Udeme Archibong, Idara Effiong Moses, Ifeoluwatayo A. Ige, Benjamin Ajibade, Olumide Benjamin Awokoya, Idris Abdulmumin, Saminu Mohammad Aliyu, Ruqayya Nasir Iro, Ibrahim Said Ahmad, Deontae Smith, Praise-EL Michaels, David Ifeoluwa Adelani, Derry Tanti Wijaya, Anietie Andy, | (参考訳) 低リソース言語は、翻訳に基づく手法に依存するため、高品質な言語データを取得することの難しさに直面することが多い。
この現象は、対象言語における流布や自然性に欠ける翻訳文をもたらす。
本稿では,より流動的で自然な文章を引き出すために,ストーリーボードを活用した新しいデータ収集手法を提案する。
提案手法では,視覚刺激のあるネイティブ話者をストーリーボード形式で提示し,その記述を原文に直接露出することなく収集する。
従来のテキスト翻訳手法とストーリーボードによるアプローチを,精度と流布率の観点から総合評価した。
翻訳品質を評価するために、人間のアノテーションと定量的な指標が用いられた。
その結果,テキスト翻訳の精度が向上するのに対して,本手法はより精度が悪く,言語に焦点を絞った流布度が向上することを示した。
Low-resource languages often face challenges in acquiring high-quality language data due to the reliance on translation-based methods, which can introduce the translationese effect. This phenomenon results in translated sentences that lack fluency and naturalness in the target language. In this paper, we propose a novel approach for data collection by leveraging storyboards to elicit more fluent and natural sentences. Our method involves presenting native speakers with visual stimuli in the form of storyboards and collecting their descriptions without direct exposure to the source text. We conducted a comprehensive evaluation comparing our storyboard-based approach with traditional text translation-based methods in terms of accuracy and fluency. Human annotators and quantitative metrics were used to assess translation quality. The results indicate a preference for text translation in terms of accuracy, while our method demonstrates worse accuracy but better fluency in the language focused. | 翻訳日:2024-07-16 19:19:02 公開日:2024-07-14 |
# LLMが幻覚する理由:因果的視点
Look Within, Why LLMs Hallucinate: A Causal Perspective ( http://arxiv.org/abs/2407.10153v1 ) ライセンス: Link先を確認 | He Li, Haoang Chi, Mingyu Liu, Wenjing Yang, | (参考訳) 大規模言語モデル(LLM)の出現は、生成人工知能におけるマイルストーンであり、テキスト理解と生成タスクにおいて大きな成功を収めている。
多くの下流タスクにおいてLLMが驚くほど成功したにもかかわらず、彼らは深刻な幻覚障害に悩まされ、LLMの実践的応用に重大な課題を提起した。
LLMの幻覚に関する研究の多くは、データ品質に焦点を当てている。
自己注意はトランスをベースとしたLLMの中核モジュールであるが,LLMの幻覚との関連性はほとんど研究されていない。
このギャップを埋めるために、この問題を因果的観点から研究する。
LLMの自己注意層に介入し,その構造とサイズをそのまま維持する手法を提案する。
具体的には、複数の人気のあるオープンソース LLM で異なる自己注意層を無効にし、その幻覚の度合いを元のものと比較する。
本研究は,幻覚評価ベンチマークの介入したLLMを評価した結果,LLMの前部や尾部の特定の自己注意層を無効にすることで幻覚の問題を緩和できるという結論に達した。
この研究は、LLMの幻覚を理解し緩和するための新しい方法である。
The emergence of large language models (LLMs) is a milestone in generative artificial intelligence, achieving significant success in text comprehension and generation tasks. Despite the tremendous success of LLMs in many downstream tasks, they suffer from severe hallucination problems, posing significant challenges to the practical applications of LLMs. Most of the works about LLMs' hallucinations focus on data quality. Self-attention is a core module in transformer-based LLMs, while its potential relationship with LLMs' hallucination has been hardly investigated. To fill this gap, we study this problem from a causal perspective. We propose a method to intervene in LLMs' self-attention layers and maintain their structures and sizes intact. Specifically, we disable different self-attention layers in several popular open-source LLMs and then compare their degrees of hallucination with the original ones. We evaluate the intervened LLMs on hallucination assessment benchmarks and conclude that disabling some specific self-attention layers in the front or tail of the LLMs can alleviate hallucination issues. The study paves a new way for understanding and mitigating LLMs' hallucinations. | 翻訳日:2024-07-16 19:19:02 公開日:2024-07-14 |
# SACNet: 2次元多臓器医療セグメントのための空間適応型畳み込みネットワーク
SACNet: A Spatially Adaptive Convolution Network for 2D Multi-organ Medical Segmentation ( http://arxiv.org/abs/2407.10157v1 ) ライセンス: Link先を確認 | Lin Zhang, Wenbo Gao, Jie Yi, Yunyun Yang, | (参考訳) 医用画像解析における多臓器分割は診断と治療計画に不可欠である。
しかし、様々なカテゴリーの変動や複雑な背景からの干渉など、多くの要因がタスクを複雑にしている。
本稿では,Deformable Convolution V3(DCNv3)とマルチオブジェクトセグメンテーションの知識を利用して,空間適応型畳み込みネットワーク(SACNet)を特徴抽出,モデルアーキテクチャ,損失制約の3つの側面で最適化し,異なるセグメンテーション対象の認識を同時に増強する。
まず、DCNv3とトランスフォーマーに似たブロックレベルおよびアーキテクチャレベルの一連の設計を組み合わせた適応受容フィールドモジュール(ARFM)を提案する。
このモジュールは、様々な目標に応じて受容野を適応的に調整することで、異なる臓器のユニークな特徴を捉えることができる。
第2に、ARFMをビルディングブロックとして利用し、SACNetのエンコーダデコーダを構築し、エンコーダとデコーダのパラメータを部分的に共有し、ネットワークをより深くする。
この設計は、共有軽量デコーダと、よりパラメータ効率が高く効果的なフレームワークを実現する。
最後に,t-vMFダイス損失とクロスエントロピー損失に基づく連続度動的調整損失関数を提案する。
ACDCとSynapseによる3Dスライスデータセットの実験により、SACNetは既存のいくつかの手法と比較して、複数組織セグメンテーションタスクにおいて優れたセグメンテーション性能を提供することを示した。
Multi-organ segmentation in medical image analysis is crucial for diagnosis and treatment planning. However, many factors complicate the task, including variability in different target categories and interference from complex backgrounds. In this paper, we utilize the knowledge of Deformable Convolution V3 (DCNv3) and multi-object segmentation to optimize our Spatially Adaptive Convolution Network (SACNet) in three aspects: feature extraction, model architecture, and loss constraint, simultaneously enhancing the perception of different segmentation targets. Firstly, we propose the Adaptive Receptive Field Module (ARFM), which combines DCNv3 with a series of customized block-level and architecture-level designs similar to transformers. This module can capture the unique features of different organs by adaptively adjusting the receptive field according to various targets. Secondly, we utilize ARFM as building blocks to construct the encoder-decoder of SACNet and partially share parameters between the encoder and decoder, making the network wider rather than deeper. This design achieves a shared lightweight decoder and a more parameter-efficient and effective framework. Lastly, we propose a novel continuity dynamic adjustment loss function, based on t-vMF dice loss and cross-entropy loss, to better balance easy and complex classes in segmentation. Experiments on 3D slice datasets from ACDC and Synapse demonstrate that SACNet delivers superior segmentation performance in multi-organ segmentation tasks compared to several existing methods. | 翻訳日:2024-07-16 19:19:02 公開日:2024-07-14 |
# RAPiD-Seg:3次元LiDARセグメンテーションのための距離対応ポイントワイド距離分散ネットワーク
RAPiD-Seg: Range-Aware Pointwise Distance Distribution Networks for 3D LiDAR Segmentation ( http://arxiv.org/abs/2407.10159v1 ) ライセンス: Link先を確認 | Li Li, Hubert P. H. Shum, Toby P. Breckon, | (参考訳) 3Dポイント雲は、特に自律運転の文脈において、屋外のシーン知覚において重要な役割を果たす。
3次元LiDARセグメンテーションの最近の進歩は、しばしば正確なセグメンテーションのための点の位置と分布に重点を置いている。
しかし、これらの手法は変動条件では頑健であるが、座標と点強度にのみ依存しているため、等尺的不変性や準最適セグメンテーションに乏しい。
この課題に対処するために、Range-Aware Pointwise Distance Distribution(RAPiD)機能と関連するRAPiD-Segアーキテクチャを導入している。
RAPiDの特徴は剛性変換不変性を示し, 点密度の変動に効果的に適用できる。
固有なLiDAR等方性放射とセマンティック分類を利用して局所表現と計算効率を向上し、幾何学的および表面の反射率を統合した4次元距離メートル法を取り入れ、セマンティックセグメンテーションを改善した。
高次元RAPiD特徴を効果的に埋め込むために,高次元特徴を管理可能なボクセルワイド埋め込みにエンコードする新しいクラス認識埋め込み目的を持つ2次元オートエンコーダ構造を提案する。
さらに,チャネルワイドアテンション融合と2つの効果的なRAPiD-Segバリアントを組み込んだRAPiD-Segを提案する。
提案手法は,SemanticKITTI (76.1) とnuScenes (83.6) データセットのmIoUを用いて,現代のLiDARセグメンテーション作業より優れている。
3D point clouds play a pivotal role in outdoor scene perception, especially in the context of autonomous driving. Recent advancements in 3D LiDAR segmentation often focus intensely on the spatial positioning and distribution of points for accurate segmentation. However, these methods, while robust in variable conditions, encounter challenges due to sole reliance on coordinates and point intensity, leading to poor isometric invariance and suboptimal segmentation. To tackle this challenge, our work introduces Range-Aware Pointwise Distance Distribution (RAPiD) features and the associated RAPiD-Seg architecture. Our RAPiD features exhibit rigid transformation invariance and effectively adapt to variations in point density, with a design focus on capturing the localized geometry of neighboring structures. They utilize inherent LiDAR isotropic radiation and semantic categorization for enhanced local representation and computational efficiency, while incorporating a 4D distance metric that integrates geometric and surface material reflectivity for improved semantic segmentation. To effectively embed high-dimensional RAPiD features, we propose a double-nested autoencoder structure with a novel class-aware embedding objective to encode high-dimensional features into manageable voxel-wise embeddings. Additionally, we propose RAPiD-Seg which incorporates a channel-wise attention fusion and two effective RAPiD-Seg variants, further optimizing the embedding for enhanced performance and generalization. Our method outperforms contemporary LiDAR segmentation work in terms of mIoU on SemanticKITTI (76.1) and nuScenes (83.6) datasets. | 翻訳日:2024-07-16 19:19:02 公開日:2024-07-14 |
# ChatLogic: マルチステップ推論のための大規模言語モデルとロジックプログラミングの統合
ChatLogic: Integrating Logic Programming with Large Language Models for Multi-Step Reasoning ( http://arxiv.org/abs/2407.10162v1 ) ライセンス: Link先を確認 | Zhongsheng Wang, Jiamou Liu, Qiming Bao, Hongfei Rong, Jingfeng Zhang, | (参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は、様々な生成タスクにおいて印象的な機能を示している。
しかしながら、そのパフォーマンスは長期記憶へのアクセスと利用の制限によって妨げられ、特に長時間の相互作用において、特定の脆弱性やバイアスが発生する。
本稿では,LLM推論タスクを特に対象とする革新的なフレームワークであるChatLogicを紹介する。
ChatLogicでは、言語モデルが中心的な役割を担い、コントローラとして機能し、すべてのシステム運用ステージに参加する。
本稿では,論理問題を推論エンジンとのシンボリックな統合に変換する新しい手法を提案する。
このアプローチは、大規模言語モデルの状況理解と模倣のスキルを活用し、シンボリックメモリを使用して、多段階推論能力を向上させる。
その結果,ChatLogic フレームワークは LLM の多段階推論能力を大幅に向上させることがわかった。
ソースコードとデータは \url{https://github.com/Strong-AI-Lab/ChatLogic} で公開されている。
Large language models (LLMs) such as ChatGPT and GPT-4 have demonstrated impressive capabilities in various generative tasks. However, their performance is often hampered by limitations in accessing and leveraging long-term memory, leading to specific vulnerabilities and biases, especially during long interactions. This paper introduces ChatLogic, an innovative framework specifically targeted at LLM reasoning tasks that can enhance the performance of LLMs in multi-step deductive reasoning tasks by integrating logic programming. In ChatLogic, the language model plays a central role, acting as a controller and participating in every system operation stage. We propose a novel method of converting logic problems into symbolic integration with an inference engine. This approach leverages large language models' situational understanding and imitation skills and uses symbolic memory to enhance multi-step deductive reasoning capabilities. Our results show that the ChatLogic framework significantly improves the multi-step reasoning capabilities of LLMs. The source code and data are available at \url{https://github.com/Strong-AI-Lab/ChatLogic} | 翻訳日:2024-07-16 19:19:02 公開日:2024-07-14 |
# LabelDistill:カメラによる3Dオブジェクト検出のためのラベル誘導型クロスモーダル知識蒸留
LabelDistill: Label-guided Cross-modal Knowledge Distillation for Camera-based 3D Object Detection ( http://arxiv.org/abs/2407.10164v1 ) ライセンス: Link先を確認 | Sanmin Kim, Youngseok Kim, Sihwan Hwang, Hyeonjun Jeong, Dongsuk Kum, | (参考訳) カメラを用いた3Dオブジェクト検出の最近の進歩は、LiDAR点雲の正確な幾何情報を利用して、パフォーマンスギャップをLiDAR 3D検出器でブリッジするために、クロスモーダルな知識蒸留を導入している。
しかし、既存のクロスモーダルな知識蒸留法は、画像検出器に転送すべきでない遠方または隠蔽物体の測定の曖昧さなど、LiDARの固有の欠陥を見逃す傾向にある。
LiDAR教師におけるこれらの不完全性を緩和するために,地上の真理ラベルからアレタリックな不確実性のない特徴を利用する新しい手法を提案する。
従来のラベル誘導手法とは対照的に,教師の頭部の逆関数を近似してラベル入力を特徴空間に効果的に埋め込む。
このアプローチは、LiDAR教師と共に正確なガイダンスを提供するため、画像検出器の性能が向上する。
さらに,教師の特異な特徴を保ちながら,教師のモダリティから知識を効果的に伝達し,両方のモダリティの可能性を最大化する特徴分割を導入する。
実験の結果,本手法はベースラインモデルと比較して,mAPとNDSを5.1ポイント,4.9ポイント改善し,本手法の有効性を実証した。
コードはhttps://github.com/sanmin0312/LabelDistillで公開されている。
Recent advancements in camera-based 3D object detection have introduced cross-modal knowledge distillation to bridge the performance gap with LiDAR 3D detectors, leveraging the precise geometric information in LiDAR point clouds. However, existing cross-modal knowledge distillation methods tend to overlook the inherent imperfections of LiDAR, such as the ambiguity of measurements on distant or occluded objects, which should not be transferred to the image detector. To mitigate these imperfections in LiDAR teacher, we propose a novel method that leverages aleatoric uncertainty-free features from ground truth labels. In contrast to conventional label guidance approaches, we approximate the inverse function of the teacher's head to effectively embed label inputs into feature space. This approach provides additional accurate guidance alongside LiDAR teacher, thereby boosting the performance of the image detector. Additionally, we introduce feature partitioning, which effectively transfers knowledge from the teacher modality while preserving the distinctive features of the student, thereby maximizing the potential of both modalities. Experimental results demonstrate that our approach improves mAP and NDS by 5.1 points and 4.9 points compared to the baseline model, proving the effectiveness of our approach. The code is available at https://github.com/sanmin0312/LabelDistill | 翻訳日:2024-07-16 19:19:02 公開日:2024-07-14 |
# 不均衡データを用いた学習における潜在特徴量の影響
The Hidden Influence of Latent Feature Magnitude When Learning with Imbalanced Data ( http://arxiv.org/abs/2407.10165v1 ) ライセンス: Link先を確認 | Damien A. Dablain, Nitesh V. Chawla, | (参考訳) 機械学習(ML)モデルは、トレーニングクラスのインスタンス数が数値的に不均衡である場合、一般化が困難である。
データ不均衡に直面した一般化の問題は、表現不足のクラスに対するトレーニングデータの欠如と、重複する機能の欠如に大きく起因している。
典型的な治療法は、インスタンスが少ないクラスにデータ拡張を実装したり、少数派クラスの予測エラーにより高いコストを割り当てたり、一般的なクラスをアンサンプすることである。
しかし、不均衡データを用いた学習において、一般化を損なう主な原因の1つは、MLモデルが推論を行う固有の方法であることを示す。
これらのモデルは、符号化された信号の大きさに大きく依存するため、一般化が困難である。
推論中、モデルは最大のスカラーに線形に合計されるエンコードされた信号の大きさの組み合わせに基づいてクラスを予測する。
一般にマイノリティクラス予測精度を向上するアグレッシブなデータ拡張であっても、パラメトリックMLモデルは、クラスラベルと、一般化に影響を与える可能性のある予測に合計する限られた数の特徴の組み合わせを関連付ける。
Machine learning (ML) models have difficulty generalizing when the number of training class instances are numerically imbalanced. The problem of generalization in the face of data imbalance has largely been attributed to the lack of training data for under-represented classes and to feature overlap. The typical remedy is to implement data augmentation for classes with fewer instances or to assign a higher cost to minority class prediction errors or to undersample the prevalent class. However, we show that one of the central causes of impaired generalization when learning with imbalanced data is the inherent manner in which ML models perform inference. These models have difficulty generalizing due to their heavy reliance on the magnitude of encoded signals. During inference, the models predict classes based on a combination of encoded signal magnitudes that linearly sum to the largest scalar. We demonstrate that even with aggressive data augmentation, which generally improves minority class prediction accuracy, parametric ML models still associate a class label with a limited number of feature combinations that sum to a prediction, which can affect generalization. | 翻訳日:2024-07-16 19:19:02 公開日:2024-07-14 |
# キーポイント駆動数理推論による大言語モデルの蒸留
Key-Point-Driven Mathematical Reasoning Distillation of Large Language Model ( http://arxiv.org/abs/2407.10167v1 ) ライセンス: Link先を確認 | Xunyu Zhu, Jian Li, Yong Liu, Can Ma, Weiping Wang, | (参考訳) 大規模言語モデル(LLM)は、広範囲なパラメータ数と膨大なデータセットのトレーニングのため、数学的推論タスクにおいて例外的な習熟度を示してきた。
これらの機能にもかかわらず、LSMのデプロイは計算上の要求によって妨げられる。
LLMの数学的推論をSmaller Language Models (SLM) に拡張することはこの問題の解決法として現れてきたが、これらの小さなモデルは計算や意味理解の誤りに悩まされることが多い。
従来の研究では計算誤差を避けるためにPoTD(Program-of-Thought Distillation)が提案されていた。
意味理解の誤りに対処するため,キーポイント駆動型数学的推論蒸留(KPDD)を提案する。
KPDDは、問題解決プロセスを3段階に分割することで、SLMの推論性能を向上させる。
さらに、この手法を KPDD-CoT と KPDD-PoT に分割し、プログラム・オブ・ソート・論理を生成する。
実験の結果, KPDD-CoTは推論能力を大幅に向上する一方, KPDD-PoTは数学的推論タスクの最先端性能を達成することがわかった。
提案手法は, 誤りを効果的に軽減し, 効率的かつ有能なSLMの展開を推し進める。
Large Language Models (LLMs) have demonstrated exceptional proficiency in mathematical reasoning tasks due to their extensive parameter counts and training on vast datasets. Despite these capabilities, deploying LLMs is hindered by their computational demands. Distilling LLM mathematical reasoning into Smaller Language Models (SLMs) has emerged as a solution to this challenge, although these smaller models often suffer from errors in calculation and semantic understanding. Prior work has proposed Program-of-Thought Distillation (PoTD) to avoid calculation error. To further address semantic understanding errors, we propose Key-Point-Driven Mathematical Reasoning Distillation (KPDD). KPDD enhances the reasoning performance of SLMs by breaking down the problem-solving process into three stages: Core Question Extraction, Problem-Solving Information Extraction, and Step-by-Step Solution. This method is further divided into KPDD-CoT, which generates Chain-of-Thought rationales, and KPDD-PoT, which creates Program-of-Thought rationales. The experiment results show that KPDD-CoT significantly improves reasoning abilities, while KPDD-PoT achieves state-of-the-art performance in mathematical reasoning tasks. Our approach effectively mitigates misunderstanding errors, advancing the deployment of efficient and capable SLMs. | 翻訳日:2024-07-16 19:19:02 公開日:2024-07-14 |
# ZX計算を用いた量子数最適化
Qubit-count optimization using ZX-calculus ( http://arxiv.org/abs/2407.10171v1 ) ライセンス: Link先を確認 | Vivien Vandaele, | (参考訳) 量子回路における量子ビットの数を最適化し,非クリフォードゲートの数を保存するためのいくつかの手法を提案する。
当社のアプローチの1つは、可能な限りアダマールゲートのガジェット化を反転させることである。これは、アダマールゲートを回避し、追加のキュービットを犠牲にするために、約$T$のオプティマイザが使用する手順である。
この問題のNP硬さを証明し,その解法を提案する。
また、与えられたZX-ダイアグラムに付随するグラフの最小幅パス分解を求める問題と、それがどのように関係しているかを示すことによって、量子ビットの数を最適化するより一般的なアプローチを提案する。
このアプローチは、格子手術操作を表現できるPauli Fusion計算モデルなど、ZX計算でネイティブに表現できる任意の計算モデルに対して、量子ビットの数を最適化するために使用することができる。
また、この手法を用いて、量子回路における量子ビットの数をZX計算を中間表現として効率的に最適化する方法について述べる。
We propose several methods for optimizing the number of qubits in a quantum circuit while preserving the number of non-Clifford gates. One of our approaches consists in reversing, as much as possible, the gadgetization of Hadamard gates, which is a procedure used by some $T$-count optimizers to circumvent Hadamard gates at the expense of additional qubits. We prove the NP-hardness of this problem and we present an algorithm for solving it. We also propose a more general approach to optimize the number of qubits by showing how it relates to the problem of finding a minimal-width path-decomposition of the graph associated with a given ZX-diagram. This approach can be used to optimize the number of qubits for any computational model that can natively be depicted in ZX-calculus, such as the Pauli Fusion computational model which can represent lattice surgery operations. We also show how this method can be used to efficiently optimize the number of qubits in a quantum circuit by using the ZX-calculus as an intermediate representation. | 翻訳日:2024-07-16 19:19:02 公開日:2024-07-14 |
# ヒストグラム変換器による逆気象条件の復元
Restoring Images in Adverse Weather Conditions via Histogram Transformer ( http://arxiv.org/abs/2407.10172v1 ) ライセンス: Link先を確認 | Shangquan Sun, Wenqi Ren, Xinwei Gao, Rui Wang, Xiaochun Cao, | (参考訳) 気象条件下でのトランスフォーマーによる画像復元法は大きな進歩を遂げた。
それらの多くは、計算負荷を減らすためにチャネル次元や空間的に固定されたブロックに沿って自己アテンションを使用する。
しかし、このような妥協は、長距離空間的特徴を捉える際の限界をもたらす。
本研究は, 気象に起因した劣化要因が, 主に類似の閉塞や明るさを引き起こすという観測に触発され, 悪天候による画像の復元に有効なヒストグラム変換器 (Histoformer) を提案する。
これはヒストグラム自己アテンション( histogram self-attention)と呼ばれるメカニズムで、空間的特徴を強度ベースのビンに分類し、セグメント化する。
次に、各ビンまたは各ビンに自己注意を適用して、ダイナミックレンジの空間的特徴に選択的に焦点を合わせ、長い範囲の同様の劣化画素を一緒に処理する。
ヒストグラムの自己アテンションを高めるため,従来のコンボリューションにより,隣接画素ではなく類似画素上での操作が可能となるダイナミックレンジ・コンボリューションを提案する。
また, 共通画素の損失は, 線形関係や, 出力と接地構造との相関を無視する。
そこで本研究では,Pearson相関係数を損失関数として利用して,地上構造と同一の順序で復元された画素を強制する。
実験の結果,提案手法の有効性と優位性を示した。
ソースコードはGithubで公開しています。
Transformer-based image restoration methods in adverse weather have achieved significant progress. Most of them use self-attention along the channel dimension or within spatially fixed-range blocks to reduce computational load. However, such a compromise results in limitations in capturing long-range spatial features. Inspired by the observation that the weather-induced degradation factors mainly cause similar occlusion and brightness, in this work, we propose an efficient Histogram Transformer (Histoformer) for restoring images affected by adverse weather. It is powered by a mechanism dubbed histogram self-attention, which sorts and segments spatial features into intensity-based bins. Self-attention is then applied across bins or within each bin to selectively focus on spatial features of dynamic range and process similar degraded pixels of the long range together. To boost histogram self-attention, we present a dynamic-range convolution enabling conventional convolution to conduct operation over similar pixels rather than neighbor pixels. We also observe that the common pixel-wise losses neglect linear association and correlation between output and ground-truth. Thus, we propose to leverage the Pearson correlation coefficient as a loss function to enforce the recovered pixels following the identical order as ground-truth. Extensive experiments demonstrate the efficacy and superiority of our proposed method. We have released the codes in Github. | 翻訳日:2024-07-16 19:09:07 公開日:2024-07-14 |
# CLIP-Guided Networks for Transferable Targeted Attacks (特集:情報ネットワーク)
CLIP-Guided Networks for Transferable Targeted Attacks ( http://arxiv.org/abs/2407.10179v1 ) ライセンス: Link先を確認 | Hao Fang, Jiawei Kong, Bin Chen, Tao Dai, Hao Wu, Shu-Tao Xia, | (参考訳) トランスファー可能な敵攻撃は、ブラックボックスのシナリオで敵が特定した予測を出力するモデルを誤解させることを目的としている。
近年の研究では、ターゲットクラスごとにジェネレータを訓練し、高度に転送可能な摂動を発生させることで、複数のクラスを扱う場合の計算オーバーヘッドを大幅に増加させる、‘textit{single-target} 生成攻撃が導入された。
\textit{Multi-target} 攻撃は、複数のクラスに対して1つのクラス条件ジェネレータをトレーニングすることで、この問題に対処する。
しかし、ジェネレータは単にクラスラベルを条件として使うだけで、ターゲットクラスのリッチなセマンティック情報を活用できない。
この目的のために、我々は、CLIPのテキスト知識をジェネレータに組み込んでマルチターゲット攻撃を強化するために、 \textbf{C}LIP-guided \textbf{G}enerative \textbf{N}etwork with \textbf{C}ross-attention Module (CGNC)を設計する。
CGNCは、例えば、ResNet-152 から DenseNet-121 への成功率を 21.46 % 改善した。
さらに,既存の単一ターゲットメソッドを超越した単一クラス攻撃において,我々の手法をさらに強化するためのマスク付き微調整機構を提案する。
Transferable targeted adversarial attacks aim to mislead models into outputting adversary-specified predictions in black-box scenarios. Recent studies have introduced \textit{single-target} generative attacks that train a generator for each target class to generate highly transferable perturbations, resulting in substantial computational overhead when handling multiple classes. \textit{Multi-target} attacks address this by training only one class-conditional generator for multiple classes. However, the generator simply uses class labels as conditions, failing to leverage the rich semantic information of the target class. To this end, we design a \textbf{C}LIP-guided \textbf{G}enerative \textbf{N}etwork with \textbf{C}ross-attention modules (CGNC) to enhance multi-target attacks by incorporating textual knowledge of CLIP into the generator. Extensive experiments demonstrate that CGNC yields significant improvements over previous multi-target generative attacks, e.g., a 21.46\% improvement in success rate from ResNet-152 to DenseNet-121. Moreover, we propose a masked fine-tuning mechanism to further strengthen our method in attacking a single class, which surpasses existing single-target methods. | 翻訳日:2024-07-16 19:09:07 公開日:2024-07-14 |
# 速度歪み知覚トレードオフレンズによる半教師あり学習における反復型バックドア攻撃の防止
Defending Against Repetitive-based Backdoor Attacks on Semi-supervised Learning through Lens of Rate-Distortion-Perception Trade-off ( http://arxiv.org/abs/2407.10180v1 ) ライセンス: Link先を確認 | Cheng-Yi Lee, Ching-Chia Kao, Cheng-Han Yeh, Chun-Shien Lu, Chia-Mu Yu, Chu-Song Chen, | (参考訳) 半教師付き学習(SSL)は、インターネットから大量の未ラベルデータを活用することで、少数のラベル付きデータで顕著なパフォーマンスを達成した。
しかし、信頼できないデータの大規模なプールは、データ中毒に極めて脆弱であり、バックドア攻撃の可能性がある。
現在のバックドア防御は、SSLのこのような脆弱性に対してまだ有効ではない。
本研究では、周波数領域に摂動を導入することで、トリガーパターンとターゲットクラスの関係を乱す新しい手法、Unlabeled Data Purification (UPure)を提案する。
RDP(Ralse-Distortion-Perception)トレードオフを利用することで、摂動が加わった周波数帯域をさらに特定し、この選択を正当化する。
特に、UPureは、余分にクリーンなラベル付きデータを必要とせずに、有毒なラベル付きデータを浄化する。
4つのベンチマークデータセットと5つのSSLアルゴリズムに関する大規模な実験は、UPureがモデル精度を維持しながら攻撃成功率を99.78%から0%に効果的に下げることを示した。
Semi-supervised learning (SSL) has achieved remarkable performance with a small fraction of labeled data by leveraging vast amounts of unlabeled data from the Internet. However, this large pool of untrusted data is extremely vulnerable to data poisoning, leading to potential backdoor attacks. Current backdoor defenses are not yet effective against such a vulnerability in SSL. In this study, we propose a novel method, Unlabeled Data Purification (UPure), to disrupt the association between trigger patterns and target classes by introducing perturbations in the frequency domain. By leveraging the Rate- Distortion-Perception (RDP) trade-off, we further identify the frequency band, where the perturbations are added, and justify this selection. Notably, UPure purifies poisoned unlabeled data without the need of extra clean labeled data. Extensive experiments on four benchmark datasets and five SSL algorithms demonstrate that UPure effectively reduces the attack success rate from 99.78% to 0% while maintaining model accuracy | 翻訳日:2024-07-16 19:09:07 公開日:2024-07-14 |
# 知覚色差尺度としてのマルチスケールスライスワッサースタイン距離
Multiscale Sliced Wasserstein Distances as Perceptual Color Difference Measures ( http://arxiv.org/abs/2407.10181v1 ) ライセンス: Link先を確認 | Jiaqi He, Zhihua Wang, Leon Wang, Tsein-I Liu, Yuming Fang, Qilin Sun, Kede Ma, | (参考訳) 写真画像のコンテンポラリーカラー差(CD)測定は、通常、同じ位置のピクセルや「知覚的に均一」な色空間のパッチ、学習された潜在空間の特徴を比較することによって行われる。
その結果、デジタル写真(例えば、異なるスマートフォンで撮影されるのと同じシーン)において、不整合画像対の人間の色知覚が不十分であることがわかった。
本稿では,多スケールスライスされたワッサースタイン距離に基づく知覚CD測度について述べる。
これは、色知覚の現代的な理解と一致し、色と構造は、知覚的組織の一元的プロセスとして本質的に相互依存している。
一方,本手法は実装が容易で,トレーニングも不要である。
実験結果から, 画像中のCD評価においてCD測定が良好に行われ, 画像誤認識の有無で競合モデルを上回っていることが明らかとなった。
さらに,我々の測度が数学的な意味でメートル法として機能することを実証的に検証し,画像やビデオのカラー転送タスクの損失関数としてその可能性を示す。
コードはhttps://github.com/real-hjq/MS-SWD.comで公開されている。
Contemporary color difference (CD) measures for photographic images typically operate by comparing co-located pixels, patches in a ``perceptually uniform'' color space, or features in a learned latent space. Consequently, these measures inadequately capture the human color perception of misaligned image pairs, which are prevalent in digital photography (e.g., the same scene captured by different smartphones). In this paper, we describe a perceptual CD measure based on the multiscale sliced Wasserstein distance, which facilitates efficient comparisons between non-local patches of similar color and structure. This aligns with the modern understanding of color perception, where color and structure are inextricably interdependent as a unitary process of perceptual organization. Meanwhile, our method is easy to implement and training-free. Experimental results indicate that our CD measure performs favorably in assessing CDs in photographic images, and consistently surpasses competing models in the presence of image misalignment. Additionally, we empirically verify that our measure functions as a metric in the mathematical sense, and show its promise as a loss function for image and video color transfer tasks. The code is available at https://github.com/real-hjq/MS-SWD. | 翻訳日:2024-07-16 19:09:07 公開日:2024-07-14 |
# アイデンティティ・チェーン
Identity Chain ( http://arxiv.org/abs/2407.10187v1 ) ライセンス: Link先を確認 | Mahdi Darabi, AmirReza Fathi, | (参考訳) 第一世代の暗号通貨は革命的な概念を導入したが、プライバシと規制遵守の課題に直面した。
その後の暗号通貨はプライバシー問題(ZcashやMoneroなど)に対処することを目的としていたが、規制の枠組みと対立し、広く採用されるのを妨げた。
ブロックチェーンにおけるプライバシとアカウンタビリティ、インセンティブ技術に関する最近の研究に着想を得て、プライバシとカウンタビリティの原則を統合する新しいフレームワークとしてIdentityChainを提案し、適応可能なルールを備えた堅牢なシステムを実現する。
IdentityChainは、パブリックブロックチェーン(例えば、Ethereum、Ton、Polygon)上のKYC(Know Your Customer)サービスである。
目標は、既存の規制に準拠しつつ、プライバシーを維持することだ。
プライバシはIdentityChainの重要な特徴の1つであり、関心の対立を防ぐために重要である。
説明責任はIdentityChainの主要な特徴のひとつであり、ユーザの誤動作を防ぐ。
プライバシーと説明責任は、暗号化の進歩がなければ一緒にはできないでしょう。
The first generation of cryptocurrencies introduced revolutionary concepts, yet faced challenges in privacy and regulatory compliance. While subsequent cryptocurrencies aimed to address privacy concerns (like Zcash and Monero), they often conflicted with regulatory frameworks, hindering broader adoption. In response, inspired by recent researches about privacy and accountability and incentive techniques in Blockchain, we propose IdentityChain as a novel framework that integrates privacy and accountability principles, leading to a robust system equipped with adaptable rules. IdentityChain is a KYC (Know Your Customer) service on top of a public Blockchain (e.g., Ethereum, Ton, Polygon). The goal is to maintain privacy while ensuring compliance with existing regulations. Privacy is one of the key characteristics of IdentityChain, it's crucial for preventing conflicts of interests further discussed how. Accountability is also one of the main characteristics of IdentityChain and prevents from misbehave of users. Privacy and accountability together wouldn't be possible unless advancements in cryptography. | 翻訳日:2024-07-16 19:09:07 公開日:2024-07-14 |
# ニューラルネットワークにおける自己モデリングの予期せぬメリット
Unexpected Benefits of Self-Modeling in Neural Systems ( http://arxiv.org/abs/2407.10188v1 ) ライセンス: Link先を確認 | Vickram N. Premakumar, Michael Vaiana, Florin Pop, Judd Rosenblatt, Diogo Schwerz de Lucena, Kirsten Ziman, Michael S. A. Graziano, | (参考訳) 自己モデル(Self-model)は、人間の認知の研究や、最近では機械学習において、何十年にもわたって大きな関心を集めてきたトピックである。
しかし、自己モデルがもたらすメリットは何か?
ここでは、ニューラルネットワークが内部状態を補助的なタスクとして予測することを学ぶと、それらが根本的に変化することを示す。
自己モデルタスクをより良く実行するために、ネットワークはよりシンプルで、より規則化され、パラメータ効率が良く、予測的モデリングがより容易になるように学習する。
自己モデリングによる自己正規化の仮説をテストするために,2つのモードにまたがる3つの分類タスクを実行するネットワークアーキテクチャを用いた。
いずれの場合も、自己モデリングの追加はネットワークの複雑さを大幅に減らした。
減少は2つの方法で観察された。
第一に、自己モデリングが存在するときの重量分布はより狭かった。
第2に,自己モデリングを行う場合,ネットワーク複雑性の尺度である実対数正準しきい値 (RLCT) は小さくなった。
複雑さの度合いは低下したばかりでなく、自己モデリングの補助的なタスクにより大きなトレーニング重量が配置されたことにより、より顕著になった。
これらの結果は、自己モデリングは単に自己予測のためのネットワーク学習以上のものであるという仮説を強く支持する。
学習は再構成効果を持ち、複雑さを減らし、パラメータ効率を向上する。
この自己正規化は、最近の機械学習文献で報告されている自己モデルの有用性や、生物学的システムへの自己モデルの適用価値を説明するのに役立つかもしれない。
特に、これらの発見は、自分自身をモデル化する能力と、社会的あるいは協力的な文脈において、他人によってより容易にモデル化される能力との相互作用について、光を当てる可能性がある。
Self-models have been a topic of great interest for decades in studies of human cognition and more recently in machine learning. Yet what benefits do self-models confer? Here we show that when artificial networks learn to predict their internal states as an auxiliary task, they change in a fundamental way. To better perform the self-model task, the network learns to make itself simpler, more regularized, more parameter-efficient, and therefore more amenable to being predictively modeled. To test the hypothesis of self-regularizing through self-modeling, we used a range of network architectures performing three classification tasks across two modalities. In all cases, adding self-modeling caused a significant reduction in network complexity. The reduction was observed in two ways. First, the distribution of weights was narrower when self-modeling was present. Second, a measure of network complexity, the real log canonical threshold (RLCT), was smaller when self-modeling was present. Not only were measures of complexity reduced, but the reduction became more pronounced as greater training weight was placed on the auxiliary task of self-modeling. These results strongly support the hypothesis that self-modeling is more than simply a network learning to predict itself. The learning has a restructuring effect, reducing complexity and increasing parameter efficiency. This self-regularization may help explain some of the benefits of self-models reported in recent machine learning literature, as well as the adaptive value of self-models to biological systems. In particular, these findings may shed light on the possible interaction between the ability to model oneself and the ability to be more easily modeled by others in a social or cooperative context. | 翻訳日:2024-07-16 19:09:07 公開日:2024-07-14 |
# GRAPE: 汎用的でロバストな多視点顔画像キャプチャ
GRAPE: Generalizable and Robust Multi-view Facial Capture ( http://arxiv.org/abs/2407.10193v1 ) ライセンス: Link先を確認 | Jing Li, Di Kang, Zhenyu He, | (参考訳) ディープラーニングベースのマルチビュー顔キャプチャ手法は、従来のメッシュ登録パイプラインよりも数桁高速で、印象的な精度を示している。
しかしながら、既存のシステム(例えばTEMPEH)は、トレーニングデータを取得するのに使用される同じカメラアレイによってキャプチャされたデータに対する推測に厳格に制限されている。
本研究では,異なるカメラアレイ上での推論(すなわち,新しいデータをキャプチャする)に訓練されたモデルを容易に利用できるように,一般化能力を向上させることを目的とする。
そこで本研究では,視覚的包絡による頭部位置推定と視覚的包絡によって可能となる視認性を考慮した3D特徴集約モジュールを含む,カメラアレイ非依存の3D特徴を抽出する,より一般化可能な初期化モジュールを提案する。
また,データノイズ(例えば,不正確な登録,スキャンノイズ)をトレーニング中の潜在的に不正確な監視信号を排除し,より優れた処理を行うための'update-by-disagreement'学習戦略を提案する。
結果として、一般化可能で堅牢な多視点顔撮影システム(GRAPE)は、異なるカメラアレイ上のデータを容易に取得することができ、データ収集と処理に多大な労力を費やすことができる。
FaMoSデータセットとFaceScapeデータセットの実験により,提案手法の有効性が示された。
Deep learning-based multi-view facial capture methods have shown impressive accuracy while being several orders of magnitude faster than a traditional mesh registration pipeline. However, the existing systems (e.g. TEMPEH) are strictly restricted to inference on the data captured by the same camera array used to capture their training data. In this study, we aim to improve the generalization ability so that a trained model can be readily used for inference (i.e. capture new data) on a different camera array. To this end, we propose a more generalizable initialization module to extract the camera array-agnostic 3D feature, including a visual hull-based head localization and a visibility-aware 3D feature aggregation module enabled by the visual hull. In addition, we propose an ``update-by-disagreement'' learning strategy to better handle data noise (e.g. inaccurate registration, scan noise) by discarding potentially inaccurate supervision signals during training. The resultant generalizable and robust topologically consistent multi-view facial capture system (GRAPE) can be readily used to capture data on a different camera array, reducing great effort on data collection and processing. Experiments on the FaMoS and FaceScape datasets demonstrate the effectiveness of the proposed method. | 翻訳日:2024-07-16 19:09:07 公開日:2024-07-14 |
# 小型コード言語モデルのためのカリキュラム学習
Curriculum Learning for Small Code Language Models ( http://arxiv.org/abs/2407.10194v1 ) ライセンス: Link先を確認 | Marwa Naïr, Kamel Yamani, Lynda Said Lhadj, Riyadh Baghdadi, | (参考訳) コード言語モデルは、様々なプログラミングタスクに有用なツールとして現れてきたが、複雑なタスクに関しては、しばしば苦労している。
本稿では,これらのモデルの性能向上のためのカリキュラム学習の可能性について検討する。
これまでの研究では、カリキュラム学習が言語モデルの性能向上に必ずしも役立っているわけではないことが示唆されているが、我々の結果は、コード言語モデルには当てはまらないかもしれないことを驚くほど示している。
プログラム実行のタスクにおいて、十分に設計されたカリキュラム学習アプローチによって、小さなデコーダのみのコード言語モデルの精度が大幅に向上するが、コード補完への影響はそれほど大きくないことを示す。
カリキュラム学習の可能性を探るため、100万のパラメータを持つ複数のGPTモデルをトレーニングし、次のトークンを予測し、コード補完と実行タスクで評価する。
コントリビューションには、ソフトウェアコード測度を組み合わせることで、新しいコードの難易度評価尺度を提案し、コード言語モデルに対するカリキュラム学習の有効性を調査し、コード実行タスクにおいて、小さなデコーダのみの言語モデルの性能を高める新しいカリキュラム学習スケジュールを導入しました。
本研究の結果は,プログラム言語モデルにおけるカリキュラム学習の活用に関するさらなる研究の扉を開くものである。
Code language models have emerged as useful tools for various programming tasks, yet they often struggle when it comes to complex ones. In this paper, we explore the potential of curriculum learning in enhancing the performance of these models. While prior research has suggested that curriculum learning does not necessarily help in improving the performance of language models, our results surprisingly show that this may not be the case for code language models. We demonstrate that a well-designed curriculum learning approach significantly improves the accuracy of small decoder-only code language models on the task of code execution, while its effect on code completion is less significant. To explore the potential of curriculum learning, we train multiple GPT models with 1 million parameters each to predict the next token and evaluate them on code completion and execution tasks. Our contributions include proposing a novel code difficulty assessment metric by combining software code measures, investigating the effectiveness of Curriculum Learning for code language models, and introducing a Novel Curriculum Learning schedule that enhances the performance of small decoder-only language models in code execution tasks. The results of this paper open the door for more research on the use of curriculum learning for code language models. | 翻訳日:2024-07-16 19:09:07 公開日:2024-07-14 |
# V2I-Calib:コラボレーティブカーとインフラLiDARシステムのための新しい校正手法
V2I-Calib: A Novel Calibration Approach for Collaborative Vehicle and Infrastructure LiDAR Systems ( http://arxiv.org/abs/2407.10195v1 ) ライセンス: Link先を確認 | Qianxin Qu, Yijin Xiong, Xin Wu, Hanyu Li, Shichun Guo, | (参考訳) 協調車両とインフラのLiDARシステムは大きな可能性を秘めているが、その実装は多くの課題に直面している。
異種車両およびインフラストラクチャエンドポイント間のLiDARシステムの校正は、リアルタイムで安定した校正方法を必要とする知覚システムのデータの正確性と一貫性を確保するための重要なステップである。
そこで本研究では, 検知ボックス間の空間的関連情報を活用した, 協調車両と道路インフラLiDARシステムのキャリブレーション手法を提案する。
この手法は、車両とインフラの目標の相関を反映し、キャリブレーション結果のリアルタイムモニタリングを可能にする、新しい総合IoUメトリックを中心にしている。
親和性行列を構成することにより,車両ノードとインフラノード間の共通マッチングボックスを探索する。
その後、これらのマッチングボックスは外部パラメータの計算と最適化を行う。
DAIR-V2Xデータセットの比較およびアブレーション実験により,本手法の優位性が確認された。
キャリブレーション結果の違いをよりよく反映するために,DAIR-V2Xデータセットのキャリブレーションタスクを,その難易度に基づいて分類し,将来の研究のためにデータセットの有用性を高めた。
私たちのプロジェクトはhttps://github.com/MassimoQu/v2i-calibで利用可能です。
Cooperative vehicle and infrastructure LiDAR systems hold great potential, yet their implementation faces numerous challenges. Calibration of LiDAR systems across heterogeneous vehicle and infrastructure endpoints is a critical step to ensure the accuracy and consistency of perception system data, necessitating calibration methods that are real-time and stable. To this end, this paper introduces a novel calibration method for cooperative vehicle and road infrastructure LiDAR systems, which exploits spatial association information between detection boxes. The method centers around a novel Overall IoU metric that reflects the correlation of targets between vehicle and infrastructure, enabling real-time monitoring of calibration results. We search for common matching boxes between vehicle and infrastructure nodes by constructing an affinity matrix. Subsequently, these matching boxes undergo extrinsic parameter computation and optimization. Comparative and ablation experiments on the DAIR-V2X dataset confirm the superiority of our method. To better reflect the differences in calibration results, we have categorized the calibration tasks on the DAIR-V2X dataset based on their level of difficulty, enriching the dataset's utility for future research. Our project is available at https://github.com/MassimoQu/v2i-calib . | 翻訳日:2024-07-16 19:09:07 公開日:2024-07-14 |
# A3S: Pairwise Constraintsを用いた汎用アクティブクラスタリング手法
A3S: A General Active Clustering Method with Pairwise Constraints ( http://arxiv.org/abs/2407.10196v1 ) ライセンス: Link先を確認 | Xun Deng, Junlong Liu, Han Zhong, Fuli Feng, Chen Shen, Xiangnan He, Jieping Ye, Zheng Wang, | (参考訳) アクティブクラスタリングは、戦略的クエリを通じて人間アノテーションによるペアワイズ制約を統合することにより、クラスタリングのパフォーマンスを向上させることを目的としている。
半教師付きクラスタリング方式による従来のアプローチは、多数のクラスを持つ大規模データセットに適用する場合、高いクエリコストに直面する。
これらの制約に対処するため、アクティブクラスタリングにおけるクラスタ調整スキームに該当する新しいAdaptive Active Aggregation and Splitting(A3S)フレームワークを提案する。
A3Sは、適応クラスタリングアルゴリズムによって得られる初期クラスタ結果に対して、戦略的にアクティブクラスタリングを調整する。
特に,我々のクラスタ調整は,情報理論の枠組みに基づく正規化相互情報ゲインの定量的解析にインスパイアされ,クラスタリングの品質を確実に向上させることができる。
提案されたA3Sフレームワークは、アクティブクラスタリングのパフォーマンスとスケーラビリティを大幅に向上させる。
さまざまな実世界のデータセットにわたる広範な実験において、A3Sは、既存の方法に比べてはるかに少ない人間のクエリで望ましい結果を達成する。
Active clustering aims to boost the clustering performance by integrating human-annotated pairwise constraints through strategic querying. Conventional approaches with semi-supervised clustering schemes encounter high query costs when applied to large datasets with numerous classes. To address these limitations, we propose a novel Adaptive Active Aggregation and Splitting (A3S) framework, falling within the cluster-adjustment scheme in active clustering. A3S features strategic active clustering adjustment on the initial cluster result, which is obtained by an adaptive clustering algorithm. In particular, our cluster adjustment is inspired by the quantitative analysis of Normalized mutual information gain under the information theory framework and can provably improve the clustering quality. The proposed A3S framework significantly elevates the performance and scalability of active clustering. In extensive experiments across diverse real-world datasets, A3S achieves desired results with significantly fewer human queries compared with existing methods. | 翻訳日:2024-07-16 19:09:07 公開日:2024-07-14 |
# 道路表面欠陥分類のための複数データソースと領域一般化学習法
Multiple data sources and domain generalization learning method for road surface defect classification ( http://arxiv.org/abs/2407.10197v1 ) ライセンス: Link先を確認 | Linh Trinh, Ali Anwar, Siegfried Mercelis, | (参考訳) 道路は交通の必需品であり、その維持は経済成長と市民の幸福に不可欠である。
近年,AIの進歩に伴い,カメラ画像に基づく道路面検査が広範に研究され,自動的に実施されるようになっている。
しかし、路面欠陥を検出するディープラーニング手法のほとんどすべてが特定のデータセットに最適化されているため、以前は目に見えなかった新しいデータセットに適用することは困難である。
さらに、複数のデータソースを用いた効率的なモデルのトレーニングに関する研究が欠如している。
本稿では,カメラ画像を用いた道路表面欠陥の分類手法を提案する。
本稿では,複数のデータソース上でモデルをトレーニングしながら,複数のデータソースの不変性に対処する手法を提案する。
さらに、モデル更新を必要とせずに、新しい全く見えないデータソースを扱える一般化モデルを開発するための領域一般化訓練アルゴリズムを提案する。
RDD2022データセットから6ヶ国に対応する6つのデータソースを用いた実験により,本手法の有効性を検証した。
その結果,従来は見つからなかったデータに基づいて,道路表面の欠陥を効率的に分類できることが示唆された。
Roads are an essential mode of transportation, and maintaining them is critical to economic growth and citizen well-being. With the continued advancement of AI, road surface inspection based on camera images has recently been extensively researched and can be performed automatically. However, because almost all of the deep learning methods for detecting road surface defects were optimized for a specific dataset, they are difficult to apply to a new, previously unseen dataset. Furthermore, there is a lack of research on training an efficient model using multiple data sources. In this paper, we propose a method for classifying road surface defects using camera images. In our method, we propose a scheme for dealing with the invariance of multiple data sources while training a model on multiple data sources. Furthermore, we present a domain generalization training algorithm for developing a generalized model that can work with new, completely unseen data sources without requiring model updates. We validate our method using an experiment with six data sources corresponding to six countries from the RDD2022 dataset. The results show that our method can efficiently classify road surface defects on previously unseen data. | 翻訳日:2024-07-16 19:09:07 公開日:2024-07-14 |
# Shape2Scene: 形状データによる事前学習による3次元シーン表現学習
Shape2Scene: 3D Scene Representation Learning Through Pre-training on Shape Data ( http://arxiv.org/abs/2407.10200v1 ) ライセンス: Link先を確認 | Tuo Feng, Wenguan Wang, Ruijie Quan, Yi Yang, | (参考訳) 現在の3Dシーンの自己教師型学習手法は,3Dシーンデータの収集に要する時間と費用のかかるプロセスによって,データ砂漠の問題に直面している。
逆に、3D形状のデータセットの収集も容易である。
それにもかかわらず、形状データに関する既存の事前学習戦略は、点量にかなりの差異があるため、3次元のシーン理解に限られた可能性を秘めている。
これらの課題に対処するために,3次元形状データから大規模3次元シーンの表現を学習する新しい手法であるShape2Scene (S2S)を提案する。
まず,MH-P(ポイントベース)とMH-V(ボクセルベース)という,形状・シーンレベルの3Dタスクのためのマルチスケール・高解像度バックボーンを設計する。
MH-P/Vは、複数のスケールにわたる深い意味情報をキャプチャする高解像度機能への直接パスを確立する。
この重要な性質は、高解像度の機能に強く依存する広範囲な3D下流タスクに適している。
次に、様々な形状からポイントをアマルガメートするためにShape-to-Scene戦略(S2SS)を用い、ランダムな擬似シーン(複数のオブジェクトを構成する)を作成し、形状とシーンの相違を緩和する。
最後に、MH−P/Vの事前学習に点点コントラスト損失(PPC)を適用する。
PPCでは、固有の対応(すなわち点対)がS2SSで自然に得られる。
大規模実験により,MH-P/Vで学習した3次元表現が,形状レベルおよびシーンレベルの3次元タスク間で伝達可能であることが示された。
MH-Pはよく知られたポイントクラウドデータセット(ScanObjectNNでは93.8%のOA、ShapeNetPartでは87.6%のインスタンスmIoU)で顕著なパフォーマンスを実現している。
MH-Vはまた、3Dセマンティックセグメンテーションと3Dオブジェクト検出において有望な性能を達成する。
Current 3D self-supervised learning methods of 3D scenes face a data desert issue, resulting from the time-consuming and expensive collecting process of 3D scene data. Conversely, 3D shape datasets are easier to collect. Despite this, existing pre-training strategies on shape data offer limited potential for 3D scene understanding due to significant disparities in point quantities. To tackle these challenges, we propose Shape2Scene (S2S), a novel method that learns representations of large-scale 3D scenes from 3D shape data. We first design multiscale and high-resolution backbones for shape and scene level 3D tasks, i.e., MH-P (point-based) and MH-V (voxel-based). MH-P/V establishes direct paths to highresolution features that capture deep semantic information across multiple scales. This pivotal nature makes them suitable for a wide range of 3D downstream tasks that tightly rely on high-resolution features. We then employ a Shape-to-Scene strategy (S2SS) to amalgamate points from various shapes, creating a random pseudo scene (comprising multiple objects) for training data, mitigating disparities between shapes and scenes. Finally, a point-point contrastive loss (PPC) is applied for the pre-training of MH-P/V. In PPC, the inherent correspondence (i.e., point pairs) is naturally obtained in S2SS. Extensive experiments have demonstrated the transferability of 3D representations learned by MH-P/V across shape-level and scene-level 3D tasks. MH-P achieves notable performance on well-known point cloud datasets (93.8% OA on ScanObjectNN and 87.6% instance mIoU on ShapeNetPart). MH-V also achieves promising performance in 3D semantic segmentation and 3D object detection. | 翻訳日:2024-07-16 19:09:07 公開日:2024-07-14 |
# 実世界のデータにおけるグラフアウトオブディストリビューション一般化の改善
Improving Graph Out-of-distribution Generalization on Real-world Data ( http://arxiv.org/abs/2407.10204v1 ) ライセンス: Link先を確認 | Can Xu, Yao Cheng, Jianxiang Yu, Haosen Wang, Jingsong Lv, Xiang Li, | (参考訳) 既存のグラフアウト・オブ・ディストリビューション(OOD)の一般化法は、主に合成データセットに関する経験的研究に依存している。
このようなアプローチは、不変部分グラフとラベルの間の因果関係を過度に強調し、現実のシナリオにおける環境の非無視的な役割を無視する傾向がある。
環境と不変部分グラフに厳密な独立性仮定を課す従来の研究とは対照的に, 前者はグラフラベル決定における環境の有用性を, 後者はグラフの有理性の重要性を論じる。
実世界データにおけるOODグラフの確率依存性と合理性」という新しい変分推論手法が提案されている。
未知の事前知識が環境や理性に与える影響を軽減するために、DEROGは一般化されたベイズ推論を利用する。
さらに、DROGは最適化のためにEMベースのアルゴリズムを採用している。
最後に、分散シフトの異なる実世界のデータセットに関する広範な実験を行い、DEROGの優位性を示す。
私たちのコードはhttps://anonymous.4open.science/r/DEROG-536Bで公開されています。
Existing methods for graph out-of-distribution (OOD) generalization primarily rely on empirical studies on synthetic datasets. Such approaches tend to overemphasize the causal relationships between invariant sub-graphs and labels, thereby neglecting the non-negligible role of environment in real-world scenarios. In contrast to previous studies that impose rigid independence assumptions on environments and invariant sub-graphs, this paper presents the theorems of environment-label dependency and mutable rationale invariance, where the former characterizes the usefulness of environments in determining graph labels while the latter refers to the mutable importance of graph rationales. Based on analytic investigations, a novel variational inference based method named ``Probability Dependency on Environments and Rationales for OOD Graphs on Real-world Data'' (DEROG) is introduced. To alleviate the adverse effect of unknown prior knowledge on environments and rationales, DEROG utilizes generalized Bayesian inference. Further, DEROG employs an EM-based algorithm for optimization. Finally, extensive experiments on real-world datasets under different distribution shifts are conducted to show the superiority of DEROG. Our code is publicly available at https://anonymous.4open.science/r/DEROG-536B. | 翻訳日:2024-07-16 19:09:07 公開日:2024-07-14 |
# グラディエント系ハミルトニアンモンテカルロによる並列アイシングアナーラー
Parallel Ising Annealer via Gradient-based Hamiltonian Monte Carlo ( http://arxiv.org/abs/2407.10205v1 ) ライセンス: Link先を確認 | Hao Wang, Zixuan Liu, Zhixin Xie, Langyu Li, Zibo Miao, Wei Cui, Yu Pan, | (参考訳) Ising annealerは、組合せ最適化問題に対する有望な量子インスパイアされたコンピューティングアーキテクチャである。
本稿では,ハミルトニアンモンテカルロに基づくイジングアニールを導入し,全次元の変数を並列に更新する。
主な革新は、近似勾配に基づくアプローチをIsingアニールに融合することであり、これは大きな加速を導入し、商用FPGA上でポータブルでスケーラブルな実装を可能にする。
包括的シミュレーションとハードウェア実験により、提案されたIsingアニールは、最先端のハードウェアを含む他のIsingアニールと比較して、あらゆるタイプのベンチマーク問題に対して、パフォーマンスとスケーラビリティを約束していることが示された。
特に,1つの低コストFPGA基板上で最大200スピンの整数係数と分数係数のIsing問題の解法を試作し,その性能は最先端の量子ハードウェアであるD-Wave 2000Qより優れており,高価なコヒーレントなIsingマシンと類似していることを示した。
アニーラーのサブ線形スケーラビリティは、組合せ最適化の問題に挑戦し、量子ハードウェアの利点を評価する可能性を示している。
Ising annealer is a promising quantum-inspired computing architecture for combinatorial optimization problems. In this paper, we introduce an Ising annealer based on the Hamiltonian Monte Carlo, which updates the variables of all dimensions in parallel. The main innovation is the fusion of an approximate gradient-based approach into the Ising annealer which introduces significant acceleration and allows a portable and scalable implementation on the commercial FPGA. Comprehensive simulation and hardware experiments show that the proposed Ising annealer has promising performance and scalability on all types of benchmark problems when compared to other Ising annealers including the state-of-the-art hardware. In particular, we have built a prototype annealer which solves Ising problems of both integer and fraction coefficients with up to 200 spins on a single low-cost FPGA board, whose performance is demonstrated to be better than the state-of-the-art quantum hardware D-Wave 2000Q and similar to the expensive coherent Ising machine. The sub-linear scalability of the annealer signifies its potential in solving challenging combinatorial optimization problems and evaluating the advantage of quantum hardware. | 翻訳日:2024-07-16 19:09:07 公開日:2024-07-14 |
# 系統ネットワークによる支配的設計予測
Dominant Design Prediction with Phylogenetic Networks ( http://arxiv.org/abs/2407.10206v1 ) ライセンス: Link先を確認 | Youwei He, Jeong-Dong Lee, Dawoon Jeong, Sungjun Choi, Jiyong Kim, | (参考訳) 本研究では進化的観点から技術開発を予測する効果的な手法を提案する。
製品進化は、技術進化と市場選択の結果である。
系統ネットワークは、製品進化を研究する主要な方法である。
支配的なデザインの形成は、技術開発の軌跡を決定する。
将来の支配的な設計を予測する方法は、技術予測と新製品開発において重要な問題となっている。
我々は、支配的な製品を定義し、製品進化理論と組み合わせて機械学習手法を用いて、将来の支配的な設計を効果的に予測する完全連結系統ネットワークデータセットを構築する。
This study proposes an effective method to predict technology development from an evolutionary perspective. Product evolution is the result of technological evolution and market selection. A phylogenetic network is the main method to study product evolution. The formation of the dominant design determines the trajectory of technology development. How to predict future dominant design has become a key issue in technology forecasting and new product development. We define the dominant product and use machine learning methods, combined with product evolutionary theory, to construct a Fully Connected Phylogenetic Network dataset to effectively predict the future dominant design. | 翻訳日:2024-07-16 19:09:07 公開日:2024-07-14 |
# モデル不確かさ下におけるマルコフエージェントの学習
Learning to Steer Markovian Agents under Model Uncertainty ( http://arxiv.org/abs/2407.10207v1 ) ライセンス: Link先を確認 | Jiawei Huang, Vinzenz Thoma, Zebang Shen, Heinrich H. Nax, Niao He, | (参考訳) 適応する人口のためのインセンティブを設計することは、幅広い経済応用において、そしてそれ以上の領域において、ユビキタスな問題である。
本研究では,エージェントの基盤となる学習力学の事前知識に基づいて,マルチエージェントシステムに対して,望ましいポリシーであるemph{without}に向けて,新たな報酬を設計する方法について検討する。
ステアリング問題に対して,モデルに基づく非エポゾディック強化学習(RL)の定式化を導入する。
重要なことは、エージェントの学習力学に関する本質的なモデルの不確実性を扱うために、emph{history-dependent} ステアリング戦略を学習することに焦点を当てている。
適切なコストで良好なステアリング結果を達成するためのデシダラタを符号化する新たな客観的機能を導入する。
理論的には,所望の政策にエージェントを誘導するステアリング戦略の存在条件を特定する。
理論的な貢献を補完し,我々の目的を概ね解くための経験的アルゴリズムを提供し,歴史に依存した戦略を学習する上での課題に効果的に取り組む。
経験的評価により,アルゴリズムの有効性を実証する。
Designing incentives for an adapting population is a ubiquitous problem in a wide array of economic applications and beyond. In this work, we study how to design additional rewards to steer multi-agent systems towards desired policies \emph{without} prior knowledge of the agents' underlying learning dynamics. We introduce a model-based non-episodic Reinforcement Learning (RL) formulation for our steering problem. Importantly, we focus on learning a \emph{history-dependent} steering strategy to handle the inherent model uncertainty about the agents' learning dynamics. We introduce a novel objective function to encode the desiderata of achieving a good steering outcome with reasonable cost. Theoretically, we identify conditions for the existence of steering strategies to guide agents to the desired policies. Complementing our theoretical contributions, we provide empirical algorithms to approximately solve our objective, which effectively tackles the challenge in learning history-dependent strategies. We demonstrate the efficacy of our algorithms through empirical evaluations. | 翻訳日:2024-07-16 18:59:20 公開日:2024-07-14 |
# 変形可能な画像登録のためのベクトル場アテンション
Vector Field Attention for Deformable Image Registration ( http://arxiv.org/abs/2407.10209v1 ) ライセンス: Link先を確認 | Yihao Liu, Junyu Chen, Lianrui Zuo, Aaron Carass, Jerry L. Prince, | (参考訳) 変形可能な画像登録は、固定画像と移動画像の間の非線形空間対応を確立する。
ディープラーニングに基づく変形可能な登録法は、従来のアルゴリズムよりも高速で精度が良いため、近年広く研究されている。
既存のディープラーニングベースのほとんどの手法では、ニューラルネットワークが特徴マップの位置情報を符号化し、これらの高次元特徴マップから畳み込み層や完全に連結した層で、変位や変形の場を予測する必要がある。
本稿では、位置対応の直接検索を可能にすることにより、既存のネットワーク設計の効率を高める新しいフレームワークであるベクトル場注意(VFA)を提案する。
VFAはニューラルネットワークを用いて、固定画像と移動画像から多重解像度の特徴マップを抽出し、特徴の類似性に基づいてピクセルレベルの対応を検索する。
検索は、学習可能なパラメータを必要とせずに、新しいアテンションモジュールによって達成される。
VFAは、教師なしまたは教師なしの方法でエンドツーエンドで訓練される。
我々は,モダリティ内およびモダリティ間登録のためのVFAと,公開データセットを用いた教師なしおよび半教師なし登録のためのVFAを評価し,Learner2Regチャレンジで評価した。
実験の結果,既存の方法と比較して,VFAの性能は優れていた。
VFAのソースコードはhttps://github.com/yihao6/vfa/で公開されている。
Deformable image registration establishes non-linear spatial correspondences between fixed and moving images. Deep learning-based deformable registration methods have been widely studied in recent years due to their speed advantage over traditional algorithms as well as their better accuracy. Most existing deep learning-based methods require neural networks to encode location information in their feature maps and predict displacement or deformation fields though convolutional or fully connected layers from these high-dimensional feature maps. In this work, we present Vector Field Attention (VFA), a novel framework that enhances the efficiency of the existing network design by enabling direct retrieval of location correspondences. VFA uses neural networks to extract multi-resolution feature maps from the fixed and moving images and then retrieves pixel-level correspondences based on feature similarity. The retrieval is achieved with a novel attention module without the need of learnable parameters. VFA is trained end-to-end in either a supervised or unsupervised manner. We evaluated VFA for intra- and inter-modality registration and for unsupervised and semi-supervised registration using public datasets, and we also evaluated it on the Learn2Reg challenge. Experimental results demonstrate the superior performance of VFA compared to existing methods. The source code of VFA is publicly available at https://github.com/yihao6/vfa/. | 翻訳日:2024-07-16 18:59:20 公開日:2024-07-14 |
# ファレイ列の最大平均誤差
Maximum mean discrepancies of Farey sequences ( http://arxiv.org/abs/2407.10214v1 ) ライセンス: Link先を確認 | Toni Karvonen, Anatoly Zhigljavsky, | (参考訳) ファレイ列の最大平均不一致の多項式収束率をリーマン予想と等価とする、正の半無限核の大規模なクラスを同定する。
このクラスは、少なくとも 1-半の順序のすべての Mat\'ern カーネルを含む。
We identify a large class of positive-semidefinite kernels for which a certain polynomial rate of convergence of maximum mean discrepancies of Farey sequences is equivalent to the Riemann hypothesis. This class includes all Mat\'ern kernels of order at least one-half. | 翻訳日:2024-07-16 18:59:20 公開日:2024-07-14 |
# PAFUSE:3次元全身電位推定のための部分拡散
PAFUSE: Part-based Diffusion for 3D Whole-Body Pose Estimation ( http://arxiv.org/abs/2407.10220v1 ) ライセンス: Link先を確認 | Nermin Samet, Cédric Rommel, David Picard, Eduardo Valle, | (参考訳) 身体の17大関節を顔と手の細かいキーポイントまで伸ばすという課題から, 体部位のスケール・変形性・変形性の課題に対処する, 3次元全体のポーズ推定のための新しいアプローチを提案する。
不均一なサンプルデータにおける動きの活用という課題に対処することに加えて、各部分(例えば顔)内の細粒度キーポイントの相対的な位置を、各部分の局所的な参照フレームに対して予測する階層的な部分表現に安定な拡散を組み合わす。
H3WBデータセットでは,時間情報の活用に失敗する現在の最先端の手法よりもはるかに優れています。
また, 身体部位の特異性を考慮しない他の時空間的3次元人体推定手法と比較して, かなりの改善が見られた。
コードはhttps://github.com/valeoai/PAFUSEで入手できる。
We introduce a novel approach for 3D whole-body pose estimation, addressing the challenge of scale- and deformability- variance across body parts brought by the challenge of extending the 17 major joints on the human body to fine-grained keypoints on the face and hands. In addition to addressing the challenge of exploiting motion in unevenly sampled data, we combine stable diffusion to a hierarchical part representation which predicts the relative locations of fine-grained keypoints within each part (e.g., face) with respect to the part's local reference frame. On the H3WB dataset, our method greatly outperforms the current state of the art, which fails to exploit the temporal information. We also show considerable improvements compared to other spatiotemporal 3D human-pose estimation approaches that fail to account for the body part specificities. Code is available at https://github.com/valeoai/PAFUSE. | 翻訳日:2024-07-16 18:59:20 公開日:2024-07-14 |
# 大規模言語モデルのための実践的アンラーニング
Practical Unlearning for Large Language Models ( http://arxiv.org/abs/2407.10223v1 ) ライセンス: Link先を確認 | Chongyang Gao, Lixu Wang, Chenkai Weng, Xiao Wang, Qi Zhu, | (参考訳) LLMは様々なドメインやタスクで素晴らしいパフォーマンスを示しているが、セキュリティ問題はますます深刻になっている。
マシン・アンラーニング(MU)は、目的モデルに対する望ましくないデータの影響を取り除き、他の面でその有用性を損なうことなく、これらの問題に対処するための有望なソリューションとして登場した。
MUは通常、LLMアンラーニングにおいて達成が難しいユーティリティを維持するために、元のトレーニングデータへの完全なアクセスを前提としている。
既存のLLMアンラーニング手法は、望ましくないデータアンラーニングに最も影響を受けるデータへのアクセスを前提としていることが多い。
しかし、この仮定は様々なLLM能力の絡み合いを過小評価し、様々な問題によるデータアクセス制限を無視している。
さらに、これらのLLMアンラーニング手法は、現実世界のシナリオにおけるアンラーニング要求が継続的に発生していると十分に考えていない。
これらの課題を克服し、実用的なLLMアンラーニングを実現するために、我々はO3フレームワークを提案する。
O3フレームワークは、入力データと未学習データの類似性を計測するout-Of-Distribution (OOD)検出器と、継続的な未学習データに対するOrthogonal Low-rank Adapter (LoRA)を含む。
OOD検出器は、新しい対照的なエントロピー損失で訓練され、局所的な球状層凝集型スコアリング機構を利用する。
直交LoRAは連続的未学習要求間のパラメータ非絡み合いを実現する。
推論中、私たちのO3フレームワークは、OOD検出器の予測に基づいて、未学習のLoRAをどの程度ロードするかをスマートに決定できます。
特に、O3の有効性は保持されたデータに依存しない。
我々は3つのタスクと7つのデータセットにわたるO3および最先端のLLMアンラーニング手法について広範な実験を行った。
その結果,O3は非学習の有効性と実用性,特に継続的な非学習要求に直面する場合の最良のトレードオフを一貫して達成していることがわかった。
While LLMs have demonstrated impressive performance across various domains and tasks, their security issues have become increasingly severe. Machine unlearning (MU) has emerged as a promising solution to address these issues by removing the influence of undesired data on the target model without compromising its utility in other aspects. MU typically assumes full access to the original training data to preserve utility, which is difficult to achieve in LLM unlearning. Existing LLM unlearning methods often assume access to data most affected by undesired data unlearning. However, this assumption underestimates the entanglement among various LLM capabilities and ignores data access limitations due to various issues. Moreover, these LLM unlearning methods do not sufficiently consider that unlearning requests in real-world scenarios are continuously emerging. To overcome these challenges and achieve practical LLM unlearning, we propose the O3 framework. The O3 framework includes an Out-Of-Distribution (OOD) detector to measure the similarity between input and unlearning data, and an Orthogonal low-rank adapter (LoRA) for continuously unlearning requested data. The OOD detector is trained with a novel contrastive entropy loss and utilizes a local-global layer-aggregated scoring mechanism. The orthogonal LoRA achieves parameter disentanglement among continual unlearning requests. During inference, our O3 framework can smartly decide whether and to what extent to load the unlearning LoRA based on the OOD detector's predictions. Notably, O3's effectiveness does not rely on any retained data. We conducted extensive experiments on O3 and state-of-the-art LLM unlearning methods across three tasks and seven datasets. The results indicate that O3 consistently achieves the best trade-off between unlearning effectiveness and utility preservation, especially when facing continuous unlearning requests. | 翻訳日:2024-07-16 18:59:20 公開日:2024-07-14 |
# ドメインの相違に対処する: 教師なしのデハージングのための二重ブランチ協調モデル
Addressing Domain Discrepancy: A Dual-branch Collaborative Model to Unsupervised Dehazing ( http://arxiv.org/abs/2407.10226v1 ) ライセンス: Link先を確認 | Shuaibin Fan, Minglong Xue, Aoxiang Ning, Senming Zhong, | (参考訳) 合成データは、画像デハージングタスクにおける取得課題を軽減することができるが、小規模データを扱う際のドメインバイアスの問題も導入する。
本稿では、この問題に対処する新しい二分岐協調脱ハージングモデル(DCM-dehaze)を提案する。
提案手法は,デハジングと輪郭制約という2つの協調枝から構成される。
具体的には,深部特徴の情報表現性と浅部特徴との相関性を高めるために,DDSCM (Dual Deepwise Separable Convolutional Module) を設計する。
さらに、画像のエッジ特徴を最適化し、画像の明瞭度と忠実度を高めるために、双方向の輪郭関数を構築した。
さらに、デハージングプロセスの冗長な特徴を排除し、ドメインの偏りを緩和するために、高密度なアーキテクチャを介して特徴増強器を提案する。
ベンチマークデータセットの大規模な実験は、我々の手法が最先端に到達していることを示している。
このプロジェクトのコードは \url{https://github.com/Fan-pixel/DCM-dehaze.com で公開される。
Although synthetic data can alleviate acquisition challenges in image dehazing tasks, it also introduces the problem of domain bias when dealing with small-scale data. This paper proposes a novel dual-branch collaborative unpaired dehazing model (DCM-dehaze) to address this issue. The proposed method consists of two collaborative branches: dehazing and contour constraints. Specifically, we design a dual depthwise separable convolutional module (DDSCM) to enhance the information expressiveness of deeper features and the correlation to shallow features. In addition, we construct a bidirectional contour function to optimize the edge features of the image to enhance the clarity and fidelity of the image details. Furthermore, we present feature enhancers via a residual dense architecture to eliminate redundant features of the dehazing process and further alleviate the domain deviation problem. Extensive experiments on benchmark datasets show that our method reaches the state-of-the-art. This project code will be available at \url{https://github.com/Fan-pixel/DCM-dehaze. | 翻訳日:2024-07-16 18:59:20 公開日:2024-07-14 |
# KAT: 大規模言語モデルによる依存性を意識したAPIテスト
KAT: Dependency-aware Automated API Testing with Large Language Models ( http://arxiv.org/abs/2407.10227v1 ) ライセンス: Link先を確認 | Tri Le, Thien Tran, Duy Cao, Vy Le, Tien Nguyen, Vu Nguyen, | (参考訳) APIテストは、ソフトウェア企業に対する需要が増えている。
以前のAPIテストツールは、操作とパラメータを簡潔にする必要がある依存関係の種類を認識していた。
しかし、主に手動やヒューリスティックベースのアルゴリズムを使って行われるアプローチは、これらの依存関係の複雑さのために制限がある。
本稿では,KAT(Katalon API Testing)について紹介する。これは,大規模言語モデルGPTと,テストケースを自律的に生成してRESTful APIを検証する高度なプロンプト技術を組み合わせた,新たなAI駆動型アプローチである。
我々の包括的な戦略は、OpenAPI仕様からオペレーション依存グラフを構築し、テストスクリプト、制約検証スクリプト、テストケース、テストデータを生成する様々なプロセスを含みます。
12の実際のRESTfulサービスを用いたKATの評価は、テストカバレッジを改善し、文書化されていないステータスコードを検出し、最先端の自動テスト生成ツールと比較して、これらのサービスの偽陽性を低減できることを示している。
これらの結果から,大規模な言語モデルを用いたテストスクリプトとデータ生成の有効性が示唆された。
API testing has increasing demands for software companies. Prior API testing tools were aware of certain types of dependencies that needed to be concise between operations and parameters. However, their approaches, which are mostly done manually or using heuristic-based algorithms, have limitations due to the complexity of these dependencies. In this paper, we present KAT (Katalon API Testing), a novel AI-driven approach that leverages the large language model GPT in conjunction with advanced prompting techniques to autonomously generate test cases to validate RESTful APIs. Our comprehensive strategy encompasses various processes to construct an operation dependency graph from an OpenAPI specification and to generate test scripts, constraint validation scripts, test cases, and test data. Our evaluation of KAT using 12 real-world RESTful services shows that it can improve test coverage, detect more undocumented status codes, and reduce false positives in these services in comparison with a state-of-the-art automated test generation tool. These results indicate the effectiveness of using the large language model for generating test scripts and data for API testing. | 翻訳日:2024-07-16 18:59:20 公開日:2024-07-14 |
# 組込みシステムにおける効率的な顔のランドマーク検出
Efficient Facial Landmark Detection for Embedded Systems ( http://arxiv.org/abs/2407.10228v1 ) ライセンス: Link先を確認 | Ji-Jia Wu, | (参考訳) 本稿では、電力消費と時間遅延に関する課題に直面するエッジデバイス向けに特別に設計された、効率的な顔画像位置検出(EFLD)モデルを提案する。
EFLDは軽量のバックボーンとフレキシブルな検出ヘッドを備えており、それぞれがリソース制約されたデバイスの運用効率を大幅に向上する。
モデルの堅牢性を改善するために,クロスフォーマットトレーニング戦略を提案する。
この戦略は、さまざまな公開データセットを活用して、推論コストを増大させることなく、モデルの一般化性と堅牢性を高める。
我々のアブレーション研究は、各コンポーネントが計算要求の削減、モデルサイズ、精度の向上に大きく影響していることを強調している。
EFLD は IEEE ICME 2024 Grand Challenges PAIR コンペティション において、組み込みシステムに対する低消費電力で効率的で正確な顔ランドマーク検出に焦点を当てたコンペティションで、実際の顔ランドマーク検出タスクでの有効性を示している。
This paper introduces the Efficient Facial Landmark Detection (EFLD) model, specifically designed for edge devices confronted with the challenges related to power consumption and time latency. EFLD features a lightweight backbone and a flexible detection head, each significantly enhancing operational efficiency on resource-constrained devices. To improve the model's robustness, we propose a cross-format training strategy. This strategy leverages a wide variety of publicly accessible datasets to enhance the model's generalizability and robustness, without increasing inference costs. Our ablation study highlights the significant impact of each component on reducing computational demands, model size, and improving accuracy. EFLD demonstrates superior performance compared to competitors in the IEEE ICME 2024 Grand Challenges PAIR Competition, a contest focused on low-power, efficient, and accurate facial-landmark detection for embedded systems, showcasing its effectiveness in real-world facial landmark detection tasks. | 翻訳日:2024-07-16 18:59:20 公開日:2024-07-14 |
# コンフォーマルスコアの重み付けによる分類
Weighted Aggregation of Conformity Scores for Classification ( http://arxiv.org/abs/2407.10230v1 ) ライセンス: Link先を確認 | Rui Luo, Zhixin Zhou, | (参考訳) コンフォーマル予測は、マルチクラス分類において有効なカバレッジ保証を備えた予測セットを構築するための強力なフレームワークである。
しかし、既存の手法はしばしば単一のスコア関数に依存しており、効率と情報性を制限することができる。
本稿では,複数のスコア関数を組み合わせることで,予測セットサイズを最小化する最適な重みを特定することにより,共形予測器の性能を向上させる手法を提案する。
我々の理論解析は、重み付きスコア関数とVapnik-Chervonenkis理論で研究された関数のサブグラフクラスとの関係を確立し、提案手法の有効性を理解するための厳密な数学的基礎を提供する。
実験により,本手法は単一スコアの共形予測器よりも有効範囲を維持しつつ一貫した性能を示し,分類タスクにおける共形予測の効率性と実用性を高めるためのデータ駆動方式を提供する。
Conformal prediction is a powerful framework for constructing prediction sets with valid coverage guarantees in multi-class classification. However, existing methods often rely on a single score function, which can limit their efficiency and informativeness. We propose a novel approach that combines multiple score functions to improve the performance of conformal predictors by identifying optimal weights that minimize prediction set size. Our theoretical analysis establishes a connection between the weighted score functions and subgraph classes of functions studied in Vapnik-Chervonenkis theory, providing a rigorous mathematical basis for understanding the effectiveness of the proposed method. Experiments demonstrate that our approach consistently outperforms single-score conformal predictors while maintaining valid coverage, offering a principled and data-driven way to enhance the efficiency and practicality of conformal prediction in classification tasks. | 翻訳日:2024-07-16 18:59:20 公開日:2024-07-14 |
# 光子三重項源の共起検出
Coincidence detection for photon triplet sources ( http://arxiv.org/abs/2407.10231v1 ) ライセンス: Link先を確認 | Zijun Chen, Yeshaiahu Fainman, | (参考訳) 3次自発パラメトリックダウンコンバージョンに基づく光子三重項生成は実験的課題として残る。
この課題は、光源の明るさと楽器のノイズのトレードオフに起因している。
本研究は,ソースキャラクタリゼーションにおける検出限界に対処するために,一致検出の確率理論を提案する。
ベイズの定理を用いて、楽器を雑音の多い通信路としてモデル化し、統計的推論を適用して最小検出可能な一致率を同定する。
超伝導ナノワイヤ単光子検出器を用いた1-72時間以上の音源特性評価には、1-100Hzのトリプルト生成速度が必要である。
Photon triplet generation based on third-order spontaneous parametric down-conversion remains as an experimental challenge. The challenge stems from the trade-offs between source brightness and instrument noise. This work presents a probability theory of coincidence detection to address the detection limit in source characterization. We use Bayes' theorem to model instruments as a noisy communication channel and apply statistical inference to identify the minimum detectable coincidence rate. A triplet generation rate of 1-100 Hz is required for source characterization performed over 1-72 hours using superconducting nanowire single-photon detectors. | 翻訳日:2024-07-16 18:59:20 公開日:2024-07-14 |
# 文脈内学習セグメンテーションのためのビジュアルプロンプト選択
Visual Prompt Selection for In-Context Learning Segmentation ( http://arxiv.org/abs/2407.10233v1 ) ライセンス: Link先を確認 | Wei Suo, Lanqing Lai, Mengyang Sun, Hanwang Zhang, Peng Wang, Yanning Zhang, | (参考訳) コンピュータビジョンにおける基本的な研究課題として、画像セグメンテーションは、ピクセルレベルで異なる意味概念を特定し識別することを目的としている。
最近、In-Context Learning (ICL) に触発され、いくつかの汎用セグメンテーションフレームワークが提案され、特定のオブジェクトをセグメンテーションするための有望なパラダイムを提供している。
しかし、既存の作品は視覚的なプロンプトの価値を無視するか、文脈的な例を選択するために単純に類似性ソートを適用している。
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
総合的な比較により、まずICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
以上の知見に基づいて,ステップワイズなコンテキスト検索手法を提案する。
従来の研究と異なり、我々は小さいがリッチな候補プールを構築し、適合したコンテキストを適応的に探索する。
さらに、この手法は、検索空間をコンパクト化することにより、アノテーションのコストを効果的に削減する。
実験の結果,本手法は実例の選択とセグメンテーション性能の向上に有効な方法であることがわかった。
As a fundamental and extensively studied task in computer vision, image segmentation aims to locate and identify different semantic concepts at the pixel level. Recently, inspired by In-Context Learning (ICL), several generalist segmentation frameworks have been proposed, providing a promising paradigm for segmenting specific objects. However, existing works mostly ignore the value of visual prompts or simply apply similarity sorting to select contextual examples. In this paper, we focus on rethinking and improving the example selection strategy. By comprehensive comparisons, we first demonstrate that ICL-based segmentation models are sensitive to different contexts. Furthermore, empirical evidence indicates that the diversity of contextual prompts plays a crucial role in guiding segmentation. Based on the above insights, we propose a new stepwise context search method. Different from previous works, we construct a small yet rich candidate pool and adaptively search the well-matched contexts. More importantly, this method effectively reduces the annotation cost by compacting the search space. Extensive experiments show that our method is an effective strategy for selecting examples and enhancing segmentation performance. | 翻訳日:2024-07-16 18:59:20 公開日:2024-07-14 |
# リーマン多様体の学習による一般化低ランク行列センシングのパラメータ推定
Parameter Estimation for Generalized Low-Rank Matrix Sensing by Learning on Riemannian Manifolds ( http://arxiv.org/abs/2407.10238v1 ) ライセンス: Link先を確認 | Osbert Bastani, | (参考訳) 我々は、一般化された低ランク行列センシングの収束保証を証明している。
最適推定器の局所収束に着目し、最適化の問題を無視する。
特に、経験損失 $\theta^0$ の最小値が真のパラメータ $\theta^*$ の周りの定数サイズの球体にあると仮定すると、$d(\theta^0,\theta^*)=\tilde{O}(\sqrt{dk^2/n})$ が証明される。
我々の解析は、パラメータ空間の回転対称性を扱うためにリーマン幾何学のツールに依存している。
We prove convergence guarantees for generalized low-rank matrix sensing -- i.e., where matrix sensing where the observations may be passed through some nonlinear link function. We focus on local convergence of the optimal estimator, ignoring questions of optimization. In particular, assuming the minimizer of the empirical loss $\theta^0$ is in a constant size ball around the true parameters $\theta^*$, we prove that $d(\theta^0,\theta^*)=\tilde{O}(\sqrt{dk^2/n})$. Our analysis relies on tools from Riemannian geometry to handle the rotational symmetry in the parameter space. | 翻訳日:2024-07-16 18:59:20 公開日:2024-07-14 |
# xLSTMTime : xLSTMによる長期時系列予測
xLSTMTime : Long-term Time Series Forecasting With xLSTM ( http://arxiv.org/abs/2407.10240v1 ) ライセンス: Link先を確認 | Musleh Alharthi, Ausif Mahmood, | (参考訳) 近年,多変量時系列予測(LTSF)では,高い計算要求,時間的ダイナミックス獲得の難しさ,長期依存の管理といった課題に直面しつつも,大きな進歩をみせている。
LTSF-Linearの出現は、その直線的アーキテクチャによって明らかにトランスフォーマーベースのアーキテクチャよりも優れており、時系列予測におけるトランスフォーマーの有用性の再評価につながっている。
そこで本研究では,最近のアーキテクチャである拡張LSTM (xLSTM) をLTSFに適用した。
xLSTM には指数ゲーティングと、LTSF に有望な高容量のメモリ構造が組み込まれている。
LTSF に採用したアーキテクチャは xLSTMTime と呼ばれ、現在のアプローチを超越しています。
我々は、xLSTMTimeの性能を、複数の実世界のダ-タセットにわたる様々な最先端モデルと比較し、優れた予測能力を示す。
この結果から,改良されたリカレントアーキテクチャは,時系列予測のランドスケープを再定義するLTSFタスクにおいて,トランスフォーマーモデルに代わる競合的な代替手段を提供する可能性が示唆された。
In recent years, transformer-based models have gained prominence in multivariate long-term time series forecasting (LTSF), demonstrating significant advancements despite facing challenges such as high computational demands, difficulty in capturing temporal dynamics, and managing long-term dependencies. The emergence of LTSF-Linear, with its straightforward linear architecture, has notably outperformed transformer-based counterparts, prompting a reevaluation of the transformer's utility in time series forecasting. In response, this paper presents an adaptation of a recent architecture termed extended LSTM (xLSTM) for LTSF. xLSTM incorporates exponential gating and a revised memory structure with higher capacity that has good potential for LTSF. Our adopted architecture for LTSF termed as xLSTMTime surpasses current approaches. We compare xLSTMTime's performance against various state-of-the-art models across multiple real-world da-tasets, demonstrating superior forecasting capabilities. Our findings suggest that refined recurrent architectures can offer competitive alternatives to transformer-based models in LTSF tasks, po-tentially redefining the landscape of time series forecasting. | 翻訳日:2024-07-16 18:59:20 公開日:2024-07-14 |
# BiasAlert: LLMにおけるソーシャルバイアス検出のためのプラグイン・アンド・プレイツール
BiasAlert: A Plug-and-play Tool for Social Bias Detection in LLMs ( http://arxiv.org/abs/2407.10241v1 ) ライセンス: Link先を確認 | Zhiting Fan, Ruizhe Chen, Ruiling Xu, Zuozhu Liu, | (参考訳) 大規模言語モデル(LLM)のバイアスを評価することは、その急速な開発においてますます重要になっている。
しかし、既存の評価手法は固定形式の出力に依存しており、LLMの柔軟なオープンテキスト生成シナリオ(例:文補完と質問応答)に適応できない。
そこで本稿では,LLMのオープンテキスト世代における社会的バイアスを検出するためのプラグイン・アンド・プレイツールであるBiasAlertを紹介する。
BiasAlertは外部の人間の知識と固有の推論能力を統合し、バイアスを確実に検出する。
大規模な実験により、BiasAlertはGPT4-as-A-Judgeのような最先端の手法でバイアスを検出するのに優れていた。
さらに、アプリケーション研究を通じて、様々なシナリオにおける信頼性LLMバイアス評価とバイアス緩和におけるBiasAlertの有用性を実証する。
モデルとコードは公開されます。
Evaluating the bias in Large Language Models (LLMs) becomes increasingly crucial with their rapid development. However, existing evaluation methods rely on fixed-form outputs and cannot adapt to the flexible open-text generation scenarios of LLMs (e.g., sentence completion and question answering). To address this, we introduce BiasAlert, a plug-and-play tool designed to detect social bias in open-text generations of LLMs. BiasAlert integrates external human knowledge with inherent reasoning capabilities to detect bias reliably. Extensive experiments demonstrate that BiasAlert significantly outperforms existing state-of-the-art methods like GPT4-as-A-Judge in detecting bias. Furthermore, through application studies, we demonstrate the utility of BiasAlert in reliable LLM bias evaluation and bias mitigation across various scenarios. Model and code will be publicly released. | 翻訳日:2024-07-16 18:59:20 公開日:2024-07-14 |
# GenSco: 質問分解に基づくパスアライメントは質問回答を改善するか?
GenSco: Can Question Decomposition based Passage Alignment improve Question Answering? ( http://arxiv.org/abs/2407.10245v1 ) ライセンス: Link先を確認 | Barah Fazili, Koustava Goswami, Natwar Modani, Inderjeet Nair, | (参考訳) 質問回答 (QA) のための言語モデル (LLM) を持つ検索用拡張生成 (RAG) は、回答生成において LLM を促進するためにプロンプト内で関連するコンテキストを織り込む必要がある。
世代間、不正確さや幻覚は、プロンプトにおける不適切な文脈や不適切な状況、そしてLSMが事実を効果的に説明できないという2つの主要な要因によってしばしば起こる。
本稿では,複数ホップQAにおけるLLMによる応答生成の精度向上を図るため,適切に選択されたシーケンスシーケンスによるコンテキストの整合性の実現について検討する。
本稿では,マルチホップ質問の予測分解に基づく経路選択手法であるGenScoを紹介する。
フレームワークは2つの異なるLLMで構成されている。
一 質問分解及び最終回答生成に使用するジェネレータLSM
(ii)スコアーとして使用される補助オープンソースLPMは、通過選択のためにジェネレータを意味的に案内する。
ジェネレータは応答生成のために1回だけ呼び出され、費用対効果と効率のよいアプローチをもたらす。
2WikiMultiHop, Adversarial HotPotQA, MuSiQue の3つの広く確立されたマルチホップ質問応答データセットについて評価し, MuSiQue と 2WikiMultiHop に対する最高のパフォーマンスベースラインに関して,Exact Match スコアで 15.1$ と 5.9$ の絶対的なゲインを得た。
Retrieval augmented generation (RAG) with large language models (LLMs) for Question Answering (QA) entails furnishing relevant context within the prompt to facilitate the LLM in answer generation. During the generation, inaccuracies or hallucinations frequently occur due to two primary factors: inadequate or distracting context in the prompts, and the inability of LLMs to effectively reason through the facts. In this paper, we investigate whether providing aligned context via a carefully selected passage sequence leads to better answer generation by the LLM for multi-hop QA. We introduce, "GenSco", a novel approach of selecting passages based on the predicted decomposition of the multi-hop questions}. The framework consists of two distinct LLMs: (i) Generator LLM, which is used for question decomposition and final answer generation; (ii) an auxiliary open-sourced LLM, used as the scorer, to semantically guide the Generator for passage selection. The generator is invoked only once for the answer generation, resulting in a cost-effective and efficient approach. We evaluate on three broadly established multi-hop question answering datasets: 2WikiMultiHop, Adversarial HotPotQA and MuSiQue and achieve an absolute gain of $15.1$ and $5.9$ points in Exact Match score with respect to the best performing baselines over MuSiQue and 2WikiMultiHop respectively. | 翻訳日:2024-07-16 18:59:20 公開日:2024-07-14 |
# 急性リンパ性白血病の早期診断のためのディープラーニングアルゴリズム
Deep Learning Algorithms for Early Diagnosis of Acute Lymphoblastic Leukemia ( http://arxiv.org/abs/2407.10251v1 ) ライセンス: Link先を確認 | Dimitris Papaioannou, Ioannis Christou, Nikos Anagnou, Aristotelis Chatziioannou, | (参考訳) 急性リンパ性白血病(英語: acute lymphoblastic leukemia、ALL)は、白血球に影響を及ぼす血液がんの一種である。
ALLは小児がんの約25%を占める。
ALLの早期診断と治療は、患者の予後を改善するために不可欠である。
顕微鏡下で正常な細胞から未熟な白血病細胞を識別する作業は、健康な細胞や癌細胞の画像が形態的に類似しているため、困難である。
本研究では,ALの診断過程を支援するバイナリ画像分類モデルを提案する。
本モデルでは, 血液サンプルの入力顕微鏡画像として, 試料が正常か癌かの2値予測を出力する。
このデータセットは118名の被験者から10661名の画像で構成されている。
畳み込みニューラルネットワークアーキテクチャの深層学習技術を用いて正確な分類結果を得た。
提案法は94.3%の精度を達成し, 血液科医がALを発症する可能性を予測するための補助具として有用であった。
Acute lymphoblastic leukemia (ALL) is a form of blood cancer that affects the white blood cells. ALL constitutes approximately 25% of pediatric cancers. Early diagnosis and treatment of ALL are crucial for improving patient outcomes. The task of identifying immature leukemic blasts from normal cells under the microscope can prove challenging, since the images of a healthy and cancerous cell appear similar morphologically. In this study, we propose a binary image classification model to assist in the diagnostic process of ALL. Our model takes as input microscopic images of blood samples and outputs a binary prediction of whether the sample is normal or cancerous. Our dataset consists of 10661 images out of 118 subjects. Deep learning techniques on convolutional neural network architectures were used to achieve accurate classification results. Our proposed method achieved 94.3% accuracy and could be used as an assisting tool for hematologists trying to predict the likelihood of a patient developing ALL. | 翻訳日:2024-07-16 18:49:26 公開日:2024-07-14 |
# CheckThat! 2024:多言語テキストシーケンスから主観性を同定する
Nullpointer at CheckThat! 2024: Identifying Subjectivity from Multilingual Text Sequence ( http://arxiv.org/abs/2407.10252v1 ) ライセンス: Link先を確認 | Md. Rafiul Biswas, Abrar Tasneem Abir, Wajdi Zaghouani, | (参考訳) 本研究は、文または段落のテキストシーケンスが主観的か客観的かを決定するために、二分分類タスクに対処する。
タスクはアラビア語、ブルガリア語、英語、ドイツ語、イタリア語の5つの言語にまたがる。
私たちのアプローチには、いくつかの重要なテクニックが含まれました。
当初は,音声(POS)タグ付け,質問マークの識別,アテンションマスクの適用などを通じて事前処理を行った。
感情に基づくトランスフォーマーモデルであるMarieAngeA13/Sentiment-Analysis-BERTをデータセット上で微調整した。
より客観的なデータとの不均衡を考慮し、目的データに重みを割り当てるカスタム分類器を実装した。
さらに、データセット全体の一貫性を維持するために、非英語データを英語に翻訳しました。
その結果,多言語データセット (Macro F1=0.7121) とドイツ語 (Macro F1=0.7908) のスコアが得られた。
アラビア語(Macro F1=0.4908)とブルガリア語(Macro F1=0.7169)で第2位、イタリア語(Macro F1=0.7430)で第3位、英語(Macro F1=0.6893)で第9位である。
This study addresses a binary classification task to determine whether a text sequence, either a sentence or paragraph, is subjective or objective. The task spans five languages: Arabic, Bulgarian, English, German, and Italian, along with a multilingual category. Our approach involved several key techniques. Initially, we preprocessed the data through parts of speech (POS) tagging, identification of question marks, and application of attention masks. We fine-tuned the sentiment-based Transformer model 'MarieAngeA13/Sentiment-Analysis-BERT' on our dataset. Given the imbalance with more objective data, we implemented a custom classifier that assigned greater weight to objective data. Additionally, we translated non-English data into English to maintain consistency across the dataset. Our model achieved notable results, scoring top marks for the multilingual dataset (Macro F1=0.7121) and German (Macro F1=0.7908). It ranked second for Arabic (Macro F1=0.4908) and Bulgarian (Macro F1=0.7169), third for Italian (Macro F1=0.7430), and ninth for English (Macro F1=0.6893). | 翻訳日:2024-07-16 18:49:26 公開日:2024-07-14 |
# 大陸性渡り鳥の詳細なハイブリッドモデルの構築に向けて
Towards detailed and interpretable hybrid modeling of continental-scale bird migration ( http://arxiv.org/abs/2407.10259v1 ) ライセンス: Link先を確認 | Fiona Lippert, Bart Kranstauber, Patrick Forré, E. Emiel van Loon, | (参考訳) ハイブリッドモデリングは、未知のパラメータ、サブモデル、データからの修正項を学習する機械学習コンポーネントで、従来の理論駆動モデルを強化することを目的としている。
本研究では,近年開発された大陸規模の鳥類移動のハイブリッドモデルであるFluxRGNNを構築し,流体力学にインスパイアされた運動モデルと,鳥の複雑な意思決定過程を捉えるリカレントニューラルネットワークを組み合わせた。
FluxRGNNは、重要なマイグレーションパターンの予測に成功しているが、その空間分解能は、気象レーダーから得られる典型的なスパース観測によって制限されている。
さらに、トレーニング可能なコンポーネントには、離陸および着陸イベントを適切に予測するための明確なインセンティブが欠如している。
どちらの側面も、モデル結果を生態学的に解釈する能力を制限する。
そこで本研究では,モデルコンポーネントの解釈可能性の制御を提供しながら,望まれるテッセル化に関するより詳細な予測を可能にする2つの大きな修正を提案する。
アメリカの気象レーダーネットワークの実験において、強化されたモデルは基盤となる運動モデルを有効に活用し、観測されていない場所に強い外挿能力をもたらす。
Hybrid modeling aims to augment traditional theory-driven models with machine learning components that learn unknown parameters, sub-models or correction terms from data. In this work, we build on FluxRGNN, a recently developed hybrid model of continental-scale bird migration, which combines a movement model inspired by fluid dynamics with recurrent neural networks that capture the complex decision-making processes of birds. While FluxRGNN has been shown to successfully predict key migration patterns, its spatial resolution is constrained by the typically sparse observations obtained from weather radars. Additionally, its trainable components lack explicit incentives to adequately predict take-off and landing events. Both aspects limit our ability to interpret model results ecologically. To address this, we propose two major modifications that allow for more detailed predictions on any desired tessellation while providing control over the interpretability of model components. In experiments on the U.S. weather radar network, the enhanced model effectively leverages the underlying movement model, resulting in strong extrapolation capabilities to unobserved locations. | 翻訳日:2024-07-16 18:49:26 公開日:2024-07-14 |
# 安全ファインチューニングの作り方と壊し方 : メカニカルスタディ
What Makes and Breaks Safety Fine-tuning? Mechanistic Study ( http://arxiv.org/abs/2407.10264v1 ) ライセンス: Link先を確認 | Samyak Jain, Ekdeep Singh Lubana, Kemal Oksuz, Tom Joy, Philip H. S. Torr, Amartya Sanyal, Puneet K. Dokania, | (参考訳) 安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
モデルが実行するタスク間の相互作用(例: 'Design''')をモデル化し、タスクの実行を要求される特定の概念(例: ‘‘cycle'' 対 ‘bomb''' 対 ‘bomb''')に対して、モデルが実行するタスク間の相互作用をモデル化することにより、安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて、教師付き安全微調整、直接選好最適化、未学習の3つの有名な安全微調整手法を調査し、これらの手法がMDP重みを最小限に変換し、安全でない入力をその重みのnull空間に具体的に整合させることを示す重要な証拠を提供する。
これにより、モデルがそれらを安全とみなすかどうかに基づいて、入力のクラスタリングが生成される。
それに対応して、敵入力(例えばジェイルブレイク)が提供されると、その活性化はより安全なサンプルに近づき、安全であるかのように入力などのモデル処理が行われる。
実世界のモデル、特にLlama-2 7BとLlama-3 8Bでこの結果を検証する。
Safety fine-tuning helps align Large Language Models (LLMs) with human preferences for their safe deployment. To better understand the underlying factors that make models safe via safety fine-tuning, we design a synthetic data generation framework that captures salient aspects of an unsafe input by modeling the interaction between the task the model is asked to perform (e.g., ``design'') versus the specific concepts the task is asked to be performed upon (e.g., a ``cycle'' vs. a ``bomb''). Using this, we investigate three well-known safety fine-tuning methods -- supervised safety fine-tuning, direct preference optimization, and unlearning -- and provide significant evidence demonstrating that these methods minimally transform MLP weights to specifically align unsafe inputs into its weights' null space. This yields a clustering of inputs based on whether the model deems them safe or not. Correspondingly, when an adversarial input (e.g., a jailbreak) is provided, its activations are closer to safer samples, leading to the model processing such an input as if it were safe. We validate our findings, wherever possible, on real-world models -- specifically, Llama-2 7B and Llama-3 8B. | 翻訳日:2024-07-16 18:49:26 公開日:2024-07-14 |
# psifx -- 心理的・社会的相互作用の特徴抽出パッケージ
psifx -- Psychological and Social Interactions Feature Extraction Package ( http://arxiv.org/abs/2407.10266v1 ) ライセンス: Link先を確認 | Guillaume Rochette, Matthew J. Vowels, | (参考訳) psifxはプラグアンドプレイのマルチモーダル特徴抽出ツールキットで、最先端の機械学習技術を人間の科学研究に活用し、民主化することを目的としている。
それは要求によって動機付けられています
(a) 音声及び映像ソースからの行動変化の転写又は符号化等、高価で長くて一貫性のない人的労働を伴わない、データアノテーションプロセスの自動化及び標準化
b)オープンソースコミュニティ主導の心理学研究ソフトウェアの開発と配布
(c) 非エキスパートユーザへの大規模アクセスと使いやすさを実現する。
このフレームワークには、スピーカーダイアリゼーション、クローズドキャプションの書き起こし、音声からの翻訳、身体、手、顔のポーズ推定、ビデオからの視線追跡といったタスクのための一連のツールが含まれている。
このパッケージはモジュール的でタスク指向のアプローチで設計されており、コミュニティが新しいツールを容易に追加したり、更新したりすることができる。
このパッケージは、心理学者に音声やビデオから音声、言語、視覚的特徴を効率よく提供し、リアルタイムの行動現象を深く研究する新たな機会を生み出すことを強く願っている。
psifx is a plug-and-play multi-modal feature extraction toolkit, aiming to facilitate and democratize the use of state-of-the-art machine learning techniques for human sciences research. It is motivated by a need (a) to automate and standardize data annotation processes, otherwise involving expensive, lengthy, and inconsistent human labor, such as the transcription or coding of behavior changes from audio and video sources; (b) to develop and distribute open-source community-driven psychology research software; and (c) to enable large-scale access and ease of use to non-expert users. The framework contains an array of tools for tasks, such as speaker diarization, closed-caption transcription and translation from audio, as well as body, hand, and facial pose estimation and gaze tracking from video. The package has been designed with a modular and task-oriented approach, enabling the community to add or update new tools easily. We strongly hope that this package will provide psychologists a simple and practical solution for efficiently a range of audio, linguistic, and visual features from audio and video, thereby creating new opportunities for in-depth study of real-time behavioral phenomena. | 翻訳日:2024-07-16 18:49:26 公開日:2024-07-14 |
# RS-NeRF:ローリングシャッター画像からのニューラル放射場
RS-NeRF: Neural Radiance Fields from Rolling Shutter Images ( http://arxiv.org/abs/2407.10267v1 ) ライセンス: Link先を確認 | Muyao Niu, Tong Chen, Yifan Zhan, Zhuoxiao Li, Xiang Ji, Yinqiang Zheng, | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しいビュー・シンセサイザーの優れた能力によって、ますます人気が高まっている。
しかしながら、その効果は、ほとんどのカメラシステムで一般的に見られるローリングシャッター(RS)効果によって妨げられる。
そこで本研究では,RS歪みのある入力を用いて,新しいビューから通常の画像を合成する手法であるRS-NeRFを提案する。
これは、RS条件下で画像形成プロセスを再現し、各画像行に対してNeRFパラメータとカメラ外在性を共同最適化する物理モデルを含む。
さらに,基本RS-NeRFモデルの本質的な欠点を,RS特性を掘り下げ,その機能を強化するアルゴリズムを開発することで解決する。
まず,従来のカメラの動きに合わせて,軌道の推定と合成品質の向上のためにスムーズな正則化を課す。
マルチサンプリングアルゴリズムを導入することにより,バニラRSモデルの根本的な欠陥を特定し,対処する。
この新しいアプローチでは、中間カメラのポーズごとに異なる行にまたがるRGBデータを包括的に活用することで、モデルの性能を向上させる。
厳密な実験を通じて、RS-NeRFは合成シナリオと実世界のシナリオの両方において従来の手法を超越し、RS関連歪みを効果的に補正する能力を示す。
コードとデータが利用可能:https://github.com/MyNiuuu/RS-NeRF
Neural Radiance Fields (NeRFs) have become increasingly popular because of their impressive ability for novel view synthesis. However, their effectiveness is hindered by the Rolling Shutter (RS) effects commonly found in most camera systems. To solve this, we present RS-NeRF, a method designed to synthesize normal images from novel views using input with RS distortions. This involves a physical model that replicates the image formation process under RS conditions and jointly optimizes NeRF parameters and camera extrinsic for each image row. We further address the inherent shortcomings of the basic RS-NeRF model by delving into the RS characteristics and developing algorithms to enhance its functionality. First, we impose a smoothness regularization to better estimate trajectories and improve the synthesis quality, in line with the camera movement prior. We also identify and address a fundamental flaw in the vanilla RS model by introducing a multi-sampling algorithm. This new approach improves the model's performance by comprehensively exploiting the RGB data across different rows for each intermediate camera pose. Through rigorous experimentation, we demonstrate that RS-NeRF surpasses previous methods in both synthetic and real-world scenarios, proving its ability to correct RS-related distortions effectively. Codes and data available: https://github.com/MyNiuuu/RS-NeRF | 翻訳日:2024-07-16 18:49:26 公開日:2024-07-14 |
# 境界線からのホログラフィックコードの構築
Building holographic code from the boundary ( http://arxiv.org/abs/2407.10271v1 ) ライセンス: Link先を確認 | Wei Wang, | (参考訳) AdS/CFT対応のために仮説化された量子情報構造であるホログラフィック量子誤り訂正符号は、量子重力と量子シミュレーションの研究に関連する新しい方向において注目されている。
本研究では,より広範かつ学際的な文脈で一般的に適用可能なホログラフィックコード構築のための新しいアプローチを開始する。
提案手法は,バルクテンソル・ネットワークに基づく従来のパラダイムへの"オポポジト"な経路を取る。
正確なモデルで示されるように、我々は簡潔な量子回路シミュレーションをガイドできる境界量子ドットのスケーラブルな記述から始まり、バルク量子ビットと符号化構造が境界エンタングルメントパターンからどのように出現するかを厳密に示す。
絡み合いパターンを解析することにより,定式化モデルではまだ証明されていない所望の特性を示す演算子-代数量子誤差補正の形式論において,バルク再構成の仮説構造と龍高柳式の詳細を体系的に展開する。
我々の研究はホログラフィックコードの研究に新たな視点を与えるかもしれない。
Holographic quantum error-correcting code, the quantum-information structure hypothesized for the AdS/CFT correspondence, has being attracting increasing attention in new directions interrelating the studies of quantum gravity and quantum simulation. In this work, we initiate a novel approach for building holographic code that can be generally applied in potentially broad and interdisciplinary contexts. Our approach takes an "opposite" route to the conventional paradigm that is based on bulk tensor-networks. As illustrated in an exact model, we start from scalable descriptions of boundary qudits which can guide succinct quantum-circuit simulations, and rigorously show how the bulk qudits and the encoding structure emerge from boundary entanglement patterns. By investigating the entanglement patterns, we systematically unfold the hypothetical structure for bulk reconstruction and the details of the Ryu-Takayanagi formula in the formalism of operator-algebra quantum error correction, demonstrating desired properties that are not yet proved in the established models. Our work might offer a fresh perspective for the study of holographic code. | 翻訳日:2024-07-16 18:49:26 公開日:2024-07-14 |
# MILに基づく擬似ラベルの知識蒸留による弱視的組織像分割の促進
Enhancing Weakly-Supervised Histopathology Image Segmentation with Knowledge Distillation on MIL-Based Pseudo-Labels ( http://arxiv.org/abs/2407.10274v1 ) ライセンス: Link先を確認 | Yinsheng He, Xingyu Li, Roger J. Zemp, | (参考訳) 病理組織像中の腫瘍の分節化は癌診断に不可欠である。
完全な教師付きモデルはピクセルレベルのアノテーションに優れていますが、そのようなアノテーションを作成するのは労力がかかり、コストがかかります。
粗い粒状画像ラベルを持つ弱教師付き条件下での正確な病理組織像分割は依然として難しい問題である。
複数インスタンス学習(MIL)はセグメンテーションタスクにおいて有望であるが、驚くべきことに、従来の擬似スーパービジョン手法では、トレーニングに擬似マスクとしてMILベースの出力を使用していない。
これは、MILのノイズに対する懸念が疑似監視品質に影響を及ぼすためと考えられる。
疑似監督のためにMILをベースとしたセグメンテーションを活用する可能性を探るため,病理組織像セグメンテーションのための新しい蒸留フレームワークを提案する。
この枠組みは, 学生が教師の総合的な成果から直接学習できる, 反復的融合知識蒸留戦略を導入している。
固定教師と学習可能な学生モデル間の動的役割逆転とモデル最適化のための重み付きクロスエントロピー損失の導入により,知識蒸留における性能劣化とノイズ増幅を防止することができる。
病理組織学的データセットであるCamelyon16とDigestpath2019の実験的結果は、我々のアプローチが様々なMILベースのセグメンテーション法を補完するだけでなく、その性能を大幅に向上させることを示した。
さらに,本手法は分野における新しいSOTAを実現する。
Segmenting tumors in histological images is vital for cancer diagnosis. While fully supervised models excel with pixel-level annotations, creating such annotations is labor-intensive and costly. Accurate histopathology image segmentation under weakly-supervised conditions with coarse-grained image labels is still a challenging problem. Although multiple instance learning (MIL) has shown promise in segmentation tasks, surprisingly, no previous pseudo-supervision methods have used MIL-based outputs as pseudo-masks for training. We suspect this stems from concerns over noises in MIL results affecting pseudo supervision quality. To explore the potential of leveraging MIL-based segmentation for pseudo supervision, we propose a novel distillation framework for histopathology image segmentation. This framework introduces a iterative fusion-knowledge distillation strategy, enabling the student model to learn directly from the teacher's comprehensive outcomes. Through dynamic role reversal between the fixed teacher and learnable student models and the incorporation of weighted cross-entropy loss for model optimization, our approach prevents performance deterioration and noise amplification during knowledge distillation. Experimental results on public histopathology datasets, Camelyon16 and Digestpath2019, demonstrate that our approach not only complements various MIL-based segmentation methods but also significantly enhances their performance. Additionally, our method achieves new SOTA in the field. | 翻訳日:2024-07-16 18:49:26 公開日:2024-07-14 |
# 言語間マルチホップ知識編集 - ベンチマーク, 分析, 単純コントラスト学習に基づくアプローチ
Cross-Lingual Multi-Hop Knowledge Editing -- Benchmarks, Analysis and a Simple Contrastive Learning based Approach ( http://arxiv.org/abs/2407.10275v1 ) ライセンス: Link先を確認 | Aditi Khandelwal, Harman Singh, Hengrui Gu, Tianlong Chen, Kaixiong Zhou, | (参考訳) 大規模言語モデルは、しばしば新しい知識源に常に適応することが期待され、知識編集技術は、最小限の変更で、時代遅れのモデル知識を効率的にパッチすることを目的としている。
ほとんどの先行研究は、世界のどの地域からでも新しい情報が得られるにもかかわらず、英語での単言語知識の編集に重点を置いている。
言語横断的な構成で様々な知識編集技術の性能を計測・解析するための多言語多言語知識編集パラダイムを提案する。
具体的には、知識編集能力を測定するために並列言語間ベンチマーク CROLIN-MQUAKE を作成します。
様々な知識編集技術に関する広範な分析により、言語横断と英語中心のセッティング間の性能差が明らかとなった。
次に,言語間マルチホップ知識編集システムであるCLEVER-CKEを提案する。
CLEVER-CKEは、検索、検証、および知識編集フレームワークに基づいており、検索者が編集された事実をリコールし、LLMをサポートし、知識編集に準拠する。
本フレームワークでは,言語間および微粒な事実検索および検証プロセスを改善するために,言語認識と強陰性に基づくコントラスト目的の開発を行う。
3つのLLM、8つの言語、2つのデータセットに関する大規模な実験は、CLEVER-CKEが以前の手法よりも最大30%向上したことを示している。
Large language models are often expected to constantly adapt to new sources of knowledge and knowledge editing techniques aim to efficiently patch the outdated model knowledge, with minimal modification. Most prior works focus on monolingual knowledge editing in English, even though new information can emerge in any language from any part of the world. We propose the Cross-Lingual Multi-Hop Knowledge Editing paradigm, for measuring and analyzing the performance of various SoTA knowledge editing techniques in a cross-lingual setup. Specifically, we create a parallel cross-lingual benchmark, CROLIN-MQUAKE for measuring the knowledge editing capabilities. Our extensive analysis over various knowledge editing techniques uncover significant gaps in performance between the cross-lingual and English-centric setting. Following this, we propose a significantly improved system for cross-lingual multi-hop knowledge editing, CLEVER-CKE. CLEVER-CKE is based on a retrieve, verify and generate knowledge editing framework, where a retriever is formulated to recall edited facts and support an LLM to adhere to knowledge edits. We develop language-aware and hard-negative based contrastive objectives for improving the cross-lingual and fine-grained fact retrieval and verification process used in this framework. Extensive experiments on three LLMs, eight languages, and two datasets show CLEVER-CKE's significant gains of up to 30% over prior methods. | 翻訳日:2024-07-16 18:49:26 公開日:2024-07-14 |
# アナログ関数計算を用いた秘密鍵生成アルゴリズムの誤り解析
The Error Analysis of the Secret Key Generation Algorithm Using Analog Function Computation ( http://arxiv.org/abs/2407.10276v1 ) ライセンス: Link先を確認 | Ertugrul Alper, Eray Guven, Gunes Karabulut Kurt, Enver Ozdemir, | (参考訳) 本研究では,分散ノード間の暗号秘密鍵生成アルゴリズムを用いて,セキュアな無線通信を実現する分散型手法を提案する。
システムモデルはガウス素数を使用し、秘密鍵の協調生成を保証する。
事前処理と後処理の機能により、ネットワーク全体で秘密鍵を生成することができる。
誤差モデルは熱雑音パワーやチャネル推定誤差などの側面を評価し、シミュレーションは成功率を評価して秘密鍵の規範を分解する。
経路損失によって引き起こされる大規模衰退は,情報や電力損失に影響を及ぼす重要な要素として現れる。
フェードチャネル条件下でのモデルの有効性を成功率で評価する。
また, 因子化アルゴリズムで設定した許容値が, 成功率に有意な影響を及ぼすことも確認された。
さらに、成功率を2人のユーザと3人のユーザの2つのシナリオで比較し、システム性能を総合的に評価する。
This study introduces a decentralized approach to secure wireless communication using a cryptographic secret key generation algorithm among distributed nodes. The system model employs Gaussian prime numbers, ensuring the collaborative generation of a secret key. Pre-processing and post-processing functions enable to generate a secret key across the network. An error model evaluates aspects like thermal noise power and channel estimation errors, while simulations assess the success rate to factorize the norm of the secret key. It is observed that path loss-induced large scale fading emerges as a critical component impacting information and power loss. The robustness of the proposed model under fading channel conditions is evaluated with a success rate. Additionally, it is also observed that the tolerance value set in the factorization algorithms has a significant impact on the success rate. Furthermore, the success rate is compared in two scenarios, one with 2 users and another with 3 users, to provide a comprehensive evaluation of the system performance. | 翻訳日:2024-07-16 18:49:26 公開日:2024-07-14 |
# セマンティックディグレッションによる拡散型インペインターの破壊
Disrupting Diffusion-based Inpainters with Semantic Digression ( http://arxiv.org/abs/2407.10277v1 ) ライセンス: Link先を確認 | Geonho Son, Juhun Lee, Simon S. Woo, | (参考訳) ウェブやソーシャルメディア上での視覚的誤情報の作成は、基礎的なテキスト・画像拡散モデルの出現とともに指数関数的に増加している。
すなわち、安定拡散のインペイントは、個人的および私的人物の悪意に塗られたイメージと、ディープフェイク(deepfakes)として知られる著作権のあるコンテンツの合成を可能にする。
このような世代と戦うために、フォトガードと呼ばれる破壊的枠組みが提案され、環境画像に逆ノイズを加えて、その影響を和らげる合成を妨害する。
彼らのフレームワークは拡散フレンドリなアプローチを提案するが、破壊は十分に強くはなく、コンテキストイメージを免疫するのにかなりのGPUと時間を要する。
当社の作業では、DDD(Digression Guided Diffusion Disruption)フレームワークを提唱して、画期的な破壊を成功させるために、最小限の条件と好ましくない条件の両方を再検討しています。
まず,最も逆の弱い拡散時間範囲を隠れた空間に対して同定する。
このノイズ多様体の範囲内では、意味的回帰最適化として問題を提起する。
我々は,隠蔽状態のモンテカルロサンプリングとトークン空間における離散的に投影された最適化の両方により,インペイントインスタンスの隠蔽状態とセマンティックアウェアの隠蔽状態セントロイドとの距離を最大化する。
提案手法は,GPUメモリ要件を低くし,最適化を最大3倍高速化しながら,Photoguardよりも強い破壊と成功率を達成する。
The fabrication of visual misinformation on the web and social media has increased exponentially with the advent of foundational text-to-image diffusion models. Namely, Stable Diffusion inpainters allow the synthesis of maliciously inpainted images of personal and private figures, and copyrighted contents, also known as deepfakes. To combat such generations, a disruption framework, namely Photoguard, has been proposed, where it adds adversarial noise to the context image to disrupt their inpainting synthesis. While their framework suggested a diffusion-friendly approach, the disruption is not sufficiently strong and it requires a significant amount of GPU and time to immunize the context image. In our work, we re-examine both the minimal and favorable conditions for a successful inpainting disruption, proposing DDD, a "Digression guided Diffusion Disruption" framework. First, we identify the most adversarially vulnerable diffusion timestep range with respect to the hidden space. Within this scope of noised manifold, we pose the problem as a semantic digression optimization. We maximize the distance between the inpainting instance's hidden states and a semantic-aware hidden state centroid, calibrated both by Monte Carlo sampling of hidden states and a discretely projected optimization in the token space. Effectively, our approach achieves stronger disruption and a higher success rate than Photoguard while lowering the GPU memory requirement, and speeding the optimization up to three times faster. | 翻訳日:2024-07-16 18:49:26 公開日:2024-07-14 |
# AlphaDou: ハイパフォーマンスなエンドツーエンドのDoudizhu AI統合バイディング
AlphaDou: High-Performance End-to-End Doudizhu AI Integrating Bidding ( http://arxiv.org/abs/2407.10279v1 ) ライセンス: Link先を確認 | Chang Lei, Huan Lei, | (参考訳) カードゲームのための人工知能は、長い間AI研究で人気のあるトピックだった。
近年、MahjongやTexas Hold'emのような複雑なカードゲームが解決され、対応するAIプログラムが人間の専門家のレベルに達している。
しかし、Dou Di Zhuのゲームは、その膨大な状態/行動空間と、競争と協力についての推論に関するユニークな特徴により、ゲームが極めて難解になるため、DouZeroはDeep Monte Carloアルゴリズムフレームワークを使用してトレーニングされ、DouDiZhuで優れたパフォーマンスを示している。
しかし、単純化されたゲーム環境と実際のDou Di Zhu環境の間には違いがあり、その性能は人間の専門家とはかなり離れている。
本稿では、強化学習を用いてDeep Monte Carloアルゴリズムの枠組みを変更し、勝利率と期待値を同時に推定するニューラルネットワークを得る。
アクション空間は期待に基づいて刈り取られ、勝利率に基づいて戦略が生成される。
このRLモデルは、現実的なDouDiZhu環境で訓練され、公開モデルの最先端レベルを達成する。
Artificial intelligence for card games has long been a popular topic in AI research. In recent years, complex card games like Mahjong and Texas Hold'em have been solved, with corresponding AI programs reaching the level of human experts. However, the game of Dou Di Zhu presents significant challenges due to its vast state/action space and unique characteristics involving reasoning about competition and cooperation, making the game extremely difficult to solve.The RL model DouZero, trained using the Deep Monte Carlo algorithm framework, has shown excellent performance in DouDiZhu. However, there are differences between its simplified game environment and the actual Dou Di Zhu environment, and its performance is still a considerable distance from that of human experts. This paper modifies the Deep Monte Carlo algorithm framework by using reinforcement learning to obtain a neural network that simultaneously estimates win rates and expectations. The action space is pruned using expectations, and strategies are generated based on win rates. This RL model is trained in a realistic DouDiZhu environment and achieves a state-of-the-art level among publicly available models. | 翻訳日:2024-07-16 18:49:26 公開日:2024-07-14 |
# プロンプト学習を超えて:効率的なリハーサルなし連続学習のための継続的適応
Beyond Prompt Learning: Continual Adapter for Efficient Rehearsal-Free Continual Learning ( http://arxiv.org/abs/2407.10281v1 ) ライセンス: Link先を確認 | Xinyuan Gao, Songlin Dong, Yuhang He, Qiang Wang, Yihong Gong, | (参考訳) Rehearsal-Free Continual Learning(RFCL)の問題は、古いサンプルやプロトタイプを格納することなく、古い知識を忘れないようにしながら、新しい知識を継続的に学習することにある。
最新の手法では、大規模な事前学習モデルをバックボーンとして利用し、キークエリマッチングを使用してトレーニング可能なプロンプトを生成して、新しい知識を学習する。
しかし、トレーニング済みデータセットと下流データセットのドメインギャップは、トレーニング済みモデルを使ってクエリを直接生成する際に、キークエリマッチングプロンプト選択の不正確さを生じさせる可能性がある。
そこで本研究では,RFCLタスクに対して,C-ADA(Continuous Adapter)と呼ばれる,より迅速な学習手法を提案する。
主に、パラメータ拡張可能な連続アダプタ層(CAL)と、事前訓練されたモデルと並行してスケーリングとシフト(S&S)モジュールで構成される。
C-ADAはCALの特定の重みを柔軟に拡張し、各タスクの新たな知識を学習し、古い重みを凍結して事前の知識を保存する。
ギャップを減らすため、C-ADAはS&Sモジュールを使用して、トレーニング済みのデータセットから下流のデータセットにフィーチャースペースを転送する。
さらに,従来の知識と新しい知識の相互作用を緩和する直交損失を提案する。
提案手法は,現状のSOTA(State-of-the-art)法よりも優れ,性能とトレーニング速度を大幅に向上させる。
さらに、ドメイン・インクリメンタル・ラーニングの実験を行い、SOTAを超越し、異なる設定でアプローチの汎用性を示す。
The problem of Rehearsal-Free Continual Learning (RFCL) aims to continually learn new knowledge while preventing forgetting of the old knowledge, without storing any old samples and prototypes. The latest methods leverage large-scale pre-trained models as the backbone and use key-query matching to generate trainable prompts to learn new knowledge. However, the domain gap between the pre-training dataset and the downstream datasets can easily lead to inaccuracies in key-query matching prompt selection when directly generating queries using the pre-trained model, which hampers learning new knowledge. Thus, in this paper, we propose a beyond prompt learning approach to the RFCL task, called Continual Adapter (C-ADA). It mainly comprises a parameter-extensible continual adapter layer (CAL) and a scaling and shifting (S&S) module in parallel with the pre-trained model. C-ADA flexibly extends specific weights in CAL to learn new knowledge for each task and freezes old weights to preserve prior knowledge, thereby avoiding matching errors and operational inefficiencies introduced by key-query matching. To reduce the gap, C-ADA employs an S&S module to transfer the feature space from pre-trained datasets to downstream datasets. Moreover, we propose an orthogonal loss to mitigate the interaction between old and new knowledge. Our approach achieves significantly improved performance and training speed, outperforming the current state-of-the-art (SOTA) method. Additionally, we conduct experiments on domain-incremental learning, surpassing the SOTA, and demonstrating the generality of our approach in different settings. | 翻訳日:2024-07-16 18:49:26 公開日:2024-07-14 |
# 数値が重要! 検索システムに量認識をもたらす
Numbers Matter! Bringing Quantity-awareness to Retrieval Systems ( http://arxiv.org/abs/2407.10283v1 ) ライセンス: Link先を確認 | Satya Almasian, Milena Bruseva, Michael Gertz, | (参考訳) 量的情報は、文書の内容を理解し、解釈する上で重要な役割を果たす。
多くのユーザクエリには量が含まれており、セマンティクスを理解せずには解決できない。
しかし、現代の検索エンジンは、単語と量の両方に同じランキング機構を適用し、大きさと単位情報を見渡す。
本稿では,文章の量と内容のランク付けを共同あるいは独立に行うための2つの量対応ランキング手法を提案する。
これらの技術は、利用可能な検索システムに量情報を導入し、数値条件が等しく、より大きく、より少ないクエリに対処することができる。
提案モデルの有効性を評価するため,金融・医療分野に2つの新しい量対応ベンチマークデータセットを導入し,様々な語彙モデルとニューラルモデルとの比較を行った。
コードとデータはhttps://github.com/satya77/QuantityAwareRankersで入手できる。
Quantitative information plays a crucial role in understanding and interpreting the content of documents. Many user queries contain quantities and cannot be resolved without understanding their semantics, e.g., ``car that costs less than $10k''. Yet, modern search engines apply the same ranking mechanisms for both words and quantities, overlooking magnitude and unit information. In this paper, we introduce two quantity-aware ranking techniques designed to rank both the quantity and textual content either jointly or independently. These techniques incorporate quantity information in available retrieval systems and can address queries with numerical conditions equal, greater than, and less than. To evaluate the effectiveness of our proposed models, we introduce two novel quantity-aware benchmark datasets in the domains of finance and medicine and compare our method against various lexical and neural models. The code and data are available under https://github.com/satya77/QuantityAwareRankers. | 翻訳日:2024-07-16 18:49:26 公開日:2024-07-14 |
# ノイズキャリブレーション:事前学習映像拡散モデルを用いたプラグアンドプレイコンテンツ保存映像強調
Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models ( http://arxiv.org/abs/2407.10285v1 ) ライセンス: Link先を確認 | Qinyu Yang, Haoxin Chen, Yong Zhang, Menghan Xia, Xiaodong Cun, Zhixun Su, Ying Shan, | (参考訳) 合成ビデオの品質を向上させるため、現在では、エキスパート拡散モデルを再訓練し、精巧化のためのノイズ発生処理を実装する方法が主流となっている。
トレーニングコストは大きいが、オリジナルと強化されたビデオ間のコンテンツの一貫性を維持することは大きな課題だ。
この課題に対処するために,コンテンツの視覚的品質と一貫性の両方を考慮した新しい定式化を提案する。
コンテントの整合性は,事前学習した拡散モデルのデノナイジングプロセスを利用して視覚的品質を向上させるとともに,入力の構造を維持可能な損失関数によって保証される。
定式化された最適化問題に対処するため,ノイズキャリブレーションと呼ばれるプラグアンドプレイノイズ最適化戦略を開発した。
数回繰り返して初期ランダムノイズを精査することにより、オリジナルビデオの内容を大幅に保存することができ、拡張効果は顕著な改善を示す。
提案手法の有効性を実験により実証した。
In order to improve the quality of synthesized videos, currently, one predominant method involves retraining an expert diffusion model and then implementing a noising-denoising process for refinement. Despite the significant training costs, maintaining consistency of content between the original and enhanced videos remains a major challenge. To tackle this challenge, we propose a novel formulation that considers both visual quality and consistency of content. Consistency of content is ensured by a proposed loss function that maintains the structure of the input, while visual quality is improved by utilizing the denoising process of pretrained diffusion models. To address the formulated optimization problem, we have developed a plug-and-play noise optimization strategy, referred to as Noise Calibration. By refining the initial random noise through a few iterations, the content of original video can be largely preserved, and the enhancement effect demonstrates a notable improvement. Extensive experiments have demonstrated the effectiveness of the proposed method. | 翻訳日:2024-07-16 18:49:26 公開日:2024-07-14 |
# ルールに従う:大規模言語モデルを用いたビデオ異常検出のための推論
Follow the Rules: Reasoning for Video Anomaly Detection with Large Language Models ( http://arxiv.org/abs/2407.10299v1 ) ライセンス: Link先を確認 | Yuchen Yang, Kwonjoon Lee, Behzad Dariush, Yinzhi Cao, Shao-Yuan Lo, | (参考訳) ビデオ異常検出(VAD)は、セキュリティ監視や自動運転といったアプリケーションには不可欠である。
しかしながら、既存のVADメソッドは検出の背後にある根拠をほとんど示さず、現実のデプロイメントに対する公衆の信頼を妨げている。
本稿では,VADに推論の枠組みでアプローチする。
LLM(Large Language Models)は革命的推論能力を示しているが、それらの直接的な使用はVADに劣っている。
具体的には、LLMsで事前訓練された暗黙の知識は、一般的な文脈に焦点を合わせており、それゆえ、特定の現実世界のVADシナリオに当てはまらないため、柔軟性と不正確性をもたらす。
そこで本研究では,ALD と LLM を組み合わせた新しいルールベース推論フレームワーク AnomalyRuler を提案する。
AnomalyRulerは、誘導と推論の2つの主要なステージから構成される。
誘導段階では、LSMは数発の正常参照サンプルで供給され、その後これらの正常なパターンを要約して、異常を検出するための一連の規則を誘導する。
推論段階は、テストビデオ中の異常フレームを見つけるための誘導規則に従う。
さらに,ルールアグリゲーション,知覚のスムース化,ロバストな推論戦略を設計し,AnomalyRulerのロバスト性をさらに強化する。
AnomalyRulerは、ワンクラスのVADタスクの最初の推論アプローチであり、フルショットのトレーニングを必要とせずに、ほとんどノーマルショットのプロンプトを必要とせず、様々なVADシナリオへの迅速な適応を可能にする。
4つのVADベンチマークの総合的な実験は、AnomalyRulerの最先端検出性能と推論能力を示している。
Video Anomaly Detection (VAD) is crucial for applications such as security surveillance and autonomous driving. However, existing VAD methods provide little rationale behind detection, hindering public trust in real-world deployments. In this paper, we approach VAD with a reasoning framework. Although Large Language Models (LLMs) have shown revolutionary reasoning ability, we find that their direct use falls short of VAD. Specifically, the implicit knowledge pre-trained in LLMs focuses on general context and thus may not apply to every specific real-world VAD scenario, leading to inflexibility and inaccuracy. To address this, we propose AnomalyRuler, a novel rule-based reasoning framework for VAD with LLMs. AnomalyRuler comprises two main stages: induction and deduction. In the induction stage, the LLM is fed with few-shot normal reference samples and then summarizes these normal patterns to induce a set of rules for detecting anomalies. The deduction stage follows the induced rules to spot anomalous frames in test videos. Additionally, we design rule aggregation, perception smoothing, and robust reasoning strategies to further enhance AnomalyRuler's robustness. AnomalyRuler is the first reasoning approach for the one-class VAD task, which requires only few-normal-shot prompting without the need for full-shot training, thereby enabling fast adaption to various VAD scenarios. Comprehensive experiments across four VAD benchmarks demonstrate AnomalyRuler's state-of-the-art detection performance and reasoning ability. | 翻訳日:2024-07-16 18:39:42 公開日:2024-07-14 |
# BurrowsのDeltaは、RowlingとGalbraithが同じ著者であることを本当に確認していますか?
Does Burrows' Delta really confirm that Rowling and Galbraith are the same author? ( http://arxiv.org/abs/2407.10301v1 ) ライセンス: Link先を確認 | Boris Orekhov, | (参考訳) スタイラス・パッケージには、テキスト間の距離を計算するのに使える周波数表が含まれており、J・K・ローリングが書いた小説『ザ・パックーズ・コール』の帰属に関する問題を独立して解決している。
しかし、この表の一連のテキストは批判に非常に弱い。
作者は現代ではなく、異なるジャンルで執筆した。
研究課題とより関係のあるテキスト上で,本手法の性能を検証した。
The stylo package includes a frequency table that can be used to calculate distances between texts and thus independently solve the problem of attribution of The Cuckoo's Calling, a novel that J.K. Rowling said she wrote. However, the set of texts for this table is very vulnerable to criticism. The authors there are not modern, they wrote in a different genre. I set out to test the performance of the method on texts that are more relevant to the research question. | 翻訳日:2024-07-16 18:39:42 公開日:2024-07-14 |
# スマートコントラクト「キルスイッチ」の可能性
The Feasibility of a Smart Contract "Kill Switch" ( http://arxiv.org/abs/2407.10302v1 ) ライセンス: Link先を確認 | Oshani Seneviratne, | (参考訳) ブロックチェーン技術の出現とさまざまな分野における採用は、ブロックチェーンプラットフォームに固有の分散化と不変性の基本的な原則を損なうことなく、消費者保護の確保、金融安定の維持、プライバシー問題に対処するための規制メカニズムの必要性に関する批判的な議論を引き起こしている。
Ethereum、BNB Smart Chain、Cardano、Solana、Hyperledger Fabric、Corda、IOTA、Apotos、Seiなど、いくつかの主要なブロックチェーンプラットフォームにおけるスマートコントラクトの終了メカニズムについて検討する。
我々は、消費者保護、エラー訂正、規制遵守といった側面に焦点を当て、これらのメカニズムとEUデータ法の要件との整合性を評価する。
私たちの分析では、不変なスマートコントラクトと組み込みの終了条件から、デプロイ後の修正を可能にするアップグレード可能なスマートコントラクトに至るまで、さまざまなアプローチの状況を明らかにしています。
本稿では,規制コンプライアンスの実現と分散的倫理維持のバランス,そのようなメカニズムの技術的実現可能性,エコシステムにおけるセキュリティと信頼の両立といった,いわゆるスマートコントラクト「スキルスイッチ」の導入に伴う課題について論じる。
The advent of blockchain technology and its adoption across various sectors have raised critical discussions about the need for regulatory mechanisms to ensure consumer protection, maintain financial stability, and address privacy concerns without compromising the foundational principles of decentralization and immutability inherent in blockchain platforms. We examine the existing mechanisms for smart contract termination across several major blockchain platforms, including Ethereum, BNB Smart Chain, Cardano, Solana, Hyperledger Fabric, Corda, IOTA, Apotos, and Sui. We assess the compatibility of these mechanisms with the requirements of the EU Data Act, focusing on aspects such as consumer protection, error correction, and regulatory compliance. Our analysis reveals a diverse landscape of approaches, from immutable smart contracts with built-in termination conditions to upgradable smart contracts that allow for post-deployment modifications. We discuss the challenges associated with implementing the so-called smart contract "kill switches," such as the balance between enabling regulatory compliance and preserving the decentralized ethos, the technical feasibility of such mechanisms, and the implications for security and trust in the ecosystem. | 翻訳日:2024-07-16 18:39:42 公開日:2024-07-14 |
# 初期文脈注入とテキスト摂動による文脈音声認識のためのニューラルバイアスの改善
Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation ( http://arxiv.org/abs/2407.10303v1 ) ライセンス: Link先を確認 | Ruizhe Huang, Mahsa Yarmohammadi, Sanjeev Khudanpur, Daniel Povey, | (参考訳) 既存の研究では、自動音声認識(ASR)モデルが追加のコンテキスト(連絡先リスト、ユーザ指定語彙など)の恩恵を受けることが示唆されている。
単語や名前の付いたエンティティは、コンテキストによってよりよく認識できる。
本研究では、文脈認識型ASRモデルを改善するための2つの単純かつ効果的な手法を提案する。
まず、エンコーダにコンテキストを注入する。
第2に、トレーニング中にコンテキストを活用するためにモデルを強制するために、参照の書き起こしを代替スペルで摂動することで、モデルが正しい予測を行うためにコンテキストに依存することを学習する。
LibriSpeechでは、バイアスや浅い融合を伴わず、稀な単語誤り率を60%、25%削減し、新しい最先端性能を実現した。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
Existing research suggests that automatic speech recognition (ASR) models can benefit from additional contexts (e.g., contact lists, user specified vocabulary). Rare words and named entities can be better recognized with contexts. In this work, we propose two simple yet effective techniques to improve context-aware ASR models. First, we inject contexts into the encoders at an early stage instead of merely at their last layers. Second, to enforce the model to leverage the contexts during training, we perturb the reference transcription with alternative spellings so that the model learns to rely on the contexts to make correct predictions. On LibriSpeech, our techniques together reduce the rare word error rate by 60% and 25% relatively compared to no biasing and shallow fusion, making the new state-of-the-art performance. On SPGISpeech and a real-world dataset ConEC, our techniques also yield good improvements over the baselines. | 翻訳日:2024-07-16 18:39:42 公開日:2024-07-14 |
# 選択バイアス下における正の未ラベルデータに対する真のクラスの拡張予測
Augmented prediction of a true class for Positive Unlabeled data under selection bias ( http://arxiv.org/abs/2407.10309v1 ) ライセンス: Link先を確認 | Jan Mielniczuk, Adam Wawrzeńczyk, | (参考訳) 本稿では, 観測時刻をラベル付けした正のアンラベル(PU)データに対して, 新たな観測環境を提案する。
これは、一般的には、追加情報は予測に重要であり、このタスクを「拡張PU予測」と呼んでいる。そのようなシナリオでは、ベイズ分類器とそのリスクが確立され、未ラベルのデータが予測子のみに基づいている分類器のリスクと比較される。我々は、これらのシナリオにおいて経験的ベイズ規則のいくつかの変種を導入し、それらの性能を調査する。我々は、拡張PUシナリオに古典的な分類規則を適用する危険性(および容易さ)を強調し、既存の研究がないため、無意識研究者は、得られた予測を解き放つ傾向がある。
PUシナリオ用に最近提案された変分オートエンコーダに基づく変分は、他の検討された変分よりも同等かそれ以上に機能し、ラベルなしサンプルの精度の観点から特徴のみに基づく手法よりも有利である、と結論付けている。
We introduce a new observational setting for Positive Unlabeled (PU) data where the observations at prediction time are also labeled. This occurs commonly in practice -- we argue that the additional information is important for prediction, and call this task "augmented PU prediction". We allow for labeling to be feature dependent. In such scenario, Bayes classifier and its risk is established and compared with a risk of a classifier which for unlabeled data is based only on predictors. We introduce several variants of the empirical Bayes rule in such scenario and investigate their performance. We emphasise dangers (and ease) of applying classical classification rule in the augmented PU scenario -- due to no preexisting studies, an unaware researcher is prone to skewing the obtained predictions. We conclude that the variant based on recently proposed variational autoencoder designed for PU scenario works on par or better than other considered variants and yields advantage over feature-only based methods in terms of accuracy for unlabeled samples. | 翻訳日:2024-07-16 18:39:42 公開日:2024-07-14 |
# 深部ニューラルネットワークにおける連続学習の次数パラメータと相転移
Order parameters and phase transitions of continual learning in deep neural networks ( http://arxiv.org/abs/2407.10315v1 ) ライセンス: Link先を確認 | Haozhe Shan, Qianyi Li, Haim Sompolinsky, | (参考訳) 継続学習(CL)により、動物は事前知識を消去することなく新しいタスクを学習することができる。
ニューラルネットワーク(NN)におけるCLは、破滅的な忘れが原因で困難であり、新しい学習は古いタスクのパフォーマンスを低下させる。
忘れを和らげるために様々なテクニックが存在するが、NNでCLが失敗する時期と理由に関する理論的洞察は欠如している。
本稿では,ネットワークの入出力マッピングを特徴付ける深層広帯域NNにおけるCLの統計力学理論を提案する。
数値的な評価によって検証されたように、タスク関係とネットワークアーキテクチャが忘れと知識伝達にどのように影響するかをキャプチャする順序パラメータ(OP)が生まれる。
その結果,タスク間の入力とルールの類似性はCL性能に異なる影響を及ぼすことがわかった。
さらに,ネットワーク深度の増加はタスク間の重複を効果的に軽減し,忘れを減らしうると予測した。
タスク固有の読み出しを持つネットワークにおいて、この理論はCL性能がOPによって測定されるようにタスクがより類似しなくなるにつれて劇的に変化する相転移を識別する。
ネットワークは古いタスクを完全に保持するが、新しい学習を一般化するのに完全に失敗する。
その結果,CL性能に影響を及ぼす重要な要因が明確化され,忘れを緩和するための戦略が示唆された。
Continual learning (CL) enables animals to learn new tasks without erasing prior knowledge. CL in artificial neural networks (NNs) is challenging due to catastrophic forgetting, where new learning degrades performance on older tasks. While various techniques exist to mitigate forgetting, theoretical insights into when and why CL fails in NNs are lacking. Here, we present a statistical-mechanics theory of CL in deep, wide NNs, which characterizes the network's input-output mapping as it learns a sequence of tasks. It gives rise to order parameters (OPs) that capture how task relations and network architecture influence forgetting and knowledge transfer, as verified by numerical evaluations. We found that the input and rule similarity between tasks have different effects on CL performance. In addition, the theory predicts that increasing the network depth can effectively reduce overlap between tasks, thereby lowering forgetting. For networks with task-specific readouts, the theory identifies a phase transition where CL performance shifts dramatically as tasks become less similar, as measured by the OPs. Sufficiently low similarity leads to catastrophic anterograde interference, where the network retains old tasks perfectly but completely fails to generalize new learning. Our results delineate important factors affecting CL performance and suggest strategies for mitigating forgetting. | 翻訳日:2024-07-16 18:39:42 公開日:2024-07-14 |
# RecGS:リカレントガウススプラッティングによる水源除去
RecGS: Removing Water Caustic with Recurrent Gaussian Splatting ( http://arxiv.org/abs/2407.10318v1 ) ライセンス: Link先を確認 | Tianyi Zhang, Weiming Zhi, Kaining Huang, Joshua Mangelson, Corina Barbalata, Matthew Johnson-Roberson, | (参考訳) 水の因果関係は浅海域の海底画像データでよく見られる。
画像から因果パターンを除去する従来の方法は、注釈付きデータセットの2Dフィルタリングや事前トレーニングに依存しており、3D構造を持つ現実世界の海底データに一般化する際のパフォーマンスを妨げている。
本稿では,今日の光現実的3次元再構成技術である3DGSを利用して,海底画像から因果関係を分離する新たな手法であるRecurrent Gaussian Splattingを提案する。
水中ロボットによって撮影された一連の画像を用いて、3DGSを再帰的に構築し、各イテレーションで低パスフィルタリングで因果関係を分解する。
実験では, 共同最適化, 2次元フィルタリング, 深層学習など, 様々な手法を解析・比較した。
以上の結果から,本手法は海底から因果関係を効果的に分離し,視覚的外観を改善することが可能であることが示唆された。
Water caustics are commonly observed in seafloor imaging data from shallow-water areas. Traditional methods that remove caustic patterns from images often rely on 2D filtering or pre-training on an annotated dataset, hindering the performance when generalizing to real-world seafloor data with 3D structures. In this paper, we present a novel method Recurrent Gaussian Splatting, which takes advantage of today's photorealistic 3D reconstruction technology, 3DGS, to separate caustics from seafloor imagery. With a sequence of images taken by an underwater robot, we build 3DGS recursively and decompose the caustic with low-pass filtering in each iteration. In the experiments, we analyze and compare with different methods, including joint optimization, 2D filtering, and deep learning approaches. The results show that our method can effectively separate the caustic from the seafloor, improving the visual appearance. | 翻訳日:2024-07-16 18:39:42 公開日:2024-07-14 |
# 2電子2核有効ハミルトニアンとスピン拡散障壁
Two-electron two-nucleus effective Hamiltonian and the spin diffusion barrier ( http://arxiv.org/abs/2407.10319v1 ) ライセンス: Link先を確認 | Gevin von Witte, Sebastian Kozerke, Matthias Ernst, | (参考訳) 動的核偏極(DNP)は、未対電子から超微細結合核への偏極移動を伴い、核磁気共鳴(NMR)信号の感度を数桁向上させる。
超微細結合は、核双極子フリップフロップ遷移を抑制し、バルクへの核双極子輸送を妨げると考えられている('spin-diffusion barrier'')。
2電子2核4スピン系におけるDNPと過シフト核間のスピン拡散につながる可能性のある偏光伝達経路について検討した。
シュリーファー・ヴォルフ変換は、二階効果としてのみ可能な遷移を特徴づけるために適用される。
電子双極子と核双極子フリップフロップを組み合わせ、電子に近いスピン拡散を記述するエネルギー保存型電子核四スピンフリップフロップが同定される。
このプロセスの関連性は、HypRes-on実験データの2成分モデルマッチングによって支持される。
これは、全ての核スピンがバルクの超分極に寄与し、スピン拡散障壁の概念は、重要な電子と核双極子結合を持つ試料に対して再検討する必要があることを示唆している。
Dynamic nuclear polarization (DNP) involves a polarization transfer from unpaired electrons to hyperfine coupled nuclei and can increase the sensitivity of nuclear magnetic resonance (NMR) signals by several orders of magnitude. The hyperfine coupling is considered to suppress nuclear dipolar flip-flop transitions, hindering the transport of nuclear hyperpolarization into the bulk (''spin-diffusion barrier''). Possible polarization-transfer pathways leading to DNP and subsequent spin diffusion between hypershifted nuclei in a two-electron two-nucleus four-spin system are investigated. The Schrieffer-Wolff transformation is applied to characterize transitions that are only possible as second-order effects. An energy-conserving electron-nuclear four-spin flip-flop is identified, which combines an electron dipolar with a nuclear dipolar flip-flop process, describing spin diffusion close to electrons. The relevance of this process is supported by two-compartment model fits of HypRes-on experimental data. This suggests that all nuclear spins can contribute to the hyperpolarization of the bulk and the concept of a spin-diffusion barrier has to be reconsidered for samples with significant electron and nuclear dipolar couplings. | 翻訳日:2024-07-16 18:39:42 公開日:2024-07-14 |
# フェデレーション半教師付き学習のためのアンカーモデルアグリゲーションによる未ラベルクライアントの多様性の学習
Learning Unlabeled Clients Divergence via Anchor Model Aggregation for Federated Semi-supervised Learning ( http://arxiv.org/abs/2407.10327v1 ) ライセンス: Link先を確認 | Marawan Elbatel, Hualiang Wang, Jixiang Chen, Hao Wang, Xiaomeng Li, | (参考訳) フェデレート半教師付き学習(FedSemi)とは、完全なラベル付きデータを持つクライアント、部分的にラベル付けされたクライアント、さらには完全にラベル付けされていないクライアントがデータプライバシを保存するシナリオを指す。
しかし、未定義の不均一なクラス分布と誤った擬似ラベルによってクライアントのドリフトが問題となる。
既存のFedSemiメソッドは、本質的に信頼性の低いクライアントからのモデルを集約できないため、不均一なデータ分散からユニークな情報を見落とし、準最適結果をもたらす。
本稿では,SemiAnAggによる未ラベルクライアントアグリゲーションを実現する。
SemiAnAggはアンカーモデルを通じて未ラベルのクライアントコントリビューションを学び、その情報的価値を効果的に活用する。
我々のキーとなる考え方は、ローカルクライアントデータを同じグローバルモデルと、同じ一貫した初期化アンカーモデル(すなわち、ランダムモデル)にフィードすることで、各未ラベルクライアントの重要性を測定できるということです。
CIFAR-100の精度は9%向上し、ISIC-18のリコールは7.6%向上した。
コードは、https://github.com/xmed-lab/SemiAnAgg.comで入手できる。
Federated semi-supervised learning (FedSemi) refers to scenarios where there may be clients with fully labeled data, clients with partially labeled, and even fully unlabeled clients while preserving data privacy. However, challenges arise from client drift due to undefined heterogeneous class distributions and erroneous pseudo-labels. Existing FedSemi methods typically fail to aggregate models from unlabeled clients due to their inherent unreliability, thus overlooking unique information from their heterogeneous data distribution, leading to sub-optimal results. In this paper, we enable unlabeled client aggregation through SemiAnAgg, a novel Semi-supervised Anchor-Based federated Aggregation. SemiAnAgg learns unlabeled client contributions via an anchor model, effectively harnessing their informative value. Our key idea is that by feeding local client data to the same global model and the same consistently initialized anchor model (i.e., random model), we can measure the importance of each unlabeled client accordingly. Extensive experiments demonstrate that SemiAnAgg achieves new state-of-the-art results on four widely used FedSemi benchmarks, leading to substantial performance improvements: a 9% increase in accuracy on CIFAR-100 and a 7.6% improvement in recall on the medical dataset ISIC-18, compared with prior state-of-the-art. Code is available at: https://github.com/xmed-lab/SemiAnAgg. | 翻訳日:2024-07-16 18:39:42 公開日:2024-07-14 |
# テキスト・音楽生成モデルにおける解釈ギャップ
The Interpretation Gap in Text-to-Music Generation Models ( http://arxiv.org/abs/2407.10328v1 ) ライセンス: Link先を確認 | Yongyi Zang, Yixiao Zhang, | (参考訳) 大規模なテキストから音楽への生成モデルは音楽の創造性を著しく向上させ、前例のない創造的な自由を提供する。
しかし、人間の音楽家と効果的に協力する能力は依然として限られている。
本稿では,制御の表現,解釈,実行を含む音楽対話プロセスを記述する枠組みを提案する。
この枠組みに従うと、既存のテキスト・ツー・ミュージック・モデルとミュージシャンの主なギャップは、モデルがミュージシャンの制御を解釈する能力に欠ける解釈段階にあると論じる。
また,このギャップに対処する2つの戦略を提案し,音楽情報検索コミュニティに人間とAIのコラボレーションを改善するための解釈課題に取り組むよう呼びかける。
Large-scale text-to-music generation models have significantly enhanced music creation capabilities, offering unprecedented creative freedom. However, their ability to collaborate effectively with human musicians remains limited. In this paper, we propose a framework to describe the musical interaction process, which includes expression, interpretation, and execution of controls. Following this framework, we argue that the primary gap between existing text-to-music models and musicians lies in the interpretation stage, where models lack the ability to interpret controls from musicians. We also propose two strategies to address this gap and call on the music information retrieval community to tackle the interpretation challenge to improve human-AI musical collaboration. | 翻訳日:2024-07-16 18:39:42 公開日:2024-07-14 |
# ツリー-Dフュージョン:拡散先行画像からのシミュレーション可能なツリーデータセット
Tree-D Fusion: Simulation-Ready Tree Dataset from Single Images with Diffusion Priors ( http://arxiv.org/abs/2407.10330v1 ) ライセンス: Link先を確認 | Jae Joong Lee, Bosheng Li, Sara Beery, Jonathan Huang, Songlin Fei, Raymond A. Yeh, Bedrich Benes, | (参考訳) そこで,本研究では,Diffusion の先行モデルから生成した,60,000の環境に配慮した3次元シミュレーション対応ツリーモデルの最初のコレクションを特徴とするツリーD融合について紹介する。
再建された各3Dツリーモデルは、GoogleのAuto Arborist Datasetの画像に対応している。
本手法は,木種を特定するためのテキストプロンプトを利用して2種類の木適応拡散モデルのスコアを蒸留し,形状復元を容易にする。
このプロセスは、点マーカーで満たされた3Dツリーの包みを再構成し、その後、特定の属に条件付けられた空間植民地化アルゴリズムを用いて木の分岐構造を推定するために使用される。
We introduce Tree D-fusion, featuring the first collection of 600,000 environmentally aware, 3D simulation-ready tree models generated through Diffusion priors. Each reconstructed 3D tree model corresponds to an image from Google's Auto Arborist Dataset, comprising street view images and associated genus labels of trees across North America. Our method distills the scores of two tree-adapted diffusion models by utilizing text prompts to specify a tree genus, thus facilitating shape reconstruction. This process involves reconstructing a 3D tree envelope filled with point markers, which are subsequently utilized to estimate the tree's branching structure using the space colonization algorithm conditioned on a specified genus. | 翻訳日:2024-07-16 18:39:42 公開日:2024-07-14 |
# グラフト物体の同時幾何とポス推定を可能にする3次元基礎モデル
3D Foundation Models Enable Simultaneous Geometry and Pose Estimation of Grasped Objects ( http://arxiv.org/abs/2407.10331v1 ) ライセンス: Link先を確認 | Weiming Zhi, Haozhan Tang, Tianyi Zhang, Matthew Johnson-Roberson, | (参考訳) 人間は、保持されたオブジェクトを環境と対話するツールとして使うという驚くべき能力を持っています。
これが起こるためには、人間が内部的に手の動きが物体の動きにどのように影響するかを推定する。
私たちはこの能力でロボットを養うことを望んでいます。
本研究では,外部カメラが捉えたRGB画像から,ロボットが把握した物体の形状と姿勢を共同で推定する手法を提案する。
特に,本手法では,外部カメラの外部パラメータを校正することなく,推定した形状をロボットの座標フレームに変換する。
提案手法では,3次元視覚タスクのための巨大なデータセット上に事前訓練された大規模モデルである3次元ファンデーションモデルを用いて,手動物体の初期推定値を生成する。
これらの初期推定は物理的に正しいスケールを持たず、カメラのフレームにある。
そこで我々は,ロボットの座標フレームへの変換とともに,正確なスケールを復元するための座標調整問題を定式化し,効率的に解決する。
フォワードキネマティクス写像はその後、マニピュレータの関節角から対象の特定の点への写像を定義することができる。
これらのマッピングにより、保持されたオブジェクト上の点を任意の構成で推定することができ、掴んだオブジェクトの座標に関してロボットの動きを設計することができる。
我々は,実世界の多様な物体の集合を保持するロボットマニピュレータに対する我々のアプローチを実証的に評価した。
Humans have the remarkable ability to use held objects as tools to interact with their environment. For this to occur, humans internally estimate how hand movements affect the object's movement. We wish to endow robots with this capability. We contribute methodology to jointly estimate the geometry and pose of objects grasped by a robot, from RGB images captured by an external camera. Notably, our method transforms the estimated geometry into the robot's coordinate frame, while not requiring the extrinsic parameters of the external camera to be calibrated. Our approach leverages 3D foundation models, large models pre-trained on huge datasets for 3D vision tasks, to produce initial estimates of the in-hand object. These initial estimations do not have physically correct scales and are in the camera's frame. Then, we formulate, and efficiently solve, a coordinate-alignment problem to recover accurate scales, along with a transformation of the objects to the coordinate frame of the robot. Forward kinematics mappings can subsequently be defined from the manipulator's joint angles to specified points on the object. These mappings enable the estimation of points on the held object at arbitrary configurations, enabling robot motion to be designed with respect to coordinates on the grasped objects. We empirically evaluate our approach on a robot manipulator holding a diverse set of real-world objects. | 翻訳日:2024-07-16 18:39:42 公開日:2024-07-14 |
# 個人化学生支援のためのオントロジー駆動型強化学習
Ontology-driven Reinforcement Learning for Personalized Student Support ( http://arxiv.org/abs/2407.10332v1 ) ライセンス: Link先を確認 | Ryan Hare, Ying Tang, | (参考訳) より効果的な教育を求めて、学生教育をパーソナライズするためのより良いアプローチを開発するために広く努力されている。
未支援の教育者は、特定の教室で生徒全員を個人的に支援する時間やリソースを持っていないことが多い。
この問題に触発され,近年の人工知能の進歩により,本研究では,真剣なゲームや知的学習システムなどの仮想教育システムに適用可能な,パーソナライズされた学生支援のための汎用フレームワークを提案する。
いずれの教育状況にも適合するため,本研究では,データ収集とマルチエージェント強化学習を組み合わせて,その意味体系にオントロジーを適用した。
その結果、学生にパーソナライズされた支援を提供するために、どんなバーチャル教育ソフトウェアにも適応できるモジュールシステムとなった。
In the search for more effective education, there is a widespread effort to develop better approaches to personalize student education. Unassisted, educators often do not have time or resources to personally support every student in a given classroom. Motivated by this issue, and by recent advancements in artificial intelligence, this paper presents a general-purpose framework for personalized student support, applicable to any virtual educational system such as a serious game or an intelligent tutoring system. To fit any educational situation, we apply ontologies for their semantic organization, combining them with data collection considerations and multi-agent reinforcement learning. The result is a modular system that can be adapted to any virtual educational software to provide useful personalized assistance to students. | 翻訳日:2024-07-16 18:39:42 公開日:2024-07-14 |
# トランジットに基づくスペクトル特徴の可視化による植生フェノタイピングのための解釈可能なニューラルネットワーク
An Interpretable Neural Network for Vegetation Phenotyping with Visualization of Trait-Based Spectral Features ( http://arxiv.org/abs/2407.10333v1 ) ライセンス: Link先を確認 | William Basener, Abigail Basener, Michael Luegering, | (参考訳) 植物表現型は植物の形質の評価であり、植物識別は属や種などの分類を決定する過程である。
本稿では, UPWINS スペクトルライブラリをトレーニングした解釈型ニューラルネットワークについて, 種, 健康, 成長段階, 年次変動, 環境条件の多彩なメタデータを持つスペクトルを, 13種の指標種および自然共通背景種に対して含む。
ネットワーク内のニューロンは, ネットワーク重量の可視化を通じて, 化学的および生理的特性のスペクトル指標を学習し, それらの特性が, 実験セット上で90%の精度で, 種同定のためのネットワークによってどのように結合されているかを示す。
ニューラルネットワークはしばしば‘ブラックボックス’分類器として認識されるが、我々の研究は、それらが他の機械学習手法よりも説明可能で情報的であることを示している。
両ニューロンは植物に関する基本的な特徴を学習し,例えば,生物種を示すクロロフィルの組成や,照明条件に対する応答を示す。
ネットワークには明らかな過剰な訓練能力があり、UPWINSスペクトルライブラリが引き続きそのアプローチを拡大し続ければ、植物特性を理解する上でのさらなる基礎的な洞察が得られると期待する。
これは、一般にスペクトルデータ上でニューラルネットワークを設計し、解釈するための方法論を提供し、他のドメインに拡張可能な植生を理解するために、ハイパースペクトル画像を備えたニューラルネットワークを使用するためのフレームワークを提供する。
Plant phenotyping is the assessment of a plant's traits and plant identification is the process of determining the category such as genus and species. In this paper we present an interpretable neural network trained on the UPWINS spectral library which contains spectra with rich metadata across variation in species, health, growth stage, annual variation, and environmental conditions for 13 selected indicator species and natural common background species. We show that the neurons in the network learn spectral indicators for chemical and physiological traits through visualization of the network weights, and we show how these traits are combined by the network for species identification with an accuracy around 90% on a test set. While neural networks are often perceived as `black box' classifiers, our work shows that they can be in fact more explainable and informative than other machine learning methods. We show that the neurons learn fundamental traits about the vegetation, for example the composition of different types of chlorophyll present which indicates species as well as response to illumination conditions. There is clear excess training capacity in our network, and we expect that as the UPWINS spectral library continues to grow the approach in this paper will provide further foundational insights in understanding plant traits. This provides a methodology for designing and interpreting neural networks on spectral data in general, and provides a framework for using neural networks with hyperspectral imagery for understanding vegetation that is extendable to other domains. | 翻訳日:2024-07-16 18:39:42 公開日:2024-07-14 |
# 強化学習エージェントのタスク適応に向けて:Q値からの考察
Towards Adapting Reinforcement Learning Agents to New Tasks: Insights from Q-Values ( http://arxiv.org/abs/2407.10335v1 ) ライセンス: Link先を確認 | Ashwin Ramaswamy, Ransalu Senanayake, | (参考訳) 現代の強化学習研究や応用は、学習問題の解決のパナセアとして政策勾配法を取り入れてきたが、価値に基づく手法は、サンプル効率のよい方法でそれらを活用できる限り、多くの領域で有用である。
本稿では、強化学習におけるDQNのカオス性について検討し、学習時に保持する情報を、異なるタスクにモデルを適用するためにどのように再利用するかを理解する。
まず、環境における各状態と行動のQ値を観察できる簡単な実験を設計することから始めます。
次に、8つの異なる方法でトレーニングを行い、これらのトレーニングアルゴリズムが正確なQ値の学習方法(あるいは学習しない方法)にどのように影響するかを調べます。
若干修正されたタスクを達成するために再訓練された各トレーニングモデルの適応性をテストした。
そして、安全でない交差点で自動運転車の大きな問題をテストするために、セットアップを拡大しました。
我々は,ベースモデルのQ値推定値が真のQ値に近い場合に,モデルが新しいタスクに迅速に適応できることを観察した。
結果は、どのアルゴリズムが効率的なタスク適応に役に立つかについての洞察とガイドラインを提供する。
While contemporary reinforcement learning research and applications have embraced policy gradient methods as the panacea of solving learning problems, value-based methods can still be useful in many domains as long as we can wrangle with how to exploit them in a sample efficient way. In this paper, we explore the chaotic nature of DQNs in reinforcement learning, while understanding how the information that they retain when trained can be repurposed for adapting a model to different tasks. We start by designing a simple experiment in which we are able to observe the Q-values for each state and action in an environment. Then we train in eight different ways to explore how these training algorithms affect the way that accurate Q-values are learned (or not learned). We tested the adaptability of each trained model when retrained to accomplish a slightly modified task. We then scaled our setup to test the larger problem of an autonomous vehicle at an unprotected intersection. We observed that the model is able to adapt to new tasks quicker when the base model's Q-value estimates are closer to the true Q-values. The results provide some insights and guidelines into what algorithms are useful for sample efficient task adaptation. | 翻訳日:2024-07-16 18:39:42 公開日:2024-07-14 |
# 甲状腺疾患 : シンチグラフィー画像からの甲状腺疾患の分離と分類のための自動パイプライン
Thyroidiomics: An Automated Pipeline for Segmentation and Classification of Thyroid Pathologies from Scintigraphy Images ( http://arxiv.org/abs/2407.10336v1 ) ライセンス: Link先を確認 | Maziar Sabouri, Shadab Ahamed, Azin Asadzadeh, Atlas Haddadi Avval, Soroush Bagheri, Mohsen Arabi, Seyed Rasoul Zakavi, Emran Askari, Ali Rasouli, Atena Aghaee, Mohaddese Sehati, Fereshteh Yousefirizi, Carlos Uribe, Ghasem Hajianfar, Habib Zaidi, Arman Rahmim, | (参考訳) 本研究の目的は,甲状腺シンチグラフィー画像を用いた甲状腺疾患分類を向上し,評価時間を短縮し,診断精度を向上する自動パイプラインを開発することである。
2,643人の甲状腺シンチグラフィー画像を収集し,臨床報告に基づいてDG,MNG,甲状腺炎に分類し,鑑別を行った。
ResUNetモデルは自動セグメンテーションを実行するために訓練された。
専門医 (scenario 1) と ResUNet セグメンテーション (scenario2) の両方から放射線学的特徴を抽出し, スピアマン相関とXGBoost をコアとした再帰的特徴除去 (RFE) による特徴選択を除外した。
すべてのモデルはLOCOCV(Leave-one-center-out cross-validation)スキームでトレーニングされ、アルゴリズムの9つのインスタンスが8つのセンターのデータに基づいて反復的にトレーニングされ、それぞれ別々にテストされた。
セグメンテーション性能はDice類似度係数(DSC)を用いて評価され、分類性能は精度、リコール、F1スコア、精度、受信器動作特性(ROC AUC)の領域、精度-リコール曲線(PRC AUC)の領域などを用いて評価された。
ResUNet は、それぞれ MNG と TH と DG に対して 0.84$\pm$0.03 と 0.71$\pm$0.06 と 0.86$\pm$0.02 の DSC 値を達成した。
シナリオ1の分類は0.76$\pm$0.04、ROC AUCは0.92$\pm$0.02、シナリオ2の分類は0.74$\pm$0.05、ROC AUCは0.90$\pm$0.02である。
自動パイプラインは、異なるクラスにわたるいくつかの分類基準で医師のセグメンテーションに匹敵する性能を示し、高い診断精度を維持しながら評価時間を効果的に短縮した。
コードは、https://github.com/ahxmeds/thyroidiomics.git.comで入手できる。
The objective of this study was to develop an automated pipeline that enhances thyroid disease classification using thyroid scintigraphy images, aiming to decrease assessment time and increase diagnostic accuracy. Anterior thyroid scintigraphy images from 2,643 patients were collected and categorized into diffuse goiter (DG), multinodal goiter (MNG), and thyroiditis (TH) based on clinical reports, and then segmented by an expert. A ResUNet model was trained to perform auto-segmentation. Radiomic features were extracted from both physician (scenario 1) and ResUNet segmentations (scenario 2), followed by omitting highly correlated features using Spearman's correlation, and feature selection using Recursive Feature Elimination (RFE) with XGBoost as the core. All models were trained under leave-one-center-out cross-validation (LOCOCV) scheme, where nine instances of algorithms were iteratively trained and validated on data from eight centers and tested on the ninth for both scenarios separately. Segmentation performance was assessed using the Dice similarity coefficient (DSC), while classification performance was assessed using metrics, such as precision, recall, F1-score, accuracy, area under the Receiver Operating Characteristic (ROC AUC), and area under the precision-recall curve (PRC AUC). ResUNet achieved DSC values of 0.84$\pm$0.03, 0.71$\pm$0.06, and 0.86$\pm$0.02 for MNG, TH, and DG, respectively. Classification in scenario 1 achieved an accuracy of 0.76$\pm$0.04 and a ROC AUC of 0.92$\pm$0.02 while in scenario 2, classification yielded an accuracy of 0.74$\pm$0.05 and a ROC AUC of 0.90$\pm$0.02. The automated pipeline demonstrated comparable performance to physician segmentations on several classification metrics across different classes, effectively reducing assessment time while maintaining high diagnostic accuracy. Code available at: https://github.com/ahxmeds/thyroidiomics.git. | 翻訳日:2024-07-16 16:40:16 公開日:2024-07-14 |
# ダークパターン規則の学習のマッピング:学際的視点から見た概念・規則パラダイム・解の体系的レビュー
Mapping the Scholarship of Dark Pattern Regulation: A Systematic Review of Concepts, Regulatory Paradigms, and Solutions from an Interdisciplinary Perspective ( http://arxiv.org/abs/2407.10340v1 ) ライセンス: Link先を確認 | Weiwei Yi, Zihao Li, | (参考訳) ダークパターン、ユーザーの意思決定プロセスを操作するためにオンラインインターフェースで使用されるデザイントリックは、公衆の懸念を高めている。
しかし、ダークパターンの規制に関する研究は、特に概念、規制パラダイム、解決策に関する学者の見解に関して、未発達で散在している。
PRISMAガイドラインに従って,本論文は,法とコンピュータインタラクションの学際研究から,暗黒パターンに関する規制に関する議論の形式と内容を体系的にレビューする。
内容とテーマ分析により,65種類の研究が分析された。
本研究は,暗黒パターンに対する法学研究のユニークな傾向と特徴を合成し,五つの根問題と三重層害を同定する。
法律理論やセクター法の観点から現在の規制を批判し、暗黒パターンに対処する上での彼らの不正確さを強調している。
また、法学のパラダイムシフト、既存のフレームワークの改良、技術的な設計を組み込んだソリューション、設計プラクティスのアカウンタビリティ対策など、既存の提案されたソリューションについても批判的に検討する。
本研究は、効果的なダークパターン規制の現在の障壁を批判的に議論し、有望な規制ソリューションを探究する。
様々な形態の暗黒パターンの規範的性質を特定することの難しさ、明らかで行動可能な害の特定、暗黒パターンの意味の広がりは本質的に効果的な規制を妨げている。
しかし、技術的に組み込まれたソリューション、説明責任フレームワーク、実用的な設計ガイドラインは、より積極的な規制のための潜在的なルートを提供する一方、法的多元性はダークパターン規制のための規制パラダイムにおける将来的なマクロレベルの変化である。
Dark patterns, design tricks used on online interfaces to manipulate users decision-making process, have raised public concerns. However, research on regulation of dark pattern remains underdeveloped and scattered, particularly regarding scholars views on the concept, regulatory paradigms, and solutions. Following PRISMA guidelines, this paper systematically reviews the formats and content of regulatory discussions on dark patterns from the interdisciplinary scholarship of Law and Human-Computer Interaction. A total of 65 studies were analysed through content and thematic analysis. This study synthesises the unique trends and characteristics of legal scholarship on dark patterns, identifying five root problems and triple layered harms. It critiques current regulations in terms of legal theories and sectoral legislations, highlighting their inadequacies in addressing dark patterns. The paper also critically examines existing proposed solutions, including paradigmatic shifts in legal doctrines, refinements to existing frameworks, technical design-embedded solutions, and accountability measures for design practices. This research critically discusses the current barriers to effective dark pattern regulations and explores promising regulatory solutions. The difficulty in identifying the normative nature of various forms of dark patterns, in identifying evident and actionable harm, and the expanding scope of dark patterns connotation inherently hinders effective regulation. However, technical design-embedded solutions, accountability frameworks, and practical design guidelines offer potential routes for more proactive regulation, while legal pluralism stands as a promising macro-level change in regulatory paradigms for dark pattern regulation. | 翻訳日:2024-07-16 16:40:16 公開日:2024-07-14 |
# 視覚プロンプティングによる順応型強化学習
Affordance-Guided Reinforcement Learning via Visual Prompting ( http://arxiv.org/abs/2407.10341v1 ) ライセンス: Link先を確認 | Olivia Y. Lee, Annie Xie, Kuan Fang, Karl Pertsch, Chelsea Finn, | (参考訳) 強化学習(RL)を備えたロボットは、報酬信号のみから幅広いスキルを学ぶことができる。
しかし、一般的な操作タスクに対して頑健で高密度な報酬信号を得ることは、依然として課題である。
既存の学習ベースのアプローチでは、タスク固有の報酬関数を学ぶために、成功例や失敗例などの重要なデータが必要である。
近年,ロボット工学における大規模マルチモーダル基盤モデルの普及が進んでいる。
これらのモデルは、物理的な文脈で視覚的推論を実行し、様々な操作タスクのための粗いロボットの動きを生成する。
本研究では,視覚言語モデル(VLM)によって形成される報酬を提案し,研究する。
最先端のVLMは、ゼロショットのキーポイントを通じて余裕を推論する印象的な能力を示しており、これを活用して、ロボット学習の深い報酬を定義する。
自然言語記述によって指定された実世界の操作タスクにおいて、これらの報酬は自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスクの完了を可能にする。
さらに、事前トレーニングに使用するドメイン内デモの数を減らすためのアプローチの堅牢性を実証し、オンラインファインタニングのステップで35Kに匹敵するパフォーマンスを達成した。
Robots equipped with reinforcement learning (RL) have the potential to learn a wide range of skills solely from a reward signal. However, obtaining a robust and dense reward signal for general manipulation tasks remains a challenge. Existing learning-based approaches require significant data, such as demonstrations or examples of success and failure, to learn task-specific reward functions. Recently, there is also a growing adoption of large multi-modal foundation models for robotics. These models can perform visual reasoning in physical contexts and generate coarse robot motions for various manipulation tasks. Motivated by this range of capability, in this work, we propose and study rewards shaped by vision-language models (VLMs). State-of-the-art VLMs have demonstrated an impressive ability to reason about affordances through keypoints in zero-shot, and we leverage this to define dense rewards for robotic learning. On a real-world manipulation task specified by natural language description, we find that these rewards improve the sample efficiency of autonomous RL and enable successful completion of the task in 20K online finetuning steps. Additionally, we demonstrate the robustness of the approach to reductions in the number of in-domain demonstrations used for pretraining, reaching comparable performance in 35K online finetuning steps. | 翻訳日:2024-07-16 16:40:16 公開日:2024-07-14 |
# PLACIDUS:厳格な保証事例の製品ライン
PLACIDUS: Engineering Product Lines of Rigorous Assurance Cases ( http://arxiv.org/abs/2407.10345v1 ) ライセンス: Link先を確認 | Logan Murphy, Torin Viger, Alessio Di Sandro, Marsha Chechik, | (参考訳) 重要なソフトウェアエンジニアリングにおいて、構造化保証ケース(AC)は、キープロパティ(例えば、安全性、セキュリティ)がエビデンスアーティファクト(例えば、テスト結果、証明)によってどのようにサポートされているかを示すために使用されます。
ACは自身で形式的対象として研究することもでき、形式的手法はそれらの正当性を確立するのに使うことができる。
厳格なACを作成することは、ソフトウェア製品ライン(SPL)のコンテキストにおいて特に困難であり、関連するソフトウェア製品のファミリーが同時に設計される。
製品ごとに個別のACを作成することは不可能であるため、AC開発は製品ラインのレベルまで引き上げる必要がある。
本研究では,形式的手法とソフトウェア製品ラインエンジニアリングを統合する手法であるPLACIDUSを提案する。
PLACIDUS の厳密な基盤を提供するため,可変性を考慮した AC 言語を定義し,その意味を証明アシスタントである Lean を用いて定式化する。
Eclipseベースのモデル管理フレームワークの一部としてPLACIDUSのツールサポートを提供しています。
最後に,医療機器の製品ライン用ACを開発し,PLACIDUSの実現可能性を示す。
In critical software engineering, structured assurance cases (ACs) are used to demonstrate how key properties (e.g., safety, security) are supported by evidence artifacts (e.g., test results, proofs). ACs can also be studied as formal objects in themselves, such that formal methods can be used to establish their correctness. Creating rigorous ACs is particularly challenging in the context of software product lines (SPLs), wherein a family of related software products is engineered simultaneously. Since creating individual ACs for each product is infeasible, AC development must be lifted to the level of product lines. In this work, we propose PLACIDUS, a methodology for integrating formal methods and software product line engineering to develop provably correct ACs for SPLs. To provide rigorous foundations for PLACIDUS, we define a variability-aware AC language and formalize its semantics using the proof assistant Lean. We provide tool support for PLACIDUS as part of an Eclipse-based model management framework. Finally, we demonstrate the feasibility of PLACIDUS by developing an AC for a product line of medical devices. | 翻訳日:2024-07-16 16:40:16 公開日:2024-07-14 |
# MambaForGCN: Aspect-Based Sentiment Analysisのための状態空間モデルとKolmogorov-Arnoldネットワークによる長距離依存性の強化
MambaForGCN: Enhancing Long-Range Dependency with State Space Model and Kolmogorov-Arnold Networks for Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2407.10347v1 ) ライセンス: Link先を確認 | Adamu Lawan, Juhua Pu, Haruna Yunusa, Aliyu Umar, Muhammad Lawan, | (参考訳) アスペクトベースの感情分析(ABSA)は、テキスト内のエンティティの特定の側面に対する感情を特定し、評価し、全体的な感情を超えた詳細な洞察を提供する。
しかし、注意機構とニューラルネットワークモデルは、統語的制約に悩まされており、注意機構の二次的な複雑さは、ABSAにおけるアスペクトと意見語の間の長距離依存関係をキャプチャするための採用を妨げる。
この複雑さは、無関係なコンテクストの単語の誤解釈を招き、その効果を短距離依存に制限する。
いくつかの研究は、意味論的アプローチと構文的アプローチの融合について研究しているが、これらの手法を効果的に統合する上での課題に直面している。
上記の問題に対処するため、ABSAにおけるアスペクトと意見語間の短距離および長距離依存関係を強化する新しいアプローチであるMambaForGCNを提案する。
この革新的なアプローチは、構文ベースのGraph Convolutional Network(SynGCN)とMambaFormer(Mamba-Transformer)モジュールを組み込んで、依存関係や意味情報による入力をエンコードする。
MHA(Multihead Attention)とMambaFormerモジュールのブロックは、アスペクトと意見語間の短距離および長距離の依存関係でモデルを拡張するためのチャネルとして機能する。
我々はまた、SynGCNとMambaFormer表現を組み合わせた適応的に統合された特徴表現システムであるKAN(Kolmogorov-Arnold Networks)ゲート融合についても紹介する。
3つのベンチマークデータセットの実験結果は、MambaForGCNの有効性を示し、最先端(SOTA)ベースラインモデルを上回っている。
Aspect-based sentiment Analysis (ABSA) identifies and evaluates sentiments toward specific aspects of entities within text, providing detailed insights beyond overall sentiment. However, Attention mechanisms and neural network models struggle with syntactic constraints, and the quadratic complexity of attention mechanisms hinders their adoption for capturing long-range dependencies between aspect and opinion words in ABSA. This complexity can lead to the misinterpretation of irrelevant con-textual words, restricting their effectiveness to short-range dependencies. Some studies have investigated merging semantic and syntactic approaches but face challenges in effectively integrating these methods. To address the above problems, we present MambaForGCN, a novel approach to enhance short and long-range dependencies between aspect and opinion words in ABSA. This innovative approach incorporates syntax-based Graph Convolutional Network (SynGCN) and MambaFormer (Mamba-Transformer) modules to encode input with dependency relations and semantic information. The Multihead Attention (MHA) and Mamba blocks in the MambaFormer module serve as channels to enhance the model with short and long-range dependencies between aspect and opinion words. We also introduce the Kolmogorov-Arnold Networks (KANs) gated fusion, an adaptively integrated feature representation system combining SynGCN and MambaFormer representations. Experimental results on three benchmark datasets demonstrate MambaForGCN's effectiveness, outperforming state-of-the-art (SOTA) baseline models. | 翻訳日:2024-07-16 16:40:16 公開日:2024-07-14 |
# 先進ノード半導体欠陥検査におけるクラス不均衡とデータ制限--SEM画像の生成的アプローチ
Addressing Class Imbalance and Data Limitations in Advanced Node Semiconductor Defect Inspection: A Generative Approach for SEM Images ( http://arxiv.org/abs/2407.10348v1 ) ライセンス: Link先を確認 | Bappaditya Dey, Vic De Ridder, Victor Blanco, Sandip Halder, Bartel Van Waeyenberge, | (参考訳) ナノメートル規模のデバイスキラー欠陥を特定する精度は、半導体の研究と開発、製造プロセスの両方において重要である。
この文脈における既存のMLベースのアプローチの有効性は、これらのモデルをトレーニングするための実際の半導体ウエハデータの生成は、高い財務と時間的コストを伴うため、データの不足によって大きく制限されている。
さらに, 従来のシミュレーション手法では, ノイズ特性, 表面粗さ, 高度ノードの確率的変動が同一である画像の複製に欠けていた。
限られたデータ構造内で拡散モデルを用いて合成半導体SEM画像を生成する手法を提案する。
従来のシミュレーション手法による画像とは対照的に,提案手法により生成されたSEM画像は実SEM画像とよく似ており,そのノイズ特性と表面粗さを適応的に再現する。
3つの異なる実半導体データセットで検証された主な貢献は次のとおりである。
一 DDPMを利用したパッチベースの生成フレームワークにより、クラス不均衡及びデータ不整合に関する課題に対処し、意図した欠陥クラスを有するSEM画像を作成すること。
二 生成した合成画像は、そのツールから取得した実SEM画像によく似ており、メタデータの監督なしに、すべての撮像条件及び気象特性を保存していること。
三 発生した欠陥データセットに基づいて訓練された欠陥検出装置を独立に又は限定された実際のデータセットと組み合わせて、実際の欠陥データセットの排他的トレーニングと比較して、検証・検査において、実際のウエハSEM画像に対して同様の又は改善された性能を達成できることを示すこと。
四 提案手法の欠陥タイプ、臨界次元、撮像条件を特定のCD/ピッチ及びメートル法仕様から別のものに伝達し、その汎用性を強調すること。
Precision in identifying nanometer-scale device-killer defects is crucial in both semiconductor research and development as well as in production processes. The effectiveness of existing ML-based approaches in this context is largely limited by the scarcity of data, as the production of real semiconductor wafer data for training these models involves high financial and time costs. Moreover, the existing simulation methods fall short of replicating images with identical noise characteristics, surface roughness and stochastic variations at advanced nodes. We propose a method for generating synthetic semiconductor SEM images using a diffusion model within a limited data regime. In contrast to images generated through conventional simulation methods, SEM images generated through our proposed DL method closely resemble real SEM images, replicating their noise characteristics and surface roughness adaptively. Our main contributions, which are validated on three different real semiconductor datasets, are: i) proposing a patch-based generative framework utilizing DDPM to create SEM images with intended defect classes, addressing challenges related to class-imbalance and data insufficiency, ii) demonstrating generated synthetic images closely resemble real SEM images acquired from the tool, preserving all imaging conditions and metrology characteristics without any metadata supervision, iii) demonstrating a defect detector trained on generated defect dataset, either independently or combined with a limited real dataset, can achieve similar or improved performance on real wafer SEM images during validation/testing compared to exclusive training on a real defect dataset, iv) demonstrating the ability of the proposed approach to transfer defect types, critical dimensions, and imaging conditions from one specified CD/Pitch and metrology specifications to another, thereby highlighting its versatility. | 翻訳日:2024-07-16 16:40:16 公開日:2024-07-14 |
# ウィグナーの正負性を超えた量子計算の効率的な古典シミュレーション
Efficient classical simulation of quantum computation beyond Wigner positivity ( http://arxiv.org/abs/2407.10349v1 ) ライセンス: Link先を確認 | Michael Zurel, Arne Heimendahl, | (参考訳) 我々は、パウリ可観測物の閉集合と非コンテキスト集合に基づく CNC 形式主義の一般化を、奇素次元キューディットの設定に提示する。
新たなCNC型位相空間点作用素を導入することにより、パウリ測度の下で保存されるクリフォード群と共変な量子計算の準確率表現を構築し、非負セクターは非負のウィグナー函数によって記述される量子理論の部分定理を厳密に含んでいる。
これにより、より広い種類のマジック状態量子回路を、安定化器形式法やウィグナー関数法によってカバーされているものよりも効率的に古典的にシミュレートすることができる。
We present the generalization of the CNC formalism, based on closed and noncontextual sets of Pauli observables, to the setting of odd-prime-dimensional qudits. By introducing new CNC-type phase space point operators, we construct a quasiprobability representation for quantum computation which is covariant with respect to the Clifford group and positivity preserving under Pauli measurements, and whose nonnegative sector strictly contains the subtheory of quantum theory described by nonnegative Wigner functions. This allows for a broader class of magic state quantum circuits to be efficiently classically simulated than those covered by the stabilizer formalism and Wigner function methods. | 翻訳日:2024-07-16 16:40:16 公開日:2024-07-14 |
# 複合概念と変圧器の比較:自然言語テキストに対する特許主張のマッチング
Comparing Complex Concepts with Transformers: Matching Patent Claims Against Natural Language Text ( http://arxiv.org/abs/2407.10351v1 ) ライセンス: Link先を確認 | Matthias Blume, Ghobad Heidari, Christoph Hewel, | (参考訳) 特許出願や特許ポートフォリオを管理する上で重要な機能は、クレームを他のテキストと比較することである。
クレームの言語は、特許出願や非パテントテキストで使われている言語とは異なるため、コンピュータベースの自然言語処理では困難である。
2つの新しいLCMベースのアプローチをテストし、両者が以前公表した値よりもかなり優れたパフォーマンスを提供することを示した。
あるドメインからの密集した情報を、異なる語彙で表されるはるかに多くの分散情報とマッチングする能力は、知的財産空間を超えても有用である。
A key capability in managing patent applications or a patent portfolio is comparing claims to other text, e.g. a patent specification. Because the language of claims is different from language used elsewhere in the patent application or in non-patent text, this has been challenging for computer based natural language processing. We test two new LLM-based approaches and find that both provide substantially better performance than previously published values. The ability to match dense information from one domain against much more distributed information expressed in a different vocabulary may also be useful beyond the intellectual property space. | 翻訳日:2024-07-16 16:40:16 公開日:2024-07-14 |
# 高度活動依存型マルチタスキングのための発達型ニューラルネットワーク
Evolved Developmental Artificial Neural Networks for Multitasking with Advanced Activity Dependence ( http://arxiv.org/abs/2407.10359v1 ) ライセンス: Link先を確認 | Yintong Zhang, Jason A. Yoder, | (参考訳) 近年,人工ニューラルネットワーク(ANN)の形成を導く開発プログラムの進化に,モンテカルロ遺伝プログラミングが用いられている。
このアプローチは、破滅的な忘れを回避しながら、ANNが複数のタスクを実行できるようにすることに成功した。
このアプローチのユニークな側面の1つは、別個の開発プログラムを使用することで、ソマとデンドライトの別ユニットの開発を規制することである。
このアプローチによって得られる機会は、活動依存(AD)をモデルに組み込むことで、環境フィードバックが各タイプのユニットの振る舞いを調節するのに役立つ。
これまでの研究では、AD非ANNよりも限界的な改善を提供するために、AD(神経バイアスに影響を与える)の限定バージョンが示されていた。
本稿では,ADの新たな拡張による有望な結果を示す。
具体的には、健康と位置を含む新しい神経パラメータに対するADによるより顕著な改善と、これらすべてとバイアスの組み合わせについて示します。
本研究の意義を報告するとともに,今後の研究に期待できる方向性をいくつか提案する。
Recently, Cartesian Genetic Programming has been used to evolve developmental programs to guide the formation of artificial neural networks (ANNs). This approach has demonstrated success in enabling ANNs to perform multiple tasks while avoiding catastrophic forgetting. One unique aspect of this approach is the use of separate developmental programs evolved to regulate the development of separate soma and dendrite units. An opportunity afforded by this approach is the ability to incorporate Activity Dependence (AD) into the model such that environmental feedback can help to regulate the behavior of each type of unit. Previous work has shown a limited version of AD (influencing neural bias) to provide marginal improvements over non-AD ANNs. In this work, we present promising results from new extensions to AD. Specifically, we demonstrate a more significant improvement via AD on new neural parameters including health and position, as well as a combination of all of these along with bias. We report on the implications of this work and suggest several promising directions for future work. | 翻訳日:2024-07-16 16:40:16 公開日:2024-07-14 |
# 量子弱値と「どちら」の問題
Quantum weak values and the 'which way?' question ( http://arxiv.org/abs/2407.10360v1 ) ライセンス: Link先を確認 | A. Uranga, E. Akhmatskaya, D. Sokolovski, | (参考訳) 不確実性原理は、量子系が旅行した2つの経路のどれかを決定することを禁止している。
ベトを避けるために、デバイスとシステム間の結合を弱めることができる。
しかし、弱いポインタが同時に不正確なポインタであることを示し、個々の試行においてシステムによって取られた経路に関する情報は必然的に失われる。
また、古典的なシステムが不正確な量子メーターによって監視されている場合、同様の問題が生じることも示している。
どちらの場合も、対応する統計アンサンブルのいくつかの特性、古典的な場合の経路確率と、量子系が関与している場合の確率振幅の関係を決定できる。
Uncertainty principle forbids one to determine which of the two paths a quantum system has travelled, unless interference between the alternatives had been destroyed by a measuring device, e.g., by a pointer. One can try to weaken the coupling between the device and the system, in order to avoid the veto. We demonstrate, however, that a weak pointer is at the same time an inaccurate one, and the information about the path taken by the system in each individual trial is inevitably lost. We show also that a similar problem occurs if a classical system is monitored by an inaccurate quantum meter. In both cases one can still determine some characteristic of the corresponding statistical ensemble, a relation between path probabilities in the classical case, and a relation between the probability amplitudes if a quantum system is involved. | 翻訳日:2024-07-16 16:40:16 公開日:2024-07-14 |
# LAB-Bench:生物学研究のための言語モデルの能力測定
LAB-Bench: Measuring Capabilities of Language Models for Biology Research ( http://arxiv.org/abs/2407.10362v1 ) ライセンス: Link先を確認 | Jon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling, Siddharth Narayanan, Manvitha Ponnapati, Andrew D. White, Samuel G. Rodriques, | (参考訳) フロンティア大言語モデル(LLM)とLLM拡張システムは、分野によって科学的な発見を迅速に加速する可能性があるという、幅広い楽観主義がある。
現在、LLMの知識と推論を教科書スタイルの科学問題で測定するためのベンチマークが多数存在するが、文献検索、プロトコル計画、データ分析などの科学研究に必要な実践的なタスクにおいて言語モデルのパフォーマンスを評価するために設計されたベンチマークはほとんどない。
このようなベンチマークを構築するためのステップとして、Language Agent Biology Benchmark (LAB-Bench) を導入し、文献のリコールと推論、数字の解釈、データベースのアクセスとナビゲーション、DNAとタンパク質配列の理解と操作など、AIシステムを評価するための2,400以上の選択肢の広いデータセットを紹介した。
重要なことは、従来の科学的ベンチマークとは対照的に、より難しいLAB-Benchタスクで一貫した高いスコアを達成できるAIシステムは、文学検索や分子クローニングといった分野の研究者にとって有用なアシスタントとなるだろう。
本研究は,フロンティア言語モデルの創発的科学的タスク能力の初回評価として,我々のベンチマークに対していくつかの性能を測定し,人間の専門生物学研究者と比較して結果を報告する。
LAB-Benchは今後もアップデートと拡張を続けますし、今後は自動研究システムの開発に有用なツールになるだろうと考えています。
LAB-Benchのパブリックサブセットは、以下のURLで利用可能である。
There is widespread optimism that frontier Large Language Models (LLMs) and LLM-augmented systems have the potential to rapidly accelerate scientific discovery across disciplines. Today, many benchmarks exist to measure LLM knowledge and reasoning on textbook-style science questions, but few if any benchmarks are designed to evaluate language model performance on practical tasks required for scientific research, such as literature search, protocol planning, and data analysis. As a step toward building such benchmarks, we introduce the Language Agent Biology Benchmark (LAB-Bench), a broad dataset of over 2,400 multiple choice questions for evaluating AI systems on a range of practical biology research capabilities, including recall and reasoning over literature, interpretation of figures, access and navigation of databases, and comprehension and manipulation of DNA and protein sequences. Importantly, in contrast to previous scientific benchmarks, we expect that an AI system that can achieve consistently high scores on the more difficult LAB-Bench tasks would serve as a useful assistant for researchers in areas such as literature search and molecular cloning. As an initial assessment of the emergent scientific task capabilities of frontier language models, we measure performance of several against our benchmark and report results compared to human expert biology researchers. We will continue to update and expand LAB-Bench over time, and expect it to serve as a useful tool in the development of automated research systems going forward. A public subset of LAB-Bench is available for use at the following URL: https://huggingface.co/datasets/futurehouse/lab-bench | 翻訳日:2024-07-16 16:40:16 公開日:2024-07-14 |
# ワールドラインパス積分のパスワイズ微分
Pathwise Differentiation of Worldline Path Integrals ( http://arxiv.org/abs/2407.06470v2 ) ライセンス: Link先を確認 | Jonathan B. Mackrory, He Zheng, Daniel A. Steck, | (参考訳) The worldline method is a powerful numerical path-integral framework for computing Casimir and Casimir-Polder energys。
パス積分量(英語版)の微分を求めるとき、例えば標準有限差分法(英語版)が精度の悪い結果をもたらすとき、重要な課題が生じる。
本研究では,スカラー場のワールドライン型経路積分の導関数を計算し,力,エネルギー曲率,トルクを計算する手法を提案する。
カシミール・ポルダー型経路積分では、経路の原点に関する微分を必要とするが、この微分は経路積分の単純な再重み付けによって計算することができる。
しかし、微分された経路を計算的に効率的に表現するためには、部分拡張技術が必要である。
カシミール力、曲率、およびマクロ体間のトルクの計算についても論じる。
ここでは、ボディとの交叉のすべての導関数の和を含む異なる方法が用いられ、また別の部分的解法が経路を効率良くする。
本手法の効率性を示すため,原子面および平面面におけるこれらのワールドライン手法の数値的な実装結果を示す。
非常に一般的なので、ここでの手法は、世界の文脈外の経路積分(例えば、金融数学)に適用すべきである。
The worldline method is a powerful numerical path-integral framework for computing Casimir and Casimir-Polder energies. An important challenge arises when one desires derivatives of path-integral quantities--standard finite-difference techniques, for example, yield results of poor accuracy. In this work we present methods for computing derivatives of worldline-type path integrals of scalar fields to calculate forces, energy curvatures, and torques. In Casimir-Polder-type path integrals, which require derivatives with respect to the source point of the paths, the derivatives can be computed by a simple reweighting of the path integral. However, a partial-averaging technique is necessary to render the differentiated path integral computationally efficient. We also discuss the computation of Casimir forces, curvatures, and torques between macroscopic bodies. Here a different method is used, involving summing over the derivatives of all the intersections with a body; again, a different partial-averaging method makes the path integral efficient. To demonstrate the efficiency of the techniques, we give the results of numerical implementations of these worldline methods in atomplane and plane-plane geometries. Being quite general, the methods here should apply to path integrals outside the worldline context (e.g., financial mathematics). | 翻訳日:2024-07-16 13:41:05 公開日:2024-07-14 |
# Event Trojan: 非同期イベントベースのバックドアアタック
Event Trojan: Asynchronous Event-based Backdoor Attacks ( http://arxiv.org/abs/2407.06838v2 ) ライセンス: Link先を確認 | Ruofei Wang, Qing Guo, Haoliang Li, Renjie Wan, | (参考訳) 非同期イベントデータがさまざまなビジョンタスクに頻繁に関与するため、バックドア攻撃のリスクはより明確になる。
しかし、非同期イベントデータにおけるバックドア攻撃に関連する潜在的なリスクの研究は少なく、関連するタスクは潜在的な脅威に弱いままである。
本稿では,Event Trojanフレームワークを提案することで,イベントデータストリームに直接害を与える可能性を明らかにした。
具体的には、私たちの2種類のイベントトリガは、シミュレーションされたイベントスパイクのシーケンスに基づいており、任意のイベントストリームに簡単に組み込んでバックドア攻撃を開始することができます。
さらに、変更可能なトリガに対して、アダプティブな学習機構を設計し、その攻撃性を最大化する。
ステルス性を向上させるため,変更可能なトリガの生成内容を制約し,有効性を保ちながらトリガとオリジナルイベントの差を最小限に抑える新規な損失関数を導入した。
公開イベントデータセットに関する大規模な実験は、提案されたバックドアトリガの有効性を示している。
この論文は、イベントベースのタスクに対するバックドア攻撃による潜在的な脅威に、より注意を向けることを願っている。
私たちのコードはhttps://github.com/rfww/EventTrojan.comから入手可能です。
As asynchronous event data is more frequently engaged in various vision tasks, the risk of backdoor attacks becomes more evident. However, research into the potential risk associated with backdoor attacks in asynchronous event data has been scarce, leaving related tasks vulnerable to potential threats. This paper has uncovered the possibility of directly poisoning event data streams by proposing Event Trojan framework, including two kinds of triggers, i.e., immutable and mutable triggers. Specifically, our two types of event triggers are based on a sequence of simulated event spikes, which can be easily incorporated into any event stream to initiate backdoor attacks. Additionally, for the mutable trigger, we design an adaptive learning mechanism to maximize its aggressiveness. To improve the stealthiness, we introduce a novel loss function that constrains the generated contents of mutable triggers, minimizing the difference between triggers and original events while maintaining effectiveness. Extensive experiments on public event datasets show the effectiveness of the proposed backdoor triggers. We hope that this paper can draw greater attention to the potential threats posed by backdoor attacks on event-based tasks. Our code is available at https://github.com/rfww/EventTrojan. | 翻訳日:2024-07-16 13:41:05 公開日:2024-07-14 |
# 視覚変換器のパラメータ効率とメモリ効率の調整:アンタングルアプローチ
Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach ( http://arxiv.org/abs/2407.06964v2 ) ライセンス: Link先を確認 | Taolin Zhang, Jiawang Bai, Zhihe Lu, Dongze Lian, Genping Wang, Xinchao Wang, Shu-Tao Xia, | (参考訳) パラメータ効率変換学習(PETL)に関する最近の研究は、学習可能なパラメータがわずかしかない下流認識タスクに事前学習されたビジョントランスフォーマーを適用する可能性を示している。
しかし、それらは通常、事前訓練されたモデルに新しい構造を挿入するため、そのモデルの中間機能全体が変更され、バックプロパゲーションに関わるために保存される必要があり、結果としてメモリの重いトレーニングが発生する。
我々は,PETLをタスク特化学習と事前学習した知識利用の2つの側面に分割する,新しいアンタングル的視点からこの問題を解決する。
具体的には、学習可能で軽量なモジュールでタスク固有のクエリを合成する。
タスク固有の知識を備えた合成クエリは、事前学習されたモデルの中間表現から、クエリのみの方法で下流タスクの有用な特徴を抽出するのに役立つ。
これらの特徴に基づいて、入力サンプルの予測を行うために、カスタマイズされた分類ヘッドを提案する。
軽量なアーキテクチャと、勾配降下を実行するための重い中間機能の使用を避けることで、トレーニングにおけるメモリ使用量の制限が示される。
大規模な実験により,本手法はメモリ制約下での最先端性能を実現し,実環境における適用可能性を示す。
Recent works on parameter-efficient transfer learning (PETL) show the potential to adapt a pre-trained Vision Transformer to downstream recognition tasks with only a few learnable parameters. However, since they usually insert new structures into the pre-trained model, entire intermediate features of that model are changed and thus need to be stored to be involved in back-propagation, resulting in memory-heavy training. We solve this problem from a novel disentangled perspective, i.e., dividing PETL into two aspects: task-specific learning and pre-trained knowledge utilization. Specifically, we synthesize the task-specific query with a learnable and lightweight module, which is independent of the pre-trained model. The synthesized query equipped with task-specific knowledge serves to extract the useful features for downstream tasks from the intermediate representations of the pre-trained model in a query-only manner. Built upon these features, a customized classification head is proposed to make the prediction for the input sample. lightweight architecture and avoids the use of heavy intermediate features for running gradient descent, it demonstrates limited memory usage in training. Extensive experiments manifest that our method achieves state-of-the-art performance under memory constraints, showcasing its applicability in real-world situations. | 翻訳日:2024-07-16 13:41:05 公開日:2024-07-14 |
# シーリングのライジング:動的ビュースイッチングによる競合のないローカル特徴マッチング
Raising the Ceiling: Conflict-Free Local Feature Matching with Dynamic View Switching ( http://arxiv.org/abs/2407.07789v2 ) ライセンス: Link先を確認 | Xiaoyong Lu, Songlin Du, | (参考訳) 現代の特徴マッチング手法では、最適化能力の向上を優先し、結果の理論的上限である接地真実マッチング(英語版)と出力の整合性を改善する。
しかし、これらの拡張は、小規模な画像におけるマッチング可能な点の不足、密集した方法での競合の一致、スパース法におけるキーポイント・リピータビリティの信頼など、地道整合を直接妨げる根本的な問題に対処することができない。
本稿では3つの側面からマッチングのシーリングを向上するRCMという特徴マッチング手法を提案する。
1) RCMは, 画像対を戦略的に切り替えることで, 画像中の一致点の不足に対処する動的ビュー切替機構を導入している。
2) RCM は競合のない粗いマッチングモジュールを提案し,複数対1のマッチング戦略によって対象画像の競合に対処する。
3)半スパースパラダイムと粗大なアーキテクチャを統合することにより,RCMは高効率とグローバル検索の両方の利点を保ち,キーポイントの再現性への依存を緩和する。
その結果、RCMにより、ターゲット画像において、ソース画像のより整合性のある点が、徹底的かつ矛盾のない方法で一致し、グラウンドトルースマッチが260%増加する。
総合的な実験により、RCMは最先端の手法と比較して顕著な性能と効率を示した。
Current feature matching methods prioritize improving modeling capabilities to better align outputs with ground-truth matches, which are the theoretical upper bound on matching results, metaphorically depicted as the "ceiling". However, these enhancements fail to address the underlying issues that directly hinder ground-truth matches, including the scarcity of matchable points in small scale images, matching conflicts in dense methods, and the keypoint-repeatability reliance in sparse methods. We propose a novel feature matching method named RCM, which Raises the Ceiling of Matching from three aspects. 1) RCM introduces a dynamic view switching mechanism to address the scarcity of matchable points in source images by strategically switching image pairs. 2) RCM proposes a conflict-free coarse matching module, addressing matching conflicts in the target image through a many-to-one matching strategy. 3) By integrating the semi-sparse paradigm and the coarse-to-fine architecture, RCM preserves the benefits of both high efficiency and global search, mitigating the reliance on keypoint repeatability. As a result, RCM enables more matchable points in the source image to be matched in an exhaustive and conflict-free manner in the target image, leading to a substantial 260% increase in ground-truth matches. Comprehensive experiments show that RCM exhibits remarkable performance and efficiency in comparison to state-of-the-art methods. | 翻訳日:2024-07-16 13:41:05 公開日:2024-07-14 |
# ビンレス多次元積分による密度推定
Density Estimation via Binless Multidimensional Integration ( http://arxiv.org/abs/2407.08094v2 ) ライセンス: Link先を確認 | Matteo Carli, Alex Rodriguez, Alessandro Laio, Aldo Glielmo, | (参考訳) 非パラメトリック・ロバスト・データ効率密度推定のためのBinless Multidimensional Thermodynamic Integration (BMTI) 法を提案する。
BMTIは、近隣のデータポイント間の対数密度差を計算し、その密度の対数を推定する。
その後、そのような差分は、それらの関連する不確実性によって重み付けされ、最大的様相の定式化によって統合される。
この手順は、統計物理学で開発された技術である熱力学積分の多次元的な設定の拡張と見なすことができる。
この方法は多様体仮説を利用して、明示的な座標写像を定義することなく本質的なデータ多様体内の量を推定する。
双対や空間分割には依存せず、適応的な帯域幅選択手順に基づく近傍グラフの構築に頼っている。
BMTIは従来の非パラメトリック密度推定器に共通する制限を緩和し、高次元埋め込み空間においてもスムーズなプロファイルを効果的に再構築する。
この方法は、様々な複雑な合成高次元データセットでテストされ、従来の推定値よりも優れていることが示され、化学物理学の文献から現実的なデータセットでベンチマークされる。
We introduce the Binless Multidimensional Thermodynamic Integration (BMTI) method for nonparametric, robust, and data-efficient density estimation. BMTI estimates the logarithm of the density by initially computing log-density differences between neighbouring data points. Subsequently, such differences are integrated, weighted by their associated uncertainties, using a maximum-likelihood formulation. This procedure can be seen as an extension to a multidimensional setting of the thermodynamic integration, a technique developed in statistical physics. The method leverages the manifold hypothesis, estimating quantities within the intrinsic data manifold without defining an explicit coordinate map. It does not rely on any binning or space partitioning, but rather on the construction of a neighbourhood graph based on an adaptive bandwidth selection procedure. BMTI mitigates the limitations commonly associated with traditional nonparametric density estimators, effectively reconstructing smooth profiles even in high-dimensional embedding spaces. The method is tested on a variety of complex synthetic high-dimensional datasets, where it is shown to outperform traditional estimators, and is benchmarked on realistic datasets from the chemical physics literature. | 翻訳日:2024-07-16 13:31:11 公開日:2024-07-14 |
# 非言語的相互作用検出
Nonverbal Interaction Detection ( http://arxiv.org/abs/2407.08133v2 ) ライセンス: Link先を確認 | Jianan Wei, Tianfei Zhou, Yi Yang, Wenguan Wang, | (参考訳) この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。
非言語信号は事実上すべてのコミュニケーション行為に及んでいる。
私たちのジェスチャー、表情、姿勢、視線、身体的外観でさえ、何も言わずにメッセージを伝える。
社会生活において重要な役割を担っているにもかかわらず、非言語的信号は言語的信号と比較して非常に注意を引いており、既存の解は通常、非言語的手がかりを独立して調べている。
本研究は,多面的非言語信号の解釈を強化するための最初の体系的な取り組みである。
まず,NVIと呼ばれる新しい大規模データセットについて述べる。このデータセットは,人間とそれに対応する社会集団の接頭辞と,5つの幅広い相互作用型に基づく22の原子レベルの非言語行動を含むように細心の注意を払って注釈付けされている。
第2に,非言語的インタラクション検出のための新しいタスクNVI-DETを構築し,画像から「個人的,グループ的,インタラクション」の形で三重項を識別する。
第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
モデルの中心は2つのマルチスケールハイパーグラフであり、様々なスケールにわたる個人と個人、グループ、グループ間の相関に順応的に対処し、相互作用の特徴学習を容易にし、最終的には相互作用予測を改善する。
NVI-DEHRはNVI-DETにおいて様々な基線を著しく改善することを示した。
また、HOI-DETでの主要なパフォーマンスを示し、関連するタスクと強力な一般化能力をサポートするための汎用性を確認している。
われわれの研究が、非言語的なシグナルをより深く探求するための新たな道を提供することを期待している。
This work addresses a new challenge of understanding human nonverbal interaction in social contexts. Nonverbal signals pervade virtually every communicative act. Our gestures, facial expressions, postures, gaze, even physical appearance all convey messages, without anything being said. Despite their critical role in social life, nonverbal signals receive very limited attention as compared to the linguistic counterparts, and existing solutions typically examine nonverbal cues in isolation. Our study marks the first systematic effort to enhance the interpretation of multifaceted nonverbal signals. First, we contribute a novel large-scale dataset, called NVI, which is meticulously annotated to include bounding boxes for humans and corresponding social groups, along with 22 atomic-level nonverbal behaviors under five broad interaction types. Second, we establish a new task NVI-DET for nonverbal interaction detection, which is formalized as identifying triplets in the form <individual, group, interaction> from images. Third, we propose a nonverbal interaction detection hypergraph (NVI-DEHR), a new approach that explicitly models high-order nonverbal interactions using hypergraphs. Central to the model is a dual multi-scale hypergraph that adeptly addresses individual-to-individual and group-to-group correlations across varying scales, facilitating interactional feature learning and eventually improving interaction prediction. Extensive experiments on NVI show that NVI-DEHR improves various baselines significantly in NVI-DET. It also exhibits leading performance on HOI-DET, confirming its versatility in supporting related tasks and strong generalization ability. We hope that our study will offer the community new avenues to explore nonverbal signals in more depth. | 翻訳日:2024-07-16 13:31:11 公開日:2024-07-14 |